Digitalizzare un testo

Digitalizzare un testo significa “spostarlo” da un supporto cartaceo a uno digitale.

01_digitalizzazione

(1) La prima fase consiste nell’acquisire l’immagine del libro cartaceo con uno scanner (pagina dopo pagina e manualmente). Azione semplice come fare una fotocopia, ma impegnativa se il libro è composto da molte pagine oppure se è particolarmente usurato. (2) Il risultato ottenuto sarà un’immagine in formato PDF del libro che potremo archiviare nel computer o in un cloud oppure inviare per e-mail. Il testo però non è ancora modificabile né ricercabile.

02_digitalizzazione

Per far sì che l’immagine diventi testo modificabile è necessario usare uno specifico software chiamato OCR (Optical Character RecognitionRiconoscimento ottico dei caratteri) (3) che analizza l’immagine e ne riconosce i caratteri tipografici restituendo finalmente il testo in un formato digitale modificabile (4), per esempio in .docx di Microsoft Word o in altri formati.

L’OCR, però, non è infallibile. Spesso interpreta male l’immagine e di conseguenza introduce caratteri tipografici estranei al testo. Ciò può avvenire a causa della scarsa qualità della scansione; della scorretta impostazione delle opzioni del software OCR oppure perché, più banalmente, la leggibilità del testo è disturbata da piccole macchie o altri segni presenti sulla carta.

03_digitalizzazione L’OCR restitutisce al 99% il testo corretto, il restante 1% è dunque costituito da refusi che devono essere corretti (5). La fase di “pulitura” del testo (6) è puramente redazionale e non può essere fatta automaticamente. Il risultato sarà un testo corretto in ogni sua parte (7) e pronto per essere finalmente usato per le nostre successive modifiche personali oppure potrà essere la base di partenza per altri formati digitali.

NB. Se il testo da digitalizzare presenta una struttura particolarmente complessa e articolata (immagini, tabelle, elementi grafici nel testo) la percentuale di errori introdotti aumenterà notevolmente.

Ecco degli esempi di come appare il testo dopo le tre principali fasi qui descritte:

Print Friendly, PDF & Email