La digitalizzazione di libri e documenti

I libri presenti in questa biblioteca digitale sono, appunto, copie digitali degli originali cartacei conservati nelle relative biblioteche.  Le copie digitali sono ottenute da processi di digitalizzazione che possono essere semplicemente fotografici oppure, se si tratta di testi, con riconoscimento ottico dei caratteri (OCR, Optical Character Recognition).

In entrambi i casi le scansioni possono farsi tramite apparecchiature fisiche (scanner più o meno sofisticati) oppure con software che utilizzano gli stessi componenti elettronici dei computer, come vedremo più avanti.

Sia per la scansione fotografica che per quella con riconoscimento dei caratteri, l’elemento determinante è la qualità del risultato che, nel primo caso è nel dettaglio dell’immagine, nel secondo nella precisione ortografica.

Nella scansione fotografica la qualità del dettaglio dipende dalla qualità dello strumento fisico, in quella OCR dalla qualità del software e dalla sua maggiore o minore capacità di interpretare come non appartenenti al testo gli innumerevoli granelli di polvere, increspature, macchie e sbordature d’inchiostro che, invisibili ad occhio nudo, sono sempre presenti nei supporti cartacei: un granellino di polvere trasformerà agevolmente una enne in emme, l’increspatura del foglio una pi in erre.

Per fare un esempio concreto, questo è il risultato della scansione OCR di una voce dell’Enciclopedia Treccani fatta con il software gImageReader, tra i migliori in ambito open source:

A sinistra l’originale a stampa, a destra il risultato della scansione. E già potrebbe considerarsi soddisfacente ma in altri casi gli errori sono tanti e la loro correzione può richiedere più tempo della riscrittura manuale del documento originale.

Nel caso di Biblioteca Valdarnese, i documenti in formato OCR sono pochissimi (giusto quelli provenienti da Liber-liber che utilizza appunto questa tecnica per le sue produzioni) mentre la quasi totalità sono il risultato di scansioni fotografiche nelle quali la componente che decide la qualità è quella umana.

I libri che trovate sugli scaffali virtuali di Biblioteca Valdarnese sono scansionati principalmente da tre soggetti: Google, Internet Archive ed a cura degli stessi Istituti che posseggono gli originali, quindi Biblioteche pubbliche, private, universitarie eccetera.

Materialmente le scansioni sono fatte da volontari nel caso di Internet Archive, studenti per quanto riguarda le biblioteche universitarie e personale impiegatizio o comunque pagato per gli Istituti come ad esempio gli Archivi di Stato, l’INPS, le Biblioteche statali e probabilmente per Google che ha un apposito dipartimento che si interessa della materia, Google Book. Ed è proprio Google Book che offre un esempio di quanto sia determinante il fattore umano nella scansione di documenti e libri:

Come si vede subito la scansione (si tratta del volume “Pareri ed osservazioni mediche sulla malattia febbrile manifestatasi in diverse parti della Toscana nel corrente anno 1817” proveniente dalla Biblioteca Nazionale Centrale di Firenze e scansionato da personale Google) è stata fatta con tantissima malagrazia ed è praticamente inutilizzabile. Purtroppo non si tratta di un’eccezione e neanche di un episodio locale perchè risultati simili li abbiamo incontrati su scansioni fatte alla Harvard Library, alla Biblioteca Nazionale di Roma, alla Toronto University Library ed altre istituzioni in giro per il mondo. Nella maggior parte dei casi le scansioni sono imputabili a Google ma è capitato di incontrare simili qualità anche su volumi trattati da biblioteche universitarie americane e sono purtroppo tanti i volumi che abbiamo dovuto scartare dopo lunghi download perchè, appunto, prodotti con eccellenti apparecchiature tecniche ma pessima qualità umana. 

Torna a Guida alla Biblioteca

 

 

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.