Eb tecnologia: differenze tra le versioni

[versione verificata][versione verificata]
(Aggiornamento minimo)
 
Riga 3: Riga 3:
 
=== SCANSIONE ED INTERPRETAZIONE (OCR) DI 22 VOLUMI ===
 
=== SCANSIONE ED INTERPRETAZIONE (OCR) DI 22 VOLUMI ===
 
In seguito ad una preanalisi del materiale è stato possibile evidenziare i seguenti passaggi:
 
In seguito ad una preanalisi del materiale è stato possibile evidenziare i seguenti passaggi:
** Effettuare la scansione dei 22 volumi.
+
** Va effettuata la scansione dei 22 volumi.
** In seguito alla scansione effettuare un riconoscimento dei caratteri tramite OCR di ultima generazione (impara dalle correzioni).
+
** In seguito alla scansione, bisogna procedere con un riconoscimento dei caratteri tramite OCR di ultima generazione (che impari dalle correzioni).
** I primi 3 volumi dell'Enciclopedia sono stampati con una tecnica che richiede trattamento accessorio.
+
** I primi 3 volumi dell'Enciclopedia sono stampati con una tecnica che richiede trattamento accessorio, bisogna fare dei test.
 
** Fotografie e didascalie vanno adattate manualmente.
 
** Fotografie e didascalie vanno adattate manualmente.
 
** I dati ottenuti vanno confrontati con i file digitali esistenti per produrre un risultato ottimale.
 
** I dati ottenuti vanno confrontati con i file digitali esistenti per produrre un risultato ottimale.

Versione attuale delle 10:01, 15 mar 2023

Tecnologia utilizzata

SCANSIONE ED INTERPRETAZIONE (OCR) DI 22 VOLUMI

In seguito ad una preanalisi del materiale è stato possibile evidenziare i seguenti passaggi:

    • Va effettuata la scansione dei 22 volumi.
    • In seguito alla scansione, bisogna procedere con un riconoscimento dei caratteri tramite OCR di ultima generazione (che impari dalle correzioni).
    • I primi 3 volumi dell'Enciclopedia sono stampati con una tecnica che richiede trattamento accessorio, bisogna fare dei test.
    • Fotografie e didascalie vanno adattate manualmente.
    • I dati ottenuti vanno confrontati con i file digitali esistenti per produrre un risultato ottimale.
    • Va fatta una correzione preliminare del testo per eliminare errori OCR e correggere eventuali refusi.

L'operazione di scansione e di OCR è stata effettuata da una struttura bresciana: [La Bottega Informatica], una Cooperativa Sociale ONLUS.

Per velocizzare l'elaborazione le pagine dei volumi sono state separate:

Scansione 01 preparare libro.jpg

Le pagine sono state poste nello scanner:

Scansione 02 scanner.jpg

Il personale della struttura ha verificato l'elaborazione dell'OCR:

Scansione 03 scanner.jpg


APPLICATIVO PER L'ENCICLOPEDIA E TRAVASO DEI DATI

Per poter pubblicare on-line i dati è necessario utilizzare un adeguato applicativo:

    • L'applicativo che sembra prestarsi meglio per questo tipo di opera è [MediaWiki], della Wikimedia Foundation, lo stesso utilizzato per la nota Wikipedia. Tale sistema nella versione di base è liberamente disponibile: si tratta infatti di un software free ed open source rilasciato con licenza [GNU GPL v.2].
    • È stata prevista una personalizzazione iniziale di MediaWiki per adattare il sistema alle peculiarità dell’Enciclopedia Bresciana.
    • A partire dai testi digitalizzati va realizzata con un programma ad hoc una strutturazione cui seguirà una classificazione, in modo che sia possibile inserire i dati nell'archivio dell'applicativo.
    • Va fatta a campione una revisione manuale delle voci importate automaticamente.