Giovedì 5 maggio 2016, alle 11.00 ad ExpoPixel2016, parleremo di…
Un workflow per la trascrizione automatica di quotidiani storici a stampa presentato ad IRCDL2026
Sono già un paio di anni che lavoriamo per individuare il sistema migliore per applicare un modello di layout parsing open source all’analisi di quotidiani storici. Applicare il sistema OCR a una pagina complessa come quella di un quotidiano senza prima aver applicato una opportuna e corretta segmentazione dei contenuti, in base a titoli, articoli ed inserzioni promozionali, limita infatti grandemente la possibilità di interrogare i testi. Si tratta, del resto, di un operare su un ricchissimo catalogo di digitalizzazioni, cresciuto notevolmente grazie alla spinta ricevuta dalle campagne PNRR, meritevole perciò di maggiore attenzione per le opportunità che sarebbero messe a disposizione dei ricercatori.
Raggiunti risultati soddisfacenti dopo una fase di fine-tuning, ed in attesa di far testare lo strumento ad un campione di ricercatori provenienti da differenti campi, è giunto il momento di fare il punto. L’occasione è stata offerta da IRCDL 2026, durante la quale abbiamo presentato quanto fatto finora, in attesa del workshop su AI, Beni Culturali, Arte e Scienza, che si terrà il prossimo 27 marzo 2026 ed aprirà il dibattito tra gli studiosi che hanno ipotizzato uno User Journey in proposito.

