{"id":4025,"date":"2026-02-19T17:56:00","date_gmt":"2026-02-19T16:56:00","guid":{"rendered":"http:\/\/visitlab.cineca.it\/?p=4025"},"modified":"2026-02-19T17:59:15","modified_gmt":"2026-02-19T16:59:15","slug":"un-workflow-per-trascrivere-quotidiani-storici-a-stampa-presentato-ad-ircdl2026","status":"publish","type":"post","link":"https:\/\/visitlab.cineca.it\/index.php\/2026\/02\/19\/un-workflow-per-trascrivere-quotidiani-storici-a-stampa-presentato-ad-ircdl2026\/","title":{"rendered":"Un workflow per la trascrizione automatica di quotidiani storici a stampa presentato ad IRCDL2026"},"content":{"rendered":"\n<p>Sono gi\u00e0 un paio di anni che lavoriamo per individuare il sistema migliore per applicare un modello di layout parsing open source all&#8217;analisi di quotidiani storici. Applicare il sistema OCR a una pagina complessa come quella di un quotidiano senza prima aver applicato una opportuna e corretta segmentazione dei contenuti, in base a titoli, articoli ed inserzioni promozionali, limita infatti grandemente la possibilit\u00e0 di interrogare i testi. Si tratta, del resto, di un operare su un ricchissimo catalogo di digitalizzazioni, cresciuto notevolmente grazie alla spinta ricevuta dalle campagne PNRR, meritevole perci\u00f2 di maggiore attenzione per le opportunit\u00e0 che sarebbero messe a disposizione dei ricercatori. <\/p>\n\n\n\n<p>Raggiunti risultati soddisfacenti dopo una fase di fine-tuning, ed in attesa di far testare lo strumento ad un campione di ricercatori provenienti da differenti campi, \u00e8 giunto il momento di fare il punto. L&#8217;occasione \u00e8 stata offerta da <a rel=\"noreferrer noopener\" href=\"https:\/\/ircdl2026.unimore.it\/\" target=\"_blank\">IRCDL 2026<\/a>, durante la quale abbiamo presentato quanto fatto finora, in attesa del workshop su AI, Beni Culturali, Arte e Scienza, che si terr\u00e0 il prossimo 27 marzo 2026 ed aprir\u00e0 il dibattito tra gli studiosi che hanno ipotizzato uno <em>User Journey<\/em> in proposito. <\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"768\" height=\"1024\" src=\"http:\/\/131.175.207.45\/wp-content\/uploads\/2026\/02\/ircdl2026-768x1024.jpg\" alt=\"\" class=\"wp-image-4035\" srcset=\"https:\/\/visitlab.cineca.it\/wp-content\/uploads\/2026\/02\/ircdl2026-768x1024.jpg 768w, https:\/\/visitlab.cineca.it\/wp-content\/uploads\/2026\/02\/ircdl2026-225x300.jpg 225w, https:\/\/visitlab.cineca.it\/wp-content\/uploads\/2026\/02\/ircdl2026-1152x1536.jpg 1152w, https:\/\/visitlab.cineca.it\/wp-content\/uploads\/2026\/02\/ircdl2026-113x150.jpg 113w, https:\/\/visitlab.cineca.it\/wp-content\/uploads\/2026\/02\/ircdl2026.jpg 1200w\" sizes=\"auto, (max-width: 768px) 100vw, 768px\" \/><figcaption>Si saranno coordinati per l&#8217;outfit i nostri relatori o hanno studiato entrambi l&#8217;importanza di scegliere qualcosa di chiaro da mettere vicino al viso quando ci si prepara per una apparizione pubblica? In entrambi i casi, ben fatto <\/figcaption><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Sono gi\u00e0 un paio di anni che lavoriamo per individuare il sistema migliore per applicare un modello di layout parsing open source all&#8217;analisi di quotidiani storici. Applicare il sistema OCR a una pagina complessa come quella di un quotidiano senza prima aver applicato una opportuna e corretta segmentazione dei contenuti, in base a titoli, articoli [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":4038,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4],"tags":[],"class_list":["post-4025","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dissemination"],"blocksy_meta":[],"_links":{"self":[{"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/posts\/4025","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/comments?post=4025"}],"version-history":[{"count":11,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/posts\/4025\/revisions"}],"predecessor-version":[{"id":4040,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/posts\/4025\/revisions\/4040"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/media\/4038"}],"wp:attachment":[{"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/media?parent=4025"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/categories?post=4025"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/visitlab.cineca.it\/index.php\/wp-json\/wp\/v2\/tags?post=4025"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}