Raziskovalci uporabljajo AI za digitalizacijo Vatikanskih tajnih arhivov

V vatikanskih skrivnih arhivih je približno 35.000 zvezkov in z več kot 80 kilometri napolnjenih knjižnih polic, ena najpomembnejših zgodovinskih zbirk človeštva, najstarejši rokopis iz konca 8. stoletja. Težava je v tem, da do njega ni mogoče dostopati praktično in je na voljo samo akademikom, ki se lahko preselijo na sedež katoliške cerkve.

Skupina raziskovalcev z univerze Roma Tre in univerze La Sapienza, oba v glavnem mestu Italije, to želi spremeniti. Razvijajo projekt z imenom In Codice Ratio, katerega namen je samodejno prepisovanje vseh vsebin iz Arhiva, do katerih lahko dostopa javnost.

V ta namen ekipa deluje s kombinacijo umetne inteligence in optičnega prepoznavanja znakov (OCR). Z novo tehniko uporabljajo trenutno znanje o OCR za ročno napisana besedila in razbijajo besede na majhne koščke, ki so odvisni od količine črnila v regiji. Tako lahko ločite vsako črko posebej in papir pretvorite v digitalni dokument.

Posnetek zaslona besedila.

Na levi strani ročno napisano besedilo; na sredini prava beseda; in na desni, kaj je program določil.

Izobraževanje z umetno inteligenco, odgovorno za prepoznavanje teh besedil kot črk latinske abecede, so opravili italijanski srednješolci. Odgovorili so na več vprašalnikov in ugotovili, katere slike predstavljajo želene črke.

Rezultat vsega tega je bil preizkušen, ko jih je ekipa preizkusila z uporabo približno 18.000 strani pisem, shranjenih v Arhivu. Po mnenju raziskovalcev je program znal pravilno prepoznati 96% črk, pri čemer je tretjina besed vsebovala vsaj en napačen znak. Ker se ta tehnologija vedno nauči, da so ugotovljene njene napake, se bodo te številke verjetno izboljšale le v prihodnjih poskusih.

Na spletni strani In Codice Ray si lahko ogledate vse članke, objavljene z rezultati iskanja.

Raziskovalci uporabljajo AI za pregledovanje skrivnih datotek Vatikana prek TecMundo