ABS: Prohledávání archiválií v eBadatelně pomocí OCR

Najít archiválii na základě jakéhokoli slova, to je nová služba, se kterou od letošního listopadu přichází Archiv bezpečnostních složek (ABS). Zájemcům umožňuje z pohodlí domova bádat ve spisech nejenom podle jmen, ale také například podle míst či hesel spojených s historickými událostmi. Naskenované dokumenty byly zpracovány technologií OCR (z anglického spojení Optical Character Recognition), tedy optickým rozpoznáváním znaků. Badatelé nyní budou mít dokumenty k dispozici ve strojově čitelném textu, což umožňuje převratně snazší hledání.

Podle zástupce ředitele ABS Petra Zemana jde o novátorský počin: „OCR dobře rozpoznává tištěné texty, takže se používá hlavně v knihovnách. U archiválií je jeho použití mnohem těžší, naše předlohy jsou nesrovnatelně náročnější, i tak ale mohou výsledky badatelům velmi pomoci.“ Do této doby bylo možné vyhledávat jen v textech inventářů a v rejstříkových a jiných datových záznamech (tzv. lustracích). Nyní to jde přímo v jednotlivých stránkách digitalizovaných archiválií. „Dají se dopátrat souvislosti, které se dříve objevily jen náhodou, při dlouhém pročítání dokumentů. Teď najdete v dokumentech i osoby, které byste podle dosavadních databázových záznamů nevyhledali,“ upřesňuje Zeman. Jako příklad uvádí jméno Václava Havla, které prochází mnohem větším počtem svazků (přes 700), než o kolika se předtím vědělo. Někdy se jedná jen o nepodstatné zmínky, vedle toho se však objevují i zajímavé informace o činnosti Havla a disentu. Obdobně třeba u sochaře Olbrama Zoubka, jehož svazek byl skartován v prosinci 1989, můžeme nově nalézt alespoň dílčí informace v 25 archiváliích.

Naskenovaných a do fulltextu převedených stran je v tuto chvíli k dispozici přibližně osm milionů, což je z celkového obsahu Archivu bezpečnostních složek zatím menšina. „V eBadatelně zdaleka není všechno, a navíc žádné OCR není dokonalé, takže stále platí, že pokud něco hledáte, je dobré zaslat archivu žádost jako doposud,“ upozorňuje Zeman. Podle něj také žádná technologie nemůže nahradit odpovědnost za to, jak člověk se získanými informacemi naloží.


Zpracoval MARTIN VACEK