AI katalogizace: Inteligentní asistent pro moderní katalogizaci

Problém: katalogizace je odborná práce, kterou zatěžuje rutina

Mnoho institucí spravuje rozsáhlé fondy dosud nezkatalogizovaných dokumentů. Ruční katalogizace takového objemu dat by při současných kapacitách trvala desítky let, a mnoho dokumentů tak zůstává nedostupných pro badatele i veřejnost.

Při katalogizaci je potřeba z dokumentů vyčíst bibliografické údaje, ověřit jejich správnost, dohledat autority, porovnat existující záznamy v katalozích a teprve poté sestavit výsledný bibliografický záznam.

Velká část této práce je repetitivní a časově náročná:

přepisování údajů z titulní strany a tiráže,
ověřování autorů a dalších autorit,
dohledávání existujících záznamů v lokálních, souborných i zahraničních katalozích,
doplňování polí v katalogizačním editoru.

Výsledkem je situace, kdy odborná kapacita katalogizátorů nestačí na rozsah fondů a velká část dokumentů zůstává dlouhodobě nepopsaná a tím pádem prakticky neviditelná.

Právě zde může AI významně pomoci. Nenahrazuje práci odborníka, ale přebírá rutinní kroky, šetří čas a poskytuje katalogizátorovi kvalitní podklady pro jeho činnost.

Řešení: řetězec kontrolovaných kroků místo černé skříňky

Základem systému je transparentní workflow, ve kterém má každý model i algoritmus jasně vymezenou roli a vše podléhá lidské kontrole.

Proces typicky funguje takto:

z fotografií titulní strany, tiráže a dalších stran se pomocí multimodálních modelů vyčtou bibliografické údaje,
text se následně normalizuje a transformuje do podoby vhodné pro další zpracování,
jména autorů a další údaje se ověřují proti národním i mezinárodním autoritním databázím,
kandidáti se filtrují podle přesných pravidel, například podle souladu data narození autora s datem vydání dokumentu,
teprve poté se využívají jazykové modely pro pravděpodobnostní seřazení kandidátů podle kontextu dokumentu,
systém nabídne nejpravděpodobnější variantu, ale zároveň zobrazí i další možnosti a vždy umožní ruční dohledání i úpravu.

Důležitý princip je, že LLM negeneruje finální bibliografický záznam jako celek. Kritické údaje, jako jsou identifikátory autorů, data narození a úmrtí nebo autoritní podoby jmen, se přebírají z důvěryhodných databází. Stejně tak se dohledávají celé existující záznamy v lokálních, souborných i zahraničních katalozích a mohou se zcela nebo částečně převzít.

Výsledkem je systém, který kombinuje sílu AI s přesností katalogizační praxe.

Moderní MARC21 editor jako součást řešení

Součástí aplikace je také plnohodnotný webový MARC21 editor, který odpovídá současným nárokům na použitelnost a flexibilitu.

Editor nabízí:

moderní webové rozhraní,
našeptávače u polí,
možnost konfigurace podle potřeb instituce,
přizpůsobení konkrétním datům, pravidlům i zvyklostem katalogizátorů.

Katalogizátor tak nepracuje s izolovaným AI nástrojem, ale s uceleným prostředím, ve kterém může návrh záznamu pohodlně zkontrolovat, doplnit a finalizovat.

Přínosy řešení

Implementace systému přináší několik zásadních výhod:

zrychlení katalogizačního procesu,
omezení rutinní manuální práce,
lepší práci s autoritami a existujícími záznamy,
vyšší transparentnost jednotlivých kroků,
zachování odborné kontroly nad výsledkem,
možnost přizpůsobení workflow konkrétní instituci.

Systém pomáhá katalogizátorům soustředit se na odborné posouzení záznamu místo mechanického přepisování a dohledávání.

Možnosti dalšího rozvoje

Architektura systému je navržena modulárně, což umožňuje jeho další rozšiřování podle potřeb konkrétní instituce i vývoje katalogizačních standardů.

Do budoucna se nabízí řada směrů, ve kterých lze řešení dále rozvíjet:

věcný popis dokumentů – automatické generování klíčových slov, předmětových hesel nebo třídění,
katalogizace článků v periodikách – identifikace a popis jednotlivých článků v rámci jednoho čísla,
kontroly a rozšiřování existující katalogizace – analýza starších záznamů, doplňování chybějících údajů nebo sjednocování dat,
obohacení záznamů z již digitalizovaných titulů – využití kompletních skenů dokumentu pro získání dalších informací nad rámec titulní strany a tiráže.

Právě poslední scénář otevírá nové možnosti práce s daty. Pokud má systém k dispozici digitalizovaný dokument v plném rozsahu, může pracovat s obsahem celé publikace, identifikovat témata, extrahovat strukturu nebo doplňovat metadata, která dříve nebyla dostupná.

Díky tomu se systém může postupně posunout od podpory katalogizace jednotlivých dokumentů k komplexnímu zpracování a obohacování knihovních fondů.

Současně řešení vytváří prostor i pro budoucí přechod od MARC směrem k BIBFRAME, aniž by bylo nutné zásadně měnit přístup ke zpracování dat.

Celý projekt ukazuje, že AI může být v katalogizaci praktickým a důvěryhodným pomocníkem, pokud je použita uvážlivě, transparentně a v kombinaci s odbornou kontrolou.

Přenositelnost řešení do dalších oblastí

Princip, na kterém je systém postaven, není omezen pouze na knihovnickou katalogizaci. Stejný přístup – tedy kombinace extrakce dat, jejich normalizace, ověřování proti referenčním zdrojům a řízeného skládání výsledku – lze využít všude tam, kde organizace pracují s dokumenty a potřebují z nich vytvářet strukturovaná data.

Typickými příklady mohou být:

zpracování dokumentů ve veřejné správě (evidence spisů, formulářů),
práce s archivními materiály a sbírkami,
digitalizace a zpracování technické dokumentace,
extrakce dat z faktur, smluv nebo obchodních dokumentů,
vytváření strukturovaných záznamů z nestrukturovaných zdrojů ve firmách.

V těchto scénářích často vzniká podobný problém jako v knihovnách: odborní pracovníci tráví velké množství času rutinními úkony, které lze automatizovat, ale zároveň je potřeba zachovat kontrolu nad kvalitou dat.

Řešením je systém, který nefunguje jako černá skříňka, ale jako transparentní AI asistent, který kombinuje automatizaci s lidským rozhodováním.