Ukázat další články

Paměť novin: Revoluce v hledání historických dokumentů

Hledání v historických dokumentech se stává minulostí – doslova. Paměť novin přináší revoluci ve vyhledávání historických textů pomocí sémantické analýzy a umělé inteligence. Zapomeňte na přesné formulace a boj s OCR chybami – tento inovativní nástroj pochopí váš dotaz v přirozeném jazyce a během pár vteřin vám naservíruje relevantní články. Stačí zadat dotaz a ponořit se do autentických zpráv z minulosti.

Hledání v archivech nemusí být detektivka

Každý, kdo někdy pátral v historických dokumentech, ví, že vyhledávání v digitálních knihovnách je často běh na dlouhou trať. Tradiční fulltextová metoda naráží na limity – vyžaduje přesné zadání, ignoruje významové souvislosti a je závislá na kvalitě OCR. Výsledek? Hodiny ručního procházení materiálů s nejistým výsledkem.

Paměť novin tento problém řeší. Díky sémantickému vyhledávání a umělé inteligenci dokáže pochopit význam dotazu a najít související články, i když v nich není přesná shoda slov.

  • Najdete informace i s překlepy nebo archaickým pravopisem.
  • Dotazy zadáváte přirozeným jazykem, nemusíte hádat historické výrazy.
  • Šetříte hodiny času – výsledky dostanete během pár vteřin.
Výsledek vyhledávání „Jak se vyvíjelo právo žen“ na webu Paměť novin.

Jak se dnes hledá v digitálních knihovnách?

Digitální knihovny zpřístupňují ohromné množství historických dokumentů – noviny, rukopisy, knihy, archiválie, mapy nebo hudebniny. Českým standardem je systém Kramerius, který už více než 20 let pomáhá s vyhledáváním, prohlížením a správou digitalizovaného obsahu. Navíc je jedním z našich klíčových projektů, na kterém dlouhodobě pracujeme.

Kramerius je založený na jednoduchém vyhledávání a procházení digitalizovaného obsahu, kde má uživatel možnost prohlížet sken analogového dokumentu, metadata a textovou vrstvu tzv. OCR (optické rozpoznání znaků).

Vyhledávání v Krameriovi nejprve zobrazí odpovídající tituly podle názvu, autora nebo klíčových slov a za ně zařadí fulltextové výsledky nalezené přímo na jednotlivých stránkách v celém archivu. K dispozici je také panel s různými filtry pro další zpřesnění výsledků.

Při fulltextovém vyhledávání je však nutné použít v dotazu stejná slova, jaká se nacházejí na hledaných stránkách, což může být v některých případech obtížné.

Vyhledávací strana webové aplikace Digitální knihovna Moravské zemské knihovny.

Proč je tradiční fulltextové vyhledávání složité?

  1. Kvalita OCR není vždy perfektní – staré noviny byly často vytištěny nekvalitně, používaly historické typy písma nebo se dochovaly ve špatném stavu. Pokud byla digitalizována reformátovaná kopie, například mikrofilm, může být textová vrstva plná chyb nebo zcela nečitelná.
  2. Vývoj jazyka – terminologie v historii se měnila, což ztěžuje nalezení relevantních výsledků. Například dnešní „fyzika“ se dříve psalo jako „fysika“ nebo “silozpyt“. Pokud uživatel nezná historické varianty slov nebo jejich pravopisu, může snadno přehlédnout důležité dokumenty.
  3. Ignorování významu textu – fulltextové vyhledávání hledá přesnou shodu slov, takže nenajde výsledky, které říkají totéž jinými slovy.

Sémantické vyhledávání v naší aplikaci Paměť novin

Paměť novin přináší nový přístup k vyhledávání v digitalizovaném obsahu. V Trinera jsme tento nástroj navrhli proto, že jsme si byli vědomi omezení tradičního vyhledávání v digitálních knihovnách. Na základě naší dlouholeté práce s Krameriem a zpětné vazby od badatelů jsme chtěli vytvořit řešení, které umožní efektivnější a intuitivnější práci s historickými daty.

Místo spoléhání na přesné shody slov používá Paměť novin sémantické vyhledávání postavené na bázi umělé inteligence, které rozumí významu položeného dotazu a na základě toho vyhledá související obsah.

Jak to funguje?

  1. Zadáte dotaz v přirozeném jazyce, např. „Které pivo bylo nejoblíbenější?“
  2. Systém analyzuje význam a vyhledá relevantní články bez ohledu na přesnou formulaci.
  3. Systém sestaví odpověď na základě nejrelevantnějších textů a uvede zdroje těchto textů včetně odkazů na originály v digitální knihovně.

Paměť novin si poradí i s chybami v OCR přepisech, archaickými výrazy nebo historickou terminologií – hledá totiž významově, nikoli doslovně.

Výsledek vyhledávání „Stěžovali si lidé na mládež” a otevřený zdroj novin Čech na webu Paměť novin.

Co všechno v Paměti novin najdete?

Paměť novin v tuto chvíli obsahuje 340 tisíc stran z 16 historických periodik z let 1893–1913. Mezi nimi např.

  • Lidové noviny,
  • České slovo,
  • Národní politika,
  • Právo lidu,
  • Katolické listy,
  • Našinec,
  • Pražský Merkur,
  • Rovnost,
  • Ženský list,
  • Brněnské noviny...

Tento rozsah umožňuje uživatelům sledovat dobové reakce na historické události, analyzovat vývoj jazyka a získávat unikátní kontext pro svůj výzkum. Do budoucna tento obsah plánujeme ještě rozšířit.

Příklad z praxe: Skutečně si lidé vždy stěžovali na mládež?

V rámci testování Paměti novin jsme zvolili zajímavé téma, který se týká oblíbeného stereotypu – stížností starších generací na mládež.

Stížnosti na „dnešní mládež“ nejsou ničím novým. Často slýcháme, že je mládež oproti minulosti zkažená. Je však dnešní mladá generace skutečně horší než ty předchozí, nebo nebo si starší generace na mladé stěžuje odjakživa? Tuto tezi si můžeme snadno ověřit. Paměť novin vám umožní prohledávat historické texty a zjistit, zda se podobné výtky objevovaly v novinách i před více než sto lety – a jak tehdy vypadaly.

Zadali jsme dotaz: „Stěžovali si lidé na mládež?“

  • Systém během vteřin našel relevantní články z let 1899–1913.
  • Ukázalo se, že už tehdy lidé psali o mládeži jako o „nevychované, hlučné, zanedbané a neuctivé“.
  • Odpovědi si můžeme ověřit přímo ve zdrojových článcích.

Tyto poznatky ukazují, že stížnosti na mládež jsou nadčasové. Starší generace často vnímají změny jako úpadek, zatímco mladší je přirozeně přijímají a přizpůsobují se jim. To, co jedni považují za rozpad hodnot, druzí vnímají jako pokrok – a tento pocit úpadku často pramení z toho, že se mění způsoby života, zvyklosti i technologie, které formují každodenní realitu. Přitom si starší neuvědomují, že kdysi byli terčem stejných výtek. Ve skutečnosti se mládež zásadně nemění – mění se spíše prostředí a nástroje, které používá.

Paměť novin odhaluje tento věčný střet, pomáhá porozumět dobovým společenským normám a umožňuje ověřovat historické stereotypy přímo v primárních zdrojích.

Výsledek vyhledávání „Stěžovali si lidé na mládež” na webu Paměť novin.
“Jako knihovnice jsem v minulosti strávila stovky hodin rešeršemi v digitálních knihovnách a často narážela na limity fulltextového vyhledávání. Věděla jsem, že potřebné informace někde jsou, ale jejich nalezení bylo často demotivující a zdlouhavé. Někdy bych musela projít celé noviny stránku po stránce, což nebylo časově reálné. Kdybych tehdy měla nástroj jako Paměť novin, ušetřila bych si obrovské množství času – a spoustu frustrace. 🙂”
MARTINA BOGÁR SMETÁNKOVÁ
Digital & Analytics Specialist

Chcete si to vyzkoušet?

Paměť novin je zatím prototyp, který vylepšujeme. Chcete se zapojit? Vyzkoušejte aplikaci na www.pametnovin.cz a dejte nám zpětnou vazbu!

Přístupové údaje:


🔑 Uživatelské jméno: pametnovin
🔒 Heslo: pametnovin

Máte nápad, jak bychom mohli nástroj rozšířit? Chcete podobné vyhledávání i ve vaší instituci a nad vašimi daty? Ozvěte se nám a nezávazně to probereme!

Do you have an idea or project to discuss?
Feel free to call or write to me for a no-obligation consultation.
Jan photo
Jan Rychtář
CEO
+420 725 523 666
Call weekdays, 7am-5pm
We will contact you within 2 business days.
Thank you! Your message has been received.

We will contact you within 2 business days.

Zpráva nebyla odeslána.