Megújult, kibővült és új helyre költözött az Egység magazin digitális archívuma. Újságunkat ezentúl az ingyenesen böngészhető Hungaricana portálon találhatják meg, a legelső számtól kezdve napjainkig. Arról, hogy ez hogyan működik és milyen előnyökkel jár, Dr. Somfay Örsöt, a Hungaricanát is üzemeltető Arcanum Adatbázis Kiadó marketingigazgatóját kérdeztük. A cikk az Egységben jelent meg.

– Mit kell tudnunk a Hungaricana honlapról ahhoz, hogy megértsük, milyen „társaságba keveredett” az Egység magazin?

– A Hungaricana egy folyamatosan bővülő digitális közgyűjtemény, ahol jelenleg 17 millió oldalnyi PDF tartalom érhető el. Közel 200 intézmény anyagait lehet ingyenesen böngészni, megtalálható rajta majdnem az összes magyar közgyűjtemény, levéltárak, egyházi gyűjtemények, kutatóintézeteknek vagy akár a KSH könyvtárának anyagai. A magyarországiak mellett sok határon túli intézmény adatbázisai is megtalálhatóak a honlapon, így például az osztrák vagy horvát nemzeti levéltár anyagai is. A cél, hogy a magyarsággal, a magyar történelemmel kapcsolatos információk egy helyen legyenek elérhetőek, így minden olyan intézménnyel együttműködünk, ahol vannak magyar vonatkozású tartalmak, ezeket digitalizáljuk és elérhetővé tesszük.

 

– Ez elképesztően nagy anyaghalmaz, hogy lehet ebben elnavigálni?

– Minden intézménynek, jelen esetben pl. az Egységes Magyarországi Izraelita Hitközségnek van egy saját, önálló oldala. A Hungaricana felépítését úgy kell elképzelni, mint egy piramist. Fentről lefelé haladva tudunk böngészni kulcsszavakkal a teljes adatbázisban, lentebb vannak témakörök, pl. térképek, levéltári iratok, aelyekben kereshetünk. Ezen belül jönnek a tartalomgazdák – pl. az egyházak – oldalai. Ezeken belül vannak az egyes intézmények, a zsidóság esetében pl. hitközség szerint elkülönülve, jól azonosíthatóan, mi kihez tartozik.

 

– Mi található az EMIH oldalán?

Itt lesz megtalálható az Egység, valamint különböző sorozatok és forrás­anyagok.

 

– Hogy kerülnek be ezek az anyagok a Hungaricanába?

– Az Egység esetében ez úgy zajlott, hogy a Petőfi Irodalmi Múzeum kiírt egy pályázatot hazai folyóiratok digitalizálására. Ezen a pályázaton nyert támogatást mások mellett a Chábád Lubavics Alapítvány is, az Egység digitalizálására. Ezeken az állami intézmények által kiírt pályázatokon előfeltétel, hogy a kész anyagot ingyenesen elérhetővé kell tenni mindenki számára, ezért kerülnek ezek a szabadon böngészhető Hungaricanára.

 

– Vagyis itt ingyen és bérmentve keresgélhet bárki a több millió dokumentum között?

– Igen, teljesen ingyenesen lehet keresni, valamint 25 oldalanként letölteni. A program lehetővé teszi a teljes szövegű keresés mellett azt is, hogy összekapcsoljunk adatbázisokat, vagyis pl. levéltári adatokat meg lehet jeleníteni egy térképen, ami az adott korból származik. Sok a szinergialehetőség a programon belül.

 

– Hogy történik a digitalizálás a gyakorlatban?

– A pályázat keretében az újság minden egyes lapszámát szkenneltük, majd egy optikai karakterfelismerő program segítségével digitális képet állítottak elő a szövegből. A Hungaricana „nagytestvérének”, az Arcanum Digitális Tudománytárnak van egy mesterséges intelligencia fejlesztése, ami nyelvtechnológiára épül. Eddig nagyjából 60 milliárd szókapcsolatot tanítottak meg neki magyarul. Vannak a világban erre kidolgozott algoritmusok, amikhez ún. tanuló-adatbázisokat kell létrehozni. Ehhez az kell, hogy minél több adat legyen feldolgozva, amikkel megfelelő sémákat tanítanak a programnak. Ez segít abban, hogy az OCR során hibásan rögzített adatokat ki lehessen szűrni.

A kicsi lélekszámú népek nyelvei esetén, mint pl. a magyar, nem olyan tökéletes az OCR programok szövegfelismerése, mint a nagy nyelveknél (pl. angol vagy kínai). Ezért nagyon fontos, hogy legyenek olyan hazai fejlesztések, amelyek segítségével pontosabb szöveget tudunk előállítani.

 

– Milyen minőségre számíthatunk az Egység esetében?

– Az Egység 1990-ben indult, így jó minőségű sajtótermék, jó papírra nyomták jó technológiával. Prob­léma általában a régi lapoknál van, ahol sem a használt papír, sem a használt nyomdatechnológia nem elég jó.

 

– Okoznak problémát a, mondjuk úgy, szakszavak: a héberből vagy jiddisből fonetikusan átírt kifejezések vagy akár a héber karakteres szövegek?

– Ezt majd a tapasztalat mutatja meg, hogy mennyire sikerült jól a beolvasás. Ez attól is függ, hogy az eddig szkennelt sok anyag, sok zsidó témájú szöveg mennyire tud segíteni a szövegek felismerésében. A Hungaricana egy állandóan frissített adatbázis, így mindig egyre jobb lesz. A héber karaktereket ugyanúgy felismertetik, ha valaki héber betűs kifejezésekre szeretne rákeresni, meg tudja tenni.

 

– Rengeteg héber kifejezés átírásában van bizonytalanság, pl. a nemrég befejeződött ünnepünket, a Peszáchot átírhatjuk e-vel, é-vel, ch-val, sima h-val… Ezzel tud valamit kezdeni a keresőmotor?

– A programnak saját kereső környezete van, ami nagyon összetett keresésre alkalmas. Ugyanakkor lehet bizonytalan karaktereket csillaggal helyettesíteni és úgy is megtalálhatjuk, ez egy nagyon rugalmas a rendszer.

 

– Mennyire felhasználóbarát a rendszer? Könnyű benne eligazodni? Hiszen több millió oldal között keresünk valamit…

– Ha valaki elakadna, van súgó, ami segít a felhasználónak eligazodni az egész rendszerben.

A találati listát kétféle módon tudjuk rendezni, relevancia szerint, ahol elöl a szerző, illetve cím mező találatai láthatók vagy ábécésorrend.

Nagy előny, hogy keresni tud akár csak az Egységben, csak az egyházban, csak a zsidó tartalmakban vagy akár az egész Hungaricana gyűjteményben. Sok 10 millió oldal, sok különböző típusú forrás-adatbázis közös keresését teszi lehetővé, és minden adatbázis-szintnek külön oldala van.

 

– A jövőben megjelenő lapszámok is fölkerülnek?

– Most 2021-ig kerülnek fel a lapszámok, ami évente frissül majd és lesz együtt kereshető sok korábban feltöltött zsidó témájú anyaggal. Ilyenek például a Magyar Zsidó Múzeum és Levéltár hitközségi jegyzőkönyvei, a Budapest Főváros Levéltár őrzésében található vészkorszaki lakásjegyzékek vagy sok-sok különböző zsidó szervezet történeti iratai. A Hungaricana közgyűjteményi portál egyedülálló előnye, hogy a közös kereshetőség mellett a fenntartás és a fejlesztés költségei sem hárulnak az intézményekre, így egy organikusan bővülő, innovatív és fejlődő, naprakész, biztonságos rendszerben tudják digitálisan publikálni gyűjteményeiket.

A Hungaricanán minden tartalom ingyenesen hozzáférhető, hiszen azok előállítását valaki finanszírozta. Sok tartalom van, elsősorban folyóiratok, amelyek digitális feldolgozását viszont az Arcanum maga finanszírozza. Ezek egy másik, sokak által ismert adatbázisba, az Arcanum Digitális Tudománytárba (ADT) kerülnek. Ezért amikor a Hungaricanán keres valaki, akkor a találati lista mellett egy külön dobozban megjelenik az ADT erre a keresésre vonatkozó találati listája is, ahova rögtön át tud kattintani a felhasználó. A zsidó folyóiratok többsége, pl. az Új Kelet is itt található. Bár az ADT már egy fizetős szolgáltatás, a szövegkörnyezetbe ágyazott találatokat itt is ingyenesen lehet megjeleníteni. Akinek pedig nincs még ADT hozzáférése, az számos közkönyvtárból, múzeumból, kutatóintézetből vagy egyetemről, az ország több száz pontján keresztül hozzá tud férni ingyenesen a szolgáltatáshoz.

 

A projektet az Emberi Erőforrások Minisztériuma támogatta a Petőfi Kulturális Ügynökség mint lebonyolító közreműködésével.

Megjelent: Egység Magazin 32. évfolyam 154. szám – 2022. május 10.