Trendy v oblasti bibliografických formátů aneb Má MARC budoucnost?

Redakční poznámka: Jedná se o textovou podobu přednášky přednesené na valné hromadě pražské organizace SKIP, která se uskutečnila 18. dubna 2017 a o které Vás informujeme v samostatném článku.

Jak to začalo

Kongresová knihovna (Library of Congress) vznikla roku 1800. Zákonem z roku 1902 pak byla knihovně dána povinnost distribuovat všechny vytvořené záznamy do amerických knihoven. V 60. letech 20. století bylo oddělení, které tuto agendu zajišťovalo, největším oddělením Kongresové knihovny – jeho prostory zabíraly plochu čtyřikrát větší než fotbalové hřiště. V oddělení pracovalo 600 lidí, jejichž rukama ročně prošlo 78 miliónů záznamů.1

Již na konci 50. let 20. století se tak Kongresová knihovna začala zajímat o možnost automatizace. Nejprve knihovna získala grant na výzkum možnosti automatizace, postupně byla vytvořena studie možných metod. Roku 1965 knihovna začala hledat osobu se znalostí systémové analýzy a programování, která by projekt automatizace mohla vést. Tak do knihovny nastoupila Henriette D. Avramová, tvůrkyně formátu MARC. Nejprve provedla analýzu katalogizačních záznamů a pokračovala návrhem možnosti jejich distribuce v strojem čitelné podobě. Knihovna si od formátu slibovala možnost vytvářet bibliografická data ve strojem čitelné podobě a na magnetických páskách je distribuovat do amerických knihoven, které si je měly samy tisknout. Díky tomu se pro Kongresovou knihovnu mělo zjednodušit plnění výše zmíněné zákonné povinnosti.

Tak roku 1968 vznikl formát MARC, standardizovaný formát sloužící pro výměnu dat mezi systémy. Spoluprací s Britskou národní bibliografií následně vznikl formát MARC II (původní formát MARC byl přejmenován na MARC I), resp. UK MARC. Do roku 1995 vzniklo 24 různých podob původního formátu, jehož struktura se roku 1973 stala mezinárodním standardem ISO 2709 Dokumentace – Formát pro výměnu bibliografických informací na magnetické pásce. V souladu se strukturou vznikl i univerzální MARC – UNIMARC, a to díky spolupráci Mezinárodní federace knihovnických asociací a institucí (International Federation of Library Associations and Institutions, IFLA) s Henriette D. Avramovou.2

Od roku 1973 byl ke stejnému účelu vytvořen i německý formát MAB (později ještě MAB2). Od roku 1997 však začaly knihovny po celém světě přecházet na formát MARC 21, který vznikl a je udržován díky spolupráci Kongresové knihovny, Kanadské národní knihovny, Britské knihovny a později i Německé národní knihovny. Knihovny tak začaly distribuovat své záznamy v podobě sice obměněné, ale stále vycházející ze struktury formátu, který vznikl v 60. letech 20. století v Kongresové knihovně z důvodu zjednodušení distribuce záznamů na tehdy používaném médiu – magnetické pásce. Začala se tak nabízet otázka, jestli není čas formát dat přizpůsobit dnešnímu světu, kdy magnetické pásky většina současných knihovníků nikdy neviděla, diskety si někteří matně vybavují a na CD a DVD nám již v noteboocích chybí mechaniky. Je vůbec struktura MARC nutná?

A vadí MARC někomu?

Otázku, zda je struktura MARC nutná, lze položit i obráceně: a komu vadí? Formát byl vytvořen tak, aby záznamy zabraly co nejméně místa na nosiči, který byl v době vzniku formátu používán, tedy na magnetické pásce. Je to formát výměnný, který byl vytvořen pro výstup ze systému, resp. vstup do systému. Nebyl vytvořen jako formát pro uložení záznamů v systému (interní formát) ani jako formát určený pro katalogizaci. Pokud by byl používán výhradně jako vstupní nebo výstupní (tedy výměnný), knihovníci katalogizátoři by se s ním ani nesetkali a celý tento článek by byl určen spíše pro systémové knihovníky. Mimochodem díky striktnímu rozlišování funkcí formátu byl přechod z formátu MAB na formát MARC 21 v německých knihovnách velmi jednoduchý. Systémoví knihovníci v Německé národní knihovně pouze namapovali interní formát PICA+ na nový formát. Tamější knihovníci katalogizují ve formátu PICA 3 a to, že se skupina výstupních formátů rozšířila nebo změnila, pro ně ani pro jejich práci nemuselo být důležité.

Je tedy nutné, aby formát MARC 21 byl nahrazen? Bude nahrazen jedním formátem? Nebo bude nahrazen podle účelu několika formáty: formátem pro výměnu a prezentaci dat, formátem pro uložení dat v systémech nebo také formátem výměnu mezi knihovnami?

Zveřejňování dat

Již od roku 2001 se díky Timu Bernersovi-Lee setkáváme s výrazem sémantický web. Takový web je srozumitelný strojům, a to díky vhodné struktuře dat. Na jejím základě stroje dokáží rozpoznat jednotlivé informace. Publikační model pro zveřejňování strukturovaných dat na webu, který je založen na protokolu HTTP, identififkátorech URI (Uniform Resource Identifiers, jednotné identifikátory zdrojů) a datovém modelu RDF (Resource Description Framework, systém popisu zdrojů), se nazývá model propojených dat (Linked Data).3 Zveřejňování bibliografických záznamů v této podobě přináší řadu výhod – čtenář například záznam dokumentu najde přímo z webu. Pokud vše funguje ideálně, najde i řadu relevantních informací navíc.4

V praxi to znamená poskládat jednotlivé údaje ze záznamu do podoby trojic (podmět – predikát – předmět, přičemž podmět a předmět jsou vždy nějakou „věcí“ a predikát mezi nimi určuje vztah). Dále je potřeba pro všechny podměty a pro co nejvíce předmětů najít nebo vytvořit URI, aby byla zajištěna jejich vzájemná propojitelnost. Pro predikáty je třeba vyhledat vhodný slovník tvořený jednotlivými výrazy s vlastními URI. Podle průzkumu OCLC z roku 20155 mezi nejpoužívanější slovníky patří:

Ideálním výstupem pak je trojice URI – URI – URI, přípustný je i výstup v podobě trojice URI – URI – slovo (literál).

Aby využití propojených dat mělo smysl, je vhodné najít pokud možno ke všem „věcem“ již existující URI a nově vytvořená URI s nimi propojit. Jenom tak lze následně těžit z propojitelnosti, protože pokud ostatní použijí pro stejnou „věc“ stejné URI, trojice se propojí (např. dojde k propojení autora v katalogu s informacemi o autorovi ve Wikipedii nebo dojde k propojení názvu knihy s weby věnujícími se recenzím knih). Vyhledání existujících URI může být časově náročné. Dalším krokem je tyto trojice zpřístupnit tak, aby jim dokázaly porozumět stroje, tedy aby byly vůbec využitelné. Právě pro stroje (či lépe aplikace) je určen rámec RDF.

Vytvořená data ve struktuře propojených dat je nutné uložit na bezpečné místo serveru a nakonec je zpřístupnit uživatelům nebo třetím stranám.

Propojená data místo formátu MARC 21?

Zveřejňováním dat ve formě propojených dat se knihovny otevírají světu. Informace uložené v hlubinách knihovních katalogů vyplouvají na volný web. Můžeme si tedy položit otázku, zda tedy není čas formát MARC nahradit. Odpověď je jednoduchá – není. Formát MARC, je-li používán tak, jak byl navržen, je pouze jedním z možných výstupů. Propojená data mohou (a mnohde již jsou) jen dalším možným výstupem. Jsou to jen jinak poskládaná stávající data obohacená o URI. Práce katalogizátorů může být pořád stejná, jen s hledáním URI navíc (tato činnost však může vycházet z postupů při práci s autoritními záznamy a být alespoň zčásti automatizována) a s daleko bohatším výsledkem.

Teorie nebo už praxe?

Průkopníky v oblasti propojených dat v knihovnách jsou Kongresová knihovnaOCLC. Obě instituce se propojenými daty zabývají od roku 2011. Kongresová knihovna vytvořila vlastní publikační model BIBFRAME, OCLC použila jako základ prvky ze slovníku Schema.org, které rozšířila o další prvky z vlastního jmenného prostoru. Své záznamy ve formě otevřených dat zpřístupňuje OCLCkatalogu WorldCat.

Problematice propojených dat se věnuje i Švédská národní knihovna, která spravuje švédský souborný katalog LIBRIS. V tomto katalogu jsou dostupné záznamy 175 švédských knihoven. Celkem se jedná o více než šest milionů bibliografických záznamů. Knihovníci Švédské národní knihovny se při převádění dat z formátu MARC 21 do podoby propojených dat řídili velmi jednoduchou myšlenkou – je lepší přijít s něčím teď než lpět na detailech a čekat na dokonalost.

Další skandinávskou zemí, která chce své katalogy otevřít světu, je Finsko. Finská národní knihovna s převodem svých bibliografických záznamů do podoby propojených dat začala v roce 2015. Převod dat je finančně podpořen Programem pro otevřená data (Open Data Programme). Ten byl vyhlášen v návaznosti na rozhodnutí finské vlády z roku 2011, které nařizuje institucím zpřístupnit své veřejné informační zdroje v podobě propojených dat. V rámci projektu vzniká také úplná dokumentace použitých postupů, kterou budou moci využít i další finské knihovny.

Díky tlaku vlády na zpřístupnění dat začali vyvíjet aktivitu i britští knihovníci, kteří se propojenými daty zabývali již od roku 2009. V roce 2011 v podobě propojených dat zpřístupnili část Britské národní bibliografie, konkrétně přes tři milióny záznamů. Od roku 2010 jsou ve formě propojených dat zpřístupněny všechny bibliografické záznamy Maďarské národní knihovny. Německá národní knihovna začala ve formě propojených dat poskytovat národní bibliografii. Na záznamy však platí časové embargo, současné záznamy si je možné stáhnout za poplatek. Přesto bylo zpřístupněno již 11,5 milionů bibliografických záznamů. Francouzská národní knihovna zpřístupňuje portál data.bnf.fr s více než dvěma miliony stránek o osobách a institucích a taktéž pracuje s propojenými daty. Tato služba eviduje přes 100 tisíc unikátních přístupů měsíčně, přičemž v 80 % se jedná o přístupy prostřednictvím běžného vyhledávače, nikoliv přímým přístupem na webovou stránku služby. Digitální knihovna Europeana, která vznikla v roce 2008, zpřístupňuje přes 53 milionů digitálních děl (obrazů, hudby, knih apod.), veškerá data jsou od roku 2012 k dispozici ve formě otevřených propojených dat.6

Jako užitečná inspirace pro ostatní knihovny může posloužit např. článek A Beginner's Guide to Creating Library Linked Data: Lessons from NCSU's Organization Name Linked Data Project 7.

Závěr

Díky struktuře propojených dat se cenné informace vytvářené knihovníky konečně dostávají z uzavřených knihovních katalogů a databází (v angličtině je často používaný výraz silos) i na volný web, kde je naleznou koncoví uživatelé – stroje, aby je zprostředkovali dalším koncovým uživatelům – čtenářům. Je nutné si uvědomit, pro jaké účely jsou výměnné formáty bibliografických dat v knihovnictví používány: měly by být používány pro zápis a přenos (výměnu) mezi bibliografickými agenturami a jinými institucemi.

V tuto chvíli je však zřejmé, že v budoucnu se odštěpí další funkce pro publikování bibliografických dat na webu. Formát MARC 21 tedy může existovat dál.

Komentáře k článku