Výběr vhodných formátů pro dlouhodobé uchování elektronických publikací

Elektronickou knihu neboli e-book či e-knihu definuje terminologická databáze jako knihu v digitální podobě, kterou je možné číst na počítači nebo na dalších zařízeních (těmi mohou být například čtečka elektronických knih, tablet nebo mobilní telefon)1. Analogicky je tomu u periodik. Elektronické knihy i periodika jsou na trhu dostupné v několika formátech. Wikipedie jich například popisuje třicet, komunitní stránka MobileRead Wiki jich eviduje dokonce přes šedesát. Zahrnuty jsou formáty, které vznikly speciálně pro elektronické publikování dokumentů (EPUB, MOBI apod.) i formáty, které vznikly za jiným účelem (PDF, TXT, HTML, DjVu apod.). Formáty elektronických knih vzniklé speciálně pro elektronické publikování jsou vytvořené tak, aby je bylo možné číst na různých zařízeních s různou velikostí obrazovky. Na rozdíl například od formátu PDF tak dokáží přizpůsobit text (velikost písma, zalomení řádků) velikosti obrazovky čtecího zařízení. Pro některé elektronické publikace je však vhodnější pevně daná podoba stránky a nikoliv zalamování a změna velikosti textu; bývá to u dokumentů, které obsahují větší množství obrázků nebo jsou strukturované – například komiksy, noviny, periodika.

Interaktivní a multimediální publikace

Vedle běžných e-knih, které pouze převádějí obsah klasických papírových knih do elektronického prostředí, tvoří samostatnou kapitolu e-knihy interaktivní a multimediální. Multimediální e-knihy mohou vedle běžného textu a obrázků obsahovat také zvuk, video nebo různé interaktivní prvky. Nejčastěji používanými formáty podporujícími multimediální obsah jsou v současné době EPUB 3, KF8, iBooks, interaktivní PDF, případně jsou jednotlivé e-knihy tvořeny samostatnou aplikací pro mobilní zařízení nebo webovou aplikací. Tyto formáty nejsou obvykle vhodné z hlediska dlouhodobého uchování. Společným rizikem pro tento typ dokumentů je obvyklá proprietárnost daných řešení, kdy vytvořené e-knihy jsou velmi závislé na konkrétním zařízení a obsah zpravidla nelze zobrazit na jiných zařízeních ani jej jednoduše převést do otevřených formátů.

Elektronické publikace a jejich uchování v současnosti

Některé zahraniční knihovny – Britská knihovna (British Library), Národní knihovna Austrálie (National Library of Australia), Národní knihovna Finska (National Library of Finland), Národní knihovna Skotska (National Library of Scotland) a další – již přijímají elektronické knihy a časopisy k dlouhodobému uložení; elektronické publikace se tak stávají předmětem digitální archivace. Jedním z hlavních témat digitální archivace je výběr formátů vhodných k dlouhodobému uložení digitálního obsahu, protože ne každý je k tomu vhodný a přes veškerou snahu knihoven není možné u rizikových formátů zaručit dostupnost těchto knih do budoucna. V únoru 2017 zveřejnila Britská knihovna svou analýzu formátů publikací2. V této studii tým Britské knihovny pro digitální archivaci posuzoval jednotlivé formáty z hlediska vhodnosti pro dlouhodobou archivaci. Formáty k posouzení byly zvoleny s ohledem na jejich vlastní sbírky elektronických dokumentů; blíže bylo analyzováno třicet formátů souborů. U jednotlivých formátů byl krátce popsán jejich původ, standardy na kterých jsou založeny, jejich status (dostupnost specifikace, podpora v softwaru apod.), rizika pro dlouhodobou archivaci apod.

Jaké formáty se tedy používají?

Za dnes nejrozšířenější formáty považují autoři studie formáty EPUB, MOBI, PDF a díky popularitě Amazon Kindle i formáty AZW, KF8 a KFX. Pro dlouhodobé uchování elektronických publikací ze zprávy jako nejvhodnější vychází formáty EPUB a PDF, protože jsou dostatečně rozšířené a široce podporované; formát PDF podle této studie podporují dnes nejrozšířenější čtečky (Amazon Kindle, Apple iPad, Barnes & Noble Nook, Kobo a čtečka od firmy Sony), formát EPUB podporují všechny výše zmíněné čtečky kromě čtečky Amazon Kindle.

Zpráva dále zmiňuje i méně běžné a zastaralé formáty, například formát Apabi, který je populární na čínském trhu elektronických knih, nebo proprietární formát BBeb společnosti Sony. Též zde hodnotí formáty, v kterých byly dostupné první elektronické knihy (například v rámci projektu Gutenberg), tedy formáty TXT a HTML i například DjVu a Microsoft Word (DOC).

Situace ve světě

Předmětem zájmu autorů zprávy bylo také užití formátů v dalších paměťových institucích, zejména pak národních knihovnách s elektronickým „povinným výtiskem“, ať již legislativně ukotveným, nebo probíhajícím na dobrovolné bázi ve spolupráci s vydavateli. Vedle Britské knihovny zpráva zahrnula Národní knihovnu Francie (Bibliothèque nationale de France), nizozemskou Královskou knihovnu (Koninklijke Bibliotheek) a americkou Kongresovou knihovnu (Library of Congress). Všechny uvedené knihovny využívají ve svých archivech formát PDF a pracují nebo v budoucnu plánují pracovat s formátem EPUB 2. Dvě z knihoven – Britská knihovna a nizozemská Královská knihovna – přijímají dokumenty ve formátu Microsoft Word. Kongresová knihovna spravuje jako součást svých fondů také dokumenty ve formátech založených na HTML/XHTML a XML/TEI. Samozřejmostí je absence ochrany prostřednictvím DRM (digital rights management, správa digitálních práv) u přijímaných dokumentů.

Situace v ČR

Poslanecká sněmovna dosud neschválila potřebnou novelu legislativy povinného výtisku, která by zabezpečila povinné odevzdávání elektronických publikací do Národní knihovny ČR. To však samozřejmě nesmí znamenat, že by Národní knihovna ČR zcela rezignovala na své poslání uchovávat písemné kulturní dědictví, byť by vyšlo pouze v elektronické podobě. Možným řešením tak i nadále zůstává dobrovolné odevzdávání elektronických publikací ve spolupráci s vydavateli. Národní knihovna ČR aktuálně počítá s archivací elektronických knih v otevřených formátech EPUB 2.0.1 a ve formátech PDF/A-1 a PDF/A-2.

Formáty vhodné k dlouhodobé archivaci

Formát PDF/A je archivní podobou známého formátu PDF a je určen přímo pro dlouhodobé uchovávání. Vychází ze specifikace formátů PDF 1.4 (PDF/A-1) a PDF 1.7 (PDF/A-2), ale byly vyřazeny vlastnosti, které jsou z hlediska dlouhodobé archivace problémové (např. vložení JavaScriptu, audia, videa), a jiné vlastnosti se naopak nově staly povinnými (např. vložení všech fontů použitých v dokumentu). Díky tomu v sobě dokument obsahuje všechny informace potřebné ke svému správnému zobrazení.

Formát EPUB je, jak již bylo výše zmíněno, jeden z nejrozšířenějších formátů elektronických knih. Nejčastěji je zřejmě možné setkat se s verzí formátu 2.0.1 a 3.0.1. Verze 3.0.1 podporuje vkládání zvukových a audiovizuálních dokumentů a JavaScriptu, tento obsah je však mnohem složitější a dražší archivovat. Verze 3.0.1 též umožňuje, aby zvukový či audiovizuální dokument nebyl přímo vložen v dokumentu, ale jen odkazován v textu, přičemž odkaz vede mimo samotný dokument, který tedy neobsahuje vše pro své správné zobrazení3.

Závěr

Jak bylo výše zmíněno, některé země již mají uzákoněn povinný výtisk elektronických publikací, jinde je jejich odevzdávání pouze dobrovolné. Pevně věříme, že Česká republika se brzy přidá k první skupině zemí. Bez ohledu na chybějící legislativu se Národní knihovna ČR na dlouhodobou ochranu a povinný elektronický výtisk již nyní intenzivně připravuje. Cílem musí být uchování současné knižní produkce v co nejúplnější podobě, tedy bez ohledu na formu nosiče obsahu. Nejlepší předpoklady pro archivaci elektronických publikací mají v dnešní době výše uvedené formáty EPUB a PDF/A. Volba formátů ale není nikdy konečný stav. Je třeba průběžně posuzovat rizika a vhodnost pro dlouhodobou archivaci (podpora v aplikacích, migračních nástrojích apod.), případně seznam vhodných archivačních formátů na základě nových poznatků rozšiřovat.

Komentáře k článku