Skip to content

ObalkyKnih crawler Kramerius

cosmo-cz edited this page Oct 19, 2017 · 1 revision

Table of Contents

Cieľ

Automatizovaný zber obálok, TOC a fulltextov z API digitálnych knižníc Kramerius. Zoznamom zdrojov je: http://registr.digitalniknihovna.cz/ Zoznam je aktualizovaný. Cieľom úlohy je automaticky aktualizovať zoznam knižníc na OKCZ a umožniť ich zber.

Aktualizácia

SELECT * FROM eshop WHERE type = 'kramerius';
  • Zdroj neobsahuje identifikátor SIGLA, preto nie je možné okamžite začať so zberom dát nových knižníc. Je potrebné novú digitálnu knižnicu Kramerius napárovať na už existujúcu kližnicu z tabuľky library
SELECT id,code,name,webopac FROM library WHERE name LIKE '%knihovna%';
UPDATE eshop SET library = (ID ziskane z predchadzajuceho vypisu) WHERE id = (ID novo objavenej knižnice Kramerius);
  • O existencii nového záznamu typu "kramerius" v tabuľke "eshop" je administrátor OKCZ informovaný emailom s textom
Do seznamu prohledavanych Kramerii jsou pridany nasledujici knihovny:
nasleduje seznam

API Kramerius

  • Vyhľadanie záznamov
http://kramerius.mzk.cz/search/api/v5.0/search?q=fedora.model:monograph%20AND%20modified_date:[2017-01-10T00:00:00Z%20TO%202017-01-31T23:59:59Z]&fl=PID&wt=xml&start=0
  • Metadata digitalizovaného dokumentu
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0
  • Zoznam streamov digitalizovaného dokumentu
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/streams
  • Jeden zo streamov, konkrétně bibliografický MODS
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/streams/BIBLIO_MODS
  • Potomci digitalizovaného dokumentu (zoznam stránok)
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/children
  • Streamy stránky
http://kramerius.mzk.cz/search/iiif/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/full/,510/0/default.jpg
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/full
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/thumb

  • Cieľom crawlera je získať zoznam stránok a v nich identifikovať obálku a obsah. Platí pritom:
    • Ako obálku vyber prednostne stránky typu FrontCover, FrontJacket, alebo TitlePage.
    • Ak sa nenájde ani jedna z predchádzajúceho, vyber prvú stránku,
    • ktorá ale nie je typu Spine, alebo Hrbet.
    • Ako obsah vyber stránky typu TableOfContents.
  • Pri výbere kvality originálu sa postupuje v poradí iiif, full, thumb a vybere sa prvý možný. Formát thumb je pritom k dispozícii vždy.
  • V prípade periodika je pritom potrebné dotázať sa i na BIBLIO_MODS koreňového dokumentu tj. súborného záznamu periodika.

Spustenie scriptu

perl -w /opt/obalky/bin/crawler-kramerius period 2017-01-01 2017-12-31
perl -w /opt/obalky/bin/crawler-kramerius today
Clone this wiki locally