-
Notifications
You must be signed in to change notification settings - Fork 0
ObalkyKnih crawler Kramerius
cosmo-cz edited this page Oct 19, 2017
·
1 revision
Automatizovaný zber obálok, TOC a fulltextov z API digitálnych knižníc Kramerius. Zoznamom zdrojov je: http://registr.digitalniknihovna.cz/ Zoznam je aktualizovaný. Cieľom úlohy je automaticky aktualizovať zoznam knižníc na OKCZ a umožniť ich zber.
- Používa sa na to zoznam vo formáte JSON http://registr.digitalniknihovna.cz/libraries.json ktorý sa porovná so zoznamom uloženým v tabuľke eshop odlíšeným od ostatných záznamov príznakom
SELECT * FROM eshop WHERE type = 'kramerius';
- Zdroj neobsahuje identifikátor SIGLA, preto nie je možné okamžite začať so zberom dát nových knižníc. Je potrebné novú digitálnu knižnicu Kramerius napárovať na už existujúcu kližnicu z tabuľky library
SELECT id,code,name,webopac FROM library WHERE name LIKE '%knihovna%'; UPDATE eshop SET library = (ID ziskane z predchadzajuceho vypisu) WHERE id = (ID novo objavenej knižnice Kramerius);
- O existencii nového záznamu typu "kramerius" v tabuľke "eshop" je administrátor OKCZ informovaný emailom s textom
Do seznamu prohledavanych Kramerii jsou pridany nasledujici knihovny: nasleduje seznam
- Vyhľadanie záznamov
http://kramerius.mzk.cz/search/api/v5.0/search?q=fedora.model:monograph%20AND%20modified_date:[2017-01-10T00:00:00Z%20TO%202017-01-31T23:59:59Z]&fl=PID&wt=xml&start=0
- Metadata digitalizovaného dokumentu
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0
- Zoznam streamov digitalizovaného dokumentu
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/streams
- Jeden zo streamov, konkrétně bibliografický MODS
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/streams/BIBLIO_MODS
- Potomci digitalizovaného dokumentu (zoznam stránok)
http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0/children
- Streamy stránky
http://kramerius.mzk.cz/search/iiif/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/full/,510/0/default.jpg http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/full http://kramerius.mzk.cz/search/api/v5.0/item/uuid:0e3f44d7-890a-4976-aeb9-783228b4a2f0@363/thumb
- Cieľom crawlera je získať zoznam stránok a v nich identifikovať obálku a obsah. Platí pritom:
- Ako obálku vyber prednostne stránky typu FrontCover, FrontJacket, alebo TitlePage.
- Ak sa nenájde ani jedna z predchádzajúceho, vyber prvú stránku,
- ktorá ale nie je typu Spine, alebo Hrbet.
- Ako obsah vyber stránky typu TableOfContents.
- Pri výbere kvality originálu sa postupuje v poradí iiif, full, thumb a vybere sa prvý možný. Formát thumb je pritom k dispozícii vždy.
- V prípade periodika je pritom potrebné dotázať sa i na BIBLIO_MODS koreňového dokumentu tj. súborného záznamu periodika.
perl -w /opt/obalky/bin/crawler-kramerius period 2017-01-01 2017-12-31 perl -w /opt/obalky/bin/crawler-kramerius today