Skip to content

Analýza stávajícího stavu

cosmo-cz edited this page Aug 6, 2014 · 1 revision

Table of Contents

Architektura, technologie, data

  • primární tabulka jsou knihy - Books
  • registrované knihovny - mají svůj referer, při dotazu se zaznamenává info, že tato knihovna má tuto knihu
  • všechny velikosti obálek jsou v db fileblob, včetně plné velikosti
  • tabulka MARC - které knihovny mají knihu
  • do Review se stahuje z Amazonu
  • Work = díla - propojují více záznamů knih z Books
  • 2 typy zdrojů:
    • ty které poskytují seznam, co mají
    • dotazované ad-hoc jednotlivě přes ISBN (např. Amazon)
  • odbavování odpovědí OKCZ na dotazy:
    • udržuje pracovní cache z dříve vybavených dotazů
    • pokud nemá požadovanou obálku, odpoví negativně a zároveň uloží požadavek do fronty
    • jiný proces čte frontu a snaží se získat obálku (+ další typy obsahu) z dostupných zdrojů
  • snaží se shrabovat obálky ze všech zdrojů, tzn. některé můžou být v db duplicitně, za platnou se bere ta poslední získaná
  • Bibinfo - blok identifikátorů
    • funkce která porovnává identifikátory, jestli jde o stejnou knihu
    • ISBN se neukládá, přepočítává se na EAN
  • permalink - zpětný odkaz na knihu v konkrétní knihovně, získaný při dotazu na obálku
  • OKCZ nechce jen odpovídat na dotazy na obálky, ale i získávat info o dotazovaných knihách - využití pro doporučování
    • bylo připraveno zapisování kontextu dotazu při každém dotazu na OKCZ, ale nastal problém s odezvama ve špičkách (30 dotazů/sec), proto je zápis zablokovaný, info o dotazované knize se uloží jen při prvním dotazu z dané knihovny

API pro získávání

  1. jednoduché IMG SRC - používá 95% katalogů
  2. starší JavaScript knihovna
  3. novější JS API 2.0 - vrací JSON objekt se všemi uloženými typy obsahů

Typy obsahů

  • obálky - plná velikost + 3 normalizované náhledy
  • rating (*****) - sbírané z webu OKCZ + z Amazonu (jednorázově, bez aktualizací)
  • anotace - z SČKN
  • review + redakční správa na webu OKCZ
  • cena
  • TOC - z NK ČR 1x měsíčně

Sběr dat

  • agregátor zbozi.cz dostává od nakladatelů standardizované XML exporty - stačí získat odkazy na tyto XML soubory
  • je domluveno s většími nakladateli
  • neproběhlo obchodní vyjednání s dalšími menšími vydavateli - to je potenciální TODO pro manažera projektu OKCZ
  • většina zahraničních obálek a obsahů je z Amazonu
  • hodně českých je z TOC, SČKN

Stahování TOC

  • z FTP NK se 1x měsíčně stahují obálky a TOC.pdf
  • identifikátor je ČNB
  • přes Z39.50 se vyhledá v SK ČR a z MARC metadat se dotáhne název, autor, ...
  • podobně z MLP

Uložení zdrojů

  • veškerá dokumentace ke zdrojovému kódu obálek je na Sourceforge http://sourceforge.net/projects/obalkyknih/?source=directory . Na gitHub se provádí prozatímní ruční synchronizace
Clone this wiki locally