Skip to content

Koncept zpracování naskenovaných obsahů

cosmo-cz edited this page Sep 21, 2016 · 3 revisions

Předmětem této úlohy je náhrada stávajícího řešení pro zpracování naskenovaných obsahů monografií a periodik pomocí projektu Obálky knih.cz.

Stávající workflow:

  • Zapojené knihovny pomocí aplikace skenovacího klienta poskytují obálky a obsahy děl, které se ukládají na backend serveru projektu Obálky knih.cz (OKCZ)
  • Naskenované obálky a obsahy jsou okamžitě poskytovány všem registrovaným knihovnám formou náhledů obálek, náhledů první stránky obsahů i PDF se všemi skenovanými stránkami obsahu (v této chvíli se jedná o PDF, kterého stránky tvoří skenované obrázky obsahu).
  • Obsahy, které obsluha skenovacího klienta zvolila jako vhodné pro OCR zpracovány jsou ukládány pro další zpracování pomocí OCR Abby Recognition Server.
    • Vstupem pro zpracování OCR serverem je jeden soubor PDF se všemi naskenovanými stránkami obsahu.
    • Výstupem je textový soubor s přepisem a PDF soubor vizuálně stejný s předchozím. Rozdílem v PDF souboru je možnost použití nástroje pro textový výběr (text získaný z OCR zpracování je vložen na místa, kde se na originálním obrázku vyskytoval).
    • Výstupní textový soubor je vložen do databáze a je poskytován v meta datovém API projektu Obálky knih.cz k fulltext indexování knihovními katalogy. PDF soubor je uložen (přepsána původní podoba, bez obsaženého textu) a poskytován v podobě náhledů první stránky i v podobě plného PDF.

OCR zpracování obsahů – komunikace mezi systémy

Současný stav: OCR zpracování probíhá na denní bázi za použití Abby Recognition Server Web Services API. Obsahy naskenovaný daný den jsou v nočním procesu poslány ke zpracování a obdržený výsledek ve formě textového souboru s přepisem a upraveným PDF je vložen do OKCZ.

Předmětem tohoto úkolu projektu pro rozvoj systému Obálky knih.cz je přechod na zpracování pomocí Abby Recognition Server Národní knihovny. U současné licence provozované MZK je pro OKCZ už nedostačující měsíční objem stran ke zpracování. Ročně je zpracováno cca 85tis stran.

Návrh způsobu komunikace

Protože instalace Abby Recognition Server Národní knihovny neobsahuje API webových služeb, je nutné komunikace mezi systémy navrhnout alternativně.

Požadavky na komunikaci:

  • Periodicita 1x denně.
  • Šifrované spojení.
  • Výpadky ve zpracování budou možné. Ke komunikaci nemusí dojít každý den z důvodu neočekávaného výpadku jednoho z komunikujících systémů. Data přitom zůstanou konzistentní (nedojde k vymazání ještě nezpracovaných dat).
Návrhem je použití nástroje rsync, který umožňuje šifrovanou komunikaci pomocí nástroje ssh.
Předpoklady:
  • Existence instalace ssh serveru na straně OKCZ, a instalace ssh klienta na straně NKP.
  • Existence instalace nástroje rsync na obou stranách.
  • Vygenerovaný pár privátní+veřejní klíč, který bude sloužit k authentizaci spojení.
Postup komunikace:
  • Na serveru OKCZ budou existovat 2 složky
    • in-folder = složka s pdf soubory ke zpracování
    • out-folder = složka s txt a pdf již zpracovanými soubory
  • Na serveru NKP budou existovat 2 složky
    • in-folder = složka s pdf soubory k OCR zpracování
    • out-folder = složka s již zpracovanými txt a pdf soubory, čekající na přenos na OKCZ
  • 1x denně se provede na systému NKP následující proces
    • Přenos PDF souborů ke zpracování OKCZ → NKP. Po úspěšném přenosu dojde ke smazání zdrojových souborů tj. i po opakovaném spuštění níže uvedeného příkazu budou data konzistentní.
      rsync -az --remove-source-files -e "ssh -i /home/ocr/.ssh/id_rsa" ocr@www.obalkyknih.cz:/opt/in-folder/* /opt/in-folder
    • Přenos PDF a TXT zpracovaných souborů NKP → OKCZ. Po úspěšném přenosu dojde ke smazání zdrojových souborů.
      rsync -az --remove-source-files -e "ssh -i /home/ocr/.ssh/id_rsa" /opt/out-folder/* ocr@www.obalkyknih.cz:/opt/out-folder
    • Na systému NKP následně dojde k zaslání PDF ze vstupní složky in-folder k OCR zpracování. Výsledek zpracování bude vložen do výstupní složky out-folder.
Komunikace bude probíhat směrem ven ze sítě NKP a serverem komunikace bude systém OKCZ s definovanou veřejnou adresou.
    • Složky /opt/out-folder a /opt/in-folder jsou pouze příklady vstupních a výstupních složek. Ve skutečnosti můžou být pojmenovány libovolně. Na systému OKCZ je nevyhnutné, aby uživatel „ocr“ měl přístup k těmto složkám i pro zápis.
    • Systém NKP bude obsahovat privátní klíč uložený v souboru /home/ocr/.ssh/id_rsa (opět pouze příklad). Systém OKCZ bude mít veřejný klíč uložen v souboru ~/.ssh/authorized_keys. Tento pár klíčů bude sloužit k authentizaci. Komunikace bude šifrována.
Poslední úprava: 21.9.2016
Clone this wiki locally