Skip to content

KNOT-FIT-BUT/rrs_publication_ocr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 

Repository files navigation

rrs_publication_ocr

crfpp/

Složka s instalačními soubory CRF++ klasifikátoru + trénovací data.

LSR/

Skripty

Klasifikátor:

./lsr.py --input vstup --output vystup -m [extract_all | extract_hed | extract_section| extract_nocit] -i [rtf | ...]

  • --input - vstupní soubor

  • --output - výstupní soubor v XML. Pokud není zadán, tiskne se výsledek na standardní výstup.

  • -m - mód zpracování souboru:

    "extract_all" - provede základní klasifikaci dokumentu, dodatečnou klasifikaci nadpisů
    a klasifikaci hlavičky dokumentu

    "extract_hed" - provede klasifikaci hlavičky dokumentu

    "extract_section" - provede základní klasifikaci dokumentu

  • -i - určuje formát vstupu. Zatím "rtf" bere jako vstupní soubor formátu RTF, ostatní či nezadané považuje za txt soubor.

./processOCRRTF.py

Jedná se o modul, který používá klasifikátor k extrahování surového textu z výsledku klasifikace, která je ve formě XML souboru.

XML parser:

./xmlParser.py

XML parser je možné použít i samostatně bez následné klasifikace.

RTF parser:

Starý parser
./rtfParser.py

Nový parser
./rtfParserNew.py

RTF parser je možné použít i samostatně bez následné klasifikace. Stačí odkomentovat funkci main().

Klasifikace dokumentu z výstupu OCR systému:

./runClassification.py

Skript určený pouze pro zklasifikování všech dokumentů nacházejících se ve výstupní složce OCR systému. K tomuto skriptu se váže soubor classPassed.dat, který říká, které složky již byly klasifikovány a také soubor outClass.log, který uchovává informace o výsledku klasifikace každého klasifikovaného souboru.

Automatizované vyhodnocení klasifikace:

./ClassificationCheck.py

Automatizované vyhodnocení provádí kontrolu klasifikace Titulu, Autorů, E-Mailů, Přičlenění, Abstraktu, Nadpisu 1 a Nadpisu 2. Výstupem je tabulka pro každý soubor, která ukazuje výsledek klasifikace pro danou část dokumentu. Po dokončení kontroly všech dokumentů je vytvořena tabulka ukazující F-Measure Score, Recall, Precision, skutečný počet dané časti dokumentu ve všech dokumentech, počet označení klasifikátorem a počet správných označení klasifikátorem.

Uložení klasifikovaných dokumentů do databáze:

./SaveOutClassToDatabase.py

Skript prochází složku OutClass a všechny doposud neuložené dokumenty ukládá do databáze. Seznam již uložených dokumentů je obsažen v souboru OutSavedToDB.dat. Skript tento seznam s každým svým během aktualizuje.

Skript využívá pro přístup k databázi soubor databaseAccess.dat, který je naplněn přístupovými údaji ve tvaru:
host:dbname:user:password

Jelikož tento soubor obsahuje citlivá data, není verzován a je nutné si jej lokálně vytvořit!

Složky

crfpp/

obsahuje nainstalovaný CRF++ klasifikátor

in/

Sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách. Správná klasifikace je uložena v manualClassification.txt ve formátu JSON.

in2/

Druhá sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách. Správná klasifikace je uložena v manualClassificationWithReferences.txt ve formátu JSON. Tato sada narozdíl od první obsahuje i klasifikaci referencí.

LSRCIT/

Skripty využívané ke klasifikaci citací.

LSRHED/

Skripty využívané ke klasifikaci hlavičky dokumentu.

LSRLabel/

Skripty využívané k obecné klasifikaci dokumentu.

LSRRTF/

Pomocné skripty klasifikátoru.

out/

Klasifikované dokumenty první testovací sady.

out2/

Klasifikované dokumenty druhé testovací sady.

outClass/

Klasifikované dokumenty z výstupní složky OCR systému.

tmp/

Složka pro ukládání pomocných souborů při klasifikování.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published