Složka s instalačními soubory CRF++ klasifikátoru + trénovací data.
./lsr.py --input vstup --output vystup -m [extract_all | extract_hed | extract_section| extract_nocit] -i [rtf | ...]
-
--input - vstupní soubor
-
--output - výstupní soubor v XML. Pokud není zadán, tiskne se výsledek na standardní výstup.
-
-m - mód zpracování souboru:
"extract_all" - provede základní klasifikaci dokumentu, dodatečnou klasifikaci nadpisů
a klasifikaci hlavičky dokumentu"extract_hed" - provede klasifikaci hlavičky dokumentu
"extract_section" - provede základní klasifikaci dokumentu
-
-i - určuje formát vstupu. Zatím "rtf" bere jako vstupní soubor formátu RTF, ostatní či nezadané považuje za txt soubor.
./processOCRRTF.py
Jedná se o modul, který používá klasifikátor k extrahování surového textu z výsledku klasifikace, která je ve formě XML souboru.
./xmlParser.py
XML parser je možné použít i samostatně bez následné klasifikace.
Starý parser
./rtfParser.py
Nový parser
./rtfParserNew.py
RTF parser je možné použít i samostatně bez následné klasifikace. Stačí odkomentovat funkci main().
./runClassification.py
Skript určený pouze pro zklasifikování všech dokumentů nacházejících se ve výstupní složce OCR systému.
K tomuto skriptu se váže soubor classPassed.dat, který říká, které složky již byly klasifikovány a také
soubor outClass.log, který uchovává informace o výsledku klasifikace každého klasifikovaného souboru.
./ClassificationCheck.py
Automatizované vyhodnocení provádí kontrolu klasifikace Titulu, Autorů, E-Mailů, Přičlenění, Abstraktu, Nadpisu 1 a Nadpisu 2.
Výstupem je tabulka pro každý soubor, která ukazuje výsledek klasifikace pro danou část dokumentu. Po dokončení kontroly všech
dokumentů je vytvořena tabulka ukazující F-Measure Score, Recall, Precision, skutečný počet dané časti dokumentu ve všech
dokumentech, počet označení klasifikátorem a počet správných označení klasifikátorem.
./SaveOutClassToDatabase.py
Skript prochází složku OutClass a všechny doposud neuložené dokumenty ukládá do databáze. Seznam již uložených dokumentů je obsažen v souboru OutSavedToDB.dat. Skript tento seznam s každým svým během aktualizuje.
Skript využívá pro přístup k databázi soubor databaseAccess.dat, který je naplněn přístupovými údaji ve tvaru:
host:dbname:user:password
Jelikož tento soubor obsahuje citlivá data, není verzován a je nutné si jej lokálně vytvořit!
obsahuje nainstalovaný CRF++ klasifikátor
Sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách.
Správná klasifikace je uložena v manualClassification.txt ve formátu JSON.
Druhá sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách.
Správná klasifikace je uložena v manualClassificationWithReferences.txt ve formátu JSON. Tato sada narozdíl od první obsahuje
i klasifikaci referencí.
Skripty využívané ke klasifikaci citací.
Skripty využívané ke klasifikaci hlavičky dokumentu.
Skripty využívané k obecné klasifikaci dokumentu.
Pomocné skripty klasifikátoru.
Klasifikované dokumenty první testovací sady.
Klasifikované dokumenty druhé testovací sady.
Klasifikované dokumenty z výstupní složky OCR systému.
Složka pro ukládání pomocných souborů při klasifikování.