rrs_publication_ocr

crfpp/

Složka s instalačními soubory CRF++ klasifikátoru + trénovací data.

LSR/

Skripty

Klasifikátor:

./lsr.py --input vstup --output vystup -m [extract_all | extract_hed | extract_section| extract_nocit] -i [rtf | ...]

--input - vstupní soubor
--output - výstupní soubor v XML. Pokud není zadán, tiskne se výsledek na standardní výstup.
-m - mód zpracování souboru:

"extract_all" - provede základní klasifikaci dokumentu, dodatečnou klasifikaci nadpisů
a klasifikaci hlavičky dokumentu

"extract_hed" - provede klasifikaci hlavičky dokumentu

"extract_section" - provede základní klasifikaci dokumentu
-i - určuje formát vstupu. Zatím "rtf" bere jako vstupní soubor formátu RTF, ostatní či nezadané považuje za txt soubor.

./processOCRRTF.py

Jedná se o modul, který používá klasifikátor k extrahování surového textu z výsledku klasifikace, která je ve formě XML souboru.

XML parser:

./xmlParser.py

XML parser je možné použít i samostatně bez následné klasifikace.

RTF parser:

Starý parser
./rtfParser.py

Nový parser
./rtfParserNew.py

RTF parser je možné použít i samostatně bez následné klasifikace. Stačí odkomentovat funkci main().

Klasifikace dokumentu z výstupu OCR systému:

./runClassification.py

Skript určený pouze pro zklasifikování všech dokumentů nacházejících se ve výstupní složce OCR systému. K tomuto skriptu se váže soubor classPassed.dat, který říká, které složky již byly klasifikovány a také soubor outClass.log, který uchovává informace o výsledku klasifikace každého klasifikovaného souboru.

Automatizované vyhodnocení klasifikace:

./ClassificationCheck.py

Automatizované vyhodnocení provádí kontrolu klasifikace Titulu, Autorů, E-Mailů, Přičlenění, Abstraktu, Nadpisu 1 a Nadpisu 2. Výstupem je tabulka pro každý soubor, která ukazuje výsledek klasifikace pro danou část dokumentu. Po dokončení kontroly všech dokumentů je vytvořena tabulka ukazující F-Measure Score, Recall, Precision, skutečný počet dané časti dokumentu ve všech dokumentech, počet označení klasifikátorem a počet správných označení klasifikátorem.

Uložení klasifikovaných dokumentů do databáze:

./SaveOutClassToDatabase.py

Skript prochází složku OutClass a všechny doposud neuložené dokumenty ukládá do databáze. Seznam již uložených dokumentů je obsažen v souboru OutSavedToDB.dat. Skript tento seznam s každým svým během aktualizuje.

Skript využívá pro přístup k databázi soubor databaseAccess.dat, který je naplněn přístupovými údaji ve tvaru:
host:dbname:user:password

Jelikož tento soubor obsahuje citlivá data, není verzován a je nutné si jej lokálně vytvořit!

Složky

crfpp/

obsahuje nainstalovaný CRF++ klasifikátor

in/

Sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách. Správná klasifikace je uložena v manualClassification.txt ve formátu JSON.

in2/

Druhá sada dokumentů z OCR systému, která slouží pro kontrolu chování klasifikátoru a jeho schopnost klasifikace po úpravách. Správná klasifikace je uložena v manualClassificationWithReferences.txt ve formátu JSON. Tato sada narozdíl od první obsahuje i klasifikaci referencí.

LSRCIT/

Skripty využívané ke klasifikaci citací.

LSRHED/

Skripty využívané ke klasifikaci hlavičky dokumentu.

LSRLabel/

Skripty využívané k obecné klasifikaci dokumentu.

LSRRTF/

Pomocné skripty klasifikátoru.

out/

Klasifikované dokumenty první testovací sady.

out2/

Klasifikované dokumenty druhé testovací sady.

outClass/

Klasifikované dokumenty z výstupní složky OCR systému.

tmp/

Složka pro ukládání pomocných souborů při klasifikování.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
LSR		LSR
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LSR

LSR

.gitignore

.gitignore

README.md

README.md

Repository files navigation

rrs_publication_ocr

crfpp/

LSR/

Skripty

Klasifikátor:

XML parser:

RTF parser:

Klasifikace dokumentu z výstupu OCR systému:

Automatizované vyhodnocení klasifikace:

Uložení klasifikovaných dokumentů do databáze:

Složky

crfpp/

in/

in2/

LSRCIT/

LSRHED/

LSRLabel/

LSRRTF/

out/

out2/

outClass/

tmp/

About

Releases

Packages

Languages

KNOT-FIT-BUT/rrs_publication_ocr

Folders and files

Latest commit

History

Repository files navigation

rrs_publication_ocr

crfpp/

LSR/

Skripty

Klasifikátor:

XML parser:

RTF parser:

Klasifikace dokumentu z výstupu OCR systému:

Automatizované vyhodnocení klasifikace:

Uložení klasifikovaných dokumentů do databáze:

Složky

crfpp/

in/

in2/

LSRCIT/

LSRHED/

LSRLabel/

LSRRTF/

out/

out2/

outClass/

tmp/

About

Resources

Stars

Watchers

Forks

Languages