In [2]:
import json
import time
import os
import re

from modules.preprocessing_protocols import preprocess_text
from modules.results_extraction import extract_results

from modules.corpus_readers_fixed import read_from_tsv
from estnltk import Text
from estnltk.taggers import NerTagger
from estnltk.taggers import WordLevelNerTagger
from estnltk.converters import text_to_json
from estnltk.converters import json_to_text
from estnltk.layer_operations import flatten

from estnltk.taggers import WordLevelNerTagger

In [3]:
def find(name, path):
    for root, dirs, files in os.walk(path):
        if name in files:
            return os.path.join(root, name)

In [16]:
def tag_files(testing_files_dir, model_dir, is_tsv = False):
    nertagger = NerTagger(model_dir)
    word_level_ner = WordLevelNerTagger(model_dir)
    removed_layers = ['sentences', 'morph_analysis', 'compound_tokens', 'ner', 'words', 'tokens']
    
    path = os.path.join(model_dir, 'vallakohtufailid-trained-nertagger')
    if not os.path.exists(path):
        os.mkdir(path)
    
    print("(!) Alustan failide märgendamist")
    if is_tsv:
        for file in os.listdir(os.path.join('test', 'morf_analyysid')):
            if file.endswith('.txt'):
                file_id = str(file).split('_')[1][2:]
                with open(os.path.join('test', 'morf_analyysid', file), 'r', encoding='UTF-8') as f:
                    text = preprocess_text(Text(f.read()))
                
                nertagger.tag(text)
                text.add_layer(flatten(text['ner'], 'flat_ner'))
                
                word_level_ner.tag(text)
                text.add_layer(flatten(text['wordner'], 'flat_wordner'))
                
                
                for x in removed_layers:
                    text.pop_layer(x)
                    
                for file in testing_files:
                    if f'id{file_id}' in file:
                        text_to_json(text, file=os.path.join(path, file))
                        print(f'Märgendatud fail {file}')
    else:
        iterator = 0
        for test_file in testing_files:
            with open(find(test_file.replace('.json', '.txt'), 'test'), 'r', encoding='UTF-8') as f:
                text = preprocess_text(Text(f.read()))

            nertagger.tag(text)
            text.add_layer(flatten(text['ner'], 'flat_ner'))
            
            word_level_ner.tag(text)
            text.add_layer(flatten(text['wordner'], 'flat_wordner'))
            
            for x in removed_layers:
                text.pop_layer(x)

            text_to_json(text, file=os.path.join(path, test_file))

            print(f'Märgendatud fail {test_file}')
            iterator += 1
    print(f"(!) Programm on lõpetanud")

In [5]:
def get_testing_files():
    files = []
    for file in os.listdir(os.path.join('test', 'flattened_json_files')):
        if file.endswith('.json'):
            files.append(file)
    return files

In [17]:
testing_files = get_testing_files()
model_dir = os.path.join('models', 'model_gaz_loc')
is_tsv = False

tag_files(testing_files, model_dir, is_tsv)

extract_results('model_gaz_loc', testing_files)

(!) Alustan failide märgendamist
Märgendatud fail Harju_Hageri_Kohila_id8179_1871a.json
Märgendatud fail Harju_Hageri_Kohila_id8352_1874a.json
Märgendatud fail Harju_J6el2htme_J6el2htme_id7155_1868a.json
Märgendatud fail Harju_J6el2htme_J6el2htme_id7376_1869a.json
Märgendatud fail Harju_J6el2htme_J6el2htme_id7637_1870a.json
Märgendatud fail Harju_Juuru_Kaiu_id18361_1873a.json
Märgendatud fail Harju_Juuru_Kaiu_id18707_1874a.json
Märgendatud fail Harju_Kose_Habaja_id678_1874a.json
Märgendatud fail Harju_Kose_Habaja_id808_1874a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id12761_1870a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id13306_1870a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id1775_1867a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id1834_1867a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id3956_1868a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id4927_1868a.json
Märgendatud fail Harju_Kose_Palvere_id25212_1873a.json
Märgendatud fail Harju_Kose_Triigi_id13811_1872

Märgendatud fail V6ru_R2pina_Kahkva_id19841_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id20116_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id21297_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id23081_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id23759_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id24435_1868a.json
Märgendatud fail V6ru_R2pina_Kahkva_id24976_1868a.json
Märgendatud fail V6ru_R2pina_R2pina_id10269_1870a.json
Märgendatud fail V6ru_R2pina_R2pina_id10283_1870a.json
Märgendatud fail V6ru_R2pina_R2pina_id10705_1868a.json
Märgendatud fail V6ru_R2pina_R2pina_id14382_1867a.json
Märgendatud fail V6ru_R2pina_R2pina_id14687_1867a.json
Märgendatud fail V6ru_R2pina_R2pina_id9286_1869a.json
Märgendatud fail V6ru_R2pina_R2pina_id9301_1869a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10087_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10144_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10650_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10756_1879a.json
Märgendatud 

({'ent_type': {'correct': 5508,
   'incorrect': 327,
   'partial': 0,
   'missed': 791,
   'spurious': 311,
   'possible': 6626,
   'actual': 6146,
   'precision': 0.8961926456231696,
   'recall': 0.8312707515846665,
   'f1': 0.8625117444409646},
  'partial': {'correct': 5306,
   'incorrect': 0,
   'partial': 529,
   'missed': 791,
   'spurious': 311,
   'possible': 6626,
   'actual': 6146,
   'precision': 0.9063618613732509,
   'recall': 0.8407032900694235,
   'f1': 0.8722987785781396},
  'strict': {'correct': 5189,
   'incorrect': 646,
   'partial': 0,
   'missed': 791,
   'spurious': 311,
   'possible': 6626,
   'actual': 6146,
   'precision': 0.8442889684347543,
   'recall': 0.7831270751584667,
   'f1': 0.8125587222048231},
  'exact': {'correct': 5306,
   'incorrect': 529,
   'partial': 0,
   'missed': 791,
   'spurious': 311,
   'possible': 6626,
   'actual': 6146,
   'precision': 0.8633257403189066,
   'recall': 0.8007847872019318,
   'f1': 0.8308800501096147}},
 {'ORG': {'ent_ty