In [2]:
import json
import time
import os
import re

from modules.preprocessing_protocols import preprocess_text
from modules.extract_results import extract_results_to_txt_file, display_results_by_subdistribution,\
                                    display_results_by_named_entity, display_confusion_matrix
from modules.corpus_readers_fixed import read_from_tsv
from estnltk import Text
from estnltk.taggers import NerTagger
from estnltk.taggers import WordLevelNerTagger
from estnltk.converters import text_to_json
from estnltk.converters import json_to_text
from estnltk.layer_operations import flatten

In [3]:
def find(name, path):
    for root, dirs, files in os.walk(path):
        if name in files:
            return os.path.join(root, name)

In [4]:
def tag_files(testing_files_dir, model_dir, is_tsv = False):
    nertagger = NerTagger(model_dir)
    removed_layers = ['sentences', 'morph_analysis', 'compound_tokens', 'ner', 'words', 'tokens']
    
    path = os.path.join(model_dir, 'vallakohtufailid-trained-nertagger')
    if not os.path.exists(path):
        os.mkdir(path)
    
    print("[!] Alustan failide märgendamist")
    if is_tsv:
        for file in os.listdir(os.path.join('test', 'morf_analyysid')):
            if file.endswith('.txt'):
                file_id = str(file).split('_')[1][2:]
                with open(os.path.join('test', 'morf_analyysid', file), 'r', encoding='UTF-8') as f:
                    text = preprocess_text(Text(f.read()))
                
                nertagger.tag(text)
                text.add_layer(flatten(text['ner'], 'flat_ner'))
            
                for x in removed_layers:
                    text.pop_layer(x)
                    
                for file in testing_files:
                    if f'id{file_id}' in file:
                        text_to_json(text, file=os.path.join(path, file))
                        print(f'Märgendatud fail {file}')
    else:
        for test_file in testing_files:
            with open(find(test_file.replace('.json', '.txt'), 'test'), 'r', encoding='UTF-8') as f:

                text = preprocess_text(Text(f.read()))

            nertagger.tag(text)
            text.add_layer(flatten(text['ner'], 'flat_ner'))

            for x in removed_layers:
                text.pop_layer(x)

            text_to_json(text, file=os.path.join(path, test_file))

            print(f'Märgendatud fail {test_file}')
    print(f"Programm on lõpetanud")

In [5]:
def get_testing_files():
    files = []
    for file in os.listdir(os.path.join('test', 'flattened_json_files')):
        if file.endswith('.json'):
            files.append(file)
    return files

In [7]:
testing_files = get_testing_files()
model_dir = os.path.join('models', 'model_gaz_loc_variants')
is_tsv = True

tag_files(testing_files, model_dir, is_tsv)

extract_results_to_txt_file('model_gaz_loc', testing_files)

[!] Alustan failide märgendamist
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id12761_1870a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id13306_1870a.json
Märgendatud fail Harju_Kose_Triigi_id13811_1872a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id1775_1867a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id1834_1867a.json
Märgendatud fail Harju_Juuru_Kaiu_id18361_1873a.json
Märgendatud fail Harju_Juuru_Kaiu_id18707_1874a.json
Märgendatud fail Harju_Rapla_Rapla_id19155_1870a.json
Märgendatud fail Harju_Rapla_Rapla_id19159_1870a.json
Märgendatud fail Harju_Rapla_Rapla_id20936_1870a.json
Märgendatud fail Harju_Rapla_Rapla_id22193_1871a.json
Märgendatud fail Harju_Rapla_Rapla_id23345_1872a.json
Märgendatud fail Harju_Rapla_Rapla_id23362_1873a.json
Märgendatud fail Harju_Kose_Palvere_id25212_1873a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id3956_1868a.json
Märgendatud fail Harju_Kose_Kose-Uuem6isa_id4927_1868a.json
Märgendatud fail Harju_Kose_Habaja_id678_1874a.json
Märgendatud fa

Märgendatud fail V6ru_R6uge_Saaluse_id10087_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10144_1879a.json
Märgendatud fail V6ru_R2pina_R2pina_id10269_1870a.json
Märgendatud fail V6ru_R2pina_R2pina_id10283_1870a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10650_1879a.json
Märgendatud fail V6ru_R2pina_R2pina_id10705_1868a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10756_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10810_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10814_1879a.json
Märgendatud fail V6ru_R6uge_Saaluse_id10818_1879a.json
Märgendatud fail V6ru_Vastseliina_Misso_id13579_1881a.json
Märgendatud fail V6ru_Vastseliina_Misso_id13935_1881a.json
Märgendatud fail V6ru_R2pina_R2pina_id14382_1867a.json
Märgendatud fail V6ru_R2pina_R2pina_id14687_1867a.json
Märgendatud fail V6ru_Vastseliina_Misso_id15197_1882a.json
Märgendatud fail V6ru_R2pina_Kahkva_id19841_1867a.json
Märgendatud fail V6ru_R2pina_Kahkva_id20116_1867a.json
Märgendatud fail V6ru_Vastseliina_Misso_id20282_1882a

({'ent_type': {'correct': 4205,
   'incorrect': 476,
   'partial': 0,
   'missed': 1945,
   'spurious': 1377,
   'possible': 6626,
   'actual': 6058,
   'precision': 0.6941234730934301,
   'recall': 0.6346211892544522,
   'f1': 0.663040050457269},
  'partial': {'correct': 250,
   'incorrect': 0,
   'partial': 4431,
   'missed': 1945,
   'spurious': 1377,
   'possible': 6626,
   'actual': 6058,
   'precision': 0.4069825024760647,
   'recall': 0.37209477814669484,
   'f1': 0.3887574897508673},
  'strict': {'correct': 241,
   'incorrect': 4440,
   'partial': 0,
   'missed': 1945,
   'spurious': 1377,
   'possible': 6626,
   'actual': 6058,
   'precision': 0.039782106305711454,
   'recall': 0.03637186839722306,
   'f1': 0.0380006307158625},
  'exact': {'correct': 250,
   'incorrect': 4431,
   'partial': 0,
   'missed': 1945,
   'spurious': 1377,
   'possible': 6626,
   'actual': 6058,
   'precision': 0.041267745130406076,
   'recall': 0.03773015393902807,
   'f1': 0.03941974140649637}},
 {