# INFO - Korpuse andmete töötlemine

Selles dokumendis on kood [EstTimeMLCorpus](https://github.com/soras/EstTimeMLCorpus)'es olevate ajalehetekstide ja märgendite viimiseks [EstNLTK 1.6](https://github.com/estnltk/estnltk/tree/version_1.6) Text objektide kujule.  
Siin leidub meetodeid:
*   korpusest tekstide, sündmuste ja ajaväljendite kättesaamiseks ja nendest kihtide loomiseks (*Text.text, Text.gold_events, Text.gold_timexes*)
*   sündmusi tähistavaid IOB kihtide loomiseks (*gold_word_events_synced, gold_word_events_w_classes_synced, gold_word_events_only_main_synced*)
*   ajaväljendite fraase sisaldava kihi loomiseks (*gold_timexes_phrases*)
*   Ajaväljendite automaattuvastaja kiht (*timexes*) + ajaväljendite ID'de ülekandmine

Lisaks luuakse igale ajalehetekstile *mapping*, sest korpuse ja Text.words sõnestused erinevad: (lause_nr_korpuses, sona_nr_korpuses) -> (text.start, text.end). Lisameetoditega saab leida vastava sõna(d) Text.words seast.  
Loodud Text objektid ja relatsioonid salvestatakse JSON/pickle failidena.

**NB!** Mugavamaks navigeerimiseks on soovitav kasutada Colab keskkonnas sisukorda või muus keskkonnas sarnast *add-on*'i.

# Vajalike teekide installimine

In [1]:
# Installi Estnltk 1.6(7b0)
!pip install conllu==3.1.1 estnltk==1.6.7b0


Collecting conllu==3.1.1
  Downloading https://files.pythonhosted.org/packages/61/f9/4d66cd89e31fb77f70a7cda6b72aca34572df1dd09805d765ce1bb0f24b5/conllu-3.1.1-py2.py3-none-any.whl
Collecting estnltk==1.6.7b0
[?25l  Downloading https://files.pythonhosted.org/packages/6f/08/af49c514576c0a08cd245ec22f4876779f1ae68129be71b8ad24184aada5/estnltk-1.6.7b0-cp37-cp37m-manylinux2014_x86_64.whl (99.4MB)
[K     |████████████████████████████████| 99.4MB 51kB/s 
Collecting nltk>=3.4.1
[?25l  Downloading https://files.pythonhosted.org/packages/5e/37/9532ddd4b1bbb619333d5708aaad9bf1742f051a664c3c6fa6632a105fd8/nltk-3.6.2-py3-none-any.whl (1.5MB)
[K     |████████████████████████████████| 1.5MB 36.4MB/s 
Collecting cached-property>=1.2.0
  Downloading https://files.pythonhosted.org/packages/48/19/f2090f7dad41e225c7f2326e4cfe6fff49e57dedb5b53636c9551f86b069/cached_property-1.5.2-py2.py3-none-any.whl
Collecting python-crfsuite>=0.8.3
[?25l  Downloading https://files.pythonhosted.org/packages/79/47/58f

# Imports ja file paths

In [2]:
import estnltk
import sys, os, re
from estnltk.converters import text_to_json, json_to_text
import json
import pickle
# impordime ajaväljendite tuvastaja Resolver-i
from estnltk.taggers.standard_taggers.timex_tagger_preprocessing import TIMEXES_RESOLVER

drive_path = "Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/"
baseAnnotationFile     = drive_path + "EstTimeMLCorpus/corpus/base-segmentation-morph-syntax"
eventAnnotationFile    = drive_path + "EstTimeMLCorpus/corpus/event-annotation"
timexAnnotationFile    = drive_path + "EstTimeMLCorpus/corpus/timex-annotation"
timexAnnotationDCTFile = drive_path + "EstTimeMLCorpus/corpus/timex-annotation-dct"
tlinkEventTimexFile    = drive_path + "EstTimeMLCorpus/corpus/tlink-event-timex"
tlinkEventDCTFile      = drive_path + "EstTimeMLCorpus/corpus/tlink-event-dct"
tlinkMainEventsFile    = drive_path + "EstTimeMLCorpus/corpus/tlink-main-events"
tlinkSubEventsFile     = drive_path + "EstTimeMLCorpus/corpus/tlink-subordinate-events"
articleMetadata_file   = drive_path + "EstTimeMLCorpus/corpus/article-metadata"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


# Drive'st korpuse lugemiseks

See Jupyteri fail asub kaustas, kus asub EstTimeMLCorpus korpuse kaust.

In [3]:
#Failide lugemiseks Colabis
import os
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
os.chdir("/content/drive/My Drive/Colab Notebooks/")

Mounted at /content/drive


In [None]:
# Korpuse paremini mõistmiseks on loodud kood. Eemalda kommentaar ja jooksuta.

# !python EstTimeMLCorpus/exported_corpus_reader.py EstTimeMLCorpus/corpus

# Meetodid korpuses olevate andmete lugemiseks
Meetodid on EstTimeMLCorpus'est saadud: https://github.com/soras/EstTimeMLCorpus/blob/master/exported_corpus_reader.py 

In [4]:
def load_base_segmentation(inputFile):
    base_segmentation = dict()
    last_sentenceID = ""
    f = open(inputFile, mode='r', encoding="utf-8")
    for line in f:
        # Skip the comment line
        if ( re.match("^#.+$", line) ):
            continue
        items = (line.rstrip()).split("\t")
        if (len(items) != 7):
            raise Exception(" Unexpected number of items on line: '"+str(line)+"'")
        file = items[0]
        if (file not in base_segmentation):
            base_segmentation[file] = []
        sentenceID = items[1]
        if (sentenceID != last_sentenceID):
            base_segmentation[file].append([])
        wordID     = items[2]
        # fileName	sentence_ID	word_ID_in_sentence	token	morphological_and_syntactic_annotations	syntactic_ID	syntactic_ID_of_head
        token           = items[3]
        morphSyntactic  = items[4]
        syntacticID     = items[5]
        syntacticHeadID = items[6]
        base_segmentation[file][-1].append( [sentenceID, wordID, token, morphSyntactic, syntacticID, syntacticHeadID] )
        last_sentenceID = sentenceID
    f.close()
    return base_segmentation

def load_entity_annotation(inputFile):
    annotationsByLoc = dict()
    annotationsByID  = dict()
    f = open(inputFile, mode='r', encoding="utf-8")
    for line in f:
        # Skip the comment line
        if ( re.match("^#.+$", line) ):
            continue
        items = (line.rstrip()).split("\t")
        # fileName	sentence_ID	word_ID_in_sentence	expression	event_annotation	event_ID
        # fileName	sentence_ID	word_ID_in_sentence	expression	timex_annotation	timex_ID
        if (len(items) != 6):
            raise Exception(" Unexpected number of items on line: '"+str(line)+"'")
        file       = items[0]
        sentenceID = items[1]
        wordID     = items[2]
        expression = items[3]
        annotation = items[4]
        entityID   = items[5]
        if (file not in annotationsByLoc):
            annotationsByLoc[file] = dict()
        if (file not in annotationsByID):
            annotationsByID[file] = dict()
        # Record annotation by its location in text
        locKey = (sentenceID, wordID)
        if (locKey not in annotationsByLoc[file]):
            annotationsByLoc[file][locKey] = []
        annotationsByLoc[file][locKey].append( [entityID, expression, annotation] )
        # Record annotation by its unique ID in text
        if (entityID not in annotationsByID[file]):
            annotationsByID[file][entityID] = []
        annotationsByID[file][entityID].append( [sentenceID, wordID, expression, annotation] )
    f.close()
    return (annotationsByLoc, annotationsByID)

def load_relation_annotation(inputFile):
    annotationsByID  = dict()
    f = open(inputFile, mode='r', encoding="utf-8")
    for line in f:
        # Skip the comment line
        if ( re.match("^#.+$", line) ):
            continue
        items = line.split("\t")
        # old format: fileName	entityID_A	relation	entityID_B	comment	expression_A	expression_B
        # new format: fileName	entityID_A	relation	entityID_B	comment	
        if (len(items) != 5):
            print (len(items))
            raise Exception(" Unexpected number of items on line: '"+str(line)+"'")
        file     = items[0]
        entityA  = items[1]
        relation = items[2]
        entityB  = items[3]
        comment  = items[4].rstrip()
        if (file not in annotationsByID):
            annotationsByID[file] = dict()
        annotation = [entityA, relation, entityB, comment]
        if (entityA not in annotationsByID[file]):
            annotationsByID[file][entityA] = []
        annotationsByID[file][entityA].append( annotation )
        if (entityB not in annotationsByID[file]):
            annotationsByID[file][entityB] = []
        annotationsByID[file][entityB].append( annotation )
    f.close()
    return annotationsByID

def load_relation_to_dct_annotations(inputFile):
    annotationsByID  = dict()
    f = open(inputFile, mode='r', encoding="utf-8")
    for line in f:
        # Skip the comment line
        if ( re.match("^#.+$", line) ):
            continue
        items = line.split("\t")
        # old format: fileName	entityID_A	relation_to_DCT	comment	expression_A
        # new format: fileName	entityID_A	relation_to_DCT	comment
        if (len(items) != 4):
            raise Exception(" Unexpected number of items on line: '"+str(line)+"'")
        file          = items[0]
        entityA       = items[1]
        relationToDCT = items[2]
        comment       = items[3].rstrip()
        if (file not in annotationsByID):
            annotationsByID[file] = dict()
        annotation = [entityA, relationToDCT, "t0", comment]
        if (entityA not in annotationsByID[file]):
            annotationsByID[file][entityA] = []
        annotationsByID[file][entityA].append( annotation )
    f.close()
    return annotationsByID

# Artikklite DCT saamiseks
def load_articles_DCT(inputFile):
  articlesDCT = dict()
  f = open(inputFile, mode='r', encoding="utf-8")
  for line in f:
    # Skip the comment line
      if ( re.match("^#.+$", line) ):
          continue
      items = line.split("\t")
      article = items[0]
      info = items[1].split(" | ")
      for inf in info:
        if "ajalehenumber" in inf:
          match = re.search(r'(\d+\.\d+\.\d+)',inf)
          #print(match.group(1))
          articlesDCT[article] = match.group(1)
          break
  return articlesDCT

# Korpuse failide töötlemine

## Korpuse tekstidest EstNLTK 1.6 Text objektide loomine

In [5]:
baseAnnotations = load_base_segmentation(baseAnnotationFile)
(eventsByLoc, eventsByID) = load_entity_annotation(eventAnnotationFile)
articlesDCT = load_articles_DCT(articleMetadata_file)
sentence_events =  eventsByLoc.get('aja_ml_2002_47.tasak.a006.sol')
sentence_events =  eventsByID.get('aja_ml_2002_47.tasak.a006.sol')
(timexesByLoc, timexesByID) = load_entity_annotation(timexAnnotationFile)
sentence_timex = timexesByLoc.get('aja_ml_2002_47.tasak.a006.sol')

Lisab terve artikli teksti ühte Text objekti. Lisatakse kaks kihti sündmuste (*gold_events*) ja ajaväljendite (*gold_timexes*) jaoks. Samuti Text objekti metaandmetesse lisan dokumendi loomise aja (*DCT*).  
Luuakse ka *gold_word_events* kihi (IOB formaadis märgendused).  
*(sentence_nr, word_nr) -> (start, end) -> word_id in 'words'* mappingu jaoks loon ka sõnastiku 'mapping'.

In [6]:
def create_Text_object(filename):
  event_classes = ['REPORTING', 'PERCEPTION', 'ASPECTUAL', 'I_ACTION', 'I_STATE', 'STATE', 'MODAL', 'OCCURRENCE', 'EVENT_CONTAINER', 'CAUSE']
  timex_types = ['DATE', 'TIME', 'DURATION', 'SET']

  sentence_base_annotations =  baseAnnotations.get(filename)
  sentence_events =  eventsByLoc.get(filename)
  sentence_timex = timexesByLoc.get(filename)

  sentence_id = 0 # mapping
  word_id_in_sentence = 0 # mapping
  letter_index = 0 # mapping
  mapping = {} # mapping
  # Going through the article and making one estnltk Text object with all sentences
  file_text = ""

  last_event_class = None
  last_timex_type = None
  last_timex_value = None
  for sentence in sentence_base_annotations:
    text = []
    for word_info in sentence:
      word = word_info[2]
      letter_index += len(word) # mapping
      text.append(word)
      mapping[(sentence_id, word_id_in_sentence)] = (letter_index - len(word), letter_index) # mapping
      word_id_in_sentence += 1 # mapping
      letter_index += 1 # mapping (kuna sõnade vahel on tühikud)

    text = " ".join(text)
    if file_text == "":
      file_text += text
    else:
      text = " " + text
      file_text += text
    sentence_id += 1 # mapping
    word_id_in_sentence = 0 # mapping
  article_text = estnltk.Text(file_text)
  article_text.tag_layer(['words', 'sentences', 'morph_analysis'])
  # Making a layer for events and timexes
  event_layer = estnltk.Layer(name='gold_events',
                  text_object=article_text,
                  attributes=['sentence_ID', 'word_ID_in_sentence','event_ID', 'expression', 'event_annotation', 'event_class'])
  timex_layer = estnltk.Layer(name='gold_timexes',
                  text_object=article_text,
                  attributes=['sentence_ID', 'word_ID_in_sentence', 'timex_ID', 'expression', 'timex_annotation', 'type', 'value'],
                  ambiguous=True)
  gold_word_events = estnltk.Layer(name="gold_word_events", text_object=article_text, attributes=['nertag', 'sentence_ID'], enveloping='words')

  # Start going over sentences in the article
  sentence_nr = 0
  last_word_was_multiword = False
  last_event_tag = None

  word_is_multiword = False
  multiword_event_tags = set()
  for sentence in sentence_base_annotations:
    word_nr = 0
    for word_info in sentence:
      word = word_info[2]
      startend = mapping.get((sentence_nr, word_nr))
      event = sentence_events.get((str(sentence_nr), str(word_nr)))
      if sentence_timex:
        timex = sentence_timex.get((str(sentence_nr), str(word_nr)))
      else:
        timex = None
      # Sõna on EVENT
      if event:
        e_class = event[0][2].split()[1]
        is_multiword = 'multiword="true"' in event[0][2].split()
        multiword_main_word = event[0][2].split()[1] != 'multiword="true"'
        event_tag = event[0][0]

        # gold_word_events taggide otsustamine
        if event_tag != last_event_tag and event_tag not in multiword_event_tags:
          gold_word_events.add_annotation((startend[0], startend[1]), nertag="B-EVENT", sentence_ID=sentence_nr)
        else:
          gold_word_events.add_annotation((startend[0], startend[1]), nertag="I-EVENT", sentence_ID=sentence_nr)
        
        if is_multiword:
          multiword_event_tags.add(event_tag)

        last_event_tag = event_tag
        # Kui sellist event_class'i pole, siis tõenäoliselt on tegemist multiword osaga
        if e_class not in event_classes:
          e_class = event[0][2].split()[0] # multiword puhul on class teisel kohal
        event_layer.add_annotation((startend[0], startend[1]), sentence_ID=sentence_nr, word_ID_in_sentence=word_nr, event_ID=event[0][0], expression=event[0][1], event_annotation=event[0][2], event_class=e_class)
      # Sõna on TIMEX
      elif timex:
        last_word_was_multiword = False
        gold_word_events.add_annotation((startend[0], startend[1]), nertag="O", sentence_ID=sentence_nr)

        # timex võib sisaldada ka mitut tähistust (tokenSubstringi puhul)
        # et span start ja end'iga ei tekiks konflikte, tuleb leida mis maalt hakkab järgmine tokenSubstring
        # Näide
        #--- [['t2', '"29. novembril kl 11-"', 'TIMEX multiword="true" tokenSubstring="true"']]
        #--- sõna: 11-17
        #--- start ja end: (28, 33)
        #--- [['t2', '"29. novembril kl 11-"', 'TIMEX multiword="true" tokenSubstring="true"'], ['t3', '"17"', 'TIMEX TIME 2002-11-29T17 tokenSubstring="true"']]
        token_start = startend[0]
        token_end = startend[1]
        for i in range(len(timex)):
          t_type = timex[i][2].split()[1]
          # Kui sellist timex_type'i pole, siis tõenäoliselt on tegemist multiword osaga
          # Fraasi esimese sõna atribuutide väärtused kehtivad üle fraasi ka teistel sõnadel
          if t_type in timex_types:
            last_timex_type = t_type
            t_value = timex[i][2].split()[2]
            last_timex_value = t_value
          else: # on multiword osa
            t_type = last_timex_type
            t_value = last_timex_value
          # Tuleb starti ja endi muuta
          if i > 0:
            # wordi sees on expression
            expression = timex[i][1].strip('""')
            if word.find(expression) == -1:
              if word == expression:
                liita = token_start
              else:
                liita = len(timex[i-1][1].strip('""'))
          timex_layer.add_annotation((token_start, token_end), sentence_ID=sentence_nr, word_ID_in_sentence=word_nr, timex_ID=timex[i][0], expression=timex[i][1], timex_annotation=timex[i][2], type=t_type, value=t_value)
      else:
        last_word_was_multiword = False
        gold_word_events.add_annotation((startend[0], startend[1]), nertag="O", sentence_ID=sentence_nr)
      word_nr += 1
    sentence_nr += 1


  time = articlesDCT.get(filename).split(".")
  if len(time[2]) == 4:
    time = time[2] + "-" + time[1] + "-" + time[0]
  else:
    time = time[0] + "-" + time[1] + "-" + time[2]

  # Adding layers to article text
  article_text.meta['dct'] = articlesDCT.get(filename)
  article_text.meta['creation_time'] = time
  article_text.meta['filename'] = filename
  article_text.add_layer(event_layer)
  article_text.add_layer(timex_layer)
  article_text.add_layer(gold_word_events)
  
  return article_text, mapping

In [7]:
article_text, mapping = create_Text_object('aja_ml_2002_47.tasak.a023.sol')
article_text

text
"20.11.2002 Juba aastaid on piimavarumisel kestnud anarhia . Kui vahepeal tundubki , et suuremad hädad hakkavad mööda saama , tuleb uus löök . See , et Rapla Dairy on lehmapidajatele kuude kaupa võlgu , pälvis laiemat tähelepanu alles siis , kui riik tahtis firmat juhtivale Afganistani eruohvitserile Jaqub Haidaryle eriliste teenete eest kodakondsuse kinkida . Mure suuruse võtab oma ilmekas lihtsuses kokku põllumajandusministeeriumile saadetud abipalve . Selle kirjutasid kaheksa Noarootsi lehmapidajat , kel piimaraha seitse kuud saamata . Kirjas seisab : "" Võimaluse piires palume tasuta abi juristi või advokaadi näol , kes tunneks seadusi ja oskaks meid , vaeseid piimatootjaid , kaitsta . "" Mida kuude kaupa saamata piimaraha tähendab , pole vaja seletada maainimesele , kellele see on üks põhilisi elatusallikaid . Mis kõige hullem - need inimesed on oma murega sisuliselt üksi , sest need , kes peaksid abi pakkuma , leiavad alati tuhat põhjendust , miks aidata pole võimalik . Põllumajandusministeerium püüab lahendusi otsida piimasektorile kiiranalüüsi tehes . Tekib küsimus , kas ülevaadet piimanduses toimuvast siis ministeeriumil varem polnudki . Kas senistest probleemidest pole õpitud ? Ja kas see hinnang tuleb ikka objektiivne või püütakse seisu euroläbirääkimiste taustal ilustada . Teised piimatööstused vaevalt Dairyt ja tema eelkäijat Lactot , kes kunagi sundis neid kokkuostuhinda kergitama , taga nutavad . Üks konkurent vähem . Pank muretseb jälle , kuidas oma laenu tagasi saada . Peaminister leiab , et rahaline abi raskustes firmadele on raiskamine . Aga maal oodatakse ja oodatakse piimaraha . Kuigi praegu töötatakse välja skeemi Dairy võlgade katmiseks , ei saa Dairyt vaadata ainult üksikjuhtumina . Kogu süsteem lonkab , ainult ei jõuta kokkuleppele , kumb jalg on haige või on tegu hoopis psüühikahäirega . Teistes , arenenumates riikides , kuuluvad piimatööstused enamasti ühistutele , mis on tootjate endi omad . Meil kunagi õitsval järjel olnud ühistegevust pole aga riik piisavalt toetada tahtnud . Et suuremad ärid õitseksid ja raha liiga laiali ei pudeneks . Ühe või paari lehma pidamine tundub selle kõrval ju nii tühine . Ent asi pole mitte lehmades , vaid inimestes . Kui asja kas või puhtmajanduslikult võtta , siis kumb on otstarbekam : kas maksta vaesematele maainimestele näljapajukit sotsiaaltoetuste näol või anda neile võimalus ise toime tulla . Läbi töö , mida nad oskavad ja austavad . Ka ilmset ebaõiglust võetakse tänases Eestis järjest enam loomuliku nähtusena . Nii ei jäägi talumehel ühel heal päeval muud üle , kui viimane lehm käekõrvale võtta ja advokaadi ukse taha viia . Piimaraha saamata , tapamajas järjekord , maksan natuuras ."

0,1
creation_time,2002-11-21
dct,21.11.2002
filename,aja_ml_2002_47.tasak.a023.sol

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,29
tokens,,,,False,422
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,418
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,418
gold_events,"sentence_ID, word_ID_in_sentence, event_ID, expression, event_annotation, event_class",,,False,105
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,17
gold_word_events,"nertag, sentence_ID",,words,False,418


## Paranda gold_events class väärtused
"multiword=true" puhul on event_classiks vahest "EVENT".  
Käin gold_events läbi. Kui class == "EVENT", vaatan ümbritsevaid sündmusi sama IDga ja muudan classi sobivaks.

In [8]:
def paranda_g_event_classid(tekst_objekt):
  for i in range(len(tekst_objekt.gold_events)):
    if tekst_objekt.gold_events[i].event_class == "EVENT":
      event_ID = tekst_objekt.gold_events[i].event_ID
      # Vaata eelnevaid
      for j in range(i - 1, -1, -1):
        # On sama sündmus ja class on õige
        if event_ID == tekst_objekt.gold_events[j].event_ID and tekst_objekt.gold_events[j].event_class != "EVENT":
          tekst_objekt.gold_events[i].event_class = tekst_objekt.gold_events[j].event_class
          break
      # Vaatan tulevaid
      for j in range(i + 1, len(tekst_objekt.gold_events)):
        if event_ID == tekst_objekt.gold_events[j].event_ID and tekst_objekt.gold_events[j].event_class != "EVENT":
          tekst_objekt.gold_events[i].event_class = tekst_objekt.gold_events[j].event_class
          break

paranda_g_event_classid(article_text)
article_text.gold_events

layer name,attributes,parent,enveloping,ambiguous,span count
gold_events,"sentence_ID, word_ID_in_sentence, event_ID, expression, event_annotation, event_class",,,False,105

text,sentence_ID,word_ID_in_sentence,event_ID,expression,event_annotation,event_class
piimavarumisel,1,3,e1,"""piimavarumisel""",EVENT OCCURRENCE,OCCURRENCE
kestnud,1,4,e2,"""kestnud""","EVENT ASPECTUAL comment=""fraas: kestnud anarhia""",ASPECTUAL
anarhia,1,5,e3,"""anarhia""",EVENT OCCURRENCE,OCCURRENCE
tundubki,2,2,e4,"""tundubki""",EVENT I_STATE,I_STATE
hakkavad,2,7,e5,"""hakkavad""",EVENT ASPECTUAL,ASPECTUAL
saama,2,9,e6,"""saama""",EVENT OCCURRENCE,OCCURRENCE
tuleb,2,11,e7,"""tuleb""",EVENT OCCURRENCE,OCCURRENCE
on,3,5,e8,"""on võlgu""","EVENT STATE multiword=""true""",STATE
võlgu,3,9,e8,"""on võlgu""","EVENT multiword=""true""",STATE
pälvis,3,11,e9,"""pälvis""","EVENT OCCURRENCE comment=""ka I_STATE: see, et on võlgu, pälvis tähelepanu""",OCCURRENCE


## gold_word_events_w_classes

In [9]:
def add_gold_word_events_w_classes(tekst_objekt):
  indeks = 0
  gold_word_events_w_classes = estnltk.Layer(name="gold_word_events_w_classes", text_object=tekst_objekt, attributes=['nertag', 'sentence_ID'], enveloping='words')
  for gold_word_event in tekst_objekt.gold_word_events:
    e_class = tekst_objekt.gold_events
    if gold_word_event.nertag != "O":
      e_class = tekst_objekt.gold_events[indeks].event_class
      indeks += 1
      gold_word_events_w_classes.add_annotation(gold_word_event.base_span, nertag=gold_word_event.nertag + "_" + e_class, sentence_ID=gold_word_event.sentence_ID)
    else:
      gold_word_events_w_classes.add_annotation(gold_word_event.base_span, nertag=gold_word_event.nertag, sentence_ID=gold_word_event.sentence_ID)
  tekst_objekt.add_layer(gold_word_events_w_classes)

add_gold_word_events_w_classes(article_text)
article_text.gold_word_events_w_classes

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_w_classes,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT_OCCURRENCE,1
kestnud,B-EVENT_ASPECTUAL,1
anarhia,B-EVENT_OCCURRENCE,1
.,O,1
Kui,O,2
vahepeal,O,2


## gold_word_events_only_main

In [10]:
def add_gold_word_events_only_main(tekst_objekt):
  event_classes = ['REPORTING', 'PERCEPTION', 'ASPECTUAL', 'I_ACTION', 'I_STATE', 'STATE', 'MODAL', 'OCCURRENCE', 'EVENT_CONTAINER', 'CAUSE']

  gold_word_events_only_main = estnltk.Layer(name="gold_word_events_only_main", text_object=tekst_objekt, attributes=['nertag', 'sentence_ID'], enveloping='words')
  indeks = 0
  for gold_word_event in tekst_objekt.gold_word_events:
    if gold_word_event.nertag != "O":
      e_class = tekst_objekt.gold_events[indeks].event_class
      event_annotation = tekst_objekt.gold_events[indeks].event_annotation
      indeks += 1
      if event_annotation.split(' ')[1] != 'multiword="true"':
        gold_word_events_only_main.add_annotation(gold_word_event.base_span, nertag="B-EVENT" + "_" + e_class, sentence_ID=gold_word_event.sentence_ID)
      else:
        gold_word_events_only_main.add_annotation(gold_word_event.base_span, nertag="O", sentence_ID=gold_word_event.sentence_ID)
    else:
      gold_word_events_only_main.add_annotation(gold_word_event.base_span, nertag=gold_word_event.nertag, sentence_ID=gold_word_event.sentence_ID)
  tekst_objekt.add_layer(gold_word_events_only_main)

add_gold_word_events_only_main(article_text)
article_text.gold_word_events_only_main

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_only_main,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT_OCCURRENCE,1
kestnud,B-EVENT_ASPECTUAL,1
anarhia,B-EVENT_OCCURRENCE,1
.,O,1
Kui,O,2
vahepeal,O,2


## gold_word_events synced with Text.words
Korpuses kasutatud ja EstNLTK sõnestused on erinevad.  
Viin EstNLTK kujule.

In [11]:
def add_gold_word_events_synced(tekst_objekt):
  gold_word_events_synced = estnltk.Layer(name="gold_word_events_synced", text_object=tekst_objekt, attributes=['nertag', 'sentence_ID'], enveloping='words')

  algus = 0
  osadega = False
  for i, word in enumerate(tekst_objekt.words):
    if word.text in tekst_objekt.gold_word_events[i-algus].text:
      gold_word_events_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events[i-algus].sentence_ID)
      if word.text != tekst_objekt.gold_word_events[i-algus].text:
        osadega = True
        algus += 1
      try:
        if osadega and tekst_objekt.words[i+1].text in tekst_objekt.gold_word_events[i+2-algus].text:
          osadega = False
          algus -= 1
      except:
        print("Expect:", len(tekst_objekt.words), i+1)
        print("Expect:", len(tekst_objekt.gold_word_events),i+2-algus)
    elif tekst_objekt.gold_word_events[i-algus].text in word.text:
      gold_word_events_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events[i-algus].sentence_ID)
      for j in range(i-algus, len(tekst_objekt.gold_word_events)):
        if tekst_objekt.gold_word_events[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break
    else:
      vahe = abs(word.start - tekst_objekt.gold_word_events[i-algus].end)
      gold_word_events_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events[i-algus].sentence_ID)
      if word.text[:vahe] == tekst_objekt.gold_word_events[i-algus].text[-vahe:]:
        algus -= 1
      for j in range(i-algus, len(tekst_objekt.gold_word_events)):
        if tekst_objekt.gold_word_events[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break

  tekst_objekt.add_layer(gold_word_events_synced)

add_gold_word_events_synced(article_text)
article_text.gold_word_events_synced

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_synced,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT,1
kestnud,B-EVENT,1
anarhia,B-EVENT,1
.,O,1
Kui,O,2
vahepeal,O,2


## gold_word_events_w_classes synced with Text.words

In [12]:
def add_gold_word_events_w_classes_synced(tekst_objekt):
  gold_word_events_w_classes_synced = estnltk.Layer(name="gold_word_events_w_classes_synced", text_object=tekst_objekt, attributes=['nertag', 'sentence_ID'], enveloping='words')

  algus = 0
  osadega = False
  for i, word in enumerate(tekst_objekt.words):
    if word.text in tekst_objekt.gold_word_events_w_classes[i-algus].text:
      gold_word_events_w_classes_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_w_classes[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_w_classes[i-algus].sentence_ID)
      if word.text != tekst_objekt.gold_word_events_w_classes[i-algus].text:
        osadega = True
        algus += 1
      try:
        if osadega and tekst_objekt.words[i+1].text in tekst_objekt.gold_word_events_w_classes[i+2-algus].text:
          osadega = False
          algus -= 1
      except:
        print("Expect:", len(tekst_objekt.words), i+1)
        print("Expect:", len(tekst_objekt.gold_word_events_w_classes),i+2-algus)
    elif tekst_objekt.gold_word_events_w_classes[i-algus].text in word.text:
      gold_word_events_w_classes_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_w_classes[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_w_classes[i-algus].sentence_ID)
      for j in range(i-algus, len(tekst_objekt.gold_word_events_w_classes)):
        if tekst_objekt.gold_word_events_w_classes[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break
    else:
      vahe = abs(word.start - tekst_objekt.gold_word_events_w_classes[i-algus].end)
      gold_word_events_w_classes_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_w_classes[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_w_classes[i-algus].sentence_ID)
      if word.text[:vahe] == tekst_objekt.gold_word_events_w_classes[i-algus].text[-vahe:]:
        algus -= 1
      for j in range(i-algus, len(tekst_objekt.gold_word_events_w_classes)):
        if tekst_objekt.gold_word_events_w_classes[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break

  tekst_objekt.add_layer(gold_word_events_w_classes_synced)

add_gold_word_events_w_classes_synced(article_text)
article_text.gold_word_events_w_classes_synced

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_w_classes_synced,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT_OCCURRENCE,1
kestnud,B-EVENT_ASPECTUAL,1
anarhia,B-EVENT_OCCURRENCE,1
.,O,1
Kui,O,2
vahepeal,O,2


## gold_word_events_only_main synced with Text.words

In [13]:
def add_gold_word_events_only_main_synced(tekst_objekt):
  gold_word_events_only_main_synced = estnltk.Layer(name="gold_word_events_only_main_synced", text_object=tekst_objekt, attributes=['nertag', 'sentence_ID'], enveloping='words')

  algus = 0
  osadega = False
  for i, word in enumerate(tekst_objekt.words):
    if word.text in tekst_objekt.gold_word_events_only_main[i-algus].text:
      gold_word_events_only_main_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_only_main[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_only_main[i-algus].sentence_ID)
      if word.text != tekst_objekt.gold_word_events_only_main[i-algus].text:
        osadega = True
        algus += 1
      try:
        if osadega and tekst_objekt.words[i+1].text in tekst_objekt.gold_word_events_only_main[i+2-algus].text:
          osadega = False
          algus -= 1
      except:
        print("Expect:", len(tekst_objekt.words), i+1)
        print("Expect:", len(tekst_objekt.gold_word_events_only_main),i+2-algus)
    elif tekst_objekt.gold_word_events_only_main[i-algus].text in word.text:
      gold_word_events_only_main_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_only_main[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_only_main[i-algus].sentence_ID)
      for j in range(i-algus, len(tekst_objekt.gold_word_events_only_main)):
        if tekst_objekt.gold_word_events_only_main[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break
    else:
      vahe = abs(word.start - tekst_objekt.gold_word_events_only_main[i-algus].end)
      gold_word_events_only_main_synced.add_annotation(word.base_span, nertag=tekst_objekt.gold_word_events_only_main[i-algus].nertag, sentence_ID=tekst_objekt.gold_word_events_only_main[i-algus].sentence_ID)
      if word.text[:vahe] == tekst_objekt.gold_word_events_only_main[i-algus].text[-vahe:]:
        algus -= 1
      for j in range(i-algus, len(tekst_objekt.gold_word_events_only_main)):
        if tekst_objekt.gold_word_events_only_main[j].text in word.text:
          algus -= 1
        else:
          algus += 1
          break

  tekst_objekt.add_layer(gold_word_events_only_main_synced)

add_gold_word_events_only_main_synced(article_text)
article_text.gold_word_events_only_main_synced

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_only_main_synced,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT_OCCURRENCE,1
kestnud,B-EVENT_ASPECTUAL,1
anarhia,B-EVENT_OCCURRENCE,1
.,O,1
Kui,O,2
vahepeal,O,2


## Meetodid mappingu kasutamiseks

mapping key on (sentence_nr, word_nr)  
mapping value on (sõna_start, sõna_end)

sõna_start väärtusega saab leida Text.words hulgast sobiva sõna ja selle indeksi(d)


In [14]:
def get_word_index_starting_at(EstNLTKText, start, end):
  word_indexes = []
  index = 0
  for word in EstNLTKText.words:
    if word.start <= start <= word.end or start <= word.start <= end:
      word_indexes.append(index)
    index += 1
  return word_indexes

def sentnr_wordnr_to_wordID_in_words(EstNLTKText, sentnr, wordnr):
  startend = mapping.get((sentnr, wordnr))
  return get_word_index_starting_at(EstNLTKText, startend[0], startend[1])

# Anda tekstiobjekt ja https://raw.githubusercontent.com/soras/EstTimeMLCorpus/master/corpus/base-segmentation-morph-syntax järgi sentence_nr ja word_nr. 
# Meetod tagastab indeksi(d), millega saab Text.words listist sõna(d) kätte.

## Automaatne TIMEXES kiht
See kiht vahest sisaldab õnneks ka ajaväljendeid, mida korpuses tähistatud pole ehk ajaväljendite arv kasvab.

In [15]:
article_text.tag_layer(['timexes'] , resolver=TIMEXES_RESOLVER)
article_text.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,8

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
['20.11.2002'],t1,DATE,2002-11-20,False,,,,,,,
['aastaid'],t2,DURATION,PXY,True,,,,,,,
['kuude'],t3,DURATION,PXM,True,,,,,,,
"['seitse', 'kuud']",t4,DURATION,P7M,False,,,,,,,
['kuude'],t5,DURATION,PXM,True,,,,,,,
['praegu'],t6,DATE,PRESENT_REF,True,t0,,,,,,
['tänases'],t7,DATE,2002-11-21,True,t0,,,,,,
"['ühel', 'heal', 'päeval']",t8,DATE,XXXX-XX-XX,True,t0,,,,,,


In [16]:
article_text.gold_timexes # sentence_ID ja word_ID_in_sentence vastavad korpuse sõnestusele

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,17

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
20.11.2002,0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
aastaid,1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
kuude,3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
kaupa,3,8,t3,"""kuude kaupa""","TIMEX multiword=""true""",DURATION,PXM
seitse,5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M
kuud,5,9,t4,"""seitse kuud""","TIMEX multiword=""true""",DURATION,P7M
kuude,7,1,t5,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
kaupa,7,2,t5,"""kuude kaupa""","TIMEX multiword=""true""",DURATION,PXM
varem,10,9,t6,"""varem""",TIMEX DATE PAST_REF,DATE,PAST_REF
senistest,11,1,t7,"""senistest""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF


## Text.gold_timexes fraasi kaupa

In [17]:
def fixed_gold_timexes_fraasi_kaupa(text_objekt):
  layer = estnltk.Layer(name='gold_timexes_phrases_ambiguous_fixed',
              text_object=text_objekt,
              attributes=['sentence_ID', 'word_ID_in_sentence', 'timex_ID', 'expression', 'timex_annotation', 'type', 'value'],
              enveloping='words',
              ambiguous=True)
  
  groups = text_objekt.gold_timexes.groupby(['timex_ID'], return_type='spans')
  phrase_spans = []
  for key in groups.count.keys():
    loendur = 0
    mitmes = 1000
    for annotationList in groups.groups[key]:
      for annotation in annotationList.annotations:
        if annotation.timex_ID in key:
          phrase_spans.append(annotationList.base_span)
          if mitmes == 1000:
            mitmes = loendur
        loendur += 1
    base_span = estnltk.EnvelopingBaseSpan(phrase_spans)
    new_span = estnltk.EnvelopingSpan(base_span, layer=layer)
    new_span.add_annotation(estnltk.Annotation(new_span, sentence_ID=groups.groups[key][0].sentence_ID[mitmes], word_ID_in_sentence=groups.groups[key][0].word_ID_in_sentence[mitmes], timex_ID=groups.groups[key][0].timex_ID[mitmes], timex_annotation=groups.groups[key][0].timex_annotation[mitmes], type=groups.groups[key][0].type[mitmes], value=groups.groups[key][0].value[mitmes], expression=groups.groups[key][0].expression[mitmes]))
    try:
      layer.add_span(new_span)
    except:
      # Selline span on juba olemas. Lisan veel ühe annotationi juurde.
      layer.add_annotation(new_span, sentence_ID=groups.groups[key][0].sentence_ID[mitmes], word_ID_in_sentence=groups.groups[key][0].word_ID_in_sentence[mitmes], timex_ID=groups.groups[key][0].timex_ID[mitmes], timex_annotation=groups.groups[key][0].timex_annotation[mitmes], type=groups.groups[key][0].type[mitmes], value=groups.groups[key][0].value[mitmes], expression=groups.groups[key][0].expression[mitmes])
    phrase_spans = []
  text_objekt.add_layer(layer)

fixed_gold_timexes_fraasi_kaupa(article_text)
article_text.gold_timexes_phrases_ambiguous_fixed

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,12

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
['20.11.2002'],0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
['aastaid'],1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
"['kuude', 'kaupa']",3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
"['seitse', 'kuud']",5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M
"['kuude', 'kaupa']",7,1,t5,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
['varem'],10,9,t6,"""varem""",TIMEX DATE PAST_REF,DATE,PAST_REF
['senistest'],11,1,t7,"""senistest""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],13,10,t8,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF
['praegu'],18,1,t9,"""praegu""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],21,1,t10,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF


In [18]:
article_text.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,8

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
['20.11.2002'],t1,DATE,2002-11-20,False,,,,,,,
['aastaid'],t2,DURATION,PXY,True,,,,,,,
['kuude'],t3,DURATION,PXM,True,,,,,,,
"['seitse', 'kuud']",t4,DURATION,P7M,False,,,,,,,
['kuude'],t5,DURATION,PXM,True,,,,,,,
['praegu'],t6,DATE,PRESENT_REF,True,t0,,,,,,
['tänases'],t7,DATE,2002-11-21,True,t0,,,,,,
"['ühel', 'heal', 'päeval']",t8,DATE,XXXX-XX-XX,True,t0,,,,,,


## Text.gold_timexes indeksite kandmine timexes kihti


In [19]:
# word.start järgi
# See meetod annab timex_ID listist esimese väärtuse
def kanna_timex_ID_automaatsesse_kihti(tekstobjekt):
  tekstobjekt.timexes.attributes = tekstobjekt.timexes.attributes + ('timex_ID', )
  found = False

  for timex in tekstobjekt.timexes:
    found = False
    for gold_timex in tekstobjekt.gold_timexes_phrases_ambiguous:
      if timex.start == gold_timex.start:
        timex.timex_ID = gold_timex.timex_ID[0]
        found = True
    if not found:
      timex.timex_ID = "None"

# Olenevalt sellest, kas ainult word.start või nii .start kui ka .end peavad kattuma, kannab üle erineva arvu timex_ID'si.
# Muudab kihi mitmeseks ja lisab vajadusel samale span'ile mitu kirjet
def kanna_timex_ID_automaatsesse_kihti_ambiguous(tekstobjekt):
  matches = 0
  markimata = 0

  tekstobjekt.timexes.attributes = tekstobjekt.timexes.attributes + ('timex_ID', )
  tekstobjekt.timexes.ambiguous = True

  gold_IDs = set()
  found = False
  for timex in tekstobjekt.timexes:
    found = False
    miinimum_erinevus = 1000
    for gold_timex in tekstobjekt.gold_timexes_phrases_ambiguous_fixed:
      if abs(timex.start - gold_timex.start) <= 15 and abs(timex.end - gold_timex.end) <= 15 or timex.start == gold_timex.start or timex.end == gold_timex.end:
        erinevus = abs(timex.start - gold_timex.start) + abs(timex.end - gold_timex.end)
        if erinevus <= miinimum_erinevus:
          matches += len(gold_timex.timex_ID)
          if len(gold_timex.timex_ID) == 1:
            timex.timex_ID = gold_timex.timex_ID[0]
            gold_IDs.add(gold_timex.timex_ID[0])
          else:
            timex.timex_ID = gold_timex.timex_ID[0]
            for i in range(1, len(gold_timex.timex_ID)):
              tekstobjekt.timexes.add_annotation(timex.base_span, tid=timex.tid[0], type=timex.type[0], value=timex.value[0], temporal_function=timex.temporal_function[0], anchor_time_id=timex.anchor_time_id[0], mod=timex.mod[0], quant=timex.quant[0], freq=timex.freq[0], begin_point=timex.begin_point[0], end_point=timex.end_point[0], part_of_interval=timex.part_of_interval[0], timex_ID=gold_timex.timex_ID[i])
              gold_IDs.add(gold_timex.timex_ID[i])
          found = True
          miinimum_erinevus = erinevus
    if not found:
      markimata += 1
      timex.timex_ID = "None"

  return (len(gold_IDs), len(tekstobjekt.gold_timexes_phrases_ambiguous_fixed), markimata, len(tekstobjekt.timexes))

result = kanna_timex_ID_automaatsesse_kihti_ambiguous(article_text)
article_text.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval, timex_ID",,words,True,8

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval,timex_ID
['20.11.2002'],t1,DATE,2002-11-20,False,,,,,,,,t1
['aastaid'],t2,DURATION,PXY,True,,,,,,,,t2
['kuude'],t3,DURATION,PXM,True,,,,,,,,t3
"['seitse', 'kuud']",t4,DURATION,P7M,False,,,,,,,,t4
['kuude'],t5,DURATION,PXM,True,,,,,,,,t5
['praegu'],t6,DATE,PRESENT_REF,True,t0,,,,,,,t9
['tänases'],t7,DATE,2002-11-21,True,t0,,,,,,,t11
"['ühel', 'heal', 'päeval']",t8,DATE,XXXX-XX-XX,True,t0,,,,,,,t12


In [20]:
article_text.gold_timexes_phrases_ambiguous_fixed

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,12

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
['20.11.2002'],0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
['aastaid'],1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
"['kuude', 'kaupa']",3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
"['seitse', 'kuud']",5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M
"['kuude', 'kaupa']",7,1,t5,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
['varem'],10,9,t6,"""varem""",TIMEX DATE PAST_REF,DATE,PAST_REF
['senistest'],11,1,t7,"""senistest""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],13,10,t8,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF
['praegu'],18,1,t9,"""praegu""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],21,1,t10,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF


## Millised gold_timexes ajaväljendid pole timexes üle kantud?
puuduvaddict - filename ja gtimex.text elemendid juhul kui leidub gtimex.timex_IDsi mida timexes kihis pole  
pole_antud_vaartust - filename ja gtimex.text elemendid juhul kui kehtib 'puuduvaddict' JA timexes kihis on timex_ID väärtusega "None" 

In [43]:
def puuduvad_gold_timexes(artiklid):
  puuduvaddict = dict()
  pole_antud_vaartust = dict()
  for artikkel in artiklid:
      puuduvad = []
      kantud = []
      for autoTimex in artikkel.timexes:
          kantud.append(autoTimex.timex_ID)
      for gtimex in artikkel.gold_timexes_phrases_ambiguous_fixed:
          if gtimex.timex_ID not in kantud:
              puuduvad.append(gtimex.text)
      if puuduvad:
          puuduvaddict[artikkel.meta.get("filename") + ".json"] = puuduvad
          onNone = ""
          for autoTimex in artikkel.timexes:
            #print(autoTimex.timex_ID)
            if autoTimex.timex_ID[0] == "None":
              pole_antud_vaartust[artikkel.meta.get("filename") + ".json"] = puuduvad
  return puuduvaddict, pole_antud_vaartust

puuduvad, pole_antud_vaartust = puuduvad_gold_timexes([article_text])
pole_antud_vaartust

{}

## Text objekti salvestamine json'ina

In [44]:
def save_to_json(text_object):
  text_json = text_to_json(text_object)
  with open(drive_path + "artiklid/" + text_object.meta['filename'] + '.json', 'w') as fp:
      json.dump(text_json, fp)
  print("Salvestatud", drive_path + "artiklid/" + text_object.meta['filename'] + '.json')

def text_from_json(filename):
  data = None
  with open(drive_path + "artiklid/" + filename, 'r') as fp:
      data = json.load(fp)
  return json_to_text(data)

# Mappingu salvestamine ja laadimine
def save_mapping(map, filename):
  with open(drive_path + "mapping/" + filename, 'wb') as outfile:
      pickle.dump(map, outfile)

def load_mapping(filename):
  with open(drive_path + "mapping/" + filename, 'rb') as infile:
      data = pickle.load(infile)
  return data

## Relatsioonide jaoks .pickle faili loomine
Sõnestikud, mida saaks kiiremini sisse lugeda kui tekstifailidest ning on kergem päringuid teha.  
Sõnastiku struktuur on järgnev.   
- relations_v2 key: (filename, entity_id)
- value: selles failis entity_id'ga seotud relatsioonid


In [23]:
def salvesta_relatsioonid(relatsioonid):
  with open(drive_path + 'relations.pickle', 'wb') as fp:
      #json.dump(relatsioonid, fp)
      pickle.dump(relatsioonid, fp)

def loe_relatsioonid():
  data = None
  with open(drive_path + 'relations.pickle', 'rb') as fp:
      #data = json.load(fp)
      data = pickle.load(fp)
  return data

def loo_relatsioonide_dict():
  main_events_relations = load_relation_annotation(tlinkMainEventsFile)
  subordinate_events_relations = load_relation_annotation(tlinkSubEventsFile)
  event_timex_relations = load_relation_annotation(tlinkEventTimexFile)
  event_dct_relations = load_relation_to_dct_annotations(tlinkEventDCTFile)

  # key = (filename, entity_id)
  # value = relations
  relations_v2 = {}
  for rels in [main_events_relations, subordinate_events_relations, event_timex_relations, event_dct_relations]:
    for text in rels:
      for entity_id in rels.get(text):
        if (text, entity_id) not in relations_v2:
          relations_v2[(text, entity_id)] = rels.get(text).get(entity_id)
        else:
          relations_v2.get((text, entity_id)).extend(rels.get(text).get(entity_id))

  return relations_v2

def only_main_events_relations():
  main_events_relations = load_relation_annotation(tlinkMainEventsFile)
  relations = {}
  for text in main_events_relations:
    for entity_id in main_events_relations.get(text):
      if (text, entity_id) not in relations:
        relations[(text, entity_id)] = main_events_relations.get(text).get(entity_id)
      else:
        relations.get((text, entity_id)).extend(main_events_relations.get(text).get(entity_id))
  return relations

def only_subordinate_events_relations():
  subordinate_events_relations = load_relation_annotation(tlinkSubEventsFile)
  relations = {}
  for text in subordinate_events_relations:
    for entity_id in subordinate_events_relations.get(text):
      if (text, entity_id) not in relations:
        relations[(text, entity_id)] = subordinate_events_relations.get(text).get(entity_id)
      else:
        relations.get((text, entity_id)).extend(subordinate_events_relations.get(text).get(entity_id))
  return relations

# Terve korpuse peal jooksutamine

In [45]:
baseAnnotations = load_base_segmentation(baseAnnotationFile)
(eventsByLoc, eventsByID) = load_entity_annotation(eventAnnotationFile)
articlesDCT = load_articles_DCT(articleMetadata_file)
(timexesByLoc, timexesByID) = load_entity_annotation(timexAnnotationFile)

In [46]:
gold_timex_margenduste_arv = 0
ylekantud_timex_margendusi = 0
timexes_puudu = 0
timexes_arv = 0

# Iga artikkli puhul
for artikkel in articlesDCT.keys():
  print(artikkel)
  # Kaks layerit sündmuste (gold_events) ja ajamäärangute (*gold_timexes*) jaoks.
  # Text metaandmetes DCT.
  # gold_word_events kiht (IOB formaadis märgendused)
  # (sentence_nr, word_nr) -> (start, end) -> word_id in 'words' mapping
  artikkli_tekst, mapping = create_Text_object(artikkel)
  # event_class "EVENT" -> õige class
  paranda_g_event_classid(artikkli_tekst)
  add_gold_word_events_w_classes(artikkli_tekst)
  add_gold_word_events_only_main(artikkli_tekst)

  # Text.words sõnade järgi
  add_gold_word_events_synced(artikkli_tekst)
  add_gold_word_events_w_classes_synced(artikkli_tekst)
  add_gold_word_events_only_main_synced(artikkli_tekst)
  
  save_mapping(mapping, artikkel + '.pickle')

  # Lisan automaatse TIMEXES kihi
  artikkli_tekst.tag_layer(['timexes'] , resolver=TIMEXES_RESOLVER)
  # gold_timexes kiht aga fraasi kaupa
  fixed_gold_timexes_fraasi_kaupa(artikkli_tekst)
  # gold_timexes_phrases kihi timex_ID'd kannan üle automaatsesse TIMEXES kihti
  result = kanna_timex_ID_automaatsesse_kihti_ambiguous(artikkli_tekst)
  gold_timex_margenduste_arv += result[1]
  ylekantud_timex_margendusi += result[0]
  timexes_puudu += result[2]
  timexes_arv += result[3]

  # Salvestan Text objekti JSON failina
  save_to_json(artikkli_tekst)

# Relatsioonide loomine ja salvestamine
relatsioonid = loo_relatsioonide_dict()
salvesta_relatsioonid(relatsioonid)

print()
print("Üle kanti", ylekantud_timex_margendusi, "gold_timexes märgendust", gold_timex_margenduste_arv,"-st.", "(Puudu jäi",  gold_timex_margenduste_arv - ylekantud_timex_margendusi, "märgendust 46 faili peale)")
print("timexes kihis jäi", timexes_puudu, "märgistusel", timexes_arv, "st lisamata. (34 märgistust 18 artikkli peale. Selliseid ajaväljendeid gold_timexes lihtsalt polnud)")
artikkli_tekst

aja_ml_2002_47.tasak.a006.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a006.sol.json
aja_ml_2002_47.tasak.a007.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a007.sol.json
aja_ml_2002_47.tasak.a008.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a008.sol.json
aja_ml_2002_47.tasak.a014.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a014.sol.json
aja_ml_2002_47.tasak.a016.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a016.sol.json
aja_ml_2002_47.tasak.a017.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a017.sol.json
aja_ml_2002_47.tasak.a023.sol
Salvestatud Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/artiklid/aja_ml_2002_47.tasak.a023.sol.json
aja_ml_2002_47.tasak.a025.sol
Salvestatud Loputoo_Ajase

text
"Kanadalast Piotr Staniaszeki tabas järjekordset mobiiliarvet avades ebameeldiv üllatus - mobiilifirma väitel oli ta kõnelnud rohkem kui 85 000 dollari ehk rohkem kui 890 930 krooni eest . Röögatu arve ei tekkinud siiski kallitest kaugekõnedest või lustiliinidele helistamisest . Staniaszek oli arvanud , et saab oma telefoni kasutada ka modemina ning mõnesajakroonise kuumaksu eest piiramatult netis surfata . Sidefirma Bell Mobility kundena laadis ta telefoni abil internetist alla täispikki mängufilme ja muid suuri faile . Et ta ületas nende allalaadimisega lepingus kindlaks määratud andmesidemahu , tiksutas telefonifirma arvet järjest suuremaks . Pärast seda , kui lepingutingimusi valesti mõistnud Staniaszek hiigelarve pärast lamenti lõi , tuli Bell Mobility talle vastu ning vähendas summa 3243 dollarile . Kuid Staniaszek pole ka sellega päri ja kavatseb arve vaidlustada . 22aastane Calgaryst pärit naftapuurija ütles novembrikuist arvet kommenteerides , et pidas seda esialgu eksituseks . Arve oli esmalt olnud 65 000 dollarit , piisavalt suur , ja mees võttis telefonifirmaga ühendust ning kurtis oma muret . Seks ajaks oli ta aga veel filme ja muud kraami alla laadinud ning arve oli kasvanud 85 000 dollarini . Staniaszeki sõnul on tema mobiiliarve tavaliselt umbes 150 dollarit ning seejuures saatvat Bell Mobility talle tihtipeale hoiatusi , et tema arve on väga suur . "" Mõnikord on telefon välja lülitatud ka tavapärasest saja dollari võrra suurema arve puhul , "" kurtis Staniaszek . "" Nüüd on ülekulu 85 000 ja keegi ei võtnud vaevaks mind hoiatada . "" Bell Mobility esindaja kinnitas , et firma on valmis arvet vähendama 3243 dollarile , sest just nii palju maksnuks Staniaszek allalaetud kraami eest juhul , kui ta kasutanuks kõige soodsamat andmesidelepingut ."

0,1
creation_time,2007-12-17
dct,2007.12.17
filename,aja_sloleht_2007_12_17.tasak.a051.sol

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,14
tokens,,,,False,273
compound_tokens,"type, normalized",,tokens,False,5
words,normalized_form,,,True,268
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,268
gold_events,"sentence_ID, word_ID_in_sentence, event_ID, expression, event_annotation, event_class",,,False,54
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,3
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,3
gold_word_events,"nertag, sentence_ID",,words,False,273
gold_word_events_only_main,"nertag, sentence_ID",,words,False,273


In [26]:
artikkli_tekst.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval, timex_ID",,words,True,3

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval,timex_ID
['22aastane'],t1,DURATION,P22Y,False,,,,,,,,t1
['novembrikuist'],t2,DATE,2007-11,True,t0,,,,,,,t2
['Nüüd'],t3,DATE,PRESENT_REF,True,t0,,,,,,,t3


## Vigade otsimine salvestatud tekstidest

In [42]:
drive_path = "Loputoo_Ajaseoste_automaatne_tuvastamine_tekstis/"
artiklite_kaust = drive_path + "artiklid"

laetud_artiklid = []

with os.scandir(artiklite_kaust) as entries:
  for entry in entries:
    if entry.is_file():
      data = None
      with open(entry, 'r') as fp:
        data = json.load(fp)
      laetud_artiklid.append(json_to_text(data))

print("Lugesin sisse", len(laetud_artiklid), "artiklit.")

Lugesin sisse 80 artiklit.


In [28]:
tekst = text_from_json("aja_ml_2002_47.tasak.a023.sol" + '.json')
tekst

text
"20.11.2002 Juba aastaid on piimavarumisel kestnud anarhia . Kui vahepeal tundubki , et suuremad hädad hakkavad mööda saama , tuleb uus löök . See , et Rapla Dairy on lehmapidajatele kuude kaupa võlgu , pälvis laiemat tähelepanu alles siis , kui riik tahtis firmat juhtivale Afganistani eruohvitserile Jaqub Haidaryle eriliste teenete eest kodakondsuse kinkida . Mure suuruse võtab oma ilmekas lihtsuses kokku põllumajandusministeeriumile saadetud abipalve . Selle kirjutasid kaheksa Noarootsi lehmapidajat , kel piimaraha seitse kuud saamata . Kirjas seisab : "" Võimaluse piires palume tasuta abi juristi või advokaadi näol , kes tunneks seadusi ja oskaks meid , vaeseid piimatootjaid , kaitsta . "" Mida kuude kaupa saamata piimaraha tähendab , pole vaja seletada maainimesele , kellele see on üks põhilisi elatusallikaid . Mis kõige hullem - need inimesed on oma murega sisuliselt üksi , sest need , kes peaksid abi pakkuma , leiavad alati tuhat põhjendust , miks aidata pole võimalik . Põllumajandusministeerium püüab lahendusi otsida piimasektorile kiiranalüüsi tehes . Tekib küsimus , kas ülevaadet piimanduses toimuvast siis ministeeriumil varem polnudki . Kas senistest probleemidest pole õpitud ? Ja kas see hinnang tuleb ikka objektiivne või püütakse seisu euroläbirääkimiste taustal ilustada . Teised piimatööstused vaevalt Dairyt ja tema eelkäijat Lactot , kes kunagi sundis neid kokkuostuhinda kergitama , taga nutavad . Üks konkurent vähem . Pank muretseb jälle , kuidas oma laenu tagasi saada . Peaminister leiab , et rahaline abi raskustes firmadele on raiskamine . Aga maal oodatakse ja oodatakse piimaraha . Kuigi praegu töötatakse välja skeemi Dairy võlgade katmiseks , ei saa Dairyt vaadata ainult üksikjuhtumina . Kogu süsteem lonkab , ainult ei jõuta kokkuleppele , kumb jalg on haige või on tegu hoopis psüühikahäirega . Teistes , arenenumates riikides , kuuluvad piimatööstused enamasti ühistutele , mis on tootjate endi omad . Meil kunagi õitsval järjel olnud ühistegevust pole aga riik piisavalt toetada tahtnud . Et suuremad ärid õitseksid ja raha liiga laiali ei pudeneks . Ühe või paari lehma pidamine tundub selle kõrval ju nii tühine . Ent asi pole mitte lehmades , vaid inimestes . Kui asja kas või puhtmajanduslikult võtta , siis kumb on otstarbekam : kas maksta vaesematele maainimestele näljapajukit sotsiaaltoetuste näol või anda neile võimalus ise toime tulla . Läbi töö , mida nad oskavad ja austavad . Ka ilmset ebaõiglust võetakse tänases Eestis järjest enam loomuliku nähtusena . Nii ei jäägi talumehel ühel heal päeval muud üle , kui viimane lehm käekõrvale võtta ja advokaadi ukse taha viia . Piimaraha saamata , tapamajas järjekord , maksan natuuras ."

0,1
creation_time,2002-11-21
dct,21.11.2002
filename,aja_ml_2002_47.tasak.a023.sol

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,29
tokens,,,,False,422
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,418
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,418
gold_events,"sentence_ID, word_ID_in_sentence, event_ID, expression, event_annotation, event_class",,,False,105
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,17
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,12
gold_word_events,"nertag, sentence_ID",,words,False,418
gold_word_events_only_main,"nertag, sentence_ID",,words,False,418


In [30]:
tekst.gold_events

layer name,attributes,parent,enveloping,ambiguous,span count
gold_events,"sentence_ID, word_ID_in_sentence, event_ID, expression, event_annotation, event_class",,,False,105

text,sentence_ID,word_ID_in_sentence,event_ID,expression,event_annotation,event_class
piimavarumisel,1,3,e1,"""piimavarumisel""",EVENT OCCURRENCE,OCCURRENCE
kestnud,1,4,e2,"""kestnud""","EVENT ASPECTUAL comment=""fraas: kestnud anarhia""",ASPECTUAL
anarhia,1,5,e3,"""anarhia""",EVENT OCCURRENCE,OCCURRENCE
tundubki,2,2,e4,"""tundubki""",EVENT I_STATE,I_STATE
hakkavad,2,7,e5,"""hakkavad""",EVENT ASPECTUAL,ASPECTUAL
saama,2,9,e6,"""saama""",EVENT OCCURRENCE,OCCURRENCE
tuleb,2,11,e7,"""tuleb""",EVENT OCCURRENCE,OCCURRENCE
on,3,5,e8,"""on võlgu""","EVENT STATE multiword=""true""",STATE
võlgu,3,9,e8,"""on võlgu""","EVENT multiword=""true""",STATE
pälvis,3,11,e9,"""pälvis""","EVENT OCCURRENCE comment=""ka I_STATE: see, et on võlgu, pälvis tähelepanu""",OCCURRENCE


In [31]:
tekst.gold_word_events
for gwe in tekst.gold_word_events:
  if gwe.nertag != 'O':
    print(gwe.text, gwe.nertag)

piimavarumisel B-EVENT
kestnud B-EVENT
anarhia B-EVENT
tundubki B-EVENT
hakkavad B-EVENT
saama B-EVENT
tuleb B-EVENT
on B-EVENT
võlgu I-EVENT
pälvis B-EVENT
tahtis B-EVENT
teenete B-EVENT
kinkida B-EVENT
võtab B-EVENT
saadetud B-EVENT
kirjutasid B-EVENT
saamata B-EVENT
seisab B-EVENT
palume B-EVENT
abi B-EVENT
tunneks B-EVENT
oskaks B-EVENT
kaitsta B-EVENT
saamata B-EVENT
tähendab B-EVENT
pole B-EVENT
vaja I-EVENT
seletada B-EVENT
on B-EVENT
on B-EVENT
üksi I-EVENT
peaksid B-EVENT
abi B-EVENT
pakkuma B-EVENT
leiavad B-EVENT
aidata B-EVENT
pole B-EVENT
võimalik I-EVENT
püüab B-EVENT
lahendusi B-EVENT
otsida B-EVENT
kiiranalüüsi B-EVENT
tehes I-EVENT
Tekib B-EVENT
ülevaadet B-EVENT
toimuvast B-EVENT
polnudki I-EVENT
probleemidest B-EVENT
õpitud B-EVENT
hinnang B-EVENT
tuleb B-EVENT
püütakse B-EVENT
euroläbirääkimiste B-EVENT
ilustada B-EVENT
sundis B-EVENT
kergitama B-EVENT
nutavad B-EVENT
muretseb B-EVENT
laenu B-EVENT
saada B-EVENT
leiab B-EVENT
abi B-EVENT
on B-EVENT
raiskamine I-EVEN

### gold_timexes 5 esimest ja 5 viimast

In [32]:
tekst.gold_timexes[:5]

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,5

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
20.11.2002,0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
aastaid,1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
kuude,3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
kaupa,3,8,t3,"""kuude kaupa""","TIMEX multiword=""true""",DURATION,PXM
seitse,5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M


In [33]:
tekst.gold_timexes

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,,True,17

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
20.11.2002,0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
aastaid,1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
kuude,3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
kaupa,3,8,t3,"""kuude kaupa""","TIMEX multiword=""true""",DURATION,PXM
seitse,5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M
kuud,5,9,t4,"""seitse kuud""","TIMEX multiword=""true""",DURATION,P7M
kuude,7,1,t5,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
kaupa,7,2,t5,"""kuude kaupa""","TIMEX multiword=""true""",DURATION,PXM
varem,10,9,t6,"""varem""",TIMEX DATE PAST_REF,DATE,PAST_REF
senistest,11,1,t7,"""senistest""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF


### gold_timexes_phrases

In [34]:
tekst.gold_timexes_phrases_ambiguous_fixed

layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,12

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
['20.11.2002'],0,0,t1,"""20.11.2002""","TIMEX DATE 2002-11-20 functionInDocument=""CREATION_TIME""",DATE,2002-11-20
['aastaid'],1,1,t2,"""aastaid""",TIMEX DURATION PXY,DURATION,PXY
"['kuude', 'kaupa']",3,7,t3,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
"['seitse', 'kuud']",5,8,t4,"""seitse kuud""","TIMEX DURATION P7M multiword=""true""",DURATION,P7M
"['kuude', 'kaupa']",7,1,t5,"""kuude kaupa""","TIMEX DURATION PXM multiword=""true""",DURATION,PXM
['varem'],10,9,t6,"""varem""",TIMEX DATE PAST_REF,DATE,PAST_REF
['senistest'],11,1,t7,"""senistest""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],13,10,t8,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF
['praegu'],18,1,t9,"""praegu""",TIMEX DATE PRESENT_REF,DATE,PRESENT_REF
['kunagi'],21,1,t10,"""kunagi""",TIMEX DATE PAST_REF,DATE,PAST_REF


### automaatne timexes

In [35]:
tekst.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval, timex_ID",,words,True,8

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval,timex_ID
['20.11.2002'],t1,DATE,2002-11-20,False,,,,,,,,t1
['aastaid'],t2,DURATION,PXY,True,,,,,,,,t2
['kuude'],t3,DURATION,PXM,True,,,,,,,,t3
"['seitse', 'kuud']",t4,DURATION,P7M,False,,,,,,,,t4
['kuude'],t5,DURATION,PXM,True,,,,,,,,t5
['praegu'],t6,DATE,PRESENT_REF,True,t0,,,,,,,t9
['tänases'],t7,DATE,2002-11-21,True,t0,,,,,,,t11
"['ühel', 'heal', 'päeval']",t8,DATE,XXXX-XX-XX,True,t0,,,,,,,t12


In [36]:
tekst.gold_word_events_synced

layer name,attributes,parent,enveloping,ambiguous,span count
gold_word_events_synced,"nertag, sentence_ID",,words,False,418

text,nertag,sentence_ID
20.11.2002,O,0
Juba,O,1
aastaid,O,1
on,O,1
piimavarumisel,B-EVENT,1
kestnud,B-EVENT,1
anarhia,B-EVENT,1
.,O,1
Kui,O,2
vahepeal,O,2


### Kontroll gold_word_events_x ja synced vahel.  
Artikklis 'aja_pm_2000_10_04.tasak.a029.sol' on sõna "Party'lgi" .words kihis kolme osana ja seepärast erinevus.

In [37]:
for artikkel in laetud_artiklid:
  tavaline = 0
  for tava in artikkel.gold_word_events:
    if tava.nertag != "O":
      tavaline += 1
  synced = 0
  for sync in artikkel.gold_word_events_synced:
    if sync.nertag != "O":
      synced += 1
  #print()
  if tavaline != synced:
    print("word_events", artikkel.meta.get("filename"))

  tavaline = 0
  for tava in artikkel.gold_word_events_w_classes:
    if tava.nertag != "O":
      tavaline += 1
  synced = 0
  for sync in artikkel.gold_word_events_w_classes_synced:
    if sync.nertag != "O":
      synced += 1
  #print()
  if tavaline != synced:
    print("word_events_w_classes", artikkel.meta.get("filename"))

  tavaline = 0
  for tava in artikkel.gold_word_events_only_main:
    if tava.nertag != "O":
      tavaline += 1
  synced = 0
  for sync in artikkel.gold_word_events_only_main_synced:
    if sync.nertag != "O":
      synced += 1
  #print()
  if tavaline != synced:
    print("word_events_only_main", artikkel.meta.get("filename"))

word_events aja_pm_2000_10_04.tasak.a029.sol
word_events_w_classes aja_pm_2000_10_04.tasak.a029.sol
word_events_only_main aja_pm_2000_10_04.tasak.a029.sol


### Puuduvad gold_timexes ajaväljendid timexes kihist
Vaatan artikkleid, milles jäi timexes kihis mingile väljendile timex_ID panemata.  
puuduvad - filename ja gtimex.text elemendid juhul kui leidub gtimex.timex_IDsi mida timexes kihis pole  
pole_antud_vaartust - filename ja gtimex.text elemendid juhul kui kehtib 'puuduvaddict' JA timexes kihis on timex_ID väärtusega "None" ehk võis ülekandmisel probleeme tekkida

In [38]:
puuduvad, pole_antud_vaartust = puuduvad_gold_timexes(laetud_artiklid)
keyd = list(puuduvad.keys())
len(pole_antud_vaartust)

11

In [39]:
keyd = list(pole_antud_vaartust.keys())
artikkel = keyd[10]
print(artikkel)
print(pole_antud_vaartust.get(artikkel))
tekst = text_from_json(artikkel)
tekst.gold_timexes_phrases_ambiguous_fixed

aja_sloleht_2007_12_17.tasak.a040.sol.json
[['Kolmapäevaõhtuses'], ['teist', 'aastat']]


layer name,attributes,parent,enveloping,ambiguous,span count
gold_timexes_phrases_ambiguous_fixed,"sentence_ID, word_ID_in_sentence, timex_ID, expression, timex_annotation, type, value",,words,True,8

text,sentence_ID,word_ID_in_sentence,timex_ID,expression,timex_annotation,type,value
['Kolmapäevaõhtuses'],0,0,t1,"""Kolmapäevaõhtuses""",TIMEX TIME 2007-12-12TEV,TIME,2007-12-12TEV
"['kolmapäeva', 'õhtul']",2,13,t2,"""kolmapäeva õhtul""","TIMEX TIME 2007-12-12TEV multiword=""true""",TIME,2007-12-12TEV
"['teist', 'aastat']",3,8,t3,"""teist aastat""","TIMEX DATE XXXX comment=""semantika edasiandmine probleemne"" multiword=""true""",DATE,XXXX
"['tund', 'aega']",4,9,t4,"""tund aega""","TIMEX DURATION PT1H multiword=""true""",DURATION,PT1H
"['nädala', 'keskpaigani']",16,8,t5,"""nädala keskpaigani""","TIMEX DATE 2007-W51 mod=""MID"" multiword=""true""",DATE,2007-W51
['Eile'],17,0,t6,"""Eile""",TIMEX DATE 2007-12-16,DATE,2007-12-16
['homme'],17,7,t7,"""homme""",TIMEX DATE 2007-12-18,DATE,2007-12-18
['kolmapäeval'],17,14,t8,"""kolmapäeval""",TIMEX DATE 2007-12-19,DATE,2007-12-19


In [40]:
tekst.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval, timex_ID",,words,True,7

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval,timex_ID
"['kolmapäeva', 'õhtul']",t1,TIME,2007-12-19TEV,True,,,,,,,,t2
"['tund', 'aega']",t2,DURATION,PT1H,False,,,,,,,,t4
"['17', 'tuntud']",t3,DURATION,PT17H,False,,,,,,,,
"['nädala', 'keskpaigani']",t4,DATE,XXXX-WXX,True,t0,MID,,,,,,t5
['Eile'],t5,DATE,2007-12-16,True,t0,,,,,,,t6
['homme'],t6,DATE,2007-12-18,True,t0,,,,,,,t7
['kolmapäeval'],t7,DATE,2007-12-19,True,t0,,,,,,,t8
