# Workflow for processing manual labellings

This workflow takes the output file that can be obtained by exporting to JSON in Labelstudio and does some basic analysis on it. 

## I. Consistency with th benchmark setup

* Check that LabelStudio files are properly named
* Check that LabelStudio files are properly labelled

In [14]:
import json

filename = 'labelled_data/substringtagger_labels/koond_1000_levinumad_labelled.json'

#check it can be opened and json loaded
with open(filename,'r',encoding='UTF-8') as f:
    data = json.load(f)

In [15]:
for task in data:
    #we have one annotation per text in this setup
    assert len(task['annotations']) == 1
    #check that the task has been annotated by someone
    assert task['annotations'][0]['completed_by'] > 0
    #check that yes or no has been chosen
    assert task['annotations'][0]['result'][-1]['value']['choices'][0] in ['yes','no']

## II. File export

* Export files to right ouptut format to be used in the benchmark.
* Do some basic analysis of lables and labelling time to detect something really odd
* Try to detect biased labelling where labeller has chosen easy/non-typical subset to label. 

### Working with files from labelstudio

This step takes the files from labelstudio and extracts those texts where the annotator chose "yes" and therefore are in the recall set.

In [16]:
import json

with open('labelled_data/substringtagger_labels/koond_1000_levinumad_labelled.json','r',encoding='UTF-8') as f:
    data = json.load(f)

In [19]:
recall_set = []

for txt in data:
    if txt['annotations'][0]['result'][-1]['value']['choices'][0] == 'yes':
        #recall set contains of the raw sentence and the tagged span
        recall_set.append([txt['data']['text'],txt['annotations'][0]['result'][0]['value']])

In [20]:
recall_set

[['Kutsume kõiki huvilisi 17. mail kell 11 Hurmi järve äärde külavisiooni talgutele !',
  {'start': 46, 'end': 51, 'text': 'järve', 'labels': ['v172_geo_terms']}],
 ['14. dets. 1936. a. Peipsi järvelt 7 kalurit...milline relvastus meie piirivalvuritel , kas on kordonites kuulipildujaid , kuidas on ülemuste nimed ja aukraadid .',
  {'start': 26, 'end': 33, 'text': 'järvelt', 'labels': ['v172_geo_terms']}],
 ['Ta teenis Aegna saarel ning mängis sõjaväe orkestris .',
  {'start': 16, 'end': 22, 'text': 'saarel', 'labels': ['v172_geo_terms']}],
 ['“ Ja just siia Lagedile , Pirita jõe ja Leivajõe vahelisele saarele . ”',
  {'start': 33, 'end': 36, 'text': 'jõe', 'labels': ['v172_geo_terms']}],
 ['Opa , Ilsnä , Ipiku , Mäemõisa , Karkla , Kirbla , Koiva , Koivaliina , Kuivaste , Kuramaa , Kööna , Alamõisa , Vana-Liivimaa , Lemsalu , Loodi , Lutsi , Luke , Väike-Salatsi , Nausküla , Pedeli jõgi , Pedetsi jõgi , Reikküla järv , Räisaku , Ruhja jõgi , Salatsi , Salatsi jõgi , Uue-Salatsi , Säde 

In [21]:
len(recall_set)

353

In [17]:
import json

with open('labelled_data/substringtagger_labels/koond_1000_mitmetahenduslikud_labelled.json','r',encoding='UTF-8') as f:
    data = json.load(f)

In [57]:
recall_set_2 = []

for txt in data:
    if txt['annotations'][0]['result'][-1]['value']['choices'][0] == 'yes':
        #recall set contains of the raw sentence and the tagged span
        recall_set_2.append([txt['data']['text'],txt['annotations'][0]['result'][0]['value']])

In [35]:
collection[3505]

text
"Mulle ei meeldi mingid kallite restoranidega meelitajad , võin kodus ka kõhu täis süüa ."

0,1
file,aja_kr_2002_11_26.xml
sent_end,6441
sent_start,6353
subcorpus,aja_kr
text_no,56
title,"Jana , ujuv kaunitar"
type,artikkel

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,15
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,15
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,15
morph_extended,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech, punctuation_type, pronoun_type, letter_case, fin, verb_extension_suffix, subcat",morph_analysis,,True,15


In [58]:
len(recall_set_2)

13

In [28]:
recall_set_2

["Me teame , et juutidel on nii Euroopas kui ka Põhja-Ameerikas , isegi Vaikse ookeani ääres kõikides tähtsamates linnades n-ö prestiižsel kohal  holocaust  'i muuseumid .",
 'Praegu on neil vastavalt 1994. aasta seadusele Liivi lahel kehtestatud ühine sisemeri .',
 'Seaduse lisas on öeldud , et kuna Eesti Vabariigi ning Läti Vabariigi vahelistel läbirääkimistel ei ole territoriaalmere piir Irbe väinas ja Liivi lahes veel fikseeritud , siis võib Eesti Vabariigi territoriaalmere piir läbirääkimiste tulemusena teatud punktides muutuda .',
 'Ees ootas Gobi kõrb .',
 '“ Mäletan Erikat väärika ja rühika naisena , ” meenutab Eva Lille raamatu “ Soome lahe kahel kaldal ” saatesõnas .',
 'India ookeani lääneosa jagatakse järgmiselt :',
 'E lisas on näidatud India ookeani lääneosa ( püügipiirkonna 51 ) piirid ja alarajoonid .',
 'Vääna- Jõesuu mäest olen 55 välja kütnud .',
 'Niagara joast New Yorgini',
 'Vähemalt on keskfraktsiooni parandusettepanekus Jürgensoni-Hanseni eelnõule selline punkt 

In [18]:
import json

with open('labelled_data/substringtagger_labels/koond_1000_ulejaanud.json','r',encoding='UTF-8') as f:
    data = json.load(f)

In [38]:
recall_set_3 = []

for txt in data:
    if txt['annotations'][0]['result'][-1]['value']['choices'][0] == 'yes':
        #recall set contains of the raw sentence and the tagged span
        recall_set_3.append([txt['data']['text'],txt['annotations'][0]['result'][0]['value']])

In [39]:
len(recall_set_3)

177

In [40]:
recall_set_3

[["Me teame , et juutidel on nii Euroopas kui ka Põhja-Ameerikas , isegi Vaikse ookeani ääres kõikides tähtsamates linnades n-ö prestiižsel kohal  holocaust  'i muuseumid .",
  {'start': 77, 'end': 84, 'text': 'ookeani', 'labels': ['v172_geo_terms']}],
 ['Praegu on neil vastavalt 1994. aasta seadusele Liivi lahel kehtestatud ühine sisemeri .',
  {'start': 53, 'end': 58, 'text': 'lahel', 'labels': ['v172_geo_terms']}],
 ['Seaduse lisas on öeldud , et kuna Eesti Vabariigi ning Läti Vabariigi vahelistel läbirääkimistel ei ole territoriaalmere piir Irbe väinas ja Liivi lahes veel fikseeritud , siis võib Eesti Vabariigi territoriaalmere piir läbirääkimiste tulemusena teatud punktides muutuda .',
  {'start': 131, 'end': 137, 'text': 'väinas', 'labels': ['v172_geo_terms']}],
 ['Ees ootas Gobi kõrb .',
  {'start': 15, 'end': 19, 'text': 'kõrb', 'labels': ['v172_geo_terms']}],
 ['“ Mäletan Erikat väärika ja rühika naisena , ” meenutab Eva Lille raamatu “ Soome lahe kahel kaldal ” saatesõnas .',

#### Second round of labelling

After filtering out the texts that contains the desired entities, a second round of tagging in Labelstudio should be done to mark the correct NER span on the text and also mark whether the current tagger found the correct span. This part here exports the texts to Labelstudio again.

In [107]:
from estnltk.taggers import NerTagger
from estnltk import Text
ner = NerTagger()
recall_set_texts = []
for snt in recall_set:
    text = Text(snt)
    text.tag_layer()
    ner.tag(text)
    recall_set_texts.append(text)

In [108]:
from estnltk.converters.label_studio.label_studio import LabelStudioExporter
exporter = LabelStudioExporter("koond_1000_levinumad_true.json",['ner'],checkbox=True,attribute='nertag',attribute_values=['PER','ORG','LOC'])

In [109]:
exporter.convert(recall_set_texts,append=False)

In [110]:
print(exporter.labeling_interface)


        <View>
            <Labels name="label" toName="text">
	<Label value="PER" background="#8AE768"/> 
	<Label value="ORG" background="#93236A"/> 
	<Label value="LOC" background="#8CE11B"/> 

            </Labels>
        <Text name="text" value="$text"/>
            <Header value="Are the annotations correct?"/>
                <Choices name="review" toName="text">
                    <Choice value="yes"/>
                    <Choice value="no"/>
                </Choices>
            </View>


Then the tagged file can again be imported here, just like seen above.

In [6]:
import json

def checkbox_statistics(filename, choices = ['yes','no']):
    
    with open(filename,'r',encoding='UTF-8') as f:
        data = json.load(f)
        
    counts = {}
    for txt in data:
        choice = txt['annotations'][0]['result'][-1]['value']['choices'][0]
        counts[choice] = counts.get(choice,0) + 1
    
    return counts

In [7]:
checkbox_statistics('labelled_data/substringtagger_labels/koond_1000_levinumad_labelled.json')

{'no': 644, 'yes': 353}