# Part-of-Speech tagging and Named Entity Recognition

In acest laborator vom vorbi despre mai multe tool-uri din modului [Spacy](), impreuna cu alte probleme actuale din NLP.



In continuare ne vom axa pe exemple pentru limba romana.

In [None]:
! pip install -U spacy
! python -m spacy download ro_core_news_sm

In [None]:
import spacy
from spacy.lang.ro.examples import sentences 
from tabulate import tabulate
import os

nlp = spacy.load("ro_core_news_sm")

## Analiza morfologica

POS (part of speech) este partea de vorbire la nivel macro.

 - ADJ: adjective, e.g. big, old, green, incomprehensible, first  
 - ADP: adposition, e.g. in, to, during  
 - ADV: adverb, e.g. very, tomorrow, down, where, there  
 - AUX: auxiliary, e.g. is, has (done), will (do), should (do)  
 - CONJ: conjunction, e.g. and, or, but  
 - CCONJ: coordinating conjunction, e.g. and, or, but  
 - DET: determiner, e.g. a, an, the  
 - INTJ: interjection, e.g. psst, ouch, bravo, hello  
 - NOUN: noun, e.g. girl, cat, tree, air, beauty  
 - NUM: numeral, e.g. 1, 2017, one, seventy-seven, IV, MMXIV  
 - PART: particle, e.g. ’s, not,  
 - PRON: pronoun, e.g I, you, he, she, myself, themselves, somebody  
 - PROPN: proper noun, e.g. Mary, John, London, NATO, HBO  
 - PUNCT: punctuation, e.g. ., (, ), ?  
 - SCONJ: subordinating conjunction, e.g. if, while, that  
 - SYM: symbol, e.g. $, %, §, ©, +, −, ×, ÷, =, :), 😝  
 - VERB: verb, e.g. run, runs, running, eat, ate, eating  
 - X: other, e.g. sfpksdpsxmsa  
 - SPACE: space, e.g.


Tag-ul este un pos fine grained, ce poate fi vazut ca o prescurtare a descrierii obtinute din morph.

In [None]:
doc = nlp(sentences[0])

descriptions = []
for token in doc:
    desc = [token.text, token.pos_, token.tag_, token.morph]
    descriptions.append(desc)

print(tabulate(descriptions, headers=["word", "pos", "tag", "morph"]))

word        pos    tag      morph
----------  -----  -------  --------------------------------------------------------------
Apple       NOUN   Ncfp-n   Definite=Ind|Gender=Fem|Number=Plur
plănuiește  AUX    Vmip3s   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
să          PART   Qs       Mood=Sub
cumpere     AUX    Vmsp3    Mood=Sub|Person=3|Tense=Pres|VerbForm=Fin
o           DET    Tifsr    Case=Acc,Nom|Gender=Fem|Number=Sing|PronType=Ind
companie    NOUN   Ncfsrn   Case=Acc,Nom|Definite=Ind|Gender=Fem|Number=Sing
britanică   ADJ    Afpfsrn  Case=Acc,Nom|Definite=Ind|Degree=Pos|Gender=Fem|Number=Sing
pentru      ADP    Spsa     AdpType=Prep|Case=Acc
un          DET    Timsr    Case=Acc,Nom|Gender=Masc|Number=Sing|PronType=Ind
miliard     NUM    Mcms-ln  Definite=Ind|Gender=Masc|NumForm=Word|NumType=Card|Number=Sing
de          ADP    Spsa     AdpType=Prep|Case=Acc
dolari      NOUN   Ncmp-n   Definite=Ind|Gender=Masc|Number=Plur


Foarte util in detectia de mental health disorders. Conform unor studii psihologice oamenii diagnosticati cu depresie tind sa foloseasca mai mult pronumele "I", verbe la persoana intai si alte adverbe "nothing", "never" etc.. Mai multe detalii [aici](https://aclanthology.org/W18-4102.pdf).


## Dependency parsing

In [None]:
from spacy import displacy

displacy.render(doc, style="dep", options={"distance": 100}, jupyter=True)

In [None]:
# pentru a intelege relatiile
spacy.explain('ccomp')

'clausal complement'

In [None]:
# https://spacy.io/usage/linguistic-features

dependency_features = []
for token in doc:
    dependency_features.append([token.text, token.dep_, token.head.text, token.head.pos_, [child for child in token.children]])
print(tabulate(dependency_features, headers=["word", "dependency", "parent", "pos", "children"]))

word        dependency    parent      pos    children
----------  ------------  ----------  -----  -----------------------
Apple       nsubj         plănuiește  AUX    []
plănuiește  ROOT          plănuiește  AUX    [Apple, cumpere]
să          mark          cumpere     AUX    []
cumpere     ccomp         plănuiește  AUX    [să, companie, miliard]
o           det           companie    NOUN   []
companie    obj           cumpere     AUX    [o, britanică]
britanică   amod          companie    NOUN   []
pentru      case          miliard     NUM    []
un          det           miliard     NUM    []
miliard     obl           cumpere     AUX    [pentru, un, dolari]
de          case          dolari      NOUN   []
dolari      nmod          miliard     NUM    [de]


## Lematizare folosind POS

Am vazut in al doilea laborator cum putem folosi atat `nltk` cat si `spacy` pentru a extrage lemele (formele de dictionar) ale unor cuvinte.

In general, lematizarea din `nltk` nu foloseste informatii despre partea de vorbire, pe cand in `spacy` in pipelineul de preprocesare sunt detectate partile de vorbire si folosite in lematizare. Putem insa sa ne folosim de POS si in cazul `nltk` astfel:

In [None]:
import nltk
nltk.download('wordnet')
wl = nltk.WordNetLemmatizer()  # instantiem un lemmatizer

In [None]:
print(wl.lemmatize("being"))
print(wl.lemmatize("being", pos="n"))
print(wl.lemmatize("being", pos="v"))

being
being
be


In [None]:
print(wl.lemmatize("painted"))
print(wl.lemmatize("painted", pos="v"))
print(wl.lemmatize("painted", pos="a"))

painted
paint
painted


POS in `nltk` sunt:
- `n` (noun/substantiv)
- `v` (verb)
- `a` (adjectiv)
- `r` (adverb).

# Name Entity Recognition (NER)

Un task important de recunoastere a numelor proprii din texte. Fiecare corpus din spacy are o lista de label-uri pe care le putem vizualiza prin apelul de mai jos. 

**ORG** - companii, agentii, etc. (mai frecvent in corpusul de engleza)  
**GPE** - entitati geopolitice precum tari, orase, state, etc.



In [None]:
nlp.get_pipe("ner").labels

('DATETIME',
 'EVENT',
 'FACILITY',
 'GPE',
 'LANGUAGE',
 'LOC',
 'MONEY',
 'NAT_REL_POL',
 'NUMERIC_VALUE',
 'ORDINAL',
 'ORGANIZATION',
 'PERIOD',
 'PERSON',
 'PRODUCT',
 'QUANTITY',
 'WORK_OF_ART')

Mai jos putem vedea pipeline-ul aplicat pe o propozitie concreta in romana. Rezultatul este o lista de span-uri, fiecare span continand mai multe token-uri. Fiecare token are flag-ul IOB cu urmatoarea semnificatie:

I – Token is inside an entity.  
O – Token is outside an entity.  
B – Token is the beginning of an entity.  

In [None]:
print(sentences[2], ":\n")
doc = nlp(sentences[2])
entities = []
for ent in doc.ents:
    ent_description = []
    for token in ent:
        ent_description.append(f'{token.text} - {token.ent_iob_}')
    
    entities.append([ent.text, (ent.start_char, ent.end_char), ent.label_, '; '.join(ent_description)])
print(tabulate(entities, headers=["word", "position", "label", "token - IOB"]))

Londra este un oraș mare în Regatul Unit :

word          position    label    token - IOB
------------  ----------  -------  ---------------------
Londra        (0, 6)      GPE      Londra - B
Regatul Unit  (28, 40)    GPE      Regatul - B; Unit - I


In versiunea 2 de spacy, modelul NER este o retea convolutionala (laborator 4), pe cand in versiunea 3, avem de-a face cu un [transformer](https://arxiv.org/pdf/1706.03762.pdf).  

In [None]:
def get_label(layer):
    layer_name = layer.name
    nO = layer.get_dim("nO") if layer.has_dim("nO") else "?"
    nI = layer.get_dim("nI") if layer.has_dim("nI") else "?"
    return f"{layer.name}|({nO}, {nI})".replace('>>', '\n')

ner = nlp.get_pipe('ner')
for i, ner_layer in enumerate(ner.model.layers):
    print(f"Layer no {i}:")
    print(get_label(ner_layer))
    print()

Layer no 0:
extract_features
list2ragged
with_array(ints-getitem
hashembed|ints-getitem
hashembed|ints-getitem
hashembed|ints-getitem
hashembed|ints-getitem
hashembed)
with_array(maxout
layernorm
dropout)
ragged2list
with_array(residual(expand_window
maxout
layernorm
dropout)
residual(expand_window
maxout
layernorm
dropout)
residual(expand_window
maxout
layernorm
dropout)
residual(expand_window
maxout
layernorm
dropout))
list2array
linear|(64, ?)

Layer no 1:
precomputable_affine|(64, 64)

Layer no 2:
linear|(66, 64)



In [None]:
!wget https://raw.githubusercontent.com/dumitrescustefan/ronec/master/data/train.json

--2022-04-05 20:12:30--  https://raw.githubusercontent.com/dumitrescustefan/ronec/master/data/train.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10753146 (10M) [text/plain]
Saving to: ‘train.json’


2022-04-05 20:12:31 (25.8 MB/s) - ‘train.json’ saved [10753146/10753146]



In [None]:
import json

with open('train.json', 'r') as fin:
    ronec = json.load(fin)

In [None]:
print(ronec[1].keys())
print(ronec[1]["id"])
print(ronec[1]["tokens"])
print(ronec[1]["ner_tags"])
print(ronec[1]["ner_ids"])
print(ronec[1]["space_after"])

dict_keys(['id', 'ner_tags', 'ner_ids', 'tokens', 'space_after'])
11865
['Vechiul', 'oraș', 'Visoki', 'a', 'fost', 'un', 'faimos', 'castel', 'regal', 'medieval', 'în', 'timpul', 'secolului', 'al', 'XIV', '-lea', ',', 'situat', 'în', 'Visoko', ',', 'Bosnia', 'și', 'Herțegovina', '.']
['O', 'O', 'B-GPE', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-DATETIME', 'I-DATETIME', 'I-DATETIME', 'I-DATETIME', 'O', 'O', 'O', 'B-GPE', 'O', 'B-GPE', 'I-GPE', 'I-GPE', 'O']
[0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 17, 18, 18, 18, 0, 0, 0, 5, 0, 5, 6, 6, 0]
[True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, False, True, True, True, True, True, True, True, False, False]


In [None]:
import re

dataset_max_len = 100  # extragem doar primele 100 de exemple din ronec
dataset = []
for i, entry in enumerate(ronec):
    if i > 100:
        break

    entities = []
    full_text = ''
    is_outside = True
    for i, (token, ner_tag, is_space) in enumerate(zip(entry['tokens'], entry['ner_tags'], entry['space_after'])):
        current_space = ' ' if is_space else ''

        if ner_tag.startswith('B-'):
            is_outside = False
            entity = ''
            entity_start = len(full_text)
            entity_name = ner_tag.split('-')[-1]

        elif ner_tag == 'O' and not is_outside:
            is_outside = True
            entity_end = len(full_text)
            if entity[-1] == ' ':
                entity_end -= 1
                entity = entity[:-1]
            # print(entity_start, entity_end, entity_name, entity)
            entities.append((entity_start, entity_end, entity_name))

        if not is_outside:
           entity += token + current_space
        full_text += token + current_space
    
    dataset.append((full_text, {
        "entities": entities
    }))


In [None]:
print(dataset[1])

('Vechiul oraș Visoki a fost un faimos castel regal medieval în timpul secolului al XIV-lea, situat în Visoko , Bosnia și Herțegovina.', {'entities': [(13, 19, 'GPE'), (69, 89, 'DATETIME'), (101, 107, 'GPE'), (110, 131, 'GPE')]})


In [None]:
from sklearn.model_selection import train_test_split
import numpy as np

train_dataset, test_dataset, _, _ = train_test_split(dataset, np.zeros(len(dataset)), test_size=0.1, random_state=101)

Avand datele impartite pe antrenare si testare, pentru a antrena un nou model NER, avem nevoie de un alt NLP pipeline, caruia ii adaugam o componenta (pipe) de NER, dupa cum urmeaza:

In [None]:
nlp = spacy.blank('ro')  

if 'ner' not in nlp.pipe_names:
    ner = nlp.add_pipe('ner', last=True)
else:
    ner = nlp.get_pipe('ner')

Adaugam label-urile din dataset-ul nostru, respectand formatul initial.

In [None]:
for _, annotations in dataset:
    for ent in annotations["entities"]:
        ner.add_label(ent[2])

In [None]:
import random
from tqdm import tqdm
from spacy.training.example import Example
n_epochs = 100

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # Antrenam doar NER-ul     
    optimizer = nlp.begin_training()
    for epoch in range(n_epochs):
        random.shuffle(train_dataset)
        losses = {}
        for text, annotations in tqdm(train_dataset):
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, annotations)
            nlp.update(
                [example],  
                drop=0.35,  
                sgd=optimizer,
                losses=losses
            )
        print(losses)

100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 58.67it/s]


{'ner': 1181.5347758118269}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.24it/s]


{'ner': 801.6053013760431}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.70it/s]


{'ner': 827.9487372001727}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.27it/s]


{'ner': 724.7852630879058}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.50it/s]


{'ner': 734.9207974973478}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.15it/s]


{'ner': 745.6657571937229}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.93it/s]


{'ner': 727.510632396348}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.59it/s]


{'ner': 501.3484495554456}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.69it/s]


{'ner': 618.776870817176}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.67it/s]


{'ner': 504.23634119202944}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.02it/s]


{'ner': 419.16528772699456}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.67it/s]


{'ner': 396.8310835501449}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.44it/s]


{'ner': 391.1803052886366}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.38it/s]


{'ner': 400.5588174510841}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.18it/s]


{'ner': 342.0960858106352}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.54it/s]


{'ner': 347.43202612341497}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.79it/s]


{'ner': 293.18082599317006}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.11it/s]


{'ner': 286.9998064409175}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.45it/s]


{'ner': 301.4885316039523}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.85it/s]


{'ner': 274.89674339921777}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.57it/s]


{'ner': 240.23716597573883}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.02it/s]


{'ner': 195.60544522869756}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.22it/s]


{'ner': 201.49745555703763}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.03it/s]


{'ner': 224.75290934288023}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.75it/s]


{'ner': 202.53693447975058}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.73it/s]


{'ner': 189.14154204241584}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.07it/s]


{'ner': 142.85049876747675}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.76it/s]


{'ner': 141.2617251973223}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.13it/s]


{'ner': 152.37925487303232}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.41it/s]


{'ner': 132.03920782645545}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.19it/s]


{'ner': 122.7727619228253}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.45it/s]


{'ner': 156.41209384458617}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.49it/s]


{'ner': 183.06184446237165}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.88it/s]


{'ner': 153.12177360984683}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.10it/s]


{'ner': 153.54811442980312}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.18it/s]


{'ner': 108.50568759952498}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 60.12it/s]


{'ner': 105.43449417853934}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 57.31it/s]


{'ner': 92.33426662924383}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.03it/s]


{'ner': 106.01666895729988}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.21it/s]


{'ner': 84.00702390839501}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 60.49it/s]


{'ner': 74.2922000296841}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 59.14it/s]


{'ner': 76.1999517931766}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 60.87it/s]


{'ner': 66.56998837326121}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 56.95it/s]


{'ner': 77.05772172426282}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.17it/s]


{'ner': 76.87117603349651}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.65it/s]


{'ner': 72.55367233416352}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.83it/s]


{'ner': 67.49736627370321}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.86it/s]


{'ner': 75.37810258561656}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.82it/s]


{'ner': 105.86599545038706}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.43it/s]


{'ner': 68.54612415184137}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.86it/s]


{'ner': 70.84073540672891}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.10it/s]


{'ner': 80.18472439039452}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.78it/s]


{'ner': 96.53567907046803}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.96it/s]


{'ner': 76.83972856253392}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.98it/s]


{'ner': 73.79412026177279}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.20it/s]


{'ner': 81.44974892797981}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.61it/s]


{'ner': 81.77177152512445}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.27it/s]


{'ner': 62.93733507466653}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.94it/s]


{'ner': 55.87780243535637}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.89it/s]


{'ner': 66.83137951845814}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.67it/s]


{'ner': 64.77816325641791}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.65it/s]


{'ner': 53.25215070614866}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.13it/s]


{'ner': 64.83613903623694}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.46it/s]


{'ner': 56.99346606405137}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.07it/s]


{'ner': 62.91228973726719}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.11it/s]


{'ner': 48.43098778749137}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.24it/s]


{'ner': 53.92095942479005}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.33it/s]


{'ner': 53.78357638933406}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.55it/s]


{'ner': 53.33410437385484}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.08it/s]


{'ner': 27.965377572618877}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.15it/s]


{'ner': 50.49896344697977}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.44it/s]


{'ner': 45.360862939878615}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.90it/s]


{'ner': 52.893893634961195}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.33it/s]


{'ner': 61.37513790151618}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.70it/s]


{'ner': 30.403984998164933}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.01it/s]


{'ner': 57.978412794466166}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.37it/s]


{'ner': 46.369200881140564}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.77it/s]


{'ner': 32.36672101192212}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.15it/s]


{'ner': 41.520454536109845}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.72it/s]


{'ner': 58.96077919762851}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.95it/s]


{'ner': 22.993251764662805}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.29it/s]


{'ner': 42.433457325507305}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.02it/s]


{'ner': 36.94998522861205}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.17it/s]


{'ner': 56.406846054066875}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.50it/s]


{'ner': 51.772723932251445}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 64.06it/s]


{'ner': 41.17474803123007}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.75it/s]


{'ner': 48.30316647774861}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.05it/s]


{'ner': 34.82661272345691}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 60.84it/s]


{'ner': 84.87336883686277}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.65it/s]


{'ner': 43.785750652324126}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 63.43it/s]


{'ner': 50.80098165140859}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.68it/s]


{'ner': 50.931266070656626}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 62.24it/s]


{'ner': 34.06663294204342}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.17it/s]


{'ner': 36.80476850701165}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.73it/s]


{'ner': 36.61800770927272}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.78it/s]


{'ner': 41.105597474121325}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.15it/s]


{'ner': 33.31380892522762}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.73it/s]


{'ner': 44.73341953390249}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.75it/s]


{'ner': 41.845683411937436}


100%|███████████████████████████████████████████████████| 90/90 [00:01<00:00, 61.02it/s]

{'ner': 29.4656435611218}





Salvam modelul intr-un folder prestabilit, apoi il testam folosind un scorrer din spacyv3. Daca vreti sa folositi spacy2, se procedeaza altfel, precum am citit [aici](https://stackoverflow.com/questions/44827930/evaluation-in-a-spacy-ner-model).

In [None]:
model_folder = 'trained_ner'
if not os.path.exists(model_folder):
    os.makedirs(model_folder)
nlp.to_disk(model_folder)

In [None]:
from spacy.scorer import Scorer
scorer = Scorer()

comparing_examples = []
for text, anotations in test_dataset:     
    pred_value = nlp(text)
    example = Example.from_dict(pred_value, anotations)
    comparing_examples.append(example)
    
result = scorer.score(comparing_examples)

print(f"Modelul s-a terminat cu F1 = {result['ents_f']}, precizia = {result['ents_p']} si recall-ul = {result['ents_r']} \nIar pentru fiecare clasa:")
print(json.dumps(result['ents_per_type'], indent=4))

Modelul s-a terminat cu F1 = 0.47457627118644063, precizia = 0.509090909090909 si recall-ul = 0.4444444444444444 
Iar pentru fiecare clasa:
{
    "GPE": {
        "p": 0.5833333333333334,
        "r": 0.5833333333333334,
        "f": 0.5833333333333334
    },
    "DATETIME": {
        "p": 0.6363636363636364,
        "r": 0.6363636363636364,
        "f": 0.6363636363636364
    },
    "MONEY": {
        "p": 0.0,
        "r": 0.0,
        "f": 0.0
    },
    "PERSON": {
        "p": 0.4782608695652174,
        "r": 0.39285714285714285,
        "f": 0.4313725490196078
    },
    "NAT_REL_POL": {
        "p": 0.5,
        "r": 0.25,
        "f": 0.3333333333333333
    },
    "ORG": {
        "p": 0.0,
        "r": 0.0,
        "f": 0.0
    },
    "ORDINAL": {
        "p": 0.0,
        "r": 0.0,
        "f": 0.0
    },
    "WORK_OF_ART": {
        "p": 0.0,
        "r": 0.0,
        "f": 0.0
    },
    "LOC": {
        "p": 0.0,
        "r": 0.0,
        "f": 0.0
    },
    "PERIOD": {
   



Alte metrici prin care putem evalua si interpreta un model NER, putem gasi [aici](https://towardsdatascience.com/a-pathbreaking-evaluation-technique-for-named-entity-recognition-ner-93da4406930c).

# TASK
## Deadline: 21 aprilie ora 23:59.

Formular pentru trimiterea temei: https://forms.gle/F3hnh16W8tfuuoXQ6

1. Descarcati un text de ~20 de fraze in limba engleza (de exemplu primele 20 de fraze dintr-un articol wikipedia).
    - folosind spacy POS-tagging, extrageti separat toate substantivele, toate verbele, toate adjectivele si toate adverbele (afisati cate cuvinte din fiecare tip ati gasit); puteti gasi [aici](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) o lista cu tagurile pentru engleza.
    - pentru aceste cuvinte extrase, determinati lema folosind nltk wordnet lemmatizer; pentru fiecare cuvant determinati lema atat fara a specifica tipul de parte de vorbire, cat si specificandu-l; pentru ce procent din cuvinte rezultatele pentru cele doua variante sunt diferite.
2. Selectati din RONEC un subset mai mare de date si antrenati un model de NER (folosind spacy, ca in laborator). Pentru fiecare clasa afisati precision, recall, f1.
    - Care este clasa cu scorul cel mai bun? Dar cea cu scorul cel mai slab?