Esperimenti usati per testare la capacit' dei diversi modelli messi a disposizione da spaCy nella fase di NER e, in particolare, nel riconoscimento di indirizzi. Testiamo spaCy sia in italiano che in inglese usando diversi modelli. 

Abbiamo notato che, in Italiano, usando i modelli "standard" (convolutional), un indirizzo *non* viene identificato a meno che non inizi con una lettera maiuscola, e.g. Via Alessandro Manzoni. Altri problemi sono legati al fatto che non viene individuato l'indirizzo nella sua interezza, e quindi "Via Alessandro Manzoni, Roma" viene spezzato in "Via ALessandro Manzoni", LOC; e ROMA, LOC.

In [20]:
# load di un modello spacy
import spacy

# usually, the model is saved in the nlp object
nlp = spacy.load('it_core_news_lg')

In [42]:
def ner_on_text(text_, nlp_):
    """A small method to extract named entities and their labels from a string and print them.
    
    @param text_ the text to be elaborated
    @param nlp_ the spaCy model with the ner component that will do the computation
    """
    doc = nlp_(text_)

    # now print the named entities and their labels
    for ent in doc.ents:
        print(ent.text, ent.label_)

Se in italiano, usando il modello it_core_news_lg, che presenta al suo interno una CNN e che è il modello più performante messo a disposizione da spaCy, si elabora una stringa contenente un indirizzo che inizia con lettera maiuscola, il modello lo riconosce correttamente come LOC. 

In [45]:
# test con "Via" in maiuscolo 
test_text = "Ciao, sono Mario ed abito in Via Alessandro Manzoni a Roma"
ner_on_text(test_text, nlp)

Mario PER
Via Alessandro Manzoni LOC
Roma LOC


Notiamo tuttavia che il numero civico **non** viene riconosciuto come facente parte dell'entità.

In [46]:
test_text = "Ciao, sono Mario ed abito in Via Alessandro Manzoni 6 a Roma"
ner_on_text(test_text, nlp)

Mario PER
Via Alessandro Manzoni LOC
Roma LOC


Come dicevamo, se l'indirizzo inizia in minuscola, il modello potrebbe non riconoscere °via° come facente parte dell'indirizzo (sebbene stia riconoscendo Agordat come Località)

In [49]:
# test con "via" in minuscolo
test_text = "ciao, sono Marco ed abito in via Agordat n. 5, Padova"
ner_on_text(test_text, nlp)

ciao MISC
Marco MISC
Agordat LOC
Padova LOC


Quando sono presenti nomi di persona o simili nella via, potrebbe succedere che il modello sbagli la classificazione, classificandoli come PER invece che come LOC.

In [53]:
# Con Piazza in maiuscolo il modello riconosce correttamente l'indirizzo
test_text = "Ciao, sono Marco ed abito in Piazza Papa Luciani, Padova"
ner_on_text(test_text, nlp)

# viceversa, con piazza in minuscolo, il modello lo scambia per una persona
test_text = "Ciao, sono Marco ed abito in piazza Papa Luciani, Padova"
ner_on_text(test_text, nlp)

Marco MISC
Piazza Papa Luciani LOC
Padova LOC
Marco MISC
Papa Luciani PER
Padova LOC


Notiamo come qualcosa di simile succeda con i modelli convoluzionali per l'inglese, come vediamo qui di sotto.

In [58]:

import spacy

# prima importo il modello in inglese
nlp_eng = spacy.load('en_core_web_lg')

Successivamente, proviamo diversi tipi di indirizzo.

In [60]:
# individua correttamente l'indirizzo. London è identificata come GEP, GEoPolitical entity, non come una LOC generia
test_text = "Hi, I'm Alex and I live in 10 Downing Street, London"
ner_on_text(test_text, nlp_eng)

Alex PERSON
10 Downing Street LOC
London GPE


In [61]:
# individua correttamente l'indirizzo. Sunset Boulevard è identificata come FACility
test_text = "Hi, I'm Alex and I live Sunset Boulevard"
ner_on_text(test_text, nlp_eng)

Alex PERSON
Sunset Boulevard FAC


In [64]:
# proviamo con transformers invece
# %pip install spacy-transformers

import spacy_transformers

nlp_trf= spacy.load('en_core_web_trf')


Note: you may need to restart the kernel to use updated packages.


  from .autonotebook import tqdm as notebook_tqdm


AttributeError: 'NoneType' object has no attribute 'full'