In [1]:
import spacy

from spacy.tokens import Doc

from spacy.language import Language

from spacy import displacy

In [2]:
spacy.__version__

'3.0.3'

In [192]:
nlp = spacy.load('it_core_news_sm')

nlp.add_pipe("merge_entities")
# nlp.add_pipe("merge_noun_chunks")

print(nlp.pipe_names)

# nlp.pipeline

['tok2vec', 'morphologizer', 'tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer', 'merge_entities']


## Preparazione testo

In [4]:
frase = "Mi piace la città di New York. Invece non mi piace Stoccolma"

doc = nlp(frase)

In [5]:
[token.text for token in doc]

['Mi',
 'piace',
 'la',
 'città',
 'di',
 'New York',
 '.',
 'Invece',
 'non',
 'mi',
 'piace',
 'Stoccolma']

In [6]:
for token in doc:
    print(f"text -> {token.text}\n", \
          f"lemma -> {token.lemma_}\n" \
          f"POS -> {token.pos_}\n" \
          f"tag -> {token.tag_}\n" \
          f"dep -> {token.dep_}\n" \
          f"morph -> {token.morph}\n" \
          f"shape -> {token.shape_}\n" \
          f"is_alpha -> {token.is_alpha}\n" \
          f"is_stop -> {token.is_stop}\n" \
          ,"\n")

text -> Mi
 lemma -> Mi
POS -> PRON
tag -> PC
dep -> iobj
morph -> Clitic=Yes|Number=Sing|Person=1|PronType=Prs
shape -> Xx
is_alpha -> True
is_stop -> True
 

text -> piace
 lemma -> piacere
POS -> VERB
tag -> V
dep -> ROOT
morph -> Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
shape -> xxxx
is_alpha -> True
is_stop -> False
 

text -> la
 lemma -> la
POS -> DET
tag -> RD
dep -> det
morph -> Definite=Def|Gender=Fem|Number=Sing|PronType=Art
shape -> xx
is_alpha -> True
is_stop -> True
 

text -> città
 lemma -> città
POS -> NOUN
tag -> S
dep -> nsubj
morph -> Gender=Fem
shape -> xxxx
is_alpha -> True
is_stop -> True
 

text -> di
 lemma -> di
POS -> ADP
tag -> E
dep -> case
morph -> 
shape -> xx
is_alpha -> True
is_stop -> True
 

text -> New York
 lemma -> New York
POS -> PROPN
tag -> SP
dep -> nmod
morph -> 
shape -> Xxx Xxxx
is_alpha -> False
is_stop -> False
 

text -> .
 lemma -> .
POS -> PUNCT
tag -> FS
dep -> punct
morph -> 
shape -> .
is_alpha -> False
is_stop -> False


In [7]:
def get_something(doc):
    
    lista = list()
    
    for token in doc:
        if token.pos_ == 'VERB':
            lista.append(token.lemma_)
    
    return lista

In [8]:
Doc.set_extension("extension_2", getter=get_something)

In [9]:
doc = nlp(frase)

doc._.extension_2

['piacere', 'piacere']

In [10]:
# Doc.set_extension("extension_1", default=[])

In [11]:
# @Language.component('custom_funct')
# def custom_funct(doc):
    
#     print("Do something")
    
#     lemmas = []
    
#     for token in doc:
#         lemmas.append(get_lemma_if_verb(token))
    
#     return lemmas

In [12]:
# nlp.add_pipe('custom_funct')#, first=True)

# nlp.to_disk()

In [13]:
# doc = nlp(frase)

# doc._

In [14]:
# nlp.pipe_names

In [15]:
# NER = nlp.get_pipe("ner")

In [16]:
# from spacy.tokens import NER

In [17]:
# testo = """
# La disciplina del pubblico impiego 

# La privatizzazione del pubblico impiego ha reso necessaria un'opera di coordinamento e diaresetto della disciplina che è contenuta nel testo unico dei pubblico impiego (TUPI) D.Lgs. 165/2001.
# Tale disciplina si applica tutte le pubbliche amministrazioni fatta eccezione per i magistrati ordinari, amministrative contabili, avvocati procuratori dello Stato, personale militare, personale della cariera diplomatica e prefettizia.

# Tra le più importanti riforme c'è quella di Brunetta (2009): responsabilizzare maggiormente dipendendi pubblici, incentivare selettivamente le migliori prestazioni (meritocrazia), contrastare la scarza produttività e l'assenteismo, agevolare la mobilità del personale

# Successivamente si è avuta la riforma Madia (2016) che tra le varie ha portato: una semplificazione in materia di valutazione dipendendi pubblici, innovazione in materia della responsibilità disciplinare decreto "anti furbetti del cartellino".

# Successivi interventi del governo hanno portato, tra le varie, il superamento della dotazione organica attraveso lo strumento "del piano triennale dei fabbisogni"; stabilire, a regime, il divieto di stipulare contratti di collaborazione...

# In ultimo con la riforma Bongiorno (2019), cd. legge concretezza si voluto incidere sull'organizzazione del lavoro pubblico istituendo presso il dipartimento della funzione pubblica il cosidetto nucleo della concretezza ovvero uno organismo deputato alle azioni concrete di miglioramento dell'efficenza amministrativa. Strumento fondamentale di questo organismo è il piano triennale delle azioni concrete per l'efficienza delle pubbliche amministrazioni che viene predisposto annualmente dal Dipertimento della funzione pubblica.

# Attraverso il decreto cura Italia è previsto che fino alla cessazione dello stato di emergenza ovvero fino ad una data antecedente stabilita con decreto il lavoro agile è la modalità ordinaria di svolgimento della prestazione lavorativa nelle pubblica amministrazioni.

# Per tanto le leggi e regolamenti che delineano la struttura degli apparati pubblici restano di connotazione pubblicistica, mentre gli atti che riguardano il funzionamento degli uffici e le gestione dei rapporti di lavoro sono di connottazione privatistica (gestione come datore di lavoro privato).
# """

In [18]:
# doc = nlp(testo)

## Syntax iterators

### Sentences

In [19]:
[token.text for token in doc.sents]

['Mi piace la città di New York.', 'Invece non mi piace Stoccolma']

### Base noun phrases

In [20]:
"""
The 'noun_chunks' syntax iterator is not implemented for language 'it'
"""

# [chunk.text for chunk in doc.noun_chunks]

"\nThe 'noun_chunks' syntax iterator is not implemented for language 'it'\n"

## Lemma

In [21]:
[(token.text, token.lemma_) for token in doc]

[('Mi', 'Mi'),
 ('piace', 'piacere'),
 ('la', 'la'),
 ('città', 'città'),
 ('di', 'di'),
 ('New York', 'New York'),
 ('.', '.'),
 ('Invece', 'Invece'),
 ('non', 'non'),
 ('mi', 'mi'),
 ('piace', 'piacere'),
 ('Stoccolma', 'Stoccolma')]

In [22]:
def get_lemma_if_verb(token):
    if token.pos_ == 'VERB':
        return token.lemma_

In [23]:
for token in doc:
    if token.pos_ == 'VERB':
        print(token.text, "-->", token.lemma_)

piace --> piacere
piace --> piacere


In [24]:
[get_lemma_if_verb(token) for token in doc if get_lemma_if_verb(token) is not None]

['piacere', 'piacere']

In [25]:
[get_lemma_if_verb(token) if get_lemma_if_verb(token) is not None else "Non è un verbo" for token in doc]

['Non è un verbo',
 'piacere',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'Non è un verbo',
 'piacere',
 'Non è un verbo']

## Part-of-speech tags (POS)

In [26]:
[(token.text, token.pos_, token.tag_) for token in doc]

[('Mi', 'PRON', 'PC'),
 ('piace', 'VERB', 'V'),
 ('la', 'DET', 'RD'),
 ('città', 'NOUN', 'S'),
 ('di', 'ADP', 'E'),
 ('New York', 'PROPN', 'SP'),
 ('.', 'PUNCT', 'FS'),
 ('Invece', 'ADV', 'B'),
 ('non', 'ADV', 'BN'),
 ('mi', 'PRON', 'PC'),
 ('piace', 'VERB', 'V'),
 ('Stoccolma', 'PROPN', 'SP')]

### Specificare i significati dei POS e Tag

In [27]:
spacy.explain("ADJ")

'adjective'

In [28]:
[(token.pos_, spacy.explain(token.pos_)) for token in doc]

[('PRON', 'pronoun'),
 ('VERB', 'verb'),
 ('DET', 'determiner'),
 ('NOUN', 'noun'),
 ('ADP', 'adposition'),
 ('PROPN', 'proper noun'),
 ('PUNCT', 'punctuation'),
 ('ADV', 'adverb'),
 ('ADV', 'adverb'),
 ('PRON', 'pronoun'),
 ('VERB', 'verb'),
 ('PROPN', 'proper noun')]

## Syntactic dependencies

In [29]:
[(token.text, token.dep_) for token in doc]

[('Mi', 'iobj'),
 ('piace', 'ROOT'),
 ('la', 'det'),
 ('città', 'nsubj'),
 ('di', 'case'),
 ('New York', 'nmod'),
 ('.', 'punct'),
 ('Invece', 'advmod'),
 ('non', 'advmod'),
 ('mi', 'iobj'),
 ('piace', 'ROOT'),
 ('Stoccolma', 'nsubj')]

In [30]:
[(token.text, token.head.text) for token in doc]

[('Mi', 'piace'),
 ('piace', 'piace'),
 ('la', 'città'),
 ('città', 'piace'),
 ('di', 'New York'),
 ('New York', 'città'),
 ('.', 'piace'),
 ('Invece', 'piace'),
 ('non', 'piace'),
 ('mi', 'piace'),
 ('piace', 'piace'),
 ('Stoccolma', 'piace')]

## Named entities

In [31]:
[(ent.text, ent.label_) for ent in doc.ents]

[('New York', 'LOC'), ('Stoccolma', 'LOC')]

In [32]:
displacy.render(doc, style='ent')

In [33]:
displacy.render(doc, style='dep')

## Word vectors and similarity

In [34]:
doc1 = nlp("Amo i cani")
doc2 = nlp("Mi piacciono i cani")

doc1.similarity(doc2)

  doc1.similarity(doc2)


0.6871221922575117

## Esempio uso su grandi files

In [35]:
docs = list(nlp(frase))
docs.extension_2

AttributeError: 'list' object has no attribute 'extension_2'

## Rule-base matching

In [131]:
from spacy.matcher import Matcher

In [193]:
matcher = Matcher(nlp.vocab)

In [194]:
pattern = [{'LOWER':'new'},{'LOWER':'york'}]
matcher.add("CITIES", [pattern])

In [195]:
pattern2 = [{'LEMMA':'live'}]
matcher.add("Live", [pattern2])

In [196]:
pattern3 = [{"IS_DIGIT":True, "OP":"+"}]
matcher.add("Number", [pattern3])

In [197]:
pattern4 = [{"POS":"VERB", "OP":"+"}]
matcher.add("Verb", [pattern4])

In [198]:
pattern5 = [{"ENT_TYPE":"LOC", "OP":"+"}]
matcher.add("Places", [pattern5])

In [209]:
pattern6 = [{"LIKE_EMAIL":True, "OP":"+"}]
matcher.add("Places", [pattern6])

In [210]:
doc = nlp("I live in New York and play 1000 football, my 2000 mail is sadasdsad@sad.com")

In [216]:
# doc[0].vector.shape

In [211]:
matches = matcher(doc)

In [212]:
for id_, start, end in matches:
    span = doc[start:end]
    
    print(span.text)

live
New York
1000
2000
is
sadasdsad@sad.com


In [152]:
matches[0]

(6693841213195286794, 1, 2)

In [153]:
matches[1]

(5273278593145069999, 3, 5)

In [154]:
matches[2]

(5728456177564051517, 7, 8)

In [155]:
matches[3]

(5728456177564051517, 11, 12)

In [129]:
def on_match(matcher, doc, id, matches):
        
    for id_, match in enumerate(matches):

        print(f'Matched! {id_}', match)

matcher = Matcher(nlp.vocab)

patterns = [
   [{"LOWER": "hello"}, {"LOWER": "world"}],
   [{"ORTH": "Google"}, {"ORTH": "Maps"}]
]

matcher.add("TEST_PATTERNS", patterns, on_match=on_match)

doc = nlp("HELLO WORLD on Google Maps.")

matches = matcher(doc)

2
[(3004906285683798724, 0, 2), (3004906285683798724, 3, 5)]
2
[(3004906285683798724, 0, 2), (3004906285683798724, 3, 5)]


## Multiprocessing