In [1]:
!pip install -U spaCy
# You need to download a specific model for each language
# Each language has two models, one for efficiency and one for accuracy. https://spacy.io/usage/models
!python -m spacy download it_core_news_sm # efficient model for Italian

Collecting it-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.8.0/it_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m102.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: it-core-news-sm
Successfully installed it-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


# spaCy tutorial

*Notice that the installation doesn’t automatically download models. We need to do that ourselves. (python -m spacy download en_core_web_sm)*

Hello World in spaCy

In [2]:
import spacy
nlp = spacy.load('it_core_news_sm') # load the language model
doc = nlp('Buongiorno mondo!')
for token in doc:
    print(token.text)

Buongiorno
mondo
!


spaCy preserves this “link” between the word and its place in the raw text. Here’s how to get the exact index of a word:

In [3]:
for token in doc:
    print(token.text + ' ', token.idx)

Buongiorno  0
mondo  11
!  16


The **Token** class exposes a lot of word-level attributes. Here are a few examples:

In [4]:
doc = nlp("La prossima settimana andrò a Roma.")
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_punct,
        token.is_space,
        token.shape_,
        token.pos_,
        token.tag_
    ))

La	0	il	False	False	Xx	DET	RD
prossima	3	prossimo	False	False	xxxx	ADJ	A
settimana	12	settimana	False	False	xxxx	NOUN	S
andrò	22	andrò	False	False	xxxx	VERB	V
a	28	a	False	False	x	ADP	E
Roma	30	Roma	False	False	Xxxx	PROPN	SP
.	34	.	True	False	.	PUNCT	FS


## Sentence detection
Here’s how to achieve one of the most common NLP tasks with spaCy:

In [5]:
doc = nlp("Queste sono delle mele. Queste sono delle arancie.")

for sent in doc.sents:
    print(sent)

Queste sono delle mele.
Queste sono delle arancie.


## Part Of Speech Tagging
PoS-tagging of a sentence:

In [6]:
doc = nlp("La prossima settimana andrò a Madrid.")
print([(token.text, token.pos_) for token in doc])

[('La', 'DET'), ('prossima', 'ADJ'), ('settimana', 'NOUN'), ('andrò', 'VERB'), ('a', 'ADP'), ('Madrid', 'PROPN'), ('.', 'PUNCT')]


## Named Entity Recognition
Doing NER with spaCy is super easy and the pretrained model performs pretty well:

In [7]:
doc = nlp("La prossima settimana andrò a Roma.")
for ent in doc.ents:
    print(ent.text, ent.label_)

Roma LOC


You can also view the IOB style tagging of the sentence like this:

In [8]:
doc = nlp("La prossima settimana andrò a Roma.")
iob_tagged = [
    (
        token.text,
        token.tag_,
        "{0}-{1}".format(token.ent_iob_, token.ent_type_) if token.ent_iob_ != 'O' else token.ent_iob_
    ) for token in doc
]
print(iob_tagged)

[('La', 'RD', 'O'), ('prossima', 'A', 'O'), ('settimana', 'S', 'O'), ('andrò', 'V', 'O'), ('a', 'E', 'O'), ('Roma', 'SP', 'B-LOC'), ('.', 'FS', 'O')]


The spaCy NER also has a healthy variety of entities. You can view the full list here: https://spacy.io/usage/linguistic-features#entity-types

In [9]:
doc = nlp("L'Italia, ufficialmente Repubblica Italiana, è uno Stato membro dell'Unione europea. L'Italia è una repubblica parlamentare unitaria e conta una popolazione di circa 59 milioni di abitanti.")
for ent in doc.ents:
    print(ent.text, ent.label_)

Italia LOC
Repubblica Italiana LOC
Stato membro dell'Unione europea MISC
Italia LOC


Let’s use displaCy to view a beautiful visualization of the Named Entity annotated sentence:

In [10]:
from spacy import displacy

doc = nlp("L'Italia, ufficialmente Repubblica Italiana, è uno Stato membro dell'Unione europea. L'Italia è una repubblica parlamentare unitaria e conta una popolazione di circa 59 milioni di abitanti.")
displacy.render(doc, style='ent', jupyter=True)

## Dependency Parsing

Let’s see the dependency parser in action:

In [11]:
doc = nlp('Ho comparato dieci mele rosse al mercato.')

for token in doc:
    print("{0}/{1} <--{2}-- {3}/{4}".format(
        token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))

Ho/VA <--aux-- comparato/V
comparato/V <--ROOT-- comparato/V
dieci/N <--nummod-- mele/S
mele/S <--obj-- comparato/V
rosse/A <--amod-- mele/S
al/E_RD <--case-- mercato/S
mercato/S <--obl-- rosse/A
./FS <--punct-- comparato/V


If this doesn’t help visualizing the dependency tree, displaCy comes in handy:

In [12]:
doc = nlp('Ho comparato dieci mele rosse al mercato.')
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

# A simple case study
Now, we download a text file and process its content using spaCy.

In [18]:
!wget https://drive.google.com/file/d/1eatUMJvHvz9ZXDO5nIvmPMKWf_AN-Br9/view

!head -n 10 pinocchio.txt

--2025-04-18 07:39:41--  https://drive.google.com/file/d/1eatUMJvHvz9ZXDO5nIvmPMKWf_AN-Br9/view
Resolving drive.google.com (drive.google.com)... 108.177.119.113, 108.177.119.100, 108.177.119.138, ...
Connecting to drive.google.com (drive.google.com)|108.177.119.113|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘view’

view                    [ <=>                ]  34.29K  --.-KB/s    in 0.007s  

2025-04-18 07:39:42 (4.73 MB/s) - ‘view’ saved [35113]

head: cannot open 'pinocchio.txt' for reading: No such file or directory


# Excercise 1

Extract the list of the 1,000 most frequent words. Count tokens in lower case.

In [28]:
file=open("pinocchio.txt",'r')
text = ""
nouns = {}
for l in file:
  l = l.strip()
  if len(l)==0 and len(text)>0:
    doc = nlp(text)
    for token in doc:
      if token.is_alpha:
        token=token.text.lower()
        if token in nouns:
          nouns[token] = nouns[token] + 1
        else:
          nouns[token] = 1
      text = ""
  elif len(l)>0:
    text += " " + l
file.close()
nouns = dict(sorted(nouns.items(), key=lambda item: item[1], reverse=True))
#take the first 1k elements with their count
nouns = dict(list(nouns.items())[:1000])
print(nouns)

{'e': 1760, 'di': 1350, 'che': 1019, 'a': 943, 'il': 934, 'la': 718, 'un': 712, 'non': 508, 'per': 484, 'in': 459, 'pinocchio': 424, 'si': 394, 'gli': 365, 'una': 365, 'è': 302, 'ma': 290, 'i': 285, 'da': 239, 'come': 235, 'io': 225, 'mi': 223, 'le': 214, 'più': 212, 'disse': 202, 'lo': 199, 'burattino': 196, 'se': 191, 'con': 190, 'era': 185, 'del': 172, 'al': 162, 'perché': 159, 'alla': 150, 'della': 125, 'due': 123, 'quando': 117, 'quel': 115, 'sono': 113, 'me': 113, 'mio': 110, 'povero': 109, 'poi': 106, 'ti': 106, 'o': 104, 'allora': 104, 'aveva': 102, 'tutti': 102, 'così': 99, 'questo': 98, 'ho': 98, 'subito': 96, 'chi': 95, 'sempre': 94, 'ora': 94, 'nel': 93, 'casa': 93, 'dopo': 88, 'tu': 87, 'fatto': 87, 'dalla': 84, 'suo': 83, 'ne': 83, 'ci': 82, 'tutto': 82, 'tanto': 82, 'fata': 81, 'mai': 80, 'loro': 78, 'altro': 74, 'babbo': 74, 'cosa': 73, 'anche': 72, 'sul': 72, 'geppetto': 72, 'gran': 70, 'ragazzi': 69, 'invece': 69, 'qui': 68, 'fu': 67, 'voglio': 66, 'fare': 65, 'quella

# Excercise 2

Extract the list of the most frequent PERSONS cited in the text.

In [30]:
file = open('pinocchio.txt','r')
text = ""
nouns = {}
for l in file:
  l = l.strip()
  if len(l)==0 and len(text)>0:
    doc = nlp(text)
    for ent in doc.ents:
      if ent.label_ == 'PER' or ent.label_ == 'PERSON':
        if ent.text in nouns:
          nouns[ent.text] = nouns[ent.text] + 1
        else:
          nouns[ent.text] = 1
    text = ""
  elif len(l)>0:
    text += " " + l
file.close()

nouns = dict(sorted(nouns.items(), key=lambda item: item[1], reverse=True))
print(nouns)

{'Gatto': 31, 'po’': 28, 'Geppetto': 18, 'Colombo': 12, 'Lucignolo': 11, 'Serpente': 9, 'mastr’Antonio': 8, 'Vuoi': 8, 'Vieni': 8, 'Dimmi': 7, 'Volpe': 7, 'Vai': 5, 'Aspetta': 5, 'Eugenio': 5, 'Babbo': 4, 'Sappi': 4, 'Mangiafoco': 4, 'Liber Liber': 3, 'Guai': 3, 'Grillo': 3, 'Arlecchino': 3, 'Giangio': 3, 'Riccardo Scateni': 2, 'Marco Zela': 2, 'Pinocchi': 2, 'Dovevo': 2, 'Grillaccio': 2, 'Bada': 2, 'Attilio Mussino': 2, 'Caro': 2, 'midolla di pane': 2, 'Buone': 2, 'tant’': 2, 'Ricordati': 2, 'Gambero Rosso': 2, '– Allora': 2, 'un’': 2, 'Pappagallo': 2, 'Imperatore': 2, 'Walt Disney': 2, 'Faccio': 2, 'Sapessi': 2, 'Devi': 2, 'Fata': 2, 'Avete': 2, 'Credilo': 2, 'Alidoro': 2, 'Lumaca': 2, 'Lumachina bella': 2, 'Voi': 2, 'Tonni': 2, 'Tonno': 2, 'Venite': 2, 'Grillino': 2, 'E-BOOK': 1, 'Collodi': 1, 'Carlo': 1, 'COPERTINA': 1, 'Telemaco Signorini': 1, 'Carlo Collodi': 1, 'Enrico Mazzanti': 1, 'Marco Calvo': 1, 'Informazioni': 1, 'Aperto': 1, 'Lorenzo Milito': 1, 'Maestro': 1, 'Finito': 1,

# Excercise 3

Find all sentences in which the lemma **naso** occurs. Then build two lists:
* the list sorted by frequency of lemmas occurring before the lemma **naso** (left context of **naso**)
* the list sorted by frequency of lemmas occurring after the lemma **naso** (right context of **naso**)

Print the two lists.

In [33]:
file=open("pinocchio.txt",'r')
lemmas_before_naso=[]
lemmas_after_naso=[]
for line in file:
  doc = nlp(line)
  for sent in doc.sents:
   for token in sent:
    if token.lemma_ == 'naso':
      for before in sent[:token.i]:
        lemmas_before_naso.append(before.lemma_)
      for after in sent[token.i+1:]:
        lemmas_after_naso.append(after.lemma_)
file.close()


print(lemmas_before_naso)
print(lemmas_after_naso)



['non', 'sapere', 'come', 'andattere', ',', 'ma', 'il', 'fatto', 'lo', 'essere', 'che', 'uno', 'bello', 'giorno', 'questo', 'pezzo', 'di', 'legno', 'capitare', 'in il', 'bottega', 'di', 'uno', 'vecchio', 'falegname', ',', 'il', 'quale', 'avere', 'nome', 'Mastr’', 'Antonio', ',', 'se', 'non', 'che', 'tutto', 'lo', 'chiamare', 'maestro', 'Ciliegia', ',', 'per', 'via', 'di il', 'punta', 'di il', 'suo', 'il', 'suo', 'viso', 'parere', 'trasfigurare', ',', 'e', 'perfino', 'il', 'punta', 'di il', 'a', 'battaglia', 'finito', ',', 'Mastr’', 'Antonio', 'si', 'trovare', 'due', 'graffo', 'di', 'più', 'su il', 'allora', ',', 'dopo', 'il', 'occhio', ',', 'gli', 'fare', 'il', 'ma', 'il', 'naso', ',', 'appena', 'fare', ',', 'cominciare', 'a', 'crescere', ':', 'ma', 'più', 'lo', 'ritagliare', 'e', 'il', 'scorcivo', ',', 'e', 'più', 'quello', 'naso', 'impertinente', 'diventare', 'lungo', '.', '\n', 'dopo', 'il', 'quando', 'Geppetto', 'avere', 'finito', 'di', 'farglio', 'il', 'piede', ',', 'sentì', 'arri

In [37]:
from collections import Counter

# Inizializza le liste per i lemmi prima e dopo 'naso'
lemmas_before_naso = []
lemmas_after_naso = []

# Legge il file riga per riga
with open("pinocchio.txt", 'r', encoding='utf-8') as file:
    for line in file:
        doc = nlp(line)
        for sent in doc.sents:
            for token in sent:
                if token.lemma_ == 'naso':
                    # Aggiunge i lemmi prima di 'naso'
                    lemmas_before_naso.extend([t.lemma_ for t in sent[:token.i]])
                    # Aggiunge i lemmi dopo 'naso'
                    lemmas_after_naso.extend([t.lemma_ for t in sent[token.i+1:]])

# Calcola la frequenza dei lemmi
freq_before = Counter(lemmas_before_naso)
freq_after = Counter(lemmas_after_naso)

# Output dei risultati (esempi)
print("Lemmi prima di 'naso':")
for lemma, count in freq_before.most_common():
    print(f"{lemma}: {count}")

print("\nLemmi dopo 'naso':")
for lemma, count in freq_after.most_common():
    print(f"{lemma}: {count}")

Lemmi prima di 'naso':
,: 97
il: 81
e: 40
di: 32
a: 28
naso: 28
che: 26
uno: 25
di il: 21
essere: 14
per: 13
.: 13

: 13
lo: 12
punta: 12
suo: 12
in: 12
si: 11
su il: 11
più: 10
a il: 10
non: 9
avere: 9
quello: 9
bugia: 9
da il: 9
burattino: 8
Pinocchio: 7
questo: 6
in il: 6
se: 6
tutto: 6
allora: 6
:: 6
lungo: 6
quando: 6
poi: 6
con il: 6
mi: 6
ma: 5
quale: 5
gli: 5
fare: 5
cominciare: 5
crescere: 5
mano: 5
tanto: 5
vedere: 5
grande: 5
come: 4
bello: 4
chiamare: 4
dire: 4
prendere: 4
camera: 4
fuori: 4
testa: 4
berretto: 4
sotto: 4
trasfigurare: 3
trovare: 3
due: 3
occhio: 3
appena: 3
farglio: 3
quattro: 3
dito: 3
subito: 3
andare: 3
da: 3
finestra: 3
porta: 3
–: 3
co il: 3
segnale: 3
entrare: 3
faccia: 3
cotone: 3
nome: 2
Mastr’: 2
Antonio: 2
via: 2
parere: 2
perfino: 2
finito: 2
dopo: 2
impertinente: 2
diventare: 2
piede: 2
già: 2
altro: 2
venire: 2
loro: 2
vi: 2
voltare: 2
battere: 2
o: 2
là: 2
passare: 2
lasciare: 2
piangere: 2
buono: 2
motivo: 2
disperazione: 2
mossa: 2
pietà: 2


# Excercise 4

Find all modifiers of the token Pinocchio, then rank them according to their frequency.

In [35]:
file=open("pinocchio.txt",'r')
modifiers={}
for line in file:
  doc = nlp(line)
  for token in doc:
    if token.text == 'Pinocchio':
      for child in token.children:
        #toekn.children
        if child.dep_ in ('amod', 'advmod', 'compound', 'nmod', 'nummod','det'):
          if child.text in modifiers:
            modifiers[child.text] = modifiers[child.text] + 1
          else:
            modifiers[child.text] = 1
file.close()

modifiers = dict(sorted(modifiers.items(), key=lambda item: item[1], reverse=True))
print(modifiers)

{'povero': 20, 'il': 12, 'caro': 5, 'Il': 4, 'illustrazione': 3, 'antifona': 2, 'disegno': 2, 'Allora': 2, 'mio': 2, 'mortificato': 2, 'questo': 2, 'ubbidiente': 2, 'ricordandosi': 1, 'terra': 1, 'Abbecedario': 1, 'davvero': 1, 'postosi': 1, 'spalle': 1, 'quel': 1, 'vista': 1, 'giorno': 1, 'notte': 1, 'aprimi': 1, 'tutte': 1, 'poco': 1, 'usò': 1, 'disinvoltura': 1, 'sé': 1, 'L’': 1, 'infelice': 1, 'un': 1, 'certo': 1, 'amici': 1, 'torto': 1, 'padrone': 1, 'svegliandosi': 1, 'che': 1, 'dolore': 1, 'prudenza': 1, 'amore': 1, 'bravo': 1, 'macigno': 1, 'trovandosi': 1, 'prime': 1, 'sicurissimo': 1, 'sei': 1, 'vecchio': 1, 'legno': 1}
