<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/4%20-%20Preprocessing%20del%20testo/text_preprocessing_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preprocessing del testo con Spacy

In questo notebook vedremo come possiamo eseguire la tokenizzazione, la rimozione delle stopwords e la lemmatizzazione con [Spacy](https://spacy.io/), una libreria Python per il natural language processing ad alte prestazioni progettata per essere utilizzata in produzione.
Spacy adotta una politica del tipo "pochi ma buoni", cioè implementa solamente la tecnica più peformante per ogni tipo di operazione, per questo motivo spacy non implementa una funzione per lo stemming dato che queste solitamente portano a risultati più scarsi rispetto alla lemmatizzazione. 

## Caricare un modello linguistico
Per utilizzare Spacy dobbiamo prima scaricare e installare il modello per la lingua che vogliamo utilizzare, Spacy supporta oltre 49 lingue, [qui puoi trovare l'elenco completo con i relativi modelli](https://spacy.io/usage/models). Scarichiamo ed installiamo il modello per la lingua inglese.

In [2]:
!pip install spacy

Collecting spacy
  Downloading spacy-3.4.1-cp39-cp39-macosx_10_9_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 1.2 MB/s eta 0:00:01
[?25hCollecting spacy-legacy<3.1.0,>=3.0.9
  Downloading spacy_legacy-3.0.10-py2.py3-none-any.whl (21 kB)
Collecting pydantic!=1.8,!=1.8.1,<1.10.0,>=1.7.4
  Downloading pydantic-1.9.2-cp39-cp39-macosx_10_9_x86_64.whl (3.0 MB)
[K     |████████████████████████████████| 3.0 MB 846 kB/s eta 0:00:01
[?25hCollecting preshed<3.1.0,>=3.0.2
  Downloading preshed-3.0.7-cp39-cp39-macosx_10_9_x86_64.whl (107 kB)
[K     |████████████████████████████████| 107 kB 183 kB/s eta 0:00:01
Collecting srsly<3.0.0,>=2.4.3
  Downloading srsly-2.4.4-cp39-cp39-macosx_10_9_x86_64.whl (460 kB)
[K     |████████████████████████████████| 460 kB 120 kB/s eta 0:00:01
Collecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.2-py3-none-any.whl (27 kB)
Collecting thinc<8.2.0,>=8.1.0
  Downloading thinc-8.1.0-cp39-cp39-macosx_10_9_x86_64.whl (783 kB)
[K     |██████

In [4]:
import spacy

In [5]:
!python -m spacy download en_core_web_sm #installation of english package

Collecting en-core-web-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.4.0/en_core_web_sm-3.4.0-py3-none-any.whl (12.8 MB)
[K     |████████████████████████████████| 12.8 MB 170 kB/s eta 0:00:01
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [6]:
nlp = spacy.load("en_core_web_sm") #english
type(nlp)

spacy.lang.en.English

L'output della funzione load è un'oggetto di tipo *Language*, che possiamo utilizzare per processare il nostro testo.

In [8]:
doc = nlp("That's was a great play by you. I hope to play with you again.")
type(doc)

spacy.tokens.doc.Doc

doc è un oggetto contentente il testo già processato, cosa vuol dire questo ? Che operazioni come tokenizzazione e lemmatizzazione sono già state eseguite e possiamo utilizzare degli appositi attributi per accedere ai risultati.

## Tokenizzazione
Possiamo accedere ai singoli token utilizzando l'attributo **.text**

In [12]:
doc[0]

That

In [13]:
type(doc[0])

spacy.tokens.token.Token

In [9]:
print("Primo token: %s" % doc[0].text) #with .text, we get the same as call above but as a string
print("Ultimo token: %s" % doc[-1].text)

print("\n")

for token in doc:
    print(token.text)

Primo token: That
Ultimo token: .


That
's
was
a
great
play
by
you
.
I
hope
to
play
with
you
again
.


Possiamo accedere alle singoli frasi con l'attributo *.sents*.
<br>
**NOTA BENE:** **.sents** è un generatore, il chè è un'ottima cosa nel caso di testi molto lunghi, per accedere alla singola frase tramite indexing dobbiamo convertirlo in una lista.

In [6]:
for sent in doc.sents:
    print(sent.text)

That's was a great play by you.
I hope to play with you again.


In [15]:
list(doc.sents)[0]

That's was a great play by you.

## Lemmatizzazione
Possiamo accedere al lemma di ogni parola tramite l'attributo **.lemma_**

In [16]:
print("TOKEN\t\tLEMMA")

for token in doc:
  print("%s\t\t%s" % (token.text, token.lemma_))

TOKEN		LEMMA
That		that
's		be
was		be
a		a
great		great
play		play
by		by
you		you
.		.
I		I
hope		hope
to		to
play		play
with		with
you		you
again		again
.		.


**NOTA BENE**
<br>
Utilizzando l'attributo **.lemma**, quindi senza trattino basso (_), accediamo agli hash che codificano i lemma all'interno del dizionario di Spacy, non penso che tu avrai mai bisogno degli hash ma ti do questa informazione perché potresti scordarti di inserire il _ e non comprendere cosa sono tutti quei numeri che vengono fuori (esperienza personale :) )

In [8]:
print("TOKEN\t\tLEMMA\t\tHASH")

for token in doc:
  print("%s\t\t%s\t\t%s" % (token.text, token.lemma_, token.lemma))

TOKEN		LEMMA		HASH
That		that		4380130941430378203
's		be		10382539506755952630
was		be		10382539506755952630
a		a		11901859001352538922
great		great		8881679497796027013
play		play		8228585124152053988
by		by		16764210730586636600
you		-PRON-		561228191312463089
.		.		12646065887601541794
I		-PRON-		561228191312463089
hope		hope		4429974322456332988
to		to		3791531372978436496
play		play		8228585124152053988
with		with		12510949447758279278
you		-PRON-		561228191312463089
again		again		4502205900248518970
.		.		12646065887601541794


## Stop words
Anche Spacy ci mette a disposizione un'elenco di stop words, più corposo di quello di NLTK.

In [17]:
stopwords = nlp.Defaults.stop_words

print(type(stopwords))

print("Stop words totali: %d" % len(stopwords))

<class 'set'>
Stop words totali: 326


Le stop words vengono tornate all'interno di un set, che è un formato conveniente per eseguire operazioni di sottrazione tra insiemi, se vogliamo utilizzare l'indexing per stampare una parte del set dobbiamo convertirlo in una lista. 

In [18]:
print("Prime 10 stop words: %s" % list(stopwords)[:10])

Prime 10 stop words: ['three', 'yourself', 'they', 'again', 'such', 'then', 'so', 'an', 'everywhere', 'give']


Con Spacy non abbiamo bisogno di effettuare la rimozione delle stop words manualmente, dato che anche questo viene eseguito durante la creazione dell'oggetto *Doc*, possiamo vedere se un token è una stop words con l'attributo **is_stop**.

In [19]:
print("TOKEN\t\tIS STOP")

for token in doc:
  print("%s\t\t%s" % (token.text, token.is_stop))

TOKEN		IS STOP
That		True
's		True
was		True
a		True
great		False
play		False
by		True
you		True
.		False
I		True
hope		False
to		True
play		False
with		True
you		True
again		True
.		False


Quindi per rimuovere le stop words possiamo controllare tale attributo.

In [24]:
tokens_filtered = []

for token in doc:
  if(not token.is_stop):
    tokens_filtered.append(token)

print(tokens_filtered)

[great, play, ., hope, play, .]


## Un'esempio in Italiano
Facciamo adesso un'esempio in italiano. Installiamo il modello per la lingua italiana.

In [25]:
!python -m spacy download it_core_news_sm

Collecting it-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.4.0/it_core_news_sm-3.4.0-py3-none-any.whl (13.0 MB)
[K     |████████████████████████████████| 13.0 MB 526 kB/s eta 0:00:01
Installing collected packages: it-core-news-sm
Successfully installed it-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')


e carichiamolo

In [26]:
import spacy

nlp = spacy.load("it_core_news_sm")
type(nlp)

spacy.lang.it.Italian

creiamo il documento e vediamo i tokens, i lemma e le stop words.

In [29]:
doc = nlp("Oggi è una giornata afosa. Ho davvero voglia di una granita fresca")

print("FRASI")


print([sent for sent in doc.sents])
print("\n") #spazio tra il print frasi e il seguente

print("TOKEN\t\tLEMMA\t\tIS STOP")


for token in doc:
  print("%s\t\t%s\t\t%s" % (token.text, token.lemma_, token.is_stop))

FRASI
[Oggi è una giornata afosa., Ho davvero voglia di una granita fresca]


TOKEN		LEMMA		IS STOP
Oggi		oggi		True
è		essere		True
una		uno		True
giornata		giornata		False
afosa		afoso		False
.		.		False
Ho		avere		True
davvero		davvero		False
voglia		voglia		False
di		di		True
una		uno		True
granita		granita		False
fresca		fresco		False
