<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/4%20-%20Preprocessing%20del%20testo/text_preprocessing_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preprocessing del testo con Spacy

In questo notebook vedremo come possiamo eseguire la tokenizzazione, la rimozione delle stopwords e la lemmatizzazione con [Spacy](https://spacy.io/), una libreria Python per il natural language processing ad alte prestazioni progettata per essere utilizzata in produzione.
Spacy adotta una politica del tipo "pochi ma buoni", cioè implementa solamente la tecnica più peformante per ogni tipo di operazione, per questo motivo spacy non implementa una funzione per lo stemming dato che queste solitamente portano a risultati più scarsi rispetto alla lemmatizzazione. 

## Caricare un modello linguistico
Per utilizzare Spacy dobbiamo prima scaricare e installare il modello per la lingua che vogliamo utilizzare, Spacy supporta oltre 49 lingue, [qui puoi trovare l'elenco completo con i relativi modelli](https://spacy.io/usage/models). Scarichiamo ed installiamo il modello per la lingua inglese.

In [1]:
import spacy

nlp = spacy.load("en_core_web_sm")
type(nlp)

spacy.lang.en.English

L'output della funzione load è un'oggetto di tipo *Language*, che possiamo utilizzare per processare il nostro testo.

In [2]:
doc = nlp("That's was a great play by you. I hope to play with you again.")
type(doc)

spacy.tokens.doc.Doc

doc è un oggetto contentente il testo già processato, cosa vuol dire questo ? Che operazioni come tokenizzazione e lemmatizzazione sono già state eseguite e possiamo utilizzare degli appositi attributi per accedere ai risultati.

## Tokenizzazione
Possiamo accedere ai singoli token utilizzando l'attributo *.text*

In [3]:
print("Primo token: %s" % doc[0].text)
print("Ultimo token: %s" % doc[-1].text)

print("\n")

for token in doc:
    print(token.text)

Primo token: That
Ultimo token: .


That
's
was
a
great
play
by
you
.
I
hope
to
play
with
you
again
.


Possiamo accedere alle singoli frasi con l'attributo *.sents*.
<br>
**NOTA BENE:** *.sents* è un generatore, il chè è un'ottima cosa nel caso di testi molto lunghi, per accedere alla singola frase tramite indexing dobbiamo convertirlo in una lista.

In [6]:
for sent in doc.sents:
    print(sent.text)

That's was a great play by you.
I hope to play with you again.


## Lemmatizzazione
Possiamo accedere al lemma di ogni parola tramite l'attributo *.lemma_*

In [7]:
print("TOKEN\t\tLEMMA")

for token in doc:
  print("%s\t\t%s" % (token.text, token.lemma_))

TOKEN		LEMMA
That		that
's		be
was		be
a		a
great		great
play		play
by		by
you		-PRON-
.		.
I		-PRON-
hope		hope
to		to
play		play
with		with
you		-PRON-
again		again
.		.


**NOTA BENE**
<br>
Utilizzando l'attributo *.lemma*, quindi senza trattino basso (_), accediamo agli hash che codificano i lemma all'interno del dizionario di Spacy, non penso che tu avrai mai bisogno degli hash ma ti do questa informazione perché potresti scordarti di inserire il _ e non comprendere cosa sono tutti quei numeri che vengono fuori (esperienza personale :) )

In [8]:
print("TOKEN\t\tLEMMA\t\tHASH")

for token in doc:
  print("%s\t\t%s\t\t%s" % (token.text, token.lemma_, token.lemma))

TOKEN		LEMMA		HASH
That		that		4380130941430378203
's		be		10382539506755952630
was		be		10382539506755952630
a		a		11901859001352538922
great		great		8881679497796027013
play		play		8228585124152053988
by		by		16764210730586636600
you		-PRON-		561228191312463089
.		.		12646065887601541794
I		-PRON-		561228191312463089
hope		hope		4429974322456332988
to		to		3791531372978436496
play		play		8228585124152053988
with		with		12510949447758279278
you		-PRON-		561228191312463089
again		again		4502205900248518970
.		.		12646065887601541794


## Stop words
Anche Spacy ci mette a disposizione un'elenco di stop words, più corposo di quello di NLTK.

In [9]:
stopwords = nlp.Defaults.stop_words

print(type(stopwords))

print("Stop words totali: %d" % len(stopwords))

<class 'set'>
Stop words totali: 305


Le stop words vengono tornate all'interno di un set, che è un formato conveniente per eseguire operazioni di sottrazione tra insiemi, se vogliamo utilizzare l'indexing per stampare una parte del set dobbiamo convertirlo in una lista. 

In [10]:
print("Prime 10 stop words: %s" % list(stopwords)[:10])

Prime 10 stop words: ['though', 'without', 'ever', 'wherever', 'own', 'who', 'always', 'become', 'something', 'seeming']


Con Spacy non abbiamo bisogno di effettuare la rimozione delle stop words manualmente, dato che anche questo viene eseguito durante la creazione dell'oggetto *Doc*, possiamo vedere se un token è una stop words con l'attributo *is_stop*.

In [11]:
print("TOKEN\t\tIS STOP")

for token in doc:
  print("%s\t\t%s" % (token.text, token.is_stop))

TOKEN		IS STOP
That		False
's		False
was		True
a		True
great		False
play		False
by		True
you		True
.		False
I		False
hope		False
to		True
play		False
with		True
you		True
again		True
.		False


Quindi per rimuovere le stop words possiamo controllare tale attributo.

In [12]:
tokens_filtered = []

for token in doc:
  if(not token.is_stop):
    tokens_filtered.append(token)

print(tokens_filtered)

[That, 's, great, play, ., I, hope, play, .]


## Un'esempio in Italiano
Facciamo adesso un'esempio in italiano. Installiamo il modello per la lingua italiana.

In [13]:
!python -m spacy download it_core_news_sm

Collecting it_core_news_sm==2.0.0 from https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-2.0.0/it_core_news_sm-2.0.0.tar.gz#egg=it_core_news_sm==2.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-2.0.0/it_core_news_sm-2.0.0.tar.gz (36.5MB)
[K    100% |████████████████████████████████| 36.5MB 8.0MB/s 
[?25hInstalling collected packages: it-core-news-sm
  Running setup.py install for it-core-news-sm ... [?25ldone
[?25hSuccessfully installed it-core-news-sm-2.0.0

[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/it_core_news_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/it_core_news_sm

    You can now load the model via spacy.load('it_core_news_sm')



e carichiamolo

In [14]:
import spacy

nlp = spacy.load("it_core_news_sm")
type(nlp)

spacy.lang.it.Italian

creiamo il documento e vediamo i tokens, i lemma e le stop words.

In [23]:
doc = nlp("Oggi è una giornata afosa. Ho davvero voglia di una granita fresca")

print("FRASI")


print([sent for sent in doc.sents])
print("\n")

print("TOKEN\t\tLEMMA\t\tIS STOP")


for token in doc:
  print("%s\t\t%s\t\t%s" % (token.text, token.lemma_, token.is_stop))

FRASI
[Oggi è una giornata afosa., Ho davvero voglia di una granita fresca]


TOKEN		LEMMA		IS STOP
Oggi		Oggi		False
è		essere		False
una		una		True
giornata		giornata		False
afosa		afoso		False
.		.		False
Ho		Ho		False
davvero		davvero		False
voglia		volere		False
di		di		True
una		una		True
granita		granire		False
fresca		fresco		False
