<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/4%20-%20Preprocessing%20del%20testo/text_preprocessing_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenizzazione
La tokenizzazione è il processo di estrazione delle parti costituenti del testo, chiamati per l'appunto **tokens**, in sostanza i tokens sono le parole e i caratteri di punteggiatura che compongono il testo.
<br>
Vediamo come eseguire la tokenizzazione con nltk, importiamo il modulo

In [0]:
import nltk

Per eseguire la tokenizzazione, dobbiamo scaricare il pacchetto di dati 'punkt'.

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

Per eseguire la tokenizzazione possiamo usare la funzione *word_tokenizer(sentence)* di nltk.

In [3]:
from nltk import word_tokenize

text = "Cos'è questa fretta? Facciamolo un'altra volta, ti va bene?"

tokens = word_tokenize(text)
print(tokens)

["Cos'è", 'questa', 'fretta', '?', 'Facciamolo', "un'altra", 'volta', ',', 'ti', 'va', 'bene', '?']


Come vedi il risultato è una lista dei tokens, cioè di parole e punteggiatura che costituiscono la frase, ma non avremmo ottenuto lo stesso risultato usando il metodo *split()* ? Vediamolo

In [4]:
text = "Cos'è questa fretta? Facciamolo un'altra volta, ti va bene?"
text.split()

["Cos'è",
 'questa',
 'fretta?',
 'Facciamolo',
 "un'altra",
 'volta,',
 'ti',
 'va',
 'bene?']

Come vedi il risultato non è lo stesso, il metodo *split()* semplicemente separa le parole in base agli spazi, quindi la punteggiatura non viene isolata.
<br>
Oltre a questo la tokenizzazione ci dovrebbe permette di dividere parole unite in forma contratta (Cos'è = Cosa+è). Purtroppo la funzione *word_tokenizer* non supporta la lingua italiana, facciamo una prova con l'inglese.

In [5]:
text = "I'd love to visit U.S.A, but I can't afford it!" # Mi piacerebbe visitare gli Stati Uniti ma non posso permettermelo

tokens = nltk.word_tokenize(text)
print(tokens)

['I', "'d", 'love', 'to', 'visit', 'U.S.A', ',', 'but', 'I', 'ca', "n't", 'afford', 'it', '!']


Come vedi, con la lingua inglese, la funzione *word_tokenizer* è riuscita a separare anche le parole unite in forma contratta, nota anche come è riuscita a comprendere che U.S.A è un'unica parola.
<br>
Possiamo tokenizzare anche intere frasi piuttosto che singole parole, per farlo dobbiamo usare la funzione *sent_tokenize

In [6]:
from nltk.tokenize import sent_tokenize

text = "I'd love to visit U.S.A, but I can't afford it. Instead this summer I'll visit U.K" # Mi piacerebbe visitare gli Stati Uniti ma non posso permettermelo. Invece questa estate visiterò il Regno Unito. 

tokens_sent = sent_tokenize(text)

print(tokens_sent)

["I'd love to visit U.S.A, but I can't afford it.", "Instead this summer I'll visit U.K"]


# Stop Words
Le stop words sono quelle parole comuni del linguaggio che portano poca o nessuna informazione al discorso, esempi possono essere le congiunzioni o verbi comuni come il verbo essere e il verbo avere.
<br>
NLTK contiene liste di stop words per diversi linguaggi, per ottenerle dobbiamo prima scaricare il corpus 'stopwords'.

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Poi possiamo ottenere una lista per una determinata lingua utilizzando la funzione *words* del metodo *stopwords*, indicando al suo interno la lingua per la quale vogliamo avere le stop words.

In [8]:
from nltk.corpus import stopwords

en_stopwords = stopwords.words('english')

print("Stop words totali: %d" % len(en_stopwords))
print("Prime 10 stop words: %s" % en_stopwords[:10])

Stop words totali: 179
Prime 10 stop words: ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


Come vedi per l'inglese abbiamo 179 stop words, vediamo per la lingua italiana.

In [9]:
it_stopwords = stopwords.words('italian')

print("Stop words totali: %d" % len(it_stopwords))
print("Prime 10 stop words: %s" % it_stopwords[:10])

Stop words totali: 279
Prime 10 stop words: ['ad', 'al', 'allo', 'ai', 'agli', 'all', 'agl', 'alla', 'alle', 'con']


Per l'italiano abbiamo 279 parole, possiamo rimuovere le stop words dalla nostra lista di tokens iterando sopra di essi e verificando se il token è presente o meno nella lista di stop words.

In [10]:
text = "Io sono una persona simpatica, solo che non mi piacciono gli esseri umani, preferisco i gatti"

it_stopwords = stopwords.words('italian')

tokens = word_tokenize(text)

tokens_filtered = []

for token in tokens:
  if(token.lower() not in it_stopwords):
    tokens_filtered.append(token)
    
    
print("Tokens originali: %s" % tokens)
print("Tokens rimasti: %s" % tokens_filtered)

Tokens originali: ['Io', 'sono', 'una', 'persona', 'simpatica', ',', 'solo', 'che', 'non', 'mi', 'piacciono', 'gli', 'esseri', 'umani', ',', 'preferisco', 'i', 'gatti']
Tokens rimasti: ['persona', 'simpatica', ',', 'solo', 'piacciono', 'esseri', 'umani', ',', 'preferisco', 'gatti']


Come vedi abbiamo convertito la parola in minuscolo per assicurarsi il matching anche delle parole a inizio frase.

# Stemming
Lo stemming è un processo che consiste nel ridurre le parole di un testo nella loro forma base, chiamata appunto **stem**.
<br><br>
NLTK ci mette a disposizione due oggetti per eseguire lo stemming, il PorterStemmer e lo SnowballStemmer.

## Porter Stemmer
Il Poter Stemmer è un'algoritmo di stemming che applica una serie di regole in 5 steps per rimuovere il suffisso dalla frase.
<br>
Importiamo la classe *PorterStemmer* da nltk e testiamola su una frase, questo algoritmo funziona solo con la lingua inglese.

In [11]:
from nltk.stem.porter import PorterStemmer

text = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(text)

stemmer = PorterStemmer()

# lo stemmer prende in input la singola parola
# quindi passiamo un token per volta
# utilizzando un ciclo for

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
My		My
cats		cat
ate		ate
some		some
mice		mice
while		while
I		I
was		wa
playing		play
King		king
of		of
the		the
Riddles		riddl


## Snowball Stemmer
Snowball è un'altro algoritmo di stemming che apporta alcune migliorie al Porter Stemmer e a differenza di questo supporta diverse lingue con NLTK, incluso l'italiano.
<br>
Possiamo passare la lingua come parametro dello stemmer.

In [12]:
from nltk.stem.snowball import SnowballStemmer

text = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(text)

stemmer = SnowballStemmer("english")

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
My		my
cats		cat
ate		ate
some		some
mice		mice
while		while
I		i
was		was
playing		play
King		king
of		of
the		the
Riddles		riddl


In [13]:
from nltk.stem.snowball import SnowballStemmer

text = "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi"
tokens = nltk.word_tokenize(text)

stemmer = SnowballStemmer("italian")

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
I		i
miei		mie
gatti		gatt
hanno		hann
mangiato		mang
alcuni		alcun
topi		top
mentre		mentr
io		io
stavo		stav
giocavo		gioc
a		a
il		il
signore		signor
degli		degl
enigmi		enigm


Ovviamente la precisione dell'algoritmo è maggiore per la lingua inglese che per la lingua italiana.

## Lancaster Stemmer
Il Lancaster è un'altro algoritmo di stemming che applica regole più aggressive per la riduzione delle parole, anche eccessivamente aggressive, facciamo un esempio.

In [14]:
from nltk.stem import LancasterStemmer

text = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(text)

stemmer=LancasterStemmer()

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
My		my
cats		cat
ate		at
some		som
mice		mic
while		whil
I		i
was		was
playing		play
King		king
of		of
the		the
Riddles		riddl


Come vedi usando il Lancaster alcune parole sono state tagliate. Nella pratica possiamo adottare tranquillamente lo Snowball, il quale dovrebbe portare a risultati più stabili e precisi.

# Lemmatizatione
La lemmatizzazione ci permette di ridurre una parola dalla sua forma flessa alla sua forma canonica, detta appunto **lemma**, il quale a differenza dello stem è una parola reale.
Possiamo eseguire la lemmatizzazione con nltk usando il *WordNetLemmatizer*.

In [16]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [17]:
from nltk.stem import WordNetLemmatizer

text = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(text)

lemmatizer = WordNetLemmatizer()

print("TOKEN\t\tLEM")

for token in tokens:
  print("%s\t\t%s" % (token, lemmatizer.lemmatize(token)))

TOKEN		LEM
My		My
cats		cat
ate		ate
some		some
mice		mouse
while		while
I		I
was		wa
playing		playing
King		King
of		of
the		the
Riddles		Riddles


Come vedi a lemmatizzato perfettamente i nomi (mice -> mouse), però non ha fatto altrettanto con i verbi, perchè ? Perché dobbiamo anche specificare il tipo di parola utilizzando il parametro pos, se non lo facciamo crederà che si tratti di un nome.


In [0]:
lemmatizer = WordNetLemmatizer()

tokens = [("My","n"),("cats","n"),("ate","v"), ("some","n"), ("mice","n"), ("while","r"), ("I","n"), ("was","v"), ("playing","v"), ("King","v"), ("of","n"),("the","n"),("Riddles","n")]

print("TOKEN\t\tLEM")

for token in tokens:
  print("%s\t\t%s" % (token[0], lemmatizer.lemmatize(token[0], pos=token[1])))

TOKEN		LEM
My		My
cats		cat
ate		eat
some		some
mice		mouse
while		while
I		I
was		be
playing		play
King		King
of		of
the		the
Riddles		Riddles


Pos sta per part-of-speech, cioè parte del discorso, è possibile automatizzare l'identificazione della parte del discorso in modo da non doverli inserire manualmente, nella prossima sezione vedremo come.