<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/4%20-%20Preprocessing%20del%20testo/text_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenizzazione
La tokenizzazione è il processo di estrazione delle parti costituenti del testo, chiamati per l'appunto **tokens**, in sostanza i tokens sono le parole e i caratteri di punteggiatura che compongono il testo.
<br>
Vediamo come eseguire la tokenizzazione con nltk, importiamo il modulo

In [0]:
import nltk

Per eseguire la tokenizzazione, dobbiamo scaricare il pacchetto di dati 'punkt'.

In [4]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

Per eseguire la tokenizzazione possiamo usare la funzione *word_tokenizer(sentence)* di nltk.

In [25]:
from nltk import word_tokenize

string = "Cos'è questa fretta? Facciamolo un'altra volta, ti va bene?"

tokens = word_tokenize(string)
print(tokens)

["Cos'è", 'questa', 'fretta', '?', 'Facciamolo', "un'altra", 'volta', ',', 'ti', 'va', 'bene', '?']


Come vedi il risultato è una lista dei tokens, cioè di parole e punteggiatura che costituiscono la frase, ma non avremmo ottenuto lo stesso risultato usando il metodo *split()* ? Vediamolo

In [1]:
string = "Cos'è questa fretta? Facciamolo un'altra volta, ti va bene?"
string.split()

["Cos'è",
 'questa',
 'fretta?',
 'Facciamolo',
 "un'altra",
 'volta,',
 'ti',
 'va',
 'bene?']

Come vedi il risultato non è lo stesso, il metodo *split()* semplicemente separa le parole in base agli spazi, quindi la punteggiatura non viene isolata.
<br>
Oltre a questo la tokenizzazione ci dovrebbe permette di dividere parole unite in forma contratta (Cos'è = Cosa+è). Purtroppo la funzione *word_tokenizer* non supporta la lingua italiana, facciamo una prova con l'inglese.

In [7]:
string = "I'd love to visit U.S.A, but I can't afford it!" # Mi piacerebbe visitare gli Stati Uniti ma non posso permettermelo

tokens = nltk.word_tokenize(string)
print(tokens)

['I', "'d", 'love', 'to', 'visit', 'U.S.A', ',', 'but', 'I', 'ca', "n't", 'afford', 'it', '!']


Come vedi, con la lingua inglese, la funzione *word_tokenizer* è riuscita a separare anche le parole unite in forma contratta, nota anche come è riuscita a comprendere che U.S.A è un'unica parola.

# Stemming
Lo stemming è un processo che consiste nel ridurre le parole di un testo nella loro forma base, chiamata appunto **stem**.
<br><br>
NLTK ci mette a disposizione due oggetti per eseguire lo stemming, il PorterStemmer e lo SnowballStemmer.

## Porter Stemmer
Il Poter Stemmer è un'algoritmo di stemming che applica una serie di regole in 5 steps per rimuovere il suffisso dalla frase.
<br>
Importiamo la classe *PorterStemmer* da nltk e testiamola su una frase, questo algoritmo funziona solo con la lingua inglese.

In [30]:
from nltk.stem.porter import PorterStemmer

string = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(string)

stemmer = PorterStemmer()

# lo stemmer prende in input la singola parola
# quindi passiamo un token per volta
# utilizzando un ciclo for

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

I		I
fed		fed
my		my
cats		cat
with		with
some		some
mice		mice
while		while
playing		play
Candy		candi
Crush		crush


## Snowball Stemmer
Snowball è un'altro algoritmo di stemming che apporta alcune migliorie al Porter Stemmer e a differenza di questo supporta diverse lingue con NLTK, incluso l'italiano.
<br>
Possiamo passare la lingua come parametro dello stemmer.

In [32]:
from nltk.stem.snowball import SnowballStemmer

string = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(string)

stemmer = SnowballStemmer("english")

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
I		i
fed		fed
my		my
cats		cat
with		with
some		some
mice		mice
while		while
playing		play
King		king
of		of
the		the
Riddles		riddl


In [33]:
from nltk.stem.snowball import SnowballStemmer

string = "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi"
tokens = nltk.word_tokenize(string)

stemmer = SnowballStemmer("italian")

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

['ho',
 'sfam',
 'i',
 'mie',
 'gatt',
 'con',
 'dei',
 'top',
 'mentr',
 'gioc',
 'a',
 'il',
 'signor',
 'degl',
 'enigm']

Ovviamente la precisione dell'algoritmo è maggiore per la lingua inglese che per la lingua italiana.

## Lancaster Stemmer
Il Lancaster è un'altro algoritmo di stemming che applica regole più aggressive per la riduzione delle parole, anche eccessivamente aggressive, facciamo un esempio.

In [41]:
from nltk.stem import LancasterStemmer

string = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(string)

stemmer=LancasterStemmer()

print("TOKEN\t\tSTEM")

for token in tokens:
  print("%s\t\t%s" % (token, stemmer.stem(token)))

TOKEN		STEM
My		my
cats		cat
ate		at
some		som
mice		mic
while		whil
I		i
was		was
playing		play
King		king
of		of
the		the
Riddles		riddl


Come vedi usando il Lancaster alcune parole sono state tagliate. Nella pratica possiamo adottare tranquillamente lo Snowball, il quale dovrebbe portare a risultati più stabili e precisi.

# Lemmatizatione
La lemmatizzazione ci permette di ridurre una parola dalla sua forma flessa alla sua forma canonica, detta appunto **lemma**, il quale a differenza dello stem è una parola reale.
Possiamo eseguire la lemmatizzazione con nltk usando il *WordNetLemmatizer*.

In [38]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [40]:
from nltk.stem import WordNetLemmatizer

string = "My cats ate some mice while I was playing King of the Riddles" # "I miei gatti hanno mangiato alcuni topi mentre io stavo giocavo a il signore degli enigmi
tokens = nltk.word_tokenize(string)

lemmatizer = WordNetLemmatizer()

print("TOKEN\t\tLEM")

for token in tokens:
  print("%s\t\t%s" % (token, lemmatizer.lemmatize(token)))

TOKEN		LEM
My		My
cats		cat
ate		ate
some		some
mice		mouse
while		while
I		I
was		wa
playing		playing
King		King
of		of
the		the
Riddles		Riddles


Come vedi a lemmatizzato perfettamente i nomi (mice -> mouse), però non ha fatto altrettanto con i verbi, perchè ? Perché dobbiamo anche specificare il tipo di parola utilizzando il parametro pos, se non lo facciamo crederà che si tratti di un nome.


In [49]:
lemmatizer = WordNetLemmatizer()

tokens = [("My","n"),("cats","n"),("ate","v"), ("some","n"), ("mice","n"), ("while","r"), ("I","n"), ("was","v"), ("playing","v"), ("King","v"), ("of","n"),("the","n"),("Riddles","n")]

print("TOKEN\t\tLEM")

for token in tokens:
  print("%s\t\t%s" % (token[0], lemmatizer.lemmatize(token[0], pos=token[1])))

TOKEN		LEM
My		My
cats		cat
ate		eat
some		some
mice		mouse
while		while
I		I
was		be
playing		play
King		King
of		of
the		the
Riddles		Riddles


Pos sta per part-of-speech, cioè parte del discorso, è possibile automatizzare l'identificazione della parte del discorso in modo da non doverli inserire manualmente. Più avanti vedremo come.