### Prof. Alfio Ferrara
# Tokenizzazione del testo
### Master in Digital Humanities

Ci sono diversi metodi per la tokenizzazione di cui vediamo tre principali categorie:
1. Tokenizzatori basati su espressioni regolari
2. Tokenizzatori basati su informazione linguistica
3. Tokenizzatori basati su apprendimento

Esempio tratto da [kaggle](https://www.kaggle.com/datasets/edoardoscarpaci/italian-food-recipes)

In [1]:
import pandas as pd

In [2]:
dataset_file = "/Users/Flint/Data/recipes/gz_recipe.csv"
dataset = pd.read_csv(dataset_file, index_col=0)
recipes = dataset.Nome.values
docs = dataset.Steps.values

In [3]:
dataset 

Unnamed: 0,Nome,Categoria,Link,Persone/Pezzi,Ingredienti,Steps
0,Tiramisù,Dolci,https://ricette.giallozafferano.it/Tiramisu.html,8,"[['Mascarpone', '750g'], ['Uova', '260g'], ['S...",Per preparare il tiramisù preparate il caffé c...
1,Cookies,Dolci,https://ricette.giallozafferano.it/Cookies.html,12,"[['Farina 00', '195g'], ['Burro', '100g'], ['B...","Per preparare i cookies, assicuratevi che il b..."
2,Pancake allo sciroppo d'acero,Dolci,https://ricette.giallozafferano.it/Pancakes-al...,4,"[['Burro', '25g'], ['Farina 00', '125g'], ['Uo...",Iniziamo la preparazione dei pancake fondendo ...
3,Crema al mascarpone,Dolci,https://ricette.giallozafferano.it/Crema-al-ma...,4,"[['Mascarpone', '500g'], ['Zucchero', '125g'],...",Per preparare la crema al mascarpone versate i...
4,Crepe dolci e salate (ricetta base),Dolci,https://ricette.giallozafferano.it/Crepes-dolc...,15,"[['Uova', '3'], ['Farina 00', '250g'], ['Latte...",Per preparare le crepe dolci e salate iniziate...
...,...,...,...,...,...,...
5934,Bowl di anguria e tofu,Dolci,https://ricette.giallozafferano.it/Bowl-di-ang...,4,"[['Cocomero (anguria)', '450g'], ['Fragole', '...",Per realizzare la bowl di anguria e tofu per p...
5935,Granita bicolore con finto gelato,Dolci,https://ricette.giallozafferano.it/Granita-bic...,4,"[['Cocomero (anguria)', '400g'], ['Melone cant...",Per preparare la granita bicolore con finto ge...
5936,Bicchieri di albicocche e robiola,Dolci,https://ricette.giallozafferano.it/Bicchieri-d...,4,"[['Albicocche', '500g'], ['Zucchero', '50g'], ...",Per preparare i bicchieri di albicocche e robi...
5937,Fiori di Eglefino zucca e pesto,Secondi piatti,https://ricette.giallozafferano.it/Fiori-di-Eg...,2,"[['Eglefino', '2'], ['Zucca mantovana', '1kg']...",Per realizzare i Fiori di Eglefino zucca e pes...


In [4]:
print(recipes[0])
print(docs[0])

Tiramisù
Per preparare il tiramisù preparate il caffé con la moka per ottenerne 300 g, poi zuccherate a piacere (noi abbiamo messo un cucchiaino) e lasciatelo raffreddare in una ciotolina bassa e ampia. Separate le uova dividendo gli albumi dai tuorli ricordando che per montare bene gli albumi non dovranno presentare alcuna traccia di tuorlo. Montate i tuorli con le fruste elettriche, versando solo metà dose di zucchero Non appena il composto sarà diventato chiaro e spumoso, e con le fruste ancora in funzione, potrete aggiungere il mascarpone, poco alla volta Incorporato tutto il formaggio avrete ottenuto una crema densa e compatta Quando saranno schiumosi versate il restante zucchero un po’ alla volta Dovrete montarli a neve ben ferma così stempererete il composto. Dopodiché procedete ad aggiungere la restante parte di albumi, poco alla volta mescolando molto delicatamente dal basso verso l'alto La crema al mascarpone è ora pronta Distribuitene una generosa cucchiaiata sul fondo di un

## Espressioni regolari

In [9]:
from nltk.tokenize import word_tokenize
from string import punctuation

In [22]:
def w_tokenizer(text):
    tokens = word_tokenize(text=text, language='italian') 
    tokens = [x.lower() for x in tokens if x not in punctuation]
    return tokens

w_tokens = w_tokenizer(docs[0])

for i, token in enumerate(w_tokens):
    print(token)
    if i > 20:
        break


per
preparare
il
tiramisù
preparate
il
caffé
con
la
moka
per
ottenerne
300
g
poi
zuccherate
a
piacere
noi
abbiamo
messo
un


## Tokenizzazione linguistica

In [13]:
import spacy
from spacy.displacy import render

In [12]:
nlp = spacy.load("it_core_news_lg")
for i, token in enumerate(nlp(docs[0])):
    print(token.text, token.pos_, token.lemma_, token.dep_)
    if i > 8:
        break 

Per ADP per mark
preparare VERB preparare advcl
il DET il det
tiramisù NOUN tiramisù obj
preparate VERB preparare acl
il DET il det
caffé NOUN caffé obj
con ADP con case
la DET il det
moka NOUN moka obl


In [15]:
render(nlp('mario ieri è andato al mercato'))

In [24]:
def l_tokenizer(text):
    tokens = [t.lemma_ for t in nlp(text) if t.pos_ not in ['PUNCT']]
    return tokens 

In [25]:
w_sample = w_tokenizer(docs[4])
l_sample = l_tokenizer(docs[4])

print(w_sample[:10])
print(l_sample[:10])

['per', 'preparare', 'le', 'crepe', 'dolci', 'e', 'salate', 'iniziate', 'rompendo', 'le']
['per', 'preparare', 'il', 'crepa', 'dolce', 'e', 'salato', 'iniziare', 'rompere', 'il']


In [26]:
from tqdm.notebook import tqdm 

In [29]:
Cw, Cl = [], []
for doc in tqdm(docs[:2000], maxinterval=2000):
    if not pd.isnull(doc) and len(doc) >= 0:
        Cw.append(w_tokenizer(doc))
        Cl.append(l_tokenizer(doc))

  0%|          | 0/2000 [00:00<?, ?it/s]

In [55]:
from collections import defaultdict
import numpy as np 

In [31]:
def indexing(corpus):
    c = defaultdict(lambda: defaultdict(lambda: 0))
    for i, doc in enumerate(corpus):
        for token in doc:
            c[i][token] += 1
    return pd.DataFrame(c).fillna(0)

In [50]:
W = indexing(Cw)
L = indexing(Cl)
W = (W / W.sum(axis=0))
L = (L / L.sum(axis=0))

In [54]:
W.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998
per,0.02518,0.016667,0.008475,0.007874,0.032864,0.010695,0.038462,0.024648,0.019011,0.035971,...,0.021459,0.015823,0.024194,0.013158,0.02439,0.018587,0.020595,0.016043,0.018443,0.014706
preparare,0.003597,0.008333,0.0,0.007874,0.004695,0.001783,0.012821,0.003521,0.0,0.007194,...,0.004292,0.003165,0.004032,0.006579,0.004878,0.003717,0.002288,0.005348,0.002049,0.014706
il,0.028777,0.008333,0.029661,0.023622,0.004695,0.02852,0.064103,0.028169,0.022814,0.043165,...,0.034335,0.018987,0.056452,0.059211,0.019512,0.018587,0.025172,0.026738,0.012295,0.029412
tiramisù,0.007194,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
preparate,0.003597,0.0,0.0,0.0,0.0,0.003565,0.0,0.0,0.003802,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [45]:
print(W.shape)
print(L.shape)

(12216, 1999)
(10148, 1999)


In [52]:
W[0].sort_values(ascending=False)[:10]

e        0.035971
di       0.032374
il       0.028777
per      0.025180
un       0.025180
la       0.021583
in       0.021583
con      0.017986
crema    0.017986
i        0.014388
Name: 0, dtype: float64

In [53]:
L[0].sort_values(ascending=False)[:10]

il        0.085714
uno       0.039286
e         0.035714
di        0.032143
per       0.025000
in        0.021429
con       0.017857
crema     0.017857
a il      0.017857
essere    0.017857
Name: 0, dtype: float64

In [56]:
def idf(table):
    idf = {}
    for i, row in table.iterrows():
        idf[i] = np.log(table.shape[1] / len([x for x in row if x > 0]))
    return pd.Series(idf)    

In [58]:
IDF_w = idf(W)
IDF_l = idf(L)

In [60]:
(W[0] * IDF_w).sort_values(ascending=False)[:10]

imbevuti        0.054679
savoiardi       0.048662
mascarpone      0.040940
tiramisù        0.033496
albumi          0.032763
crema           0.029347
caffè           0.028898
caffé           0.027340
alcuna          0.027340
stempererete    0.027340
dtype: float64

In [61]:
(L[0] * IDF_l).sort_values(ascending=False)[:10]

savoiardo       0.047838
imbevere        0.046441
mascarpone      0.040647
tiramisù        0.033257
albumo          0.032529
distribuire     0.031267
crema           0.028956
caffè           0.028692
stemperereto    0.027144
caffé           0.027144
dtype: float64

## WordPiece tokenizer

In [16]:
from transformers import AutoTokenizer

In [22]:
tokenizer = AutoTokenizer.from_pretrained('dbmdz/bert-base-italian-cased')

tokens = tokenizer.tokenize(docs[0])
print("Tokens:", tokens)

# Converti in ID numerici
input_ids = tokenizer.encode(docs[0], return_tensors='pt')
print("Input IDs:", input_ids[:,:10])

# Decodifica per tornare al testo
testo_decodificato = tokenizer.decode(input_ids[0])
print("Testo decodificato:", testo_decodificato)

Tokens: ['Per', 'preparare', 'il', 'tira', '##mis', '##ù', 'preparate', 'il', 'caff', '##é', 'con', 'la', 'mo', '##ka', 'per', 'otten', '##erne', '300', 'g', ',', 'poi', 'zucch', '##erate', 'a', 'piacere', '(', 'noi', 'abbiamo', 'messo', 'un', 'cucchia', '##ino', ')', 'e', 'lasciate', '##lo', 'raffred', '##dare', 'in', 'una', 'cio', '##to', '##lina', 'bassa', 'e', 'ampia', '.', 'Se', '##para', '##te', 'le', 'uova', 'divide', '##ndo', 'gli', 'album', '##i', 'dai', 'tuo', '##rli', 'ricordando', 'che', 'per', 'montare', 'bene', 'gli', 'album', '##i', 'non', 'dovranno', 'presentare', 'alcuna', 'traccia', 'di', 'tuo', '##rlo', '.', 'Monta', '##te', 'i', 'tuo', '##rli', 'con', 'le', 'frus', '##te', 'elettriche', ',', 'versa', '##ndo', 'solo', 'metà', 'dose', 'di', 'zucchero', 'Non', 'appena', 'il', 'composto', 'sarà', 'diventato', 'chiaro', 'e', 'spu', '##mos', '##o', ',', 'e', 'con', 'le', 'frus', '##te', 'ancora', 'in', 'funzione', ',', 'potrete', 'aggiungere', 'il', 'masc', '##ar', '##pon