# Preprocessing delle Recensioni di Vino

In questo notebook, utilizzeremo la classe `TextPreprocessor` per eseguire il preprocessing del testo delle recensioni di vino. Il preprocessing include la pulizia dei dati, la rimozione delle stopwords e la tokenizzazione.

## 1. Importazione delle Librerie e del Preprocessor

Iniziamo importando le librerie necessarie e la nostra classe di preprocessing.


In [1]:
import pandas as pd # type: ignore
from vinum_analytica.data import TextPreprocessor # type: ignore

# Mostra le prime righe del dataset
print("Importazione e inizializzazione completate.")


Importazione e inizializzazione completate.


[nltk_data] Downloading package stopwords to /home/paolo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/paolo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /home/paolo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 2. Caricamento dei Dati

Carichiamo il dataset delle recensioni di vino e visualizziamo le prime righe per avere un'idea dei dati con cui lavoriamo.


In [10]:
# Carica il dataset
dataset = pd.read_csv('../data/winemag-data-130k-v2.csv')

# Mostra le prime righe del dataset
dataset.head()


Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## 3. Applicazione del Preprocessing

Creiamo un'istanza della classe `TextPreprocessor` e applichiamo il preprocessing alla colonna `description` del dataset.


In [11]:
# Crea un'istanza della classe di preprocessing
preprocessor = TextPreprocessor()

# Applica il preprocessing alla colonna 'description'
dataset['cleaned_description'] = dataset['description'].apply(preprocessor.preprocess)

# Mostra le prime righe del dataset con la colonna preprocessata
dataset[['description', 'cleaned_description']].head()


Unnamed: 0,description,cleaned_description
0,"Aromas include tropical fruit, broom, brimston...",aroma include tropical fruit broom brimstone d...
1,"This is ripe and fruity, a wine that is smooth...",ripe fruity wine smooth still structured firm ...
2,"Tart and snappy, the flavors of lime flesh and...",tart snappy flavor lime flesh rind dominate gr...
3,"Pineapple rind, lemon pith and orange blossom ...",pineapple rind lemon pith orange blossom start...
4,"Much like the regular bottling from 2012, this...",much like regular bottling come across rather ...


## 4. Analisi dei Dati Preprocessati

Esaminiamo le descrizioni preprocessate per verificare l'efficacia del preprocessing.


In [13]:
# Conta il numero di parole nella colonna 'cleaned_description'
dataset['description_length'] = dataset['cleaned_description'].apply(lambda x: len(x.split()))

# Mostra le statistiche delle lunghezze delle descrizioni preprocessate
dataset['description_length'].describe()


count    129971.000000
mean         24.690585
std           6.702687
min           2.000000
25%          20.000000
50%          24.000000
75%          29.000000
max          76.000000
Name: description_length, dtype: float64

In [14]:

# Visualizza una selezione di descrizioni preprocessate
print("Esempi di descrizioni preprocessate:")
for i in range(5):
    print(f"\nOriginale:\n{dataset.iloc[i]['description']}")
    print(f"\nPreprocessata:\n{dataset.iloc[i]['cleaned_description']}")


Esempi di descrizioni preprocessate:

Originale:
Aromas include tropical fruit, broom, brimstone and dried herb. The palate isn't overly expressive, offering unripened apple, citrus and dried sage alongside brisk acidity.

Preprocessata:
aroma include tropical fruit broom brimstone dried herb palate isnt overly expressive offering unripened apple citrus dried sage alongside brisk acidity

Originale:
This is ripe and fruity, a wine that is smooth while still structured. Firm tannins are filled out with juicy red berry fruits and freshened with acidity. It's  already drinkable, although it will certainly be better from 2016.

Preprocessata:
ripe fruity wine smooth still structured firm tannin filled juicy red berry fruit freshened acidity already drinkable although certainly better

Originale:
Tart and snappy, the flavors of lime flesh and rind dominate. Some green pineapple pokes through, with crisp acidity underscoring the flavors. The wine was all stainless-steel fermented.

Preproces

## 5. Conclusioni

Abbiamo completato il preprocessing del testo delle recensioni di vino utilizzando la classe `TextPreprocessor`. Le descrizioni sono state convertite in minuscolo, pulite da caratteri non alfanumerici, tokenizzate e le stopwords sono state rimosse.

Nel prossimo passo, potremo utilizzare queste descrizioni preprocessate per ulteriori analisi come il clustering o la classificazione.

