# Wine Reviews Data Analysis

In questo notebook, analizzeremo un dataset di recensioni di vini. Effettueremo operazioni di campionamento, tokenizzazione delle descrizioni e infine valuteremo la tendenza al clustering usando un approccio basato sugli angoli.

In [1]:
from matplotlib import pyplot as plt # type: ignore
import seaborn as sns # type: ignore
import pandas as pd # type: ignore
import numpy as np  # type: ignore
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer # type: ignore

import dmml.clustering.angle_based_clustering_tendency as abct  # type: ignore

## Caricamento del Dataset

Apriamo il dataset delle recensioni di vini utilizzando Pandas.

In [2]:
# Open the dataset with pandas
dataset = pd.read_csv('../data/winemag-data-130k-v2.csv')

## Campionamento del Dataset

Campioniamo il dataset con rimpiazzo per ottenere un campione pari al 5% del totale.

In [3]:
# Sample the dataset with replacement for a 5%
sampled_dataset = dataset.sample(frac=0.01, replace=True)

# Print the sizes of the original and sampled datasets
print('Original dataset size:', len(dataset))
print('Sampled dataset size:', len(sampled_dataset))

Original dataset size: 129971
Sampled dataset size: 1300


## Tokenizzazione della Colonna Descrizione

In questa sezione tokenizziamo la colonna delle descrizioni dei vini utilizzando il `TfidfVectorizer`.

In [4]:
# Create an instance of TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')

# Fit and transform the description column
description_tokens = vectorizer.fit_transform(dataset['description'])

# Print the shape of the tokenized description
description_tokens.shape, type(description_tokens)

((129971, 30982), scipy.sparse._csr.csr_matrix)

## Analisi della Tendenza al Clustering

Infine, utilizziamo un metodo basato sugli angoli per valutare la tendenza al clustering dei dati tokenizzati. (Questa sezione è attualmente commentata, quindi non sarà eseguita.)

In [5]:
# Uncomment the following lines to execute clustering tendency analysis
# description_tokens = description_tokens.toarray()
# tendency = abct.angle_based_clustering_tendency(description_tokens, 10)
# print(tendency)