# Notebook - Analisi della qualità del vino 

Il dataset sulla qualità del vino contiene informazioni su varie proprietà fisico-chimiche dei vini. É associato un set di dati alla sua varietà di colore: vino rosso e vino bianco. Ad ogni vino è assegnata un'etichetta riguardante la qualità.

![](http://pasticceriedelite.it/wp-content/uploads/2021/02/rossibianchi.jpg)

### Indice:
1. <a href="#1---Manipolazioni-dei-dati">Manipolazione dei Dati</a> 
2. <a href="#2---Statistica-Descrittiva-e-Analisi-Esplorativa-tramite-Tecniche-di-Visualizzazione">Analisi Statistica Descrittiva e Visualizzazione</a>  
3. <a href="#3---Machine-learnging">Machine Learning</a>

### Import delle librerie necessarie

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import MinMaxScaler
from sklearn import neighbors
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import ConfusionMatrixDisplay

sns.set()

### Caricamento dei dataset <a href="https://archive.ics.uci.edu/ml/datasets/Wine+Quality" target="_blank">LINK</a>

In [2]:
# utilizzo il separatore ';'
df_white_wine = pd.read_csv('./winequality-white.csv', sep=';')
df_red_wine = pd.read_csv('./winequality-red.csv', sep=';')

## 1 - Manipolazioni dei dati

Una prima vista dei dataset

In [3]:
print('Dataset vini rossi:', df_red_wine.shape)
df_red_wine

Dataset vini rossi: (1599, 12)


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1594,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
1595,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


In [4]:
print('Dataset vini bianchi:', df_red_wine.shape)
df_white_wine

Dataset vini bianchi: (1599, 12)


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.00100,3.00,0.45,8.8,6
1,6.3,0.30,0.34,1.6,0.049,14.0,132.0,0.99400,3.30,0.49,9.5,6
2,8.1,0.28,0.40,6.9,0.050,30.0,97.0,0.99510,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
...,...,...,...,...,...,...,...,...,...,...,...,...
4893,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6
4894,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5
4895,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6
4896,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7


### Modifica dei dataset aggiungendo la colonna relativa al colore del vino

In [5]:
df_red_wine['wine color'] = 'red'   
df_white_wine['wine color'] = 'white'

In [6]:
print('Verifica della colonna del colore per vini rossi:')
df_red_wine.head()

Verifica della colonna del colore per vini rossi:


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,wine color
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


In [7]:
print('Verifica della colonna del colore per vini bianchi:')
df_white_wine.head()

Verifica della colonna del colore per vini bianchi:


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,wine color
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,white
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,white
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,white
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,white
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,white


### Verifica preliminare di righe e colonna per unire i due dataset

In [8]:
print(df_red_wine.count())
print()
print(df_white_wine.count())

fixed acidity           1599
volatile acidity        1599
citric acid             1599
residual sugar          1599
chlorides               1599
free sulfur dioxide     1599
total sulfur dioxide    1599
density                 1599
pH                      1599
sulphates               1599
alcohol                 1599
quality                 1599
wine color              1599
dtype: int64

fixed acidity           4898
volatile acidity        4898
citric acid             4898
residual sugar          4898
chlorides               4898
free sulfur dioxide     4898
total sulfur dioxide    4898
density                 4898
pH                      4898
sulphates               4898
alcohol                 4898
quality                 4898
wine color              4898
dtype: int64


***

*I vini rossi sono 1599 mentre i vini bianchi sono 4898. Da una prima analisi notiamo che non ci sono anomalie su valori nulli. Inoltre, i dataset hanno le stesse colonne quindi sono concatenabili orizzontalmente.*

### Concatenamento dei due dataset in un unico dataset (orizzontalmente)

In [9]:
# axis = 0 --> orizzontalmente
df_wines = pd.concat([df_red_wine, df_white_wine], axis=0)

# mescolamento delle righe (axis = 0), ritorna tutte le righe (frac = 1)
df_wines = df_wines.sample(frac=1, axis=0)

# reset degli indici, elimina la colonna degli indici precedente (drop=true)
# lavora sullo stesso DF (inplace=true)
df_wines.reset_index(inplace=True, drop=True)

df_wines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         6497 non-null   float64
 1   volatile acidity      6497 non-null   float64
 2   citric acid           6497 non-null   float64
 3   residual sugar        6497 non-null   float64
 4   chlorides             6497 non-null   float64
 5   free sulfur dioxide   6497 non-null   float64
 6   total sulfur dioxide  6497 non-null   float64
 7   density               6497 non-null   float64
 8   pH                    6497 non-null   float64
 9   sulphates             6497 non-null   float64
 10  alcohol               6497 non-null   float64
 11  quality               6497 non-null   int64  
 12  wine color            6497 non-null   object 
dtypes: float64(11), int64(1), object(1)
memory usage: 660.0+ KB


***

*Si ottengono 6497 entries con indici che vanno da 0 a 6496*

In [10]:
df_wines.tail()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,wine color
6492,8.7,0.3,0.59,1.7,0.046,10.0,70.0,0.99373,3.06,0.56,10.8,4,white
6493,10.6,0.5,0.45,2.6,0.119,34.0,68.0,0.99708,3.23,0.72,10.9,6,red
6494,6.4,0.15,0.36,1.8,0.034,43.0,150.0,0.9922,3.42,0.69,11.0,8,white
6495,8.5,0.44,0.5,1.9,0.369,15.0,38.0,0.99634,3.01,1.1,9.4,5,red
6496,6.5,0.52,0.11,1.8,0.073,13.0,38.0,0.9955,3.34,0.52,9.3,5,red


***

*Si noti come gli indici vengono resettati in modo predefinito dopo la concatenazione ed il mescolamento*

### Verifica dei valori null sul nuovo dataset

In [11]:
df_wines.isnull().any()

fixed acidity           False
volatile acidity        False
citric acid             False
residual sugar          False
chlorides               False
free sulfur dioxide     False
total sulfur dioxide    False
density                 False
pH                      False
sulphates               False
alcohol                 False
quality                 False
wine color              False
dtype: bool

***

*Non ci sono valori mancanti/nulli e tutte le colonne (al netto della colonna descrittiva aggiunta: colore) hanno un valore numerico*

### Aggiunta della colonna testuale descrittiva sulla qualità del vino

In [12]:
unique_quality = df_wines['quality'].unique();

print('Possibili valori (in ordine crescente) della qualità del vino:', np.sort(unique_quality))
print()
print('Minimo valore della qualità del vino:', unique_quality.min())
print()      
print('Massimo valore della qualità del vino:', unique_quality.max())

Possibili valori (in ordine crescente) della qualità del vino: [3 4 5 6 7 8 9]

Minimo valore della qualità del vino: 3

Massimo valore della qualità del vino: 9


**In base ai risultati della precedente istruzione si utilizzano tre metodi diversi per aggiungere la nuova colonna e viene confrontata l'efficienza tramite il profiling del tempo**

*Analisi performance funzione "cut":*

In [13]:
%%timeit
step = (0, 5, 7, 9)
labels = ['low', 'medium', 'high']
df_wines['quality description'] = pd.cut(x = df_wines['quality'], bins = step, labels = labels)

369 µs ± 12.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


***
*Analisi performance funzione "apply":*

In [14]:
%%timeit
df_wines['quality description'] = df_wines['quality'].apply(
    lambda value: 'low' if value <= 5 
    else 'medium' if value <= 7 
    else 'high')

558 µs ± 4.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


***
*Analisi performance funzione "for loop":*

In [15]:
%%timeit
newRow=[]
for row in df_wines['quality']:
    if (row<=5):
        val='low'
    elif (row <= 7):
        val='medium'
    else:
        val='high'
    newRow.append(val)
df_wines['quality description'] = newRow

744 µs ± 4.91 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


***

**Controlliamo i risultati:**

In [16]:
print(df_wines.loc[df_wines['quality'] <= 5, ['quality','quality description']].head())
print()
print(df_wines.loc[df_wines['quality'].between(6, 7),['quality','quality description']].head())
print()
print(df_wines.loc[df_wines['quality'] > 7,['quality','quality description']].head())


    quality quality description
3         5                 low
7         5                 low
13        5                 low
16        5                 low
19        4                 low

   quality quality description
0        6              medium
1        7              medium
2        7              medium
4        6              medium
5        6              medium

     quality quality description
9          8                high
34         8                high
97         8                high
158        8                high
199        8                high


### Aggiunta della colonna sulle KCAL

L’alcol sviluppa circa 7 kcal per grammo ed ha un peso specifico di 79 quindi pesa 0.79 kg/litro. Un litro di vino con 12° di gradazione contiene 120 ml di alcol, pari a 120×0.79=94.8 grammi. Quindi in termini di calorie: 95×7=**665 kcal**

Lo zucchero nel vino, ha un apporto calorico di 4 kcal per grammo. Per cui, un vino con 2.4 g di zucchero contiene 2.4x4=**9.6 kcal**

In totale un litro del vino in questione conterrà 665+9.6=**674.6 kcal** 

<a href="https://www.quattrocalici.it/articoli/quante-calorie-nel-bicchiere-di-vino/" target="_blank">fonte</a>

**Si utilizzano tre metodi diversi per aggiungere la nuova colonna e viene confrontata l'efficienza tramite il profiling del tempo.**

***
*Analisi performance versione "ufunc":*

In [None]:
%%timeit
kcal_alcohol = ((df_wines['alcohol'] * 10) * 0.79) * 7
kcal_sugar = df_wines['residual sugar'] * 4
df_wines['kcal'] = round(kcal_alcohol + kcal_sugar)

***
*Analisi performance versione "eval":*

In [None]:
%timeit df_wines.eval('kcal = (alcohol * 10 * 0.79 * 7) + (`residual sugar` * 4)', inplace=True)

***
*Analisi performance versione "for loop":*

In [None]:
%%timeit
newRow=[]
for rowNumer in df_wines.index:
    kcal_alcohol = df_wines['alcohol'][rowNumer] * 10 * 0.79 * 7
    kcal_sugar = df_wines['residual sugar'][rowNumer] * 4
    newRow.append(round(kcal_alcohol + kcal_sugar))
                  
df_wines['kcal'] = newRow                  

In [None]:
print('Verifica della colonna aggiunta:')
df_wines.head()

## 2 - Statistica Descrittiva e Analisi Esplorativa tramite Tecniche di Visualizzazione

### Attributi e proprietà del dataset:

* **Fixed Acidity**: Quantità di acido non volatile (non evapora facilmente) nel vino. La riduzione significativa di questa componente potrebbe portare a vini dal sapore piatto.

* **Volatile Acidity**: Indica la quantità di acido acetico nel vino. Un eccesso di questa compoenente porta a un sapore sgradevole.

* **Citric Acid**: Indica la quantità di acido citrico nel vino. Questa componente presente in piccole quantità conferisce freschezza al vino.

* **Residual Sugar**: Indica la quantità di zucchero rimasta nel vino al termine del processo di fermentazione.

* **Chlorides**: Indica la quantità di sale nel vino.

* **Free Sulfur Dioxide**: Indica la quantità di anidride solforosa in forma libera (che non si lega). Eccessive quantità potrebbero fornire un odore pungente.

* **Total Sulfur Dioxide**: misura la quantità totale di anidride solforosa nel vino. Questa sostanza chimica funziona come un agente antiossidante e antimicrobico.

* **Density**: Indica la misura della conversione dello zucchero in alcol. Vini più dolci hanno una densità maggiore.

* **PH**: Indica quanto è acido o basico un vino su una scala da 0 (molto acido) a 14 (molto basico). La maggior parte dei vini ha un pH compreso tra 2,9 e 3,9 e sono quindi acidi. La *Fixed Acidity* contribuisce alla variazione di PH dei vini.

* **Sulphates**: Indica la quantità di solfato di potassio nel vino. Sono collegati al processo di fermentazione e influenzano l'aroma e il sapore del vino.

* **Alcohol**: Conversione dello zucchero durante il processo di fermentazione. Indica la gradazione alcolica. Misurato in percentuale.

* **Quality**: Indica la qualità del vino, che va da 1 a 9. Più alto è il valore, migliore è il vino.

* **Wine Color**: Attributo introdotto che indica il colore del vino. Un vino può essere "rosso" o "bianco".

* **Quality Description**: Attributo derivato dall'attributo *Quality*. Raggruppato in tre segmenti qualitativi: low, medium e high. I vini con un punteggio di qualità di 3, 4 e 5 sono di bassa qualità, quelli con un punteggio di 6 e 7 sono di media qualità e quelli superiori a 7 sono di alta qualità.

* **kcal**: Attributo derivato dagli attributi *Alcohol* e *Residual Sugar*. Indica le kcal/l possedute dal vino.

### Analisi numerica dei vini in base colore

In [None]:
pd.set_option("display.max_columns", None)

rs = round(df_wines[df_wines['wine color'] == 'red'].describe(),2).T
ws = round(df_wines[df_wines['wine color'] == 'white'].describe(),2).T
pd.concat([rs, ws], axis=1, keys=['Red Wine Stats', 'White Wine Stats'])

***
*Si noti ad esempio come, nonostante i vini rossi abbiano il valore massimo di alcohol più alto rispetto ai vini bianci, in media questi ultimi sono leggermente più alcolici*

*Si può studiare il fenomeno tramite un grafico che mostri la **Kernel Density Estimation**, cercando di approssimare la funzione continua di probabilità ignorando eventuali picchi che potrebbero rappresentare valori anomali.*

In [None]:
fig, (ax1, ax2) = plt.subplots(1,2, figsize=(15, 6))

red_alcohol = df_wines[(df_wines['wine color'] == 'red')]['alcohol']
sns.kdeplot(red_alcohol, color='#FF9999', ax=ax1, shade = True)
ax1.set_title('KDE Alcohol Vini Rossi', fontsize=15)

white_alcohol = df_wines[(df_wines['wine color'] == 'white')]['alcohol']
sns.kdeplot(white_alcohol, color='#ffd633', ax=ax2, shade = True)
ax2.set_title('KDE Alcohol Vini Bianchi', fontsize=15)

plt.show()

fig, ax1 = plt.subplots(1,1, figsize=(15, 6))
sns.histplot(x='alcohol', data=df_wines, hue='wine color', palette={"red": "#FF9999", "white": "#ffd633"}, ax=ax1, alpha=0.4, kde=True)
ax2.set_title('Distribuzione qualità del vino in percentuale', fontsize=15)

plt.show()



*Si nota che le funzioni sono simili ma i vini bianchi hanno un picco, non presente nei vini rossi, tra i 12 e i 13 gradi di alcohol.*

### Analisi numerica dei vini in base alla qualità

In [None]:
pd.set_option("display.max_columns", None)

ls = round(df_wines[df_wines['quality description'] == 'low'].describe(),2).T
ms = round(df_wines[df_wines['quality description'] == 'medium'].describe(),2).T
hs = round(df_wines[df_wines['quality description'] == 'high'].describe(),2).T
pd.concat([ls, ms, hs], axis=1, keys=['Low Quality', 'Medium Quality', 'High Quality'])

### Distribuzione qualità dei vini

In [None]:
quality = df_wines['quality']
count_quality = quality.value_counts()
mean_quality = round(quality.mean(),2)

print('Conteggio dei valori univoci sulla qualità del vino:')
print(count_quality)
print()

print('Media dei valori della qualità del vino:', mean_quality)


fig, (ax1, ax2) = plt.subplots(1,2, figsize=(15, 6))

sns.histplot(quality, color='green', ax=ax1)
ax1.axvline(mean_quality, linestyle='dashed', label='media', color='blue')
ax1.legend(loc='upper right')
ax1.set_xlabel('quality (1 to 9)')
ax1.set_ylabel('count')
ax1.set_title('Distribuzione qualità del vino in percentuale', fontsize=15)

count_quality_desc = df_wines['quality description'].value_counts()
label_quality_desc = count_quality_desc.index.values
colors = sns.color_palette('pastel')
ax2.set_title('Distribuzione qualità del vino in percentuale', fontsize=14)
ax2.pie(count_quality_desc, autopct="%1.1f%%", colors=colors, labels = label_quality_desc)
#pie.legend(labels=label_quality_desc, loc="upper right", fontsize=10);

plt.show()

***

*Si noti che la maggior parte dei vini ha una qualità intorno al 6, per la precisione la media è di 5.82. La maggior parte dei vini quindi ha una qualità media, buona parte ha una qualità bassa e solo una minima parte ha una qualità elevata.*

### Distribuzione della qualità in base al colore dei vini

Si crea un dataframe raggruppato per colore del vino, con la colonna descrittiva della qualità e con le occorrenze normalizzate in percentuale rispetto al colore. 

In [None]:
df_percentage_wines = df_wines.groupby('wine color')['quality description'].value_counts(normalize=True).rename('percentage').mul(100).reset_index()
# rendo la colonna di tipo category per oridnare i valori testuali
df_percentage_wines['quality description'] = pd.Categorical(df_percentage_wines['quality description'], 
                                             categories=['low', 'medium', 'high'], ordered=True)

df_percentage_wines

In [None]:
palette_red_white={"red": "#FF9999", "white": "#ffd633"}

fig, ax = plt.subplots(1, 1, figsize=(16, 6))
ax.set_title('Distribuzione della qualità in base al colore (in percentuale)', fontsize=14)
countplot = sns.barplot(x="quality description", y="percentage", hue="wine color",  data=df_percentage_wines, palette=palette_red_white)
countplot.set_xlabel('quality (low > medium > high)')

plt.show()


# rendo la colonna quality description di tipo category per oridnare i valori testuali
df_wines['quality description'] = pd.Categorical(df_wines['quality description'], 
                                                 categories=['low', 'medium', 'high'], ordered=True)

***

*La differenza sulla qualità, in base al colore dei vini, risulta essere che i vini bianchi sono in netta maggioranza vini di media qualità, mentre in quelli di colore rosso la differenza in numero tra vini di qualità bassa e media è minima.*

### Verifica delle potenziali correlazioni tra i vari attributi del dataset

In [None]:
plt.figure(figsize = (15,8))
corr = df_wines.corr()
ax = sns.heatmap(corr, annot=True, cmap="coolwarm", fmt='1.2f', linewidths=1)
ax.set_title('Correlazione attributi', fontsize=14)

plt.show()

print('Riportiamo i valori della correlazione dei varti attributi con la qualità in forma testuale:')
corr['quality'].sort_values(ascending=False)

### Analisi  del rapporto tra le varie proprietà con la qualità

Analisi grafica

In [None]:
cols = 3
rows = 4
fig, ax = plt.subplots(ncols=cols, nrows=rows, figsize=(20,20))

subset_columns = df_wines.loc[:, df_wines.columns != 'quality'].select_dtypes(np.number).columns

counter=0
for i in range(rows):
    for j in range(cols):
        sns.lineplot(x='quality', y=subset_columns[counter], data=df_wines, markers=True, ax=ax[i][j], color='green')
        counter+=1
        if counter==len(subset_columns):
            break
            
plt.show()            

Analisi numerica

In [None]:
df_wines.groupby('quality').mean()

***

*Si ottiene una visuale su quali attributi influiscono positivamente/negativamente sulla qualità*

Come ad esempio:
* Alcohol (**positivamente**)
* Kcal (**positivamente**)
* Citric Acid (**positivamente**)
* Chlorides (**negativamente**)
* Volatile Acidity (**negativamente**)
* Density (**negativamente**)

**Verifica del rapporto *Kcal-Alcohol-Qualità* (tridimensionalmente)**

In [None]:
palette={"low": "#33cc33", "medium": "#ff9999", "high": "#660033"}

fig = sns.jointplot(x='alcohol', y='kcal', ratio=5, data=df_wines, hue="quality description", palette=palette)
fig.fig.set_figwidth(15)
fig.fig.set_figheight(8)
plt.show()

***
*Mettendo le tre proprietà in relazione si evince che in un vino di alta qualità c'è maggiore quantità di alcohol e maggiore è il contributo calorico, quindi Alcohol e Kcal influenzano positivamente la qualità del vino. Inoltre, l'apporto calorico è direttamente proporzionale alla gradazione alcolica.*

*Dall'analisi si nota che per un vino di buona qualità il livello ottimale di alcohol sarebbe compreso tra 11 e 14.*

**Verifica del rapporto *Acido Citrico - Qualità***

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Colore del vino - Qualità - Acido Citrico', fontsize=14)

sns.lineplot(x="quality", y="citric acid", markers=True, dashes=False, data=df_wines, style="wine color", 
             hue='wine color', ax=ax1, palette=palette_red_white)

sns.boxplot(x="quality description", y="citric acid", hue="wine color", data=df_wines, showfliers = False,
               palette=palette_red_white, ax=ax2)
ax2.set_xlabel("quality")

plt.show()

***

*Notiamo che in generale maggiore è la quantità di acidio citrico e maggiore sarà la qualità del vino. Ma a dire il vero nel vino bianco l'influenza è abbastanza piatta, l'evidenza viene fuori studiando il vino di colore rosso. Questo perchè l'acido citrico aiuta il processo di fermentazione e donerà al vino freschezza.*

*Quindi, in media, per un vino rosso di buona qualità il livello ottimale sarebbe compreso tra 0,30 e 0,42.*

**Verifica del rapporto *Acidità Volatile - Qualità***

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Colore del vino - Qualità - Acidità volatile', fontsize=14)

sns.lineplot(x="quality", y="volatile acidity", markers=True, dashes=False, data=df_wines, style="wine color", 
             hue='wine color', ax=ax1, palette=palette_red_white)

sns.violinplot(x="quality description", y="volatile acidity", hue="wine color", data=df_wines, split=True, 
               inner="quartile", linewidth=1, palette=palette_red_white, ax=ax2)
ax2.set_xlabel("quality")

plt.show()

***

*Si noti che in generale in maggiori quantità è presente l'acidità volatile e minore sarà la qualità del vino. Ma a dire il vero nel vino bianco l'influenza è abbastanza piatta, l'evidenza viene fuori studiando il vino di colore rosso. Questo perchè la principale componente dell'acido valotaile è l'acido acetico (associato all'odore e al gusto dell'aceto), in grandi quantità può fornire un gusto sgradevole al vino.*

*Prendendo in considerazione l'analisi si può dire che il livello ottimale, per un vino rosso di buona qualità, sarebbe compreso tra 0,4 e 0,6.*

**Verifica del rapporto *Cloruri - Qualità***

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Colore del vino - Qualità - Cloruri', fontsize=14)

sns.lineplot(x="quality", y="chlorides", markers=True, dashes=False, data=df_wines, style="wine color", 
             hue='wine color', ax=ax1, palette=palette_red_white)

sns.boxplot(x="quality description", y="chlorides", hue="wine color", data=df_wines, showfliers = False, 
            linewidth=1, palette=palette_red_white, ax=ax2)
ax2.set_xlabel("quality")

plt.show()

***

*Notiamo che in generale maggiore è la quantità di cloruri e minore sarà la qualità del vino sia nei vini rossi che nei bianchi. I vini bianchi contengono meno sali dei vini rossi.*

*Quindi un vino di buona qualità contiene meno sale.*

**Verifica del rapporto *Density-Alcohol-Quality* (in 4 dimensioni)**

In [None]:
plt.figure(figsize = (20,10))

ax = sns.scatterplot(x = "alcohol", y = "density", hue = "wine color", data = df_wines, alpha = 0.7, palette = palette_red_white, size=df_wines['quality description'], sizes=(20, 200))
#ax.set_xlim(left=0, right=30)
ax.set_ylim(bottom=0.98, top=1.01)
ax.set_title("Influenza Alcohol - Densità - Qualità", size = 20)

plt.show()

***

*Si è già appurato che la presenza di elevate quantità di alcohol influenza positivamente la qualità del vino. Analizzando l'influenza della densità sulla qualità si noti che maggiore è la densità e minore sarà la qualità del vino. Questo potrebbe essere dovuto all'aggiunta di altri ingredienti nel vino per migliorare la qualità e questi ingredienti supplementari potrebbero far diminuire la densità del liquido.*

*Inoltre, studiando il grafico anche in base al colore del vino, si può notre che vini rossi hanno maggiore densità dei vini bianchi.*

### Analisi sull'anidride solforosa
L'anidride solforosa agisce come antiossidante ma, in grandi quantità, può essere tossica per l'uomo. La normativa europea pone i limiti massimi per anidride solforosa di 160 mg/lt per i rossi e di 210 mg/lt per i bianchi, con deroghe che permettono allo Stato membro di elevare il valore massimo di 40 mg/lt in annate sfavorevoli.
Quindi 210 per i rossi e 260 per i bianchi. Di solito i vini Rossi hanno bisogno di meno anidride solforosa perchè sono già naturalmente protetti dalle ossidazioni dall'azione di componenti presenti nelle bucce delle uve a bacca rossa.

<a href="https://winenews.it/it/troppa-anidride-solforosa-rovina-gli-aromi-dei-vini_319809/" target="_blank">fonte</a>

In [None]:
fig, (ax1, ax2) = plt.subplots(ncols=2, nrows=1, figsize=(15,6))

print('Media anidride solforosa in base al colore del vino:')
print(df_wines.groupby('wine color')['total sulfur dioxide'].mean())

condition_over_limit = ((df_wines['total sulfur dioxide'] > 210) & (df_wines['wine color'] == 'red')) | ((df_wines['total sulfur dioxide'] > 260) & (df_wines['wine color'] == 'white'))
print()
sulfur_dioxide_over_limit = df_wines[condition_over_limit]
print('Numero di vini che non rispettano le leggi:', len(sulfur_dioxide_over_limit))

sns.boxplot(x='total sulfur dioxide', y='wine color', data=df_wines, palette=palette_red_white, ax=ax1)
ax1.set_title('Anidride solforosa rispetto al colore del vino', fontsize=15)

sns.histplot(x='total sulfur dioxide', data=sulfur_dioxide_over_limit, hue='wine color', ax=ax2, bins=10, palette=palette_red_white, element="step")
ax2.set_title('Distribuzione anidride solforosa sopra i limiti rispetto al colore del vino', fontsize=15)

plt.show()

***

*Si noti che i vini bianchi risultano contenere più anidride solforosa rispetto ai rossi e in media vengono rispettate le leggi Europee sui limiti, ma 12 casi su 6496 non rientrano nei limiti*

### Analisi del pH
La maggior parte dei vini ha un valore di pH compreso tra 3.0 e 4.0. I vini bianchi tendono ad avere valori di pH tra pH 3.0 e 3.3, mentre un pH più alto, valori compresi tra 3,3 e 3,5, sono più comuni per i rossi.
I vini rossi tendono ad avere un pH più alto, in parte, a causa del tempo di contatto più lungo con le bucce del mosto.

<a href="https://hanna.it/analisi-del-vino" target="_blank">fonte</a>

In [None]:
print('Media pH:', round(df_wines['pH'].mean(),2))
print('\nStatistiche vino rosso:')
print(df_wines.loc[df_wines['wine color'] == 'red', 'pH'].describe())
print('\nStatistiche vino bianco:')
print(df_wines.loc[df_wines['wine color'] == 'white', 'pH'].describe())

plt.figure(figsize = (15,6))
ax = sns.violinplot(x='pH', y='wine color', data=df_wines, palette=palette_red_white)
ax.set_title('PH rispetto al colore del vino', fontsize=15)

plt.show()

### Analisi Solfiti

I solfiti sono componenti chimiche aggiunte artificialmente come conservanti. I produttori di vino usano spesso i solfiti per ridurre al minimo l'ossidazione e aiutare nel processo di fermentazione.

Alcune ricerche mediche mostrano che una piccola percentuale della popolazione è sensibile ai solfiti e può manifestare effetti collaterali/allergici. Tuttavia, il vino di solito contiene un intervallo da 5 mg/L a 200 mg/L di solfiti e un vino rosso secco ben fatto ha in genere circa 50 mg/L di solfiti. Dall'analisi risulta chiaro che i vini di alta qualità mantengono un livello di 50 mg/L di solfiti.

<a href="https://www.webmd.com/diet/what-to-know-sulfites-in-wine#:~:text=Effects%20of%20Sulfites,-Most%20people%20can&text=It%20is%20unclear%20what%20percentage,of%20ingesting%20too%20many%20sulfites" target="_blank">fonte</a>

Alla luce di ciò, si confrontare l'influenza di questa compoenente con la qualità e relazionare anche con acido citrico e densità che sono correlate al processo di fermentazione.

In [None]:
sns.set_style('ticks')

plt.rcParams["axes.grid"] = False
fig = plt.figure(figsize=(20, 10))
ax = fig.add_subplot(1, 1, 1, projection='3d')

xs = df_wines['sulphates']
ys = df_wines['density']
zs = df_wines['citric acid']
col = df_wines['quality']
gf = ax.scatter(xs, ys, zs, s=150, alpha=0.7, edgecolors='w', linewidth=0.7, c=col, cmap='plasma')
fig.colorbar(gf, label='Quality')

ax.set_xlabel('sulphates')
ax.set_ylabel('density')
ax.set_zlabel('citric acid')

plt.show()

sns.set()

***

*Dal grafico non si notano particolari relazioni del solfiti con qualità - densità e acido citrico*

## 3 - Machine Learning

### Modelli supervisionati di classificazione per *colore* del vino

### Preparazione dei dataset

In [None]:
#Divido le features dalla label
#Deinifisco features e label per il dataset di vini bianchi e rossi
df_wines_color_classification = df_wines.copy().drop(columns=['quality','quality description'])
y_color = df_wines_color_classification.pop('wine color')
X_color = df_wines_color_classification

#### Normalizzazione dei dati

In [None]:
#Normalizzatoredei dati
color_scaler = MinMaxScaler(feature_range = (0,1))

In [None]:
#Effettuo la normalizzazione
X_color = color_scaler.fit_transform(X_color)

### Classificazione K-Neighbors

#### Inizializzazione del classificatore

In [None]:
#Preparo il classificatore
color_neighbors_classifier = neighbors.KNeighborsClassifier(n_neighbors = 1)

#### Validazione HoldOut

In [None]:
#Preparo i dataset per validazione con holdout
X_color_train,X_color_test,y_color_train,y_color_test=train_test_split(X_color,y_color,test_size=0.3,random_state=1)

In [None]:
#Addestro il modello
color_neighbors_classifier.fit(X_color_train,y_color_train)

In [None]:
#Effettuo la predizione sui dati di test
y_color_prediction = color_neighbors_classifier.predict(X_color_test)

In [None]:
#Visualizzo la predizione
y_color_prediction

In [None]:
#Calcolo l'accouracy
accuracy_score(y_color_test,y_color_prediction)

#### Validazione 5 Fold Cross

In [None]:
y_color_prediction_leave_5_fold = cross_val_score(color_neighbors_classifier,X_color,y_color,cv=5)

In [None]:
y_color_prediction_leave_5_fold.mean()

#### Validazione Leave One out

In [None]:
#Provo con tecnica Leave One Out
y_color_prediction_leave_one_out = cross_val_score(color_neighbors_classifier,X_color,y_color,cv=LeaveOneOut())

In [None]:
y_color_prediction_leave_one_out.mean()

#### Grid Search CV per cercare di migliorare il modello

In [None]:
#Cerco di calibrare il modello variando gli iper parametri con tecnica Grid Search CV
color_param_grid = {'n_neighbors' : np.arange(1,10), 'weights' : ['uniform','distance']}

In [None]:
#Prepare il Grid e lo eseguo su
color_grid = GridSearchCV(color_neighbors_classifier,color_param_grid,cv=5)

In [None]:
#Addestro il modello sulle varue combinazioni degli iperparametri (VA FATTO SU X e y oppure su X_test e y_test) ???
color_grid.fit(X_color_train,y_color_train);

In [None]:
# Cerco il risultato migliore: aggiungere un peso pari all'inverso della distanza fra i nodi 
# insieme ad un numero di neighbors differente da 1
# permette di ottenere un miglioramento sul modello
color_grid.best_params_

In [None]:
#Effettuo una verifica
y_color_prediction_by_grid = color_grid.best_estimator_.predict(X_color_test)

In [None]:
#Verifico l'accuratezza
accuracy_score(y_color_test,y_color_prediction_by_grid)

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
   ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        color_grid.best_estimator_,
        X_color_test,
        y_color_test,
        display_labels= ['red','white'],
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()

### Classificazione con SVC

#### Inizializzazione del classificatore

In [None]:
color_svc_classifier = SVC(kernel= 'linear')

#### Holdout Validazione

In [None]:
color_svc_classifier.fit(X_color_train,y_color_train)

In [None]:
y_color_prediction_svc = color_svc_classifier.predict(X_color_test)

In [None]:
accuracy_score(y_color_test,y_color_prediction_svc)

#### 5 fold cross validation

In [None]:
y_color_prediction_svc_5_fold = cross_val_score(color_svc_classifier,X_color,y_color,cv=5)

In [None]:
y_color_prediction_svc_5_fold.mean()

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
   ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        color_svc_classifier,
        X_color_test,
        y_color_test,
        display_labels= ['red','white'],
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()

### Modelli supervisionati di classificazione per la *qualità in 10 classi* del vino

### Preparazione dei dataset

In [None]:
#Divido le features dalla label
#Deinifisco features e label per il dataset di vini bianchi e rossi
df_wines_quality_classification = df_wines.copy().drop(columns=['wine color','quality description'])
y_quality = df_wines_quality_classification.pop('quality')
X_quality = df_wines_quality_classification

### Classificazione K-Neighbors

#### Normalizzazione dei dati

In [None]:
#Normalizzatoredei dati
quality_scaler = MinMaxScaler(feature_range = (0,1))

In [None]:
#Effettuo la normalizzazione
X_quality = quality_scaler.fit_transform(X_quality)

#### Inizializzazione del classificatore

In [None]:
#Preparo il classificatore
quality_classifier = neighbors.KNeighborsClassifier(n_neighbors = 1)

#### Validazione HoldOut

In [None]:
#Preparo i dataset per validazione con holdout
X_quality_train,X_quality_test,y_quality_train,y_quality_test = \
train_test_split(X_quality,y_quality,test_size=0.3)

In [None]:
#Addestro il modello
quality_classifier.fit(X_quality_train,y_quality_train)

In [None]:
#Effettuo la predizione sui dati di test
y_quality_prediction = quality_classifier.predict(X_quality_test)

In [None]:
#Visualizzo la predizione
y_quality_prediction

In [None]:
#Calcolo l'accouracy
accuracy_score(y_quality_test,y_quality_prediction)

#### Validazione 5 Fold Cross

In [None]:
y_quality_prediction_leave_5_fold = cross_val_score(quality_classifier,X_quality,y_quality,cv=5)

In [None]:
y_quality_prediction_leave_5_fold.mean()

#### Validazione Leave One out

In [None]:
#Provo con tecnica Leave One Out
y_quality_prediction_leave_one_out = cross_val_score(quality_classifier,X_quality,y_quality,cv=LeaveOneOut())

In [None]:
y_quality_prediction_leave_one_out.mean()

#### Grid Search CV per cercare di migliorare il modello

In [None]:
#Cerco di calibrare il modello variando gli iper parametri con tecnica Grid Search CV
quality_param_grid = {'n_neighbors' : np.arange(1,10), 'weights' : ['uniform','distance']}

In [None]:
#Prepare il Grid e lo eseguo su
quality_grid = GridSearchCV(quality_classifier,quality_param_grid,cv=5)

In [None]:
#Addestro il modello sulle varue combinazioni degli iperparametri
quality_grid.fit(X_quality_train,y_quality_train);

In [None]:
#Iperparametri migliori
quality_grid.best_params_

In [None]:
#Effettuo una verifica
y_quality_prediction_by_grid = quality_grid.best_estimator_.predict(X_quality_test)

In [None]:
#Verifico l'accuratezza
accuracy_score(y_quality_test,y_quality_prediction_by_grid)

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
    ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        quality_grid.best_estimator_,
        X_quality_test,
        y_quality_test,
        display_labels= np.arange(3,10),
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()

### Classificazoine con SVC

#### Inizializzazione del classificatore

In [None]:
quality_svc_classifier = SVC(kernel= 'linear')

#### Holdout Validazione

In [None]:
quality_svc_classifier.fit(X_quality_train,y_quality_train)

In [None]:
y_quality_prediction_svc = quality_svc_classifier.predict(X_quality_test)

In [None]:
accuracy_score(y_quality_test,y_quality_prediction_svc)

#### 5 fold cross validation

In [None]:
y_quality_prediction_svc_5_fold = cross_val_score(quality_svc_classifier,X_quality,y_quality,cv=5)

In [None]:
y_quality_prediction_svc_5_fold.mean()

#### Grid search CV

In [None]:
#Cerco di calibrare il modello variando gli iper parametri con tecnica Grid Search CV
param_grid = {'kernel' : ['linear', 'rbf'], 'C' : [1,30,33]}

In [None]:
#Prepare il Grid e lo eseguo su
grid = GridSearchCV(quality_svc_classifier,param_grid,cv=5)

In [None]:
#Addestro il modello sulle varue combinazioni degli iperparametri
grid.fit(X_quality_train,y_quality_train);

In [None]:
#Iperparametri migliori
grid.best_params_

In [None]:
#Effettuo una verifica
y_quality_prediction_by_grid = grid.best_estimator_.predict(X_quality_test)

In [None]:
#Verifico l'accuratezza
accuracy_score(y_quality_test,y_quality_prediction_by_grid)

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
    ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        grid.best_estimator_,
        X_quality_test,
        y_quality_test,
        display_labels= np.arange(3,10),
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()

### Modelli supervisionati di classificazione per *qualità in tre step* del vino

### Preparazione dei dataset

In [None]:
#Divido le features dalla label
#Deinifisco features e label per il dataset di vini bianchi e rossi
df_wines_quality_step_classification = df_wines.copy().drop(columns=['wine color','quality'])
y_step_quality = df_wines_quality_step_classification.pop('quality description')
X_step_quality = df_wines_quality_step_classification

### Classificazione K-Neighbors

#### Normalizzazione dei dati

In [None]:
#Normalizzatoredei dati
step_quality_scaler = MinMaxScaler(feature_range = (0,1))

In [None]:
#Effettuo la normalizzazione
X_step_quality = step_quality_scaler.fit_transform(X_step_quality)

#### Inizializzazione del classificatore

In [None]:
#Preparo il classificatore
step_quality_neighbors_classifier = neighbors.KNeighborsClassifier(n_neighbors = 1)

#### Validazione HoldOut

In [None]:
#Preparo i dataset per validazione con holdout
X_step_quality_train,X_step_quality_test,y_step_quality_train,y_step_quality_test = \
train_test_split(X_step_quality,y_step_quality,test_size=0.3)

In [None]:
#Addestro il modello
step_quality_neighbors_classifier.fit(X_step_quality_train,y_step_quality_train)

In [None]:
#Effettuo la predizione sui dati di test
y_step_quality_prediction = step_quality_neighbors_classifier.predict(X_step_quality_test)

In [None]:
#Visualizzo la predizione
y_step_quality_prediction

In [None]:
#Calcolo l'accouracy
accuracy_score(y_step_quality_test,y_step_quality_prediction)

#### Validazione 5 Fold Cross

In [None]:
y_step_quality_prediction_leave_5_fold = \
cross_val_score(step_quality_neighbors_classifier,X_step_quality,y_step_quality,cv=5)

In [None]:
y_step_quality_prediction_leave_5_fold.mean()

#### Validazione Leave One out

In [None]:
#Provo con tecnica Leave One Out
y_step_quality_prediction_leave_one_out = \
cross_val_score(step_quality_neighbors_classifier,X_step_quality,y_step_quality,cv=LeaveOneOut())

In [None]:
y_step_quality_prediction_leave_one_out.mean()

#### Grid Search CV per cercare di migliorare il modello

In [None]:
#Cerco di calibrare il modello variando gli iper parametri con tecnica Grid Search CV
step_quality_param_grid = {'n_neighbors' : np.arange(1,10), 'weights' : ['uniform','distance']}

In [None]:
#Prepare il Grid e lo eseguo su
step_quality_grid = GridSearchCV(step_quality_neighbors_classifier,step_quality_param_grid,cv=5)

In [None]:
#Addestro il modello sulle varue combinazioni degli iperparametri
step_quality_grid.fit(X_step_quality_train,y_step_quality_train);

In [None]:
#Iperparametri migliori
step_quality_grid.best_params_

In [None]:
#Effettuo una verifica
y_step_quality_prediction_by_grid = step_quality_grid.best_estimator_.predict(X_step_quality_test)

In [None]:
#Verifico l'accuratezza
accuracy_score(y_step_quality_test,y_step_quality_prediction_by_grid)

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
    ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        step_quality_grid.best_estimator_,
        X_step_quality_test,
        y_step_quality_test,
        display_labels= ['LOW',"MEDIUM",'HIGH'],
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()

### Classificazoine con SVC

#### Inizializzazione del classificatore

In [None]:
step_quality_svc_classifier = SVC(kernel= 'linear')

#### Holdout Validazione

In [None]:
step_quality_svc_classifier.fit(X_step_quality_train,y_step_quality_train)

In [None]:
y_step_quality_prediction_svc = step_quality_svc_classifier.predict(X_step_quality_test)

In [None]:
accuracy_score(y_step_quality_test,y_step_quality_prediction_svc)

#### 5 fold cross validation

In [None]:
y_step_quality_prediction_svc_5_fold = \
cross_val_score(step_quality_svc_classifier,X_step_quality,y_step_quality,cv=5)

In [None]:
y_step_quality_prediction_leave_5_fold.mean()

#### Grid search CV

In [None]:
#Cerco di calibrare il modello variando gli iper parametri con tecnica Grid Search CV
param_grid = {'kernel' : ['linear', 'poly', 'rbf', 'sigmoid'], 'C' : [1,30,33]}

In [None]:
#Prepare il Grid e lo eseguo su
grid = GridSearchCV(step_quality_svc_classifier,param_grid,cv=5)

In [None]:
#Addestro il modello sulle varue combinazioni degli iperparametri
grid.fit(X_step_quality_train,y_step_quality_train);

In [None]:
#Iperparametri migliori
grid.best_params_

In [None]:
#Effettuo una verifica
y_step_quality_prediction_by_grid = grid.best_estimator_.predict(X_step_quality_test)

In [None]:
#Verifico l'accuratezza
accuracy_score(y_step_quality_test,y_step_quality_prediction_by_grid)

In [None]:
np.set_printoptions()

# Plot non-normalized confusion matrix
titles_options = [
    ("Confusion matrix, without normalization", None),
    ##("Normalized confusion matrix", "true"),
]
for title, normalize in titles_options:
    disp = ConfusionMatrixDisplay.from_estimator(
        grid.best_estimator_,
        X_step_quality_test,
        y_step_quality_test,
        display_labels= ['LOW',"MEDIUM",'HIGH'],
        cmap=plt.cm.Blues,
        normalize=normalize,
    )
    disp.ax_.set_title(title)
    plt.grid(False)
plt.show()