# Classificazione della qualità del vino
Per la classificazione delle diverse tipologie di vino abbiamo effettuato un confronto tra i diversi modelli di _apprendimento supervisionato_ con l'obbiettivo di trovare il classificatore migliore in grado di determinare il valore più attendibile per il confronto della qualità

Importiamo i moduli e le librerie utili alla realizzazione del sistema

In [1]:
import numpy as np
import pandas as pd
import pylab 
import seaborn as sns

from matplotlib import pyplot as plt

from sklearn.base import BaseEstimator, TransformerMixin, clone, ClassifierMixin
from sklearn import metrics, tree, linear_model
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, StandardScaler, PolynomialFeatures, MinMaxScaler

from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.model_selection import GridSearchCV, cross_val_score, KFold, cross_val_predict, train_test_split, StratifiedKFold
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, classification_report, precision_score, recall_score, f1_score, accuracy_score, roc_auc_score, matthews_corrcoef
from imblearn.over_sampling import SMOTE, ADASYN
from imblearn.pipeline import Pipeline as imbpipeline
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay 
from imblearn.metrics import geometric_mean_score


from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC, LinearSVC

## Load del dataset
Carichiamo il dataset in locale e lo visualizziamo

In [2]:
df = pd.read_csv("Dataset/wine_quality.csv")

df.head()

FileNotFoundError: [Errno 2] File Dataset/wine_quality.csv does not exist: 'Dataset/wine_quality.csv'

# Pulizia dei dati
## Controllo e pulizia dei valori nulli
Controlliamo la possibile presenza di valori nulli ed eventualmente eliminarli

In [None]:
print(df.isnull().sum())

In [None]:
# elimina le righe che contengono valori nulli
df.dropna(axis='index', how='any', inplace=True)

# heatmap per valori nulli
sns.heatmap(df.isnull())

In [None]:
print('Dimensione del dataset processato: ', df.shape)

### Rimozione delle tuple duplicate

In [None]:
df = df.drop_duplicates()
df.reset_index()
df.shape

## Normalizzazione delle feature numeriche e categoriche
Selezioniamo le features di interesse normalizziamo il dataset utilizzando la Normalizzazione Min-Max 

In [None]:
features = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']

for i in df[features]:
    df[i] = (df[i] - df[i].min()) / (df[i].max() - df[i].min())

df.head()

Trasformiamo la classe 'type' in una feature numerica utilizzando il label encoding

In [None]:
ord_enc = OrdinalEncoder()
df["color"] = ord_enc.fit_transform(df[["type"]]) # assume 1 se bianco 0 se rosso

Tracciamo una Heatmap per rappresentare la correlazione tra le features prese in considerazione

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(df[features].corr(), cbar=True, square=True, fmt = '.1f', annot = True, annot_kws={'size':8})

### Quality Label
Creiamo la quality label basata sulla già esistente colonna 'quality'

- bad per un punteggio minore o uguale di 5
- good per più di 5

In [None]:
df['quality_label'] = df.quality.apply(lambda q: 'bad' if q <= 5 else 'good')

## Distribuzione della classe quality

Osserviamo la correlazione tra la qualità del vino e la percentuale alcolica

In [None]:
fig = plt.figure(figsize = (10,6))
sns.barplot(x = 'quality', y = 'alcohol', data = df)

In [None]:
df.head(40)

Utilizziamo la classe LabelEncoder per poter convertire la colonna  'quality_label' in feature numerica

In [None]:
ord_enc = OrdinalEncoder()
df["quality_label"] = ord_enc.fit_transform(df[["quality_label"]]) # assume 1 se bianco 0 se rosso
df.head()

# Costruzione dei modelli & Addestramento
## Preparazione del dataset
Prenderemo come target la colonna 'color' per una maggiore accuratezza. Avendo già convertito questo attributo categorico utilizzando la classe LabelEncoder, possiamo procedere alla costruzione dei vari modelli di classificazione ed addestramento.

In [None]:
print(df['color'].value_counts())

## Divisione del dataset

Dividiamo ora il dataset in train e test considerando soltanto le feature che hanno più importanza, come ad esempio il pH, lo zucchero residuo e la densità. Così facendo viene ridotta la complessità dei vari modelli.

In [None]:
X = df.drop(['type','quality_label','quality','pH','residual sugar','density'], axis = 1)
y = df['quality_label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2,random_state = 11)

## Modello Lineare
Come primo modello utilizziamo la regressione lineare, che è un modello lineare per la classificazione piuttosto che la regressione

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X_train, y_train)

y_pred = regr.predict(X_test)

#Calcolo il coefficiente angolare
print(regr.coef_)

In [None]:
#Questo è il valore di R^2
regr.score(X_train, y_train)

In [None]:
df.plot.scatter(x = 'quality', y = 'alcohol')


In [None]:
# Valutiamo le prestazioni del modello e visualizziamo i risultati
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error:", mse)
print("R-squared Score:", r2)

## Naive Bayes
Tramite questo classificatore possiamo calcolare la probabilità che un determinato evento avvenga all'interno del dataset. La costruzione del classificatore avviene nel seguente modo: si crea un oggetto della classe GaussianNB e successivamente viene chiamato il metodo fit, specificando come argomenti le osservazioni e le corrispondenti etichette. Infine invochiamo il metodo predict passando come argomento una lista di oggetti da classificare.

Creiamo un pipeline dove vengono svolte in maniere consequenziale le seguenti azioni:

- SMOTE un'operazione di l'oversampling sul set di training
- Scaler un'operazione di normalizzazione
- Classifier è il modello che verrà utilizzito per l'apprendimento, in questo caso Naive Bayes

In [None]:
pipeline = imbpipeline(steps = [['smote', SMOTE(random_state=5)],
                                ['scaler', MinMaxScaler()],
                                ['classifier', GaussianNB()]]) 

In [None]:
stratified_kfold = StratifiedKFold(n_splits=3,
                                       shuffle=True,
                                       random_state=5)

In [None]:
# in param_grid sono definiti gli iperparametri
param_grid = {}

grid_search = GridSearchCV(estimator=pipeline,
                           param_grid=param_grid,
                           scoring='accuracy',
                           cv=stratified_kfold,
                           verbose = 1,
                           n_jobs=-1) # utilizzerà tutti i processori disponibili
# troviamo il modello migliore
grid_search.fit(X_train, y_train.values.ravel())

cv_score = grid_search.best_score_

# effetuamo la predizione sul set di test
y_test_predict = grid_search.predict(X_test)

In [None]:
# calcoliamo le metriche di valutazione
accuracy = accuracy_score(y_test, y_test_predict)
precision = precision_score(y_test, y_test_predict, average='macro')
recall = recall_score(y_test, y_test_predict, average='macro')
f1 = f1_score(y_test, y_test_predict, average='macro')
mcc = matthews_corrcoef(y_test, y_test_predict)
gm = geometric_mean_score(y_test, y_test_predict, average='macro')
ConfusionMatrixDisplay.from_predictions(y_test, 
                                        y_test_predict, 
                                        cmap=plt.cm.Blues)

print(f'accuracy: {accuracy}')
print(f'precision: {precision}')
print(f'recall: {recall}')
print(f'f1: {f1}')
print(f'matthews_corrcoef: {mcc}')
print(f'geometric_mean_score: {gm}')

plt.plot()

In [None]:
scoring_list = []
scoring_list.append(dict([
    ('Model', 'Naive Bayes'),
    ('Train Accuracy', round(cv_score, 3)),
    ('Test Accuracy', round(accuracy, 3)),
    ('Precision', round(precision, 3)),
    ('Recall', round(recall, 3)),
    ('F1', round(f1, 3)),
    ('Matthews Corrcoef', round(mcc,3)),
    ('Geometric Mean Score', round(gm, 3))
     ]))

## Random Forest
Useremo il Random Forest della libreria scikit-learn, che calcola la media della previsione probabilistica di tutti gli alberi nella foresta per la previsione finale invece di prendere i voti di previsione effettivi e quindi calcolarne la media

In [None]:
pipeline = imbpipeline(steps = [['smote', SMOTE(random_state=11)],
                                ['scaler', MinMaxScaler()],
                                ['classifier', RandomForestClassifier(max_depth=12, random_state=11)]])

In [None]:
stratified_kfold = StratifiedKFold(n_splits=3,
                                       shuffle=True,
                                       random_state=11)

### Parameter Tuning

In [None]:
# in param_grid sono definiti gli iperparametri
param_grid = {
                'n_estimators': [50,100, 200],
                'max_depth': [6,10, 12]
                }

new_params = {'classifier__' + key: param_grid[key] for key in param_grid}

grid_search = GridSearchCV(estimator=pipeline,
                           param_grid=new_params,
                           scoring='accuracy',
                           cv=stratified_kfold,
                           verbose = 5,
                           n_jobs=-1) # utilizzerà tutti i processori disponibili

### Ricerca dei parametri migliori

In [None]:
# troviamo il modello migliore
grid_search.fit(X_train, y_train.values.ravel())

cv_score = grid_search.best_score_
best_params = grid_search.best_params_

print(f'Best parameters: {best_params}')
print(f'Cross-validation score: {cv_score}')

# effetuamo la predizione sul set di test
y_test_predict = grid_search.predict(X_test)

In [None]:
# calcoliamo le metriche di valutazione
accuracy = accuracy_score(y_test, y_test_predict)
precision = precision_score(y_test, y_test_predict, average='macro')
recall = recall_score(y_test, y_test_predict, average='macro')
f1 = f1_score(y_test, y_test_predict, average='macro')
mcc = matthews_corrcoef(y_test, y_test_predict)
gm = geometric_mean_score(y_test, y_test_predict, average='macro')
ConfusionMatrixDisplay.from_predictions(y_test, 
                                        y_test_predict, 
                                        cmap=plt.cm.Blues)

print(f'accuracy: {accuracy}')
print(f'precision: {precision}')
print(f'recall: {recall}')
print(f'f1: {f1}')
print(f'matthews_corrcoef: {mcc}')
print(f'geometric_mean_score: {gm}')

plt.plot()

In [None]:
scoring_list.append(dict([
    ('Model', 'RandomForest'),
    ('Train Accuracy', round(cv_score, 3)),
    ('Test Accuracy', round(accuracy, 3)),
    ('Precision', round(precision, 3)),
    ('Recall', round(recall, 3)),
    ('F1', round(f1, 3)),
    ('Matthews Corrcoef', round(mcc,3)),
    ('Geometric Mean Score', round(gm, 3))
     ]))

## KNN

In [None]:
pipeline = imbpipeline(steps = [['smote', SMOTE(random_state=11)],
                                ['scaler', MinMaxScaler()],
                                ['classifier',KNeighborsClassifier()]]) 

In [None]:
stratified_kfold = StratifiedKFold(n_splits=3,
                                       shuffle=True,
                                       random_state=11)

### Ricerca dei parametri migliori

In [None]:
# in param_grid sono definiti gli iperparametri
param_grid = {
         'n_neighbors': [10, 11, 12, 13] ,
         'weights': ['distance'],
         'algorithm' : ['ball_tree'], #, 'brute', 'auto',  'kd_tree', 'ball_tree']
         'leaf_size': [12, 11, 13],
         'p': [1]
}


new_params = {'classifier__' + key: param_grid[key] for key in param_grid}

grid_search = GridSearchCV(estimator=pipeline,
                           param_grid=new_params,
                           scoring='accuracy',
                           cv=stratified_kfold,
                           verbose = 5,
                           n_jobs=-1) # utilizzerà tutti i processori disponibili

In [None]:
# troviamo il modello migliore
grid_search.fit(X_train, y_train.values.ravel())

cv_score = grid_search.best_score_
best_params = grid_search.best_params_

print(f'Best parameters: {best_params}')
print(f'Cross-validation score: {cv_score}')

# effetuamo la predizione sul set di test
y_test_predict = grid_search.predict(X_test)

In [None]:
# calcoliamo le metriche di valutazione
accuracy = accuracy_score(y_test, y_test_predict)
precision = precision_score(y_test, y_test_predict, average='macro')
recall = recall_score(y_test, y_test_predict, average='macro')
f1 = f1_score(y_test, y_test_predict, average='macro')
mcc = matthews_corrcoef(y_test, y_test_predict)
gm = geometric_mean_score(y_test, y_test_predict, average='macro')
ConfusionMatrixDisplay.from_predictions(y_test, 
                                        y_test_predict, 
                                        cmap=plt.cm.Blues)

print(f'accuracy: {accuracy}')
print(f'precision: {precision}')
print(f'recall: {recall}')
print(f'f1: {f1}')
print(f'matthews_corrcoef: {mcc}')
print(f'geometric_mean_score: {gm}')

plt.plot()

In [None]:
scoring_list.append(dict([
    ('Model', 'KNN'),
    ('Train Accuracy', round(cv_score, 3)),
    ('Test Accuracy', round(accuracy, 3)),
    ('Precision', round(precision, 3)),
    ('Recall', round(recall, 3)),
    ('F1', round(f1, 3)),
    ('Matthews Corrcoef', round(mcc,3)),
    ('Geometric Mean Score', round(gm, 3))
     ]))

## Support Vector Machine

In [None]:
pipeline = imbpipeline(steps = [['smote', SMOTE(random_state=11)],
                                ['scaler', MinMaxScaler()],
                                ['classifier',SVC(kernel=None,
                                                  gamma=None, 
                                                  C=None)]])
stratified_kfold = StratifiedKFold(n_splits=3,
                                       shuffle=True,
                                       random_state=11)

### Ricerca dei parametri migliori

In [None]:
# in param_grid sono definiti gli iperparametri
param_grid = {'C': [0.08, 0.1, 1, 10, 100], 
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
              'kernel': ['rbf'] # linear
              }

new_params = {'classifier__' + key: param_grid[key] for key in param_grid}

grid_search = GridSearchCV(estimator=pipeline,
                           param_grid=new_params,
                           scoring='accuracy',
                           cv=stratified_kfold,
                           verbose = 5,
                           n_jobs=-1) # utilizzerà tutti i processori disponibili

In [None]:
# troviamo il modello migliore
grid_search.fit(X_train, y_train.values.ravel())

cv_score = grid_search.best_score_
best_params = grid_search.best_params_

print(f'Best parameters: {best_params}')
print(f'Cross-validation score: {cv_score}')

# effetuamo la predizione sul set di test
y_test_predict = grid_search.predict(X_test)

In [None]:
# calcoliamo le metriche di valutazione
accuracy = accuracy_score(y_test, y_test_predict)
precision = precision_score(y_test, y_test_predict, average='macro')
recall = recall_score(y_test, y_test_predict, average='macro')
f1 = f1_score(y_test, y_test_predict, average='macro')
mcc = matthews_corrcoef(y_test, y_test_predict)
gm = geometric_mean_score(y_test, y_test_predict, average='macro')
ConfusionMatrixDisplay.from_predictions(y_test, 
                                        y_test_predict, 
                                        cmap=plt.cm.Blues)

print(f'accuracy: {accuracy}')
print(f'precision: {precision}')
print(f'recall: {recall}')
print(f'f1: {f1}')
print(f'matthews_corrcoef: {mcc}')
print(f'geometric_mean_score: {gm}')

plt.plot()

In [None]:
scoring_list.append(dict([
    ('Model', 'SVM'),
    ('Train Accuracy', round(cv_score, 3)),
    ('Test Accuracy', round(accuracy, 3)),
    ('Precision', round(precision, 3)),
    ('Recall', round(recall, 3)),
    ('F1', round(f1, 3)),
    ('Matthews Corrcoef', round(mcc,3)),
    ('Geometric Mean Score', round(gm, 3))
     ]))

# Confronto dei vari modelli

In [None]:
results = pd.DataFrame(data=scoring_list)
results = results[['Model',
                   'Train Accuracy',
                   'Test Accuracy',
                   'Precision',
                   'Recall',
                   'F1',
                   'Matthews Corrcoef',
                   'Geometric Mean Score']]

results = results.sort_values(by='Recall', ascending=False)

print(results)

In [None]:
with sns.axes_style("darkgrid"):
    sns.barplot(data = results,
                x=results['Model'],
                y=results['Test Accuracy'],
                palette = 'inferno').set(title = "Confronto Classificatori - Test Accuracy")

In [None]:
with sns.axes_style("darkgrid"):
    sns.barplot(data = results,
                x=results['Model'],
                y=results['Precision'],
                palette = 'inferno').set(title = "Confronto Classificatori - Precision")

In [None]:
with sns.axes_style("darkgrid"):
    sns.barplot(data = results,
                x=results['Model'],
                y=results['Recall'],
                palette = 'inferno').set(title = "Confronto Classificatori - Recall")

Come possiamo vedere dai grafici precedenti, il modello migliore è risultato il Random Forest con indice di profondità pari a 12. Nel complesso quasai tutti i modelli si sono comportati circa in egual modo, a differenza del Naive Bayes che ha restiuito un Accuracy del 70% circa