In [1]:
# Classificazione di vini tramite il dataset disponibile alla url:
# https://archive.ics.uci.edu/ml/machine-learning-databases/wine/
#
# il dataset è costituito da 13 colonne e 178 istanze
#
# Colonne:
# Class: indica la classe del vino, in particolare nel dataset ne abbiamo 3 (classe 1, classe 2 e classe 3). Rappresenta anche l’output che si vuole 
# ottenere, cioè stabilire a quale di queste classi i nuovi vini appartengono;
# Alcohol: indica il grado alcolico del vino (% in volume);
# Malic acid: ossia acido malico, uno dei principali acidi organici presenti nelle uve da vino (g / l);
# Ash: sono le ceneri, che rappresentano il contenuto delle sostanze minerali presenti in un vino. È un indicatore importante per determinare la qualità del 
# vino (misurato in millisiemens per centimetro, mS/cm);
# Alcalinity of ash: ossia l’alcalinità delle ceneri, un parametro che esprime approssimativamente la quantità di acidi organici presenti nel vino sottoforma 
# di sali (pH).
# Magnesium: indica la quantità di magnesio presente nel vino (g su kg).
# Total phenols: indica il numero di fenoli inclusi nel vino, che sono sostanze naturali che danno il colore al vino stesso oltre che a sensazioni gustative 
# (mg/L).
# Flavanoids: I flavonoidi sono i polifenoli più abbondanti nel vino. (mg/L);
# Nonflavanoid phenols: I composti fenolici conferiscono caratteristiche specifiche al vino e creano anche aromi e sapori specifici quando le interazioni 
# complesse si svolgono durante la fermentazione e la vinificazione (mg / L);
# Proanthocyanins: indicano le proantocianidine, un tipo di fenolo antiossidante del vinorosso (mg/L).
# Color intensity: ossia una semplice misura di quanto sia scuro il vino;
# Hue: è una delle principali proprietà del colore;
# parametro OD280/OD315 dei vini diluiti;
# Proline: ossia la prolina, un amminoacido (Mg / L).

# importazione librerie necessarie

import pandas as pd
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import DistanceMetric
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, ConfusionMatrixDisplay

In [2]:
# importazione del dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
colonne = ['classe', 'alcohol', 'malic', 'ceneri', 'alcalinità ceneri', 'magnesio', 'fenoli', 'flavonoidi', 'fenoli non flavoloidi', 'proanthocyanins', 
           'intensità colore', 'hue', 'param', 'proline']
dataset = pd.read_csv(url, names=colonne)

print(sklearn.neighbors.VALID_METRICS['brute'])

dataset.head()

['cityblock', 'cosine', 'euclidean', 'haversine', 'l2', 'l1', 'manhattan', 'precomputed', 'nan_euclidean', 'braycurtis', 'canberra', 'chebyshev', 'correlation', 'cosine', 'dice', 'hamming', 'jaccard', 'kulsinski', 'mahalanobis', 'matching', 'minkowski', 'rogerstanimoto', 'russellrao', 'seuclidean', 'sokalmichener', 'sokalsneath', 'sqeuclidean', 'yule', 'wminkowski']


Unnamed: 0,classe,alcohol,malic,ceneri,alcalinità ceneri,magnesio,fenoli,flavonoidi,fenoli non flavoloidi,proanthocyanins,intensità colore,hue,param,proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [3]:
# esempi e etichette
x = dataset.iloc[:, 1:14].values
y = dataset.iloc[:, 0].values


print(x)
print(len(y))

[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]
178


In [4]:
# divisione in dataset di addestramento e di test
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

In [5]:
# normalizzazione dei dati
scaler = StandardScaler()
scaler.fit(x_train)

x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)


In [6]:
# addestramento
classifier = KNeighborsClassifier(n_neighbors=1)
classifier.fit(x_train, y_train)

KNeighborsClassifier(n_neighbors=1)

In [7]:
# previsione
y_pred = classifier.predict(x_test)

In [8]:
# valutazione del modello
# tramite matrice di confusione
print(confusion_matrix(y_pred, y_test))

# è una matrice con sulle righe e sulle colonne
# le classi da identificare
# nelle righe sono riportate le classi reali mentre
# sulle colonne le classi predette
# se solo la diagonale principale
# della matrice è avvalorata, il modello ha predetto
# correttamente la classe di ogni esempio

[[20  2  0]
 [ 0 18  0]
 [ 0  0 14]]


In [9]:
# valutazione del modello
# report di classificazione di SciKitLearn
print(classification_report(y_test, y_pred))

# I risultati mostrano che l’algoritmo KNN è stato in grado di 
# classificare tutti i record nel dataset di test con una 
# precisione del molto alta, specialmente sulla seconda classe di vini

# Precision: è il rapporto tra le osservazioni positive previste correttamente
# e le osservazioni positive totali.
# "Di tutte le previsioni positive, quante veramente lo sono?"

# Recall: è il rapporto tra le osservazioni positive previste correttamente
# e tutte le osservazioni nella classe effettiva
# "Tra tutte le osservazioni positive, quante sono state predette correttamente?"

# F1-score: è la media ponderata di Precision e Recall.
# Tiene conto sia dei falsi positivi che dei falsi negativi.
# Intuitivamente non è facile da capire quanto l'accuratezza, ma F1 di solito è
# più utile dell'accuratezza, soprattutto se si dispone di una distribuzione
# delle classi non uniforme. La precisione funziona meglio se falsi positivi
# e falsi negativi hanno un costo simile.
# Se il costo dei falsi positivi e dei falsi negativi è molto diverso, è meglio
# considerare sia Precision che Recall singolarmente.

              precision    recall  f1-score   support

           1       0.91      1.00      0.95        20
           2       1.00      0.90      0.95        20
           3       1.00      1.00      1.00        14

    accuracy                           0.96        54
   macro avg       0.97      0.97      0.97        54
weighted avg       0.97      0.96      0.96        54



In [11]:
sorted(sklearn.neighbors.VALID_METRICS['brute'])

['braycurtis',
 'canberra',
 'chebyshev',
 'cityblock',
 'correlation',
 'cosine',
 'cosine',
 'dice',
 'euclidean',
 'hamming',
 'haversine',
 'jaccard',
 'kulsinski',
 'l1',
 'l2',
 'mahalanobis',
 'manhattan',
 'matching',
 'minkowski',
 'nan_euclidean',
 'precomputed',
 'rogerstanimoto',
 'russellrao',
 'seuclidean',
 'sokalmichener',
 'sokalsneath',
 'sqeuclidean',
 'wminkowski',
 'yule']

In [17]:
for i in [1, 3, 5, 7]:
    print("Classifier with k={0}".format(i))
    classifier = KNeighborsClassifier(n_neighbors=i, metric='euclidean')
    classifier.fit(x_train, y_train)
    # previsione
    y_pred = classifier.predict(x_test)
    print(confusion_matrix(y_test, y_pred))
    print(accuracy_score(y_test, y_pred))
    print("\n")

Classifier with k=1
[[20  0  0]
 [ 2 18  0]
 [ 0  0 14]]
0.9629629629629629


Classifier with k=3
[[20  0  0]
 [ 2 17  1]
 [ 0  0 14]]
0.9444444444444444


Classifier with k=5
[[20  0  0]
 [ 2 18  0]
 [ 0  0 14]]
0.9629629629629629


Classifier with k=7
[[20  0  0]
 [ 2 18  0]
 [ 0  0 14]]
0.9629629629629629


