## Import librerie e oggetti
* **pandas** per la manipolazione dei dati in formato tabellare 
* **sklearn (Scikit-learn)** per l'utilizzo di algoritmi di apprendimento
    * *LabelEncoder*, strumento ausialiario per convertire i valori delle categorie in altri di tipo numerico.
    * *KNeighborsClassifier*, classificatore che implementa il k-nearest neighbors
    * *classification_report*, strumento ausliario per stampare report relativo al classificatore
* **<item.csv>** file csv contenente i dati di train/test

In [None]:
!sudo apt update && sudo apt install -y graphviz

In [None]:
!pip install graphviz
!pip install mglearn
!pip install scikit-learn=='0.24.1'

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

In [None]:
#importa i csv
dataframe_train = pd.read_csv('train.csv', error_bad_lines=False,dtype=str)
dataframe_test = pd.read_csv('test.csv', error_bad_lines=False,dtype=str)

## Pre-processing
Prima di effettuare l'addestramento del modello, lo si preparara.<br>
Due operazioni eseguite in questo caso:
* **encoding** dei campi di ogni ennupla in valori numerici
* **split** dei dati tra feature(X_...) e valore atteso(y_...)

In [None]:
#effettua l'encoding dei dataframe da valori espressi in string a valori espressi in int
le = LabelEncoder()
dataframe_train_encoded = dataframe_train.apply(le.fit_transform)
dataframe_test_encoded = dataframe_test.apply(le.fit_transform)

In [None]:
#splitta i dati di train per avere feature (X_train) e target (y_train)
y_train = dataframe_train_encoded.pop('class')
X_train = dataframe_train_encoded

#splitta i dati di test per avere feature (X_test) e target (y_train)
y_test = dataframe_test_encoded.pop('class')
X_test = dataframe_test_encoded

## k-Nearest Neighbours
Applica l'algoritmo **k-NN** per classificare i punti del dataset.<br>
Scelta del *n_neighbors=1* motivata dall'analisi dell'esecuzione di questa porzione di codice.<br>
É sostanzialmente una soluzione di bruteforce - testando con 10 valori diversi di *k* si sceglie il giusto compromesso tra testing e training Accuracy

```Python
import numpy as np
import matplotlib.pyplot as plot
neighbors = np.arange(1, 10)
train_accuracy = np.empty(len(neighbors))
test_accuracy = np.empty(len(neighbors))

# Loop over K values
for i, k in enumerate(neighbors):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
      
    train_accuracy[i] = knn.score(X_train, y_train)
    test_accuracy[i] = knn.score(X_test, y_test)
  
# Generate plot
plt.plot(neighbors, test_accuracy, label = 'Testing dataset Accuracy')
plt.plot(neighbors, train_accuracy, label = 'Training dataset Accuracy')
  
plot.legend()
plot.xlabel('n_neighbors')
plot.ylabel('Accuracy')
plt.show()
```

In [None]:
# acquisisci il classificatore
clf = KNeighborsClassifier(n_neighbors=1)

In [None]:
# effettua il train
clf.fit(X_train, y_train)

In [None]:
#visualizza accuratezza
print("Test set accuracy: {:.3f}".format(clf.score(X_test, y_test)))