# Classificazione - k-nearest neighbours

In [None]:
# Import moduli per la manipolazione dei dataframe
import pandas as pd
import numpy as np

In [None]:
# Import modulo di classificazione da sklearn-learn
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Import modulo grafica
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Rimozione messaggi di warning
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Creazione del modello di classificazione
# Numero di 'vicini' = 3
knn = KNeighborsClassifier(n_neighbors = 3, metric = 'euclidean')

In [None]:
# Creazione array casuale di 6 coppie di valori da 1 a 5. Gruppo 0.
# np.random.seed(0)
x = np.array(np.random.randint(1, 6, size = 12))
x = x.reshape(6,2)
print(x)

In [None]:
# Creazione array casuale di 6 coppie di valori da 6 a 11. Gruppo 1.
y = np.array(np.random.randint(6, 12, size = 12))
y = y.reshape(6,2)
print(y)

In [None]:
# Unione in un unico oggetto 
z = np.vstack((x, y))
print(z)

In [None]:
# Definizione fattore di classificazione
cl = np.array([0,0,0,0,0,0,1,1,1,1,1,1])

In [None]:
# Adattiamo il modello di classificazione a questi dati
knn.fit(z, cl)

In [None]:
x0 = []
y0 = []
x1 = []
y1 = []
for i in x:
    x0.append(i[0])
    y0.append(i[1])
for i in y:
    x1.append(i[0])
    y1.append(i[1])
   
plt.plot(x0, y0, 'ro', color = "red")
plt.plot(x1, y1, 'ro', color = "green")




In [None]:
x0 = []
y0 = []
x1 = []
y1 = []
for i in x:
    x0.append(i[0])
    y0.append(i[1])
for i in y:
    x1.append(i[0])
    y1.append(i[1])
   
plt.plot(x0, y0, 'ro', color = "red")
plt.plot(x1, y1, 'ro', color = "green")

new = ([[4.5,6]], [[1,4]], [[7,7]], [[8,12]])
for n in new:
    print (knn.predict(n) )
    if knn.predict(n) == 1: 
        c="green"
    else:
        c="red"
    plt.plot(n[0][0], n[0][1], 'ro', color = c, markersize = 10)

# Classificazione - esempio su un dataset più grande 

In [None]:
# Import moduli per la manipolazione dei dataframe
import pandas as pd
import numpy as np

In [None]:
# Import modulo di classificazione da sklearn-learn
from sklearn import preprocessing
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
# Dataset 'iris', 150 casi di fiori classificati sotto tre diverse famiglie (setosa, versicolor, virginica).
df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header = 0)

In [None]:
# Il dataset 'iris' è composto da 4 variabili di attributi (tutti in cm) + una variabile della classe.   
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', "Class"]

In [None]:
print(df.head(10))

In [None]:
# Creazione del modello di classificazione
# Numero di 'vicini' = 3
knn = KNeighborsClassifier(n_neighbors = 3)

In [None]:
# Creazione di un dataset con i 4 attributi
df2 = df.iloc[:, 0:4]
df2.shape
print(df2)

In [None]:
# Ridimensionamento delle variabili con valori tra 0 e 1.
# Non necessario in questo caso essendo tutte le variabili in cm.
scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
scaled = scaler.fit_transform(df2) # numpy.ndarray
df_scaled = pd.DataFrame(scaled)
print(df_scaled)

In [None]:
# Creazione di oggetti di training e di oggetti di test partendo dalle due parti del dataset.
x_train, x_test, y_train, y_test = train_test_split(df_scaled, df['Class'], test_size = 0.3)

In [None]:
# Adattiamo il modello di classificazione ai dati di train
knn.fit(x_train, y_train)

In [None]:
# Creazione della predizione dall'oggetto di test.
pred = knn.predict(x_test)

In [None]:
# Matrice di confusione. Nella diagonale i casi classificati correttamente.
# Le previsioni sono rappresentate dalle colonne, i valori effettivi dalle righe.
print(confusion_matrix(y_test, pred))

In [None]:
# Precisione
print(classification_report(y_test, pred))

In [None]:
# Ricerca del numero dei neighbors ottimale per impostare il modello nel modo migliore.
err = []

for i in range(1, 10):
    
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(x_train, y_train)
    pred_i = knn.predict(x_test)
    err.append(np.mean(pred_i != y_test))

In [None]:
plt.figure(figsize=(14, 8))
plt.plot(range(1, 10), err, color='green', linestyle='dotted', marker='o',
         markerfacecolor='red', markersize=12)
plt.xlabel('Numero di k')
plt.ylabel('Tasso di errore')

In [None]:
# cambiamo quindi il numero di k

In [None]:
knn = KNeighborsClassifier(n_neighbors = 6)

knn.fit(x_train,y_train)
pred = knn.predict(x_test)

print(confusion_matrix(y_test,pred))
print(classification_report(y_test,pred))

In [None]:
knn = KNeighborsClassifier(n_neighbors = 9)

knn.fit(x_train,y_train)
pred = knn.predict(x_test)

print(confusion_matrix(y_test,pred))
print(classification_report(y_test,pred))