### Método KNN
#### Machine Learning - Maestría en Analítica Aplicada
#### Universidad de la Sabana
#### Prof: Hugo Franco
#### Ejemplo: Clasificación de especies mediante características fenotípicas

<img src="iris.png" width="50%">




In [None]:
import numpy as np 
import pandas as pd  

import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.neighbors import KNeighborsClassifier

#from sklearn.datasets import load_iris
from sklearn import metrics 

Se usará __pandas__ para gestionar el _dataset_

In [None]:
#Lectura de los datos
df = pd.read_csv('iris.csv')

# También se puede cargar desde el paquete sklearn.datasets
#df = load_iris()

# previsualización del dataset
df.head(5)

In [None]:
# El contenido del dataset se puede explorar con la función "describe"
df.describe()["SepalLengthCm"]
#df.describe()["SepalWidthCm"]
#df.describe()["PetalLengthCm"]
#df.describe()["PetalWidthCm"]

El módulo de selección de modelos de __sklearn__ permite construir los conjuntos de datos de entrenamiento y prueba para variables independientes (características) y la variable dependiente (etiqueta de clase)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df[['SepalLengthCm', 'SepalWidthCm', 
                                                        'PetalLengthCm', 'PetalWidthCm']],
                                                    df['Species'], random_state=0)

In [None]:
print("Tamaño de X_train: {}\nTamaño de y_train: {}".format(X_train.shape, y_train.shape))
print("Tamaño de X_test: {}\nTamaño de y_test: {}".format(X_test.shape, y_test.shape))

#### Creación del clasificador y entrenamiento 
Se entrena un clasificador _KNN_ usando los datos de entradas conocidas y salidas esperadas 

In [None]:
knn = KNeighborsClassifier(n_neighbors=1);
knn.fit(X_train, y_train)

Para los datos del conjunto de prueba, se obtienen las clasificaciones entregadas por el modelo entrenado (y se imprime su desempeño en la métrica "accuracy")

In [None]:
y_pred = knn.predict(X_test)
# comparación de las predicciones con las etiquetas originales
pd.concat([X_test, y_test, pd.Series(y_pred, name='Predicción', index=X_test.index)], 
          ignore_index=False, axis=1)
print("Score sobre el conjunto de test: {:.3f}".format(knn.score(X_train, y_train)))

np.set_printoptions(precision=2)
cv_scores = cross_val_score(knn, X_test, y_test, cv=5)
print (cv_scores);

Desempeño promedio del entrenamiento

In [None]:
print(np.average(cv_scores))

In [None]:
# Escribe en pantalla la métrica "accuracy" para prueba (datos no usados en el entrenamiento)
print("Exactitud (accuracy) en prueba (testing):",metrics.accuracy_score(y_test, y_pred))

#### Visualización del desempeño: matriz de confusión
En problemas de clasificación multiclase, es usual reportar la matriz de confusión

In [None]:
class_names = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']

disp = ConfusionMatrixDisplay.from_estimator(
    knn,
    X_test,
    y_test,
    display_labels=class_names,
    cmap=plt.cm.Blues,
    normalize=None
)

# You can then display the plot
disp.ax_.set_title("Confusion Matrix")
print("Confusion Matrix")
print(disp.confusion_matrix)

plt.show()