# Ejercicio con kNNs
Primero, importamos todos los módulos necesarios

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
# Usamos el preprocesador StandardScaler para no tener sesgos en los datos
# de entrada
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# Importamos herramientas para probar el modelo. F1 es la media
# armónica de precision y recall
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import recall_score
from sklearn.metrics import accuracy_score

Descargamos un dataset con información de Diabetes para nuestro ejercicio

In [None]:
!curl -o data/diabetes.csv https://raw.githubusercontent.com/plotly/datasets/master/diabetes.csv

In [None]:
dataset = pd.read_csv('data/diabetes.csv')
# Veamos cuántas muestras tiene nuestro dataset
print(len(dataset))
# Miremos también qué pinta tiene el dataset desde el
# punto de vista de características y etiquetas
dataset.head()

In [None]:
# Sustituimos los ceros para características en las que en realidad
# el valor 0 significa que en realidad no tenemos datos
# Primero listamos las columnas en las que queremos aplicar la transformación
zero_not_accepted=['Glucose','BloodPressure','SkinThickness','BMI','Insulin']
# Ahora iteramos para cada una de estas columnas, para poner la media
# 
for column in zero_not_accepted:
    # Usamos Numpy NaN para marcar que el dato no existe, "no data"
    # Según la documentación oficial de Numpy:
    # "NaNs can be used as a poor-man’s mask (if you don’t care what the original value was)""
    dataset[column] = dataset[column].replace(0,np.NaN)
    # Ahora, calculamos la media de cada columna seleccionada, 
    # ignorando la máscara NaN con la opción de Pandas skipna
    mean = int(dataset[column].mean(skipna=True))

    dataset[column]=dataset[column].replace(np.NaN,mean)

In [None]:
# Echamos un vistazo al dataset y vemos que ahora no tenemos ningún valor distinto de cero
print(dataset['Glucose'])

Antes de seguir, partimos el dataset en training y test.

In [None]:
# Miramos el i location del pandas dataset en todas las filas, y cogemos
# de la columna 0 a la 8. Recordemos que la columna nueve (índice 8) es la que tiene
# nuestras etiquetas, y también que Python cuenta desde cero y que los slices de listas
# no incluyen la última columna.
X = dataset.iloc[:,0:8]
y = dataset.iloc[:,8]
# Seleccionamos un 20% del dataset original como datos de test
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0,test_size=0.2)

In [None]:
# Ahora escalamos los datos, de manera que todos los rangos van desde -1 hasta 1.
sc_X = StandardScaler()
# Hacemos training y transformación conjunta sobre el training set
X_train = sc_X.fit_transform(X_train)
# Tenemos que asegurarnos de que el testing set también está transformado
X_test = sc_X.transform(X_test)

In [None]:
# Estimamos el número de vecinos que tenemos que utilizar
import math 
math.sqrt(len(y_test))

In [None]:
# Definimos el modelo, inicializando kNN con los datos seleccionados
cls = KNeighborsClassifier(n_neighbors=11, p=2, metric='euclidean')
# Entrenamos el modelo
cls.fit(X_train,y_train)

Finalmente, evaluamos el modelo:    

In [None]:
# Predict the test set results
y_pred = cls.predict(X_test)
y_pred

Para la matriz de confusión, valores reales va en las filas, valores predichos en las columnas. Lo importante es la diagonal, 

In [None]:
cm = confusion_matrix(y_test, y_pred)
print(cm)

De nuevo, f1_score se define como la media armónica de precision y recall, esto es, $\mathrm{F_1} = 2\frac{\mathrm{precision}\cdot\mathrm{recall}}{\mathrm{precision}+\mathrm{recall}}$

In [None]:
print(accuracy_score(y_test, y_pred))

In [None]:
print(f1_score(y_test, y_pred))

Ya que estamos trabajando con un modelo médico, lo mejor que podemos hacer es mostrar también el recall o sensitivity del modelo:

In [None]:
print(recall_score(y_test, y_pred))