# KNN (K Nearest Neighbors)

Nos han dado un conjunto de datos clasificados, de una empresa!  Para guardar la anonimidad, los nombres de las columnas se han alterado, pero sí nos han dado los datos y cuál es la columna meta (a predecir)

Utilizaremos el KNN para crear un modelo que directamente predice una clase para una nueva observación, basada en sus características (columnas).

## Importar Librerías

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

## Obtener los datos

Especificar que la columna cero (0) servirá de índice (index_col = 0)

In [None]:
datos = pd.read_csv("Datos_Clasificados.csv", index_col = 0)

In [None]:
datos.head()

## Estandarizar las Variables

Como el clasificador KNN predice la clase de una observación de prueba por medio de la identificación de las observaciones que están más cercanas a ella, la escala de las variables es importante.  Cualesquiera variables que estén a una escala mayor tendrán un efecto mucho más grande sobre la distancia entre las observaciones, y por ende sobre el clasificador KNN, que las variables que estén a una menor escala.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
escalador = StandardScaler()

In [None]:
escalador.fit(datos.drop('CLASE', axis = 1))

In [None]:
cols_std = escalador.transform(datos.drop('CLASE', axis = 1))

In [None]:
datos_std = pd.DataFrame(cols_std, columns = datos.columns[:-1])
datos_std.head()

## Train Test Split

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_entreno, X_prueba, y_entreno, y_prueba = train_test_split(cols_std, datos['CLASE'],
                                                    test_size = 0.30, random_state = 0)

## Utilización del KNN

Debemos recordar que estamos tratando de encontrar un modelo que prediga si una observación cae en una CLASE o no.  Empezaremos con un valor k = 1.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors = 1)

In [None]:
knn.fit(X_entreno, y_entreno)

In [None]:
pred = knn.predict(X_prueba)

## Predicciones y Evaluaciones

Evaluemos nuestro modelo KNN!

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
print(confusion_matrix(y_prueba, pred))

In [None]:
print(classification_report(y_prueba, pred))

## Selección de un valor K

Utilizaremos el método del codo (elbow method) para seleccionar un buen valor para K:

In [None]:
tasa_error = []

# Puede tardar un poco
for i in range(1, 40):
    
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_entreno, y_entreno)
    pred_i = knn.predict(X_prueba)
    tasa_error.append(np.mean(pred_i != y_prueba))

In [None]:
plt.figure(figsize = (10, 6))
plt.plot(range(1, 40), tasa_error, color = 'blue', linestyle = 'dashed', marker = 'o',
         markerfacecolor = 'red', markersize = 10)
plt.title('Tasa de Error vs. Valor de K')
plt.xlabel('K')
plt.ylabel('Tasa de Error')

Podemos ver que despues de aproximadamente K > 5 la taza de error se mantiene entre 0.06 y 0.08.  Volvamos a entrenar al modelo con ese valor y revisemos el reporte de clasificación!

In [None]:
# PRIMERO UNA RAPIDA COMPARACION CON NUESTRO VALOR ORIGINAL K=1
knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_entreno,y_entreno)
pred = knn.predict(X_prueba)

print('CON K = 1')
print()
print('Matriz de Confusión\n')
print(confusion_matrix(y_prueba,pred))
print('\n')
print(classification_report(y_prueba,pred))

In [None]:
# AHORA CON K = 5
knn = KNeighborsClassifier(n_neighbors = 5)

knn.fit(X_entreno, y_entreno)
pred = knn.predict(X_prueba)

print('CON K = 5')
print()
print('Matriz de Confusión\n')
print(confusion_matrix(y_prueba,pred))
print('\n')
print(classification_report(y_prueba,pred))

# BIEN!

Logramos sacarle un mejor rendimiento a nuestro modelo al afinarlo con un mejor valor para K!