## K-Nearest Neighbor (KNN)
KNN usa la llamada "similaridad de características" para predecir los valores de nuevos puntos de datos, lo que significa que el valor predicho corresponde a un valor en función de su similitud con los puntos del conjunto de entrenamiento.<br>
El proceso sigue los siguientes pasos:
1. Se calcula la distancia entre el punto desconocido y los puntos conocidos en el conjunto de datos. Los métodos más usados para calcularla son: euclidiana, manhattan y hamming (ésta última para variables categóricas).
2. Se seleccionan los K puntos conocidos más cercanos al punto desconocido. Este valor (K) es el que debe optimizarse ya que la cantidad de K influye en la precisión de la predicción. Así, para calcularlo se pueden usar el método de la curva en forma de codo o el GridSearch.
3. Se calcula el promedio de tales K puntos y esta será la predicción del valor del punto desconocido.

In [55]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
from sklearn.utils.random import check_random_state
from sklearn.model_selection import GridSearchCV

### Ejemplo KNN
Se aplicará KNN para predecir la distancia entre un par de puntos (x,y) y (x1,y1), uno de ellos constante.$$ d = \sqrt{(x1-x)^2 + (y1 - y)^2} $$

### Generar el conjunto de datos
Para generar el conjunto de datos se calculará la distancia entre un conjunto de 5000 puntos (x,y) aleatorios, así, el modelo de regresión se ajustará a una proporción del 80% del conjunto y el 20% restante estará destinado a la predicción.

In [56]:
def calcular_distancia(X,Y,XF,YF):
    return np.round(np.sqrt(np.power(XF-X,2)+np.power(YF-Y,2)),2)

XF = 5
YF = 12.5

rng = check_random_state(0)

X = np.round(rng.uniform(1, 11, 10000).reshape(5000, 2),2)
XFs=[[XF] for i in range(5000)]
YFs=[[YF] for i in range(5000)]
X=np.append(X, XFs, axis=1)
X=np.append(X, YFs, axis=1)
Y = calcular_distancia(X[:, 0],X[:, 1],XF,YF)
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

### Crear y ajustar el modelo
Se utilizará el GridSearch para escoger el valor óptimo de K.

In [57]:
knn = KNeighborsRegressor()
params = {'n_neighbors':[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]}
modelo = GridSearchCV(knn,params,cv=20)
modelo.fit(x_train,y_train)
print(modelo.best_params_)

{'n_neighbors': 5}


El valor óptimo es $ K = 5 $ con lo cual se ajustará este parámetro en el modelo para realizar predicciones más precisas.<br>

In [58]:
modelo = KNeighborsRegressor(n_neighbors=5)
modelo.fit(x_train,y_train)

KNeighborsRegressor()

### Métricas
Como KNN no es un modelo lineal, La métrica será el **RMSE** y no $ R^2 $

In [59]:
training_preds = modelo.predict(x_train)
rmse = np.sqrt(mean_squared_error(y_train,training_preds))
print("RMSE = ",rmse)

RMSE =  0.04128345915739135


### Predicciones con datos desconocidos
Se usará el 20% de los datos (x_test,y_test) para probar el modelo de regresión con datos que no se tuvieron en cuenta en su 'entrenamiento'.

In [60]:
testing_preds = modelo.predict(x_test)
rmse = np.sqrt(mean_squared_error(y_test,testing_preds))
print("RMSE = ",rmse)

RMSE =  0.050139884323759674
