# ¿Cómo funciona el algoritmo KNN?

Supongamos que tenemos un dataset con las features `edad` y `experiencia` y queremos predecir el `salario` de un nuevo empleado, del cual conocemos su `edad` y `experiencia`.

Los pasos a seguir por el algoritmo KNN, serían los siguientes:
1. Elegir un valor de `K`, el cual debe de ser `impar`
2. Hallar la `distancia` del nuevo punto (nuevo empleado) a cada uno de los puntos de entrenamiento.
3. Hallar los `K vecinos más cercanos` a ese nuevo punto.
4. Para `clasificación`, contar el número de puntos de datos en cada categoría entre los K vecinos. El nuevo empleado pertenecerá a la clase que tenga más vecinos.
5. Para `regresión`, el valor para el nuevo punto de datos será el promedio de los K vecinos.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://miro.medium.com/max/1319/1*8lt4Y2oBpm_bb-79eDuanA.png")

# ¿Cómo se calcula la distancia (ó métrica en Scikit-Learn)?

La distancia entre dos puntos $p=(x_1,y_1)$ y $q=(x_2,y_2)$ se puede calcular usando:
* `Distancia Euclidiana`
* `Distancia de Manhattan`
* `Distancia Minkowski`

### Distancia Euclidiana: 

$E(p,q)=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$

### Distancia Manhattan:

$E(p,q)=\vert x_1-x_2 \vert + \vert y_1-y_2 \vert$

### Distancia Minkowski: 

$E(p,q)=\left(\vert x_1-x_2 \vert^\rho+\vert y_1-y_2\vert^\rho\right)^\frac{1}{\rho}$

Donde $\rho$ es cualquier valor real. Usualmente se escoge un valor entre $1$ y $2$. 

Cuando $\rho=1$, la distancia de `Minkowski` se convierte en la distancia de `Manhattan`. Cuando $\rho=2$, se convierte en la distancia `Euclidiana`

Por otra parte, la métrica de Minkowski en la distancia por defecto en Scikit-Learn.

# Consideraciones

* Como se calcula la similitud con respecto a la distancia, debemos tener en mente que las distancias entre variables deben ser comparables. Si usamos un rango de medida en una variable y otro muy distinto en otra, las distancias no están normalizadas y estaremos comparando peras con manzanas.
* Para realizar un análisis con KNN tenemos siempre de normalizar los datos, reescalar todas las variables para que las distancias sean equiparables. Una posible normalización que vimos con Scikit-Learn fue la función `StandardScaler`.
* Otro importante asunto es que hay que eliminar los NAN de los datos, pues afectan a los cálculos de distancia.