<img src="imgs/logo-spegc.svg" width=30%>

# kNN: k-Nearest Neighbors

(<a href="https://es.wikipedia.org/wiki/K_vecinos_m%C3%A1s_pr%C3%B3ximos">Wikipedia</a>)
Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento $x$ pertenezca a la clase $C_{j}$ a partir de la información proporcionada por el conjunto de **prototipos**.

En el reconocimiento de patrones, el algoritmo *k-nn* es usado como método de clasificación de objetos (elementos) basado en un entrenamiento mediante ejemplos cercanos en el espacio de los elementos. *k-nn* es un tipo de aprendizaje vago (*lazy learning*), donde la función se aproxima solo localmente y todo el cómputo es diferido a la clasificación.

## Algoritmo

Los ejemplos de entrenamiento son vectores en un espacio característico multidimensional, cada ejemplo está descrito en términos de $p$ atributos considerando $q$ clases para la clasificación. Los valores de los atributos del *i-ésimo* ejemplo (donde $1<i<n$) se representan por el vector p-dimensional

$x_{i}=(x_{1i},x_{2i},...,x_{pi})\in X$

El espacio es particionado en regiones por localizaciones y etiquetas de los ejemplos de entrenamiento. Un punto en el espacio es asignado a la clase $C$ si ésta es la clase más frecuente entre los k ejemplos de entrenamiento más cercano. Generalmente se usa la distancia euclídea.

La fase de entrenamiento del algoritmo consiste en almacenar los vectores característicos y las etiquetas de las clases de los ejemplos de entrenamiento. En la fase de clasificación, la evaluación del ejemplo (del que no se conoce su clase) es representada por un vector en el espacio característico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se seleccionan los $k$ ejemplos más cercanos. El nuevo ejemplo es clasificado con la clase que más se repite en los vectores seleccionados.

<img src="images/KnnClassification.svg">

## Demo interactiva

http://vision.stanford.edu/teaching/cs231n-demos/knn/

## Código

http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [1]:
from sklearn import datasets

iris = datasets.load_iris()

from sklearn.model_selection import train_test_split

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

clf = KNeighborsClassifier(n_neighbors=3)
cross_val_score(clf, iris.data, iris.target, cv=4)

array([0.97435897, 0.94871795, 0.91666667, 1.        ])

## Ejercicios

- Desarrollar código para analizar qué valor de $k$ produce los mejores resultados en el dataset iris.
- Comprobar si ponderar el peso de cada vecino por su distancia mejora la clasificación. *(weights="distance")*.
- Implementar un KNN para el dataset Digits.
- ¿Qué ocurre cuando las diferentes dimensiones de las muestas no están normalizadas?