# K Nearest Neighbors (K vecinos mas cercanos)

Es uno de los algoritmos de clasificación más básicos y esenciales en Machine Learning. Pertenece al dominio del aprendizaje supervisado y encuentra una aplicación intensa en el reconocimiento de patrones, la minería de datos y la detección de intrusos.

El clasificador KNN, por sus siglas en inglés, es también un algoritmo de aprendizaje no paramétrico y basado en instancias:
* **No paramétrico** significa que no hace suposiciones explícitas sobre la forma funcional de los datos
* El **aprendizaje basado en la instancia** significa que nuestro algoritmo no aprende explícitamente un modelo. En lugar de ello, opta por memorizar las instancias de formación que posteriormente se utilizan como “conocimiento” para la fase de predicción.

Cabe señalar que la fase de formación mínima de KNN se realiza tanto a un coste de memoria, ya que debemos almacenar un conjunto de datos potencialmente enorme, como un coste computacional durante el tiempo de prueba, ya que la clasificación de una observación determinada requiere un agotamiento de todo el conjunto de dato.

<img src="https://i2.wp.com/live.staticflickr.com/65535/47646856032_e693b87caa_c.jpg?resize=800%2C622&ssl=1" width="450" height="450"/>

Supongamos que Z es el punto el cual se necesita predecir. Primero, se encuentra el punto K más cercano a Z y luego se clasifican los puntos para el voto mayoritario de sus vecinos K. Cada objeto vota por su clase y la clase con más votos se toma como la predicción. Para encontrar los puntos similares más cercanos, se encuentra la distancia entre puntos utilizando medidas de distancias.

Una opción popular es la distancia euclidiana, pero también hay otras medidas que pueden ser más adecuadas para un entorno dado e incluyen la distancia de Mahattan y Minkowski.

<img src="files/formulas.png" width="600">

En resumen, KNN tiene los siguientes pasos básicos:
    * Calcular la distancia
    * Encontrar sus vecinos más cercanos
    * Votar por las etiquetas

# KNN con SCIKIT LEARN 

La librería Scikit Learn cuenta con un modelo que se puede utilizar para implementar el algoritmo de K vecinos más cercanos clasificación.

Para implementar este algoritmo lo primero que se debe realidad es definir el modulo, en este caso sería: skelearn.neigbors. Realizado esto se procede a importar la clase en este caso será KNeighborsClassifier. este algoritmo también se puede usar para problemas de regresión, pero la clase para este se define distinto al de clasificación.

<img src="https://i2.wp.com/live.staticflickr.com/65535/47700004891_c3056a8dff_c.jpg?resize=800%2C66&ssl=1" width="1200"/>

La librería te ofrece varios parámetros que puedes utilizar para configurar el algoritmo y algunos de ellos son muy útiles para mejorar el modelo que se este construyendo.

El primer parámetro, por su puesto debe ser el del número de vecinos o K, acá es donde defines este valor, a este parámetro se le conoce acá como n_neighbors. Por defecto es 5, pero es recomendable que en cada proyecto sea el desarrollador quien defina este valor para tener más control sobre el modelo.

<img src="https://i2.wp.com/live.staticflickr.com/65535/47700003551_cf19a594cb_c.jpg?resize=800%2C86&ssl=1" width="700"/>

Otro parámetro importante y que se mencionamos cuando vimos la teoría de este algoritmo es definir la distancia que se utilizará para verificar los vecinos del dato que se está buscando predecir. Para configurar esto en el algoritmo se debe definir dos variables dentro del algoritmo, la primera es “p” y la segunda es “metric”.

<img src="files/p,metric.png" width="750">

“p” por defecto es igual a 2 y “metric” por defecto es “minkowski”, con esta combinación se está eligiendo la distancia euclidiana como la que se implementará.
En el caso de querer utilizar la distancia manhattan se deberá colocar “p” igual 1. Y en caso de que se quiera utilizar la distancia minkowski, se deberá colocar un valor arbitrario a “p”.
Con estos parametros puedes desarrollar un buen modelo utilizando el algoritmo de K  vecinos más cercano clasificación.

Ahora los comandos para entrenar el algoritmo y realizar una predicción son los mismos que con el resto de algoritmos de Machine Learning, fit() y predict (), respectivamente. Para implementar estas instrucciones se definir los parámentros de “x” y “y”.

Ahora bien, después de realizar todo este procedimiento solamente falta evaluar el rendimiento del modelo construido, este paso es particularmente importante para comparar qué tan bien funcionan diferentes algoritmos en un conjunto de datos particular. Se puede utilizar la instrucción “score” junto con los datos de pruebas, pero aconsejo mejor utilizar todos los datos de métricas que se explicaron anteriormente para obtener una mejor información del modelo.

En resumen, los comandos a utilizar para implementar un algoritmo de K vecinos más cercanos clasificación serían los siguientes:

<img src="https://i1.wp.com/live.staticflickr.com/65535/47700002411_8c0ca4f19c_c.jpg?resize=800%2C247&ssl=1" width="650"/>