# KNN
## ¿Dónde podemos usar KNN?
El algoritmo KNN se puede utilizar para clasificación y para regresión.

## ¿Cómo funciona?
Aquí tenemos dos clases, A y B y un ejemplo que necesitamos clasificar como A o B según nuestro algoritmo.

<center><img src="https://miro.medium.com/max/622/1*P4W0JRPUZKlUR68WlRB3bw.webp"/></center>

## 1. Elegir valor de K
El valor de K es el número de vecinos más cercanos que examinaremos con nuestro algoritmo. Puede ser 3, 5, 7 y así sucesivamente. Podemos asignar números pares pero no es recomendable para evitar empates durante la clasificación binaria.

## 2. Calcular la distancia entre los ejemplos clasificados y los nuevos ejemplos

<center><img src="https://miro.medium.com/max/574/1*KG7Thx7wRJARZCEaH7mKXQ.webp"/></center>

Calcularemos la distancia utilizando la fórmula de la distancia Euclídea.

<center><img src="https://miro.medium.com/max/640/1*fW5yVOSIqfoxUswg6lhADQ.webp"/></center>

## 3. Ordenar ascendentemente las distancias y obtener los valores principales de K

<center><img src="https://miro.medium.com/max/640/1*2B4-bBLUKK-LRFkFqNsTgA.webp"/></center>

## 4. Averiguamos si los vecinos máximos son de la clase A o B
Si son de la clase A lo clasificamos como A, por el contrario será de clase B.

# Código Python para KNN desde cero
Importamos las librerías y leemos el archivo CSV.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

iris = pd.read_csv("iris.csv")

Llamamos al método **.head()** para ver los datos y al método **.shape()** para ver el tamaño de los datos

In [None]:
iris.head()

<center><img src="https://miro.medium.com/max/640/1*ISDg3ZPR3LpsGtASg-B-eg.webp"/></center>

In [None]:
iris.shape

<center><img src="https://miro.medium.com/max/158/1*2MVa4PNsz1GbjVu8zdajUw.webp"/></center>

Transformamos los datos utilizando **iloc** para acceder a los datos requeridos y **.values** para obtener la salida como un array. Almacenamos todas las filas y las 4 primeras columnas en **X** y la columna **especies** en Y.

In [None]:
x = iris.iloc[:, :4].values
y = iris['species'].values

Como necesitamos probar nuestro modelo debemos separar algunos datos para el testeo.
Lo haremos utilizando ***train_test_split*** de la librería ***sklearn***.
***test_size=0.2*** significa que utilizaremos el 80% de los datos para entrenar el modelo y 20% para el testeo. Utilizaremos ***random_state*** para obtener la misma división cada vez.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

Todos los pasos del pre procesado están listos, ahora creamos el algoritmo.

## Paso 1
Escribimos una función para calcular la distancia Euclídea. La función es sencilla de entender. Tomamos la diferencia elevándola al cuadrado, sumándolas y finalmente sacando la raíz cuadrada.

In [None]:
def distance(pa, pb):
  return np.sum((pa-pb)**2)**0.5

## Paso 2
Definimos otra función llamada KNN. ***x_query*** es el nuevo ejemplo para el que queremos encontrar la etiqueta/clase.

In [None]:
def KNN(x, y, x_query, k=5)

Ahora requerimos el número de filas para recorrer cada ejemplo en el conjunto de datos y requerimos una lista para almacenar todas las distancias calculadas usando la función de distancia.

In [None]:
m = x.shape[0]
distances = []

En el siguiente paso iteramos por todos los ejemplos y calcularemos la distancia usando la función ***distance*** que hemos creado. Le pasaremos ***x_query*** y todos los ejemplos uno por uno. Una vez que obtengamos la distancia añadiremos una tupla de distancia y etiqueta a la lista **distances** previamente creada.

In [None]:
for i in range(m):
  dis = distance(x_query, x[i])
  distances.append((dis, y[i]))

Tenemos toda la distancia de todos los puntos desde x_query. Ahora las ordenamos en orden ascendente y seleccionaremos las K distancias principales.

In [None]:
distances = sorted(distances)
distances = distances[:k]

En el siguiente paso, convertiremos la lista en un array para poder extraer datos facilmente. Extraeremos las etiquetas del array recien creado.

In [None]:
distances = np.array(distances)
labels = distances[:, 1]

Utilizaremos una función de ***Numpy*** para obtener las etiquetas únicas y su conteo. La imagen muestra un ejemplo de esta función. Recibimos un array([1, 2]), ya que son los únicos elementos en la lista que le hemos pasado como parámetro y recibimos los recuentos de 1 y 2 como array([3, 2])

<center><img src="https://miro.medium.com/max/640/1*4XBT-qhAiczPhga7iJ51rw.webp"/></center>

In [None]:
np.unique([1, 2, 1, 2, 1], return_counts=True)

Ahora utilizaremos esto en nuestro algoritmo. En el segundo paso usamos la función **argmax()** que nos devolverá el índice del valor máximo y cuando lo pasemos a ***uniq_label*** obtendremos la predicción.

In [None]:
uniq_label, counts = np.unique(labels, return_counts=True)
pred = uniq_label[counts.argmax()]

# Algoritmo completo

In [None]:
def KNN(x, y, x_query, k=5):
  m = x.shape[0]
  # get 100 values

  distances = []

  # iterate over all examples
  for i in range(m):
    dis = distance(x_query, x[i])
    print(x[i], x_query)
    distances.append((dis, y[i]))

  # sort
  distances = sorted(distances)

  # take top 5
  distances = distances[:k]

  # convert to numpy to extract data
  distances = np.array(distances)

  labels = distances[:, 1]

  uniq_label, counts = np.unique(labels, return_counts=True)
  pred = uniq_label[counts.argmax()]

  return (pred)

## Paso 3
Utilizaremos este algoritmo (la función creada) para predecir la etiqueta/clase para el nuevo ejemplo.

In [None]:
KNN(x_train, y_train, x_test[23], k=7)

<center><img src="https://miro.medium.com/max/274/1*d-IWBZaffH4Z6owejd3YCA.webp"/></center>

Ahora predecimos etiquetas para todos los datos de test y los almacenamos en una lista.

In [None]:
prediction = []
for i in range(30):
  p = KNN(x_train, y_train, x_test[i], k=7)
  prediction.append(p)

En el último paso, convertiremos la lista en un array y calcularemos la precisión de nuestro algoritmo. Para calcular la precisión compararemos los valores de ***y_test*** con los valores predichos. Usaremos ***sum*** para obtener la cuenta de las predicciones correctas.

In [None]:
predictions = np.array(prediction)
(y_test[:100] == predictions).sum()/len(predictions)

La precisión de este modelo es del 96,6%

<center><img src="https://miro.medium.com/max/328/1*0836py9r3OjGFZZpFWo3aQ.webp"/></center>

# Código Python para KNN usando scikit-learn (sklearn)
Primero importamos KNN classifier. Creamos un objeto llamado ***knn***. Existen varios parámetros que podemos pasarle pero para explicar lo básico sólo le pasaremos ***k***.

Para saber más sobre los parámetros de KNN visita [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html).

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)

Llamamos al método ***fit*** y le pasamos ***x_train*** y ***y_train*** como parámetros para el aprendizaje del modelo.

In [None]:
knn.fit(x_train, y_train)

Para la predicción, la clase sklearn nos proporciona un método llamado ***predict***. En el siguiente código, remodelamos la entrada para convertir el vector en un array.

In [None]:
knn.predict(x_test[23].reshape(1, -1))

Para predecir la clase de un conjunto de datos completo creamos una lista para agregar las clases predichas y luego usar el método de predicción.

In [None]:
prediction = []
for i in range(30):
  p = knn.predict(x_test[i].reshape(1, -1))
  prediction.append(p[0])

Para calcular la precisión compararemos los valores de ***y_test*** con los valores predichos. Usaremos ***sum*** para obtener la cuenta de las predicciones correctas.

In [None]:
(y_test[:30] == prediction).sum()/len(prediction)

La precisión utilizando Sklearn es del 100%

<center><img src="https://miro.medium.com/max/78/1*XPudFA0MTw7UQB4iDQW2RQ.webp"/></center>

# Ventajas y desventajas de KNN
## Ventajas
*   Fácil implementación
*   Sin periodo de entrenamiento

## Desventajas
*   Sensible al ruido y a datos ausentes
*   No funciona bien con una alta dimensionalidad
*   No funciona bien con grandes datasets

