# Ejemplo de $K-$Nearest Neighbour (KNN)

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/my_docs/logo_unal_color.png" alt="drawing" width="200"/>

La idea intuitiva de lo que hace $K-$Nearest Neighbour (KNN) se puede ilustrar por medio de la siguiente figura.

<img src="https://raw.githubusercontent.com/fhernanb/Python-para-estadistica/master/imagenes/knn-classification.png" alt="drawing" width="600">

# Objetivo
En este ejemplo se busca crear un clasificador de flores basado en la longitud y ancho del pétalo y sépalo, abajo una figura ilustrativa del problema.

<img src="https://raw.githubusercontent.com/fhernanb/Python-para-estadistica/master/imagenes/iris.png" alt="drawing" width="900">

In [1]:
import numpy as np
import sklearn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## Los datos

In [2]:
iris = load_iris()
type(iris)

sklearn.utils._bunch.Bunch

In [3]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [5]:
iris['data'].shape

(150, 4)

In [6]:
iris['data'][0:4, ]  # Para ver las primeras 5 observaciones

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

In [7]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## Creación de los datos de entrenamiento (train) y de validación (test)
Para particionar los datos originales se usa la función `train_test_split`, para mayores detalles se recomienda consultar los parámetros de la función se recomienda consultar este [enlace](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [9]:
X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], test_size=0.25)

In [10]:
print(X_train.shape)
print(y_train.shape)

print(X_test.shape)
print(y_test.shape)

(112, 4)
(112,)
(38, 4)
(38,)


## Ajuste del modelo
Para crear el modelo se usa la función `KNeighborsClassifier`, para mayores detalles se recomienda consultar los parámetros de la función se recomienda consultar este [enlace](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

In [11]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=7, metric='minkowski')
knn.fit(X=X_train, y=y_train)  # Usamos el método fit para ajustar

Para calcular la tasa de clasificación correcta de nuestro modelo usamos el método `score` así:

In [12]:
knn.score(X=X_train, y=y_train)

0.9821428571428571

In [13]:
knn.score(X=X_test, y=y_test)

0.9473684210526315

## Predicción
Supongamos que tenemos una nueva flor de la cual desconocemos su clase pero sabemos que sus medidas son: 5.6, 2.9, 2.6, 0.6 de sepal length, sepal width, petal length y petal width respectivamente. Para obtener la posible clasificación usamos el método `predict` así:

In [14]:
x_new = [[5.6, 2.9, 2.6, 0.6]]
knn.predict(x_new)

array([1])

In [15]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

Para conocer las probabilidades de pertenencia a una de las clases usamos el método `predict_proba`.

In [16]:
knn.predict_proba(x_new)

array([[0.42857143, 0.57142857, 0.        ]])

## Video
Para ver una explicación en video de este ejercicio se recomienda visitar este [enlace](https://www.youtube.com/watch?v=hzOCDgfsSSQ&list=PLA050nq-BHwMr0uk7pPJUqRgKRRGhdvKb&index=2)