# Algoritmo de Clasificación Supervisada

## K-vecinos más cercanos (Nearest Neighbord)

Existen dos sabores: la clasificación para etiquetas discretas y la regresión para etiquetas continuas.

### El método

Los k vecinos más cercanos (k-nearest neighbors) es un método de clasificación supervisada, es decir aprende y estima partir de un juego de datos inicial su objetivo será el de clasificar correctamente todas las instancias nuevas. 

Nota 1: El juego de datos típico de este tipo de algoritmos está formado por varios atributos descriptivos y un solo atributo objetivo (también llamado clase).

Idea

El algoritmo calcula la distancia (mediante la función de densidad de probabilidad o directamente de la probabilidad) del elemento nuevo a cada uno de los existentes, y ordena dichas distancias de menor a mayor para ir seleccionando el grupo al que pertenece. Este grupo será, por tanto, el de mayor frecuencia con menores distancias.

Nota 2. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.

Nota 3. Este algoritmo no genera un modelo fruto del aprendizaje con datos de entrenamiento, sino que el aprendizaje sucede en el mismo momento en el que se prueban los datos de test. A este tipo de algoritmos se les llama lazy learning methods.

Debilidad

La lentitud del proceso de clasificación es su mayor debilidad, puesto que su objetivo no es obtener un modelo optimizado, sino que cada instancia de prueba sea comparada contra todo el juego de datos de entrenamiento y, serán los resultados los que determinarán:

    a) el ajuste (como el propio valor k), 
    b) el criterio de selección de instancias de entrenamiento, o 
    c) la propia métrica de medida de similitud.

Tipos de Algoritmos
    1. Fuerza Bruta
        a. Cálculo rápido de los vecinos más cercanos
        b. Cálculo de las distancias entre todos los pares de puntos en el conjunto de datos
        c. Competitivo para muestras de datos pequeños. Sin embargo, a medida que crece el número de muestras , el enfoque de la fuerza bruta se vuelve rápidamente inviable.
    2. K-D Tree
        a. Generaliza árboles cuádruples bidimensionales y árboles tridimensionales a un número arbitrario de dimensiones
        b. Es una estructura de árbol binario que divide en regiones los puntos de datos. 
        c. Enfoque rápido para dimensiones menores a 20. Se vuelve ineficiente a medida que crece.
    3. Ball Tree
        a. Se utiliza en dimensiones superiores
        b. Es una estructura de datos bajo la lógica de los bosques por las dimensiones.
        c. Divide los datos en nodos definidos por un centro © y un radio ®, de modo que cada punto en el nodo se encuentra dentro de la esfera definida por © y ®.

### Ejemplo de uso del algoritmo

In [34]:
import pandas as pd
import numpy as np
import sklearn
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import NearestNeighbors
from sklearn.neighbors import KNeighborsClassifier

wine = datasets.load_wine()

In [21]:
pd.DataFrame({'feature name': wine.feature_names})

Unnamed: 0,feature name
0,alcohol
1,malic_acid
2,ash
3,alcalinity_of_ash
4,magnesium
5,total_phenols
6,flavanoids
7,nonflavanoid_phenols
8,proanthocyanins
9,color_intensity


In [22]:
pd.DataFrame({'target name': wine.target_names})

Unnamed: 0,target name
0,class_0
1,class_1
2,class_2


In [24]:
print(wine.data.shape)
print(wine.target.shape)

(178, 13)
(178,)


In [25]:
wine.df = pd.DataFrame(wine.data, columns = wine.feature_names)


In [27]:
wine.df.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [None]:
wine.df.describe()

In [28]:
X, y = wine.data, wine.target

In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.7, test_size = 0.3, random_state = 42)

In [68]:
neigh = KNeighborsClassifier(n_neighbors=50)

In [69]:
y_pred = neigh.fit(X_train, y_train).predict(X_test)

In [70]:
pd.DataFrame({'Prediction': wine.target_names[y_pred],
    'Actual': wine.target_names[y_test]})

Unnamed: 0,Prediction,Actual
0,class_0,class_0
1,class_0,class_0
2,class_2,class_2
3,class_0,class_0
4,class_1,class_1
5,class_0,class_0
6,class_1,class_1
7,class_2,class_2
8,class_2,class_1
9,class_2,class_2


In [71]:
neigh.score(X_test, y_test)

0.7962962962962963