##K Vecinos mas cercanos
K-Nearest-Neighbor (KNN) es un algoritmo basado en instancia de tipo supervisado de Aprendizaje Automatico (Machine Learning). Puede usarse para clasificar nuevas muestras (valores discretos) o para predecir (regresión, valores continuos). Al ser un método sencillo, es ideal para introducirse en el mundo del  Aprendizaje Automático. Sirve esencialmente para clasificar valores buscando los puntos de datos “más similares” (por cercanía) aprendidos en la etapa de entrenamiento y haciendo conjeturas sobre nuevos puntos basado en esa clasificación.

#¿Que es el algoritmo de knn?

Es un método que simplemente busca en las observaciones más cercanas a la que se está tratando de predecir y clasifica el punto de interés basado en la mayoría de datos que le rodean. Este algoritmo es:

* **Supervisado:** esto -brevemente- quiere decir que tenemos etiquetado nuestro conjunto de datos de entrenamiento, con la clase o resultado esperado dada “una fila” de datos.
* **Basado en Instancia:** Esto quiere decir que nuestro algoritmo no aprende explícitamente un modelo (como por ejemplo en Regresión Logística o árboles de decisión). En cambio memoriza las instancias de entrenamiento que son usadas como “base de conocimiento” para la fase de predicción.

#¿Como funciona KNN?


1. Calcular la distancia entre el ejemplo a clasificar y el resto de ejemplos del dataset de entrenamiento.
2. Seleccionar los “k” elementos más cercanos (con menor distancia, según la función que se use)
3. Realizar una “votación de mayoría” entre los k puntos: los de una clase/etiqueta que dominen decidirán su clasificación final.

Teniendo en cuenta el punto 3, veremos que para decidir la clase de un punto es muy importante el valor de k, pues este terminará casi por definir a qué grupo pertenecerán los puntos, sobre todo en las “fronteras” entre grupos. Por ejemplo -y a priori- yo elegiría valores impares de k para desempatar (si las features que utilizamos son pares). No será lo mismo tomar para decidir 3 valores que 13. Esto no quiere decir que necesariamente tomar más puntos implique mejorar la precisión. Lo que es seguro es que cuantos más “puntos k”, más tardará nuestro algoritmo en procesar y darnos respuesta.

Las formas más populares de “medir la cercanía” entre puntos son la distancia Euclidiana (la “de siempre”) o la Cosine Similarity (mide el ángulo de  los vectores, cuanto menores, serán similares). Recordemos que este algoritmo -y prácticamente todos en ML- funcionan mejor con varias características de las que tomemos datos (las columnas de nuestro dataset). Lo que entendemos como “distancia” en la vida real, quedará abstracto a muchas dimensiones que no podemos “visualizar” fácilmente.

##Para realizar el algoritmo KNN

1.Se cargan los datos

2.Se inicializa K con el número de vecinos que usted elija.

3.Para cada ejemplo en los datos:

  3.1 Se calcula la distancia entre el ejemplo de la consulta y el ejemplo actual a partir de los datos.

  3.2 Sume la distancia y el índice del ejemplo a una colección ordenada

4.Se ordena la colección ordenada de distancias e índices de menor a mayor (en orden ascendente) por las distancias

5.Elija las primeras entradas K de la colección clasificada

6.Obtener las etiquetas de las entradas K seleccionadas

7.Si es regresión, devuelve la media de las etiquetas K

8.Si es clasificación, devuelve las etiquetas K

Entonces, primero vamos a cargar las dependencias y la base de datos:


In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
sns.set_palette('husl')
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

data = pd.read_csv('../content/sample_data/iris.csv')

FileNotFoundError: [Errno 2] No such file or directory: '../content/sample_data/iris.csv'

Comando para observar los primeros 5 datos contenidos en la base de datos

In [None]:
data.head()

: 

Con este comando, podemos observar tambien la informacion general de la base de datos que tenemos

In [None]:
data.info()

: 

Tambien podemos solicitar una descripcion

In [None]:
data.describe()

: 

Inclusive podemos contar las diferentes clases dentro del dataset utilizando la columna de 'Species'

In [None]:
data['variety'].value_counts()

: 

In [None]:
tmp = data
g = sns.pairplot(tmp, hue='variety', markers='+')
plt.show()

: 

In [None]:
g = sns.violinplot(y='variety', x='sepal.length', data=data, inner='quartile')
plt.show()
g = sns.violinplot(y='variety', x='sepal.width', data=data, inner='quartile')
plt.show()
g = sns.violinplot(y='variety', x='petal.length', data=data, inner='quartile')
plt.show()
g = sns.violinplot(y='variety', x='petal.width', data=data, inner='quartile')
plt.show()

: 

In [None]:
X = data.drop(['variety'], axis=1)
y = data['variety']
print(X.head())
print(X.shape)
print(y.head())
print(y.shape)

: 

In [None]:
# experimenting with different n values
k_range = list(range(1,26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X, y)
    y_pred = knn.predict(X)
    scores.append(metrics.accuracy_score(y, y_pred))

plt.plot(k_range, scores)
plt.xlabel('Value of k for KNN')
plt.ylabel('Accuracy Score')
plt.title('Accuracy Scores for Values of k of k-Nearest-Neighbors')
plt.show()

: 

In [None]:
logreg = LogisticRegression()
logreg.fit(X, y)
y_pred = logreg.predict(X)
print(metrics.accuracy_score(y, y_pred))

: 

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5)
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

: 

In [None]:
# experimenting with different n values
k_range = list(range(1,26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    scores.append(metrics.accuracy_score(y_test, y_pred))

plt.plot(k_range, scores)
plt.xlabel('Value of k for KNN')
plt.ylabel('Accuracy Score')
plt.title('Accuracy Scores for Values of k of k-Nearest-Neighbors')
plt.show()

: 

In [None]:
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
y_pred = logreg.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

: 

In [None]:
knn = KNeighborsClassifier(n_neighbors=12)
knn.fit(X, y)

# make a prediction for an example of an out-of-sample observation
knn.predict([[6, 2, 5, 2]])
#Media 5.843333	3.057333	3.758000	1.199333

: 