# K Nearest Neighbors

La intuición detrás del algoritmo KNN es uno de los algoritmos de aprendizaje automático supervisados ​​más simples. Simplemente calcula la distancia de un nuevo punto de datos a todos los demás puntos de datos de entrenamiento. La distancia puede ser de cualquier tipo, por ejemplo, Euclidiana o Manhattan, etc. Luego selecciona los puntos de datos K más cercanos, donde K puede ser cualquier número entero. Finalmente, asigna el punto de datos a la clase a la que pertenece la mayoría de los K puntos de datos.

In [1]:
#Importamos las Bibliotecaas a utilizar
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
#Importar el conjunto de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

#asigna nombres a las columnas del dataset
names = ['sepal-lenght','sepal-width','petal-lenght','petal-width','class']

#leer el dataset con pandas dataframe
dataset = pd.read_csv(url, names=names)

In [3]:
#para visualizar el conjunto de datos
dataset.head()

Unnamed: 0,sepal-lenght,sepal-width,petal-lenght,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


# lo que muestra cada fila de nuestro conjunto de datos

sepal_lenght = longitud del sepalo sepal_width = ancho de separacion petal-lenght = longitud del petalo class=Clase


In [4]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

#La variable X contiene las primeras 4 columnas del conjunto de datos
#la variable y contiene las etiquetas

# Split de prueba de tren

Para evitar un ajuste excesivo, dividiremos nuestro conjunto de datos en divisiones de entrenamiento y prueba, lo que nos da una mejor idea de cómo se desempeñó nuestro algoritmo durante la fase de prueba. De esta forma, nuestro algoritmo se prueba en datos no vistos, como lo sería en una aplicación de producción.


In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

#Divide el conjunto de datos en 80% de datos de tren y 20% de datos de prueba 
#El total de registros son 150, 
#el conjunto de entrenamiento contendra 120 registros y
#El conjunto de prueba contiene 30 de esos registros 

# Escalado de Caracteristicas

Antes de hacer predicciones reales, siempre es una buena práctica escalar las características para que todas puedan evaluarse de manera uniforme.

El algoritmo de descenso de gradiente (que se usa en el entrenamiento de redes neuronales y otros algoritmos de aprendizaje automático) también converge más rápido con características normalizadas.


In [6]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# Entrenamiento y Predicciones

Es extremadamente sencillo entrenar el algoritmo KNN y hacer predicciones con él, especialmente cuando se usa Scikit-Learn.


In [7]:
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=5)
classifier.fit(X_train,y_train)

#El primer paso es importar la clase KNeighborsClassifier desde sklearn
#Luego se inicializa con un parametro(n_neighbors)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [8]:
#Se hacen las predicciones sobre nuestros datos de prueba
y_pred = classifier.predict(X_test)

#  Evaluar el algoritmo

vamos a evaluar el algoritmo mediante confusion_matrix, classification_repory del sklearn.metrics


In [9]:
from sklearn.metrics import classification_report, confusion_matrix
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[ 9  0  0]
 [ 0 13  0]
 [ 0  0  8]]
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         9
Iris-versicolor       1.00      1.00      1.00        13
 Iris-virginica       1.00      1.00      1.00         8

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30



Los resultados muestran que nuestro algoritmo KNN pudo clasificar los 30 registros en el conjunto de prueba pero cabe resltar que KNN no siempre funciona tan bien con alta dimensionalidad o caracteristicas categoricas

# Comparacion de la Tasa de error con el valor K

En la sección de capacitación y predicción no hay forma de saber antes qué valor de K produce los mejores resultados en el primer intento. Elegimos al azar 5 como valor K y nos dio una precisión del 100%.

Una forma de ayudarlo a encontrar el mejor valor de K es trazar el gráfico del valor de K y la tasa de error correspondiente para el conjunto de datos.

Trazaremos el error medio para los valores predichos del conjunto de pruebas para todos los valores K entre 1 y 40.

Para hacerlo, primero calculemos la media del error para todos los valores pronosticados donde K varía entre 1 y 40.


In [11]:
error = []

#calcular error para valores K entre 1 y 40
for i in range(1,40):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train, y_train)
    pred_i = knn.predict(X_test)
    error.append(np.mean(pred_i != y_test))
    
# La secuencia de comandos anterior ejecuta un bucle del 1 al 40. En cada iteración, se calcula el error medio para los valores pronosticados 
# del conjunto de prueba y el resultado se agrega a la errorlista.