# K-nearest Neighbours

SI bien lo hemos venido usando ya en otras clases, el algoritmo K-Nearest Neighbour (KNN) es un algoritmo de clasificación supervisado que se basa en el concepto de "votación de vecindarios". La idea es que para predecir la clase de una muestra desconocida, se buscan las K muestras más cercanas en el espacio de características y se asigna la clase mayoritaria de esas K muestras a la muestra desconocida.

![KNN](https://miro.medium.com/max/640/1*70N-3n93NIfu5vKSUAwiqg.gif)

Lo que se ve en la imagen es precisamente la resolución del problema de clasisficación de las flores Iris con 4 vecinos, en código, esto se podría traducir en los siguiente:

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

data = problema.data
target = problema.target

# Crear un clasificador KNN
clf = KNeighborsClassifier(n_neighbors=4)

# Entrenar el modelo con los datos de entrenamiento
clf.fit(X_train, y_train)

# Hacer predicciones
y_pred = clf.predict(X_test)

# Imprimir la predicción
accuracy = clf.score(X_test, y_test)
print("Precisión: ", accuracy)

La formula matemática para calcular la distancia entre dos puntos en el espacio de características se puede expresar de diversas formas, pero una de las más comunes es la distancia euclidiana:

$$d(x, x') = \sqrt{(x1 - x'1)^2 + (x2 - x'2)^2 + ... + (xd - x'd)^2}$$

donde $x$ e $x'$ son dos puntos en el espacio de características y $d$ es la cantidad de dimensiones.

Una vez que se han calculado las distancias entre la muestra desconocida y todas las muestras de entrenamiento, se pueden ordenar las muestras de entrenamiento en orden ascendente según su distancia a la muestra desconocida y se pueden seleccionar las $K$ muestras más cercanas.

La predicción de la clase se realiza mediante la votación de las clases de las K muestras más cercanas, es decir, se cuentan cuántos de los vecinos tienen cada clase y se asigna la clase más común a la muestra desconocida.

En resumen, el algoritmo KNN se puede resumir en los siguientes pasos:

1. Calcular la distancia entre la muestra desconocida y todas las muestras de entrenamiento.
1. Ordenar las muestras de entrenamiento en orden ascendente según su distancia a la muestra desconocida.
1. Seleccionar las $K$ muestras más cercanas.
1. Votar las clases de las $K$ muestras más cercanas.
1. Asignar la clase más común a la muestra desconocida.

# Uso para clustering
En la misma línea de actuación existe otra técnica que tiene como particularidad que no utiliza la salida desea para el ajusto si no que cae dentro de lo que se conoce como aprendizaje no supervisado. Vamos a ver un ejemplo rápido basado en este algoritmo que se conoce ocmo K-means

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans  
%matplotlib inline

np.random.seed(42)
m = 500
X1 = 2 * np.random.rand(m, 1)
X2 = (4 + 3 * X1 + np.random.randn(m, 1))

datos=np.concatenate((X1,X2),axis=1)
print(datos)

In [None]:
plt.scatter(datos[:,0],datos[:,1], label='True Position')  

In [None]:
kmeans = KMeans(n_clusters=2)  
kmeans.fit(datos) 

In [None]:
 print(kmeans.cluster_centers_) 

al indicar que el número de cluster es 2, devuelve las coordenadas del centroide de cada uno de los dos clusters.

In [None]:
print(kmeans.labels_)  

le pedimos imprimir en pantalla en este caso es el índice del cluster al que pertenece cada uno de los samples.

In [None]:
plt.scatter(datos[:,0],datos[:,1], c=kmeans.labels_, cmap='rainbow') 

In [None]:
plt.scatter(datos[:,0],datos[:,1], c=kmeans.labels_, cmap='rainbow')  
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='black')  

 mismo ejemplo con 5 clusters.

In [None]:
kmeans = KMeans(n_clusters=5)  
kmeans.fit(datos) 
plt.scatter(datos[:,0],datos[:,1], c=kmeans.labels_, cmap='rainbow')  
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='black')  

In [None]:
kmeans.labels_

In [None]:
kmeans.labels_.size

In [None]:
y_true_val = np.random.randint(5, size=500)
y_true_val.size

In [None]:
from sklearn.metrics.cluster import normalized_mutual_info_score
normalized_mutual_info_score(y_true_val, kmeans.labels_,average_method="arithmetic")

In [None]:
plt.scatter(datos[:,0],datos[:,1], c=y_true_val, cmap='rainbow')  

In [None]:
y_true_val= kmeans.labels_
print(y_true_val[1:5])
y_true_val[y_true_val == 2] = 1
print(y_true_val[1:5])

plt.scatter(datos[:,0],datos[:,1], c=y_true_val, cmap='rainbow')  

In [None]:
kmeans.fit(datos) 
normalized_mutual_info_score(y_true_val, kmeans.labels_,average_method="arithmetic")

In [None]:
from sklearn.metrics.cluster import adjusted_rand_score
adjusted_rand_score(y_true_val, kmeans.labels_)