# k-Means.

El algoritmo k-means es un m√©todo de clustering o agrupamiento de datos que se utiliza para clasificar conjuntos de datos no etiquetados en grupos o cl√∫steres basados en la similitud de sus caracter√≠sticas.

Se le considera de aprendizaje no supervisado porque no necesita etiquetas para funcionar.

En Scikit-learn, la implementaci√≥n de k-means se encuentra en la clase <code><b>KMeans</b></code>. 

In [None]:
from sklearn.cluster import KMeans

Esta clase ofrece varias opciones de configuraci√≥n, como la cantidad de cl√∫steres que se desea encontrar, la inicializaci√≥n de los centroides y el n√∫mero m√°ximo de iteraciones. Pero antes de verlas, te voy a ense√±ar su uso b√°sico con el dataset de Iris (recuerda que son tres tipos de flores):

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data

Para inicializar <code>KMeans</code> es necesario especificar el n√∫mero de clusteres que queremos obtener, y esta es tal vez una de las debilidades del algoritmo: tienes que especificarle de antemano cu√°ntos cl√∫sters necesitas ‚Äì ya sabes que scikit-learn tiene valores por default para sus argumentos, el valor por default para este argumento es 8, pero nosotros vamos a dejarlo en 3:

In [None]:
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

 > üì¢ Adem√°s, recuerda que para que k-Means funcione correctamente, los datos deben estar en escalas similares, lo que quiere decir que debes tratar de escalar tus datos antes de introducirlos al modelo.

## Atributos

Una vez ya entrenado podemos encontrar los cl√∫steres de los datos utilizando el atributo <code>labels_</code>:

In [None]:
kmeans.labels_

Tambi√©n podemos acceder a los centroides que calculo, recuerda que hay tantos centroides como n√∫mero de cl√∫steres:

In [None]:
kmeans.cluster_centers_

En este caso, tenemos 3 centroides de 4 dimensiones cada uno porque nuestros datos de entrada eran 4-dimensionales.

Pero es mejor visualizado en una gr√°fica (esta gr√°fica solamente utiliza un par de las caracter√≠sticas del dataset):

In [None]:
from utils import view_centroids_iris

view_centroids_iris(kmeans, X)

Otro de los atributos es la inercia. La inercia mide la dispersi√≥n interna de los clusters, es decir qu√© tan lejos est√°n los puntos del centroide m√°s cercano. En general, el objetivo de k-Means es minimizar este valor. Una vez ya entrenado podemos acceder a esta informaci√≥n a trav√©s del atributo:

In [None]:
kmeans.inertia_

## Argumentos de <code>kmeans</code>

El algoritmo KMeans tiene varios argumentos importantes que se pueden ajustar para obtener los resultados deseados. A continuaci√≥n, te presento los argumentos m√°s importantes:

 - <code><b>n_clusters</b></code>: Especifica el n√∫mero de cl√∫steres que se desean en la soluci√≥n. Este es el par√°metro m√°s importante y debe ser ajustado cuidadosamente.

 - <code><b>init</b></code>: Especifica el m√©todo de inicializaci√≥n de los centroides de los cl√∫steres. Las opciones son "k-means++", "random" y un arreglo personalizado, "k-means++" es el m√©todo predeterminado y se recomienda para la mayor√≠a de los casos.

 - <code><b>n_init</b></code>: Especifica el n√∫mero de veces que el algoritmo se ejecutar√° con diferentes inicializaciones de centroides. La soluci√≥n final ser√° la mejor de todas las ejecuciones. El valor predeterminado es 10, pero se puede aumentar si se quiere encontrar una soluci√≥n m√°s precisa.

 - <code><b>max_iter</b></code>: Especifica el n√∫mero m√°ximo de iteraciones permitidas antes de que el algoritmo se detenga, incluso si no ha convergido. El valor predeterminado es 300.

 - <code><b>tol</b></code>: Especifica la tolerancia para la convergencia. Si la distancia entre el centroide y su centroide anterior es menor que <code><b>tol</b></code>, se considera que el algoritmo ha convergido. El valor predeterminado es <code>1e-4</code>.

## Jugando con los argumentos

In [None]:
from utils import plot_centroids

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=300, centers=6, cluster_std=1, random_state=42)

plt.scatter(X[:,0],X[:,1], c=y)

### <code>n_clusters</code>

Tal vez los valores m√°s importantes para tunear sean la cantidad de clusters:

In [None]:
# Variando n_clusters
n_clusters_list = [2, 3, 4, 5, 6, 7]

trained_kmeans = []
titles = []
for n_clusters in n_clusters_list:
    kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init='auto')
    kmeans.fit(X)
    trained_kmeans.append(kmeans)
    titles.append(f"n_clusters = {n_clusters}")
plot_centroids(input_features=X, trained_kmeans=trained_kmeans, titles=titles)

### Elbow method ‚Äì la regla del codo

La gran mayor√≠a de las veces es imposible visualizar los centroides de nuestros datos (por aquello de la gran dimensionalidad). Pero puedes hacer uso de ‚Äúla regla del codo‚Äù. La del codo es una heur√≠stica usada para determinar el n√∫mero √≥ptimo de clusteres. Consiste en buscar un punto de inflexi√≥n en el que la inercia deja de cambiar dr√°sticamente.

In [None]:
inertias = [kmeans.inertia_ for kmeans in trained_kmeans]

fig, ax = plt.subplots(figsize=(8, 6))
ax.plot(n_clusters_list, inertias , marker='o')
ax.set_xlabel('N√∫mero de clusters')
ax.set_ylabel('Inercia')
ax.set_title('Regla del codo')

Adicionalmente, recuerda que hay otras m√©tricas que ya vimos previamente en el m√≥dulo de m√©tricas de agrupamiento.

### <code>init</code>

La forma de inicializar los clusters

In [None]:
init_methods = ['k-means++', 'random', np.array([[-10, -10] for _ in range(6)])]
init_titles = ['k-means++', 'random', 'custom']

trained_kmeans = []
titles = []
for title, init in zip(init_titles, init_methods):
    kmeans = KMeans(n_clusters=6, init=init, random_state=42, n_init=1)
    kmeans.fit(X)
    trained_kmeans.append(kmeans)
    titles.append(f"init = {title}")
plot_centroids(input_features=X, trained_kmeans=trained_kmeans, titles=titles)

## <code>max_iter</code>

El n√∫mero m√°ximo de iteraciones

In [None]:
# Variando max_iter
max_iter_list = [1, 2, 3, 4, 5, 300]

initial_centroids = np.array([[0, 0] for _ in range(6)])

trained_kmeans = []
titles = []
for max_iter in max_iter_list:
    kmeans = KMeans(n_clusters=6, max_iter=max_iter, init=initial_centroids, n_init=1, random_state=42)
    kmeans.fit(X)
    trained_kmeans.append(kmeans)
    titles.append(f'max_iter: {max_iter}')
    
plot_centroids(input_features=X, trained_kmeans=trained_kmeans, titles=titles)

## Kmeans y grandes datasets

Kmeans es un algoritmo que funciona bien para datasets de tama√±o moderado. Sin embargo se vuelve muy poco eficiente cuando se utiliza para datasets grandes, tanto en n√∫mero de filas u observaciones, como en n√∫mero de columnas o features.

Dentro de Scikit-Learn existe otro algoritmo llamado Mini-batch k-Means, que en lugar de operar sobre todo el dataset a la vez (como es el caso de kMeans) opera sobre un subconjunto de elementos a la vez.

 > üìö De tarea, ¬øpor qu√© no lo usas y ves su comportamiento? lo puedes importar de <code>sklearn.cluster</code> como <code>MiniBatchKMeans</code>.

## En conclusi√≥n

KMeans es un algoritmo que puedes usar cuando:

 1. Necesitas agrupar datos no etiquetados en funci√≥n de su similitud, ya que KMeans busca dividir el conjunto de datos en grupos (clusters) compactos y separados.

 1. Tienes un conjunto de datos de tama√±o moderado y dimensionalidad no muy alta

 1. Deseas un algoritmo f√°cil de implementar y entender

Pero deber√≠as tener cuidado de usarlo en:

 1. Datos con ruido, valores outliers o datos que se superponen entre diferentes grupos

 1. Datos de alta dimensionalidad, ya que KMeans puede verse afectado por la "maldici√≥n de la dimensionalidad"

 1. Conjuntos de datos extremadamente grandes, en cuyo caso podr√≠as considerar el uso de Mini-Batch KMeans u otros algoritmos de clustering m√°s escalables.

 1. Situaciones en las que no tienes una idea aproximada del n√∫mero de clusters, ya que KMeans requiere que especifiques el n√∫mero de clusters de antemano.
