## Elementos básicos de Clustering

Hasta ahora, para hacer el K_Means Clustering, hemos asignado el número de clusters (K) al azar.  Esto está bien para entender mejor el algoritmo pero debiera haber una forma automatizada de hacerlo...y lo hay.  Hay varias formas, pero utilizaremos el método del codo o "elbow".

## Importación de librerías relevantes

In [None]:
import pandas as pd
import plotly.express as px
from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

## Generación de datos sintéticos

Para ver cómo es el metodo, necesitamos unos datos. 

Generamos algunos datos utilizando una función de "conveniencia" que provee sklearn **make_blobs()**.  Esta función utiliza estos parámetros:

* **n_samples**    el número total de observaciones que se desean generar.
* **centers**      el número de centroides a generar.
* **cluster_std**  la desviación standard.

**make_blobs()** devuelve una tupla de dos valores:

* Un arreglo NumPy bi-dimensional con los valores x - y para cada una de las observaciones.
* Un arreglo NumPy uni-dimensional con las etiquetas del cluster al que pertenece cada observación.

In [None]:
features, etiquetas = make_blobs(
    n_samples=200,
    centers=3,
    cluster_std=2.75,
    random_state=42
)

Verificación de los datos generados

In [None]:
features[:5]

In [None]:
etiquetas[:5]

Es buena práctica estandarizar los datos

In [None]:
escalador = StandardScaler()
datos_escalados = escalador.fit_transform(features)
datos_escalados[:5]

## Iteraciones de K-Means

Cada vez que se ejecuta el método de K-Means, al terminar, calcula el valor de la suma de los errores cuadrados, o SSE (por sus siglas en inglés).  Para ejecutar el método "elbow", repetimos el K-Means varias veces, variando el valor de K, y registramos el SSE para cada K.

El instanciador de KMeans() puede manejar varios parámetros, entre ellos:

* **init**:  controla la técnica de inicialización.  El valor default es "random" pero se puede utilizar "k-means++" si se desea que converja más rápido
* **n-clusters**:  el número de clusters que deseamos
* **n_init**:  permite fijar cuantas veces se repite el proceso con cada valor de k.  Al terminar devuelve el valor más bajo de SSE que haya encontrado.  Valor default = 10
* **max_iter**:  el máximo número de iteraciones para cada K, si no ha habido convergencia
* **random_state**:  un valor semilla para que pueda ser reproducible el proceso

In [None]:
kmeans_kwargs = {
    "init": "random",
    "n_init": 10,
    "max_iter": 300,
    "random_state": 42,
}

# Creamos una lista para almacenar los valores de SSE
sse = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, **kmeans_kwargs)
    kmeans.fit(datos_escalados)
    sse.append(kmeans.inertia_)

## Ajustamos con nuestro datos

In [None]:
kmeans.fit(datos_escalados)

## Estadísticas generadas por kmeans

Las estadísticas de la corrida, de las indicadadas en **n_init**, que haya generado el valor más bajo de SSE, se pueden obtener como un atributo de kmeans, luego de correr el .fit. 

In [None]:
# El valor más bajo de SSE
kmeans.inertia_

In [None]:
# las ubicaciones finales de los centroides
kmeans.cluster_centers_

In [None]:
# El número de iteraciones que fueron necesarias para converger en esa corrida
kmeans.n_iter_

Finalmente, las asignaciones de clusters se almacenan en un arreglo NumPy uni-dimensional, en kmeans.labels_.

Si queremos ver las primeras 5 etiquetas:

In [None]:
kmeans.labels_[:5]

## Selección del número más adecuado de K

In [None]:
kmeans_kwargs = {
    "init": "random",
    "n_init": 10,
    "max_iter": 300,
    "random_state": 42,
}

# Creamos una lista para almacenar los valores de SSE
sse = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, **kmeans_kwargs)
    kmeans.fit(datos_escalados)
    sse.append(kmeans.inertia_)

Veamos los SEE

In [None]:
sse

Vemos que van en orden descendente para cada valor de K ascendente.

Grafiquémos los SSE vrs el valor de K

In [None]:
datos_SSE = pd.DataFrame(range(1, 11), columns = ["K"])
datos_SSE["SSE"] = sse
sse

In [None]:
fig = px.line(datos_SSE, x = "K" , y = "SSE", title='SSE vrs K')
fig.show()

En este caso es bastante fácil determinar cuál es el mejor valor de K.  Podría ser K = 2 pero aun hay bastante cambio entre K = 2 y K =3.  Después de K = 3 el cambio es muy poco así que seleccionamos K = 3 como el número óptimo de clusters (obviamente...así diseñamos este conjunto de datos.

No siempre es tan obvio, y para eso podemos utilizar la librería **kneed** para determinarlo automáticamente.

In [None]:
kl = KneeLocator(
    range(1, 11), sse, curve="convex", direction="decreasing"
)

kl.elbow

## Reconocimientos

Este tutorial es una adaptación de la guía que aparece en:  https://realpython.com/k-means-clustering-python/

**K-Means Clustering in Python: A Practical Guide**
by Kevin Arvai 

Traducción libre por Luis R. Furlán
Agosto de 2021