## ¿Qué es un Cluster?

> ***Un cluster es un grupo de datos que comparten características similares entre sí y que se encuentran más cercanos entre ellos en un espacio de características en comparación con otros grupos.***

En el contexto del análisis de datos, los clusters permiten identificar patrones o segmentos naturales dentro de un conjunto de datos sin la necesidad de etiquetas o clases predeterminadas.

### Importar paquetes

In [1]:
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

### Carga de Datos

In [2]:
df = pd.read_csv('./data/retailmax.csv')

# Algoritmo K-means

> El algoritmo K-Means es uno de los métodos más populares y sencillos para la agrupación (clustering) de datos no supervisada. Su objetivo principal es dividir un conjunto de datos en un número predefinido de grupos, o "clusters", de tal manera que los elementos dentro de cada grupo sean más similares entre sí que a los elementos de otros grupos.

## Funcionamiento del algoritmo
El algoritmo K-Means sigue un proceso iterativo para llegar a la agrupación final.
### Inicialización
Se seleccionan aleatoriamente k puntos como centroides iniciales. Estos puntos pueden ser seleccionados de manera aleatoria del conjunto de datos o mediante otros métodos como K-Means++, que optimiza esta elección inicial.
### Asignación de clusters
Cada punto de datos se asigna al cluster cuyo centroide esté más cercano. Esto se hace calculando la distancia (usualmente la distancia euclidiana) entre el punto y todos los centroides, y asignando el punto al centroide más cercano.
### Recomputación de centroides
Una vez que todos los puntos han sido asignados a un cluster, se recalculan los centroides de cada cluster. El nuevo centroide es el promedio de todos los puntos asignados a ese cluster.
### Repetición
Los pasos 2 y 3 se repiten iterativamente. En cada iteración, los puntos de datos pueden cambiar de cluster según los nuevos centroides calculados.
### Convergencia
El algoritmo continúa hasta que se cumpla uno de los siguientes criterios:
- **Convergencia**: Los centroides dejan de cambiar significativamente entre iteraciones.
- **Número de iteraciones**: Se alcanza un número máximo de iteraciones.
- **Estabilidad**: Ningún punto de datos cambia de cluster entre iteraciones consecutivas.

# Implementación
Ya tenemos nuestros paquetes importados y nuestros datos cargados. Comencemos a implementar el algoritmo de clustering.
Lo primero que nos tenemos que preguntar es:

>**¿qué features vamos a usar para construir los clusters?**

Es fundamental seleccionar features que realmente capturen la variabilidad y los patrones de comportamiento dentro del conjunto de datos, como la edad, el ingreso anual, la puntuación de gasto, y cualquier otra característica relevante que pueda influir en las decisiones de compra y comportamiento del cliente.

En nuestro contexto específico, las mejores variables para hacer clustering son la edad, el ingreso anual y la puntuación de gasto debido a que estas características proporcionan una visión integral de los patrones de comportamiento de los clientes. La edad puede influir en las preferencias de compra y el estilo de vida; el ingreso anual nos da una idea del poder adquisitivo, y la puntuación de gasto refleja directamente los hábitos de consumo dentro de la tienda. Juntas, estas variables nos permiten identificar grupos de clientes con comportamientos y necesidades similares, lo que es crucial para diseñar estrategias de marketing personalizadas y efectivas.

O bien, quizá sirve mejor verlo por eliminación. El Id del cliente no nos sirve porque es un identificador único que no aporta información relevante para el análisis de comportamiento o segmentación; simplemente diferencia a los clientes de manera individual sin ofrecer características comparables. El sexo, aunque claramente influye en los patrones de compra, lo dejaremos a un lado inicialmente porque es una variable categórica.

> Nos enfocaremos primero en las variables numéricas para construir los clusters, y luego podremos incorporar el sexo para un análisis más detallado.

### Selección de features

In [3]:
features = df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

Ahora tenemos un nuevo DataFrame llamado features que contiene únicamente las columnas 'Age', 'Annual Income (k$)', 'Spending Score (1-100)'

> Ojo con los índices 👀
> **Esto es muy muy importante**

Veamos el output de los siguientes comandos:

In [4]:
df.sample(5, random_state=42)

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
95,96,Male,24,60,52
15,16,Male,22,20,79
30,31,Male,60,30,4
158,159,Male,34,78,1
128,129,Male,59,71,11


Y ahora

In [5]:
features.sample(5, random_state=42)

Unnamed: 0,Age,Annual Income (k$),Spending Score (1-100)
95,24,60,52
15,22,20,79
30,60,30,4
158,34,78,1
128,59,71,11


No importa que hayamos quitado algunas columnas de `df` al crear features. Los índices se conservan. Esto será muy útil en un momento.

### Estandarización

No nos salvamos de hacer algunas transformaciones a nuestros datos para poder ajustar nuestro modelo con mayor precisión y eficiencia. Sin embargo, el proceso de escalamiento que haremos será muy simple. Simplemente haremos

In [6]:
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

Esto normalizará nuestras características para que tengan una media de 0 y una desviación estándar de 1. Al escalar las variables de esta manera, nos aseguramos de que todas contribuyan de manera equitativa al proceso de clustering, evitando que alguna característica con un rango más amplio domine el modelo. Esto es especialmente importante en algoritmos como K-Means, que dependen de las distancias euclidianas para agrupar los datos.

### Inspección rápida

In [7]:
type(scaled_features)

numpy.ndarray

Tenemos un numpy.ndarray, y por lo tanto no podemos ejecutar el método .head() para ver algunos datos, entonces tendremos que hacerlo a la antigua:

In [8]:
scaled_features.shape

(200, 3)

Y ahora sí veamos algunos datos:

```python
scaled_fatures[0:3]
```

```bash
> array([[-1.42456879, -1.73899919, -0.43480148],
       [-1.28103541, -1.73899919,  1.19570407],
       [-1.3528021 , -1.70082976, -1.71591298]])
```

Estos ya no los entendemos tan fácilmente, pero sabemos que la primera posición de cada array corresponde a `Age`, la segunda a `Annual Income (k$)` y finalmente la tercera a `Spending Score (1-100)`.

### Creación de clusters
Implementaremos el modelo KMeans de Scikit Learn. Ejecuta el siguiente código:

In [10]:
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

Explicación del código anterior línea por línea:

**Línea 1: Configuración del modelo**
```python
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, n_init=10, random_state=42)
```
- `n_clusters=3`: Define que se crearán **3 grupos** (clusters)
- `init='k-means++'`: Método inteligente para elegir los centroides iniciales, evitando malas inicializaciones
- `max_iter=300`: Máximo de **300 iteraciones** para que el algoritmo converja
- `n_init=10`: Ejecuta el algoritmo **10 veces** con diferentes inicializaciones y elige la mejor
- `random_state=42`: Semilla para reproducibilidad de resultados

**Línea 2: Entrenamiento y predicción**
```python
clusters = kmeans.fit_predict(scaled_features)
```
- `fit_predict()`: Combina dos pasos:
  1. **fit()**: Entrena el modelo encontrando los centroides óptimos
  2. **predict()**: Asigna cada punto a su cluster más cercano
- `scaled_features`: Los datos normalizados de entrada
- `clusters`: Array con la etiqueta de cluster (0, 1 o 2) para cada observación

**Nota importante**: K-Means es **aprendizaje NO supervisado**, no supervisado. No requiere etiquetas previas; él mismo descubre los grupos naturales en los datos.

Ahora veamos el contenido de estas dos variables kmeans y clusters:

In [11]:
kmeans

0,1,2
,n_clusters,3
,init,'k-means++'
,n_init,10
,max_iter,300
,tol,0.0001
,verbose,0
,random_state,42
,copy_x,True
,algorithm,'lloyd'


In [12]:
clusters

array([0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 0, 2, 0, 0, 0, 0, 0, 2, 0, 0, 0,
       2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 0,
       2, 0, 2, 0, 0, 0, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0,
       2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 0,
       0, 2, 2, 0, 2, 2, 0, 0, 2, 0, 2, 0, 0, 2, 2, 0, 2, 0, 2, 2, 2, 2,
       2, 0, 2, 0, 0, 0, 2, 2, 2, 2, 0, 2, 1, 1, 0, 1, 2, 1, 2, 1, 2, 1,
       0, 1, 0, 1, 2, 1, 0, 1, 2, 1, 0, 1, 0, 1, 2, 1, 2, 1, 2, 1, 2, 1,
       2, 1, 2, 1, 2, 1, 2, 1, 0, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1,
       2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1,
       1, 1], dtype=int32)

Parece ser que `clusters` contiene un array de puros 0,1 y 2...

Corramos nuevamente el código pero cambiemos `n_clusters` a 5.

In [13]:
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

In [14]:
kmeans

0,1,2
,n_clusters,5
,init,'k-means++'
,n_init,10
,max_iter,300
,tol,0.0001
,verbose,0
,random_state,42
,copy_x,True
,algorithm,'lloyd'


In [15]:
clusters

array([1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1,
       0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 4, 1, 0, 1,
       0, 1, 4, 1, 1, 1, 4, 1, 1, 4, 4, 4, 4, 4, 1, 4, 4, 1, 4, 4, 4, 1,
       4, 4, 1, 1, 4, 4, 4, 4, 4, 1, 4, 4, 1, 4, 4, 1, 4, 4, 1, 4, 4, 1,
       1, 4, 4, 1, 4, 4, 1, 1, 4, 1, 4, 1, 1, 4, 4, 1, 4, 1, 4, 4, 4, 4,
       4, 1, 3, 1, 1, 1, 4, 4, 4, 4, 1, 3, 2, 2, 3, 2, 3, 2, 3, 2, 3, 2,
       3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2,
       3, 2, 3, 2, 3, 2, 4, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2,
       3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2,
       3, 2], dtype=int32)

**Ahora tenemos 0,1,2,3,4.**

Seguramente ya lo adivinaste. Estos números (0,1,2,3,4) representan los clusters. Si ves bien el código, especificamos que queremos generear 5 clusters, o, mejor dicho, agrupar nuestros datos en 1 de 5 clusters posibles:

In [16]:
len(clusters)

200

kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)

**Hagamos la prueba con 10 clusters**

In [17]:
kmeans = KMeans(n_clusters=10, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)
clusters

array([9, 3, 9, 3, 9, 3, 9, 3, 7, 3, 7, 3, 7, 3, 9, 3, 9, 3, 7, 3, 9, 3,
       7, 3, 7, 3, 9, 3, 9, 3, 7, 3, 7, 3, 7, 3, 9, 3, 9, 3, 6, 3, 1, 3,
       7, 3, 1, 4, 4, 9, 1, 4, 4, 6, 1, 1, 1, 6, 4, 1, 6, 4, 6, 1, 6, 4,
       1, 6, 4, 4, 6, 1, 6, 6, 6, 4, 1, 1, 4, 1, 6, 1, 6, 1, 4, 1, 1, 4,
       4, 1, 6, 4, 1, 1, 4, 4, 1, 4, 1, 4, 4, 1, 6, 4, 1, 4, 6, 1, 6, 6,
       6, 4, 1, 4, 4, 4, 6, 1, 1, 1, 4, 1, 1, 0, 4, 0, 1, 0, 5, 0, 5, 0,
       4, 0, 2, 0, 5, 0, 2, 0, 5, 0, 4, 0, 2, 0, 5, 0, 2, 0, 5, 0, 5, 0,
       5, 0, 2, 0, 2, 0, 5, 0, 2, 0, 5, 0, 2, 0, 2, 0, 2, 0, 2, 0, 5, 0,
       5, 0, 5, 0, 2, 0, 5, 0, 2, 0, 5, 8, 2, 8, 2, 8, 2, 8, 2, 8, 2, 8,
       2, 8], dtype=int32)

Excelente. Entonces ahora tenemos el cluster al que pertenece cada uno de nuestros datos escalados. Recuerda que nuestros datos escalados son los siguientes (veamos los primeros 3)

```bash
> array([[-1.42456879, -1.73899919, -0.43480148],  # <----- fila 0
       [-1.28103541, -1.73899919,  1.19570407],    # <----- fila 1
       [-1.3528021 , -1.70082976, -1.71591298]])   # <----- fila 2
```

Los primeros 3 valores de nuestro array de clusters son:

```bash
array([9, 3, 9, ... ]
```

Esto quiere decir que podemos “juntar” nuestros datos escalados con nuestros clusters:

| datos escalados                                | cluster asociado |
|------------------------------------------------|------------------|
| [-1.42456879, -1.73899919, -0.43480148]        | 9                |
| [-1.28103541, -1.73899919,  1.19570407]        | 3                |
| [-1.3528021 , -1.70082976, -1.71591298]        | 9                |

***Bueno sí, pero yo quiero saber a qué cluster pertenece cada cliente… estos números no me dicen nada.***

Si estás pensando esto, tu preocupación es bastante válida. Por suerte, la solución es muy simple y elegante.

Observa bien el código que hemos escrito hasta ahora

> **¿En algún momento alteramos el orden de las filas de nuestro conjunto de datos? 🤔💭**
> **¡NO!**

El orden es exactamente el mismo que cuando leímos el archivo la primera vez. Entonces el paso final será “pegar” este array de Clusters como una nueva columna a nuestro conjunto de datos original.

```python
df["Cluster"] = clusters
```

Qué elegancia en efecto.

Ahora sí vemos algunos datos de nuestro conjunto original:

In [18]:
df.sample(5, random_state=42)

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
95,96,Male,24,60,52
15,16,Male,22,20,79
30,31,Male,60,30,4
158,159,Male,34,78,1
128,129,Male,59,71,11


Notamos que tenemos una nueva columna y ésta dice a qué cluster pertenece el cliente. 

## Visualización de clusters
No se aprecia el poder de clustering hasta que lo vemos en una gráfica. Veamos.

In [24]:
print(df.columns)
print(df.head())

Index(['CustomerID', 'Gender', 'Age', 'Annual Income (k$)',
       'Spending Score (1-100)'],
      dtype='object')
   CustomerID  Gender  Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male   19                  15                      39
1           2    Male   21                  15                      81
2           3  Female   20                  16                       6
3           4  Female   23                  16                      77
4           5  Female   31                  17                      40


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster', palette='Set1')
plt.title('Clusters de clientes')
plt.show()

ValueError: Could not interpret value `clusters` for `hue`. An entry with this name does not appear in `data`.

<Figure size 1000x600 with 0 Axes>

Este código nos producirá una gráfica con el ingreso anual en el eje X y la puntiación de RetailMax en el eje Y.

## Optimización

Hemos implementado correctamente un algoritmo de clustering, sin embargo, hay mucho lugar para optimizarlo. Específicamente, debemos preguntarnos lo siguiente:

**¿Cuál es el número óptimo de clusters?**

### The Elbow Method (el método del codo)
>*El Elbow Method (método del codo) es un método heurístico utilizado para determinar el número óptimo de clusters en un conjunto de datos al aplicar algoritmos de clustering, como K-Means. El método implica ejecutar el algoritmo de clustering varias veces con un número creciente de clusters y luego graficar la inercia (o suma de los errores cuadráticos dentro de los clusters) frente al número de clusters. El punto en el que la tasa de disminución de la inercia comienza a ser menor, formando un "codo" en la gráfica, se considera el número óptimo de clusters, ya que agrega la mayor cantidad de información sin añadir complejidad innecesaria.*

![The Elbow Method](https://hybridge-hub-production.s3.amazonaws.com/uploads/9c361f52-a973-485f-a321-f36bae432ac8/2d2f0039-ee4f-45a9-87a5-9e5f6b494979/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIATRT4QVECTMD5UKPQ%2F20251008%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251008T203116Z&X-Amz-Expires=60&X-Amz-Signature=05ba32ad2828e315bc8af968959b01a7bec99b72cde944ef6fba2b54a5562651&X-Amz-SignedHeaders=host)

El método consiste en crear una gráfica como la que nos muestra la imagen. Esto nos dará una ayuda visual para elegir el número de clusters. Debemos observar la imagen y elegir el número en donde la curva cambia de una pendiente pronunciada a una más suave, como si formara un "codo". Ese punto es donde el número de clusters es el adecuado, porque añadir más clusters después de ese punto no mejora mucho la agrupación.

In [None]:
# Función para calcular la Suma de Cuadrados Dentro del Cluster (WCSS)
def calcular_wcss(datos):
    wcss = []
    for n in range(1, 11):
        kmeans = KMeans(n_clusters=n, init='k-means++', max_iter=300, n_init=10, random_state=42)
        kmeans.fit(datos)
        wcss.append(kmeans.inertia_)
    return wcss

# Calcular el WCSS para diferentes números de clusters
wcss = calcular_wcss(scaled_features)

# Graficar el método del codo
plt.plot(range(1, 11), wcss)
plt.title('Método del codo')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.show()

>*WCSS (Within-Cluster Sum of Squares, o Suma de Cuadrados Dentro del Cluster) es una métrica utilizada en algoritmos de clustering, como K-Means, para medir la variabilidad interna dentro de los clusters. Específicamente, WCSS es la suma de las distancias cuadradas de cada punto de datos al centroide del cluster al que pertenece.*

Podemos ver entonces que un número adecuado de clusters podría ser 5 o 6. Una vez que tenemos este número, podemos ajustar el modelo nuevamente.

In [None]:
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)
df['Cluster'] = clusters

# mostrar gráfica
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster', palette='Set1')
plt.title('Clusters de clientes')
plt.show()

## Visualización 3D

Dado que tenemos edad también, podemos visualizar nuestros clusters en 3 dimensiones:

In [None]:
from mpl_toolkits.mplot3d import Axes3D

# Configurar el estilo de Seaborn
sns.set(style="whitegrid")

# Crear una figura en 3D
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

# Gráfico 3D de dispersión
scatter = ax.scatter(df['Annual Income (k$)'], df['Spending Score (1-100)'], df['Age'],
                     c=df['Cluster'], cmap='Set1', s=50)

# Etiquetas de los ejes
ax.set_xlabel('Annual Income (k$)')
ax.set_ylabel('Spending Score (1-100)')
ax.set_zlabel('Age')

# Título de la gráfica
ax.set_title('Clusters de clientes en 3D')

# Añadir la leyenda
legend1 = ax.legend(*scatter.legend_elements(), title="Clusters")
ax.add_artist(legend1)

# Mostrar la gráfica
plt.show()

## Análisis final
Finalmente, debemos analizar el contenido de nuestros clusters para hacer recomendaciones:

In [None]:
cluster_analysis = df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)', 'Cluster']].groupby('Cluster').mean()
cluster_analysis

Podemos hacer un resumen muy sencillo de la siguiente manera:

In [None]:
for cluster in cluster_analysis.index:
    print(f"Cluster {cluster}:")
    print(f" - Edad media: {cluster_analysis['Age'][cluster]:.2f}")
    print(f" - Ingreso anual medio: {cluster_analysis['Annual Income (k$)'][cluster]:.2f}k$")
    print(f" - Calificación RetailMax: {cluster_analysis['Spending Score (1-100)'][cluster]:.2f}")
    print("===========================================")

### Incorporando la variable “sexo”

Nos habíamos saltado la variable “sexo” para evitar trabajar con variables categóricas, pero intentemos incorporarla:

In [None]:
# Convertir a numérica
df['Gender'] = df['Gender'].map({'Male': 0, 'Female': 1})

# selección de features
extended_features = df[['Gender', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

# estandarización
scaled_extended_features = scaler.fit_transform(extended_features)

# Aplicar K-Means
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters_extended = kmeans.fit_predict(scaled_extended_features)

# Sustituir clusters anteriores
df['Cluster'] = clusters_extended

# análisis
extended_cluster_analysis = df[['Gender','Age', 'Annual Income (k$)', 'Spending Score (1-100)', 'Cluster']].groupby('Cluster').mean()
extended_cluster_analysis