# Práctica guiada: Clustering no supervisado con K-means (enfoque profesional)


> **Módulo:** Programación de Inteligencia Artificial
>
> **Bloque:** Aprendizaje no supervisado – Clustering
>
> **Algoritmo:** K-means
>
> **Tipo:** Práctica guiada con código incompleto

---

## Resultados de aprendizaje trabajados

RA2 – Desarrolla aplicaciones de IA utilizando entornos de modelado.

### Criterios de evaluación asociados:

* **RA2.c** Define el modelo a implementar
* **RA2.d** Implementa la aplicación
* **RA2.e** Evalúa resultados


---

## 1. ¿Qué es el clustering?

El **clustering** (o *agrupación*) es una técnica de **aprendizaje no supervisado** cuyo objetivo es **agrupar instancias de datos en conjuntos (clústeres) de forma que los elementos dentro de un mismo grupo sean más similares entre sí que con los de otros grupos**.

El clustering se utiliza en múltiples aplicaciones reales, entre ellas:

* **Búsqueda de similitud de imágenes**: se agrupan imágenes según sus características y, cuando el usuario aporta una nueva imagen, se asigna al clúster más cercano para devolver las *N* imágenes más similares.
* **Segmentación de imágenes**: se agrupan píxeles según su color u otras características y se reemplazan por el valor medio de su clúster, simplificando la imagen.
* **Análisis exploratorio de datos**: permite descubrir patrones y estructuras internas en los datos y analizar cada grupo por separado.
* **Reducción de dimensionalidad**: las características originales pueden sustituirse por la pertenencia o afinidad de cada instancia a los distintos clústeres.
* **Detección de anomalías**: las instancias que no encajan bien en ningún clúster suelen corresponder a valores atípicos.
* **Aprendizaje semisupervisado**: cuando solo se dispone de unas pocas etiquetas, el clustering puede ayudar a propagar esas etiquetas dentro de cada grupo.

Existen **distintos tipos de algoritmos de clustering** y **no hay una definición única de lo que constituye un clúster**, ya que depende del criterio de similitud y del objetivo del análisis.

En este cuaderno se trabajará con **K-means**, uno de los algoritmos de clustering más utilizados por su simplicidad, eficiencia y facilidad de interpretación.



### 2. K-means

El algoritmo **K-means** es un método de *clustering no supervisado* que divide un conjunto de **N muestras** $X = \{x_1, x_2, \dots, x_N\} $ **en K grupos** $($ C = \{C_1, C_2, \dots, C_K\} $.

Cada grupo está representado por un **centroide** $\mu_j $, que corresponde a la **media de las muestras asignadas a ese clúster**. Los centroides **no suelen coincidir con puntos reales del conjunto de datos**, aunque se encuentran en el mismo espacio de características.

El objetivo de K-means es encontrar los centroides que **minimizan la inercia**, definida como la suma de las distancias cuadráticas entre cada punto y el centroide del clúster al que pertenece:

$
\sum_{i=1}^{N} \min_{1 \le j \le K} \left| x_i - \mu_j \right|^2
$

La **inercia** (también llamada *función de distorsión*) es una **métrica interna del modelo** que mide qué tan compactos son los clústeres. Cuanto menor es su valor, más próximos están los puntos a sus respectivos centroides.
Su cálculo consiste en:

1. Medir la distancia entre cada punto y su centroide.
2. Elevar dicha distancia al cuadrado.
3. Sumar todos los valores obtenidos.

En la práctica, los centroides pueden encontrarse en dos situaciones:

* **Centroides conocidos**: si se conocen previamente, cada instancia se puede asignar directamente al clúster cuyo centroide esté más cercano. De forma equivalente, si se dispone de un conjunto de datos ya etiquetado, los centroides pueden calcularse como la media de los puntos de cada grupo.
* **Centroides desconocidos** (caso habitual): no se dispone ni de etiquetas ni de centroides iniciales. En este caso, K-means comienza con centroides iniciales (normalmente aleatorios) y **repite de forma iterativa** los siguientes pasos hasta que el modelo converge:

  1. Asignar cada punto al centroide más cercano.
  2. Recalcular los centroides como la media de los puntos asignados a cada clúster.

Este proceso continúa hasta que los centroides dejan de cambiar o el cambio es insignificante.





### 3. ¿Cómo funciona el algoritmo?

El algoritmo de clustering **K-means** suele partir de **centroides desconocidos** y utiliza un **proceso iterativo** para obtener el resultado final.
Las entradas del algoritmo son:

* El número de clústeres **K**
* El conjunto de datos, formado por las características de cada punto

El algoritmo comienza con una **estimación inicial de los K centroides**, que pueden generarse de forma aleatoria o seleccionarse a partir del propio conjunto de datos. A partir de ahí, K-means itera entre los siguientes dos pasos:

---

### 1. Paso de asignación

Cada centroide define un clúster. En este paso, **cada punto de datos se asigna al centroide más cercano**, normalmente utilizando la **distancia euclídea al cuadrado**.

De forma más formal, sea $ C = \{c_1, c_2, \dots, c_K\} $ el conjunto de centroides.
Cada punto $ x $ se asigna al clúster cuyo centroide minimiza la distancia:

$
\arg\min_{c_i \in C} ; |x - c_i|^2
$

Denotamos por $ S_i $ el **conjunto de puntos asignados al clúster i-ésimo**.

---

### 2. Paso de actualización del centroide

Una vez asignados los puntos, se recalculan los centroides.
Cada centroide se actualiza como la **media de todos los puntos asignados a su clúster**:

$
c_i = \frac{1}{|S_i|} \sum_{x \in S_i} x
$

---

El algoritmo repite de forma alterna los pasos de asignación y actualización hasta que se cumple un **criterio de parada**, por ejemplo:

* Ningún punto cambia de clúster entre iteraciones
* El cambio en la inercia es insignificante
* Se alcanza un número máximo de iteraciones

Este proceso **garantiza la convergencia**, aunque no necesariamente hacia el óptimo global, ya que el resultado depende de la inicialización de los centroides.

---



---

## 4. Convergencia e inicialización aleatoria

El algoritmo **K-means está garantizado para converger**, es decir, el proceso iterativo siempre finaliza tras un número finito de pasos.

Sin embargo, la convergencia **no garantiza que se alcance el óptimo global**. Dependiendo de la **inicialización de los centroides**, el algoritmo puede converger a **óptimos locales**, que corresponden a soluciones subóptimas en términos de inercia.

Por este motivo, ejecutar K-means **una sola vez** puede no ser suficiente. En la práctica, se realizan **varias ejecuciones con diferentes centroides iniciales aleatorios**, seleccionando finalmente la solución con menor inercia.

Esta es la razón por la que muchas implementaciones modernas de K-means (como en *scikit-learn*) repiten automáticamente el algoritmo varias veces (`n_init`) y devuelven el mejor resultado obtenido.

<div style="text-align:center">
    <img style="width:50%" src="img/K-means_convergence.gif">
</div>



---


## A) Ejemplo guiado (dataset sintético)


En esta ejemplo vas a ver como **aplicar K-means siguiendo un flujo de trabajo realista**, similar al que se utiliza hoy en día en proyectos de Machine Learning.


No se trata solo de ejecutar el algoritmo, sino de:


- Preparar correctamente los datos
- Elegir razonadamente el número de clusters
- Interpretar los resultados obtenidos
- Validar la estabilidad del clustering




## 1. Importación de librerías


Comienza importando las librerías necesarias para trabajar con datos, visualización y clustering.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.preprocessing import RobustScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import (
    silhouette_score,
    calinski_harabasz_score,
    davies_bouldin_score,
    adjusted_rand_score
)
from sklearn.decomposition import PCA
from sklearn.datasets import make_blobs

import warnings
warnings.filterwarnings("ignore")

## 2. Creación del dataset


Para centrarnos en el algoritmo, utilizaremos un **dataset sintético**, al que añadiremos ruido y valores atípicos.


Completa el siguiente código para generar los datos:

In [None]:
# generar un dataset con make_blobs
X, y_true = make_blobs(
    n_samples=1500,
    centers=4,
    cluster_std=[1.0, 2.5, 0.8, 1.5],
    random_state=42
)

df = pd.DataFrame(X, columns=["feature_1", "feature_2"])


# convertir el array en un DataFrame con dos columnas
df = pd.DataFrame(X, columns=["feature_1", "feature_2"])


Añade ahora algunos **outliers artificiales**:

In [None]:
# generar puntos aleatorios como outliers

rng = np.random.default_rng(42)
outliers = rng.uniform(low=-10, high=10, size=(30, 2))
# añadirlos al DataFrame original
df = pd.concat([df, pd.DataFrame(outliers, columns=df.columns)], ignore_index=True)

---


## 3. Análisis exploratorio inicial


Antes de aplicar cualquier algoritmo, **visualizamos los datos**.

Ahora entrenaremos el algoritmo de clustering K-means sobre este dataset:

In [None]:
#  mostrar estadísticas básicas del DataFrame
display(df.describe())



# realizar un scatter plot de las dos variables
plt.scatter(df["feature_1"], df["feature_2"], s=10)
plt.title("Distribución inicial de los datos")
plt.xlabel("feature_1")
plt.ylabel("feature_2")
plt.show()


<div style="background-color:green;color:white">

<br>

❓ **Pregunta**:

 ¿Detectas visualmente posibles grupos? 
 
 ¿Se aprecian valores atípicos?


<br>

---


## 4. Preprocesado de los datos


K-means es muy sensible a la escala de las variables. Por ello:


- Aplicaremos **escalado**
- Usaremos `RobustScaler` en vez de StandardScaler (z-score) para reducir el impacto de **outliers**


Completa el pipeline de preprocesado:

In [None]:
# crear un Pipeline con RobustScaler
preprocess = Pipeline([
    ("scaler", RobustScaler())
])


#  ajustar y transformar el DataFrame
X_scaled = preprocess.fit_transform(df)


---


## 5. Selección del número de clusters


No existe un único criterio para elegir el valor de **K**. En esta práctica compararás varias métricas:


- Inercia (Elbow)
- Silhouette score
- Calinski–Harabasz
- Davies–Bouldin


Completa el siguiente bucle:

In [None]:
# Definimos el rango de valores de k (número de clusters) a evaluar: de 2 a 10
# Se empieza en 2 porque muchas métricas no están definidas para k = 1
K_RANGE = range(2, 11)

# Listas para almacenar las métricas obtenidas para cada valor de k
inertias = []      # Inercia del modelo (método del codo)
silhouettes = []  # Coeficiente silhouette
calinski = []     # Índice de Calinski-Harabasz
davies = []       # Índice de Davies-Bouldin

# Iteramos sobre cada valor de k
for k in K_RANGE:
    # Creamos el modelo KMeans con k clusters
    # n_init="auto" selecciona automáticamente el número de inicializaciones
    # random_state fija la semilla para reproducibilidad
    kmeans = KMeans(n_clusters=k, n_init="auto", random_state=42)

    # Ajustamos el modelo a los datos escalados y obtenemos las etiquetas
    # de cluster para cada observación
    labels_k = kmeans.fit_predict(X_scaled)

    # Guardamos la inercia (suma de las distancias cuadradas a los centroides)
    inertias.append(kmeans.inertia_)

    # Calculamos y almacenamos el coeficiente silhouette,
    # que mide la cohesión interna y separación entre clusters
    silhouettes.append(silhouette_score(X_scaled, labels_k))

    # Calculamos y almacenamos el índice de Calinski-Harabasz,
    # que relaciona la dispersión entre clusters con la dispersión interna
    calinski.append(calinski_harabasz_score(X_scaled, labels_k))

    # Calculamos y almacenamos el índice de Davies-Bouldin,
    # que evalúa la similitud entre clusters (valores menores son mejores)
    davies.append(davies_bouldin_score(X_scaled, labels_k))


---


## 6. Visualización de métricas


Representa gráficamente las métricas calculadas para ayudarte a decidir el valor de K.

In [None]:
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
plt.plot(list(K_RANGE), inertias, marker="o")
plt.title("Inercia (Elbow)")
plt.xlabel("k")
plt.ylabel("inertia")

plt.subplot(2, 2, 2)
plt.plot(list(K_RANGE), silhouettes, marker="o")
plt.title("Silhouette score")
plt.xlabel("k")
plt.ylabel("silhouette")

plt.subplot(2, 2, 3)
plt.plot(list(K_RANGE), calinski, marker="o")
plt.title("Calinski–Harabasz (mayor es mejor)")
plt.xlabel("k")
plt.ylabel("CH")

plt.subplot(2, 2, 4)
plt.plot(list(K_RANGE), davies, marker="o")
plt.title("Davies–Bouldin (menor es mejor)")
plt.xlabel("k")
plt.ylabel("DB")

plt.tight_layout()
plt.show()



<div style="background-color:green;color:white">

<br>

 ❓ **Pregunta**: 

¿Todas las métricas sugieren el mismo valor de K? 

¿Cuál elegirías y por qué?


<br>

---

### Silhouette plot

El **coeficiente silhouette** mide qué tan bien está asignada **cada muestra** a su clúster.

* Valores **cercanos a 1** indican que la muestra está bien agrupada y lejos de otros clústeres.
* Valores **cercanos a 0** indican que la muestra está en la frontera entre dos clústeres.
* Valores **negativos** indican que la muestra podría estar mejor asignada a otro clúster.

En un buen clustering **no es necesario que todas las muestras tengan valores cercanos a 1**.
Lo importante es que **la mayoría de las muestras tengan valores positivos** y que haya **pocas muestras mal asignadas**.

El siguiente gráfico permite **analizar la calidad interna de los clústeres** para el valor de **K elegido**, complementando al silhouette medio.

https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html



In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score
import numpy as np
import matplotlib.pyplot as plt

labels = kmeans.fit_predict(X_scaled)
K_OPT = 4

# Cálculo del silhouette por muestra
silhouette_vals = silhouette_samples(X_scaled, labels)

fig, ax = plt.subplots(figsize=(8, 5))

y_lower = 0
for i in range(K_OPT):
    cluster_silhouette_vals = silhouette_vals[labels == i]
    cluster_silhouette_vals.sort()

    size_cluster = cluster_silhouette_vals.shape[0]
    y_upper = y_lower + size_cluster

    ax.fill_betweenx(
        np.arange(y_lower, y_upper),
        0,
        cluster_silhouette_vals,
        alpha=0.7
    )

    ax.text(-0.05, y_lower + 0.5 * size_cluster, f"Cluster {i}")
    y_lower = y_upper

# Línea vertical con el silhouette medio
silhouette_avg = silhouette_score(X_scaled, labels)
ax.axvline(silhouette_avg, color="red", linestyle="--", label="Silhouette medio")

ax.set_title(f"Silhouette plot para K = {K_OPT}")
ax.set_xlabel("Silhouette coefficient")
ax.set_ylabel("Muestras")
ax.legend()
plt.show()


---


## 7. Entrenamiento del modelo final


Elige un valor de **K** razonable según el apartado anterior y entrena el modelo definitivo.

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

In [None]:
K_OPT = 4  # (en este dataset suele encajar bien)

kmeans = KMeans(n_clusters=K_OPT, n_init="auto", random_state=42)
labels = kmeans.fit_predict(X_scaled)

df["cluster"] = labels

---


## 8. Interpretación de los clusters


Un clustering **no es útil si no se interpreta**.


Completa el siguiente análisis:

In [None]:
cluster_profile = df.groupby("cluster")[["feature_1", "feature_2"]].agg(["mean", "median", "std", "count"])
display(cluster_profile)

plt.scatter(df["feature_1"], df["feature_2"], c=df["cluster"], s=15)
plt.title("Clusters finales (espacio original)")
plt.xlabel("feature_1")
plt.ylabel("feature_2")
plt.show()


<div style="background-color:green;color:white">

<br>

 ❓ **Pregunta**: ¿Qué caracteriza a cada cluster? Describe al menos dos rasgos por grupo.

 <br>

---


## 9. Visualización con PCA


Cuando hay más de dos variables, se suele usar **PCA** para visualizar los clusters.

### 9.1 Añadimos una tercera variable

Añadimos una tercera variable correlacionada con las otras dos.

In [None]:
# Añadimos una tercera variable correlacionada
rng = np.random.default_rng(42)
df["feature_3"] = (
    0.5 * df["feature_1"] 
    - 0.3 * df["feature_2"] 
    + rng.normal(0, 0.5, size=len(df))
)


### 9.2 Preprocesado

Aplicamos de nuevo escalado

In [None]:
X_scaled = preprocess.fit_transform(df[["feature_1", "feature_2", "feature_3"]])


### 9.2 Interpretación de clusters

Este análisis agrupa los datos por clúster y calcula estadísticas descriptivas para cada uno, permitiendo interpretar qué caracteriza a cada grupo y compararlos entre sí.

In [None]:
cluster_profile = df.groupby("cluster")[[
    "feature_1", "feature_2", "feature_3"
]].agg(["mean", "std", "count"])


### 9.3 Visualización 3D de los clusters

In [None]:
import plotly.express as px

fig = px.scatter_3d(
    df,
    x="feature_1",
    y="feature_2",
    z="feature_3",
    color="cluster",
    opacity=0.8,
    title="Clusters en el espacio 3D (interactivo)"
)

fig.show()


### 9.4 aplicamos PCA para visualizarlo  en dos dimensiones.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2, random_state=42)
X_pca = pca.fit_transform(X_scaled)

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=df["cluster"], s=15)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("Clusters visualizados con PCA (reducción 3D → 2D)")
plt.show()


---


## 10. Estabilidad y reproducibilidad


K-means depende de la inicialización. Es buena práctica comprobar la estabilidad del clustering, es decir, si K-means obtiene los mismos grupos aunque cambie la inicialización.

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html


Vamos a comprobar si los resultados son estables.

In [None]:
labels_list = []

for seed in range(10):
    km = KMeans(n_clusters=K_OPT, n_init="auto", random_state=seed)
    labels_list.append(km.fit_predict(X_scaled))

# ARI respecto a la ejecución con seed=0
aris = [adjusted_rand_score(labels_list[0], lbl) for lbl in labels_list[1:]]
display(pd.Series(aris, name="ARI_vs_seed0"))



Visualizamos la gráfica

In [None]:
plt.plot(range(1, 10), aris, marker="o")
plt.title("Estabilidad: ARI frente a seed=0")
plt.xlabel("seed")
plt.ylabel("ARI")
plt.ylim(-0.05, 1.05)
plt.show()

<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

¿Son estables los clusters? 

¿Qué indica un ARI alto o bajo?

<br>

---

## 11. Escalabilidad: `MiniBatchKMeans`

Cuando el dataset es grande, entrenar `KMeans` clásico puede ser **muy costoso en tiempo y memoria**, ya que en cada iteración calcula la distancia de **todas las muestras** a **todos los centroides**.

Un dataset puede considerarse **grande para K-means** cuando se cumple alguna de estas situaciones:

* Tiene **decenas o cientos de miles de muestras**
* Tiene **muchas variables** (alta dimensionalidad)
* El entrenamiento con `KMeans` tarda varios segundos o minutos
* El consumo de memoria empieza a ser relevante

En estos casos, se utiliza **`MiniBatchKMeans`**, que:

* procesa **pequeños lotes (batches)** de datos en cada iteración
* reduce mucho el tiempo de entrenamiento
* obtiene resultados **muy similares** a `KMeans` clásico

El precio a pagar es una **ligera pérdida de precisión**, que normalmente es aceptable en problemas reales de gran escala.

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MiniBatchKMeans.html

En este ejemplo el dataset es pequeño, por lo que `MiniBatchKMeans` se usa **solo con fines demostrativos**, para mostrar cómo se aplicaría el mismo enfoque en un escenario real con grandes volúmenes de datos.

---



In [None]:
# Creamos un modelo MiniBatchKMeans con el número óptimo de clusters (K_OPT)
# batch_size=256 indica cuántas muestras se usan en cada mini-lote,
# lo que acelera el entrenamiento en conjuntos de datos grandes
# random_state fija la semilla para obtener resultados reproducibles
mbk = MiniBatchKMeans(n_clusters=K_OPT, batch_size=256, random_state=42)

# Ajustamos el modelo a los datos escalados y obtenemos
# la etiqueta de cluster asignada a cada observación
labels_mbk = mbk.fit_predict(X_scaled)

# Calculamos el Adjusted Rand Index (ARI) entre:
# - las etiquetas del clustering de referencia (labels, por ejemplo KMeans)
# - las etiquetas obtenidas con MiniBatchKMeans
# El ARI mide la similitud entre ambas particiones, corrigiendo el azar
ari_mbk = adjusted_rand_score(labels, labels_mbk)

# Mostramos el valor del ARI
# Valores cercanos a 1 indican alta concordancia entre ambos clusterings
print("ARI (KMeans vs MiniBatchKMeans):", ari_mbk)


## 12. Conclusiones

ç<div style="background-color:green;color:white">

<br>

Redacta brevemente:


- Qué has aprendido sobre K-means
- Qué pasos son imprescindibles antes de clusterizar
- Qué limitaciones has detectado

<br>

# B) Segmentación de clientes (Mall_Customers)


> **Tipo:** Ejercicio práctico evaluable

> **Dataset:** `Mall_Customers.csv`

> **Objetivo:** Aplicar K-means a un **problema real de negocio** (segmentación de clientes)


> **Contexto**

> Un centro comercial desea **segmentar a sus clientes** para diseñar campañas de marketing diferenciadas según su comportamiento de gasto y perfil.


### 1. Carga y exploración del dataset

Carga el fichero `Mall_Customers.csv` y realiza un análisis exploratorio inicial.



<div style="background-color:green;color:white">

<br>

- Haz un breve  Análisis Envolvente de Datos  (DEA).

<br>

<div style="background-color:green;color:white">

Tareas:
<br>
* Identifica qué variables son **numéricas** y cuáles **categóricas**
* Explica brevemente qué representa cada variable
* ¿faltan datos?
* ¿Existen outliers?

<br>

<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

¿Todas las variables son adecuadas para K-means tal como están?

<br>

### 2. Selección de variables para el clustering

Para este ejercicio **NO se usarán todas las columnas**.

Selecciona únicamente:

* `Age`
* `Annual Income (k$)`
* `Spending Score (1-100)`

---

### 3. Preprocesado

Aplica escalado a los datos.


<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

 ¿Qué problema tendría K-means si no se escalan las variables en este dataset?
 
<br>

### 4. Elección del número de clusters

Evalúa valores de **K entre 2 y 10** usando al menos:

* Inercia (Elbow)
* Silhouette score



<div style="background-color:green;color:white">

<br>

* Representa ambas métricas gráficamente.

 
<br>

<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

¿Qué valor de K elegirías? Justifica la decisión. 

<br>

### Extra 

<div style="background-color:green;color:white">

<br>

Utiliza otros módelos para evaluar K.

¿Coincide con los anteriores?

<br>

### Entrenamiento 


<div style="background-color:green;color:white">

<br>

Entrena el **modelo definitivo de K-means** utilizando el valor de **K seleccionado en el análisis previo**.

1. Entrena el modelo K-means con dicho valor de K y obtén las etiquetas de clúster para cada muestra.

2. Comprueba que el número de clústeres generados coincide con el valor de K seleccionado.

<br>


---


## 6. Interpretación de los clusters

Hasta este punto hemos entrenado el modelo de clustering y asignado a cada muestra un clúster.
Sin embargo, **el resultado del algoritmo son solo etiquetas numéricas** (`0`, `1`, `2`, …), que **no tienen significado por sí mismas**.

En este apartado se analizarán los clústeres obtenidos para **entender qué caracteriza a cada grupo** y **en qué se diferencian entre sí**. Para ello se agruparán los datos por clúster y se calcularán **estadísticas descriptivas** de las variables originales, como la media, la dispersión y el tamaño de cada grupo.

Este análisis permite:

* comprobar si los clústeres tienen perfiles claros y diferenciados
* detectar clústeres muy pequeños, muy dispersos o poco relevantes
* relacionar los resultados del clustering con el problema original

La interpretación es un paso imprescindible, ya que **un clustering solo es útil si puede explicarse y utilizarse para tomar decisiones**.


<div style="background-color:green;color:white">



<br>

 * Añade la columna cluster al DataFrame


<br>


<div style="background-color:green;color:white">

<br>

* Analiza los clusters obtenidos agrupando a los clientes por clúster en un nuevo dataframe y calculando la media de las variables principales (Age, Annual Income y Spending Score) para cada grupo

 
<br>

<div style="background-color:green;color:white">

<br>

* Describe **cada cluster como un perfil de cliente**
* Asigna una etiqueta comprensible (ej. *clientes jóvenes con alto gasto*)
 
<br>

<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

* ¿Cómo usaría el departamento de marketing estos resultados?

<br>

---

### 7. Visualización

<div style="background-color:green;color:white">

<br>

Representa los clusters:

* En 2D usando *Annual Income* vs *Spending Score*

<br>


### Tarea extra (opcional) · Visualización 3D interactiva de los clústeres

En este apartado vas a crear una visualización en **3D** para observar los clústeres desde distintos ángulos. El objetivo es **comprobar visualmente** si los grupos están bien separados cuando se consideran **Age, Income y Spending Score a la vez**.

1. Crea un gráfico 3D **interactivo** donde:

   * Eje X: `Age`
   * Eje Y: `Annual Income (k$)`
   * Eje Z: `Spending Score (1-100)`
   * Color: `cluster`

2. Comprueba que el gráfico **se puede rotar, hacer zoom y desplazar** con el ratón.

3. Responde brevemente:






### Extra 

<div style="background-color:green;color:white">

<br>

Visualiza con PCA usando las tres variables en 2D.

<br>

<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

   * ¿Ves clústeres claramente separados en 3D o hay solapamientos?
   * ¿Qué dos clústeres te parecen más parecidos visualmente?

<br>

---

### 8. Estabilidad y reproducibilidad del clustering

K-means depende de una inicialización aleatoria de los centroides iniciales. En este apartado se va a comprobar si el clustering obtenido es estable, es decir, si produce resultados similares cuando se repite el entrenamiento con distintas inicializaciones.

<div style="background-color:green;color:white">

<br>

1. Entrena el modelo K-means varias veces usando el mismo valor de **K**, pero cambiando la semilla (*random_state*).
2. Compara las asignaciones de clúster obtenidas en cada ejecución.
3. Utiliza el **Adjusted Rand Index (ARI)** para medir la similitud entre los distintos resultados.
4. Representa gráficamente los valores de ARI obtenidos.
5. Interpreta el resultado.
 
<br>

Este análisis permite comprobar si el clustering es reproducible frente a distintas inicializaciones. Valores altos de ARI indican que el modelo obtiene agrupaciones similares de forma consistente, lo que refuerza la fiabilidad del resultado.

<div style="background-color:green;color:white">

<br>

* Visualizalo gráficamente
 
<br>


<div style="background-color:green;color:white">

<br>

❓ **Pregunta**: 

* ¿Los valores de ARI son altos o bajos?


* ¿Qué indica esto sobre la estabilidad del clustering?



* ¿Podrías confiar en este resultado si el modelo se vuelve a entrenar en otro momento?



<br>

---

### 9. Conclusión breve

<div style="background-color:green;color:white">

<br>

Redacta un breve texto (5–8 líneas) explicando:

* Qué clusters has encontrado
* Qué variables han sido más relevantes
* Qué limitaciones tiene K-means en este problema real

<br>