# Bloque 1.2 ‚Äî K-Means y K-Medoids
**M√°ster en Ciencia de Datos ¬∑ M√≥dulo: Algoritmos de Clustering**
**Sesi√≥n 1 ¬∑ Duraci√≥n: 110 min**

---
> üìå **C√≥mo usar este notebook:**
> Ejecuta las celdas **en orden**. Cada secci√≥n comienza con explicaci√≥n te√≥rica (en Markdown) seguida del c√≥digo correspondiente.
> Los comentarios `# ---` delimitan ejercicios opcionales para profundizar.


In [None]:
# ============================================================
# BLOQUE 1.2 ‚Äî K-Means y K-Medoids
# ============================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs
from sklearn.metrics import silhouette_score

plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")
np.random.seed(42)

print("‚úì Imports correctos")

---

#### Celda 2 ‚Äî Implementaci√≥n manual del algoritmo de Lloyd (paso a paso)

> *Nota: Esta celda tiene un prop√≥sito pedag√≥gico: mostrar el algoritmo desde cero antes de usar scikit-learn. No es la implementaci√≥n que usar√≠an en producci√≥n.*

In [None]:
def kmeans_manual(X, k, n_iter=10, seed=42):
    """
    Implementaci√≥n did√°ctica del algoritmo de Lloyd (K-Means b√°sico).
    NO usar en producci√≥n ‚Äî usar sklearn.cluster.KMeans.
    """
    rng = np.random.RandomState(seed)

    # Paso 0: Inicializaci√≥n aleatoria (Forgy)
    idx_init = rng.choice(len(X), size=k, replace=False)
    centroides = X[idx_init].copy()

    historial = [centroides.copy()]  # guardamos la evoluci√≥n

    for iteracion in range(n_iter):
        # Paso 1: Asignaci√≥n ‚Äî cada punto al centroide m√°s cercano
        distancias = np.linalg.norm(
            X[:, np.newaxis, :] - centroides[np.newaxis, :, :], axis=2
        )
        asignaciones = np.argmin(distancias, axis=1)

        # Paso 2: Actualizaci√≥n ‚Äî recalcular centroides como media de sus puntos
        nuevos_centroides = np.array([
            X[asignaciones == j].mean(axis=0) if (asignaciones == j).any()
            else centroides[j]  # cluster vac√≠o: mantener centroide
            for j in range(k)
        ])

        historial.append(nuevos_centroides.copy())

        # Paso 3: Convergencia
        if np.allclose(centroides, nuevos_centroides, atol=1e-6):
            print(f"  Convergencia alcanzada en iteraci√≥n {iteracion + 1}")
            break

        centroides = nuevos_centroides

    wcss = sum(
        np.sum((X[asignaciones == j] - centroides[j]) ** 2)
        for j in range(k)
    )

    return asignaciones, centroides, wcss, historial


# --- Generamos datos y ejecutamos ---
X_demo, y_real = make_blobs(n_samples=200, centers=3, cluster_std=1.0, random_state=42)
X_demo_norm = StandardScaler().fit_transform(X_demo)

print("Ejecutando K-Means manual con k=3:")
labels, centroides_finales, wcss_final, historial = kmeans_manual(X_demo_norm, k=3)
print(f"  WCSS final: {wcss_final:.4f}")
print(f"  Puntos por cluster: {[np.sum(labels == j) for j in range(3)]}")

**Script de explicaci√≥n:**

*"Fijaos en la funci√≥n: son literalmente tres pasos dentro de un bucle. Paso 1 calcula qu√© centroide est√° m√°s cerca de cada punto. Paso 2 mueve los centroides. El bucle para cuando los centroides ya no se mueven. Eso es todo K-Means. La magia y la limitaci√≥n est√°n en que el centroide es la media aritm√©tica ‚Äîeso es lo que vamos a cuestionar con K-Medoids."*

---

#### Celda 3 ‚Äî Visualizaci√≥n de la evoluci√≥n iterativa

In [None]:
def plot_evolucion_kmeans(X, historial, labels_finales, k, max_iter_mostrar=5):
    """Muestra c√≥mo evolucionan los centroides a lo largo de las iteraciones."""
    n_iter = min(len(historial), max_iter_mostrar)
    fig, axes = plt.subplots(1, n_iter, figsize=(4 * n_iter, 4))
    if n_iter == 1:
        axes = [axes]

    colores = plt.cm.tab10(np.linspace(0, 0.5, k))

    for idx, ax in enumerate(axes):
        if idx < len(historial) - 1:
            # Asignaciones provisionales para esta iteraci√≥n
            dists = np.linalg.norm(
                X[:, np.newaxis, :] - historial[idx][np.newaxis, :, :], axis=2
            )
            labels_iter = np.argmin(dists, axis=1)
            titulo = f"Iteraci√≥n {idx}" if idx > 0 else "Inicializaci√≥n"
        else:
            labels_iter = labels_finales
            titulo = "Convergencia"

        ax.scatter(X[:, 0], X[:, 1], c=labels_iter, cmap='tab10',
                   alpha=0.5, s=20)
        centroides_iter = historial[idx]
        ax.scatter(centroides_iter[:, 0], centroides_iter[:, 1],
                   c='red', marker='X', s=200, zorder=5,
                   edgecolors='black', linewidths=1.5, label='Centroides')
        ax.set_title(titulo, fontsize=10, fontweight='bold')
        ax.set_xticks([])
        ax.set_yticks([])

    plt.suptitle("Evoluci√≥n de K-Means: de inicializaci√≥n a convergencia",
                 fontsize=12, fontweight='bold')
    plt.tight_layout()
    plt.savefig("img_evolucion_kmeans.png", dpi=150, bbox_inches='tight')
    plt.show()


plot_evolucion_kmeans(X_demo_norm, historial, labels, k=3)

**Script de explicaci√≥n:**

*"Este es el gr√°fico m√°s importante para entender K-Means intuitivamente. Las X rojas son los centroides. En la inicializaci√≥n est√°n en posiciones aleatorias. En la primera iteraci√≥n, los puntos se asignan a su X m√°s cercana y las X se mueven al centro de sus grupos. En pocas iteraciones el algoritmo converge. Guardad este gr√°fico mentalmente: cuando algo falla en K-Means, normalmente es porque los centroides iniciales estaban en una posici√≥n muy mala."*

---

#### Celda 4 ‚Äî K-Means con scikit-learn + m√©todo del codo

In [None]:
# ---- CASO PR√ÅCTICO: Dataset Mall Customers ----
# Segmentaci√≥n de clientes por Annual Income y Spending Score
# Fuente: Kaggle (incluido en la carpeta datasets/)

# Para la demo en clase usamos datos sint√©ticos que replican la estructura
# del dataset original. En producci√≥n, cargar con pd.read_csv('mall_customers.csv')

np.random.seed(0)
n = 200
ingresos   = np.concatenate([
    np.random.normal(20,  5,  30),   # bajo ingreso, bajo gasto
    np.random.normal(20,  5,  30),   # bajo ingreso, alto gasto
    np.random.normal(55,  8,  40),   # ingreso medio
    np.random.normal(85,  7,  50),   # alto ingreso, bajo gasto
    np.random.normal(85,  7,  50),   # alto ingreso, alto gasto
])
gasto = np.concatenate([
    np.random.normal(20,  6,  30),
    np.random.normal(80,  6,  30),
    np.random.normal(50,  8,  40),
    np.random.normal(15,  6,  50),
    np.random.normal(82,  6,  50),
])
df_mall = pd.DataFrame({'Annual_Income_k': ingresos, 'Spending_Score': gasto})
df_mall = df_mall.clip(lower=0)  # sin negativos

print(f"Dataset: {df_mall.shape[0]} clientes, {df_mall.shape[1]} variables")
print(df_mall.describe().round(1))

---

#### Celda 5 ‚Äî M√©todo del codo

In [None]:
# Normalizaci√≥n
scaler = StandardScaler()
X_mall = scaler.fit_transform(df_mall)

# M√©todo del codo: WCSS para k = 1..10
wcss_lista = []
k_range = range(1, 11)

for k in k_range:
    km = KMeans(n_clusters=k, init='k-means++', n_init=10, random_state=42)
    km.fit(X_mall)
    wcss_lista.append(km.inertia_)

# Visualizaci√≥n
fig, ax = plt.subplots(figsize=(9, 5))
ax.plot(k_range, wcss_lista, 'bo-', linewidth=2, markersize=8)
ax.set_xlabel("N√∫mero de clusters (k)", fontsize=12)
ax.set_ylabel("WCSS (Inercia)", fontsize=12)
ax.set_title("M√©todo del Codo ‚Äî Dataset Mall Customers", fontsize=13, fontweight='bold')
ax.set_xticks(k_range)

# Anotaci√≥n manual del codo
ax.annotate('Codo ‚âà k=5',
            xy=(5, wcss_lista[4]),
            xytext=(6.5, wcss_lista[4] + 0.3 * (wcss_lista[0] - wcss_lista[-1])),
            arrowprops=dict(arrowstyle='->', color='red', lw=2),
            fontsize=11, color='red', fontweight='bold')

plt.tight_layout()
plt.savefig("img_codo_mall.png", dpi=150, bbox_inches='tight')
plt.show()

print(f"\nReducci√≥n de WCSS al pasar de k=4 a k=5: "
      f"{wcss_lista[3]-wcss_lista[4]:.3f}")
print(f"Reducci√≥n de WCSS al pasar de k=5 a k=6: "
      f"{wcss_lista[4]-wcss_lista[5]:.3f}")
print("‚Üí El salto es mayor en k=4‚Üí5, confirmando k=5 como codo.")

**Script de explicaci√≥n del codo:**

*"La curva cae bruscamente de k=1 a k=5 y luego se aplana. Eso es el codo. A√±adir un sexto cluster apenas reduce la WCSS porque ya no estamos capturando estructura real, solo partiendo clusters que ya eran buenos. Fij√©monos en los valores num√©ricos: el salto de k=4 a k=5 es mayor que el de k=5 a k=6."*

---

#### Celda 6 ‚Äî Resultado final de K-Means con k=5

In [None]:
# Entrenamiento final
km_final = KMeans(n_clusters=5, init='k-means++', n_init=10, random_state=42)
df_mall['Cluster'] = km_final.fit_predict(X_mall)

# Centroides en escala original
centroides_orig = scaler.inverse_transform(km_final.cluster_centers_)
df_centroides = pd.DataFrame(
    centroides_orig,
    columns=['Annual_Income_k', 'Spending_Score']
)
df_centroides.index.name = 'Cluster'

# Visualizaci√≥n
colores = ['#e41a1c','#377eb8','#4daf4a','#ff7f00','#984ea3']
fig, ax = plt.subplots(figsize=(10, 7))

for c in range(5):
    mask = df_mall['Cluster'] == c
    ax.scatter(
        df_mall.loc[mask, 'Annual_Income_k'],
        df_mall.loc[mask, 'Spending_Score'],
        color=colores[c], alpha=0.7, s=60, label=f'Cluster {c}'
    )

# Centroides
ax.scatter(
    df_centroides['Annual_Income_k'],
    df_centroides['Spending_Score'],
    c='black', marker='X', s=250, zorder=5, label='Centroides'
)

ax.set_xlabel("Ingresos anuales (k‚Ç¨)", fontsize=12)
ax.set_ylabel("Spending Score (0‚Äì100)", fontsize=12)
ax.set_title("K-Means k=5 ‚Äî Segmentaci√≥n de clientes Mall", fontsize=13, fontweight='bold')
ax.legend(fontsize=10)
plt.tight_layout()
plt.savefig("img_kmeans_mall.png", dpi=150, bbox_inches='tight')
plt.show()

# Interpretaci√≥n de negocio
print("\nPerfil de cada cluster (medias en escala original):")
print(df_mall.groupby('Cluster')[['Annual_Income_k','Spending_Score']].mean().round(1))

**Script de interpretaci√≥n:**

*"Ahora viene la parte m√°s importante: dar nombre a los clusters. El algoritmo no sabe nada de negocio ‚Äîeso lo ponemos nosotros. Mirando los centroides podemos identificar cinco perfiles:"*
- *"Cluster con ingresos bajos y gasto bajo ‚Üí 'Ahorradores con presupuesto ajustado'"*
- *"Cluster con ingresos bajos y gasto alto ‚Üí 'Compradores impulsivos (alto riesgo de deuda)'"*
- *"Cluster con ingresos medios ‚Üí 'Clientes est√°ndar'"*
- *"Cluster con ingresos altos y gasto bajo ‚Üí 'Ahorradores premium'"*
- *"Cluster con ingresos altos y gasto alto ‚Üí 'VIPs ‚Äî m√°xima prioridad de retenci√≥n'"*

*"Esta interpretaci√≥n es la entrega real. No un n√∫mero, sino una narrativa de negocio."*

---

#### Celda 7 ‚Äî Comparaci√≥n K-Means vs K-Means++ (demo de inicializaci√≥n)

In [None]:
# ¬øCu√°nto importa la inicializaci√≥n?

resultados = []

for metodo in ['random', 'k-means++']:
    wcss_runs = []
    for seed in range(20):
        km = KMeans(n_clusters=5, init=metodo, n_init=1, random_state=seed)
        km.fit(X_mall)
        wcss_runs.append(km.inertia_)
    resultados.append({
        'M√©todo': metodo,
        'WCSS media': np.mean(wcss_runs),
        'WCSS std':   np.std(wcss_runs),
        'WCSS min':   np.min(wcss_runs),
        'WCSS max':   np.max(wcss_runs),
    })

df_res = pd.DataFrame(resultados).set_index('M√©todo')
print("Comparaci√≥n de inicializaci√≥n (20 runs, n_init=1 cada una):")
print(df_res.round(4))

# Visualizaci√≥n como boxplot
fig, ax = plt.subplots(figsize=(8, 5))
data_random   = [KMeans(n_clusters=5, init='random',    n_init=1, random_state=s).fit(X_mall).inertia_ for s in range(30)]
data_kpp      = [KMeans(n_clusters=5, init='k-means++', n_init=1, random_state=s).fit(X_mall).inertia_ for s in range(30)]
ax.boxplot([data_random, data_kpp],
           labels=['Inicializaci√≥n\naleatoria', 'K-Means++'],
           patch_artist=True,
           boxprops=dict(facecolor='lightblue'))
ax.set_ylabel("WCSS (Inercia)", fontsize=12)
ax.set_title("Variabilidad de WCSS seg√∫n m√©todo de inicializaci√≥n\n(30 runs, n_init=1)",
             fontsize=12, fontweight='bold')
plt.tight_layout()
plt.savefig("img_kmeans_vs_kpp.png", dpi=150, bbox_inches='tight')
plt.show()

**Script de explicaci√≥n:**

*"Con inicializaci√≥n aleatoria, el WCSS var√≠a mucho entre runs: a veces encontramos una buena soluci√≥n, a veces una mala. Con K-Means++ la varianza es mucho menor y el m√≠nimo es mejor. En scikit-learn, el par√°metro `n_init=10` ya ejecuta esto autom√°ticamente y se queda con el mejor resultado ‚Äî por eso es el default."*

---

## PARTE B ‚Äî K-MEDOIDS

---

### TEOR√çA K-MEDOIDS (20 min)

---

### [01:05 ‚Äì 01:10] Motivaci√≥n: ¬øPor qu√© K-Medoids?

**Script de transici√≥n:**

*"K-Means tiene una vulnerabilidad fundamental: el centroide es la media aritm√©tica de los puntos del cluster. Esto tiene un problema grave: la media puede ser un punto que no existe en el dataset. Y si hay outliers, la media se 'contamina'."*

**Ejemplo num√©rico inmediato:**

*"Imaginad un cluster con cuatro clientes con ingresos de 20k, 22k, 21k y 85k euros. La media es (20+22+21+85)/4 = 37k. Ese centroide de 37k no representa bien a nadie del cluster: los tres primeros tienen ~21k y el cuarto es un outlier en 85k. El 'representante' del cluster no es un cliente real."*

*"K-Medoids soluciona esto de forma elegante: en lugar de la media, usa el **medoide** ‚Äî el punto real del dataset que minimiza la distancia media a todos los dem√°s puntos de su cluster. El representante siempre es un cliente que existe."*

**Ventajas inmediatas:**
1. **Robustez ante outliers:** el medoide no puede ser 'tirado' hacia un outlier porque es un punto real del dataset.
2. **Interpretabilidad:** cada cluster est√° representado por un caso real. Puedes decir: *"Este segmento se parece al cliente #1234"*.
3. **Funciona con cualquier m√©trica de distancia:** no requiere que la media tenga sentido. Funciona con distancias no-euclidianas, datos mixtos o incluso distancias entre strings (edit distance).

---

### [01:10 ‚Äì 01:20] El algoritmo PAM (Partitioning Around Medoids)

**Desarrollado por Kaufman & Rousseeuw (1990). Es el algoritmo de K-Medoids m√°s conocido y sigue siendo la referencia.**

**Notaci√≥n:** Dado un conjunto `S` de `n` puntos y una funci√≥n de distancia `d(i,j)`, PAM busca un conjunto `M` de `k` medoides tal que el coste total sea m√≠nimo:

```
COSTE = Œ£·µ¢‚àâM  min_{m‚ààM} d(i, m)
```

*(La suma de distancias de cada punto no-medoide al medoide m√°s cercano.)*

**Fase BUILD ‚Äî Inicializaci√≥n inteligente:**

A diferencia de K-Means que inicializa aleatoriamente, PAM tiene una fase de inicializaci√≥n determinista:

1. Elige el primer medoide `m‚ÇÅ`: el punto que minimiza la suma de distancias a todos los dem√°s (el punto m√°s "central" del dataset completo).
2. Para cada punto candidato `x` a ser el segundo medoide, calcula cu√°nto reducir√≠a el coste total a√±adirlo. Elige el que m√°s reduce el coste.
3. Repite hasta tener `k` medoides.

**Fase SWAP ‚Äî Optimizaci√≥n iterativa:**

Una vez inicializados los `k` medoides, PAM intenta mejoras sistem√°ticas:

1. Para cada par `(m·µ¢, x‚±º)` donde `m·µ¢` es un medoide actual y `x‚±º` es un punto no-medoide:
   - Calcula el coste del swap: ¬øcu√°nto cambiar√≠a el coste total si `x‚±º` reemplazara a `m·µ¢`?
2. Si existe alg√∫n swap que reduce el coste, realiza el que m√°s lo reduce.
3. Repite hasta que no haya swaps beneficiosos.

**Complejidad computacional:**

- Fase BUILD: `O(k ¬∑ n¬≤)`
- Fase SWAP por iteraci√≥n: `O(k ¬∑ (n-k)¬≤)`. Cada iteraci√≥n eval√∫a `k √ó (n-k)` swaps posibles, y cada evaluaci√≥n cuesta `O(n-k)`.
- Para `n` grande, PAM es significativamente m√°s lento que K-Means. Para `n < 5.000` es perfectamente viable.

**Variantes para datasets grandes:**

| Variante | Idea | Complejidad | Cu√°ndo usar |
|---|---|---|---|
| PAM | Exacto, todos los swaps | O(k¬∑(n-k)¬≤) | n < 5.000 |
| CLARA | Muestrea subconjuntos, aplica PAM a cada uno | O(k¬∑s¬≤) | n ~ 10‚Å¥‚Äì10‚Åµ |
| CLARANS | B√∫squeda aleatoria de vecinos en el espacio de soluciones | O(n¬≤) | n ~ 10‚Åµ |

**scikit-learn-extra implementa los tres.** El par√°metro `method` de `KMedoids` acepta `'pam'`, `'alternate'` (variante m√°s r√°pida) y `'fastpam1'`.

---

### [01:20 ‚Äì 01:25] K-Means vs. K-Medoids: cu√°ndo elegir cada uno

**Tabla comparativa definitiva:**

| Criterio | K-Means | K-Medoids |
|---|---|---|
| Representante del cluster | Media (puede no existir) | Punto real del dataset |
| Robustez ante outliers | Baja | **Alta** |
| M√©trica de distancia | Solo euclidiana (nativa) | **Cualquier m√©trica** |
| Velocidad (n grande) | **Muy r√°pido** O(n¬∑k¬∑d¬∑i) | M√°s lento O(k¬∑(n-k)¬≤) |
| Interpretabilidad | Media | **Alta** ‚Äî caso real |
| Datos mixtos / categ√≥ricos | No nativo | **S√≠**, con la m√©trica adecuada |
| Default scikit | `sklearn.cluster.KMeans` | `sklearn_extra.cluster.KMedoids` |

**Regla pr√°ctica para elegir:**

*"Usad K-Means cuando teng√°is muchos datos, las variables sean num√©ricas y continuas, y no haya muchos outliers. Usad K-Medoids cuando los outliers sean un problema, cuando necesit√©is que cada cluster est√© representado por un caso real (√∫til para presentaciones a negocio), o cuando est√©is trabajando con distancias que no son euclidianas ‚Äîpor ejemplo, distancias entre perfiles de comportamiento discreto, o datos que incluyen variables categ√≥ricas."*

---

## PR√ÅCTICA K-MEDOIDS ‚Äî Jupyter Notebook (25 min)

---

### [01:25 ‚Äì 01:50] Pr√°ctica guiada

---

#### Celda 8 ‚Äî Instalaci√≥n y verificaci√≥n de scikit-learn-extra

In [None]:
# scikit-learn-extra no viene con scikit-learn est√°ndar
# Instalar con: pip install scikit-learn-extra

try:
    from sklearn_extra.cluster import KMedoids
    print("‚úì scikit-learn-extra disponible")
except ImportError:
    print("‚úó Instalando scikit-learn-extra...")
    import subprocess
    subprocess.run(["pip", "install", "scikit-learn-extra", "-q"])
    from sklearn_extra.cluster import KMedoids
    print("‚úì scikit-learn-extra instalado y cargado")

---

#### Celda 9 ‚Äî Demostraci√≥n del impacto de outliers: K-Means vs. K-Medoids

In [None]:
# -------------------------------------------------------
# EXPERIMENTO: ¬øC√≥mo afectan los outliers a K-Means
# pero no a K-Medoids?
# -------------------------------------------------------

from sklearn_extra.cluster import KMedoids

# Dataset base: 3 clusters bien separados
np.random.seed(42)
X_base, _ = make_blobs(n_samples=120, centers=[[-3, 0], [0, 0], [3, 0]],
                        cluster_std=0.6, random_state=42)

# A√±adimos 5 outliers extremos artificiales
outliers = np.array([
    [-3, 8], [-3, 9],   # outliers sobre el cluster izquierdo
    [3,  -8], [3, -9],  # outliers sobre el cluster derecho
    [0,  10]            # outlier sobre el cluster central
])

X_con_outliers = np.vstack([X_base, outliers])

# Escalado
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_con_outliers)
n_outliers = len(outliers)

# Entrenamos ambos algoritmos con k=3
km  = KMeans(n_clusters=3, n_init=10, random_state=42)
kmd = KMedoids(n_clusters=3, method='pam', random_state=42)

labels_km  = km.fit_predict(X_scaled)
labels_kmd = kmd.fit_predict(X_scaled)

# Obtenemos centroides/medoides en escala original
centroides_km  = scaler.inverse_transform(km.cluster_centers_)
medoides_kmd   = scaler.inverse_transform(kmd.cluster_centers_)

# ---- Visualizaci√≥n comparativa ----
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

for ax, labels, representantes, titulo, color_rep in zip(
    axes,
    [labels_km, labels_kmd],
    [centroides_km, medoides_kmd],
    ["K-Means (sensible a outliers)", "K-Medoids (robusto a outliers)"],
    ['red', 'green']
):
    # Puntos normales
    scatter = ax.scatter(
        X_con_outliers[:-n_outliers, 0],
        X_con_outliers[:-n_outliers, 1],
        c=labels[:-n_outliers], cmap='tab10', alpha=0.7, s=40
    )
    # Outliers marcados con estrella
    ax.scatter(
        outliers[:, 0], outliers[:, 1],
        c='black', marker='*', s=250, zorder=5, label='Outliers'
    )
    # Representantes
    ax.scatter(
        representantes[:, 0], representantes[:, 1],
        c=color_rep, marker='X', s=300, zorder=6,
        edgecolors='black', linewidths=1.5,
        label='Centroides' if color_rep=='red' else 'Medoides'
    )
    ax.set_title(titulo, fontsize=12, fontweight='bold')
    ax.legend(fontsize=9)
    ax.set_xlabel("Caracter√≠stica 1")
    ax.set_ylabel("Caracter√≠stica 2")

plt.suptitle("Impacto de outliers en K-Means vs. K-Medoids",
             fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("img_kmeans_vs_kmedoids_outliers.png", dpi=150, bbox_inches='tight')
plt.show()

**Script de explicaci√≥n ‚Äî este es el momento clave del bloque:**

*"Fijaos en las X rojas (K-Means) y en las X verdes (K-Medoids). Los clusters reales son tres grupos horizontales. Los outliers son las estrellas negras arriba y abajo."*

*"En K-Means, los centroides rojos est√°n desplazados hacia los outliers porque la media se contamina. El cluster izquierdo tiene su centroide 'subido' hacia los outliers de arriba. En K-Medoids, los medoides verdes est√°n en el centro real de cada cluster porque son puntos reales del dataset ‚Äî los outliers no pueden moverlos."*

*"En un proyecto real, esto significa que con K-Means vuestro segmento 'cliente t√≠pico' podr√≠a estar representado por un perfil que no existe, distorsionado por cuatro transacciones fraudulentas o por cuatro clientes VIP extremos."*

---

#### Celda 10 ‚Äî Cuantificaci√≥n del desplazamiento de representantes

In [None]:
# Medimos cu√°nto se desplazan los representantes respecto al centro real

# Calculamos los centros "reales" (sin outliers) para comparar
km_sin_outliers  = KMeans(n_clusters=3, n_init=10, random_state=42)
km_sin_outliers.fit(scaler.transform(X_base))
centros_reales = scaler.inverse_transform(km_sin_outliers.cluster_centers_)

# Ordenamos clusters por coordenada X para comparar correctamente
def ordenar_clusters(centers):
    return centers[np.argsort(centers[:, 0])]

reales = ordenar_clusters(centros_reales)
km_c   = ordenar_clusters(centroides_km)
kmd_c  = ordenar_clusters(medoides_kmd)

print("Distancia de cada representante al centro real del cluster:")
print("-" * 55)
for i, (r, km_ci, kmd_ci) in enumerate(zip(reales, km_c, kmd_c)):
    d_km  = np.linalg.norm(km_ci - r)
    d_kmd = np.linalg.norm(kmd_ci - r)
    print(f"Cluster {i+1}:  K-Means desplazado {d_km:.3f} unidades  |"
          f"  K-Medoids desplazado {d_kmd:.3f} unidades")

print("\n‚Üí K-Medoids mantiene sus representantes mucho m√°s cerca del centro real.")

---

#### Celda 11 ‚Äî K-Medoids aplicado al dataset Mall Customers

In [None]:
# Comparaci√≥n directa sobre el mismo dataset de negocio

kmd_mall = KMedoids(n_clusters=5, method='pam', random_state=42)
df_mall['Cluster_KMedoids'] = kmd_mall.fit_predict(X_mall)

medoides_orig = scaler.inverse_transform(kmd_mall.cluster_centers_)

# Visualizaci√≥n lado a lado
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

for ax, col_cluster, representantes, titulo, marker_color in zip(
    axes,
    ['Cluster', 'Cluster_KMedoids'],
    [centroides_orig, medoides_orig],
    ['K-Means k=5', 'K-Medoids k=5'],
    ['red', 'green']
):
    for c in range(5):
        mask = df_mall[col_cluster] == c
        ax.scatter(
            df_mall.loc[mask, 'Annual_Income_k'],
            df_mall.loc[mask, 'Spending_Score'],
            alpha=0.6, s=50
        )
    ax.scatter(
        representantes[:, 0], representantes[:, 1],
        c=marker_color, marker='X', s=250, zorder=5,
        edgecolors='black', linewidths=1.5
    )
    ax.set_title(titulo, fontsize=12, fontweight='bold')
    ax.set_xlabel("Ingresos anuales (k‚Ç¨)")
    ax.set_ylabel("Spending Score")

plt.suptitle("Mall Customers ‚Äî Comparaci√≥n K-Means vs K-Medoids",
             fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("img_mall_kmeans_vs_kmedoids.png", dpi=150, bbox_inches='tight')
plt.show()

# Mostrar los medoides como filas reales del dataset
print("\nMediantas: los 5 clientes 'representativos' seg√∫n K-Medoids:")
df_medoides = df_mall.iloc[kmd_mall.medoid_indices_][
    ['Annual_Income_k', 'Spending_Score']
].copy()
df_medoides.index = [f'Medoide Cluster {i}' for i in range(5)]
print(df_medoides.round(1))
print("\n‚Üí Estos son clientes reales del dataset. Existen.")

**Script de explicaci√≥n:**

*"Aqu√≠ est√° la gran diferencia pr√°ctica: los medoides son filas reales de vuestro dataset. Si vais a presentar los resultados al equipo de marketing, pod√©is decir: 'Este segmento se parece al cliente 47, que compra as√≠ y gasta as√≠'. Con K-Means, el centroide es un cliente imaginario que quiz√°s no existe en vuestros sistemas."*

---

#### Celda 12 ‚Äî Mini-ejercicio: ¬øCu√°ndo escalar importa para K-Medoids?

In [None]:
# Ejercicio guiado: K-Medoids SIN normalizar vs. CON normalizar
# (mismo punto que con K-Means pero importante repetirlo)

kmd_sin_norm = KMedoids(n_clusters=5, method='pam', random_state=42)
kmd_con_norm = KMedoids(n_clusters=5, method='pam', random_state=42)

labels_sin = kmd_sin_norm.fit_predict(df_mall[['Annual_Income_k','Spending_Score']].values)
labels_con = kmd_con_norm.fit_predict(X_mall)

fig, axes = plt.subplots(1, 2, figsize=(13, 5))

for ax, labels, titulo in zip(
    axes,
    [labels_sin, labels_con],
    ['K-Medoids SIN normalizar', 'K-Medoids CON normalizar']
):
    ax.scatter(df_mall['Annual_Income_k'], df_mall['Spending_Score'],
               c=labels, cmap='tab10', alpha=0.7, s=50)
    ax.set_title(titulo, fontsize=11, fontweight='bold')
    ax.set_xlabel("Ingresos anuales (k‚Ç¨)")
    ax.set_ylabel("Spending Score")

plt.suptitle("Impacto de la normalizaci√≥n en K-Medoids",
             fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

print("Conclusi√≥n: K-Medoids tambi√©n requiere normalizaci√≥n.")
print("La escala afecta a las distancias, independientemente del algoritmo.")

---

#### Celda 13 ‚Äî Resumen comparativo del bloque

In [None]:
print("=" * 60)
print("RESUMEN BLOQUE 1.2 ‚Äî K-Means y K-Medoids")
print("=" * 60)

resumen = {
    "K-Means":   {"Velocidad": "‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ", "Robustez outliers": "‚òÖ‚òÖ‚òÜ‚òÜ‚òÜ",
                  "Interpretabilidad": "‚òÖ‚òÖ‚òÖ‚òÜ‚òÜ", "M√©tricas flexibles": "‚òÖ‚òÖ‚òÜ‚òÜ‚òÜ"},
    "K-Medoids": {"Velocidad": "‚òÖ‚òÖ‚òÖ‚òÜ‚òÜ", "Robustez outliers": "‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ",
                  "Interpretabilidad": "‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ", "M√©tricas flexibles": "‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ"},
}

df_resumen = pd.DataFrame(resumen).T
print(df_resumen.to_string())

print("""
Cu√°ndo usar K-Means:
  ‚úì Dataset grande (n > 50.000)
  ‚úì Variables num√©ricas continuas bien escaladas
  ‚úì No hay outliers extremos
  ‚úì Velocidad es prioritaria

Cu√°ndo usar K-Medoids:
  ‚úì Outliers presentes o sospechados
  ‚úì Necesitas representantes reales (presentaciones, CRM)
  ‚úì Distancias no-euclidianas (datos mixtos, texto, etc.)
  ‚úì Dataset peque√±o-mediano (n < 10.000 con PAM)
""")

---

## NOTAS DE PRODUCCI√ìN

### Para las slides

- **Slide 1:** Portada K-Means. Animaci√≥n de los 4 pasos de Lloyd.
- **Slide 2:** Los 4 pasos del algoritmo con pseudoc√≥digo y f√≥rmulas.
- **Slide 3:** K-Means++ ‚Äî diagrama mostrando la probabilidad proporcional a D(x)¬≤.
- **Slide 4:** M√©todo del codo ‚Äî gr√°fico de WCSS con anotaci√≥n del codo.
- **Slide 5:** Las 5 limitaciones de K-Means ‚Äî tarjetas de advertencia.
- **Slide 6:** Portada K-Medoids. El ejemplo de ingresos con la media contaminada.
- **Slide 7:** Algoritmo PAM ‚Äî fases BUILD y SWAP con diagrama de flujo.
- **Slide 8:** Tabla comparativa K-Means vs. K-Medoids.
- **Slide 9:** Resultado visual del experimento de outliers (los dos scatter plots lado a lado).

### Para el handout

- Tabla comparativa K-Means vs. K-Medoids (criterios de selecci√≥n).
- Pseudoc√≥digo de Lloyd (4 pasos) y pseudoc√≥digo de PAM (BUILD + SWAP).
- Tabla variantes de K-Medoids (PAM, CLARA, CLARANS).
- Los gr√°ficos: evoluci√≥n de centroides, m√©todo del codo, comparaci√≥n con outliers.
- Checklist de decisi√≥n: *¬øHay outliers? ‚Üí K-Medoids. ¬øn > 50k? ‚Üí K-Means. ¬øNecesito representantes reales? ‚Üí K-Medoids.*

### Para el Jupyter Notebook (ejercicios a completar por los alumnos)

**Ejercicio 1 (Celda 9 ampliada):** Repetir el experimento de outliers variando el n√∫mero de outliers (0, 2, 5, 10). ¬øA partir de cu√°ntos outliers empieza K-Means a dar resultados claramente peores?

**Ejercicio 2 (Celda 5 ampliada):** A√±adir la curva de Silhouette Score al gr√°fico del codo. ¬øEl k √≥ptimo seg√∫n Silhouette coincide con el del codo? (Anticipaci√≥n al Bloque 2.3.)

**Ejercicio 3 (Celda 11 ampliada):** Usar `method='alternate'` en lugar de `'pam'` para K-Medoids. Comparar los medoides resultantes y el tiempo de ejecuci√≥n con `%%time`.

**Ejercicio 4 (avanzado):** Implementar CLARA manualmente: (1) tomar 5 muestras aleatorias del 20% del dataset, (2) aplicar PAM a cada muestra, (3) asignar todos los puntos al medoide m√°s cercano de la mejor soluci√≥n, (4) comparar con PAM sobre el dataset completo.

---

## GESTI√ìN DEL TIEMPO

| Segmento | Duraci√≥n | Indicador de progreso |
|---|---|---|
| Transici√≥n desde Bloque 1.1 | 5 min | Pregunta de conexi√≥n respondida |
| Algoritmo de Lloyd (4 pasos) | 10 min | Diagrama en pantalla |
| Inicializaci√≥n y K-Means++ | 5 min | Gr√°fico de variabilidad explicado |
| M√©todo del codo + limitaciones | 10 min | Tabla de limitaciones en pantalla |
| Pr√°ctica Celdas 1-3 (manual + evoluci√≥n) | 10 min | Gr√°fico de evoluci√≥n generado |
| Pr√°ctica Celdas 4-7 (Mall + codo + comparativa) | 25 min | Segmentaci√≥n final interpretada |
| **Pausa de 5 min** (si el ritmo lo permite) | 5 min | ‚Äî |
| Motivaci√≥n K-Medoids + ejemplo num√©rico | 5 min | Pregunta ret√≥rica planteada |
| Algoritmo PAM (BUILD + SWAP) | 10 min | Tabla PAM/CLARA/CLARANS en pantalla |
| Tabla comparativa K-Means vs. K-Medoids | 5 min | Tabla en pantalla |
| Pr√°ctica Celdas 8-13 (outliers + Mall + resumen) | 25 min | Gr√°fico comparativo generado |
| **Total** | **115 min** *(~5 min de margen sobre los 110)* | |

> *Nota: Si el grupo va lento en la pr√°ctica de K-Medoids, omitir la Celda 12 (impacto de normalizaci√≥n) y remitir al ejercicio como tarea.*

---

*Bloque 1.2 desarrollado para el m√≥dulo "Algoritmos de Clustering" ‚Äî M√°ster en Ciencia de Datos*

---
## üí° Para explorar m√°s ‚Äî Ejercicios propuestos

Los ejercicios pr√°cticos est√°n marcados con comentarios `# EJERCICIO` en el c√≥digo.

**Entrega sugerida:** Exporta este notebook como HTML o PDF (`File ‚Üí Download ‚Üí HTML`)
y a√±ade tus conclusiones en una celda Markdown al final de cada secci√≥n.

---
*M√°ster en Ciencia de Datos ¬∑ M√≥dulo Clustering ¬∑ Bloque 1.2*