# Bloque 2.3 ‚Äî M√©tricas de Evaluaci√≥n de Clustering
**M√°ster en Ciencia de Datos ¬∑ M√≥dulo: Algoritmos de Clustering**
**Sesi√≥n 2 ¬∑ Duraci√≥n: 65 min**

---
> üìå **C√≥mo usar este notebook:**
> Ejecuta las celdas **en orden**. Cada secci√≥n comienza con explicaci√≥n te√≥rica (en Markdown) seguida del c√≥digo correspondiente.
> Los comentarios `# ---` delimitan ejercicios opcionales para profundizar.


In [None]:
from sklearn.metrics import adjusted_rand_score
ari = adjusted_rand_score(labels_verdaderos, labels_predichos)

**Ventaja:** invariante a permutaciones de etiquetas (el cluster 0 predicho puede corresponder al cluster 2 real). Ajustado por el azar.

#### Normalized Mutual Information (NMI)

Mide la informaci√≥n mutua entre las dos particiones, normalizada para que est√© en [0, 1]. 1 = particiones id√©nticas, 0 = completamente independientes.

In [None]:
from sklearn.metrics import normalized_mutual_info_score
nmi = normalized_mutual_info_score(labels_verdaderos, labels_predichos)

#### V-Measure (completeness + homogeneity)

Combina dos m√©tricas:
- **Homogeneidad:** cada cluster contiene solo puntos de una clase real.
- **Completeness:** todos los puntos de una clase est√°n en el mismo cluster.
- **V-Measure:** media harm√≥nica de ambas.

---

### [00:20 ‚Äì 00:25] Reglas de uso y las trampas de las m√©tricas

*"Antes de la pr√°ctica, quiero que teng√°is en mente cuatro advertencias sobre las m√©tricas de clustering. Son las m√°s olvidadas en proyectos reales."*

**Trampa 1 ‚Äî El mejor Silhouette no siempre es la mejor soluci√≥n:**
Silhouette maximiza la separaci√≥n entre clusters. A veces la soluci√≥n con mayor Silhouette tiene clusters artificialmente peque√±os que no tienen sentido de negocio. **Regla:** las m√©tricas gu√≠an, no deciden.

**Trampa 2 ‚Äî CHI favorece clusters esf√©ricos:**
Calinski-Harabasz dar√° valores altos para K-Means aunque DBSCAN capture mejor la estructura real. Usad CHI solo para comparar el mismo algoritmo con distintos K, no para comparar algoritmos distintos.

**Trampa 3 ‚Äî Las m√©tricas no capturan interpretabilidad:**
Un clustering con Silhouette 0.9 pero cuyos clusters son imposibles de nombrar o actuar tiene menos valor que uno con Silhouette 0.5 pero con segmentos claros y accionables.

**Trampa 4 ‚Äî Nunca usar una sola m√©trica:**
La pr√°ctica correcta es triangular: Silhouette + DBI + CHI + inspecci√≥n visual + juicio de negocio. Si tres m√©tricas convergen en el mismo K, es un resultado robusto.

---

## PARTE PR√ÅCTICA ‚Äî Jupyter Notebook (40 min)

---

### [00:25 ‚Äì 01:05] Pr√°ctica guiada

---

#### Celda 1 ‚Äî Imports

In [None]:
# ============================================================
# BLOQUE 2.3 ‚Äî M√©tricas de Evaluaci√≥n de Clustering
# ============================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns

from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs, make_moons
from sklearn.metrics import (
    silhouette_score, silhouette_samples,
    davies_bouldin_score,
    calinski_harabasz_score,
    adjusted_rand_score,
    normalized_mutual_info_score
)

plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")
np.random.seed(42)

print("‚úì Imports correctos")

---

#### Celda 2 ‚Äî Silhouette plot: la m√©trica en detalle

In [None]:
# -------------------------------------------------------
# Silhouette plot: an√°lisis punto a punto
# -------------------------------------------------------

X_blob, y_real = make_blobs(n_samples=300, centers=4,
                             cluster_std=0.9, random_state=5)
X_blob_norm = StandardScaler().fit_transform(X_blob)

fig, axes = plt.subplots(2, 3, figsize=(17, 11))
axes = axes.flatten()

for idx, k in enumerate([2, 3, 4, 5, 6, 7]):
    ax = axes[idx]
    km = KMeans(n_clusters=k, n_init=10, random_state=42)
    labels = km.fit_predict(X_blob_norm)

    sil_avg  = silhouette_score(X_blob_norm, labels)
    sil_vals = silhouette_samples(X_blob_norm, labels)

    colores = cm.nipy_spectral(np.linspace(0.1, 0.9, k))
    y_lower = 10

    for c in range(k):
        c_vals = np.sort(sil_vals[labels == c])
        y_upper = y_lower + len(c_vals)
        ax.fill_betweenx(np.arange(y_lower, y_upper), 0, c_vals,
                         facecolor=colores[c], edgecolor=colores[c], alpha=0.7)
        ax.text(-0.05, y_lower + 0.5 * len(c_vals), str(c), fontsize=8)
        y_lower = y_upper + 5

    ax.axvline(x=sil_avg, color='red', linestyle='--', linewidth=1.5)
    ax.set_title(f"k={k} ‚Äî Silhouette avg = {sil_avg:.3f}", fontsize=10, fontweight='bold')
    ax.set_xlabel("Coeficiente Silhouette")
    ax.set_ylabel("Cluster")
    ax.set_xlim([-0.2, 1])
    ax.set_yticks([])

plt.suptitle("Silhouette plots para k=2..7 ‚Äî Dataset blobs (4 clusters reales)",
             fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("img_silhouette_plots.png", dpi=150, bbox_inches='tight')
plt.show()

print("Interpretaci√≥n del Silhouette plot:")
print("  Cada barra horizontal = un punto. Anchura = valor silhouette.")
print("  Barras que cruzan la l√≠nea roja (media) hacia la izquierda ‚Üí puntos problem√°ticos.")
print("  Barras de anchura uniforme ‚Üí cluster compacto y bien separado.")
print("  k=4 deber√≠a tener los plots m√°s uniformes (es el k real).")

**Script de explicaci√≥n:**

*"El silhouette plot es la visualizaci√≥n m√°s informativa de todas las m√©tricas. Cada barra es un punto. Si las barras de un cluster son cortas ‚Äîno llegan a la l√≠nea roja‚Äî ese cluster tiene puntos mal asignados. Si son todas largas y uniformes, el cluster es compacto y bien separado. Comparad k=2 con k=4: en k=4 los plots son mucho m√°s limpios porque coincide con la estructura real."*

---

#### Celda 3 ‚Äî Comparaci√≥n de las tres m√©tricas para distintos K

In [None]:
# -------------------------------------------------------
# Las tres m√©tricas juntas para elegir K √≥ptimo
# -------------------------------------------------------

ks = range(2, 11)
resultados = {'k': list(ks), 'silhouette': [], 'davies_bouldin': [], 'calinski_harabasz': []}

for k in ks:
    km = KMeans(n_clusters=k, n_init=10, random_state=42)
    labels = km.fit_predict(X_blob_norm)
    resultados['silhouette'].append(silhouette_score(X_blob_norm, labels))
    resultados['davies_bouldin'].append(davies_bouldin_score(X_blob_norm, labels))
    resultados['calinski_harabasz'].append(calinski_harabasz_score(X_blob_norm, labels))

df_metricas = pd.DataFrame(resultados).set_index('k')

# Normalizar para comparaci√≥n visual en [0,1]
df_norm = df_metricas.copy()
df_norm['silhouette_norm']      = (df_metricas['silhouette'] - df_metricas['silhouette'].min()) / \
                                   (df_metricas['silhouette'].max() - df_metricas['silhouette'].min())
df_norm['dbi_norm_inv']         = 1 - (df_metricas['davies_bouldin'] - df_metricas['davies_bouldin'].min()) / \
                                       (df_metricas['davies_bouldin'].max() - df_metricas['davies_bouldin'].min())
df_norm['chi_norm']             = (df_metricas['calinski_harabasz'] - df_metricas['calinski_harabasz'].min()) / \
                                   (df_metricas['calinski_harabasz'].max() - df_metricas['calinski_harabasz'].min())

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# M√©tricas en escala original
ax1 = axes[0]
ax1.plot(ks, df_metricas['silhouette'], 'bo-', linewidth=2, label='Silhouette ‚Üë')
ax1b = ax1.twinx()
ax1b.plot(ks, df_metricas['davies_bouldin'], 'r^--', linewidth=2, label='Davies-Bouldin ‚Üì')
ax1.set_xlabel("N√∫mero de clusters (k)")
ax1.set_ylabel("Silhouette Score", color='blue')
ax1b.set_ylabel("Davies-Bouldin Index", color='red')
ax1.set_title("Silhouette y Davies-Bouldin\nvs. n√∫mero de clusters",
              fontsize=11, fontweight='bold')
ax1.set_xticks(ks)
lines1, labs1 = ax1.get_legend_handles_labels()
lines2, labs2 = ax1b.get_legend_handles_labels()
ax1.legend(lines1 + lines2, labs1 + labs2, fontsize=9)

# M√©tricas normalizadas juntas
ax2 = axes[1]
ax2.plot(ks, df_norm['silhouette_norm'], 'bo-', linewidth=2, markersize=7,
         label='Silhouette (normalizado) ‚Üë')
ax2.plot(ks, df_norm['dbi_norm_inv'], 'r^--', linewidth=2, markersize=7,
         label='1 - DBI (normalizado) ‚Üë')
ax2.plot(ks, df_norm['chi_norm'], 'gs-.', linewidth=2, markersize=7,
         label='Calinski-Harabasz (normalizado) ‚Üë')
ax2.axvline(x=4, color='black', linestyle=':', linewidth=2, label='k real = 4')
ax2.set_xlabel("N√∫mero de clusters (k)")
ax2.set_ylabel("Puntuaci√≥n normalizada [0,1] (mayor = mejor)")
ax2.set_title("Las tres m√©tricas normalizadas juntas\n(coinciden en k=4 ‚Üí resultado robusto)",
              fontsize=11, fontweight='bold')
ax2.legend(fontsize=8)
ax2.set_xticks(ks)

plt.suptitle("Triangulaci√≥n de m√©tricas para seleccionar k √≥ptimo",
             fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("img_metricas_triangulacion.png", dpi=150, bbox_inches='tight')
plt.show()

k_optimos = {
    'Silhouette':          df_metricas['silhouette'].idxmax(),
    'Davies-Bouldin':      df_metricas['davies_bouldin'].idxmin(),
    'Calinski-Harabasz':   df_metricas['calinski_harabasz'].idxmax(),
}
print("K √≥ptimo seg√∫n cada m√©trica:")
for metrica, k_opt in k_optimos.items():
    print(f"  {metrica}: k={k_opt}")
print(f"\n‚Üí Las tres coinciden en k={pd.Series(k_optimos).mode()[0]} ‚úì")

**Script de explicaci√≥n:**

*"Este es el patr√≥n que quer√©is ver: las tres m√©tricas apuntando al mismo k. Cuando las tres coinciden, el resultado es robusto ‚Äîno es un artefacto de una sola m√©trica. En este caso las tres se√±alan k=4, que es exactamente el k real que usamos para generar los datos."*

*"En datos reales, las tres rara vez coinciden exactamente. Pero os dan un rango plausible de k values. Luego vuestro juicio de negocio decide cu√°ntos segmentos son accionables."*

---

#### Celda 4 ‚Äî Comparaci√≥n de algoritmos con las mismas m√©tricas

In [None]:
# -------------------------------------------------------
# ¬øQu√© algoritmo da mejores clusters para este dataset?
# Usando las m√©tricas como √°rbitro objetivo
# -------------------------------------------------------

# Dataset: blobs est√°ndar (caso favorable para K-Means)
X_eval, y_eval = make_blobs(n_samples=400, centers=4,
                             cluster_std=0.85, random_state=7)
X_eval_norm = StandardScaler().fit_transform(X_eval)

algoritmos = {
    'K-Means k=4': KMeans(n_clusters=4, n_init=10, random_state=42),
    'GMM k=4':     GaussianMixture(n_components=4, n_init=5, random_state=42),
    'Jer√°rquico Ward k=4': AgglomerativeClustering(n_clusters=4, linkage='ward'),
}

filas = []
for nombre, modelo in algoritmos.items():
    if isinstance(modelo, GaussianMixture):
        modelo.fit(X_eval_norm)
        labels = modelo.predict(X_eval_norm)
    else:
        labels = modelo.fit_predict(X_eval_norm)

    sil = silhouette_score(X_eval_norm, labels)
    dbi = davies_bouldin_score(X_eval_norm, labels)
    chi = calinski_harabasz_score(X_eval_norm, labels)
    ari = adjusted_rand_score(y_eval, labels)
    filas.append({'Algoritmo': nombre, 'Silhouette ‚Üë': sil,
                  'Davies-Bouldin ‚Üì': dbi, 'Calinski-Harabasz ‚Üë': chi,
                  'ARI (vs. real) ‚Üë': ari})

df_comp = pd.DataFrame(filas).set_index('Algoritmo')
print("Comparaci√≥n de algoritmos ‚Äî Dataset blobs (4 clusters reales):")
print(df_comp.round(4).to_string())

print("\n‚Üí En datos convexos, los tres algoritmos dan resultados muy similares.")
print("  El ARI confirma que los tres recuperan bien la estructura real.")

---

#### Celda 5 ‚Äî Dashboard de evaluaci√≥n: selecci√≥n autom√°tica del mejor K

In [None]:
# -------------------------------------------------------
# EJERCICIO INTEGRADOR:
# dado un dataset desconocido, elegir autom√°ticamente
# el mejor algoritmo y el mejor K
# -------------------------------------------------------

def evaluar_clustering(X, k_min=2, k_max=8, algoritmos_k=['kmeans'],
                       verbose=True):
    """
    Eval√∫a autom√°ticamente m√∫ltiples configuraciones de clustering.
    Devuelve un DataFrame con todas las m√©tricas y recomienda la mejor.
    """
    resultados = []

    for k in range(k_min, k_max + 1):
        for algo in algoritmos_k:
            if algo == 'kmeans':
                modelo = KMeans(n_clusters=k, n_init=10, random_state=42)
                labels = modelo.fit_predict(X)
                nombre = f'K-Means k={k}'
            elif algo == 'gmm':
                modelo = GaussianMixture(n_components=k, n_init=5, random_state=42)
                modelo.fit(X)
                labels = modelo.predict(X)
                nombre = f'GMM k={k}'
            elif algo == 'ward':
                modelo = AgglomerativeClustering(n_clusters=k, linkage='ward')
                labels = modelo.fit_predict(X)
                nombre = f'Ward k={k}'

            # Saltar si solo hay un cluster real
            if len(np.unique(labels)) < 2:
                continue

            sil = silhouette_score(X, labels)
            dbi = davies_bouldin_score(X, labels)
            chi = calinski_harabasz_score(X, labels)

            resultados.append({
                'Configuraci√≥n': nombre, 'k': k,
                'Silhouette ‚Üë': round(sil, 4),
                'DBI ‚Üì': round(dbi, 4),
                'CHI ‚Üë': round(chi, 1),
            })

    df_res = pd.DataFrame(resultados)

    # Puntuaci√≥n compuesta (normalizada, las tres m√©tricas con igual peso)
    df_res['sil_norm'] = (df_res['Silhouette ‚Üë'] - df_res['Silhouette ‚Üë'].min()) / \
                          (df_res['Silhouette ‚Üë'].max() - df_res['Silhouette ‚Üë'].min() + 1e-9)
    df_res['dbi_norm'] = 1 - (df_res['DBI ‚Üì'] - df_res['DBI ‚Üì'].min()) / \
                              (df_res['DBI ‚Üì'].max() - df_res['DBI ‚Üì'].min() + 1e-9)
    df_res['chi_norm'] = (df_res['CHI ‚Üë'] - df_res['CHI ‚Üë'].min()) / \
                          (df_res['CHI ‚Üë'].max() - df_res['CHI ‚Üë'].min() + 1e-9)
    df_res['Score compuesto'] = (df_res['sil_norm'] + df_res['dbi_norm'] + df_res['chi_norm']) / 3

    df_res_clean = df_res.drop(columns=['k','sil_norm','dbi_norm','chi_norm'])

    if verbose:
        print(df_res_clean.sort_values('Score compuesto', ascending=False)
              .head(5).to_string(index=False))
        mejor = df_res_clean.loc[df_res['Score compuesto'].idxmax(), 'Configuraci√≥n']
        print(f"\n‚Üí Configuraci√≥n recomendada: '{mejor}'")

    return df_res_clean.sort_values('Score compuesto', ascending=False)


# Probamos con el dataset de Mall Customers
print("=== Dashboard de evaluaci√≥n autom√°tica ===\n")
np.random.seed(0)
n = 200
df_mall_eval = pd.DataFrame({
    'Annual_Income_k': np.concatenate([
        np.random.normal(20,5,30), np.random.normal(20,5,30),
        np.random.normal(55,8,40), np.random.normal(85,7,50), np.random.normal(85,7,50)
    ]),
    'Spending_Score': np.concatenate([
        np.random.normal(20,6,30), np.random.normal(80,6,30),
        np.random.normal(50,8,40), np.random.normal(15,6,50), np.random.normal(82,6,50)
    ])
}).clip(lower=0)
X_mall_eval = StandardScaler().fit_transform(df_mall_eval)

df_resultados = evaluar_clustering(
    X_mall_eval, k_min=2, k_max=8,
    algoritmos_k=['kmeans', 'gmm', 'ward']
)

---

#### Celda 6 ‚Äî Las trampas de las m√©tricas: cuando el mejor score no es la mejor soluci√≥n

In [None]:
# -------------------------------------------------------
# DEMOSTRACI√ìN: Silhouette puede mentir
# -------------------------------------------------------

print("=== Caso donde Silhouette puede ser enga√±oso ===\n")

# Dataset: lunas (estructura no convexa)
X_lunas, y_lunas = make_moons(n_samples=300, noise=0.06, random_state=42)
X_lunas_norm = StandardScaler().fit_transform(X_lunas)

resultados_lunas = []
for k in range(2, 7):
    km = KMeans(n_clusters=k, n_init=10, random_state=42)
    labels_km = km.fit_predict(X_lunas_norm)
    sil = silhouette_score(X_lunas_norm, labels_km)
    resultados_lunas.append({'k': k, 'Silhouette K-Means': round(sil, 4)})

# DBSCAN (el correcto para este dataset)
db = DBSCAN(eps=0.18, min_samples=5)
labels_db = db.fit_predict(X_lunas_norm)
mask_no_noise = labels_db != -1
sil_db = silhouette_score(X_lunas_norm[mask_no_noise], labels_db[mask_no_noise])
ari_db = adjusted_rand_score(y_lunas[mask_no_noise], labels_db[mask_no_noise])

print("K-Means en dataset de lunas:")
df_lunas = pd.DataFrame(resultados_lunas).set_index('k')
print(df_lunas)
print(f"\nDBSCAN (correcto para este dataset):")
print(f"  Silhouette: {sil_db:.4f}")
print(f"  ARI vs. etiquetas reales: {ari_db:.4f}")

print(f"""
An√°lisis:
  K-Means con k=2 puede tener un Silhouette {'mayor' if resultados_lunas[0]['Silhouette K-Means'] > sil_db else 'menor'} que DBSCAN.
  Sin embargo, DBSCAN recupera la estructura real (ARI={ari_db:.2f} ‚âà 1.0).

  Conclusi√≥n: Silhouette mide separaci√≥n convexa.
  En clusters no convexos, un Silhouette alto puede ser un artefacto.
  Usad siempre la m√©trica junto con la INSPECCI√ìN VISUAL.
""")

**Script de explicaci√≥n:**

*"Este ejemplo es importante. K-Means partiendo las lunas puede tener un Silhouette comparable o incluso mayor que DBSCAN, porque Silhouette mide separaci√≥n lineal. Pero el ARI contra las etiquetas reales revela que DBSCAN es mucho mejor. Moraleja: las m√©tricas internas son herramientas, no √°rbitros absolutos. Siempre combinadlas con visualizaci√≥n."*

---

#### Celda 7 ‚Äî Tabla final de referencia

In [None]:
print("=" * 70)
print("GU√çA DE REFERENCIA ‚Äî M√âTRICAS DE EVALUACI√ìN DE CLUSTERING")
print("=" * 70)

tabla_ref = pd.DataFrame({
    'M√©trica': ['Silhouette', 'Davies-Bouldin', 'Calinski-Harabasz', 'ARI', 'NMI'],
    'Rango': ['[-1, 1]', '[0, ‚àû)', '[0, ‚àû)', '[-1, 1]', '[0, 1]'],
    'Mejor': ['‚Üë Mayor', '‚Üì Menor', '‚Üë Mayor', '‚Üë Mayor', '‚Üë Mayor'],
    'Necesita GT': ['No', 'No', 'No', 'S√≠', 'S√≠'],
    'Complejidad': ['O(n¬≤)', 'O(n¬∑K)', 'O(n¬∑K)', 'O(n)', 'O(n)'],
    'Limitaci√≥n principal': [
        'Asume convexidad',
        'Solo centroides',
        'Asume convexidad',
        'Requiere ground truth',
        'Requiere ground truth',
    ]
}).set_index('M√©trica')

print(tabla_ref.to_string())
print("""
Protocolo de evaluaci√≥n recomendado:
  1. Silhouette plot ‚Üí analizar cluster por cluster
  2. DBI + CHI ‚Üí confirmar con m√©tricas m√°s r√°pidas
  3. Inspecci√≥n visual ‚Üí siempre obligatoria
  4. Juicio de negocio ‚Üí ¬ølos clusters son accionables?
  5. ARI/NMI ‚Üí solo si se dispone de ground truth
""")

---

## NOTAS DE PRODUCCI√ìN

### Para las slides

- **Slide 1:** Portada. La pregunta: *"¬øC√≥mo s√© si mis clusters son buenos?"*
- **Slide 2:** M√©tricas internas vs. externas ‚Äî diagrama comparativo.
- **Slide 3:** Silhouette ‚Äî f√≥rmula de `a(i)`, `b(i)`, `s(i)` con diagrama geom√©trico.
- **Slide 4:** Davies-Bouldin ‚Äî f√≥rmula y diagrama de compacidad vs. separaci√≥n.
- **Slide 5:** Calinski-Harabasz ‚Äî SS_between vs. SS_within visualmente.
- **Slide 6:** Las cuatro advertencias sobre m√©tricas ‚Äî tarjetas de advertencia.
- **Slide 7:** El protocolo de evaluaci√≥n en 5 pasos.

### Para el handout

- Tabla de referencia completa de m√©tricas (Celda 7).
- Silhouette plots para k=3 y k=4 lado a lado (Celda 2) con gu√≠a de lectura.
- Gr√°fico de triangulaci√≥n de m√©tricas (Celda 3).
- La demostraci√≥n de Silhouette enga√±oso (Celda 6) como caso de advertencia.
- El protocolo de evaluaci√≥n en 5 pasos.

### Para el Jupyter Notebook (ejercicios a completar)

**Ejercicio 1:** Aplicar el dashboard de evaluaci√≥n (`evaluar_clustering`) al dataset de pa√≠ses del Bloque 1.3. ¬øEl k recomendado coincide con el que elegisteis visualmente por el dendrograma?

**Ejercicio 2:** Calcular el Silhouette plot para K-Medoids con k=5 en el dataset Mall Customers. ¬øLos clusters tienen Silhouette m√°s uniforme que K-Means?

**Ejercicio 3 (avanzado):** Implementar el c√°lculo del Silhouette Score desde cero usando NumPy y scipy.spatial.distance. Verificar que coincide con `sklearn.metrics.silhouette_score`.

---

## GESTI√ìN DEL TIEMPO

| Segmento | Duraci√≥n | Indicador |
|---|---|---|
| Transici√≥n + distinci√≥n interna/externa | 4 min | Diagrama en pantalla |
| Silhouette (f√≥rmula + interpretaci√≥n) | 5 min | F√≥rmulas en pantalla |
| Davies-Bouldin + Calinski-Harabasz | 4 min | Tabla comparativa en pantalla |
| M√©tricas externas (ARI, NMI) | 3 min | F√≥rmulas en pantalla |
| Las cuatro trampas | 4 min | Tarjetas en pantalla |
| Protocolo de 5 pasos | 5 min | Lista en pantalla |
| Celda 1-2 (imports + Silhouette plots) | 10 min | 6 plots generados |
| Celda 3 (triangulaci√≥n) | 8 min | Gr√°fico de m√©tricas generado |
| Celda 4 (comparaci√≥n algoritmos) | 7 min | Tabla impresa |
| Celda 5 (dashboard autom√°tico) | 8 min | Top 5 configuraciones |
| Celda 6-7 (trampa + tabla final) | 7 min | Demostraci√≥n enga√±o + tabla |
| **Total** | **65 min** | |

---

*Bloque 2.3 desarrollado para el m√≥dulo "Algoritmos de Clustering" ‚Äî M√°ster en Ciencia de Datos*

---
## üí° Para explorar m√°s ‚Äî Ejercicios propuestos

Los ejercicios pr√°cticos est√°n marcados con comentarios `# EJERCICIO` en el c√≥digo.

**Entrega sugerida:** Exporta este notebook como HTML o PDF (`File ‚Üí Download ‚Üí HTML`)
y a√±ade tus conclusiones en una celda Markdown al final de cada secci√≥n.

---
*M√°ster en Ciencia de Datos ¬∑ M√≥dulo Clustering ¬∑ Bloque 2.3*