# Comparativa de Clustering: K-Means, DBSCAN y Jerárquico

**Objetivo:** comparar tres métodos de clustering en un dataset real y elegir **el mejor** según el **coeficiente de silueta** (y **Elbow** solo para K-Means).

**Dataset elegido:** **Palmer Penguins** (medidas de pingüinos) — datos libres y fáciles de obtener.

- Página del proyecto: <https://allisonhorst.github.io/palmerpenguins/>
- CSV directo (penguins_clean): <https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins_clean.csv>

> Nota: **NO uses la columna de especie** (`species`) para entrenar (clustering es no supervisado). Se puede usr más tarde sólo para **interpretación** si lo deseas, pero **nunca** para ajustar los modelos.


## Requisitos
- Trabajar siempre con **variables numéricas** y **datos escalados**.
- Evaluación:
  - **K-Means:** curva **Elbow** (inercia) para k=2..10 + **Silhouette** para k=2..10.
  - **DBSCAN:** probar varias combinaciones de `eps` y `min_samples`; reportar **Silhouette**, nº de clústeres (excl. ruido) y % ruido.
  - **Jerárquico:** probar `linkage` en {`ward`, `complete`, `average`} y k=2..10; reportar **Silhouette**.
- Conclusión final: elige método y configuración (parámetros) y justifica **en 8–12 líneas**.

**Importante (API de scikit-learn):**
- `KMeans` **sí** tiene `.predict(X)` para etiquetar nuevos puntos.
- `DBSCAN` y `AgglomerativeClustering` **no** tienen `.predict`. Usa `fit_predict(X)` y el atributo `.labels_` tras el ajuste.


## 0) Preparación del entorno
- Necesitas tener instalado `pandas`, `numpy`, `scikit-learn`, `matplotlib`.
- Fija `random_state=42` (u otro) cuando aplique para reproducibilidad.


## 1) Descarga y carga de datos
1. Descarga el CSV desde la URL indicada.
2. Cárgalo en un `DataFrame`.
3. Inspecciona forma, nombres de columnas y tipos.
4. Identifica columnas **numéricas** que usarás como `X` (excluye `species` y otras no numéricas).


In [None]:
# TODO: Cargar dataset Palmer Penguins en un DataFrame df
# TODO: Mostrar df.head(), df.info(), df.describe()
# TODO: Seleccionar X solo con columnas numéricas (excluyendo target/contexto) IMPORTANTE, LA X INCLUIRA SOLO LAS VARIABLES NUMÉRICAS!!!
# df = ...
# X = ...


## 2) Limpieza mínima y normalización
1. Elimina duplicados y filas con nulos en las columnas numéricas escogidas.
2. **Estandariza** (`StandardScaler`) para tener media 0 y varianza 1.
3. Guarda el array escalado como `X_scaled` (será tu base para todos los modelos).

> **Por qué escalamos:** Todas las distancias (Euclídeas) y medidas de densidad de los modelos dependen de la escala; mezclar variables en escalas distintas sesga los resultados.


In [None]:
# TODO: Limpieza básica (drop_duplicates / dropna) y escalado con StandardScaler
# 
# scaler = ...
# X_scaled = ...
# print(X.shape, '->', X_scaled.shape)


## 3) K-Means
**Objetivo:**
- Bucle `k` en 2..10.
- Guardar por cada `k`: **inercia** (suma de distancias al centroide) y **Silhouette**.
- Seleccionar `k` final apoyándote en **Elbow** + **Silhouette**.

**Indicaciones específicas:**
- Usa `KMeans(n_clusters=k, random_state=42)`.
- Tras ajustar, obtén etiquetas con `.labels_` o usando `.predict(X_scaled)`.
- Para Silhouette: `sklearn.metrics.silhouette_score(X_scaled, labels)`.
- Traza **Inercia vs k** y **Silhouette vs k** (dos gráficos separados). Explica en 2-3 líneas tu elección de `k`.


In [None]:
# TODO: Bucle K-Means para k=2..10, guardar inercia y silhouette
# TODO: Graficar Elbow (inercia vs k) y Silhouette vs k
# TODO: Elegir k_final y ajustar modelo final; obtener labels_kmeans


## 4) DBSCAN
**Objetivo:** explorar `eps` y `min_samples` en una rejilla pequeña y comparar resultados.

**Indicaciones específicas:**
- Probar `eps` en valores razonables (por ejemplo: 0.3, 0.5, 0.7, 0.9) y `min_samples` en {3, 5, 7}.
- Para cada combinación: ajusta con `DBSCAN(eps=?, min_samples=?)` sobre `X_scaled`.
- Extrae etiquetas con `.labels_`.
- Calcula **nº de clústeres** (excluyendo `-1`) y **% de ruido** (`label == -1`).
- Calcula **Silhouette** **solo si** hay al menos **2** clústeres válidos (sin contar ruido). Si no, anota "no aplicable".
- Elige una combinación final y justifica.


In [None]:
# TODO: Grid pequeño de DBSCAN: probar eps y min_samples
# TODO: Para cada combinación, registrar #clusters válidos, %ruido y silhouette (si aplica)
# TODO: Elegir configuración final; obtener labels_dbscan


## 5) Aglomerativo Jerárquico
**Objetivo:** probar distintas reglas de enlace y diferentes `k`.

**Indicaciones específicas:**
- Probar `linkage` en {`ward`, `complete`, `average`}.
- Para cada `linkage`, probar `n_clusters` en 2..10.
- Ajustar con `AgglomerativeClustering(n_clusters=k, linkage=..., metric='euclidean')`.
- Obtener etiquetas con `.fit_predict(X_scaled)` o del atributo `.labels_`.
- Calcular **Silhouette** y registrar los resultados en una tabla.
- Elegir la pareja (linkage, k) final y justificar.

> Recordatorio: `ward` requiere métrica euclídea (en scikit-learn es implícita). No hay `.predict()` para nuevos datos.


In [None]:
# TODO: Bucle Agglomerative: linkage en {'ward','complete','average'} y k=2..10
# TODO: Calcular silhouette para cada combinación y elegir la mejor; obtener labels_agglom


## 6) Comparativa y Conclusión
1. Resume en una **tabla** el **mejor** resultado de cada método (método, parámetros, silhouette, nº de clústeres y notas relevantes como % ruido en DBSCAN).
2. Escribe una **conclusión de 8–12 líneas** justificando el **método ganador** para estos datos y por qué descartas las alternativas (forma de clústeres, sensibilidad a parámetros, presencia de ruido/outliers, etc.).


In [None]:
# TODO: Construir la tabla comparativa final y redactar la conclusión (puedes imprimir un markdown)

---
## Tips rápidos
- **Escala siempre** antes de ajustar los modelos.
- Si la Silhouette es negativa o muy baja, revisa parámetros.
- En DBSCAN, `eps` muy pequeño -> muchos ruidos; `eps` muy grande -> pocos clústeres (puede mezclarlo todo).
- K-Means es sensible a outliers; DBSCAN puede marcarlos como ruido; el jerárquico con `complete` favorece clústeres compactos.
- Documenta tus decisiones (por qué ese `k`, ese `eps`, ese `linkage`).


# BONUS EXTRA

### Validación tramposa

Usa la columna species para evaluar qué tan “puras” son las asignaciones del mejor modelo de cada método.

Creando una matriz de confusión entre clúster y especie y sacando accuracy.

Comenta usando distintos valores de eps y min_samples en DBSCAN.

### Detección de anomalías con DBSCAN

Con tu configuración de DBSCAN, analiza los puntos con label = -1 (ruido): ¿qué tienen en común (rangos extremos de masa, culmen, etc.)?

Genera una tabla o un par de graficas (histogramas comparativos, por ejemplo) para ilustrar las diferencias entre los puntos de ruido y los puntos asignados a clústeres.
