<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B04%5D%20-%20Modelos%20No%20Supervisados/No_supervisados_Ejercicio_9_kmeans_penguins.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# No supervisados - Ejercicio 9: kmeans_penguins.ipynb

Este notebook es **You do**. Vas a trabajar de forma autónoma sobre el dataset *Palmer Penguins* aplicando **KMeans (+ comparación con DBSCAN)**, **PCA** y **LOF**.

## Objetivos

- Cargar y explorar el dataset `penguins`.
- Preparar los datos (limpieza, encoding, escalado).
- Aplicar PCA para visualización y compresión.
- Entrenar KMeans, comparar con DBSCAN y detectar outliers con LOF.
- Perfilar clusters y outliers y escribir conclusiones.


## Nota rápida antes de empezar

Trabaja en este orden: carga → EDA → limpieza/selección → preprocesado → PCA → clustering → outliers → perfilado. Guarda el notebook con tus respuestas y añade al final un párrafo con tus decisiones (qué parámetros elegiste y por qué).

In [None]:
# IMPORTS (ejecuta esta celda para disponer de las librerías)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.cluster import KMeans, DBSCAN
from sklearn.decomposition import PCA
from sklearn.neighbors import LocalOutlierFactor, NearestNeighbors
from sklearn.metrics import silhouette_score, adjusted_rand_score

np.random.seed(42)

# No modifiques esta celda salvo para instalar paquetes si te falta alguno (por ejemplo, pip install seaborn)

In [None]:
# CARGA DE DATOS
# TODO: carga el dataset 'penguins'. Opciones:
#  - usar seaborn: df = sns.load_dataset('penguins')
#  - o cargar desde la URL raw: 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv'
#  - comprueba que el DataFrame se ha cargado correctamente con df.head() y df.shape
# Tu objetivo: dejar un DataFrame llamado `df` listo para EDA.

In [None]:
# EXPLORACIÓN INICIAL
# TODO:
# 1) Muestra df.info(), df.describe().T y el porcentaje de nulos por columna.
# 2) Observa la distribución de las columnas categóricas 'species' y 'sex' con df['species'].value_counts() y sns.countplot.
# 3) Visualiza relaciones entre las variables numéricas con sns.pairplot(...) para hacerte una idea de agrupamientos naturales.
# Resultado esperado: entender cuántas filas útiles hay y si necesitas imputar o eliminar filas.

In [None]:
# SELECCIÓN Y LIMPIEZA
# TODO:
# - Define vars_numericas = df.select_dtypes(include=[np.number]).columns
# - Define vars_categoricas = df.select_dtypes(include=['object','category']).columns
# - Decide cómo tratar nulos: imputa (media/mediana) o elimina filas con df.dropna(subset=vars_numericas).
# - Crea df_clean resultado de esa operación y comprueba su shape.
# Debes terminar con un DataFrame `df_clean` sin nulos en las numéricas que vas a usar.

In [None]:
# ENCODING + ESCALADO
# TODO:
# - Si vas a usar variables categóricas, aplica OneHotEncoder(drop='first') y concatena con las numéricas.
# - Crea una matriz X_full (numpy array) con todas las features que usarás para clustering.
# - Aplica StandardScaler() y guarda el resultado en `X_scaled` (numpy array o DataFrame) conservando el orden de filas.
# Al final debes tener X_scaled y también las listas vars_numericas y vars_categoricas usadas.

In [None]:
# PCA
# TODO:
# - Ajusta PCA(n_components=2) sobre X_scaled para visualización y guarda X_pca2.
# - Muestra pca.explained_variance_ratio_ y dibuja un barplot con las dos primeras componentes.
# - (Opcional) Ajusta PCA(n_components=0.90) para conocer cuántas componentes necesitas para retener 90% de varianza.
# Resultado: X_pca2 y, opcionalmente, X_pca90.

In [None]:
# KMEANS (explora manualmente k)
# TODO:
# - Prueba k en range(2,9). Para cada k: entrena KMeans(n_clusters=k, random_state=42, n_init=10), calcula inertia y silhouette_score.
# - Construye un pequeño DataFrame con k, inertia y silhouette y dibuja ambos gráficos (inertia vs k, silhouette vs k).
# - Elige un k razonable y entrena KMeans con ese k. Guarda etiquetas en labels_km y añade a df_clean['cluster_km'].
# - Visualiza en PCA 2D (X_pca2) coloreando por cluster_km.
# Nota: silhouette_score requiere al menos 2 clusters distintos y no funciona si todos pertenecen a la misma etiqueta.

In [None]:
# DBSCAN (comparativa)
# TODO:
# - Dibuja el k-distance plot (NearestNeighbors) para elegir un rango de eps: neigh = NearestNeighbors(n_neighbors=5); distances = ...; plt.plot(sorted(distances[:, -1])).
# - Prueba al menos dos configuraciones de DBSCAN(eps=..., min_samples=...) y guarda labels_db.
# - Añade df_clean['cluster_db'] = labels_db y muestra np.unique(labels_db) y pd.Series(labels_db).value_counts().
# - Calcula adjusted_rand_score(labels_km, labels_db) para cuantificar similitud entre particiones (si procede).
# - Visualiza labels_db en PCA 2D.

In [None]:
# LOF (detección de outliers)
# TODO:
# - Ajusta LocalOutlierFactor con distintos n_neighbors y contamination (ej. 0.05).
# - Usa lof.fit_predict(X_scaled) para obtener etiquetas (1 normal, -1 outlier) y guarda en df_clean['lof_label'].
# - Cuenta cuántos outliers detectas y visualízalos en PCA 2D (color por lof_label).
# - Compara los outliers LOF con el ruido (-1) detectado por DBSCAN: ¿coinciden muchos casos?
# Resultado: lista de índices detectados como outliers y visualización clara.

In [None]:
# PERFILADO DE CLUSTERS Y OUTLIERS
# TODO:
# - Calcula medias por cluster_km: df_clean.groupby('cluster_km')[vars_numericas].mean()
# - Muestra algunos ejemplos de outliers: df_clean[df_clean['lof_label']==-1].head()
# - Propón 2 acciones prácticas (texto) basadas en los clusters y en los outliers (p. ej. investigar outliers o crear campañas dirigidas a un cluster concreto).

### Entrega

En la última celda escribe un párrafo (4-6 líneas) que incluya: k elegido y por qué, parámetros DBSCAN y LOF que ajustaste, principales hallazgos (qué clusters existen y qué tipo de outliers detectaste) y 2 recomendaciones prácticas. Guarda y descarga el notebook.

In [None]:
# Aquí escribe tu entrega