<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B04%5D%20-%20Modelos%20No%20Supervisados/No_supervisados_Ejercicio_6__lof_penguins.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# No supervisados - Ejercicio 6: lof_penguins.ipynb

Este notebook es **You do**. Trabaja de forma autónoma aplicando **Local Outlier Factor (LOF)** al dataset Palmer Penguins. Cada celda de código contiene instrucciones claras en comentarios `# TODO` que debes implementar. No incluyo soluciones: tu tarea es que el notebook funcione y que justifiques tus decisiones al final.

## Objetivos

- Cargar y explorar el dataset `penguins`.
- Preparar las variables numéricas y, si decides usar categóricas, codificarlas.
- Ajustar LOF para detectar outliers, explorar sensibilidad a `n_neighbors` y `contamination`.
- Visualizar outliers en PCA 2D y comparar con ruido detectado por DBSCAN.
- Perfilar outliers y escribir recomendaciones prácticas.

In [None]:
# Imports — ejecuta esta celda para disponer de las librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.decomposition import PCA
from sklearn.neighbors import LocalOutlierFactor, NearestNeighbors
from sklearn.cluster import DBSCAN

np.random.seed(42)

# Si necesitas instalar algo, hazlo antes de ejecutar (pip install seaborn)

### Carga de datos

Carga el dataset `penguins`. Puedes usar `seaborn.load_dataset('penguins')` o cargar la versión raw desde GitHub. Asegúrate de dejar un DataFrame `df` listo para EDA.

In [None]:
# TODO:
# 1) Intenta cargar con seaborn
# 2) Comprueba df.head(), df.shape y que las columnas esperadas existen
# Resultado esperado: un DataFrame llamado `df`

### Exploración inicial

Revisa estructura, nulos y estadísticas para decidir cómo limpiar y qué variables numéricas usar para LOF.

In [None]:
# TODO:
# - Muestra df.info(), df.describe().T
# - Calcula y muestra % de nulos por columna: (df.isnull().mean()*100).round(2)
# - Observa distributiones con sns.histplot o sns.boxplot para cada numérica
# Resultado: entender cuántas filas útiles hay y si imputar o eliminar filas

### Selección de variables y limpieza

Selecciona las variables numéricas que vas a usar para LOF. Si incluyes categóricas, codifícalas antes de escalar. Mantén un objeto `df_clean` sin nulos en las numéricas seleccionadas.

In [None]:
# TODO:
# - Define vars_numericas = df.select_dtypes(include=[np.number]).columns
# - Define vars_categoricas = df.select_dtypes(include=['object','category']).columns
# - Decide estrategia de nulos (imputación o dropna) y crea df_clean
# - Crea X_num = df_clean[vars_numericas] (o concatena con categóricas codificadas si las incluyes)
# Resultado: df_clean y X_num listos para escalar

### Escalado

Estandariza las variables antes de ajustar LOF, ya que LOF se basa en distancias.

In [None]:
# TODO:
# - Crea scaler = StandardScaler()
# - Ajusta y transforma: X_scaled = scaler.fit_transform(X_num)
# - Comprueba mean y std por columna (aprox 0 y 1)
# Resultado: X_scaled (numpy array)

### PCA para visualización

Proyecta a 2 dimensiones para visualizar resultados. Esta proyección servirá solo para interpretación gráfica, el ajuste de LOF se hace sobre X_scaled.

In [None]:
# TODO:
# - Ajusta pca2 y X_pca2
# - Dibuja scatter plot de X_pca2 (colorea según df_clean['species'] si la tienes)
# Resultado: X_pca2 para visualización

### Ajuste de LOF

Ajusta LocalOutlierFactor con diferentes `n_neighbors` y `contamination`. Usa `fit_predict` para obtener etiquetas (1 enlier, -1 outlier) y `negative_outlier_factor_` para scores.

In [None]:
# TODO:
# - Elige valores iniciales: n_neighbors=20, contamination=0.05
# - Instancia lof
# - Obtén labels
# - Añade df_clean['lof_label']
# - Muestra counts y los top outliers por score
# Resultado: etiquetas LOF y scores añadidos a df_clean

### Visualización de outliers en PCA 2D

Dibuja los puntos coloreados por etiqueta LOF e indica la severidad con el tamaño del marker (por ejemplo, proporcional al score).

In [None]:
# TODO:
# - Dibuja scatter usando X_pca2; colores según df_clean['lof_label']; tamaños según df_clean['lof_score']
# - Observa si los outliers se agrupan o están dispersos
# Resultado: gráfica que muestre outliers claramente

### Sensibilidad a hiperparámetros

Prueba varios valores de `n_neighbors` y `contamination` y registra cuántos outliers detecta cada configuración.

In [None]:
# TODO:
# - Define neighbors_list = [5,10,20,30] y contamination_list = [0.01, 0.03, 0.05, 0.1]
# - Recorre combinaciones; para cada (nn, cont) ajusta LOF y cuenta (labels == -1). Guarda resultados en una lista o DataFrame.
# - Muestra una tabla/heatmap con número de outliers por combinación
# Resultado: entender estabilidad de detección de outliers

### Comparación con DBSCAN

Aplica DBSCAN para detectar ruido y mide el solapamiento entre ruido DBSCAN y outliers LOF. Usa un k-distance plot para estimar `eps`.

In [None]:
# TODO:
# - Calcula k-distance plot con NearestNeighbors(n_neighbors=5) y estima eps (por ejemplo percentil 90)
# - Ejecuta DBSCAN(eps=eps_est, min_samples=5) y añade df_clean['db_label']
# - Calcula fracción de outliers LOF que también son ruido DBSCAN
# Resultado: medida de similitud entre detectores

### Perfilado de outliers y acciones

Analiza las características de los outliers: medias por variable, ejemplos concretos y propuestas de acción (investigar, excluir, campañas especiales).

In [None]:
# TODO:
# - Muestra medias por lof_label: df_clean.groupby('lof_label')[vars_numericas].mean().round(2)
# - Lista ejemplos: df_clean[df_clean['lof_label']==-1].head()
# - Escribe 2–3 acciones prácticas basadas en el perfil
# Resultado: ideas accionables para tratar outliers en producción

### Entrega

En la última celda escribe un párrafo (4–6 líneas) con: parámetros LOF que probaste, número de outliers detectados con tu configuración preferida, grado de coincidencia con DBSCAN y 2 recomendaciones prácticas. Guarda y descarga el notebook.

In [None]:
# Entrega: sustituye el texto entre las triples comillas por tu respuesta
entrega = '''

'''
print(entrega)