<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B04%5D%20-%20Modelos%20No%20Supervisados/No_supervisados_Ejercicio_5__lof_wholesale_customers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# No supervisados - Ejercicio 5: lof_wholesale_customers.ipynb

Este notebook es **We do**. Lo trabajamos juntos en clase: te doy las partes claves resueltas y te dejo celdas con instrucciones claras (`# TODO`) que debes completar durante la sesión. El objetivo es entender LOF (Local Outlier Factor), experimentar con `n_neighbors` y `contamination`, visualizar los outliers en PCA 2D y comparar con DBSCAN.

## Objetivos

- Cargar y explorar el dataset *Wholesale Customers*.
- Preparar las features de gasto y estandarizarlas.
- Ajustar LOF, analizar `negative_outlier_factor_` y probar sensibilidad a `n_neighbors` y `contamination`.
- Visualizar outliers en PCA 2D y medir coincidencia con ruido DBSCAN.
- Perfilar los outliers y proponer acciones prácticas.

In [None]:
# Librerías y configuración (resuelto)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.neighbors import LocalOutlierFactor, NearestNeighbors
from sklearn.cluster import DBSCAN
from sklearn.metrics import adjusted_rand_score

np.random.seed(42)
print('Entorno listo — imports ejecutados')

### Carga de datos

Carga el CSV desde la URL pública o desde tu copia local. A continuación tienes un ejemplo comentado con la estructura que esperamos. Comprueba siempre `df.head()` y `df.shape`.

In [None]:
# TODO: Carga el dataset Wholesale Customers en un DataFrame `df`.
# Opciones:
# url = 'https://raw.githubusercontent.com/dtoralg/INESDI_Data-Science_ML_IA/refs/heads/main/%5B04%5D%20-%20Modelos%20No%20Supervisados/Wholesale%20customers%20data.csv'
# df = pd.read_csv(url)
# display(df.head())
# print(df.shape)
# Asegúrate de que las columnas de gasto existen antes de seguir.

### Exploración rápida

Revisa tipos, nulos y estadísticas. Yo dejo ejemplos resueltos que puedes ejecutar una vez que hayas cargado `df`.

In [None]:
# Ejecútalo tras cargar `df` (resuelto)
try:
    display(df.head())
    print('\nInfo:')
    print(df.info())
    print('\n% de nulos por columna:')
    display((df.isnull().mean()*100).round(2))
    print('\nDescripción numérica:')
    display(df.select_dtypes(include=[np.number]).describe().T)
except NameError:
    print('No he encontrado `df`. Carga el dataset en la celda anterior.')

### Selección de features y limpieza

Vamos a usar las columnas de gasto. Ajusta la lista si tu CSV tiene nombres distintos. Decide si imputas o eliminas nulos.

In [None]:
# Resuelto: proponemos las columnas de gasto
suggested_features = ['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen']
print('Propuesta de features de gasto:', suggested_features)

# TODO: comprueba que las columnas existen en df y crea X = df[features].copy()


### Escalado (parte resuelta, parte a completar)

Estandariza las features porque LOF y DBSCAN dependen de distancias.

In [None]:
# Resuelto: creamos el scaler
scaler = StandardScaler()

# TODO: aplica scaler sobre X y guarda X_scaled como DataFrame con las mismas columnas

try:
    X  # comprobar existencia
except NameError:
    print('Define X en la celda de selección de features antes de escalar')

### PCA para visualización (resuelto ejemplo)

Proyectaremos a 2D para visualizar outliers. Aquí tienes el patrón; usa `X_scaled` para obtener `X_pca2`.

In [None]:
# Resuelto: patrón para PCA (requiere X_scaled)
from sklearn.decomposition import PCA
try:
    pca = PCA(n_components=2)
    # TODO: ejecuta: X_pca2 = pca.fit_transform(X_scaled)
    print('Ejecuta la transformación PCA una vez tengas X_scaled')
except NameError:
    print('Define X_scaled antes de ejecutar PCA')

### Ajuste de LOF — guía

Probarás distintos `n_neighbors` y `contamination`. Aquí tienes el flujo: crea el objeto LOF, ejecuta `fit_predict` y guarda etiquetas y score. Te dejo un bloque de ejemplo parcialmente resuelto.

In [None]:
# Ejemplo parcial: instanciación de LOF
def fit_lof_and_report(X_scaled, n_neighbors=20, contamination=0.05):
    """Función de ayuda: ajusta LOF y devuelve etiquetas y scores. Ejecuta esta función en clase después de crear X_scaled."""
    lof = LocalOutlierFactor(n_neighbors=n_neighbors, contamination=contamination)
    labels = lof.fit_predict(X_scaled)
    scores = -lof.negative_outlier_factor_
    return labels, scores

# TODO: usa la función fit_lof_and_report
# Añade a df: df['lof_label'] = labels_lof; df['lof_score'] = scores_lof
# Muestra conteos y top outliers por score

print('Función de ayuda definida; ajustar LOF con distintos parámetros')

### Visualización: outliers en PCA 2D (guía)

Visualiza los outliers coloreando los puntos por etiqueta LOF e indicando el score con tamaño de marker. Te dejo el patrón para ejecutar una vez tengas `X_pca2` y `df` actualizado.

In [None]:
# TODO: Visualización (ejecuta después de obtener X_pca2 y df con lof labels)


### Sensibilidad a `n_neighbors` y `contamination` (resuelto parcial)

Es útil probar varios valores para entender estabilidad.


In [None]:
# Resuelto: ejemplo de bucle que puedes ejecutar y adaptar
neighbors_list = [5,10,20,30]
contamination_list = [0.01, 0.03, 0.05, 0.1]

print('Ejecutamos combinaciones, aquí tienes un ejemplo de estructura que puedes usar:')
print('neighbors_list =', neighbors_list)
print('contamination_list =', contamination_list)

# TODO: recorre combinaciones y guarda número de outliers detectados en una lista o DataFrame

print('\nPattern listo')

### Perfilado de outliers y acciones (We do)

Perfila las observaciones etiquetadas como outliers: medias por variable, ejemplos concretos y propuestas de acción.

In [None]:
# TODO :
# - df['lof_label'] y df['lof_score'] deben existir
# - Muestra medias por lof_label:
# - Escribe 2–3 acciones prácticas basadas en el perfil (limpieza, investigar, campañas especiales)

# Resuelto: plantilla para mostrar medias
# display(df.groupby('lof_label')[features].mean().round(2))
print('Completamos el perfilado con los resultados reales')

### Entrega

En la última celda, escribe un resumen (3–5 líneas) con los parámetros LOF que probaste, el número de outliers detectados y 2 recomendaciones concretas. Guarda y descarga el notebook.

In [None]:
# Escribe aquí tu resumen (sustituye el texto entre comillas):
resumen = '''

'''
print(resumen)