# Alura Store Latam — Análisis de Datos

Cuaderno base inspirado en el challenge oficial. Ejecuta en orden y adapta los nombres de archivo a tus CSV.

**Sugerencia de flujo:** Carga ➜ Perfilado ➜ Limpieza ➜ Métricas ➜ Visualización ➜ Modelo opcional ➜ Conclusiones.

In [None]:
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from src.utils import read_csv_safely, save_parquet, ensure_dirs
ensure_dirs()

DATA_RAW = Path('../data/raw')
DATA_PROC = Path('../data/processed')
FIG_DIR = Path('../reports/figures')

# Lista rápida de archivos disponibles en data/raw
list(DATA_RAW.glob('*.csv'))

## 1) Carga de datos
Actualiza los nombres de archivo según el repositorio oficial. Ejemplos comunes: `productos.csv`, `categorias.csv`, `ventas.csv` (pueden variar).

In [None]:
# Reemplaza con los nombres reales
# df_productos = read_csv_safely('productos.csv')
# df_categorias = read_csv_safely('categorias.csv')
# df_ventas = read_csv_safely('ventas.csv')

# Vista previa
# display(df_productos.head(), df_categorias.head(), df_ventas.head())

## 2) Chequeos de calidad
- Tipos de datos
- Nulos y duplicados
- Valores atípicos simples
- Consistencia de claves

In [None]:
def quick_info(df: pd.DataFrame, name: str):
    print(f"\n>>> {name}")
    display(df.sample(min(5, len(df))))
    display(df.describe(include='all', datetime_is_numeric=True))
    print('nulos por columna:')
    display(df.isna().sum().sort_values(ascending=False))

# quick_info(df_productos, 'productos')

## 3) Limpieza y normalización
- Estandariza strings
- Maneja duplicados y nulos
- Corrige tipos (fechas, enteros)
- Genera tablas limpias en `data/processed/`

In [None]:
# Ejemplo de normalización de columnas de texto
# cols_txt = ['nombre', 'categoria']
# for c in cols_txt:
#     if c in df_productos.columns:
#         df_productos[c] = df_productos[c].astype(str).str.strip().str.lower()
# save_parquet(df_productos, 'productos_limpio')

## 4) KPIs de negocio
- Ingresos totales y por categoría
- Ticket promedio
- Top productos/categorías
- Usuarios/clientes recurrentes

In [None]:
# Ejemplo (ajusta a tus columnas reales)
# df_ventas['monto'] = df_ventas['precio'] * df_ventas['cantidad']
# kpi_total = df_ventas['monto'].sum()
# kpi_ticket = df_ventas.groupby('id_venta')['monto'].sum().mean()
# top_cat = df_ventas.groupby('categoria')['monto'].sum().sort_values(ascending=False).head(10)
# print(kpi_total, kpi_ticket)
# top_cat.plot(kind='bar'); plt.title('Top categorías por ingreso'); plt.tight_layout(); plt.show()

## 5) Segmentación simple (opcional)
- RFM o clustering rápido con `KMeans`
- Cohortes por mes de primera compra

In [None]:
# from sklearn.cluster import KMeans
# features = df_ventas.groupby('cliente_id').agg({'monto':'sum', 'id_venta':'nunique'}).rename(columns={'id_venta':'num_pedidos'})
# km = KMeans(n_clusters=4, n_init='auto', random_state=42)
# labels = km.fit_predict(features)
# features['cluster'] = labels
# features.head()

## 6) Conclusiones e insights
- Resumen ejecutivo (bullets)
- Recomendaciones accionables
- Limitaciones y siguientes pasos