# üìä Proyecto Avanzado: An√°lisis de Ventas con Pandas + Matplotlib (PLUS)
Este cuaderno gu√≠a un an√°lisis **end-to-end**: carga/validaci√≥n de datos, EDA, limpieza, *feature engineering*, KPIs,
visualizaciones y anal√≠tica de clientes (RFM y cohortes). Incluye **tareas** con **soluciones ocultas**.

**Objetivos:**
- Practicar carga y validaci√≥n de datos con `pandas`.
- Crear KPIs de negocio (ingresos, ticket medio, devoluciones, top productos/clientes).
- Usar `groupby`, *pivot tables*, re-muestreo por mes y gr√°ficos con **Matplotlib**.
- Analizar clientes con **RFM** y **cohortes**.

**Entregables:** CSV con resultados clave, 3 gr√°ficos y un breve texto con hallazgos.

**ACLARACIONES:**
EDA (An√°lisis Exploratorio de Datos) te dice qu√© hay y c√≥mo est√°n los datos; RFM (Recencia -d√≠as de la √∫ltima compra -, Frecuencia y Valor Monetario) te dice qu√© clientes son m√°s valiosos/activos; cohortes (Grupo de clientes definido por su momento de alta) te dice c√≥mo evoluciona la retenci√≥n en el tiempo.

## 0) Preparaci√≥n: librer√≠as y helpers

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt
from datetime import datetime
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 120)

In [None]:
# Importamos pandas para trabajar con tablas (tipo Excel)
import pandas as pd

# Importamos numpy para c√°lculos num√©ricos
import numpy as np

# Path sirve para manejar rutas de archivos y carpetas
from pathlib import Path

# matplotlib.pyplot permite hacer gr√°ficas
import matplotlib.pyplot as plt

# datetime permite trabajar con fechas y horas
from datetime import datetime

# Configuramos pandas para mostrar m√°ximo 10 filas en pantalla
pd.set_option('display.max_rows', 10)

# Configuramos pandas para que las tablas usen hasta 120 caracteres de ancho
pd.set_option('display.width', 120)

In [None]:
üìã Resumen corto

Este c√≥digo prepara el entorno:

Carga librer√≠as para datos (pandas, numpy), archivos (Path), gr√°ficas (matplotlib) y fechas (datetime).

Configura pandas para que muestre las tablas de forma m√°s ordenada.

## 1) Dataset: generar o cargar
Si existe `ventas_simuladas.csv`, lo cargamos. Si no, generamos uno reproducible.

In [None]:
def generar_dataset_csv(ruta='ventas_simuladas.csv', seed=42):
    rng = np.random.default_rng(seed)
    dates = pd.date_range('2023-01-01', '2024-12-31', freq='D')
    products = [
        ('Teclado','Perif√©ricos'),('Rat√≥n','Perif√©ricos'),('Monitor','Pantallas'),
        ('Port√°til','Ordenadores'),('Disco SSD','Almacenamiento'),('Impresora','Perif√©ricos'),
        ('Auriculares','Perif√©ricos'),('Base refrigeradora','Perif√©ricos'),('Webcam','Perif√©ricos')
    ]
    rows = []
    order_id = 1
    for d in dates:
        for _ in range(rng.integers(5, 20)):
            prod, cat = products[rng.integers(0, len(products))]
            units = int(rng.integers(1, 5))
            base = 50 if cat=='Perif√©ricos' else (300 if cat in ['Ordenadores','Pantallas'] else 100)
            price = float(rng.normal(base, base*0.35))
            price = max(price, 5)
            returned = rng.random() < 0.05
            rows.append((order_id, d, rng.integers(1, 801), prod, cat, units, round(price,2), returned))
            order_id += 1
    df = pd.DataFrame(rows, columns=['order_id','order_date','customer_id','product','category','units','unit_price','returned'])
    df.to_csv(ruta, index=False)
    return ruta

csv_path = Path('ventas_simuladas.csv')
if not csv_path.exists():
    generar_dataset_csv(csv_path)
df = pd.read_csv(csv_path, parse_dates=['order_date'])
df.head()

In [None]:
# Funci√≥n que genera un dataset de ventas simuladas y lo guarda en un CSV
def generar_dataset_csv(ruta='ventas_simuladas.csv', seed=42):
    rng = np.random.default_rng(seed)  # Generador aleatorio con semilla fija
    dates = pd.date_range('2023-01-01', '2024-12-31', freq='D')  # Todas las fechas entre 2023 y 2024
    
    # Lista de productos con su categor√≠a
    products = [
        ('Teclado','Perif√©ricos'),('Rat√≥n','Perif√©ricos'),('Monitor','Pantallas'),
        ('Port√°til','Ordenadores'),('Disco SSD','Almacenamiento'),('Impresora','Perif√©ricos'),
        ('Auriculares','Perif√©ricos'),('Base refrigeradora','Perif√©ricos'),('Webcam','Perif√©ricos')
    ]
    
    rows = []        # Aqu√≠ guardaremos todas las ventas
    order_id = 1     # ID inicial de pedidos
    
    # Para cada d√≠a en el rango de fechas
    for d in dates:
        # Simulamos entre 5 y 20 ventas diarias
        for _ in range(rng.integers(5, 20)):
            # Elegir producto y categor√≠a aleatoriamente
            prod, cat = products[rng.integers(0, len(products))]
            units = int(rng.integers(1, 5))  # Unidades compradas (1 a 4)
            
            # Precio base seg√∫n la categor√≠a
            base = 50 if cat=='Perif√©ricos' else (300 if cat in ['Ordenadores','Pantallas'] else 100)
            price = float(rng.normal(base, base*0.35))  # Precio aleatorio alrededor del base
            price = max(price, 5)  # Nunca menor a 5
            
            # 5% de probabilidad de devoluci√≥n
            returned = rng.random() < 0.05
            
            # Guardar esta venta
            rows.append((order_id, d, rng.integers(1, 801), prod, cat, units, round(price,2), returned))
            order_id += 1  # Siguiente ID
    
    # Convertir a DataFrame y guardar en CSV
    df = pd.DataFrame(rows, columns=['order_id','order_date','customer_id','product','category','units','unit_price','returned'])
    df.to_csv(ruta, index=False)
    return ruta

# Ruta donde se guarda el CSV
csv_path = Path('ventas_simuladas.csv')

# Si no existe el archivo, lo creamos
if not csv_path.exists():
    generar_dataset_csv(csv_path)

# Cargar el dataset en un DataFrame
df = pd.read_csv(csv_path, parse_dates=['order_date'])

# Mostrar las primeras filas
df.head()


In [None]:
üìã Resumen corto

Este c√≥digo:

Genera un archivo CSV con ventas ficticias de distintos productos (si no existe).

Cada venta tiene: id, fecha, cliente, producto, categor√≠a, unidades, precio y si fue devuelto.

Luego lee ese archivo y muestra las primeras filas.

## 2) Validaci√≥n y limpieza m√≠nima

In [None]:
# Tipos y nulos
display(df.info())
nulos = df.isna().sum()
nulos

In [None]:
# Ver un resumen del DataFrame: n√∫mero de filas, columnas y tipos de datos
display(df.info())

# Contar cu√°ntos valores nulos (vac√≠os) hay en cada columna
nulos = df.isna().sum()

# Mostrar el conteo de nulos
nulos

In [None]:
üìã Resumen corto

Este bloque sirve para verificar la calidad de los datos:

df.info() ‚Üí revisa la estructura y tipos de las columnas.

df.isna().sum() ‚Üí revisa si hay valores faltantes en alguna columna.

En este dataset, lo normal es que no haya nulos (0 en todas las columnas).

In [None]:
# Reglas de negocio simples
assert (df['units']>=1).all(), 'Units debe ser >= 1'
assert (df['unit_price']>0).all(), 'unit_price debe ser > 0'
df['returned'] = df['returned'].astype(bool)
df['category'] = df['category'].astype('category')
df['product'] = df['product'].astype('category')
df['order_date'] = pd.to_datetime(df['order_date'])
df['revenue'] = df['units'] * df['unit_price']
df.head()

In [None]:
# Reglas de negocio: validar que no haya datos inv√°lidos
assert (df['units']>=1).all(), 'Units debe ser >= 1'        # Todas las ventas deben tener al menos 1 unidad
assert (df['unit_price']>0).all(), 'unit_price debe ser > 0'  # El precio debe ser siempre positivo

# Convertir columnas a tipos m√°s adecuados
df['returned'] = df['returned'].astype(bool)          # True/False
df['category'] = df['category'].astype('category')    # Categor√≠as de productos
df['product'] = df['product'].astype('category')      # Productos

# Asegurar que las fechas son del tipo datetime
df['order_date'] = pd.to_datetime(df['order_date'])

# Crear una nueva columna: ingresos = unidades * precio unitario
df['revenue'] = df['units'] * df['unit_price']

# Mostrar las primeras filas con la nueva columna
df.head()

In [None]:
üìã Resumen corto

Este bloque:

Valida que no haya datos incorrectos (unidades < 1, precios ‚â§ 0).

Convierte columnas a tipos adecuados (bool, category, datetime).

Calcula una columna nueva: revenue (ingresos por venta).

## 3) EDA r√°pida

In [None]:
df.describe(include='all')

In [None]:
# Generar un resumen estad√≠stico de todas las columnas
# - N√∫meros ‚Üí media, desviaci√≥n, min, max, percentiles
# - Texto/categor√≠as ‚Üí cu√°ntos valores √∫nicos, el m√°s frecuente
# - Booleanos ‚Üí valor m√°s frecuente (True/False)
# - Fechas ‚Üí muestra count, unique, top, freq
df.describe(include='all')

In [None]:
üìã Resumen corto

df.describe(include='all') ‚Üí genera un informe general de todo el dataset:

Estad√≠sticas de n√∫meros (promedio, m√≠nimos, m√°ximos).

Estad√≠sticas de categor√≠as (valor m√°s com√∫n, n√∫mero de categor√≠as).

Estad√≠sticas de booleanos y fechas.

In [None]:
df.groupby('category')['revenue'].sum().sort_values(ascending=False).head(10)

In [None]:
# Calcular los ingresos totales agrupados por categor√≠a de producto
df.groupby('category')['revenue'].sum() \
    .sort_values(ascending=False) \  # Ordenar de mayor a menor
    .head(10)  # Mostrar solo los 10 primeros

In [None]:
üìã Resumen corto

Este comando calcula:
üëâ ¬øQu√© categor√≠as de productos generan m√°s dinero en total?
Es un an√°lisis clave para la estrategia de negocio.

### Tarea 1: ¬øCu√°l es el rango de fechas y el n¬∫ de pedidos √∫nicos?

<details><summary><b>Ver soluci√≥n</b></summary>

```python
df['order_date'].min(), df['order_date'].max(), df['order_id'].nunique()
```
</details>

## 4) KPIs b√°sicos

In [None]:
# KPI 1: Ingresos por mes
df['month'] = df['order_date'].dt.to_period('M').dt.to_timestamp()
ingresos_mes = df.groupby('month')['revenue'].sum().reset_index()
ingresos_mes.head()

In [None]:
# Crear columna "month" que representa el mes de cada venta
df['month'] = df['order_date'].dt.to_period('M').dt.to_timestamp()

# Calcular ingresos totales por mes
ingresos_mes = df.groupby('month')['revenue'].sum().reset_index()

# Mostrar los primeros 5 meses con sus ingresos
ingresos_mes.head()

In [None]:
üìã Resumen corto

Este bloque:

A√±ade una columna month con el mes de cada venta.

Agrupa todas las ventas por mes.

Calcula los ingresos totales por mes.

üëâ Resultado: una tabla con los ingresos de la empresa mes a mes.

In [None]:
# KPI 2: Ticket medio por pedido
ticket_medio = df.groupby('order_id')['revenue'].sum().mean()
ticket_medio

In [None]:
# Calcular ticket medio (promedio de ingresos por pedido)
# 1. Agrupar ventas por pedido (order_id)
# 2. Sumar ingresos de cada pedido
# 3. Calcular el promedio de todos los pedidos
ticket_medio = df.groupby('order_id')['revenue'].sum().mean()

# Mostrar el resultado
ticket_medio

In [None]:
üìã Resumen corto

Este bloque calcula el ticket medio:
üëâ El promedio de ingresos por pedido (order_id).

Es un KPI fundamental porque te dice:

Si el ticket medio sube ‚Üí los clientes compran m√°s cosas por pedido (o m√°s caras).

Si baja ‚Üí tal vez compran menos productos o m√°s baratos.

In [None]:
# KPI 3: Top 10 productos por ingresos
top_prod = df.groupby('product')['revenue'].sum().sort_values(ascending=False).head(10)
top_prod

In [None]:
# KPI 3: Top 10 productos por ingresos
# 1. Agrupar ventas por producto
# 2. Sumar ingresos de cada producto
# 3. Ordenar de mayor a menor
# 4. Tomar los 10 primeros
top_prod = df.groupby('product')['revenue'].sum().sort_values(ascending=False).head(10)

# Mostrar los productos m√°s rentables
top_prod

In [None]:
üìã Resumen corto

Este bloque calcula el top 10 de productos por ingresos totales.
üëâ Es un KPI importante para identificar qu√© productos son m√°s rentables y estrat√©gicos.

In [None]:
# KPI 4: Tasa de devoluci√≥n
tasa_dev = df['returned'].mean()
tasa_dev

In [None]:
# KPI 4: Tasa de devoluci√≥n
# La columna 'returned' es booleana (True=devuelto, False=no devuelto)
# La media nos da el porcentaje de productos devueltos
tasa_dev = df['returned'].mean()

# Mostrar la tasa de devoluci√≥n (entre 0 y 1)
tasa_dev

In [None]:
üìã Resumen corto

Este bloque calcula qu√© proporci√≥n de productos se devuelven.

KPI importante para medir satisfacci√≥n del cliente y problemas de calidad.

## 5) Visualizaciones con Matplotlib (una figura por gr√°fico)

In [None]:
# Ingresos por mes (l√≠nea)
ingresos_mes.plot(x='month', y='revenue', kind='line', title='Ingresos por mes')
plt.show()

In [None]:
# Graficar ingresos totales por mes
ingresos_mes.plot(
    x='month',        # Eje X = meses
    y='revenue',      # Eje Y = ingresos
    kind='line',      # Tipo de gr√°fico = l√≠nea
    title='Ingresos por mes'  # T√≠tulo del gr√°fico
)

# Mostrar el gr√°fico
plt.show()

In [None]:
üìã Resumen corto

Este bloque dibuja un gr√°fico de l√≠nea que muestra:

La evoluci√≥n de los ingresos mes a mes.

Permite detectar temporadas altas y bajas, tendencias, crecimientos o ca√≠das en ventas.

In [None]:
# Ingresos por categor√≠a (barra)
df.groupby('category')['revenue'].sum().sort_values().plot(kind='bar', title='Ingresos por categor√≠a')
plt.show()

In [None]:
# Graficar ingresos totales por categor√≠a de producto
df.groupby('category')['revenue'].sum() \   # Sumar ingresos por categor√≠a
    .sort_values() \                        # Ordenar de menor a mayor
    .plot(kind='bar', title='Ingresos por categor√≠a')  # Graficar como barras

# Mostrar el gr√°fico
plt.show()

In [None]:
üìã Resumen corto

Este bloque genera un gr√°fico de barras que permite:

Comparar r√°pidamente qu√© categor√≠as generan m√°s ingresos.

Visualizar f√°cilmente diferencias entre categor√≠as.

In [None]:
# Top 10 productos (barra)
df.groupby('product')['revenue'].sum().sort_values(ascending=False).head(10).plot(kind='bar', title='Top 10 productos')
plt.show()

In [None]:
# Graficar los 10 productos que m√°s ingresos generan
df.groupby('product')['revenue'].sum() \        # Sumar ingresos por producto
    .sort_values(ascending=False) \            # Ordenar de mayor a menor
    .head(10) \                                # Tomar los 10 primeros
    .plot(kind='bar', title='Top 10 productos') # Graficar como barras

# Mostrar el gr√°fico
plt.show()

In [None]:
üìã Resumen corto

Este gr√°fico permite ver r√°pidamente:

Qu√© productos generan m√°s ingresos.

Identificar productos estrat√©gicos o estrellas del cat√°logo.

### Tarea 2: Representa la evoluci√≥n de la **tasa de devoluci√≥n** por mes

<details><summary><b>Ver soluci√≥n</b></summary>

```python
dev_mes = df.groupby('month')['returned'].mean().reset_index()
dev_mes.plot(x='month', y='returned', kind='line', title='Tasa de devoluci√≥n por mes')
plt.show()
```
</details>

## 6) Anal√≠tica de clientes: **RFM**

In [None]:
# Calcula Recency (d√≠as desde √∫ltima compra), Frequency (n¬∫ pedidos), Monetary (ingresos)
ref_date = df['order_date'].max() + pd.Timedelta(days=1)
agg = df.groupby('customer_id').agg(
    last_purchase=('order_date','max'),
    frequency=('order_id','nunique'),
    monetary=('revenue','sum')
).reset_index()
agg['recency'] = (ref_date - agg['last_purchase']).dt.days
agg.head()

In [None]:
# Fecha de referencia para calcular recency (un d√≠a despu√©s de la √∫ltima venta)
ref_date = df['order_date'].max() + pd.Timedelta(days=1)

# Agregar m√©tricas por cliente
agg = df.groupby('customer_id').agg(
    last_purchase=('order_date','max'),  # √öltima compra
    frequency=('order_id','nunique'),    # N√∫mero de pedidos
    monetary=('revenue','sum')           # Total gastado
).reset_index()

# Calcular Recency = d√≠as desde la √∫ltima compra
agg['recency'] = (ref_date - agg['last_purchase']).dt.days

# Mostrar las primeras filas
agg.head()

In [None]:
üìã Resumen corto

Este bloque crea un resumen por cliente para an√°lisis RFM:

    Recency (R) ‚Üí d√≠as desde la √∫ltima compra

    Frequency (F) ‚Üí n√∫mero de pedidos

    Monetary (M) ‚Üí ingresos totales del cliente

Estas m√©tricas son clave para:

    Identificar clientes leales (alta frecuencia, alto gasto)

    Detectar clientes inactivos (recency alto)

    Planificar campa√±as de marketing o retenci√≥n.

In [None]:
# Discretizaci√≥n por quintiles para r, f, m ‚Üí scores 1‚Äì5
def quintil_scorer(s, reverse=False):
    q = s.rank(pct=True)
    sc = (q*5).apply(np.ceil).astype(int)
    sc = sc.clip(1,5)
    return 6 - sc if reverse else sc
agg['R'] = quintil_scorer(agg['recency'], reverse=True)  # menor recency ‚Üí mejor
agg['F'] = quintil_scorer(agg['frequency'])
agg['M'] = quintil_scorer(agg['monetary'])
agg['RFM'] = agg['R'].astype(str)+agg['F'].astype(str)+agg['M'].astype(str)
agg.sort_values('monetary', ascending=False).head(10)

In [None]:
# Funci√≥n para asignar scores de 1 a 5 seg√∫n quintiles
def quintil_scorer(s, reverse=False):
    q = s.rank(pct=True)                # percentil de cada valor
    sc = (q*5).apply(np.ceil).astype(int)  # asignar quintil 1-5
    sc = sc.clip(1,5)                   # asegurar rango 1-5
    return 6 - sc if reverse else sc    # invertir si reverse=True

# Asignar scores RFM
agg['R'] = quintil_scorer(agg['recency'], reverse=True)  # menor recency = mejor
agg['F'] = quintil_scorer(agg['frequency'])
agg['M'] = quintil_scorer(agg['monetary'])

# Crear columna combinada RFM
agg['RFM'] = agg['R'].astype(str) + agg['F'].astype(str) + agg['M'].astype(str)

# Mostrar top 10 clientes por gasto
agg.sort_values('monetary', ascending=False).head(10)

In [None]:
üìã Resumen corto

Este bloque completa el an√°lisis RFM:

    Convierte recency, frequency y monetary en scores 1‚Äì5 seg√∫n quintiles.
    Combina los scores en una cadena RFM para segmentar clientes.
    Permite identificar clientes valiosos y priorizar campa√±as.

### Tarea 3: ¬øQu√© porcentaje de ingresos aportan los **top 10%** de clientes por `monetary`?

<details><summary><b>Ver soluci√≥n</b></summary>

```python
n = max(1, int(len(agg)*0.10))
top = agg.sort_values('monetary', ascending=False).head(n)
pct = top['monetary'].sum() / agg['monetary'].sum()
pct
```
</details>

## 7) Anal√≠tica de **cohortes** (retenci√≥n mensual)
Definimos la cohorte por **mes de primera compra** y construimos una tabla de retenci√≥n.

In [None]:
df_small = df[['customer_id','order_id','order_date','revenue']].copy()
df_small['first_month'] = df_small.groupby('customer_id')['order_date'].transform('min').dt.to_period('M').dt.to_timestamp()
df_small['month'] = df_small['order_date'].dt.to_period('M').dt.to_timestamp()
df_small['cohort_index'] = ((df_small['month'].dt.year - df_small['first_month'].dt.year)*12 +
                             (df_small['month'].dt.month - df_small['first_month'].dt.month))
retencion = (df_small
    .groupby(['first_month','cohort_index'])['customer_id']
    .nunique()
    .reset_index())
base = retencion[retencion['cohort_index']==0][['first_month','customer_id']].rename(columns={'customer_id':'n0'})
tabla = retencion.merge(base, on='first_month')
tabla['ret'] = tabla['customer_id']/tabla['n0']
cohort_pivot = tabla.pivot(index='first_month', columns='cohort_index', values='ret').fillna(0)
cohort_pivot.head()

In [None]:
# Selecci√≥n de columnas relevantes
df_small = df[['customer_id','order_id','order_date','revenue']].copy()

# Primer mes de compra por cliente (cohorte)
df_small['first_month'] = df_small.groupby('customer_id')['order_date'].transform('min').dt.to_period('M').dt.to_timestamp()

# Mes de cada compra
df_small['month'] = df_small['order_date'].dt.to_period('M').dt.to_timestamp()

# √çndice de cohorte: meses desde la primera compra
df_small['cohort_index'] = ((df_small['month'].dt.year - df_small['first_month'].dt.year)*12 +
                             (df_small['month'].dt.month - df_small['first_month'].dt.month))

# Contar clientes √∫nicos por cohorte y mes relativo
retencion = (df_small
    .groupby(['first_month','cohort_index'])['customer_id']
    .nunique()
    .reset_index())

# Base de clientes iniciales (mes 0)
base = retencion[retencion['cohort_index']==0][['first_month','customer_id']].rename(columns={'customer_id':'n0'})

# Calcular tasa de retenci√≥n
tabla = retencion.merge(base, on='first_month')
tabla['ret'] = tabla['customer_id']/tabla['n0']

# Pivot para crear tabla de cohortes
cohort_pivot = tabla.pivot(index='first_month', columns='cohort_index', values='ret').fillna(0)

# Mostrar primeras filas
cohort_pivot.head()

In [None]:
üìã Resumen corto

Este bloque calcula la retenci√≥n de clientes por cohorte mensual:

    Define la cohorte de cada cliente seg√∫n su primer mes de compra.
    Calcula la diferencia de meses entre cada compra y la primera compra ‚Üí cohort_index.
    Cuenta cu√°ntos clientes siguen comprando mes a mes.
    Crea una tabla donde se ve claramente c√≥mo disminuye la retenci√≥n con el tiempo.

In [None]:
# Visualizaci√≥n r√°pida de cohortes (matriz)
plt.figure()
plt.imshow(cohort_pivot.values, aspect='auto')
plt.title('Retenci√≥n por cohortes (proporci√≥n)')
plt.xlabel('Meses desde primera compra')
plt.ylabel('Cohorte (mes inicio)')
plt.colorbar()
plt.show()

In [None]:
plt.figure()  # Crear nueva figura

# Dibujar matriz de retenci√≥n
plt.imshow(cohort_pivot.values, aspect='auto')

# Etiquetas y t√≠tulo
plt.title('Retenci√≥n por cohortes (proporci√≥n)')
plt.xlabel('Meses desde primera compra')
plt.ylabel('Cohorte (mes inicio)')

# Barra de colores
plt.colorbar()

# Mostrar gr√°fico
plt.show()

In [None]:
üìã Resumen corto

Este bloque crea un heatmap b√°sico de retenci√≥n por cohortes:

    Filas ‚Üí cada cohorte mensual
    Columnas ‚Üí meses desde la primera compra
    Color ‚Üí proporci√≥n de clientes que regresan
    Permite visualizar r√°pidamente la fidelidad y la ca√≠da de clientes con el tiempo.

### Tarea 4: Calcular el **LTV** aproximado por cohorte como suma de ingresos medios por cliente a 3 meses

<details><summary><b>Ver soluci√≥n (idea)</b></summary>

```python
ingresos_cliente_mes = (df_small
    .groupby(['first_month','month'])
    .agg(ingresos=('revenue','sum'), clientes=('customer_id','nunique'))
    .reset_index())
ingresos_cliente_mes['cohort_index'] = ((ingresos_cliente_mes['month'].dt.year - ingresos_cliente_mes['first_month'].dt.year)*12 +
                                        (ingresos_cliente_mes['month'].dt.month - ingresos_cliente_mes['first_month'].dt.month))
ing_cli = ingresos_cliente_mes.pivot_table(index='first_month', columns='cohort_index', values='ingresos')
cli = ingresos_cliente_mes.pivot_table(index='first_month', columns='cohort_index', values='clientes')
arpu = ing_cli/cli
ltv3 = arpu[[0,1,2]].sum(axis=1)
ltv3.head()
```
</details>

## 8) Export de resultados

In [None]:
ingresos_mes.to_csv('kpi_ingresos_mensuales.csv', index=False)
agg[['customer_id','R','F','M','RFM','recency','frequency','monetary']].to_csv('rfm_clientes.csv', index=False)
cohort_pivot.to_csv('retencion_cohortes.csv')
print('‚úÖ Exportados: kpi_ingresos_mensuales.csv, rfm_clientes.csv, retencion_cohortes.csv')

In [None]:
# Exportar ingresos mensuales a CSV
ingresos_mes.to_csv('kpi_ingresos_mensuales.csv', index=False)

# Exportar m√©tricas RFM de clientes a CSV
agg[['customer_id','R','F','M','RFM','recency','frequency','monetary']].to_csv('rfm_clientes.csv', index=False)

# Exportar tabla de retenci√≥n por cohortes a CSV
cohort_pivot.to_csv('retencion_cohortes.csv')

# Mensaje de confirmaci√≥n
print('‚úÖ Exportados: kpi_ingresos_mensuales.csv, rfm_clientes.csv, retencion_cohortes.csv')

In [None]:
üìã Resumen corto

Este bloque permite guardar todos los resultados de los KPIs y an√°lisis RFM/cohortes en archivos CSV, para:

    Usarlos en herramientas de reporting.
    Compartir con otros miembros del equipo.
    Tener un backup de los an√°lisis realizados.

## 9) Retos extra (para nota)
1) **Anomal√≠as**: detecta d√≠as con ingresos > Œº+3œÉ y com√©ntalos.
2) **Segmentaci√≥n**: clasifica clientes en 4 grupos (p.ej. KMeans sobre (recency, frequency, monetary)).
3) **AB testing simulado**: crea una bandera de campa√±a y compara ticket medio con test estad√≠stico.
4) **Performance**: compara tiempo de `groupby` tras convertir `product` y `category` a `category`.

#### <span style="background-color: cyan"> 1. Anomal√≠as: detecta d√≠as con ingresos > Œº+3œÉ y com√©ntalos.

In [None]:
# Agrupar ingresos por d√≠a
ingresos_dia = df.groupby('order_date')['revenue'].sum()

# Calcular media y desviaci√≥n
mu = ingresos_dia.mean()
sigma = ingresos_dia.std()

# Detectar d√≠as con ingresos > Œº + 3œÉ
anomalos = ingresos_dia[ingresos_dia > mu + 3*sigma]
anomalos

Explicaci√≥n:

    - Œº + 3œÉ es un criterio t√≠pico para detectar outliers (d√≠as con ingresos muy superiores al promedio).
    - anomalos devuelve los d√≠as con ingresos inusualmente altos.
    - Comentario: podr√≠as inspeccionar esos d√≠as para ver si hubo ofertas especiales, Black Friday o errores en los datos.

#### <span style="background-color: cyan">  2. Segmentaci√≥n: clasifica clientes en 4 grupos (p.ej. KMeans sobre (recency, frequency, monetary)).

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# Variables RFM
X = agg[['recency','frequency','monetary']]

# Escalar para KMeans
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# KMeans con 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)
agg['cluster'] = kmeans.fit_predict(X_scaled)

# Resumen de clusters
agg.groupby('cluster')[['recency','frequency','monetary']].mean()

Explicaci√≥n:

- Escalamos porque recency, frequency y monetary tienen diferentes magnitudes.
- KMeans agrupa clientes en 4 segmentos, por ejemplo:
    - Cluster 0 ‚Üí VIP
    - Cluster 1 ‚Üí Dormidos
    - Cluster 2 ‚Üí Nuevos
    - Cluster 3 ‚Üí Regulares
- Luego puedes analizar el perfil promedio de cada cluster.

#### <span style="background-color: cyan">  3. AB testing simulado: crea una bandera de campa√±a y compara ticket medio con test estad√≠stico.

In [None]:
from scipy.stats import ttest_ind

# Crear bandera aleatoria de campa√±a
np.random.seed(42)
df['campaign'] = np.random.choice([0,1], size=len(df))

# Ticket medio por grupo
ticket_camp = df.groupby('campaign').apply(lambda x: (x['units']*x['unit_price']).mean())
ticket_camp

# Test t para comparar grupos
grupo0 = df[df['campaign']==0]['units']*df[df['campaign']==0]['unit_price']
grupo1 = df[df['campaign']==1]['units']*df[df['campaign']==1]['unit_price']
t_stat, p_val = ttest_ind(grupo0, grupo1)
t_stat, p_val

Explicaci√≥n:

    - campaign simula un grupo de control (0) y test (1).
    - Calculamos ticket medio por grupo y usamos un t-test para ver si la diferencia es significativa.
    - Si p_val < 0.05 ‚Üí diferencia estad√≠sticamente significativa.

#### <span style="background-color: cyan">  4. Performance: compara tiempo de groupby tras convertir product y category a category.

In [None]:
import time

# Copiar df
df_perf = df.copy()

# Medir tiempo antes de convertir a category
start = time.time()
df_perf.groupby('product')['revenue'].sum()
time_raw = time.time() - start

# Convertir columnas a category
df_perf['product'] = df_perf['product'].astype('category')
df_perf['category'] = df_perf['category'].astype('category')

# Medir tiempo despu√©s de convertir
start = time.time()
df_perf.groupby('product')['revenue'].sum()
time_cat = time.time() - start

time_raw, time_cat

In [None]:
Explicaci√≥n:

    - Convertir columnas de texto repetitivas a category reduce memoria y acelera operaciones.
    - time_raw ‚Üí tiempo antes
    - time_cat ‚Üí tiempo despu√©s
    - Compara ambos para comentar la mejora de performance.

## 10) R√∫brica (10 puntos)
- Carga/validaci√≥n y limpieza b√°sica (2)
- KPIs correctos y bien interpretados (2)
- Gr√°ficos claros (3) con conclusiones (2)
- Anal√≠tica de clientes (RFM/cohortes) (3)
- Export de resultados (1)
- Calidad del cuaderno (narrativa, orden, reproducibilidad) (+1 bonus)