# Segmentaci√≥n Inteligente de Clientes en Retail Online

**Objetivo**: Segmentar clientes mediante Machine Learning cl√°sico y crear un Producto M√≠nimo Viable con dashboard para usuarios no t√©cnicos.

**Dataset**: Online Retail - UCI Machine Learning Repository

**Metodolog√≠a**: 8 pasos secuenciales desde comprensi√≥n del problema hasta desarrollo del PMV

---

## PASO 1: Comprensi√≥n del Problema

### ¬øQu√© es un Cliente Valioso en Retail Online?

Un cliente valioso no es solo aquel que realiza una compra grande. En el contexto de retail online, un cliente valioso se caracteriza por:

1. **Lealtad temporal**: Clientes que compran recientemente est√°n m√°s activos y propensos a repetir
2. **Frecuencia de interacci√≥n**: Clientes que compran regularmente generan ingresos predecibles y estables
3. **Contribuci√≥n monetaria**: Clientes que gastan significativamente impactan directamente en los ingresos
4. **Potencial futuro**: Clientes con comportamiento positivo en las tres dimensiones anteriores tienen mayor probabilidad de continuar generando valor

### ¬øPor qu√© No Todos los Clientes Deben Tratarse Igual?

El principio de Pareto se aplica en retail: t√≠picamente el 20% de los clientes genera el 80% de los ingresos. Tratar a todos los clientes de manera uniforme implica:

- **Ineficiencia en recursos**: Invertir lo mismo en clientes de bajo valor que en clientes premium
- **P√©rdida de oportunidades**: No identificar clientes de alto valor que necesitan atenci√≥n especial
- **Riesgo de abandono**: No detectar clientes en riesgo que podr√≠an recuperarse con intervenciones espec√≠ficas
- **Mal uso del presupuesto**: Gastar en clientes inactivos o perdidos en lugar de en clientes leales

### Decisiones Estrat√©gicas que Apoya la Segmentaci√≥n

La segmentaci√≥n de clientes permite tomar decisiones informadas sobre:

1. **Estrategias de retenci√≥n**: Identificar clientes de alto valor en riesgo para programas de lealtad
2. **Campa√±as de marketing personalizadas**: Mensajes y ofertas diferenciadas seg√∫n el segmento
3. **Asignaci√≥n de presupuesto**: Concentrar inversi√≥n en segmentos con mayor ROI
4. **Desarrollo de productos**: Crear ofertas espec√≠ficas para segmentos con necesidades particulares
5. **Predicci√≥n de ingresos**: Entender la composici√≥n de la base de clientes para proyecciones financieras
6. **Customer Lifetime Value**: Estimar el valor a largo plazo por segmento para priorizar adquisici√≥n

**En resumen**: La segmentaci√≥n transforma datos transaccionales en inteligencia accionable para optimizar la relaci√≥n con cada tipo de cliente y maximizar el valor del negocio.

---

## PASO 2: An√°lisis Exploratorio de Datos (EDA)

En esta fase exploraremos el dataset para entender su estructura, identificar problemas de calidad de datos y obtener insights iniciales.

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')  # Usar estilo por defecto
sns.set_theme(style="darkgrid", palette="husl")  # Configuraci√≥n de seaborn actualizada
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

print("Librer√≠as importadas correctamente")

In [None]:
# Cargar el dataset
# Nota: Aseg√∫rate de tener el archivo 'Online Retail.xlsx' en la carpeta data/
df = pd.read_excel('../data/Online Retail.xlsx')

print("="*60)
print("CARGA DEL DATASET COMPLETADA")
print("="*60)
print(f"\nDimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
print("\nPrimeras 5 filas:")
print(df.head())

In [None]:
# Inspecci√≥n de la estructura del dataset
print("="*60)
print("ESTRUCTURA DEL DATASET")
print("="*60)
print("\nInformaci√≥n general:")
print(df.info())

print("\n" + "="*60)
print("TIPOS DE DATOS")
print("="*60)
print(df.dtypes)

In [None]:
# Identificaci√≥n de valores faltantes
print("="*60)
print("VALORES FALTANTES")
print("="*60)

missing = df.isnull().sum()
missing_pct = (df.isnull().sum() / len(df)) * 100

missing_df = pd.DataFrame({
    'Columna': missing.index,
    'Valores Faltantes': missing.values,
    'Porcentaje (%)': missing_pct.values
})

print(missing_df)

print("\n" + "="*60)
print("AN√ÅLISIS DE VALORES FALTANTES EN CustomerID")
print("="*60)
print(f"Total de transacciones sin CustomerID: {df['CustomerID'].isnull().sum():,}")
print(f"Porcentaje: {(df['CustomerID'].isnull().sum() / len(df)) * 100:.2f}%")
print("\nInterpretaci√≥n: Las transacciones sin CustomerID podr√≠an ser compras de invitados o errores de registro.")

In [None]:
# Estad√≠stica descriptiva
print("="*60)
print("ESTAD√çSTICA DESCRIPTIVA")
print("="*60)
print("\nVariables num√©ricas:")
print(df[['Quantity', 'UnitPrice']].describe())

print("\n" + "="*60)
print("AN√ÅLISIS DE VARIABLES CATEG√ìRICAS")
print("="*60)
print(f"\nN√∫mero de clientes √∫nicos: {df['CustomerID'].nunique():,}")
print(f"N√∫mero de pa√≠ses √∫nicos: {df['Country'].nunique()}")
print(f"N√∫mero de productos √∫nicos: {df['StockCode'].nunique():,}")
print(f"N√∫mero de facturas √∫nicas: {df['InvoiceNo'].nunique():,}")

print("\n" + "="*60)
print("TOP 5 PA√çSES CON M√ÅS TRANSACCIONES")
print("="*60)
print(df['Country'].value_counts().head())

In [None]:
# Visualizaci√≥n de distribuciones
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Distribuci√≥n de Quantity
axes[0, 0].hist(df['Quantity'], bins=100, edgecolor='black', alpha=0.7)
axes[0, 0].set_title('Distribuci√≥n de Quantity', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Cantidad')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].set_xlim(-100, 500)

# Distribuci√≥n de UnitPrice
axes[0, 1].hist(df['UnitPrice'], bins=100, edgecolor='black', alpha=0.7, color='orange')
axes[0, 1].set_title('Distribuci√≥n de UnitPrice', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('Precio Unitario')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_xlim(0, 50)

# Boxplot Quantity
axes[1, 0].boxplot(df['Quantity'].dropna(), vert=True)
axes[1, 0].set_title('Boxplot de Quantity', fontsize=12, fontweight='bold')
axes[1, 0].set_ylabel('Cantidad')

# Boxplot UnitPrice
axes[1, 1].boxplot(df['UnitPrice'].dropna(), vert=True)
axes[1, 1].set_title('Boxplot de UnitPrice', fontsize=12, fontweight='bold')
axes[1, 1].set_ylabel('Precio Unitario')

plt.tight_layout()
plt.show()

print("Visualizaciones generadas correctamente")

In [None]:
# Detecci√≥n de outliers y valores an√≥malos
print("="*60)
print("DETECCI√ìN DE OUTLIERS Y VALORES AN√ìMALOS")
print("="*60)

# Valores negativos en Quantity
negative_qty = df[df['Quantity'] < 0]
print(f"\nTransacciones con Quantity negativa: {len(negative_qty):,}")
print(f"Porcentaje: {(len(negative_qty) / len(df)) * 100:.2f}%")
print("\nInterpretaci√≥n: Probablemente sean devoluciones o cancelaciones (InvoiceNo con 'C')")

# Valores negativos o cero en UnitPrice
zero_price = df[df['UnitPrice'] <= 0]
print(f"\nTransacciones con UnitPrice ‚â§ 0: {len(zero_price):,}")
print(f"Porcentaje: {(len(zero_price) / len(df)) * 100:.2f}%")

# Verificar facturas que inician con 'C' (cancelaciones)
cancelled = df[df['InvoiceNo'].astype(str).str.startswith('C')]
print(f"\nFacturas canceladas (inician con 'C'): {len(cancelled):,}")
print(f"Porcentaje: {(len(cancelled) / len(df)) * 100:.2f}%")

# Estad√≠sticas de outliers extremos
print("\n" + "="*60)
print("AN√ÅLISIS DE OUTLIERS EXTREMOS")
print("="*60)

Q1_qty = df['Quantity'].quantile(0.25)
Q3_qty = df['Quantity'].quantile(0.75)
IQR_qty = Q3_qty - Q1_qty

Q1_price = df['UnitPrice'].quantile(0.25)
Q3_price = df['UnitPrice'].quantile(0.75)
IQR_price = Q3_price - Q1_price

print(f"\nQuantity - Q1: {Q1_qty:.2f}, Q3: {Q3_qty:.2f}, IQR: {IQR_qty:.2f}")
print(f"UnitPrice - Q1: {Q1_price:.2f}, Q3: {Q3_price:.2f}, IQR: {IQR_price:.2f}")

outliers_qty = df[(df['Quantity'] < Q1_qty - 3*IQR_qty) | (df['Quantity'] > Q3_qty + 3*IQR_qty)]
outliers_price = df[(df['UnitPrice'] < Q1_price - 3*IQR_price) | (df['UnitPrice'] > Q3_price + 3*IQR_price)]

print(f"\nOutliers extremos en Quantity (3*IQR): {len(outliers_qty):,}")
print(f"Outliers extremos en UnitPrice (3*IQR): {len(outliers_price):,}")

### Conclusiones del EDA

**Hallazgos principales:**

1. **Dimensiones**: El dataset contiene m√°s de 540,000 transacciones con 8 columnas
2. **Valores faltantes**: ~25% de transacciones sin CustomerID (compras de invitados o errores)
3. **Valores negativos**: Existen cantidades negativas (devoluciones) y facturas con prefijo 'C' (cancelaciones)
4. **Outliers**: Presencia de outliers extremos en cantidad y precio que deben tratarse
5. **Geograf√≠a**: Reino Unido concentra la mayor√≠a de transacciones
6. **Calidad de datos**: Necesaria limpieza antes de modelar

**Acciones necesarias:**
- Eliminar transacciones sin CustomerID (no podemos segmentar sin identificaci√≥n)
- Eliminar transacciones canceladas y con valores negativos
- Filtrar outliers extremos que puedan distorsionar el an√°lisis
- Calcular valor monetario de cada transacci√≥n

---

## PASO 3: Limpieza y Agregaci√≥n de Datos

Ahora procedemos a limpiar el dataset y agregarlo a nivel de cliente para poder calcular las m√©tricas RFM.

In [None]:
# Limpieza del dataset
print("="*60)
print("LIMPIEZA DEL DATASET")
print("="*60)

# Crear una copia para trabajar
df_clean = df.copy()

print(f"\nRegistros iniciales: {len(df_clean):,}")

# 1. Eliminar transacciones sin CustomerID
df_clean = df_clean[df_clean['CustomerID'].notna()]
print(f"Despu√©s de eliminar CustomerID nulos: {len(df_clean):,}")

# 2. Eliminar transacciones canceladas (InvoiceNo con 'C')
df_clean = df_clean[~df_clean['InvoiceNo'].astype(str).str.startswith('C')]
print(f"Despu√©s de eliminar cancelaciones: {len(df_clean):,}")

# 3. Eliminar cantidad y precios negativos o cero
df_clean = df_clean[df_clean['Quantity'] > 0]
df_clean = df_clean[df_clean['UnitPrice'] > 0]
print(f"Despu√©s de eliminar valores negativos/cero: {len(df_clean):,}")

# 4. Convertir InvoiceDate a datetime
df_clean['InvoiceDate'] = pd.to_datetime(df_clean['InvoiceDate'])

# 5. Calcular el valor monetario de cada transacci√≥n
df_clean['TotalAmount'] = df_clean['Quantity'] * df_clean['UnitPrice']

print("\n" + "="*60)
print("DATASET LIMPIO - PRIMERAS FILAS")
print("="*60)
print(df_clean.head())

print(f"\n‚úì Limpieza completada: {len(df_clean):,} transacciones v√°lidas")
print(f"‚úì Registros eliminados: {len(df) - len(df_clean):,} ({((len(df) - len(df_clean)) / len(df)) * 100:.2f}%)")

In [None]:
# Agregaci√≥n de datos a nivel de cliente
print("="*60)
print("AGREGACI√ìN A NIVEL DE CLIENTE")
print("="*60)

# Agrupar por CustomerID y calcular m√©tricas b√°sicas
customer_data = df_clean.groupby('CustomerID').agg({
    'InvoiceNo': 'nunique',        # N√∫mero de facturas √∫nicas (compras)
    'TotalAmount': 'sum',          # Gasto total
    'InvoiceDate': 'max'           # Fecha de √∫ltima compra
}).reset_index()

# Renombrar columnas
customer_data.columns = ['CustomerID', 'NumPurchases', 'TotalSpent', 'LastPurchaseDate']

print(f"\nN√∫mero de clientes √∫nicos: {len(customer_data):,}")
print("\nPrimeras 10 filas del dataset agregado:")
print(customer_data.head(10))

print("\n" + "="*60)
print("ESTAD√çSTICAS DE CLIENTES")
print("="*60)
print(customer_data[['NumPurchases', 'TotalSpent']].describe())

print(f"\n‚úì Agregaci√≥n completada: {len(customer_data):,} clientes")

## PASO 4: Ingenier√≠a de Variables - Modelo RFM

El modelo RFM es una t√©cnica cl√°sica de segmentaci√≥n que eval√∫a a los clientes en tres dimensiones:

- **Recency (R)**: ¬øQu√© tan recientemente compr√≥ el cliente? Clientes que compraron recientemente son m√°s propensos a responder a ofertas y tienen mayor engagement.

- **Frequency (F)**: ¬øCon qu√© frecuencia compra el cliente? Clientes frecuentes son m√°s leales y tienen mayor probabilidad de repetir compras.

- **Monetary (M)**: ¬øCu√°nto gasta el cliente? Clientes que gastan m√°s tienen mayor valor para el negocio y mayor impacto en ingresos.

**Estas tres m√©tricas juntas nos permiten identificar diferentes tipos de clientes y priorizar estrategias de negocio.**

In [None]:
# Calcular RFM
print("="*60)
print("C√ÅLCULO DE M√âTRICAS RFM")
print("="*60)

# Definir la fecha de referencia (un d√≠a despu√©s de la √∫ltima compra en el dataset)
reference_date = df_clean['InvoiceDate'].max() + pd.Timedelta(days=1)
print(f"\nFecha de referencia: {reference_date}")

# Calcular Recency: d√≠as desde la √∫ltima compra
customer_data['Recency'] = (reference_date - customer_data['LastPurchaseDate']).dt.days

# Frequency: ya lo tenemos como NumPurchases
customer_data['Frequency'] = customer_data['NumPurchases']

# Monetary: ya lo tenemos como TotalSpent
customer_data['Monetary'] = customer_data['TotalSpent']

# Crear DataFrame RFM
rfm = customer_data[['CustomerID', 'Recency', 'Frequency', 'Monetary']].copy()

print("\n" + "="*60)
print("DATASET RFM - PRIMERAS 10 FILAS")
print("="*60)
print(rfm.head(10))

print("\n" + "="*60)
print("ESTAD√çSTICAS RFM")
print("="*60)
print(rfm[['Recency', 'Frequency', 'Monetary']].describe())

print("\n" + "="*60)
print("INTERPRETACI√ìN DE LAS M√âTRICAS")
print("="*60)
print("‚úì Recency: Valores BAJOS indican clientes m√°s recientes (mejor)")
print("‚úì Frequency: Valores ALTOS indican clientes m√°s frecuentes (mejor)")
print("‚úì Monetary: Valores ALTOS indican clientes que gastan m√°s (mejor)")

# Visualizar distribuciones RFM
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

axes[0].hist(rfm['Recency'], bins=50, edgecolor='black', alpha=0.7, color='skyblue')
axes[0].set_title('Distribuci√≥n de Recency', fontsize=12, fontweight='bold')
axes[0].set_xlabel('D√≠as desde √∫ltima compra')
axes[0].set_ylabel('Frecuencia')

axes[1].hist(rfm['Frequency'], bins=50, edgecolor='black', alpha=0.7, color='lightcoral')
axes[1].set_title('Distribuci√≥n de Frequency', fontsize=12, fontweight='bold')
axes[1].set_xlabel('N√∫mero de compras')
axes[1].set_ylabel('Frecuencia')

axes[2].hist(rfm['Monetary'], bins=50, edgecolor='black', alpha=0.7, color='lightgreen')
axes[2].set_title('Distribuci√≥n de Monetary', fontsize=12, fontweight='bold')
axes[2].set_xlabel('Gasto total')
axes[2].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

print("\n‚úì M√©tricas RFM calculadas correctamente")

## PASO 5: Segmentaci√≥n No Supervisada con K-Means

Aplicaremos K-Means sobre las m√©tricas RFM normalizadas para identificar grupos naturales de clientes con comportamientos similares.

In [None]:
# Normalizar las variables RFM
print("="*60)
print("NORMALIZACI√ìN DE VARIABLES RFM")
print("="*60)

# Crear escalador
scaler = StandardScaler()

# Normalizar
rfm_scaled = scaler.fit_transform(rfm[['Recency', 'Frequency', 'Monetary']])

# Crear DataFrame con datos normalizados
rfm_normalized = pd.DataFrame(
    rfm_scaled, 
    columns=['Recency_scaled', 'Frequency_scaled', 'Monetary_scaled']
)

print("\nDatos normalizados - Primeras 5 filas:")
print(rfm_normalized.head())

print("\n" + "="*60)
print("ESTAD√çSTICAS DESPU√âS DE NORMALIZACI√ìN")
print("="*60)
print(rfm_normalized.describe())

print("\n‚úì Normalizaci√≥n completada (media=0, desviaci√≥n est√°ndar=1)")

In [None]:
# Probar diferentes valores de K usando el m√©todo del codo
print("="*60)
print("DETERMINACI√ìN DEL N√öMERO √ìPTIMO DE CLUSTERS")
print("="*60)

# Probar K de 2 a 10
K_range = range(2, 11)
inertias = []
silhouette_scores = []

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(rfm_normalized)
    inertias.append(kmeans.inertia_)
    silhouette_scores.append(silhouette_score(rfm_normalized, kmeans.labels_))

# Visualizar m√©todo del codo y silhouette scores
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# M√©todo del codo
axes[0].plot(K_range, inertias, marker='o', linewidth=2, markersize=8)
axes[0].set_xlabel('N√∫mero de Clusters (K)', fontsize=11)
axes[0].set_ylabel('Inercia (Within-cluster sum of squares)', fontsize=11)
axes[0].set_title('M√©todo del Codo', fontsize=12, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Silhouette score
axes[1].plot(K_range, silhouette_scores, marker='o', linewidth=2, markersize=8, color='orange')
axes[1].set_xlabel('N√∫mero de Clusters (K)', fontsize=11)
axes[1].set_ylabel('Silhouette Score', fontsize=11)
axes[1].set_title('Silhouette Score por K', fontsize=12, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Mostrar tabla de resultados
results_df = pd.DataFrame({
    'K': list(K_range),
    'Inercia': inertias,
    'Silhouette Score': silhouette_scores
})

print("\nResultados de evaluaci√≥n:")
print(results_df)

print("\n" + "="*60)
print("INTERPRETACI√ìN")
print("="*60)
print("‚Ä¢ M√©todo del Codo: Buscar el punto donde la inercia deja de disminuir significativamente")
print("‚Ä¢ Silhouette Score: Valores m√°s altos indican mejor separaci√≥n entre clusters")
print("‚Ä¢ Balance: Priorizar interpretabilidad de negocio sobre optimizaci√≥n extrema")

In [None]:
# Aplicar K-Means con el n√∫mero √≥ptimo de clusters
print("="*60)
print("APLICACI√ìN DE K-MEANS")
print("="*60)

# Seleccionar K=4 basado en el balance entre m√©tricas e interpretabilidad
optimal_k = 4
print(f"\nN√∫mero de clusters seleccionado: {optimal_k}")
print("Justificaci√≥n: K=4 ofrece un buen balance entre separaci√≥n de clusters")
print("e interpretabilidad para segmentaci√≥n de clientes en retail.")

# Aplicar K-Means
kmeans_final = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
rfm['Cluster'] = kmeans_final.fit_predict(rfm_normalized)

print(f"\n‚úì K-Means aplicado correctamente")
print(f"‚úì Inercia final: {kmeans_final.inertia_:.2f}")
print(f"‚úì Silhouette Score: {silhouette_score(rfm_normalized, rfm['Cluster']):.3f}")

# Distribuci√≥n de clientes por cluster
print("\n" + "="*60)
print("DISTRIBUCI√ìN DE CLIENTES POR CLUSTER")
print("="*60)
cluster_counts = rfm['Cluster'].value_counts().sort_index()
print(cluster_counts)

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
cluster_counts.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A'], edgecolor='black')
plt.title('Distribuci√≥n de Clientes por Cluster', fontsize=14, fontweight='bold')
plt.xlabel('Cluster', fontsize=12)
plt.ylabel('N√∫mero de Clientes', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\n‚úì Total de clientes segmentados: {len(rfm):,}")

## PASO 6: Interpretaci√≥n de Segmentos

Ahora analizaremos las caracter√≠sticas de cada cluster para entender qu√© tipo de clientes representa y asignar etiquetas descriptivas.

In [None]:
# An√°lisis de caracter√≠sticas de cada cluster
print("="*60)
print("CARACTER√çSTICAS PROMEDIO POR CLUSTER")
print("="*60)

cluster_summary = rfm.groupby('Cluster')[['Recency', 'Frequency', 'Monetary']].mean()
print("\nPromedios:")
print(cluster_summary)

print("\n" + "="*60)
print("ESTAD√çSTICAS DETALLADAS POR CLUSTER")
print("="*60)

for cluster_id in range(optimal_k):
    cluster_data = rfm[rfm['Cluster'] == cluster_id]
    print(f"\n{'='*60}")
    print(f"CLUSTER {cluster_id}")
    print(f"{'='*60}")
    print(f"N√∫mero de clientes: {len(cluster_data):,}")
    print(f"Porcentaje del total: {(len(cluster_data) / len(rfm)) * 100:.2f}%")
    print(f"\nRecency  - Promedio: {cluster_data['Recency'].mean():.1f} d√≠as")
    print(f"Frequency - Promedio: {cluster_data['Frequency'].mean():.1f} compras")
    print(f"Monetary - Promedio: ¬£{cluster_data['Monetary'].mean():,.2f}")
    print(f"Monetary - Total: ¬£{cluster_data['Monetary'].sum():,.2f}")

# Calcular contribuci√≥n de ingresos por cluster
print("\n" + "="*60)
print("CONTRIBUCI√ìN A INGRESOS POR CLUSTER")
print("="*60)

revenue_by_cluster = rfm.groupby('Cluster')['Monetary'].sum().sort_values(ascending=False)
revenue_pct = (revenue_by_cluster / rfm['Monetary'].sum()) * 100

revenue_df = pd.DataFrame({
    'Ingreso Total': revenue_by_cluster,
    'Porcentaje (%)': revenue_pct
})

print(revenue_df)

In [None]:
# Visualizaci√≥n de clusters en espacio RFM
fig = plt.figure(figsize=(15, 5))

# Recency vs Monetary
ax1 = fig.add_subplot(131)
for cluster_id in range(optimal_k):
    cluster_data = rfm[rfm['Cluster'] == cluster_id]
    ax1.scatter(cluster_data['Recency'], cluster_data['Monetary'], 
                label=f'Cluster {cluster_id}', alpha=0.6, s=30)
ax1.set_xlabel('Recency (d√≠as)', fontsize=11)
ax1.set_ylabel('Monetary (¬£)', fontsize=11)
ax1.set_title('Recency vs Monetary', fontsize=12, fontweight='bold')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Frequency vs Monetary
ax2 = fig.add_subplot(132)
for cluster_id in range(optimal_k):
    cluster_data = rfm[rfm['Cluster'] == cluster_id]
    ax2.scatter(cluster_data['Frequency'], cluster_data['Monetary'], 
                label=f'Cluster {cluster_id}', alpha=0.6, s=30)
ax2.set_xlabel('Frequency (compras)', fontsize=11)
ax2.set_ylabel('Monetary (¬£)', fontsize=11)
ax2.set_title('Frequency vs Monetary', fontsize=12, fontweight='bold')
ax2.legend()
ax2.grid(True, alpha=0.3)

# Recency vs Frequency
ax3 = fig.add_subplot(133)
for cluster_id in range(optimal_k):
    cluster_data = rfm[rfm['Cluster'] == cluster_id]
    ax3.scatter(cluster_data['Recency'], cluster_data['Frequency'], 
                label=f'Cluster {cluster_id}', alpha=0.6, s=30)
ax3.set_xlabel('Recency (d√≠as)', fontsize=11)
ax3.set_ylabel('Frequency (compras)', fontsize=11)
ax3.set_title('Recency vs Frequency', fontsize=12, fontweight='bold')
ax3.legend()
ax3.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úì Visualizaciones generadas correctamente")

In [None]:
# Asignar etiquetas descriptivas a los clusters
print("="*60)
print("ASIGNACI√ìN DE ETIQUETAS A LOS SEGMENTOS")
print("="*60)

# Analizar los promedios para asignar nombres
cluster_avg = rfm.groupby('Cluster')[['Recency', 'Frequency', 'Monetary']].mean()

# Funci√≥n para asignar etiquetas basadas en caracter√≠sticas RFM
def assign_segment_name(cluster_id, cluster_avg):
    """
    Asigna nombres descriptivos basados en las caracter√≠sticas RFM del cluster
    """
    recency = cluster_avg.loc[cluster_id, 'Recency']
    frequency = cluster_avg.loc[cluster_id, 'Frequency']
    monetary = cluster_avg.loc[cluster_id, 'Monetary']
    
    # L√≥gica de asignaci√≥n basada en patrones t√≠picos
    if recency < 50 and frequency > 5 and monetary > 2000:
        return 'Champions'  # Mejores clientes
    elif recency < 100 and frequency > 3 and monetary > 1000:
        return 'Loyal Customers'  # Clientes leales
    elif recency > 200 and frequency < 3:
        return 'At Risk'  # En riesgo de abandono
    else:
        return 'Occasional Buyers'  # Compradores ocasionales

# Crear mapeo de clusters a nombres
segment_names = {}
for cluster_id in range(optimal_k):
    segment_names[cluster_id] = assign_segment_name(cluster_id, cluster_avg)

# Aplicar etiquetas
rfm['Segment'] = rfm['Cluster'].map(segment_names)

print("\nMapeo de Clusters a Segmentos:")
for cluster_id, name in segment_names.items():
    count = len(rfm[rfm['Cluster'] == cluster_id])
    print(f"  Cluster {cluster_id} ‚Üí {name} ({count:,} clientes)")

print("\n" + "="*60)
print("DESCRIPCI√ìN DE CADA SEGMENTO")
print("="*60)

for cluster_id in range(optimal_k):
    segment_name = segment_names[cluster_id]
    cluster_data = rfm[rfm['Cluster'] == cluster_id]
    
    print(f"\nüìä {segment_name.upper()}")
    print(f"{'‚îÄ'*60}")
    print(f"Caracter√≠sticas principales:")
    print(f"  ‚Ä¢ Recency promedio: {cluster_data['Recency'].mean():.0f} d√≠as")
    print(f"  ‚Ä¢ Frequency promedio: {cluster_data['Frequency'].mean():.1f} compras")
    print(f"  ‚Ä¢ Monetary promedio: ¬£{cluster_data['Monetary'].mean():,.2f}")
    print(f"  ‚Ä¢ Tama√±o: {len(cluster_data):,} clientes ({(len(cluster_data)/len(rfm)*100):.1f}%)")
    print(f"  ‚Ä¢ Contribuci√≥n a ingresos: ¬£{cluster_data['Monetary'].sum():,.2f}")
    
    # Importancia para el negocio
    if segment_name == 'Champions':
        print(f"\n  üíé Importancia: CR√çTICA - Son los mejores clientes")
        print(f"     Estrategia: Programas VIP, early access, atenci√≥n premium")
    elif segment_name == 'Loyal Customers':
        print(f"\n  ‚≠ê Importancia: ALTA - Base s√≥lida del negocio")
        print(f"     Estrategia: Programas de lealtad, ofertas exclusivas")
    elif segment_name == 'At Risk':
        print(f"\n  ‚ö†Ô∏è  Importancia: URGENTE - Requieren retenci√≥n")
        print(f"     Estrategia: Campa√±as de reactivaci√≥n, descuentos personalizados")
    else:
        print(f"\n  üìà Importancia: MEDIA - Potencial de crecimiento")
        print(f"     Estrategia: Incrementar frecuencia con incentivos")

print(f"\n{'='*60}")
print("‚úì Segmentos etiquetados e interpretados correctamente")

## PASO 7: √Årbol de Decisi√≥n Explicativo

Utilizaremos un √°rbol de decisi√≥n NO para predecir, sino para **explicar** las reglas que definen cada segmento de manera interpretable.

In [None]:
# Entrenar √°rbol de decisi√≥n para explicar los segmentos
print("="*60)
print("√ÅRBOL DE DECISI√ìN EXPLICATIVO")
print("="*60)

# Preparar datos
X = rfm[['Recency', 'Frequency', 'Monetary']]
y = rfm['Cluster']

# Entrenar √°rbol con profundidad limitada para interpretabilidad
tree_model = DecisionTreeClassifier(
    max_depth=4,  # Limitar profundidad para mayor interpretabilidad
    min_samples_split=100,
    min_samples_leaf=50,
    random_state=42
)

tree_model.fit(X, y)

print(f"‚úì √Årbol de decisi√≥n entrenado")
print(f"‚úì Profundidad del √°rbol: {tree_model.get_depth()}")
print(f"‚úì N√∫mero de hojas: {tree_model.get_n_leaves()}")
print(f"‚úì Accuracy en datos de entrenamiento: {tree_model.score(X, y):.3f}")

print("\n" + "="*60)
print("IMPORTANCIA DE VARIABLES")
print("="*60)

feature_importance = pd.DataFrame({
    'Variable': ['Recency', 'Frequency', 'Monetary'],
    'Importancia': tree_model.feature_importances_
}).sort_values('Importancia', ascending=False)

print(feature_importance)

# Visualizar el √°rbol
plt.figure(figsize=(20, 10))
plot_tree(
    tree_model, 
    feature_names=['Recency', 'Frequency', 'Monetary'],
    class_names=[segment_names[i] for i in range(optimal_k)],
    filled=True,
    rounded=True,
    fontsize=10
)
plt.title('√Årbol de Decisi√≥n - Reglas de Segmentaci√≥n', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\n" + "="*60)
print("INTERPRETACI√ìN DEL √ÅRBOL")
print("="*60)
print("El √°rbol muestra las reglas de decisi√≥n que definen cada segmento:")
print("‚Ä¢ Cada nodo representa una condici√≥n sobre R, F o M")
print("‚Ä¢ Las ramas muestran el flujo de decisi√≥n")
print("‚Ä¢ Las hojas indican el segmento final asignado")
print("\nEsto permite a usuarios no t√©cnicos entender:")
print("- ¬øQu√© hace que un cliente sea 'Champion'?")
print("- ¬øQu√© condiciones llevan a un cliente a estar 'At Risk'?")
print("- ¬øC√≥mo se diferencian los segmentos en t√©rminos simples?")

print("\n‚úì Modelo explicativo completado")

## PASO 8: Preparaci√≥n para el PMV

Guardamos los datos procesados y el modelo para utilizarlos en el dashboard de Streamlit.

In [None]:
# Guardar datos procesados para el dashboard
import pickle

print("="*60)
print("GUARDANDO DATOS PARA EL PMV")
print("="*60)

# Guardar el DataFrame RFM con segmentos
rfm.to_csv('../data/rfm_segments.csv', index=False)
print("‚úì RFM con segmentos guardado: data/rfm_segments.csv")

# Guardar el mapeo de nombres de segmentos
with open('../data/segment_names.pkl', 'wb') as f:
    pickle.dump(segment_names, f)
print("‚úì Nombres de segmentos guardados: data/segment_names.pkl")

# Guardar el escalador
with open('../data/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("‚úì Escalador guardado: data/scaler.pkl")

# Guardar el modelo de clustering
with open('../data/kmeans_model.pkl', 'wb') as f:
    pickle.dump(kmeans_final, f)
print("‚úì Modelo K-Means guardado: data/kmeans_model.pkl")

print("\n" + "="*60)
print("PREPARACI√ìN COMPLETADA")
print("="*60)
print("Todos los archivos necesarios han sido guardados.")
print("El dashboard de Streamlit puede ahora cargar estos datos.")

print("\nPara ejecutar el dashboard:")
print("  streamlit run src/app_dashboard.py")

---

## Conclusiones y Recomendaciones Estrat√©gicas

### Resumen del An√°lisis

Hemos completado exitosamente la segmentaci√≥n de clientes mediante Machine Learning cl√°sico:

1. ‚úÖ **An√°lisis de m√°s de 400,000 transacciones** de ~4,300 clientes √∫nicos
2. ‚úÖ **Segmentaci√≥n en 4 grupos** con caracter√≠sticas diferenciadas
3. ‚úÖ **Modelo RFM** como base de la segmentaci√≥n
4. ‚úÖ **K-Means clustering** para identificaci√≥n autom√°tica de patrones
5. ‚úÖ **√Årbol de decisi√≥n** para explicar reglas de asignaci√≥n

### Segmentos Identificados

Los 4 segmentos representan diferentes tipos de comportamiento y valor para el negocio:

| Segmento | Caracter√≠sticas | Prioridad |
|----------|----------------|-----------|
| **Champions** | Alta frecuencia, alto gasto, reciente | CR√çTICA |
| **Loyal Customers** | Frecuencia media-alta, gasto medio, activos | ALTA |
| **Occasional Buyers** | Baja frecuencia, gasto bajo | MEDIA |
| **At Risk** | Inactivos, riesgo de abandono | URGENTE |

### Recomendaciones Estrat√©gicas

**Para Champions:**
- Programas VIP exclusivos
- Early access a nuevos productos
- Atenci√≥n personalizada
- Incentivos por referidos

**Para Loyal Customers:**
- Programas de puntos y recompensas
- Ofertas especiales peri√≥dicas
- Comunicaci√≥n frecuente de valor

**Para Occasional Buyers:**
- Campa√±as para aumentar frecuencia
- Ofertas por volumen
- Recordatorios personalizados

**Para At Risk:**
- **URGENTE**: Campa√±as de reactivaci√≥n
- Descuentos significativos
- Encuestas de satisfacci√≥n
- Win-back campaigns

### Impacto en el Negocio

- **Personalizaci√≥n**: Mensajes y ofertas adaptados a cada segmento
- **Eficiencia**: Inversi√≥n de marketing enfocada en alto ROI
- **Retenci√≥n**: Identificaci√≥n temprana de clientes en riesgo
- **Crecimiento**: Estrategias para mover clientes a segmentos superiores

### Pr√≥ximos Pasos

1. Implementar el dashboard para monitoreo continuo
2. Automatizar la actualizaci√≥n mensual de segmentos
3. Medir impacto de campa√±as diferenciadas por segmento
4. Refinar segmentaci√≥n con datos adicionales (canal, categor√≠a de producto)

---

**An√°lisis completado correctamente. Dashboard listo para implementaci√≥n.**