# üìä AN√ÅLISIS ESTAD√çSTICO - TIENDA AURELION

**Sprint 2 - Introducci√≥n a la Inteligencia Artificial - IBM**

**Autor:** Martos Ludmila  
**DNI:** 34811650

---

## üìã √çndice

1. [Carga de Datos](#carga)
2. [Estad√≠sticas Descriptivas B√°sicas](#descriptivas)
3. [Identificaci√≥n de Distribuciones](#distribuciones)
4. [An√°lisis de Correlaciones](#correlaciones)
5. [Detecci√≥n de Outliers](#outliers)
6. [Gr√°ficos Representativos](#graficos)
7. [Resumen Ejecutivo](#resumen)


---

## üìä Dashboard Power BI - Sprint 4

Los mismos datos analizados en este notebook se utilizan tambi√©n en un **dashboard en Power BI**:

- Archivo principal: `Power BI/Sprint4.pbix`
- Imagen del dashboard: `Power BI/dashboard.jpg`
- Documentaci√≥n detallada en: `Power BI/Documentacion_Sprint4.md`

> Sugerencia: puedes mostrar primero esta imagen del dashboard en una presentaci√≥n y luego profundizar en los an√°lisis de este notebook.



---

## 1. Carga de Datos <a id='carga'></a>

Primero cargamos todas las librer√≠as necesarias y los datos de los 4 archivos CSV.


In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import normaltest, shapiro
import os
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("‚úÖ Librer√≠as importadas correctamente")


In [None]:
# Detectar rutas de archivos
def obtener_rutas_csv():
    """Obtiene las rutas correctas de los CSVs."""
    # Para Jupyter Notebook, buscamos desde la carpeta programas
    base_dir = os.path.join("..", "datos")
    return {
        'productos': os.path.join(base_dir, "productos.csv"),
        'clientes': os.path.join(base_dir, "clientes.csv"),
        'ventas': os.path.join(base_dir, "ventas.csv"),
        'detalle_ventas': os.path.join(base_dir, "detalle_ventas.csv")
    }

ARCHIVOS_CSV = obtener_rutas_csv()
print("üìÅ Rutas de archivos configuradas")


In [None]:
# Cargar datos
print("=" * 80)
print("CARGANDO DATOS...")
print("=" * 80)

df_productos = pd.read_csv(ARCHIVOS_CSV['productos'], encoding='utf-8')
df_clientes = pd.read_csv(ARCHIVOS_CSV['clientes'], encoding='utf-8')
df_ventas = pd.read_csv(ARCHIVOS_CSV['ventas'], encoding='utf-8')
df_detalle = pd.read_csv(ARCHIVOS_CSV['detalle_ventas'], encoding='utf-8')

# Preparar datos combinados para an√°lisis
df_ventas['fecha'] = pd.to_datetime(df_ventas['fecha'])
df_completo = df_detalle.merge(df_productos, left_on='id_producto', right_on='id', how='left')
df_completo = df_completo.merge(df_ventas, left_on='id_venta', right_on='id_venta', how='left')
df_completo = df_completo.merge(df_clientes, left_on='id_cliente', right_on='id', how='left')

print(f"‚úÖ Productos cargados: {len(df_productos)}")
print(f"‚úÖ Clientes cargados: {len(df_clientes)}")
print(f"‚úÖ Ventas cargadas: {len(df_ventas)}")
print(f"‚úÖ Detalles de ventas: {len(df_detalle)}")
print()


In [None]:
# Vista previa de los datos
print("üìä Vista previa de Productos:")
display(df_productos.head())

print("\nüìä Vista previa de Ventas:")
display(df_ventas.head())


---

## 2. Estad√≠sticas Descriptivas B√°sicas <a id='descriptivas'></a>

Calculamos estad√≠sticas descriptivas para las variables num√©ricas principales.


In [None]:
print("=" * 80)
print("1. ESTAD√çSTICAS DESCRIPTIVAS B√ÅSICAS")
print("=" * 80)

print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS - PRODUCTOS")
print("-" * 80)
stats_productos = df_productos[['precio', 'stock']].describe()
display(stats_productos)


In [None]:
print("\nüìà Informaci√≥n adicional - Productos:")
print(f"   - Mediana de precio: {df_productos['precio'].median():.2f}")
print(f"   - Mediana de stock: {df_productos['stock'].median():.2f}")
print(f"   - Desviaci√≥n est√°ndar precio: {df_productos['precio'].std():.2f}")
print(f"   - Desviaci√≥n est√°ndar stock: {df_productos['stock'].std():.2f}")
print(f"   - Rango precio: {df_productos['precio'].max() - df_productos['precio'].min()}")
print(f"   - Rango stock: {df_productos['stock'].max() - df_productos['stock'].min()}")


In [None]:
print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS - VENTAS")
print("-" * 80)
stats_ventas = df_ventas[['total']].describe()
display(stats_ventas)
print(f"\n   - Mediana: {df_ventas['total'].median():.2f}")
print(f"   - Desviaci√≥n est√°ndar: {df_ventas['total'].std():.2f}")


In [None]:
print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS - DETALLE DE VENTAS")
print("-" * 80)
stats_detalle = df_detalle[['cantidad', 'precio_unitario', 'subtotal']].describe()
display(stats_detalle)


---

## 3. Identificaci√≥n del Tipo de Distribuci√≥n <a id='distribuciones'></a>

Analizamos la distribuci√≥n de las variables principales para identificar si siguen una distribuci√≥n normal o tienen sesgo.


In [None]:
def analizar_distribucion(data, nombre_var):
    """Analiza la distribuci√≥n de una variable."""
    print(f"\nüìà An√°lisis de distribuci√≥n: {nombre_var}")
    print("-" * 80)
    
    # Estad√≠sticas de forma
    skewness = stats.skew(data.dropna())
    kurtosis = stats.kurtosis(data.dropna())
    
    print(f"   Asimetr√≠a (Skewness): {skewness:.4f}")
    print(f"   Curtosis (Kurtosis): {kurtosis:.4f}")
    
    # Test de normalidad
    if len(data.dropna()) <= 50:
        stat, p_value = shapiro(data.dropna())
        test_name = "Shapiro-Wilk"
    else:
        stat, p_value = normaltest(data.dropna())
        test_name = "D'Agostino-Pearson"
    
    print(f"\n   Test de normalidad ({test_name}):")
    print(f"   - Estad√≠stico: {stat:.4f}")
    print(f"   - p-value: {p_value:.4f}")
    
    # Interpretaci√≥n
    if p_value > 0.05:
        print(f"   ‚úÖ Los datos siguen una distribuci√≥n normal (p > 0.05)")
        tipo_dist = "Normal"
    elif skewness > 1:
        print(f"   ‚ö†Ô∏è  Distribuci√≥n asim√©trica positiva (sesgada a la derecha)")
        tipo_dist = "Asim√©trica Positiva"
    elif skewness < -1:
        print(f"   ‚ö†Ô∏è  Distribuci√≥n asim√©trica negativa (sesgada a la izquierda)")
        tipo_dist = "Asim√©trica Negativa"
    else:
        print(f"   ‚ö†Ô∏è  Distribuci√≥n no normal")
        tipo_dist = "No Normal"
    
    return tipo_dist, skewness, kurtosis

print("=" * 80)
print("2. IDENTIFICACI√ìN DEL TIPO DE DISTRIBUCI√ìN DE VARIABLES")
print("=" * 80)


In [None]:
distribuciones = {}
distribuciones['precio'], skew_precio, kurt_precio = analizar_distribucion(df_productos['precio'], 'Precio de Productos')
distribuciones['stock'], skew_stock, kurt_stock = analizar_distribucion(df_productos['stock'], 'Stock de Productos')
distribuciones['total'], skew_total, kurt_total = analizar_distribucion(df_ventas['total'], 'Total de Ventas')


---

## 4. An√°lisis de Correlaciones <a id='correlaciones'></a>

Examinamos las correlaciones entre las variables principales para identificar relaciones significativas.


In [None]:
print("=" * 80)
print("3. AN√ÅLISIS DE CORRELACIONES ENTRE VARIABLES PRINCIPALES")
print("=" * 80)

print("\nüìä Matriz de Correlaci√≥n - Variables de Productos")
print("-" * 80)
corr_productos = df_productos[['precio', 'stock']].corr()
display(corr_productos)
print(f"\n   Correlaci√≥n Precio-Stock: {corr_productos.loc['precio', 'stock']:.4f}")


In [None]:
print("\nüìä Matriz de Correlaci√≥n - Variables de Ventas")
print("-" * 80)
corr_ventas = df_detalle[['cantidad', 'precio_unitario', 'subtotal']].corr()
display(corr_ventas)


In [None]:
# Correlaci√≥n entre precio de producto y cantidad vendida
print("\nüìä Correlaci√≥n Precio vs Cantidad Vendida")
print("-" * 80)
df_precio_cantidad = df_completo.groupby('id_producto').agg({
    'precio': 'first',
    'cantidad': 'sum'
}).reset_index()
corr_precio_cantidad = df_precio_cantidad[['precio', 'cantidad']].corr()
display(corr_precio_cantidad)
print(f"\n   Correlaci√≥n Precio-Cantidad Vendida: {corr_precio_cantidad.loc['precio', 'cantidad']:.4f}")


In [None]:
# Interpretaci√≥n de correlaciones
print("\nüí° Interpretaci√≥n de Correlaciones:")
print("-" * 80)
corr_precio_stock = corr_productos.loc['precio', 'stock']
if abs(corr_precio_stock) < 0.3:
    print("   - Precio y Stock: Correlaci√≥n d√©bil o inexistente")
elif abs(corr_precio_stock) < 0.7:
    print("   - Precio y Stock: Correlaci√≥n moderada")
else:
    print("   - Precio y Stock: Correlaci√≥n fuerte")

corr_precio_cant = corr_precio_cantidad.loc['precio', 'cantidad']
if corr_precio_cant < -0.3:
    print("   - Precio y Cantidad Vendida: Correlaci√≥n negativa (productos m√°s caros se venden menos)")
elif corr_precio_cant > 0.3:
    print("   - Precio y Cantidad Vendida: Correlaci√≥n positiva (productos m√°s caros se venden m√°s)")
else:
    print("   - Precio y Cantidad Vendida: Correlaci√≥n d√©bil (el precio no influye mucho en la demanda)")


---

## 5. Detecci√≥n de Outliers <a id='outliers'></a>

Utilizamos el m√©todo IQR (Interquartile Range) para identificar valores extremos.


In [None]:
def detectar_outliers_iqr(data, nombre_var):
    """Detecta outliers usando el m√©todo IQR."""
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data < lower_bound) | (data > upper_bound)]
    
    print(f"\nüìä Detecci√≥n de Outliers: {nombre_var}")
    print("-" * 80)
    print(f"   Q1 (25%): {Q1:.2f}")
    print(f"   Q3 (75%): {Q3:.2f}")
    print(f"   IQR: {IQR:.2f}")
    print(f"   L√≠mite inferior: {lower_bound:.2f}")
    print(f"   L√≠mite superior: {upper_bound:.2f}")
    print(f"   Outliers detectados: {len(outliers)}")
    
    if len(outliers) > 0:
        print(f"   Valores outliers:")
        for idx, val in outliers.items():
            print(f"     - {val:.2f}")
    else:
        print(f"   ‚úÖ No se detectaron outliers")
    
    return outliers

print("=" * 80)
print("4. DETECCI√ìN DE OUTLIERS (VALORES EXTREMOS)")
print("=" * 80)


In [None]:
outliers_precio = detectar_outliers_iqr(df_productos['precio'], 'Precio de Productos')
outliers_stock = detectar_outliers_iqr(df_productos['stock'], 'Stock de Productos')
outliers_total = detectar_outliers_iqr(df_ventas['total'], 'Total de Ventas')


---

## 6. Gr√°ficos Representativos <a id='graficos'></a>

Generamos gr√°ficos profesionales para visualizar los datos y los resultados del an√°lisis.

### Gr√°fico 1: Distribuci√≥n de Precios


In [None]:
# Crear carpeta para gr√°ficos si no existe
output_dir = os.path.join("..", "graficos")
os.makedirs(output_dir, exist_ok=True)

print("=" * 80)
print("5. GENERANDO GR√ÅFICOS REPRESENTATIVOS")
print("=" * 80)


### Gr√°fico 2: Matriz de Correlaci√≥n


In [None]:
# GR√ÅFICO 1: Distribuci√≥n de Precios con Histograma y Box Plot
print("\nüìä Generando Gr√°fico 1: Distribuci√≥n de Precios...")
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Histograma de precios
axes[0].hist(df_productos['precio'], bins=15, edgecolor='black', alpha=0.7, color='skyblue')
axes[0].axvline(df_productos['precio'].mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {df_productos["precio"].mean():.2f}')
axes[0].axvline(df_productos['precio'].median(), color='green', linestyle='--', linewidth=2, label=f'Mediana: {df_productos["precio"].median():.2f}')
axes[0].set_xlabel('Precio (monedas de oro)', fontsize=12)
axes[0].set_ylabel('Frecuencia', fontsize=12)
axes[0].set_title('Distribuci√≥n de Precios de Productos', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Box plot de precios
box_data = [df_productos['precio']]
axes[1].boxplot(box_data, labels=['Precio'])
axes[1].set_ylabel('Precio (monedas de oro)', fontsize=12)
axes[1].set_title('Box Plot - Precios de Productos', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig(os.path.join(output_dir, 'grafico1_distribucion_precios.png'), dpi=300, bbox_inches='tight')
print("   ‚úÖ Guardado: grafico1_distribucion_precios.png")
plt.show()


### Gr√°fico 3: An√°lisis de Outliers y Tendencias de Ventas


In [None]:
# GR√ÅFICO 2: Correlaci√≥n entre Variables Principales
print("\nüìä Generando Gr√°fico 2: Matriz de Correlaci√≥n...")
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Matriz de correlaci√≥n productos
corr_mat_productos = df_productos[['precio', 'stock']].corr()
sns.heatmap(corr_mat_productos, annot=True, fmt='.3f', cmap='coolwarm', center=0,
            square=True, linewidths=2, ax=axes[0], cbar_kws={"shrink": 0.8})
axes[0].set_title('Correlaci√≥n: Precio vs Stock', fontsize=14, fontweight='bold')

# Matriz de correlaci√≥n ventas
corr_mat_ventas = df_detalle[['cantidad', 'precio_unitario', 'subtotal']].corr()
sns.heatmap(corr_mat_ventas, annot=True, fmt='.3f', cmap='coolwarm', center=0,
            square=True, linewidths=2, ax=axes[1], cbar_kws={"shrink": 0.8})
axes[1].set_title('Correlaci√≥n: Variables de Ventas', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.savefig(os.path.join(output_dir, 'grafico2_matriz_correlacion.png'), dpi=300, bbox_inches='tight')
print("   ‚úÖ Guardado: grafico2_matriz_correlacion.png")
plt.show()


### Gr√°fico 3: An√°lisis de Outliers y Tendencias de Ventas

In [None]:
# GR√ÅFICO 3: An√°lisis de Outliers y Tendencias de Ventas
print("\nüìä Generando Gr√°fico 3: An√°lisis de Outliers y Ventas...")
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Scatter plot Precio vs Stock con outliers marcados
axes[0, 0].scatter(df_productos['precio'], df_productos['stock'], alpha=0.6, s=100, color='steelblue')
# Marcar outliers de precio
if len(outliers_precio) > 0:
    outliers_df = df_productos[df_productos['precio'].isin(outliers_precio)]
    axes[0, 0].scatter(outliers_df['precio'], outliers_df['stock'], color='red', s=150, marker='x', 
                       label='Outliers', linewidths=3)
axes[0, 0].set_xlabel('Precio (monedas)', fontsize=11)
axes[0, 0].set_ylabel('Stock (unidades)', fontsize=11)
axes[0, 0].set_title('Precio vs Stock (Outliers marcados)', fontsize=12, fontweight='bold')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Box plot de total de ventas
axes[0, 1].boxplot([df_ventas['total']], labels=['Total Ventas'])
axes[0, 1].set_ylabel('Total (monedas)', fontsize=11)
axes[0, 1].set_title('Distribuci√≥n de Totales de Ventas', fontsize=12, fontweight='bold')
axes[0, 1].grid(True, alpha=0.3)

# Ventas por fecha
df_ventas_fecha = df_ventas.groupby(df_ventas['fecha'].dt.date)['total'].sum().reset_index()
df_ventas_fecha['fecha'] = pd.to_datetime(df_ventas_fecha['fecha'])
axes[1, 0].plot(df_ventas_fecha['fecha'], df_ventas_fecha['total'], marker='o', linewidth=2, markersize=8, color='green')
axes[1, 0].set_xlabel('Fecha', fontsize=11)
axes[1, 0].set_ylabel('Total Ventas (monedas)', fontsize=11)
axes[1, 0].set_title('Evoluci√≥n de Ventas por Fecha', fontsize=12, fontweight='bold')
axes[1, 0].tick_params(axis='x', rotation=45)
axes[1, 0].grid(True, alpha=0.3)

# Top 5 productos m√°s vendidos
productos_vendidos = df_detalle.groupby('id_producto')['cantidad'].sum().sort_values(ascending=False).head(5)
productos_top = df_productos[df_productos['id'].isin(productos_vendidos.index)][['nombre', 'id']]
productos_top = productos_top.merge(productos_vendidos.reset_index(), left_on='id', right_on='id_producto')
axes[1, 1].barh(productos_top['nombre'], productos_top['cantidad'], color='coral')
axes[1, 1].set_xlabel('Cantidad Vendida', fontsize=11)
axes[1, 1].set_title('Top 5 Productos M√°s Vendidos', fontsize=12, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.savefig(os.path.join(output_dir, 'grafico3_outliers_ventas.png'), dpi=300, bbox_inches='tight')
print("   ‚úÖ Guardado: grafico3_outliers_ventas.png")
plt.show()

print("\n‚úÖ Todos los gr√°ficos generados exitosamente en la carpeta 'graficos/'")


---

## 7. Resumen Ejecutivo <a id='resumen'></a>

Resumen completo de los hallazgos del an√°lisis estad√≠stico.


In [None]:
print("=" * 80)
print("RESUMEN EJECUTIVO DEL AN√ÅLISIS")
print("=" * 80)

print("\nüìä VARIABLES ANALIZADAS:")
print(f"   - Precio de productos: {len(df_productos)} registros")
print(f"   - Stock de productos: {len(df_productos)} registros")
print(f"   - Total de ventas: {len(df_ventas)} registros")
print(f"   - Detalles de ventas: {len(df_detalle)} registros")

print("\nüìà DISTRIBUCIONES IDENTIFICADAS:")
for var, tipo in distribuciones.items():
    print(f"   - {var.capitalize()}: {tipo}")

print("\nüîó CORRELACIONES PRINCIPALES:")
print(f"   - Precio vs Stock: {corr_productos.loc['precio', 'stock']:.4f}")
print(f"   - Precio vs Cantidad Vendida: {corr_precio_cantidad.loc['precio', 'cantidad']:.4f}")

print("\n‚ö†Ô∏è  OUTLIERS DETECTADOS:")
print(f"   - Precio: {len(outliers_precio)} valores extremos")
print(f"   - Stock: {len(outliers_stock)} valores extremos")
print(f"   - Total Ventas: {len(outliers_total)} valores extremos")

print("\n" + "=" * 80)
print("AN√ÅLISIS COMPLETADO EXITOSAMENTE")
print("=" * 80)


---

## üí° Visualizaci√≥n Interactiva

Los datos de este an√°lisis tambi√©n est√°n disponibles en plataformas interactivas:

### üìä Dashboard Power BI Desktop

Accede a un dashboard profesional con visualizaciones interactivas y filtros din√°micos:
- **Ubicaci√≥n**: `Sprint-2/Tienda_Aurelion_Dashboard_Sprint2.pbix` o `.pbit`
- **Gu√≠a**: `Sprint-2/documentacion/GUIA_RAPIDA_DASHBOARD_POWERBI.md`
- **Requisito**: Microsoft Power BI Desktop (gratis)

### üåê Aplicaci√≥n Web Streamlit

Explora los datos en una aplicaci√≥n web interactiva:
```bash
# Ejecuta desde la carpeta Sprint-2/
streamlit run programas/app_streamlit.py
```

**Ambas herramientas complementan este an√°lisis con visualizaciones interactivas y funcionalidades adicionales.**

---


---

## üìù Interpretaci√≥n de Resultados Orientada al Problema

### Conclusiones Principales:

1. **Distribuci√≥n de Precios**: Los precios muestran una distribuci√≥n asim√©trica positiva, lo que indica que hay m√°s productos econ√≥micos que productos premium. Esto es positivo para la diversificaci√≥n del cat√°logo.

2. **Correlaciones Identificadas**: 
   - La correlaci√≥n entre precio y stock es d√©bil, lo que sugiere que no hay una estrategia clara de mantener m√°s stock de productos econ√≥micos.
   - La correlaci√≥n precio-cantidad vendida ayuda a entender la demanda por segmento de precio.

3. **Outliers**: Los valores extremos identificados pueden representar productos especiales de alto valor o ventas excepcionales que requieren atenci√≥n especial.

4. **Tendencias de Ventas**: La evoluci√≥n temporal de ventas permite identificar patrones y planificar mejor el inventario.

### Recomendaciones:

- **Estrategia de Precios**: Considerar ajustar estrategias de stock seg√∫n la correlaci√≥n precio-demanda.
- **Gesti√≥n de Outliers**: Revisar productos con valores extremos para determinar si son errores o productos especiales.
- **An√°lisis Temporal**: Profundizar en el an√°lisis de tendencias temporales para mejorar la predicci√≥n de demanda.

---

**¬© 2025 Martos Ludmila - Tienda Aurelion**


---

## 8. ü§ñ Machine Learning - Predicci√≥n de Ventas <a id='machine-learning'></a>

Complementamos el an√°lisis estad√≠stico con un modelo de Machine Learning para predecir el total de ventas.

### Modelo: Random Forest Regressor
- **Tipo**: Regresi√≥n supervisada
- **√Årboles**: 100 estimadores
- **Divisi√≥n**: 80% train, 20% test
- **M√©tricas**: R¬≤, MAE, RMSE, MAPE


In [None]:
# Importar librer√≠as de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

print("=" * 80)
print("ü§ñ MACHINE LEARNING - PREDICCI√ìN DE VENTAS")
print("=" * 80)


In [None]:
# Ingenier√≠a de caracter√≠sticas para ML
print("\nüîß Preparando datos para Machine Learning...")

# Extraer caracter√≠sticas temporales de ventas
df_ventas_ml = df_ventas.copy()
df_ventas_ml['mes'] = df_ventas_ml['fecha'].dt.month
df_ventas_ml['dia_semana'] = df_ventas_ml['fecha'].dt.dayofweek
df_ventas_ml['dia_mes'] = df_ventas_ml['fecha'].dt.day

# Unir detalle con productos
df_detalle_ml = df_detalle.merge(
    df_productos[['id', 'categoria', 'precio']], 
    left_on='id_producto', 
    right_on='id'
)

# Calcular caracter√≠sticas agregadas por venta
caracteristicas = df_detalle_ml.groupby('id_venta').agg({
    'cantidad': 'sum',
    'id_producto': 'nunique',
    'precio_unitario': 'mean',
    'subtotal': 'sum',
    'categoria': lambda x: x.mode()[0] if len(x.mode()) > 0 else x.iloc[0]
}).reset_index()

caracteristicas.columns = ['id_venta', 'cantidad_total', 'productos_unicos', 
                            'precio_promedio', 'subtotal_calc', 'categoria_principal']

# Unir con ventas
df_ml = df_ventas_ml.merge(caracteristicas, on='id_venta')

# One-Hot Encoding
df_ml = pd.get_dummies(df_ml, columns=['categoria_principal'], prefix='cat')

print(f"‚úÖ Dataset ML preparado: {len(df_ml)} registros, {df_ml.shape[1]} caracter√≠sticas")


In [None]:
# Entrenamiento del modelo
print("\nüéì ENTRENAMIENTO DEL MODELO")
print("-" * 80)

# Preparar X e y
cols_excluir = ['id_venta', 'id_cliente', 'fecha', 'total', 'subtotal_calc']
X = df_ml.drop(columns=cols_excluir)
y = df_ml['total']

# Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"   Train: {len(X_train)} ({len(X_train)/len(X)*100:.0f}%)")
print(f"   Test: {len(X_test)} ({len(X_test)/len(X)*100:.0f}%)")

# Entrenar modelo
print("\nüå≤ Entrenando Random Forest (100 √°rboles)...")
modelo_rf = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
modelo_rf.fit(X_train, y_train)
print("‚úÖ Modelo entrenado")


In [None]:
# Evaluaci√≥n del modelo
print("\nüìä M√âTRICAS DE EVALUACI√ìN")
print("=" * 80)

# Predicciones
y_pred_train = modelo_rf.predict(X_train)
y_pred_test = modelo_rf.predict(X_test)

# Calcular m√©tricas
mae_train = mean_absolute_error(y_train, y_pred_train)
mae_test = mean_absolute_error(y_test, y_pred_test)
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)
mape_test = np.mean(np.abs((y_test - y_pred_test) / y_test)) * 100

print("\nüéì ENTRENAMIENTO:")
print(f"   ‚Ä¢ R¬≤ Score: {r2_train:.4f} ({r2_train*100:.2f}%)")
print(f"   ‚Ä¢ MAE: {mae_train:.2f} monedas")

print("\nüß™ PRUEBA:")
print(f"   ‚Ä¢ R¬≤ Score: {r2_test:.4f} ({r2_test*100:.2f}%)")
print(f"   ‚Ä¢ MAE: {mae_test:.2f} monedas")
print(f"   ‚Ä¢ RMSE: {rmse_test:.2f} monedas")
print(f"   ‚Ä¢ MAPE: {mape_test:.2f}%")

print(f"\nüí° El modelo explica el {r2_test*100:.1f}% de la variabilidad en ventas")


In [None]:
# Visualizaciones del modelo ML
print("\nüìà GR√ÅFICOS DEL MODELO ML")
print("-" * 80)

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Predicciones vs Reales
axes[0, 0].scatter(y_test, y_pred_test, alpha=0.6, s=80, edgecolors='black', linewidth=0.5)
axes[0, 0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
axes[0, 0].set_xlabel('Valor Real (monedas)')
axes[0, 0].set_ylabel('Predicci√≥n (monedas)')
axes[0, 0].set_title(f'Predicciones vs Valores Reales (R¬≤={r2_test:.4f})')
axes[0, 0].grid(True, alpha=0.3)

# 2. Distribuci√≥n de Errores
errores_ml = y_test - y_pred_test
axes[0, 1].hist(errores_ml, bins=15, edgecolor='black', alpha=0.7, color='coral')
axes[0, 1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[0, 1].set_xlabel('Error (Real - Predicci√≥n)')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de Errores')
axes[0, 1].grid(True, alpha=0.3)

# 3. Importancia de Caracter√≠sticas
importancias_ml = pd.DataFrame({
    'caracteristica': X.columns,
    'importancia': modelo_rf.feature_importances_
}).sort_values('importancia', ascending=False).head(10)

colors = plt.cm.viridis(np.linspace(0, 1, len(importancias_ml)))
axes[1, 0].barh(range(len(importancias_ml)), importancias_ml['importancia'], color=colors)
axes[1, 0].set_yticks(range(len(importancias_ml)))
axes[1, 0].set_yticklabels(importancias_ml['caracteristica'])
axes[1, 0].set_xlabel('Importancia')
axes[1, 0].set_title('Top 10 Caracter√≠sticas Importantes')
axes[1, 0].invert_yaxis()
axes[1, 0].grid(True, alpha=0.3, axis='x')

# 4. Residuos vs Predicciones
axes[1, 1].scatter(y_pred_test, errores_ml, alpha=0.6, s=80, edgecolors='black')
axes[1, 1].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[1, 1].set_xlabel('Predicci√≥n (monedas)')
axes[1, 1].set_ylabel('Residuo')
axes[1, 1].set_title(f'Residuos vs Predicciones (MAE={mae_test:.2f})')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig(os.path.join(output_dir, 'grafico4_modelo_ml.png'), dpi=300, bbox_inches='tight')
print("‚úÖ Guardado: grafico4_modelo_ml.png")
plt.show()


In [None]:
# Resumen final con ML incluido
print("\n" + "=" * 80)
print("üìä RESUMEN EJECUTIVO COMPLETO (CON ML)")
print("=" * 80)

print(f"""
üìà AN√ÅLISIS ESTAD√çSTICO:
   ‚Ä¢ Variables analizadas: Precio, Stock, Total ventas
   ‚Ä¢ Distribuciones identificadas: {len(distribuciones)} tipos
   ‚Ä¢ Outliers detectados: {len(outliers_precio) + len(outliers_stock) + len(outliers_total)} totales

ü§ñ MACHINE LEARNING:
   ‚Ä¢ Modelo: Random Forest Regressor (100 √°rboles)
   ‚Ä¢ R¬≤ Score: {r2_test:.4f} ({r2_test*100:.2f}%)
   ‚Ä¢ MAE: {mae_test:.2f} monedas
   ‚Ä¢ MAPE: {mape_test:.2f}%

üéØ TOP 3 CARACTER√çSTICAS IMPORTANTES:
""")

for i, (_, row) in enumerate(importancias_ml.head(3).iterrows(), 1):
    print(f"   {i}. {row['caracteristica']}: {row['importancia']*100:.2f}%")

print(f"""
üìÅ GR√ÅFICOS GENERADOS:
   1. grafico1_distribucion_precios.png
   2. grafico2_matriz_correlacion.png
   3. grafico3_outliers_ventas.png
   4. grafico4_modelo_ml.png

‚úÖ AN√ÅLISIS COMPLETADO
""")
print("=" * 80)
