In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar datos
df_clientes = pd.read_csv("clientes.csv")
df_productos = pd.read_csv("productos.csv")
df_ventas = pd.read_csv("ventas.csv")

print("=== RESUMEN DE DATOS ===")
print(f"Clientes: {len(df_clientes)} registros")
print(f"Productos: {len(df_productos)} registros") 
print(f"Ventas: {len(df_ventas)} registros")

print("\n=== CALIDAD DE DATOS ===")
print("Valores nulos:")
print(f"- Clientes: {df_clientes.isnull().sum().sum()}")
print(f"- Productos: {df_productos.isnull().sum().sum()}")
print(f"- Ventas: {df_ventas.isnull().sum().sum()}")

print(f"\nRegistros duplicados:")
print(f"- Clientes: {df_clientes.duplicated().sum()}")
print(f"- Productos: {df_productos.duplicated().sum()}")
print(f"- Ventas: {df_ventas.duplicated().sum()}")

print("\n=== VALIDACIONES CLAVE ===")
# Integridad referencial
productos_validos = df_ventas['id_producto'].isin(df_productos['id_producto']).all()
print(f"Productos válidos en ventas: {'✓' if productos_validos else '✗'}")

# Valores de negocio
valores_positivos = (df_ventas['cantidad'] > 0).all() and (df_ventas['monto'] > 0).all()
print(f"Cantidades y montos positivos: {'✓' if valores_positivos else '✗'}")

print(f"\nRango de fechas: {df_ventas['fecha'].min()} a {df_ventas['fecha'].max()}")
print("Validación completada ✓")

=== RESUMEN DE DATOS ===
Clientes: 50 registros
Productos: 10 registros
Ventas: 100 registros

=== CALIDAD DE DATOS ===
Valores nulos:
- Clientes: 0
- Productos: 0
- Ventas: 0

Registros duplicados:
- Clientes: 0
- Productos: 0
- Ventas: 0

=== VALIDACIONES CLAVE ===
Productos válidos en ventas: ✓
Cantidades y montos positivos: ✓

Rango de fechas: 2023-01-01 a 2023-04-10
Validación completada ✓


In [14]:
print("=== RESUMEN DE DATOS ===")
print(f"Clientes: {len(df_clientes)} registros")
print(f"Productos: {len(df_productos)} registros") 
print(f"Ventas: {len(df_ventas)} registros")

print("\n=== CALIDAD DE DATOS ===")
print("Valores nulos:")
print(f"- Clientes: {df_clientes.isnull().sum().sum()}")
print(f"- Productos: {df_productos.isnull().sum().sum()}")
print(f"- Ventas: {df_ventas.isnull().sum().sum()}")

print(f"\nRegistros duplicados:")
print(f"- Clientes: {df_clientes.duplicated().sum()}")
print(f"- Productos: {df_productos.duplicated().sum()}")
print(f"- Ventas: {df_ventas.duplicated().sum()}")

print("\n=== VALIDACIONES CLAVE ===")
# Integridad referencial
productos_validos = df_ventas['id_producto'].isin(df_productos['id_producto']).all()
print(f"Productos válidos en ventas: {'✓' if productos_validos else '✗'}")

# Valores de negocio
valores_positivos = (df_ventas['cantidad'] > 0).all() and (df_ventas['monto'] > 0).all()
print(f"Cantidades y montos positivos: {'✓' if valores_positivos else '✗'}")

print(f"\nRango de fechas: {df_ventas['fecha'].min()} a {df_ventas['fecha'].max()}")
print("Validación completada ✓")

# Vista previa de los datos
print("\n=== VISTA PREVIA ===")
display(df_ventas.head())

=== RESUMEN DE DATOS ===
Clientes: 50 registros
Productos: 10 registros
Ventas: 100 registros

=== CALIDAD DE DATOS ===
Valores nulos:
- Clientes: 0
- Productos: 0
- Ventas: 0

Registros duplicados:
- Clientes: 0
- Productos: 0
- Ventas: 0

=== VALIDACIONES CLAVE ===
Productos válidos en ventas: ✓
Cantidades y montos positivos: ✓

Rango de fechas: 2023-01-01 a 2023-04-10
Validación completada ✓

=== VISTA PREVIA ===


Unnamed: 0,id_venta,id_producto,id_sucursal,fecha,cantidad,monto
0,1,9,3,2023-01-01,12,22557
1,2,2,1,2023-01-02,10,24278
2,3,6,4,2023-01-03,17,39119
3,4,6,4,2023-01-04,7,17835
4,5,5,2,2023-01-05,7,49733


In [9]:
# Data Mart de Ventas por Categoría de Producto
dm_ventas_categoria = fact_ventas.groupby(['categoria', 'año', 'mes']).agg({
    'revenue_total': 'sum',
    'cantidad': 'sum',
    'id_venta': 'count'
}).reset_index()
dm_ventas_categoria.columns = ['categoria_producto', 'año', 'mes', 'revenue_total', 'cantidad_total', 'num_transacciones']

print("Data Mart - Ventas por Categoría:")
print(dm_ventas_categoria.head())

# Data Mart de Ventas por Sucursal
dm_ventas_sucursal = fact_ventas.groupby(['id_sucursal', 'año', 'mes']).agg({
    'revenue_total': 'sum',
    'cantidad': 'sum',
    'id_venta': 'count'
}).reset_index()
dm_ventas_sucursal.columns = ['id_sucursal', 'año', 'mes', 'revenue_total', 'cantidad_total', 'num_transacciones']

print("\nData Mart - Ventas por Sucursal:")
print(dm_ventas_sucursal.head())

# Data Mart de Productos por Proveedor
dm_productos_proveedor = fact_ventas.groupby(['proveedor', 'nombre_producto']).agg({
    'revenue_total': 'sum',
    'cantidad': 'sum'
}).reset_index()
dm_productos_proveedor.columns = ['proveedor', 'producto', 'revenue_total', 'cantidad_total']

print("\nData Mart - Productos por Proveedor:")
print(dm_productos_proveedor.head())

Data Mart - Ventas por Categoría:
  categoria_producto   año  mes  revenue_total  cantidad_total  \
0          Alimentos  2023    1        3002756             118   
1          Alimentos  2023    2        1199872              62   
2          Alimentos  2023    3        3701899             113   
3          Alimentos  2023    4         248162              24   
4   Electrodoméstico  2023    1         720425              46   

   num_transacciones  
0                 11  
1                  7  
2                 11  
3                  2  
4                  6  

Data Mart - Ventas por Sucursal:
   id_sucursal   año  mes  revenue_total  cantidad_total  num_transacciones
0            1  2023    1         758230              34                  4
1            1  2023    2        1396804              81                  6
2            1  2023    3        1165364              49                  5
3            2  2023    1        1592704              50                  6
4            2  2

In [10]:
# Top 5 productos más vendidos
top_productos = fact_ventas.groupby('nombre_producto').agg({
    'cantidad': 'sum',
    'revenue_total': 'sum'
}).reset_index()
top_productos = top_productos.sort_values('cantidad', ascending=False).head(5)
top_productos.columns = ['nombre_producto', 'total_vendido', 'revenue']

print("Top 5 Productos Más Vendidos:")
print(top_productos)

# Ventas por mes
ventas_mensuales = fact_ventas.groupby(['año', 'mes']).agg({
    'revenue_total': 'sum',
    'cantidad': 'sum'
}).reset_index()
ventas_mensuales.columns = ['año', 'mes', 'revenue_mensual', 'cantidad_mensual']

print("\nVentas Mensuales:")
print(ventas_mensuales)

# Análisis de ventas por sucursal
analisis_sucursales = fact_ventas.groupby('id_sucursal').agg({
    'revenue_total': ['sum', 'mean'],
    'cantidad': 'sum',
    'id_venta': 'count'
}).reset_index()
analisis_sucursales.columns = ['id_sucursal', 'revenue_total', 'revenue_promedio', 'cantidad_total', 'num_transacciones']

print("\nAnálisis por Sucursal:")
print(analisis_sucursales)

# Análisis de proveedores
analisis_proveedores = fact_ventas.groupby('proveedor').agg({
    'revenue_total': 'sum',
    'cantidad': 'sum',
    'id_venta': 'count'
}).reset_index()
analisis_proveedores = analisis_proveedores.sort_values('revenue_total', ascending=False)
analisis_proveedores.columns = ['proveedor', 'revenue_total', 'cantidad_total', 'num_transacciones']

print("\nAnálisis por Proveedor:")
print(analisis_proveedores)

print("\n¡Análisis completado! DataFrames listos para visualización")

Top 5 Productos Más Vendidos:
  nombre_producto  total_vendido  revenue
5      Producto 5            139  3664288
6      Producto 6            136  3756465
9      Producto 9            124  2339252
0      Producto 1            104  2543657
3      Producto 3             94  2407632

Ventas Mensuales:
    año  mes  revenue_mensual  cantidad_mensual
0  2023    1          8098086               326
1  2023    2          6333565               296
2  2023    3          8603068               293
3  2023    4          2149213                95

Análisis por Sucursal:
   id_sucursal  revenue_total  revenue_promedio  cantidad_total  \
0            1        3320398     221359.866667             164   
1            2        3768456     198339.789474             154   
2            3        5266675     250794.047619             264   
3            4        7949316     317972.640000             262   
4            5        4879087     243954.350000             166   

   num_transacciones  
0        