"En nuestra tienda en línea tenemos dos tipos de información clave: una es la lista de productos que vendemos, donde se incluye el nombre, la categoría y el precio de cada producto. La otra es el registro de las ventas que hacemos, que nos dice cuántas unidades de cada producto hemos vendido y en qué fecha. Lo que queremos hacer es analizar estos datos para entender mejor cuáles son las categorías de productos que más ingresos nos generan.

Entonces, necesitamos tomar los archivos con esta información y hacer un análisis que nos diga cuánto dinero estamos ganando por cada categoría de producto. Esto nos ayudará a tomar decisiones sobre qué categorías deberíamos promover más o cuáles deberíamos mejorar en nuestra tienda. Nos gustaría hacerlo usando dos sistemas: uno es Databricks, que está en Azure, y el otro es Snowflake, para comparar cómo trabajan estas herramientas y ver cuál nos conviene más."

In [2]:
import pandas as pd

In [3]:
productos_df = pd.read_parquet('data/productos_10000.parquet')
ventas_df = pd.read_parquet('data/ventas_10000.parquet')

In [4]:
productos_df.head()

Unnamed: 0,ProductoID,Nombre,Categoria,Precio
0,1,Teclado,Electronics,1692
1,2,Tablet,Office Supplies,413
2,3,Mouse,Office Supplies,1492
3,4,Mouse,Accessories,1919
4,5,Smartphone,Electronics,903


In [5]:
ventas_df.head()

Unnamed: 0,VentaID,ProductoID,CantidadVendida,FechaVenta
0,1,6082,3,2024-01-30
1,2,1015,2,2024-01-14
2,3,8648,2,2024-01-20
3,4,4488,1,2024-01-15
4,5,9803,7,2024-01-22


In [6]:
productos_df.groupby('Categoria').count()

Unnamed: 0_level_0,ProductoID,Nombre,Precio
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Accessories,3340,3340,3340
Electronics,3297,3297,3297
Office Supplies,3363,3363,3363


In [7]:
merged_df = pd.merge(ventas_df, productos_df, on='ProductoID')
merged_df.head()

Unnamed: 0,VentaID,ProductoID,CantidadVendida,FechaVenta,Nombre,Categoria,Precio
0,1,6082,3,2024-01-30,Mouse,Accessories,1812
1,2,1015,2,2024-01-14,Smartphone,Office Supplies,241
2,3,8648,2,2024-01-20,Tablet,Electronics,461
3,4,4488,1,2024-01-15,Teclado,Office Supplies,184
4,5,9803,7,2024-01-22,Impresora,Office Supplies,1313


In [8]:
merged_df['Total'] = merged_df['CantidadVendida'] * merged_df['Precio']
merged_df.head()

Unnamed: 0,VentaID,ProductoID,CantidadVendida,FechaVenta,Nombre,Categoria,Precio,Total
0,1,6082,3,2024-01-30,Mouse,Accessories,1812,5436
1,2,1015,2,2024-01-14,Smartphone,Office Supplies,241,482
2,3,8648,2,2024-01-20,Tablet,Electronics,461,922
3,4,4488,1,2024-01-15,Teclado,Office Supplies,184,184
4,5,9803,7,2024-01-22,Impresora,Office Supplies,1313,9191


In [9]:
merged_df[['Categoria', 'Nombre', 'CantidadVendida', 'Total']].groupby(['Categoria', 'Nombre']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,CantidadVendida,Total
Categoria,Nombre,Unnamed: 2_level_1,Unnamed: 3_level_1
Accessories,Impresora,2458,2435115
Accessories,Laptop,2752,2904051
Accessories,Monitor,2453,2543335
Accessories,Mouse,2239,2292499
Accessories,Smartphone,2423,2473236
Accessories,Tablet,2544,2571448
Accessories,Teclado,2493,2510006
Electronics,Impresora,2374,2522682
Electronics,Laptop,2366,2439434
Electronics,Monitor,2223,2167288


In [10]:
merged_df[['Categoria', 'Total']].groupby('Categoria').sum()

Unnamed: 0_level_0,Total
Categoria,Unnamed: 1_level_1
Accessories,17729690
Electronics,16370024
Office Supplies,16562365


In [11]:
merged_df.head(100)

Unnamed: 0,VentaID,ProductoID,CantidadVendida,FechaVenta,Nombre,Categoria,Precio,Total
0,1,6082,3,2024-01-30,Mouse,Accessories,1812,5436
1,2,1015,2,2024-01-14,Smartphone,Office Supplies,241,482
2,3,8648,2,2024-01-20,Tablet,Electronics,461,922
3,4,4488,1,2024-01-15,Teclado,Office Supplies,184,184
4,5,9803,7,2024-01-22,Impresora,Office Supplies,1313,9191
...,...,...,...,...,...,...,...,...
95,96,140,3,2024-01-29,Mouse,Electronics,1361,4083
96,97,3327,4,2024-01-21,Monitor,Accessories,345,1380
97,98,2475,5,2024-01-15,Teclado,Office Supplies,1002,5010
98,99,3333,5,2024-01-08,Teclado,Office Supplies,756,3780


In [12]:
productos_df.head(100)

Unnamed: 0,ProductoID,Nombre,Categoria,Precio
0,1,Teclado,Electronics,1692
1,2,Tablet,Office Supplies,413
2,3,Mouse,Office Supplies,1492
3,4,Mouse,Accessories,1919
4,5,Smartphone,Electronics,903
...,...,...,...,...
95,96,Monitor,Office Supplies,669
96,97,Laptop,Office Supplies,1902
97,98,Teclado,Accessories,775
98,99,Smartphone,Office Supplies,1197
