# Generación de datos

Comezamos importando las librerías necesarias

In [1]:
import pandas as pd
from datetime import datetime, timedelta
from faker import Faker
import numpy as np
import random

La tabla de hechos 'ventas' tendrá los siguientes campos: 
+ VentaID: identificador único de la venta
+ ClienteID: identificador único del cliente que realiza la compra
+ SucursalID: identificador único de la sucursal que realiza la venta
+ ProductoID: identificador único del producto vendido
+ Cantidad: cantidad de cajas del producto vendido
+ PrecioCaja: el precio por el que es vendida una caja del producto
+ CostoCaja: el costo de la caja del producto vendido
+ FechaVenta: la fecha en la que se realiza la venta
+ FechaEnvio: fecha en la que se realiza el envio
+ FechaEntrega: fecha en la que el producto le es entregado al cliente

Por comodidad los IDs serán agregados al final del proceso de generación.

In [2]:
df = pd.DataFrame(columns=['VentaID', 'Producto', 'FechaVenta', 'Cantidad', 'PrecioCaja', 'CostoCaja', 'Cliente', 'Sucursal','FechaEnvio', 'FechaEntrega'])

## Productos

Para simular la variación de los precios defino un precio base y le agrego ruido.  
Para evitar una complejidad extra e innecesaria vamos a ignorar la inflación.

In [3]:
# voy a decir que los fideos se venden en cajas de 20 unidades, las salsas en cajas de 12, mientras que el puré de tomate en cajas de 6
productos_precios = {
    'Spaghetti': [50*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Mostacholes': [60*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Tirabuzones': [65*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Rigatti': [60*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Calentano': [70*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Tallarines': [45*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Caracoles': [65*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Puré de Tomate': [60*6 + np.random.normal(0, 5*6) for _ in range(30)],
    'Salsa Pomarola': [50*12 + np.random.normal(0, 5*12) for _ in range(30)],
    'Salsa Filetto': [40*12 + np.random.normal(0, 5*12) for _ in range(30)],
    'Salsa Pizza': [70*12 + np.random.normal(0, 5*12) for _ in range(30)]
}

productos_costos = {
    'Spaghetti': [40*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Mostacholes': [45*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Tirabuzones': [50*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Rigatti': [45*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Calentano': [55*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Tallarines': [40*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Caracoles': [50*20 + np.random.normal(0, 5*20) for _ in range(30)],
    'Puré de Tomate': [45*6 + np.random.normal(0, 5*6) for _ in range(30)],
    'Salsa Pomarola': [30*12 + np.random.normal(0, 5*12) for _ in range(30)],
    'Salsa Filetto': [25*12 + np.random.normal(0, 5*12) for _ in range(30)],
    'Salsa Pizza': [35*12 + np.random.normal(0, 5*12) for _ in range(30)]
}

## Clietes

Elijo a algunas de las cadenas de hipermercados y mayoristas más populares del país.  
Genero 8 empresas de distribución falsas.  
A cada cliente le asigno una probabilidad para utilizar luego en la generación de los datos.

In [20]:
mercados = ['Carrefour', 'Coto', 'Disco', 'Jumbo', 'Dia', 'Vea', 'Walmart', 'La Anonima', 'Chango Más', 'Libertad', 'Hipertehuelche']

# tipo de cliente con probabilidad
tipos_clientes = {
    'Distribuidor': ([],[0.15, 0.2, 0.1, 0.05, 0.2, 0.1, 0.1, 0.1]),
    'Mayorista': (['Makro', 'Vital', 'Diarco', 'Maxiconsumo'], [0.3, 0.2, 0.4, 0.1]),
    'Hiper o Supermercado': (mercados,[0.2, 0.1, 0.1, 0.1, 0.05, 0.1, 0.05, 0.1, 0.1, 0.05, 0.05]),
}

# como no conozco distribuidoras, las creo con la forma "distribuidora apellido"
for i in range(8):
    pesos = [0.3, 0.4, 0.3] # probabilidad de cada idioma para el apellido
    distr = random.choices([Faker('es_AR').last_name(), Faker('it_IT').last_name(), Faker('en_US').last_name()], weights=pesos, k=1)[0]
    tipos_clientes['Distribuidor'][0].append('Distribuidora ' + distr)

tipos_clientes

{'Distribuidor': (['Distribuidora Trussardi',
   'Distribuidora Lopez',
   'Distribuidora Herrera',
   'Distribuidora Bright',
   'Distribuidora Caceres',
   'Distribuidora Maldonado',
   'Distribuidora Torricelli',
   'Distribuidora Vitturi'],
  [0.15, 0.2, 0.1, 0.05, 0.2, 0.1, 0.1, 0.1]),
 'Mayorista': (['Makro', 'Vital', 'Diarco', 'Maxiconsumo'],
  [0.3, 0.2, 0.4, 0.1]),
 'Hiper o Supermercado': (['Carrefour',
   'Coto',
   'Disco',
   'Jumbo',
   'Dia',
   'Vea',
   'Walmart',
   'La Anonima',
   'Chango Más',
   'Libertad',
   'Hipertehuelche'],
  [0.2, 0.1, 0.1, 0.1, 0.05, 0.1, 0.05, 0.1, 0.1, 0.05, 0.05])}

A cada cliente lo relaciono con las provincias en las que opera (cuento a CABA como provincia) agregando una probabilidad que representa el porcentaje de compras que hace desde cada provincia.

In [21]:
provincias = ['CABA', 'Córdoba', 'Mendoza', 'Buenos Aires', 'Santa Fe', 'Rio Negro']

clientes_provincias = {
    tipos_clientes['Distribuidor'][0][0]: (['CABA', 'Buenos Aires'], [0.5, 0.5]),
    tipos_clientes['Distribuidor'][0][1]: (['CABA', 'Buenos Aires'], [0.7, 0.3]),
    tipos_clientes['Distribuidor'][0][2]: (['CABA', 'Buenos Aires', 'Santa Fe'], [0.5, 0.3, 0.2]),
    tipos_clientes['Distribuidor'][0][3]: (['Córdoba', 'Santa Fe'], [0.9, 0.1]),
    tipos_clientes['Distribuidor'][0][4]: (['Buenos Aires', 'Rio Negro'], [0.3, 0.7]),
    tipos_clientes['Distribuidor'][0][5]: (['Mendoza', 'Córdoba'], [0.7, 0.3]),
    tipos_clientes['Distribuidor'][0][6]: (['Santa Fe', 'Buenos Aires'], [0.6, 0.4]),
    tipos_clientes['Distribuidor'][0][7]: (['Mendoza', 'Rio Negro'], [0.8, 0.2]),
    'Makro': (['Buenos Aires', 'Córdoba', 'Santa Fe'], [0.4, 0.3, 0.3]),
    'Vital': (['CABA', 'Buenos Aires', 'Santa Fe', 'Rio Negro'], [0.4, 0.3, 0.2, 0.1]),
    'Diarco': (provincias, [0.2, 0.2, 0.2, 0.2, 0.1, 0.1]), 
    'Maxiconsumo': (['Buenos Aires', 'CABA', 'Córdoba', 'Mendoza', 'Santa Fe'], [0.3, 0.2, 0.2, 0.1, 0.2]),
    'Carrefour': (provincias, [0.2, 0.2, 0.1, 0.2, 0.2, 0.1]),
    'Coto': (['CABA', 'Buenos Aires', 'Santa Fe'], [0.4, 0.4, 0.2]),
    'Disco': (['CABA', 'Buenos Aires', 'Santa Fe',  'Córdoba'], [0.4, 0.4, 0.1, 0.1]),
    'Jumbo': (['Santa Fe', 'Buenos Aires', 'CABA', 'Mendoza'], [0.2, 0.3, 0.3, 0.2]),
    'Dia': (['CABA', 'Buenos Aires', 'Santa Fe',  'Córdoba'], [0.3, 0.3, 0.2, 0.2]),
    'Vea': (['CABA', 'Córdoba', 'Mendoza', 'Buenos Aires', 'Rio Negro'], [0.3, 0.2, 0.1, 0.3, 0.1]),
    'Walmart': (['CABA', 'Rio Negro'], [0.8, 0.2]),
    'La Anonima': (['Córdoba', 'Santa Fe', 'Rio Negro'], [0.3, 0.4, 0.3]),
    'Chango Más': (['CABA', 'Córdoba', 'Buenos Aires', 'Santa Fe'], [0.2, 0.2, 0.3, 0.3]),
    'Libertad': (['Córdoba', 'Santa Fe', 'Mendoza'], [0.1, 0.5, 0.4]),
    'Hipertehuelche': (['Rio Negro', 'Buenos Aires'], [0.6, 0.4])
    }

## Iteración y generación

Itero para crear 10203 registros de ventas.  
Antes voy a asignar una probabilidad a uno de los 30 meses del dataset para tener algo interesante que visualizar luego.

In [22]:
faker = Faker()
# meses con su probabilidad de ventas
probas = [0.035, 0.03, 0.02, 0.03, 0.03, 0.025, 0.03, 0.03, 0.03, 0.04, 0.04, 0.04, 0.04, 0.04, 0.03, 0.025, 0.03,
         0.04, 0.035, 0.02, 0.03, 0.04, 0.03, 0.035, 0.025, 0.04, 0.035, 0.04, 0.045, 0.04]
periodos = [(datetime(2022, 1, 1), datetime(2022, 1, 31)), (datetime(2022, 2, 1), datetime(2022, 2, 28)),
            (datetime(2022, 3, 1), datetime(2022, 3, 31)), (datetime(2022, 4, 1), datetime(2022, 4, 30)),
            (datetime(2022, 5, 1), datetime(2022, 5, 31)), 
            (datetime(2022, 6, 1), datetime(2022, 6, 30)), (datetime(2022, 7, 1), datetime(2022, 7, 31)),
            (datetime(2022, 8, 1), datetime(2022, 8, 31)), (datetime(2022, 9, 1), datetime(2022, 9, 30)),
            (datetime(2022, 10, 1), datetime(2022, 10, 31)), (datetime(2022, 11, 1), datetime(2022, 11, 30)),
            (datetime(2022, 12, 1), datetime(2022, 12, 31)), (datetime(2023, 1, 1), datetime(2023, 1, 31)),
            (datetime(2023, 2, 1), datetime(2023, 2, 28)), (datetime(2023, 3, 1), datetime(2023, 3, 31)),
            (datetime(2023, 4, 1), datetime(2023, 4, 30)), (datetime(2023, 5, 1), datetime(2023, 5, 31)),
            (datetime(2023, 6, 1), datetime(2023, 6, 30)), (datetime(2023, 7, 1), datetime(2023, 7, 31)),
            (datetime(2023, 8, 1), datetime(2023, 8, 31)), (datetime(2023, 9, 1), datetime(2023, 9, 30)),
            (datetime(2023, 10, 1), datetime(2023, 10, 31)), (datetime(2023, 11, 1), datetime(2023, 11, 30)),
            (datetime(2023, 12, 1), datetime(2023, 12, 31)), (datetime(2024, 1, 1), datetime(2024, 1, 31)),
            (datetime(2024, 2, 1), datetime(2024,2,29)), (datetime(2024, 3, 1), datetime(2024, 3, 31)),
            (datetime(2024, 4, 1), datetime(2024, 4, 30)), (datetime(2024, 5, 1), datetime(2024, 5, 31)),
            (datetime(2024, 6, 1), datetime(2024, 6, 30))]
ventas = []
for i in range(10203):
    # elegir un tipo de cliente
    tipo_cliente = random.choices(['Distribuidor', 'Mayorista', 'Hiper o Supermercado'], weights=[0.2, 0.25, 0.35], k=1)[0]
    
    # elegir un cliente de ese tipo
    cliente = random.choices(tipos_clientes[tipo_cliente][0], weights=tipos_clientes[tipo_cliente][1], k=1)[0]

    # elegir una provincia
    provincia = random.choices(clientes_provincias[cliente][0], weights=clientes_provincias[cliente][1], k=1)[0]
    
    # Generar una fecha de venta, envío y entrega
    periodo = random.choices(periodos, weights=probas, k=1)[0]
    fecha_venta = faker.date_between_dates(periodo[0], periodo[1])
    fecha_envio = fecha_venta + timedelta(days=random.randint(1, 3))
    fecha_entrega = fecha_envio + timedelta(days=random.randint(1, 5))
    
    producto = random.choices(list(productos_precios.keys()), weights=[0.15, 0.03, 0.07, 0.04, 0.03, 0.1, 0.02, 0.09, 0.06, 0.06, 0.07], k=1)[0]
    
    # el precio y el costo en ese mes y año
    mes_ano = fecha_venta.month + 11 if fecha_venta.year == 2024 else fecha_venta.month - 1
    precio = round(productos_precios[producto][mes_ano], 2)
    costo = round(productos_costos[producto][mes_ano], 2)
    
    cantidad = round(np.random.normal(100, 50))

    ventas.append({
        'VentaID': i,
        'Producto': producto,
        'FechaVenta': fecha_venta,
        'Cantidad': cantidad,
        'PrecioCaja': precio,
        'CostoCaja': costo,
        'Cliente': cliente,
        'Sucursal': provincia,
        'FechaEnvio': fecha_envio,
        'FechaEntrega': fecha_entrega
    })

ventas.sort(key=lambda x: x['FechaVenta'])
for i, venta in enumerate(ventas):
    venta['VentaID'] = i

df = pd.DataFrame(ventas)

df.head()

Unnamed: 0,VentaID,Producto,FechaVenta,Cantidad,PrecioCaja,CostoCaja,Cliente,Sucursal,FechaEnvio,FechaEntrega
0,0,Rigatti,2022-01-01,149,1138.62,946.72,Walmart,Rio Negro,2022-01-04,2022-01-09
1,1,Puré de Tomate,2022-01-01,29,382.81,334.63,Carrefour,CABA,2022-01-03,2022-01-08
2,2,Puré de Tomate,2022-01-01,35,382.81,334.63,Chango Más,CABA,2022-01-02,2022-01-06
3,3,Caracoles,2022-01-01,84,1157.33,1029.82,Makro,Córdoba,2022-01-02,2022-01-03
4,4,Tirabuzones,2022-01-01,56,1412.16,962.54,Makro,Buenos Aires,2022-01-04,2022-01-07


Hay (o podria haber) ventas distintas del mismo producto al mismo cliente por la misma sucursal y en la misma fecha, algo que no debería ocurrir.  
Unimos esos registros sumando la cantidad de cajas compradas.

In [24]:
df = df.groupby(['FechaVenta', 'Cliente', 'Producto', 'Sucursal'], as_index=False).agg({
    'Cantidad': 'sum',
    'VentaID': 'first',
    'PrecioCaja': 'first',
    'CostoCaja': 'first',
    'FechaEnvio': 'first',
    'FechaEntrega': 'first'
})
df.sort_values(by='VentaID', inplace= True)
df = df[['VentaID', 'Producto', 'FechaVenta', 'Cantidad', 'PrecioCaja', 'CostoCaja', 'Cliente', 'Sucursal', 'FechaEnvio', 'FechaEntrega']]

Checkeamos que no haya errores:

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10067 entries, 12 to 10061
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   VentaID       10067 non-null  int64  
 1   Producto      10067 non-null  object 
 2   FechaVenta    10067 non-null  object 
 3   Cantidad      10067 non-null  int64  
 4   PrecioCaja    10067 non-null  float64
 5   CostoCaja     10067 non-null  float64
 6   Cliente       10067 non-null  object 
 7   Sucursal      10067 non-null  object 
 8   FechaEnvio    10067 non-null  object 
 9   FechaEntrega  10067 non-null  object 
dtypes: float64(2), int64(2), object(6)
memory usage: 865.1+ KB


Quedaron 10067 registros y ninguno tiene valores nulos.  
Los tipos de datos para las fechas no hacen falta cambiarlos, eso lo hacemos en Power Query.

# Armado de tablas

Para simular un caso más realista vamos a separa el dataframe en distintas tablas.  
Vamos a crear las siguientes tablas de dimensión:
+ Sucursal
+ Producto
+ Cliente

Estas tablas estarán muy simplificadas, se les podría agregar mucha mas información.

## Agregamos IDs

In [27]:
sucursales_ids = {
    'CABA': [0, 1, 2, 3, 4],
    'Córdoba': [5, 6, 7],
    'Mendoza': [8, 9, 20],
    'Buenos Aires': [10, 11, 12, 13, 19, 21, 22],
    'Santa Fe': [14, 15, 16],
    'Rio Negro': [17, 18]
}

df['SucursalID'] = df['Sucursal'].apply(lambda x: random.choice(sucursales_ids[x]))

In [28]:
df.head()

Unnamed: 0,VentaID,Producto,FechaVenta,Cantidad,PrecioCaja,CostoCaja,Cliente,Sucursal,FechaEnvio,FechaEntrega,SucursalID
12,0,Rigatti,2022-01-01,149,1138.62,946.72,Walmart,Rio Negro,2022-01-04,2022-01-09,17
1,1,Puré de Tomate,2022-01-01,29,382.81,334.63,Carrefour,CABA,2022-01-03,2022-01-08,0
2,2,Puré de Tomate,2022-01-01,35,382.81,334.63,Chango Más,CABA,2022-01-02,2022-01-06,3
10,3,Caracoles,2022-01-01,84,1157.33,1029.82,Makro,Córdoba,2022-01-02,2022-01-03,7
11,4,Tirabuzones,2022-01-01,56,1412.16,962.54,Makro,Buenos Aires,2022-01-04,2022-01-07,21


In [30]:
clientes = df['Cliente'].unique()
clientes_id = {cliente: i for i, cliente in enumerate(clientes)}
print(clientes_id)
df['ClienteID'] = df['Cliente'].apply(lambda x: clientes_id[x])
df.head()

{'Walmart': 0, 'Carrefour': 1, 'Chango Más': 2, 'Makro': 3, 'Distribuidora Vitturi': 4, 'Disco': 5, 'Distribuidora Herrera': 6, 'Diarco': 7, 'Distribuidora Torricelli': 8, 'Hipertehuelche': 9, 'Jumbo': 10, 'Libertad': 11, 'Dia': 12, 'Distribuidora Caceres': 13, 'Vea': 14, 'Vital': 15, 'Coto': 16, 'Distribuidora Trussardi': 17, 'Distribuidora Maldonado': 18, 'Distribuidora Lopez': 19, 'Distribuidora Bright': 20, 'La Anonima': 21, 'Maxiconsumo': 22}


Unnamed: 0,VentaID,Producto,FechaVenta,Cantidad,PrecioCaja,CostoCaja,Cliente,Sucursal,FechaEnvio,FechaEntrega,SucursalID,ClienteID
12,0,Rigatti,2022-01-01,149,1138.62,946.72,Walmart,Rio Negro,2022-01-04,2022-01-09,17,0
1,1,Puré de Tomate,2022-01-01,29,382.81,334.63,Carrefour,CABA,2022-01-03,2022-01-08,0,1
2,2,Puré de Tomate,2022-01-01,35,382.81,334.63,Chango Más,CABA,2022-01-02,2022-01-06,3,2
10,3,Caracoles,2022-01-01,84,1157.33,1029.82,Makro,Córdoba,2022-01-02,2022-01-03,7,3
11,4,Tirabuzones,2022-01-01,56,1412.16,962.54,Makro,Buenos Aires,2022-01-04,2022-01-07,21,3


In [31]:
productos_ids = {producto: id for id, producto in enumerate(df['Producto'].unique())}

df['ProductoID'] = df['Producto'].map(productos_ids)

In [32]:
df.head()

Unnamed: 0,VentaID,Producto,FechaVenta,Cantidad,PrecioCaja,CostoCaja,Cliente,Sucursal,FechaEnvio,FechaEntrega,SucursalID,ClienteID,ProductoID
12,0,Rigatti,2022-01-01,149,1138.62,946.72,Walmart,Rio Negro,2022-01-04,2022-01-09,17,0,0
1,1,Puré de Tomate,2022-01-01,29,382.81,334.63,Carrefour,CABA,2022-01-03,2022-01-08,0,1,1
2,2,Puré de Tomate,2022-01-01,35,382.81,334.63,Chango Más,CABA,2022-01-02,2022-01-06,3,2,1
10,3,Caracoles,2022-01-01,84,1157.33,1029.82,Makro,Córdoba,2022-01-02,2022-01-03,7,3,2
11,4,Tirabuzones,2022-01-01,56,1412.16,962.54,Makro,Buenos Aires,2022-01-04,2022-01-07,21,3,3


## Creamos las tablas

In [33]:
ids_sucs = {
    0: 'Villa Urquiza, Ciudad de Buenos Aires',
    1: 'Parque Patricios, Ciudad de Buenos Aires',
    2: 'Villa Devoto, Ciudad de Buenos Aires',
    3: 'Liniers, Ciudad de Buenos Aires',
    4: 'Flores, Ciudad de Buenos Aires',
    5: 'Ciudad de Córdoba, Córdoba',
    6: 'Rio Cuarto, Córdoba',
    7: 'Villa Carlos Paz, Córdoba',
    8: 'Ciudad de Mendoza, Mendoza',
    9: 'Rivadavia, Mendoza',
    20: 'Maipú, Mendoza',
    10: 'La Plata, Buenos Aires',
    11: 'Florencio Varela, Buenos Aires',
    12: 'Morón, Buenos Aires',
    13: 'San Martín, Buenos Aires',
    21: 'Junín, Buenos Aires',
    22: 'Bahia Blanca, Buenos Aires',
    19: 'Mar del Plata, Buenos Aires',
    14: 'Rosario, Santa Fe',
    15: 'Venado Tuerto, Santa Fe',
    16: 'Ciudad de Santa Fe',
    17: 'Viedma, Rio Negro',
    18: 'General Roca, Rio Negro'
}

df_sucursales = pd.DataFrame(list(ids_sucs.items()), columns=['SucursalID', 'Locación'])

In [34]:
productos_data = []
for nombre, i in productos_ids.items():
    if 'Salsa' in nombre or 'Tomate' in nombre:
        tipo = 'Salsa'
    else:
        tipo = 'Pasta'
    productos_data.append((i, nombre, tipo))

df_productos = pd.DataFrame(productos_data, columns=['ProductoID', 'ProductoNombre', 'ProductoTipo'])

In [36]:
clientes_data =[]
for nombre, i in clientes_id.items():
    if nombre in tipos_clientes['Mayorista'][0]:
        tipo = 'Mayorista'
    elif nombre in mercados:
        tipo = 'Super o Hipermercado'
    else:
        tipo = 'Distribuidora'
    clientes_data.append((i, nombre, tipo)) # podria agregar cosas como el contacto o cuenta etc.

df_clientes = pd.DataFrame(clientes_data, columns=['ClienteID', 'ClienteNombre', 'ClienteTipo'])


Eliminamos las columnas Producto, Cliente y Sucursal de la tabla de hechos.

In [37]:
df.drop(columns=['Producto', 'Cliente', 'Sucursal'], inplace= True)

In [39]:
df = df[['VentaID', 'ClienteID', 'SucursalID', 'ProductoID', 'Cantidad', 'PrecioCaja', 'CostoCaja', 'FechaVenta', 'FechaEnvio', 'FechaEntrega']]
df

Unnamed: 0,VentaID,ClienteID,SucursalID,ProductoID,Cantidad,PrecioCaja,CostoCaja,FechaVenta,FechaEnvio,FechaEntrega
12,0,0,17,0,149,1138.62,946.72,2022-01-01,2022-01-04,2022-01-09
1,1,1,0,1,29,382.81,334.63,2022-01-01,2022-01-03,2022-01-08
2,2,2,3,1,35,382.81,334.63,2022-01-01,2022-01-02,2022-01-06
10,3,3,7,2,84,1157.33,1029.82,2022-01-01,2022-01-02,2022-01-03
11,4,3,21,3,56,1412.16,962.54,2022-01-01,2022-01-04,2022-01-07
...,...,...,...,...,...,...,...,...,...,...
10066,10198,14,12,0,65,1320.67,791.71,2024-06-29,2024-06-30,2024-07-03
10057,10199,7,21,3,95,1387.69,1051.78,2024-06-29,2024-06-30,2024-07-05
10055,10200,1,18,4,83,991.29,816.31,2024-06-29,2024-06-30,2024-07-01
10059,10201,13,18,6,43,676.79,312.05,2024-06-29,2024-06-30,2024-07-02


Tabla cliente:

In [40]:
df_clientes

Unnamed: 0,ClienteID,ClienteNombre,ClienteTipo
0,0,Walmart,Super o Hipermercado
1,1,Carrefour,Super o Hipermercado
2,2,Chango Más,Super o Hipermercado
3,3,Makro,Mayorista
4,4,Distribuidora Vitturi,Distribuidora
5,5,Disco,Super o Hipermercado
6,6,Distribuidora Herrera,Distribuidora
7,7,Diarco,Mayorista
8,8,Distribuidora Torricelli,Distribuidora
9,9,Hipertehuelche,Super o Hipermercado


Tabla Producto:

In [41]:
df_productos

Unnamed: 0,ProductoID,ProductoNombre,ProductoTipo
0,0,Rigatti,Pasta
1,1,Puré de Tomate,Salsa
2,2,Caracoles,Pasta
3,3,Tirabuzones,Pasta
4,4,Tallarines,Pasta
5,5,Salsa Pizza,Salsa
6,6,Salsa Pomarola,Salsa
7,7,Mostacholes,Pasta
8,8,Calentano,Pasta
9,9,Salsa Filetto,Salsa


Tabla sucursal:

In [42]:
df_sucursales

Unnamed: 0,SucursalID,Locación
0,0,"Villa Urquiza, Ciudad de Buenos Aires"
1,1,"Parque Patricios, Ciudad de Buenos Aires"
2,2,"Villa Devoto, Ciudad de Buenos Aires"
3,3,"Liniers, Ciudad de Buenos Aires"
4,4,"Flores, Ciudad de Buenos Aires"
5,5,"Ciudad de Córdoba, Córdoba"
6,6,"Rio Cuarto, Córdoba"
7,7,"Villa Carlos Paz, Córdoba"
8,8,"Ciudad de Mendoza, Mendoza"
9,9,"Rivadavia, Mendoza"


Finalmete exportamos la data a un archivo Excel:

In [43]:
with pd.ExcelWriter('data/ventas.xlsx') as writer:
    df.to_excel(writer, sheet_name='Ventas', index=False)
    df_sucursales.to_excel(writer, sheet_name='Sucursales', index=False)
    df_productos.to_excel(writer, sheet_name='Productos', index=False)
    df_clientes.to_excel(writer, sheet_name='Clientes', index=False)