In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random

In [2]:
df_user = pd.DataFrame() #definimos dataframe usuarios

In [3]:
# creamos funcion random que permite tomar fechas aleatorias entre fechas parámetros
# y cantidad definida
# en este caso, 5k de usuarios nuevos que llegaron 
# durante el mes de enero del 2022
def random_dates(start, end, n):

    start_u = start.value//10**9
    end_u = end.value//10**9
    return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s')


In [4]:
# creamos los primeros 5k usuarios con fecha de ingreso en enero 2022
start = pd.to_datetime('2022-01-01')
end = pd.to_datetime('2022-01-31')
ingreso_enero = random_dates(start, end, 5000)


In [5]:
# supondremos una tasa fija de crecimiento del 10% de 5k, es decir, 
# 500 usuarios nuevos por mes
# usuarios nuevos ingresados en febrero 2022
start = pd.to_datetime('2022-02-01')
end = pd.to_datetime('2022-02-28')
ingreso_feb = random_dates(start, end, 500)

In [6]:
# usuarios nuevos ingresados en marzo 2022

start = pd.to_datetime('2022-03-01')
end = pd.to_datetime('2022-03-31')
ingreso_mar = random_dates(start, end, 500)

In [7]:
# usuarios nuevos ingresados en abril 2022

start = pd.to_datetime('2022-04-01')
end = pd.to_datetime('2022-04-30')
ingreso_ab = random_dates(start, end, 500)

In [8]:
# usuarios nuevos ingresados en mayo 2022

start = pd.to_datetime('2022-05-01')
end = pd.to_datetime('2022-05-31')
ingreso_may = random_dates(start, end, 500)

In [9]:
# usuarios nuevos ingresados en junio (6 meses de usuarios)

start = pd.to_datetime('2022-06-01')
end = pd.to_datetime('2022-06-30')
ingreso_jun = random_dates(start, end, 500)

In [10]:
# unimos las fechas de ingreso de los usuarios creados en los meses anteriores
fecha_ing = ingreso_enero.union(ingreso_feb).union(ingreso_mar).union(ingreso_ab).union(ingreso_may).union(ingreso_jun)

In [11]:
# comprobamos que son 7500 usuarios ingresados en 6 meses
len(fecha_ing)

7500

In [12]:
# guardamos fechas como columna con nombre 'fecha_ing'
df_user['fecha_ing'] = pd.to_datetime(fecha_ing) 

In [13]:
# guardamos los datos segun fecha de ingreso
df_user.sort_values(by='fecha_ing', inplace = True)


In [14]:
#construiremos primeramente los 5k de usuarios.
a=np.arange(1,7501,1)
df_user.insert(0,'id_user',a)

In [15]:
df_user.head(-10)

Unnamed: 0,id_user,fecha_ing
0,1,2022-01-01 00:03:01
1,2,2022-01-01 00:23:00
2,3,2022-01-01 00:28:16
3,4,2022-01-01 00:38:14
4,5,2022-01-01 00:45:22
...,...,...
7485,7486,2022-06-28 17:56:50
7486,7487,2022-06-28 18:31:36
7487,7488,2022-06-28 21:55:22
7488,7489,2022-06-28 22:09:36


In [16]:
#crearemos la tabla pedidos a usuarios, que corresponde a los pedidos historicos de los usuarios
#durante los 6 meses. supondremos que los usuarios tienen pedidos desde 0 hasta 120 pedidos durante
#este tiempo
n_pedidos = np.random.randint(0,120 ,size=7500)


In [17]:
# guardamos el numero de pedidos de usuarios en la tabla user
df_user.insert(2,'n_pedidos',n_pedidos)

In [18]:
df_user.head()

Unnamed: 0,id_user,fecha_ing,n_pedidos
0,1,2022-01-01 00:03:01,17
1,2,2022-01-01 00:23:00,101
2,3,2022-01-01 00:28:16,12
3,4,2022-01-01 00:38:14,93
4,5,2022-01-01 00:45:22,79


In [19]:
# quitamos hora y dejamos sólo dato de fecha en columna fecha_ing
df_user['fecha_ing'] = df_user['fecha_ing'].dt.date

In [20]:
#sumamos los pedidos de todos los usuarios para saber cuantos pedidos fueron hechos en los 6 meses
df_user['n_pedidos'].sum()

445751

In [21]:
# declaramos el dataframe para pedidos
df_pedidos = pd.DataFrame()

In [22]:
# como tenemos los usuarios, la fecha de ingreso y la cantidad de compras, se crearan de manera random
# n fechas aleatorias dependiendo de las compras aletorias por usuario definidas anteriormente
# para consistencia de los datos, es que los pedidos creados siempre serán posteriores a la fecha de ingreso de cada cliente
# si el usuario tiene 0 pedidos, significa que sólo se registró pero nunca compró. 
df_aux = pd.DataFrame()
for i in df_user.index:
    start = pd.to_datetime(df_user['fecha_ing'][i])
    end = pd.to_datetime('2022-06-30')
    a = random_dates(start, end, df_user['n_pedidos'][i])
    df_aux['fecha_ped'] = pd.to_datetime(a)
    df_aux['id_user'] = df_user['id_user'][i]
    df_pedidos = pd.concat([df_pedidos, df_aux], ignore_index=True)
    df_aux = pd.DataFrame()




In [23]:
# inspeccionamos dataframe pedidos
df_pedidos.head(20) 

Unnamed: 0,fecha_ped,id_user
0,2022-06-04 04:32:57,1
1,2022-03-06 12:47:17,1
2,2022-03-02 17:04:35,1
3,2022-05-27 23:49:00,1
4,2022-05-08 08:12:05,1
5,2022-06-25 09:10:55,1
6,2022-05-09 19:49:20,1
7,2022-04-19 23:50:59,1
8,2022-04-12 23:35:07,1
9,2022-01-10 21:38:13,1


In [24]:
#guardamos el id_delivery del repartidor. Si el id es cero, significa que es retiro en tienda.
# esta id proviene de la tabla delivery donde se consideraron por simplicidad 19 repartidores mas retiro en tienda. 
df_pedidos['id_delivery'] = np.random.randint(0, 21, df_user['n_pedidos'].sum())

In [25]:
# creamos la columna precio_delivery que corresponde al precio del envio. Es un valor random, pero 
# observar que si el pedido tiene id = 0, su valor es cero (retiro en local). Esto es por consistencia de datos
precio_delivery = []
for i in df_pedidos.index:
    if df_pedidos['id_delivery'][i] == 0:
        precio_delivery.append(0)
    else:
        precio_delivery.append(np.random.randint(1, 10))

In [26]:
#guardamos los valores en la columna precio_delivery
df_pedidos['precio_delivery'] = precio_delivery

In [27]:
# se tienen 3 métodos de pago. débito, credito y webpay
# se codifica con debito=1, crédito=2, webpay=3
df_pedidos['tipo_pago'] = np.random.randint(1, 4, df_user['n_pedidos'].sum())

In [28]:
df_pedidos.head()

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago
0,2022-06-04 04:32:57,1,0,0,2
1,2022-03-06 12:47:17,1,12,7,3
2,2022-03-02 17:04:35,1,2,6,1
3,2022-05-27 23:49:00,1,5,1,1
4,2022-05-08 08:12:05,1,19,9,2


In [29]:
df_pedidos[df_pedidos['tipo_pago']==3]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago
1,2022-03-06 12:47:17,1,12,7,3
5,2022-06-25 09:10:55,1,3,2,3
7,2022-04-19 23:50:59,1,5,6,3
8,2022-04-12 23:35:07,1,2,7,3
11,2022-04-27 06:14:59,1,6,4,3
...,...,...,...,...,...
445725,2022-06-29 08:25:07,7500,12,6,3
445727,2022-06-29 23:10:05,7500,2,5,3
445736,2022-06-29 17:45:16,7500,16,9,3
445738,2022-06-29 09:38:49,7500,8,4,3


In [30]:
# dado que no todos los pagos con webpay son confirmados, se crea la columna confirmación_webpay
# que tiene la siguiente codificación 0=no es pago webpay, 1=confirmado, 2=rechazado
confirmacion_webpay = []
for i in df_pedidos.index:
    if df_pedidos['tipo_pago'][i] != 3:
        confirmacion_webpay.append(0)
    elif i%5 == 0:
        confirmacion_webpay.append(2)
    else:
        confirmacion_webpay.append(1)
        
#se utiliza la funcion módulo 5 sobre el indice, ya que esto hará que aproximadamente un 20% de 
# las compras a traves de webpay sean definidas como rechazadas y se cumpla lo solicitado de sobre un
# 70% con compras confirmadas

In [31]:
#se guardan los datos en columna 
df_pedidos['confirmacion_webpay'] = confirmacion_webpay

In [32]:
# inspeccion visual de los pagos con débito (tipo_pago = 1)
df_pedidos[df_pedidos['tipo_pago']==1]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay
2,2022-03-02 17:04:35,1,2,6,1,0
3,2022-05-27 23:49:00,1,5,1,1,0
9,2022-01-10 21:38:13,1,2,2,1,0
10,2022-04-01 17:12:18,1,19,3,1,0
13,2022-05-05 06:05:18,1,13,6,1,0
...,...,...,...,...,...,...
445740,2022-06-29 06:14:24,7500,5,7,1,0
445742,2022-06-29 17:18:49,7500,15,7,1,0
445744,2022-06-29 01:17:28,7500,11,5,1,0
445747,2022-06-29 00:28:55,7500,10,7,1,0


In [33]:
# inspeccion visual de los pagos con crédito (tipo_pago = 2)
df_pedidos[df_pedidos['tipo_pago']==2]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay
0,2022-06-04 04:32:57,1,0,0,2,0
4,2022-05-08 08:12:05,1,19,9,2,0
6,2022-05-09 19:49:20,1,2,5,2,0
15,2022-01-10 15:26:42,1,19,9,2,0
17,2022-04-17 17:48:52,2,12,8,2,0
...,...,...,...,...,...,...
445741,2022-06-29 14:44:57,7500,13,8,2,0
445743,2022-06-29 14:05:04,7500,3,1,2,0
445745,2022-06-29 13:32:04,7500,16,5,2,0
445749,2022-06-29 17:37:23,7500,20,7,2,0


In [34]:
# inspeccion visual de los pagos con webpay (tipo_pago = 3)
df_pedidos[df_pedidos['tipo_pago']==3]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay
1,2022-03-06 12:47:17,1,12,7,3,1
5,2022-06-25 09:10:55,1,3,2,3,2
7,2022-04-19 23:50:59,1,5,6,3,1
8,2022-04-12 23:35:07,1,2,7,3,1
11,2022-04-27 06:14:59,1,6,4,3,1
...,...,...,...,...,...,...
445725,2022-06-29 08:25:07,7500,12,6,3,2
445727,2022-06-29 23:10:05,7500,2,5,3,1
445736,2022-06-29 17:45:16,7500,16,9,3,1
445738,2022-06-29 09:38:49,7500,8,4,3,1


In [35]:
# inspeccion visual de los pagos con webpay rechazados (confirmacion_webpay = 2)
df_pedidos[df_pedidos['confirmacion_webpay']==2]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay
5,2022-06-25 09:10:55,1,3,2,3,2
20,2022-02-12 21:20:57,2,12,4,3,2
25,2022-04-18 23:48:09,2,16,2,3,2
35,2022-06-25 06:33:58,2,7,2,3,2
40,2022-02-27 06:41:37,2,14,4,3,2
...,...,...,...,...,...,...
445630,2022-06-29 09:38:36,7499,0,0,3,2
445695,2022-06-29 18:24:04,7500,0,0,3,2
445705,2022-06-29 19:53:51,7500,14,2,3,2
445710,2022-06-29 20:15:02,7500,16,9,3,2


In [36]:
# crearemos la columna cupon, que toma un valor entre 0 y 0.5 (factor de porcentaje de descuento) segun lo pedido
# se utiliza la funcion modulo 14 para dividir los datos en 14 y a sólo uno de estos grupos otorgarle descuentos de manera
# aleatoria
cupon = []
for i in df_pedidos.index:
    if i%14 == 0:
        cupon.append(np.random.randint(1, 50)/100)
    else:
        cupon.append(0)

In [37]:
df_pedidos['cupon'] = cupon

In [38]:
df_pedidos[df_pedidos['cupon']!=0]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay,cupon
0,2022-06-04 04:32:57,1,0,0,2,0,0.23
14,2022-03-05 12:10:12,1,3,1,1,0,0.04
28,2022-06-02 18:52:02,2,13,4,2,0,0.20
42,2022-03-07 14:42:28,2,0,0,3,1,0.12
56,2022-02-22 03:58:34,2,18,9,1,0,0.08
...,...,...,...,...,...,...,...
445690,2022-06-29 19:53:13,7500,11,5,1,0,0.21
445704,2022-06-29 23:48:45,7500,13,4,1,0,0.31
445718,2022-06-29 18:54:07,7500,14,5,1,0,0.32
445732,2022-06-29 15:19:14,7500,6,8,1,0,0.06


In [39]:
coins = []
for i in df_pedidos.index:
    if i%15 == 0:
        coins.append(np.random.randint(1, 32))
    else:
        coins.append(0)

In [40]:
df_pedidos['coins'] = coins

In [41]:
df_pedidos['id_tienda'] = np.random.randint(0, 51, df_user['n_pedidos'].sum())

In [42]:
mono_goodbag=[]
multi_goodbag=[]
multi_prod=[]
for i in df_pedidos.index:
    mono_goodbag.append(np.random.randint(1, 3))
    multi_goodbag.append(np.random.randint(0, 3))
    multi_prod.append(np.random.randint(0, 3))
    

In [43]:
df_pedidos['mono_goodbag'] = mono_goodbag
df_pedidos['multi_goodbag'] = multi_goodbag
df_pedidos['multi_prod'] = multi_prod

In [44]:
df_pedidos[(df_pedidos['mono_goodbag']==0) & (df_pedidos['multi_goodbag']==0) & (df_pedidos['multi_prod']==0)]

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay,cupon,coins,id_tienda,mono_goodbag,multi_goodbag,multi_prod


In [45]:
df_user[df_user['n_pedidos']==0]

Unnamed: 0,id_user,fecha_ing,n_pedidos
359,360,2022-01-03,0
425,426,2022-01-03,0
511,512,2022-01-04,0
648,649,2022-01-04,0
825,826,2022-01-05,0
...,...,...,...
6796,6797,2022-05-18,0
6947,6948,2022-05-27,0
7009,7010,2022-06-01,0
7351,7352,2022-06-20,0


In [46]:
df_pedidos.sort_values(by='fecha_ped', inplace = True)

In [47]:
df_pedidos.reset_index(drop=True)

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay,cupon,coins,id_tienda,mono_goodbag,multi_goodbag,multi_prod
0,2022-01-01 00:58:14,31,6,4,1,0,0.0,0,3,1,2,0
1,2022-01-01 01:17:10,132,17,2,1,0,0.0,0,11,2,1,0
2,2022-01-01 01:45:55,123,10,3,3,1,0.0,0,42,1,1,0
3,2022-01-01 02:29:21,11,2,1,2,0,0.0,0,42,1,1,0
4,2022-01-01 02:41:51,154,7,8,1,0,0.0,0,44,2,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
445746,2022-06-29 23:59:11,2118,7,4,2,0,0.0,0,6,1,1,0
445747,2022-06-29 23:59:22,7438,9,5,3,1,0.0,0,38,2,1,1
445748,2022-06-29 23:59:32,7321,1,4,2,0,0.0,0,17,2,0,1
445749,2022-06-29 23:59:34,7453,7,1,3,1,0.0,0,9,1,1,2


In [48]:
df_pedidos['fecha_ped']=df_pedidos['fecha_ped'].dt.date

In [49]:
df_pedidos.reset_index(inplace=True, drop=True)

In [50]:
df_pedidos.head()

Unnamed: 0,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay,cupon,coins,id_tienda,mono_goodbag,multi_goodbag,multi_prod
0,2022-01-01,31,6,4,1,0,0.0,0,3,1,2,0
1,2022-01-01,132,17,2,1,0,0.0,0,11,2,1,0
2,2022-01-01,123,10,3,3,1,0.0,0,42,1,1,0
3,2022-01-01,11,2,1,2,0,0.0,0,42,1,1,0
4,2022-01-01,154,7,8,1,0,0.0,0,44,2,0,0


In [51]:
len(df_pedidos)
a=np.arange(1,len(df_pedidos)+1)
df_pedidos.insert(0,'id_pedidos', a)

In [52]:
df_tienda = pd.DataFrame() #por simplicidad se considerarán 50 tiendas

In [53]:
a=np.arange(1,51,1)
df_tienda.insert(0,'id_tienda',a)

In [54]:
df_tienda['mono_goodbag_price'] = np.random.randint(10, 25, 50)
df_tienda['multi_goodbag_price'] = np.random.randint(20, 30, 50)
df_tienda['multi_product_price'] = np.random.randint(25, 45, 50)

In [55]:
df_tienda.head()

Unnamed: 0,id_tienda,mono_goodbag_price,multi_goodbag_price,multi_product_price
0,1,20,20,30
1,2,13,28,44
2,3,24,28,40
3,4,23,27,41
4,5,18,23,43


In [56]:
df_delivery = pd.DataFrame() #por simplicidad se considerarán 20 repartidores

In [57]:
# guardamos los nombres y apellidos de los delivery. El id_delivery = 1 corresponde a retiro en tienda
df_delivery['nombre_delivery'] = ['No aplica','Andres','Pablo','Mario','Camila','Pepe','Andrea','Sofia','Carlos','Felipe','Sebastian',
                                  'Luis','Patricio','Fabian','Maria','Felipe','Carlos','Carlos','Luis','Jose']

                                  
df_delivery['apellido_delivery'] = ['No aplica','Perez','Gatica','Munizaga','Villa','Contreras','Villagra','Bravo','Sanchez','Perez',
                                   'Carrillo','Sepulveda','Andrade','Molina','Caceres','Vasquez','Ventura','Gonzalez','Rodriguez','Valdivia']                               



In [58]:
# creamos id de delivery y lo guardamos en columna
a=np.arange(1,21,1)
df_delivery.insert(0,'id_delivery',a)

In [59]:
# consultamos tamaños de cada tabla
df_user.shape

(7500, 3)

In [60]:
df_pedidos.shape

(445751, 13)

In [61]:
df_tienda.shape

(50, 4)

In [62]:
df_delivery.shape

(20, 3)

In [63]:
# guardamos las tablas en archivos csv
df_user.to_csv('users.csv', index = False)
df_pedidos.to_csv('pedidos.csv', index = False)
df_tienda.to_csv('tienda.csv', index = False)
df_delivery.to_csv('delivery.csv', index = False)

In [64]:
df_delivery.head()

Unnamed: 0,id_delivery,nombre_delivery,apellido_delivery
0,1,No aplica,No aplica
1,2,Andres,Perez
2,3,Pablo,Gatica
3,4,Mario,Munizaga
4,5,Camila,Villa


In [65]:
df_user.head()

Unnamed: 0,id_user,fecha_ing,n_pedidos
0,1,2022-01-01,17
1,2,2022-01-01,101
2,3,2022-01-01,12
3,4,2022-01-01,93
4,5,2022-01-01,79


In [66]:
df_pedidos.head()


Unnamed: 0,id_pedidos,fecha_ped,id_user,id_delivery,precio_delivery,tipo_pago,confirmacion_webpay,cupon,coins,id_tienda,mono_goodbag,multi_goodbag,multi_prod
0,1,2022-01-01,31,6,4,1,0,0.0,0,3,1,2,0
1,2,2022-01-01,132,17,2,1,0,0.0,0,11,2,1,0
2,3,2022-01-01,123,10,3,3,1,0.0,0,42,1,1,0
3,4,2022-01-01,11,2,1,2,0,0.0,0,42,1,1,0
4,5,2022-01-01,154,7,8,1,0,0.0,0,44,2,0,0


In [68]:
df_user

Unnamed: 0,id_user,fecha_ing,n_pedidos
0,1,2022-01-01,17
1,2,2022-01-01,101
2,3,2022-01-01,12
3,4,2022-01-01,93
4,5,2022-01-01,79
...,...,...,...
7495,7496,2022-06-29,28
7496,7497,2022-06-29,37
7497,7498,2022-06-29,16
7498,7499,2022-06-29,74
