# Creación de datos falsos

Para evaluar si mi código es correcto, voy a inventarme unos cuantos datos que pueda guardar en una base de datos de postgresql y a los que pueda llamar después para aplicárselo.

Importo las librerías que voy a necesitar:

In [48]:
import numpy as np
import pandas as pd
import random as rd
import string as st
from datetime import datetime
from datetime import timedelta
import itertools
from sqlalchemy import create_engine

Como serán pocos y su estructura es sencilla, no crearé un fichero aparte con funciones como haría normalmente. Definiré las dos que voy a utilizar a continuación.

In [49]:
# Primero una función que me devuelva una string con la fecha hace cierto número de días, en un formato compatible
# con el 'date' de postgresql:

def date_ago(days):
    return str((datetime.now() - timedelta(days)).date())

# Ahora una función que me genere códigos similares a los que equivaldrían a números de pedido o nombres,
# y me los de en formato string:

def random_code_generator(letters, digits):
    l = ''.join([rd.choice(st.ascii_uppercase) for i in range(letters)]) # letras
    n = ''.join([rd.choice(st.digits) for i in range(digits)]) # números
    return l + n

# Pruebo a ver si funcionan:

date_ago(0), random_code_generator(3,6)

('2023-11-15', 'ALT643881')

In [50]:
# Genial! Ahora definiré variables generales. Crearé datos para 20 productos diferentes, 
# con su stock anotado en los últimos 180 días, 1000 pedidos y 2000 líneas de pedido:

n_prod = 20
days = 180
n_orders = 1000
n_lines = 2000

n_prod, days, n_orders, n_lines

(20, 60, 1000, 2000)

# Construcción de los distintos dataframes: Tabla product_product

En la de los productos, usaré la función definida arriba para asignar un código aleatorio a cada uno.

In [56]:
product_product = pd.DataFrame(data = {
    'id': [i for i in range(1, n_prod + 1)], 
    'default_code': [random_code_generator(2,3) for i in range(1, n_prod + 1)]
})

product_product.head()

Unnamed: 0,id,default_code
0,1,YA146
1,2,OF243
2,3,MJ424
3,4,OB622
4,5,UI454


# Tabla stock_history

En el dataframe de stock, crearé registros para los últimos 180 días por cada producto, así que el dataframe tendrá days*n_prod filas.

+ La columna del id no es muy importante y basta con que sea un entero. Lo pondré desde 500 para no confundirlo con el product_id, pero a efectos prácticos da igual.

+ La columna de product_id será la de los ids de los productos repetida para cada uno de los días en que haya registro de stock. Será una foreign key en la base de datos.

+ Para la columna de cantidades utilizaré un random choice que elija cada vez entre 4 números enteros aleatorios entre 1 y 200, y 0 (por ejemplo, entre [4,76,27,1,0]). Así me aseguro de que aproximadamente un quinto de los registros de stock sean nulos, para poder observar un efecto grande cuando los filtre.

+ Por último, en la columna de fechas tendrá que repetirse el mismo valor para cada secuencia de ids del producto, ya que cada día se registra el stock de todos ellos. Utilizo intertools.chain para encadenarlas y voy creando los registros de hoy hacia atrás.

In [55]:
n_stock = days*n_prod

stock_history = pd.DataFrame(data = {
    'id': [i for i in range(500, 500 + n_stock)],
    'product_id': [i for i in range(1, n_prod + 1)]*days,
    'quantity': [rd.choice([rd.randint(1,200)]*4+[0]) for i in range(n_stock)],
    'date': list(itertools.chain(*[[date_ago(i)]*n_prod for i in range(days)]))
})

stock_history

Unnamed: 0,id,product_id,quantity,date
0,500,1,22,2023-11-15
1,501,2,160,2023-11-15
2,502,3,17,2023-11-15
3,503,4,0,2023-11-15
4,504,5,197,2023-11-15
...,...,...,...,...
1195,1695,16,179,2023-09-17
1196,1696,17,140,2023-09-17
1197,1697,18,123,2023-09-17
1198,1698,19,10,2023-09-17


# Tabla res_partner

Esta es la tabla menos importante para el cálculo que se me pide, así que pondré cinco ejemplos y listo.

In [57]:
res_partner = pd.DataFrame(data = {
    'id': [i for i in range(1, 6)],
    'name': ['Sarah Williams', 'Mike Z.', 'ASICS Alcala', 'Stardust S.L.', 'Rick Sanchez']
})

res_partner

Unnamed: 0,id,name
0,1,Sarah Williams
1,2,Mike Z.
2,3,ASICS Alcala
3,4,Stardust S.L.
4,5,Rick Sanchez


# Tabla sale_order

Esta tabla tendrá n_orders = 1000 filas, como decidí anteriormente.

+ El id lo empezaré en 2512 para simular que pudiera haber registros antiguos/borrados.
+ Usaré la función de antes para crear códigos de números y letras aleatorios para los nombres.
+ Asignaré uno de los ids de cliente a cada pedido aleatoriamente. Será una foreign key en la base de datos.
+ La fecha será una de las fechas en que hay registro de stock, seleccionada aleatoriamente también.
+ El estado no voy a utilizarlo en el cálculo, así que dejo una string genérica 'unknown'

In [59]:
sale_order = pd.DataFrame(data = {
    'id': [i + 1 for i in range(2512, 2512 + n_orders)],
    'name': [random_code_generator(5,1) for i in range(n_orders)],
    'partner_id': [rd.choice(res_partner.id) for i in range(n_orders)],
    'date': [rd.choice(stock_history.date) for i in range(n_orders)],
    'state': 'unknown'
})

sale_order.head()

Unnamed: 0,id,name,partner_id,date,state
0,2513,XYUDP7,4,2023-10-05,unknown
1,2514,OGHXN4,4,2023-10-13,unknown
2,2515,KIAFA7,2,2023-11-06,unknown
3,2516,QOOPJ0,5,2023-09-20,unknown
4,2517,QANNF4,3,2023-11-15,unknown


# Tabla sale_order_line

Esta es una de las tablas más importantes que será el núcleo de los joins/groupbys que haga luego. Recoge información de todas las veces que se ha pedido un producto, y es más completa que la anterior porque en un mismo pedido puede haber varios productos involucrados.

+ Empiezo el id en un entero grande, en este caso 8450.
+ El product_id será una elección aleatoria de los disponibles. Será una foreign key en la base de datos.
+ La descripción no es relevante, dejo 'unknown'.
+ Para la cantidad pedida en cada caso, escojo un entero aleatorio entre 1 y 50.
+ Para el descuento escojo entre 0 (repetido para que sea más probable) y otros valores típicos.
+ El precio de cada unidad y el precio total los calculo luego.
+ El order_id será una foreign key en la base de datos. Elijo aleatoriamente entre los id posibles de la otra tabla.
+ El estado, de nuevo, no es importante.

In [61]:
sale_order_line = pd.DataFrame(data = {
    'id': [i for i in range(8450, 8450 + n_lines)],
    'product_id': [rd.choice(product_product.id) for i in range(n_lines)],
    'description': ['unknown' for i in range(n_lines)],
    'product_uom_qty': [rd.randint(1,50) for i in range(n_lines)],
    'discount': [rd.choice([0,0,0,0,0,0,5,8,12,20,20,25,50]) for i in range(n_lines)],
    'price_unit': 0,
    'price_subtotal': 0,
    'order_id': [rd.choice(sale_order.id) for i in range(n_lines)],
    'state': 'unknown'
})

# El precio de cada unidad debería ser diferente para cada producto. Por no complicarme, multiplico el id del
# producto por 0.55 y lo dejo estar:

sale_order_line['price_unit'] = sale_order_line['product_id']*0.55

# El precio total de cada registro será el producto entre las unidades pedidas y el precio por unidad, con 
# el descuento aplicado:

sale_order_line['price_subtotal'] = sale_order_line.price_unit*sale_order_line.product_uom_qty*(1 - sale_order_line.discount/100)

sale_order_line.head()

Unnamed: 0,id,product_id,description,product_uom_qty,discount,price_unit,price_subtotal,order_id,state
0,8450,17,unknown,38,20,9.35,284.24,3225,unknown
1,8451,8,unknown,19,0,4.4,83.6,2692,unknown
2,8452,17,unknown,2,0,9.35,18.7,2937,unknown
3,8453,19,unknown,33,5,10.45,327.6075,3007,unknown
4,8454,1,unknown,4,0,0.55,2.2,3000,unknown


# Guardado de datos y carga en postgresql

Para terminar, guardo los dataframes en csv para poder tratarlos desde pyhton. Por abordar el tema de la base de datos, los cargo también en una que ya he creado localmente en posgresql y en la que definiré a mano las relaciones. 

Para ello construyo la conexión con sqlalchemy y create_engine.

In [62]:
# Dejo la estructura y quito las credenciales privadas:

# engine = create_engine('postgresql://user:password@localhost:000/v_tech')

Con este código se cargarían las tablas, sustituyéndolas si ya existen para evitar errores:

In [63]:
# product_product.to_sql('product_product', engine, if_exists='replace', index = False)
# sale_order.to_sql('sale_order', engine, if_exists='replace', index = False)
# res_partner.to_sql('res_partner', engine, if_exists='replace', index = False)
# stock_history.to_sql('stock_history', engine, if_exists='replace', index = False)
# sale_order_line.to_sql('sale_order_line', engine, if_exists='replace', index = False)

Guardo los datos en csv:

In [46]:
# product_product.to_csv('../test_data/product_product', index = False)
# sale_order.to_csv('../test_data/sale_order', index = False)
# res_partner.to_csv('../test_data/res_partner', index = False)
# stock_history.to_csv('../test_data/stock_history', index = False)
# sale_order_line.to_csv('../test_data/sale_order_line', index = False)