# Cálculo de la media diaria de ventas para cada producto

Importo los datos de la base de datos, en este caso los falsos que yo he creado para comprobar.
Para eso utilizo de nuevo sqlalchemy y creo la conexión con postgresql.

In [16]:
from sqlalchemy import create_engine
import pandas as pd

In [17]:
# De nuevo, dejo la estructura y quito las credenciales privadas:

# engine = create_engine('postgresql://user:password@localhost:000/v_tech')

# product_product = pd.read_sql_query('SELECT * FROM product_product', con = engine)
# sale_order = pd.read_sql_query('SELECT * FROM sale_order', con = engine)
# res_partner = pd.read_sql_query('SELECT * FROM res_partner', con = engine)
# stock_history = pd.read_sql_query('SELECT * FROM stock_history', con = engine)
# sale_order_line = pd.read_sql_query('SELECT * FROM sale_order_line', con = engine)

Como alternativa importo los dataframes desde los csv que guardé antes:

In [30]:
product_product = pd.read_csv('product_product')
sale_order = pd.read_csv('sale_order')
res_partner = pd.read_csv('res_partner')
stock_history = pd.read_csv('stock_history')
sale_order_line = pd.read_csv('sale_order_line')

Compruebo que todas las tablas están bien:

In [31]:
product_product.head()

Unnamed: 0,id,default_code
0,1,BC558
1,2,EC518
2,3,XE496
3,4,KR488
4,5,YM922


In [32]:
sale_order.head()

Unnamed: 0,id,name,partner_id,date,state
0,2513,JFUEF8,5,2023-09-12,unknown
1,2514,PPHKF5,5,2023-08-08,unknown
2,2515,YFQCF0,1,2023-08-12,unknown
3,2516,EIZXB2,4,2023-06-07,unknown
4,2517,GPEUK2,2,2023-09-15,unknown


In [33]:
res_partner.head()

Unnamed: 0,id,name
0,1,Sarah Williams
1,2,Mike Z.
2,3,ASICS Alcala
3,4,Stardust S.L.
4,5,Rick Sanchez


In [34]:
stock_history.head()

Unnamed: 0,id,product_id,quantity,date
0,500,1,0,2023-11-15
1,501,2,96,2023-11-15
2,502,3,160,2023-11-15
3,503,4,27,2023-11-15
4,504,5,116,2023-11-15


In [35]:
sale_order_line.head()

Unnamed: 0,id,product_id,description,product_uom_qty,discount,price_unit,price_subtotal,order_id,state
0,8450,1,unknown,9,0,0.55,4.95,2914,unknown
1,8451,2,unknown,1,5,1.1,1.045,2932,unknown
2,8452,1,unknown,21,50,0.55,5.775,3488,unknown
3,8453,9,unknown,41,12,4.95,178.596,3386,unknown
4,8454,9,unknown,8,20,4.95,31.68,3209,unknown


# Solución con dataframes

Como solo se realizan ventas los días que hay stock de producto, añadiré una columna con dichas fechas a la tabla de líneas de pedido para identificar en qué momento se hizo cada uno:

In [36]:
sale_order_line['date'] = [sale_order[sale_order.id == i]['date'].iloc[0] for i in sale_order_line.order_id]

sale_order_line.head()

Unnamed: 0,id,product_id,description,product_uom_qty,discount,price_unit,price_subtotal,order_id,state,date
0,8450,1,unknown,9,0,0.55,4.95,2914,unknown,2023-09-09
1,8451,2,unknown,1,5,1.1,1.045,2932,unknown,2023-10-01
2,8452,1,unknown,21,50,0.55,5.775,3488,unknown,2023-07-09
3,8453,9,unknown,41,12,4.95,178.596,3386,unknown,2023-06-19
4,8454,9,unknown,8,20,4.95,31.68,3209,unknown,2023-11-01


Añado también una columna con un proxy, un código que me permita identificar si en esa fecha había stock de ese producto y por lo tanto si el pedido va a ser considerado en el cálculo. Para ello, defino una función que me permitirá checkear si el producto con id 'p_id' está disponible en la fecha 'd', esto es, si hay stock de ese producto en dicha fecha. 

Esta función me devolverá un 1 si está disponible y un  0 si no lo está.

In [37]:
# Pongo por defecto el dataframe de stock como entrada:

def check_date(p_id, d, df = stock_history):
    
    try:
        # Localizo el registro con la fecha y el producto en cuestión:
        stock = df[(df.date == d) & (df.product_id == p_id)].quantity.iloc[0]
        
        if stock > 0:
            return 1
        else:
            return 0
        
    except:
        # Por si acaso esa fecha no está en el registro:
        print('The date introduced is not in the historical stock records.')
        
    
# Comprobamos que funciona:

check_date(1,'2023-09-01'), check_date(1,'2023-09-10') 

(0, 1)

Si quisiéramos ir un paso más allá podríamos pedir que devolviera simplemente la cantidad, porque si el stock es menor que las unidades de producto pedidas tampoco se podría realizar ninguna venta, o sólo se podría realizar uno de varios pedidos sobre el mismo producto. 

Por simplicidad me restrinjo a las condiciones literales del enunciado, habrá venta si el stock es estrictamente mayor que 0 y asumo que en condiciones reales sería lo suficientemente grande.

In [38]:
# Con la función evalúo si cada valor de fecha está en el subset de fechas en que había stock del producto
# en cuestión y añado una columna que lo indique:

sale_order_line['available'] = [check_date(i,j) for i,j in zip(sale_order_line.product_id, sale_order_line.date)]

sale_order_line.head()

Unnamed: 0,id,product_id,description,product_uom_qty,discount,price_unit,price_subtotal,order_id,state,date,available
0,8450,1,unknown,9,0,0.55,4.95,2914,unknown,2023-09-09,1
1,8451,2,unknown,1,5,1.1,1.045,2932,unknown,2023-10-01,1
2,8452,1,unknown,21,50,0.55,5.775,3488,unknown,2023-07-09,1
3,8453,9,unknown,41,12,4.95,178.596,3386,unknown,2023-06-19,1
4,8454,9,unknown,8,20,4.95,31.68,3209,unknown,2023-11-01,1


In [39]:
# Ahora me quedo con el subset del dataframe que necesito, los pedidos en que había stock disponible con sus 
# columnas relevantes:

clean_data = sale_order_line[sale_order_line.available == 1][[
    'product_id',
    'product_uom_qty',
    'price_subtotal',
    'date'
]].sort_values(by = 'product_id')

clean_data.head()

Unnamed: 0,product_id,product_uom_qty,price_subtotal,date
0,1,9,4.95,2023-09-09
510,1,23,11.132,2023-09-17
516,1,20,11.0,2023-08-24
546,1,42,23.1,2023-06-25
571,1,10,4.84,2023-06-11


In [40]:
# Agrupo por product_id y por fecha, para sumar aquellos pedidos que hayan sido realizados el mismo día 
# para el mismo producto pero por diferentes clientes:

clean_data = clean_data.groupby(['product_id', 'date']).sum().reset_index()

clean_data.head()

Unnamed: 0,product_id,date,product_uom_qty,price_subtotal
0,1,2023-05-21,14,6.16
1,1,2023-05-24,30,15.675
2,1,2023-05-30,13,5.72
3,1,2023-06-03,36,14.85
4,1,2023-06-07,50,27.5


Para hacer la media nos preocupan solo los últimos 60 días (o menos) de stock, así que antes de volver a agrupar necesitamos quedarnos solo con los primeros 60 registros de cada product_id.

In [41]:
# Para ello ordenamos por fechas para que las de más arriba sean las más recientes:

clean_data = clean_data.sort_values(by = 'date', ascending = False)

# Y utilizo group_by con la función head() que limite el número de registros a los 60 primeros o menos para cada
# producto:

clean_data = clean_data.groupby('product_id').head(60).sort_values(by = 'product_id')

clean_data.head()

Unnamed: 0,product_id,date,product_uom_qty,price_subtotal
0,1,2023-05-21,14,6.16
28,1,2023-09-05,7,3.08
4,1,2023-06-07,50,27.5
9,1,2023-06-20,22,11.495
5,1,2023-06-08,45,19.8


In [42]:
# Ya podemos hacer el groupby final y calcular las medias:

average_values = clean_data.groupby('product_id').mean('nummeric_only')[['product_uom_qty','price_subtotal']]

average_values

Unnamed: 0_level_0,product_uom_qty,price_subtotal
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,35.910714,17.778357
2,32.933333,32.3818
3,31.839286,47.705625
4,41.85,82.027
5,40.583333,96.420958
6,30.509434,89.982283
7,30.9,108.620692
8,33.1,125.9896
9,34.116667,145.512675
10,29.327586,142.080172


# Solución con una query de postgresql

Se puede hacer lo mismo utilizando sqlalchemy para mandar una query a la base de datos. He construido la query de dentro hacia afuera, creando tablas temporales (las que están entre paréntesis, que suelo llamar 'patata' y similares) que siguen un procedimiento de agrupaciones similar al que he explicado arriba con los dataframes.

Asumiendo que se trabaja con postgresql:

In [43]:
query = '''

SELECT 

product_id,
AVG(total_product_qty_day) as av_product_qty,
AVG(total_product_money_day) as av_product_money

FROM

(SELECT 
 
patata.product_id, 
sum(product_uom_qty) as total_product_qty_day, 
sum(price_subtotal) as total_product_money_day, 
patata.date,
ROW_NUMBER() OVER (PARTITION BY patata.product_id) AS row_num
 
FROM
 
(SELECT 
 
 product_id, 
 product_uom_qty, 
 price_subtotal, 
 date 
 
 FROM 
 sale_order_line 
 LEFT JOIN 
 sale_order ON sale_order_line.order_id = sale_order.id) as patata
 LEFT JOIN
 stock_history ON patata.product_id = stock_history.product_id
 WHERE
    stock_history.date = patata.date
    AND stock_history.product_id = patata.product_id
    AND stock_history.quantity > 0
 GROUP BY patata.date, patata.product_id
 ORDER BY patata.product_id) as def_table
 
 
 WHERE
    def_table.row_num <= 60
    
GROUP BY product_id;

'''

solution_with_postgresql = pd.read_sql_query(query, con = engine)

solution_with_postgresql

Unnamed: 0,product_id,av_product_qty,av_product_money
0,1,35.910714,17.778357
1,2,33.216667,32.225233
2,3,31.839286,47.705625
3,4,40.866667,80.155167
4,5,40.883333,96.304542
5,6,30.509434,89.982283
6,7,30.9,108.620692
7,8,33.233333,126.4296
8,9,32.333333,140.132025
9,10,29.327586,142.080172
