In [2]:
import pandas as pd
from itertools import product

# Carregar Dados

In [3]:
df_venda = pd.read_csv('../data/raw/tb_vendas.csv')
df_venda['dt_venda'] = pd.to_datetime(df_venda['dt_venda'])
df_venda.rename(columns={"cod_material": "cod_produto"}, inplace=True)

In [5]:
df_vendas_agrupado = (
    df_venda.groupby(['dt_venda', 'key_loja', 'cod_produto'], as_index=False)
     .agg(qtd_vendas=('vlr_venda_tabelado', 'count'),
     vlr_venda_tabelado_mean=('vlr_venda_tabelado', 'mean'),
     vlr_desconto_mean=('vlr_desconto', 'mean'))
    )

df_categorias = df_venda.groupby(['key_loja', 'cod_produto'], as_index=False).agg({'categoria_produto':'first',
                                                                    'sub_categoria_produto':'first',
                                                                    'linha_produto':'first'})

In [6]:
df_vendas_consolidado = df_vendas_agrupado.merge(df_categorias, on=['cod_produto', 'key_loja'], how='left')
df_vendas_consolidado.to_csv('../data/processed/df_vendas_consolidado.csv', index=False)

In [7]:
df_estoque = pd.read_csv('../data/raw/tb_estoques.csv')
df_estoque['dt_estoque'] = pd.to_datetime(df_estoque['dt_estoque'])
df_estoque.head()

Unnamed: 0,key_loja,cod_produto,dt_estoque,qt_estoque
0,1,1428,2024-03-18,108
1,1,1428,2024-12-13,24
2,1,1428,2024-07-30,33
3,1,1428,2024-07-22,34
4,1,1428,2024-07-29,34


In [8]:
df_estoque.shape

(260966, 4)

In [9]:
df_estoque_corrigido = pd.merge(df_estoque, df_vendas_consolidado, left_on=['cod_produto', 'key_loja', 'dt_estoque'],
                                right_on=['cod_produto', 'key_loja', 'dt_venda'], how='left')

In [10]:
df_estoque_corrigido[(df_estoque_corrigido['qt_estoque']==0)&(~df_estoque_corrigido['dt_venda'].isnull())]

Unnamed: 0,key_loja,cod_produto,dt_estoque,qt_estoque,dt_venda,qtd_vendas,vlr_venda_tabelado_mean,vlr_desconto_mean,categoria_produto,sub_categoria_produto,linha_produto
1795,1,25472,2024-11-16,0,2024-11-16,1.0,899.4,264.60,157293.0,483679.0,284036.0
1806,1,25472,2024-02-19,0,2024-02-19,1.0,419.7,75.00,157293.0,483679.0,284036.0
1816,1,25472,2024-11-07,0,2024-11-07,2.0,449.7,89.97,157293.0,483679.0,284036.0
1820,1,25472,2024-01-31,0,2024-01-31,2.0,419.7,75.00,157293.0,483679.0,284036.0
1829,1,25472,2024-10-23,0,2024-10-23,1.0,449.7,0.00,157293.0,483679.0,284036.0
...,...,...,...,...,...,...,...,...,...,...,...
260768,8,84206,2024-09-26,0,2024-09-26,1.0,209.7,42.00,217.0,422944.0,390554.0
260796,8,84206,2024-08-08,0,2024-08-08,1.0,209.7,0.00,217.0,422944.0,390554.0
260805,8,84206,2024-08-12,0,2024-08-12,1.0,209.7,0.00,217.0,422944.0,390554.0
260809,8,84206,2024-09-04,0,2024-09-04,1.0,209.7,0.00,217.0,422944.0,390554.0


In [11]:
df_estoque_corrigido.loc[(df_estoque_corrigido['qt_estoque'] == 0)&(~df_estoque_corrigido['dt_venda'].isnull()), 'qt_estoque'] = df_estoque_corrigido.loc[(df_estoque_corrigido['qt_estoque'] == 0)&(~df_estoque_corrigido['dt_venda'].isnull())]['qtd_vendas']

In [13]:
df_estoque_corrigido[(df_estoque_corrigido['qt_estoque']==0)&(~df_estoque_corrigido['dt_venda'].isnull())]

Unnamed: 0,key_loja,cod_produto,dt_estoque,qt_estoque,dt_venda,qtd_vendas,vlr_venda_tabelado_mean,vlr_desconto_mean,categoria_produto,sub_categoria_produto,linha_produto


# Base de Ruptura

In [14]:
df_estoque_corrigido['dt_estoque'] = pd.to_datetime(df_estoque_corrigido['dt_estoque'])

primeira_data_estoque = (
     df_estoque_corrigido
    .groupby(['key_loja', 'cod_produto'])['dt_estoque']
    .min()
    .reset_index()
    .rename(columns={'dt_estoque': 'primeira_data'})
)

primeira_data_estoque

Unnamed: 0,key_loja,cod_produto,primeira_data
0,1,1428,2024-01-01
1,1,1640,2024-01-01
2,1,1650,2024-01-01
3,1,22230,2024-01-01
4,1,24499,2024-01-01
...,...,...,...
826,8,84068,2024-01-01
827,8,84203,2024-01-01
828,8,84204,2024-01-01
829,8,84206,2024-01-01


In [15]:
primeira_data_estoque['primeira_data'].value_counts()

primeira_data
2024-01-01    693
2024-06-04    101
2024-02-25     14
2024-07-01      8
2024-08-17      8
2024-09-12      7
Name: count, dtype: int64

## Criando Grade de Loja + Produto + Dt Estoque

- Pego os valores unicos de produtos e lojas
- Gero uma lista de de datas desde a menor data que tenho até a maior para garantir que vamos ter todas as datas na nossa grade

In [16]:
produtos = df_estoque_corrigido['cod_produto'].unique()
lojas = df_estoque_corrigido['key_loja'].unique()
datas = pd.date_range(start=df_estoque_corrigido['dt_estoque'].min(), end=df_estoque_corrigido['dt_estoque'].max())

grade = pd.DataFrame(product(lojas, produtos, datas), columns=['key_loja', 'cod_produto', 'dt_estoque'])

grade = grade.merge(primeira_data_estoque, on=['key_loja', 'cod_produto'], how='left')
grade = grade[grade['dt_estoque'] >= grade['primeira_data']]
grade_estoque = grade.merge(df_estoque_corrigido, on=['key_loja', 'cod_produto', 'dt_estoque'], how='left')
grade_estoque

Unnamed: 0,key_loja,cod_produto,dt_estoque,primeira_data,qt_estoque,dt_venda,qtd_vendas,vlr_venda_tabelado_mean,vlr_desconto_mean,categoria_produto,sub_categoria_produto,linha_produto
0,1,1428,2024-01-01,2024-01-01,108.0,NaT,,,,,,
1,1,1428,2024-01-02,2024-01-01,108.0,NaT,,,,,,
2,1,1428,2024-01-03,2024-01-01,108.0,NaT,,,,,,
3,1,1428,2024-01-04,2024-01-01,108.0,NaT,,,,,,
4,1,1428,2024-01-05,2024-01-01,108.0,2024-01-05,2.0,230.7,48.0,217.0,422944.0,731659.0
...,...,...,...,...,...,...,...,...,...,...,...,...
282643,8,85124,2024-12-27,2024-08-17,0.0,NaT,,,,,,
282644,8,85124,2024-12-28,2024-08-17,0.0,NaT,,,,,,
282645,8,85124,2024-12-29,2024-08-17,0.0,NaT,,,,,,
282646,8,85124,2024-12-30,2024-08-17,0.0,NaT,,,,,,


In [17]:
produtos.shape, lojas.shape

((104,), (8,))

In [18]:
grade_estoque = grade_estoque[['key_loja', 'cod_produto', 'dt_estoque', 'qt_estoque']]

In [19]:
grade_estoque[grade_estoque['qt_estoque'].isnull()]

Unnamed: 0,key_loja,cod_produto,dt_estoque,qt_estoque
1255,1,22230,2024-06-06,
1256,1,22230,2024-06-07,
1257,1,22230,2024-06-08,
1258,1,22230,2024-06-09,
1259,1,22230,2024-06-10,
...,...,...,...,...
281289,8,84068,2024-08-30,
281290,8,84068,2024-08-31,
281291,8,84068,2024-09-01,
281292,8,84068,2024-09-02,


In [20]:
grade_estoque['is_ruptura'] = grade_estoque['qt_estoque'].isna() | (grade_estoque['qt_estoque'] == 0)
grade_estoque['is_ruptura'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  grade_estoque['is_ruptura'] = grade_estoque['qt_estoque'].isna() | (grade_estoque['qt_estoque'] == 0)


is_ruptura
False    172821
True     109827
Name: count, dtype: int64

In [23]:
grade_estoque

Unnamed: 0,key_loja,cod_produto,dt_estoque,qt_estoque,is_ruptura
0,1,1428,2024-01-01,108.0,False
1,1,1428,2024-01-02,108.0,False
2,1,1428,2024-01-03,108.0,False
3,1,1428,2024-01-04,108.0,False
4,1,1428,2024-01-05,108.0,False
...,...,...,...,...,...
282643,8,85124,2024-12-27,0.0,True
282644,8,85124,2024-12-28,0.0,True
282645,8,85124,2024-12-29,0.0,True
282646,8,85124,2024-12-30,0.0,True


In [21]:
grade_estoque['is_ruptura'].value_counts(normalize=True)

is_ruptura
False    0.611435
True     0.388565
Name: proportion, dtype: float64

In [26]:
grade_estoque.to_csv('../data/processed/dados_estoque_ruptura.csv', index=False)