# Biblitecas

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import numpy as np

# Olist

In [2]:
# Carregar os datasets
order_items = pd.read_csv('Olist/olist_order_items_dataset.csv')  # Dados de itens pedidos
orders = pd.read_csv('Olist/olist_orders_dataset.csv')           # Dados dos pedidos
sellers = pd.read_csv('Olist/olist_sellers_dataset.csv')         # Dados das lojas/vendedores

# Mesclar as tabelas para obter informações completas
# 1. Mesclar os itens dos pedidos com os pedidos (para pegar a data)
order_items = order_items.merge(orders, on='order_id', how='left')

# 2. Mesclar com os vendedores (para pegar a loja/vendedor)
order_items = order_items.merge(sellers, on='seller_id', how='left')

# Criar o DataFrame tratado
# Selecionar os campos necessários
df_tratado = order_items[['product_id', 'seller_id', 'order_purchase_timestamp']]

# Renomear as colunas para os nomes desejados
df_tratado.rename(columns={
    'product_id': 'item',
    'seller_id': 'loja',
    'order_purchase_timestamp': 'data'
}, inplace=True)

# Adicionar a quantidade de vendas (considerando cada linha como uma venda)
df_tratado['quantidade_vendas'] = 1

# Converter a coluna de data para o formato datetime (caso ainda não esteja)
df_tratado['data'] = pd.to_datetime(df_tratado['data']).dt.date

# Agrupar por item, loja e data, somando a quantidade de vendas
df_resultado = df_tratado.groupby(['item', 'loja', 'data'], as_index=False).sum()

# Exibir o DataFrame final
display(df_resultado)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado.rename(columns={
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado['quantidade_vendas'] = 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado['data'] = pd.to_datetime(df_tratado['data']).dt.date


Unnamed: 0,item,loja,data,quantidade_vendas
0,00066f42aeeb9f3007548bb9d3f33c38,5670f4db5b62c43d542e1b2d56b0cf7c,2018-05-20,1
1,00088930e925c41fd95ebfe695fd2655,7142540dd4c91e2237acb7e911c4eba2,2017-12-12,1
2,0009406fd7479715e4bef61dd91f2462,4a3ca9315b744ce9f8e9374361493884,2017-12-21,1
3,000b8f95fcb9e0096488278317764d19,40ec8ab6cdafbcc4f544da38c67da39a,2018-08-01,1
4,000b8f95fcb9e0096488278317764d19,40ec8ab6cdafbcc4f544da38c67da39a,2018-08-10,1
...,...,...,...,...
94619,fffdb2d0ec8d6a61f0a0a0db3f25b441,9f505651f4a6abe901a56cdc21508025,2018-04-19,1
94620,fffdb2d0ec8d6a61f0a0a0db3f25b441,9f505651f4a6abe901a56cdc21508025,2018-05-01,1
94621,fffdb2d0ec8d6a61f0a0a0db3f25b441,9f505651f4a6abe901a56cdc21508025,2018-08-07,1
94622,fffdb2d0ec8d6a61f0a0a0db3f25b441,9f505651f4a6abe901a56cdc21508025,2018-08-10,1


In [3]:
df_resultado_sorted = df_resultado.sort_values(by=['loja', 'data'])
df_resultado_sorted

Unnamed: 0,item,loja,data,quantidade_vendas
60317,a2ff5a97bf95719e38ea2e3b4105bce8,0015a82c2db000af6aaaf3ae2ecb0532,2017-09-26,1
60318,a2ff5a97bf95719e38ea2e3b4105bce8,0015a82c2db000af6aaaf3ae2ecb0532,2017-10-12,1
60319,a2ff5a97bf95719e38ea2e3b4105bce8,0015a82c2db000af6aaaf3ae2ecb0532,2017-10-18,1
83608,e251ebd2858be1aa7d9b2087a6992580,001cca7ae9ae17fb1caed9dfb1094831,2017-02-04,1
83609,e251ebd2858be1aa7d9b2087a6992580,001cca7ae9ae17fb1caed9dfb1094831,2017-02-18,5
...,...,...,...,...
27104,47dbce97622eb7520b80d26ab613414e,ffff564a4f9085cd26170f4732393726,2017-03-16,1
72928,c5897f6f2d995196dbb40542439da9b9,ffff564a4f9085cd26170f4732393726,2017-03-24,1
73947,c7d75b3bafed2b1d9475c4876b1c46b8,ffff564a4f9085cd26170f4732393726,2017-03-25,1
10264,1b34988d6060d833cbe3bf2bdeeb67ab,ffff564a4f9085cd26170f4732393726,2017-03-29,1


In [4]:
df_resultado_sorted.loja.nunique()

3095

In [5]:
df_resultado_sorted.item.nunique()

32951

In [4]:
# Agrupar os dados por data, somando as vendas
vendas_por_data = df_resultado_sorted.groupby('data').agg({'quantidade_vendas': 'sum'}).reset_index()

# Criar a figura
fig_vendas_por_data = go.Figure()

# Adicionar os dados ao gráfico
fig_vendas_por_data.add_trace(go.Scatter(
    x=vendas_por_data['data'],
    y=vendas_por_data['quantidade_vendas'],
    mode='lines+markers',
    name='Vendas',
    line=dict(width=2),
    marker=dict(size=5)
))

# Atualizar o layout do gráfico
fig_vendas_por_data.update_layout(
    title='Vendas Totais por Data',
    xaxis_title='Data',
    yaxis_title='Quantidade de Vendas',
    template='plotly_white',
    hovermode='x unified',
    xaxis=dict(
        tickmode='auto',
        nticks=20
    ),
    yaxis=dict(
        tickformat=','
    )
)

# Mostrar o gráfico
fig_vendas_por_data.show()

In [5]:
df_resultado_sorted.rename(columns={'item': 'Produto', 'loja': 'Loja', 'data':'Data','quantidade_vendas':'Vendas'}, inplace=True)

In [6]:
# Converter a coluna 'Data' para o formato datetime
df_resultado_sorted['Data'] = pd.to_datetime(df_resultado_sorted['Data'])

# Agrupar os dados por semana, somando as vendas
df_resultado_semanal = df_resultado_sorted.set_index('Data').groupby([pd.Grouper(freq='W-Mon'), 'Produto', 'Loja']).agg({'Vendas': 'sum'}).reset_index().sort_values(by='Data')

# Exibir o DataFrame resultante
df_resultado_semanal

Unnamed: 0,Data,Produto,Loja,Vendas
0,2016-09-05,c1488892604e4ba5cff5b4eb4d595400,1554a68530182680ad5c8b042c3ab563,1
1,2016-09-05,f293394c72c9b5fafd7023301fc21fc2,1554a68530182680ad5c8b042c3ab563,1
2,2016-09-05,f3c2d01a84c947b078e32bbef0718962,a425f92c199eb576938df686728acd20,1
3,2016-09-19,5a6b04657a4c5ee34285d1e4619a96b4,ecccfa2bb93b34a3bf033cc5d1dcdc69,3
12,2016-10-03,fd7fd78fd3cbc1b0a6370a7909c0a629,f09b760d23495ac9a7e00d29b769007c,1
...,...,...,...,...
79518,2018-09-03,46737a24b6230ab90d6df497df0a2b43,ed4311e67debd72b8610a5347a743087,1
79519,2018-09-03,49d23d4887468040921b413a6d4f3ec7,8a432f4e5b471f8da497d7dc517666e2,1
79520,2018-09-03,59536eeb13a52ef81966f81b91fb481e,98dac6635aee4995d501a3972e047414,3
79522,2018-09-03,65bebe0ebbe0c371c9ad29d76801482c,6561d6bf844e464b4019442692b40e02,1


In [7]:
df_resultado_semanal = df_resultado_semanal[['Produto', 'Loja', 'Data', 'Vendas']]

In [8]:
# Encontrar a última data no DataFrame
ultima_data = df_resultado_semanal['Data'].max()

# Filtrar o DataFrame para remover a última semana
df_resultado_semanal = df_resultado_semanal[df_resultado_semanal['Data'] < ultima_data]

# Exibir o DataFrame resultante
df_resultado_semanal

Unnamed: 0,Produto,Loja,Data,Vendas
0,c1488892604e4ba5cff5b4eb4d595400,1554a68530182680ad5c8b042c3ab563,2016-09-05,1
1,f293394c72c9b5fafd7023301fc21fc2,1554a68530182680ad5c8b042c3ab563,2016-09-05,1
2,f3c2d01a84c947b078e32bbef0718962,a425f92c199eb576938df686728acd20,2016-09-05,1
3,5a6b04657a4c5ee34285d1e4619a96b4,ecccfa2bb93b34a3bf033cc5d1dcdc69,2016-09-19,3
12,fd7fd78fd3cbc1b0a6370a7909c0a629,f09b760d23495ac9a7e00d29b769007c,2016-10-03,1
...,...,...,...,...
78967,5b917c70d9b106d8056bdde61c9850e7,b561927807645834b59ef0d16ba55a24,2018-08-27,1
78968,5b95b27af12b245754e70df7e16d53e1,f44b6f775a2b390380e0e30b5c9d3eee,2018-08-27,1
78960,5aa0d6ed4e6c0995d62090cd82cde89a,ef728fa1f17436c91ed1ccd03dcf9631,2018-08-27,1
78969,5be202203d884803b74c45c7ff991706,6560211a19b47992c3666cc44a7e94c0,2018-08-27,1


In [9]:
df_resultado_semanal.to_parquet('Bases Tratadas/olist_item_loja_semana.parquet', index=False)

# M5

In [10]:
# Ler o arquivo CSV
m5_sales_data = pd.read_csv('M5/sales_train_evaluation.csv')

# Exibir as primeiras linhas do dataframe para verificar a leitura
display(m5_sales_data.head(10))

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,d_1,d_2,d_3,d_4,...,d_1932,d_1933,d_1934,d_1935,d_1936,d_1937,d_1938,d_1939,d_1940,d_1941
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,2,4,0,0,0,0,3,3,0,1
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,0,1,2,1,1,0,0,0,0,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,1,0,2,0,0,0,2,3,0,1
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,1,1,0,4,0,1,3,0,2,6
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,0,0,0,2,1,0,0,2,1,0
5,HOBBIES_1_006_CA_1_evaluation,HOBBIES_1_006,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,2,1,0,0,1,0,0,5,2,0
6,HOBBIES_1_007_CA_1_evaluation,HOBBIES_1_007,HOBBIES_1,HOBBIES,CA_1,CA,0,0,0,0,...,0,1,0,0,0,1,0,1,1,0
7,HOBBIES_1_008_CA_1_evaluation,HOBBIES_1_008,HOBBIES_1,HOBBIES,CA_1,CA,12,15,0,0,...,7,0,6,0,15,5,4,1,40,32
8,HOBBIES_1_009_CA_1_evaluation,HOBBIES_1_009,HOBBIES_1,HOBBIES,CA_1,CA,2,0,7,3,...,1,0,0,0,0,0,0,0,1,0
9,HOBBIES_1_010_CA_1_evaluation,HOBBIES_1_010,HOBBIES_1,HOBBIES,CA_1,CA,0,0,1,0,...,0,0,1,0,2,1,1,0,0,1


In [11]:
# Usar a função melt para transformar os dados de vendas em uma única coluna
m5_sales_data_melted = pd.melt(m5_sales_data, 
                               id_vars=['id', 'item_id', 'dept_id', 'cat_id', 'store_id', 'state_id'], 
                               var_name='day', 
                               value_name='sales')

# Exibir as primeiras linhas do novo dataframe
display(m5_sales_data_melted.head(10))

Unnamed: 0,id,item_id,dept_id,cat_id,store_id,state_id,day,sales
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
5,HOBBIES_1_006_CA_1_evaluation,HOBBIES_1_006,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
6,HOBBIES_1_007_CA_1_evaluation,HOBBIES_1_007,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0
7,HOBBIES_1_008_CA_1_evaluation,HOBBIES_1_008,HOBBIES_1,HOBBIES,CA_1,CA,d_1,12
8,HOBBIES_1_009_CA_1_evaluation,HOBBIES_1_009,HOBBIES_1,HOBBIES,CA_1,CA,d_1,2
9,HOBBIES_1_010_CA_1_evaluation,HOBBIES_1_010,HOBBIES_1,HOBBIES,CA_1,CA,d_1,0


In [12]:
m5_sales_data_melted.rename(columns={
    'id': 'ID',
    'item_id': 'ID_Item',
    'dept_id': 'ID_Departamento',
    'cat_id': 'ID_Categoria',
    'store_id': 'ID_Loja',
    'state_id': 'ID_Estado',
    'day': 'Dia',
    'sales': 'Vendas'
}, inplace = True)
m5_sales_data_melted['Dia'] = m5_sales_data_melted['Dia'].str.extract('(\d+)').astype(int)
display(m5_sales_data_melted.head(10))

Unnamed: 0,ID,ID_Item,ID_Departamento,ID_Categoria,ID_Loja,ID_Estado,Dia,Vendas
0,HOBBIES_1_001_CA_1_evaluation,HOBBIES_1_001,HOBBIES_1,HOBBIES,CA_1,CA,1,0
1,HOBBIES_1_002_CA_1_evaluation,HOBBIES_1_002,HOBBIES_1,HOBBIES,CA_1,CA,1,0
2,HOBBIES_1_003_CA_1_evaluation,HOBBIES_1_003,HOBBIES_1,HOBBIES,CA_1,CA,1,0
3,HOBBIES_1_004_CA_1_evaluation,HOBBIES_1_004,HOBBIES_1,HOBBIES,CA_1,CA,1,0
4,HOBBIES_1_005_CA_1_evaluation,HOBBIES_1_005,HOBBIES_1,HOBBIES,CA_1,CA,1,0
5,HOBBIES_1_006_CA_1_evaluation,HOBBIES_1_006,HOBBIES_1,HOBBIES,CA_1,CA,1,0
6,HOBBIES_1_007_CA_1_evaluation,HOBBIES_1_007,HOBBIES_1,HOBBIES,CA_1,CA,1,0
7,HOBBIES_1_008_CA_1_evaluation,HOBBIES_1_008,HOBBIES_1,HOBBIES,CA_1,CA,1,12
8,HOBBIES_1_009_CA_1_evaluation,HOBBIES_1_009,HOBBIES_1,HOBBIES,CA_1,CA,1,2
9,HOBBIES_1_010_CA_1_evaluation,HOBBIES_1_010,HOBBIES_1,HOBBIES,CA_1,CA,1,0


In [13]:
m5_data = m5_sales_data_melted[['ID_Item','ID_Loja','Dia','Vendas']]

In [14]:
m5_data.rename(columns={'ID_Item':'Produto','ID_Loja':'Loja','Dia':'Data','Vendas':'Vendas'},inplace=True)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [15]:
m5_data['Data'] = (m5_data['Data'] // 7) + 1
m5_data



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,Produto,Loja,Data,Vendas
0,HOBBIES_1_001,CA_1,1,0
1,HOBBIES_1_002,CA_1,1,0
2,HOBBIES_1_003,CA_1,1,0
3,HOBBIES_1_004,CA_1,1,0
4,HOBBIES_1_005,CA_1,1,0
...,...,...,...,...
59181085,FOODS_3_823,WI_3,278,1
59181086,FOODS_3_824,WI_3,278,0
59181087,FOODS_3_825,WI_3,278,2
59181088,FOODS_3_826,WI_3,278,0


In [16]:
# Agrupar os dados por loja e data, somando as vendas
vendas_por_loja = m5_data.groupby(['Loja', 'Data']).agg({'Vendas': 'sum'}).reset_index()

# Criar a figura
fig_vendas_por_loja = go.Figure()

# Adicionar os dados de cada loja ao gráfico
for loja in vendas_por_loja['Loja'].unique():
    loja_data = vendas_por_loja[vendas_por_loja['Loja'] == loja]
    fig_vendas_por_loja.add_trace(go.Scatter(
        x=loja_data['Data'],
        y=loja_data['Vendas'],
        mode='lines+markers',
        name=f'Loja {loja}',
        line=dict(width=2),
        marker=dict(size=5)
    ))

# Atualizar o layout do gráfico
fig_vendas_por_loja.update_layout(
    title='Vendas Totais por Loja ao Longo do Tempo',
    xaxis_title='Data',
    yaxis_title='Vendas',
    template='plotly_white',
    legend_title_text='Lojas',
    hovermode='x unified',
    xaxis=dict(
        tickmode='linear',
        tick0=1,
        dtick=10
    ),
    yaxis=dict(
        tickformat=','
    )
)

# Mostrar o gráfico
fig_vendas_por_loja.show()

In [17]:
# Encontrar a última data no DataFrame
ultima_data_m5 = m5_data['Data'].max()

# Filtrar o DataFrame para remover a última semana
m5_data = m5_data[m5_data['Data'] < ultima_data_m5]

# Exibir o DataFrame resultante
m5_data

Unnamed: 0,Produto,Loja,Data,Vendas
0,HOBBIES_1_001,CA_1,1,0
1,HOBBIES_1_002,CA_1,1,0
2,HOBBIES_1_003,CA_1,1,0
3,HOBBIES_1_004,CA_1,1,0
4,HOBBIES_1_005,CA_1,1,0
...,...,...,...,...
59089615,FOODS_3_823,WI_3,277,0
59089616,FOODS_3_824,WI_3,277,1
59089617,FOODS_3_825,WI_3,277,0
59089618,FOODS_3_826,WI_3,277,1


In [18]:
m5_data.to_parquet('Bases Tratadas/m5_item_loja_semana.parquet')

# Favorita

In [2]:
# Carregar os datasets
sales = pd.read_csv('Favorita/train.csv')  # Dados de vendas
items = pd.read_csv('Favorita/items.csv')  # Informações sobre os itens
stores = pd.read_csv('Favorita/stores.csv')  # Informações sobre as lojas

# Selecionar os campos necessários do dataset de vendas
# item_nbr (ID do item), store_nbr (ID da loja), date (data da venda), unit_sales (quantidade vendida)
df_tratado = sales[['item_nbr', 'store_nbr', 'date', 'unit_sales']]

# Renomear as colunas para os nomes desejados
df_tratado.rename(columns={
    'item_nbr': 'item',
    'store_nbr': 'loja',
    'date': 'data',
    'unit_sales': 'quantidade_vendas'
}, inplace=True)

# Converter a coluna de data para o formato datetime
df_tratado['data'] = pd.to_datetime(df_tratado['data'])

# Tratar valores negativos de vendas (se aplicável) e substituir por 0
df_tratado['quantidade_vendas'] = df_tratado['quantidade_vendas'].clip(lower=0)

# Opcional: Agregar vendas para obter uma linha única por item, loja e data (caso necessário)
df_resultado = df_tratado.groupby(['item', 'loja', 'data'], as_index=False).sum()

  sales = pd.read_csv('Favorita/train.csv')  # Dados de vendas
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado.rename(columns={
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado['data'] = pd.to_datetime(df_tratado['data'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tratado['quantidade_vendas'] = df_tratado['quantidade_vendas'].clip(lower=0)


In [3]:
df_resultado.rename(columns={'item':'Produto','loja':'Loja','data':'Data','quantidade_vendas':'Vendas'},inplace=True)

In [4]:
# Agrupar os dados por semana, item e loja, somando as vendas
df_resultado_semanal = df_resultado.set_index('Data').groupby([pd.Grouper(freq='W-Mon'), 'Produto', 'Loja']).agg({'Vendas': 'sum'}).reset_index().sort_values(by='Data')
display(df_resultado_semanal)

Unnamed: 0,Data,Produto,Loja,Vendas
0,2013-01-07,96995,2,2.0
33584,2013-01-07,830624,15,13.0
33585,2013-01-07,830624,16,52.0
33586,2013-01-07,830624,17,11.0
33587,2013-01-07,830624,18,4.0
...,...,...,...,...
23508230,2017-08-21,876225,52,8.0
23508229,2017-08-21,876225,49,2.0
23508228,2017-08-21,876225,48,8.0
23508238,2017-08-21,876226,27,6.0


In [5]:
df_resultado_semanal.Vendas = df_resultado_semanal.Vendas.astype(int)
df_resultado_semanal

Unnamed: 0,Data,Produto,Loja,Vendas
0,2013-01-07,96995,2,2
33584,2013-01-07,830624,15,13
33585,2013-01-07,830624,16,52
33586,2013-01-07,830624,17,11
33587,2013-01-07,830624,18,4
...,...,...,...,...
23508230,2017-08-21,876225,52,8
23508229,2017-08-21,876225,49,2
23508228,2017-08-21,876225,48,8
23508238,2017-08-21,876226,27,6


In [6]:
df_resultado_semanal = df_resultado_semanal[['Produto','Loja','Data','Vendas']]
df_resultado_semanal

Unnamed: 0,Produto,Loja,Data,Vendas
0,96995,2,2013-01-07,2
33584,830624,15,2013-01-07,13
33585,830624,16,2013-01-07,52
33586,830624,17,2013-01-07,11
33587,830624,18,2013-01-07,4
...,...,...,...,...
23508230,876225,52,2017-08-21,8
23508229,876225,49,2017-08-21,2
23508228,876225,48,2017-08-21,8
23508238,876226,27,2017-08-21,6


In [9]:
# Encontrar a última data no DataFrame
ultima_data_favorita = df_resultado_semanal['Data'].max()

# Filtrar o DataFrame para remover a última semana
df_resultado_semanal = df_resultado_semanal[df_resultado_semanal['Data'] < ultima_data_favorita]

# Exibir o DataFrame resultante
df_resultado_semanal

Unnamed: 0,Produto,Loja,Data,Vendas
0,96995,2,2013-01-07,2
33584,830624,15,2013-01-07,13
33585,830624,16,2013-01-07,52
33586,830624,17,2013-01-07,11
33587,830624,18,2013-01-07,4
...,...,...,...,...
23380695,903283,45,2017-08-14,377
23380696,903283,46,2017-08-14,60
23380697,903283,47,2017-08-14,114
23380687,903283,34,2017-08-14,113


In [11]:
df_resultado_semanal.to_parquet('Bases Tratadas/favorita_item_loja_semana.parquet')

In [10]:
# Agrupar os dados por data, somando as vendas
vendas_por_data_favorita = df_resultado_semanal.groupby('Data').agg({'Vendas': 'sum'}).reset_index()

# Criar a figura
fig_vendas_por_data_favorita = go.Figure()

# Adicionar os dados ao gráfico
fig_vendas_por_data_favorita.add_trace(go.Scatter(
    x=vendas_por_data_favorita['Data'],
    y=vendas_por_data_favorita['Vendas'],
    mode='lines+markers',
    name='Vendas',
    line=dict(width=2),
    marker=dict(size=5)
))

# Atualizar o layout do gráfico
fig_vendas_por_data_favorita.update_layout(
    title='Vendas Totais por Data - Favorita',
    xaxis_title='Data',
    yaxis_title='Quantidade de Vendas',
    template='plotly_white',
    hovermode='x unified',
    xaxis=dict(
        tickmode='auto',
        nticks=20
    ),
    yaxis=dict(
        tickformat=','
    )
)

# Mostrar o gráfico
fig_vendas_por_data_favorita.show()