#### Experimento

- Pergunta: Qual época do ano tem o maior número de vendas?
- Metodologia: Foram observadas apenas as vendas concluidas (Fulfillment = Yes).

### Conclusões
- O período entre 3 de abril a 4 de maio foi a época de maior venda.
- Tomada de decisão: Aumento do estoque e marketing diferenciado para a época em questão.

In [1]:
# imports
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


In [2]:
# select amostra da tabela vendas por dia
vendas = pd.read_csv('data/vendas_por_dia.csv')
vendas

Unnamed: 0,data_da_venda,quantidade_de_vendas
0,2022-03-31,474
1,2022-04-01,4078
2,2022-04-02,4551
3,2022-04-03,4773
4,2022-04-04,4160
...,...,...
86,2022-06-25,2832
87,2022-06-26,3547
88,2022-06-27,3189
89,2022-06-28,3380


In [3]:
#tipos de dados
vendas.dtypes

data_da_venda           object
quantidade_de_vendas     int64
dtype: object

In [4]:
#distribuição dos dados
vendas.describe()

Unnamed: 0,quantidade_de_vendas
count,91.0
mean,4052.197802
std,827.517092
min,474.0
25%,3506.0
50%,4074.0
75%,4576.5
max,5934.0


In [5]:
## gráfico da distribução de vendas diárias
fig1 = px.box(data_frame=vendas, x='quantidade_de_vendas', 
            labels={"quantidade_de_vendas": "Número de vendas"},
            title="Distribuição do número de vendas")
            
fig1.update_layout(title = dict(xref = "paper", x=0.5, font=dict(size=20)))
fig1.show()

Pela distribuição do número de vendas, vamos tomar o terceiro quartil como critério para definir um dia de maior venda. Assim, qualquer dia que tiver mais de 4589 vendas entra nesse critério.

In [6]:
# Função para filtrar os dias de maior venda.
def filtro_vendas(x):
    if x >= 4589:
        return "Maior venda"
    else: 
        return "Normal em vendas"

In [7]:
#Criar nova coluna com a distinção desses dias
vendas["tamanho_de_vendas"] = vendas["quantidade_de_vendas"].apply(lambda x: filtro_vendas(x))
vendas

Unnamed: 0,data_da_venda,quantidade_de_vendas,tamanho_de_vendas
0,2022-03-31,474,Normal em vendas
1,2022-04-01,4078,Normal em vendas
2,2022-04-02,4551,Normal em vendas
3,2022-04-03,4773,Maior venda
4,2022-04-04,4160,Normal em vendas
...,...,...,...
86,2022-06-25,2832,Normal em vendas
87,2022-06-26,3547,Normal em vendas
88,2022-06-27,3189,Normal em vendas
89,2022-06-28,3380,Normal em vendas


In [8]:
## gráfico da quantidade de vendas finalizadas por dia
fig2 = px.bar(vendas, x='data_da_venda', y='quantidade_de_vendas', 
            labels={"quantidade_de_vendas": "Quantidade de vendas",
            "data_da_venda": "Data da venda",
            "tamanho_de_vendas": "Tamanho de Vendas"},
            color="tamanho_de_vendas",
            title="Quantidade de vendas por dia")
            
fig2.update_layout(title = dict(xref = "paper", x=0.5, font=dict(size=20)))
fig2.show()

Entre os intervalos de maior venda há intervalos de venda normal. Vamos definir que se o intervalo de dias de venda normal for menor que sete dias (uma semana), então os dois intervalos de maior venda pertencem ao mesmo período de vendas. Períodos de maior venda, menores que uma semana, são descartados. Assim, dentro do prazo observado, destacamos o período entre 3 de abril a 4 de maio como um período de maior venda.