<a href="https://colab.research.google.com/github/Anello92/BusinessAnalytics/blob/master/price_elasticity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto de Elasticidade de Preços**

A elasticidade de preços é um conceito fascinante e impactante no mundo dos negócios. Em termos simplificados, refere-se à relação entre a variação percentual da quantidade demandada de um produto e a variação percentual do seu preço. O entendimento dessa relação é crucial, pois permite que as empresas determinem até que ponto podem ajustar os preços de seus produtos sem afetar significativamente a demanda por eles.

Neste projeto, nosso foco principal será entender como a variação no preço de um produto pode influenciar sua demanda. Isso é essencial, pois um aumento no preço pode levar a uma queda na demanda e, inversamente, uma diminuição no preço pode resultar em um aumento na demanda. Contudo, há limites para essas variações, e é preciso encontrar um ponto de equilíbrio.

Utilizaremos técnicas estatísticas e de machine learning para investigar esta relação. O problema central que buscamos solucionar é: "Como as alterações no preço dos produtos afetam a demanda e, consequentemente, o faturamento de um negócio?". Para responder a essa questão, recorreremos à regressão linear, um método que, após nossa pesquisa e análise, mostrou-se o mais adequado para este estudo. É importante destacar que nossa abordagem não se restringe apenas a treinar um algoritmo, mas busca entender e explicar as relações entre as variáveis em estudo.

A proposta é que, ao final deste projeto, sejamos capazes de:

1. Compreender profundamente o conceito de elasticidade de preços e sua relevância no cenário empresarial.
2. Aplicar técnicas de regressão para modelar a relação entre preço e demanda.
3. Entender os coeficientes gerados pela regressão linear e interpretar sua influência no modelo.
4. Fornecer insights valiosos para empresas que desejam alterar os preços de seus produtos, minimizando riscos e otimizando resultados.

Em resumo, o objetivo central é capacitar os envolvidos no projeto a tomar decisões informadas sobre estratégias de precificação, fundamentadas em análises rigorosas e dados concretos. Esta é a essência da ciência de dados aplicada ao mundo empresarial: utilizar dados e métodos analíticos para solucionar problemas e melhorar processos.



---
## **Objetivo Central**
Entender como variações no preço de produtos influenciam a demanda e, por conseguinte, o faturamento das empresas. Para isso, utilizaremos métodos de regressão linear e técnicas de aprendizado de máquina.

###  **Metodologia Principal**
1. Coleta de dados históricos sobre preços, vendas e variáveis externas (como renda dos consumidores).
2. Análise Exploratória de Dados para identificar padrões.
3. Desenvolvimento e validação de modelos de aprendizado de máquina para descrição e previsão da relação preço-demanda.

### **Entregáveis**
- Modelo que capta a relação entre preço e demanda, incluindo a Curva e a Função de Demanda.
- Ferramenta de simulação para cenários de mudança de preço.
- Insights acionáveis para decisões de precificação.

### **Relevância**
O projeto visa tornar o complexo tema da elasticidade de preços acessível e útil, fornecendo insights baseados em dados para acadêmicos e decisores empresariais. O objetivo é aprimorar as estratégias de precificação com base em análises rigorosas, minimizando riscos e otimizando resultados.

---
## **Conceitos**

### **Relação entre Preço e Damanda**
Quando falamos de comprar e vender coisas, dois fatores são muito importantes: o preço e a quantidade que as pessoas querem comprar, conhecida como `demanda`. Na maioria dos casos, se o preço de algo sobe, menos pessoas vão querer comprar; se o preço desce, mais pessoas estarão interessadas. Essa é a chamada `lei da demanda`.

Imagine essa relação como um gráfico: se você colocar o preço no eixo vertical e a quantidade que as pessoas querem comprar no eixo horizontal, você terá algo que chamamos de `curva de demanda`. Essa curva geralmente inclina para baixo, mostrando que quando o preço diminui, mais pessoas querem comprar o produto.

Mas atenção, o preço não é o único fator que afeta a demanda. Outras coisas como o **dinheiro disponível** das pessoas, o **preço de produtos similares** ou **complementares**, e até mesmo o **gosto pessoal**, também entram na jogada. Por isso, usamos algo chamado `função de demanda` para prever com mais precisão quantas unidades de um produto serão vendidas se considerarmos todas essas variáveis juntas.

---
### **Função de Demanda: Uma Explicação Fácil**

Imagine que você quer saber quanto de um produto as pessoas vão comprar considerando vários fatores como preço, salário e até mesmo gostos pessoais. A `função de demanda` é como uma fórmula que nos ajuda a entender isso.

Nessa fórmula, usamos letras para representar esses fatores:

### `Q = f(P, Y, Ps, Pc, T)`

Essa fórmula ajuda empresas e pesquisadores a entender como diferentes fatores afetam a vontade das pessoas de comprar um produto.
- `Q` é a quantidade que as pessoas querem comprar.
- `P` é o preço do produto.
- `Y` é quanto dinheiro as pessoas têm.
- `Ps` é o preço de produtos parecidos.
- `Pc` é o preço de produtos que geralmente são comprados juntos com este.
- `T` representa outros fatores como gostos pessoais.

Então, se o preço `(P)` sobe, geralmente menos pessoas vão querer comprar `(Q diminui)`. Se as pessoas estão ganhando mais dinheiro `(Y aumenta)`, provavelmente vão comprar mais do produto `(Q aumenta)`.

O bacana dessa fórmula é que ela ajuda as empresas a entenderem o que pode acontecer se elas mudarem o preço ou outras coisas. Assim, elas podem decidir a melhor forma de vender mais e ganhar mais dinheiro, atendendo também ao que os consumidores querem ou precisam.

---
### **Elasticidade de Preço**
A elasticidade de preço nos diz o quanto a venda de um produto muda quando seu preço sobe ou desce. Por exemplo, se o preço de um item aumenta, geralmente menos pessoas vão comprá-lo.

Se a elasticidade é `elástica`, uma pequena mudança no preço faz uma grande diferença nas vendas. Se é `inelástica`, a mudança nas vendas é pequena, mesmo com variação no preço.

Há também a elasticidade `unitária`, onde a mudança percentual no preço e na demanda são iguais. Isso ajuda empresas a decidir se vale a pena alterar o preço de um produto.

---
### **Elasticidade de Preço Elástica**
Se um produto tem `elasticidade de preço elástica`, isso significa que as vendas desse item são muito sensíveis a qualquer mudança no preço. Em termos simples, **se o preço sobe um pouco, as vendas caem muito**, e vice-versa. Isso acontece porque as pessoas têm outras **opções parecidas e mais baratas para escolher**. Então, se o preço sobe, elas rapidamente trocam por algo mais em conta. O número que indica isso é maior que 1 na matemática da elasticidade. Por exemplo, **se o preço sobe 10% e as vendas caem mais de 60%**, essa elasticidade é considerada `elástica`.

---
### **Elasticidade de Preço Inelástica**
Se um produto tem `elasticidade de preço inelástica`, significa que as vendas desse item não são muito afetadas se o preço muda. Ou seja, você pode **aumentar um pouco o preço e as pessoas continuarão comprando praticamente a mesma quantidade**. Isso geralmente acontece **quando não há muitas outras opções de produtos similares ou quando as pessoas realmente precisam daquele item e não podem substituí-lo facilmente**. Na matemática da elasticidade, o número que indica isso é menor que 1. Por exemplo, se o **preço sobe 10% e as vendas caem menos de 1,5%, o produto é considerado `inelástico`**. Ou seja, as pessoas vão continuar comprando mesmo que fique um pouco mais caro.

---
### **Elasticidade de Preço Unitária**
Se um produto tem `elasticidade de preço unitária`, significa que qualquer mudança no preço é igualada por uma mudança igual na quantidade vendida. Em outras palavras, **se o preço sobe 10%, as vendas também caem 10%**. Isso geralmente ocorre quando **existem algumas alternativas ao produto, mas as pessoas não são tão rápidas em mudar**. Na matemática da coisa, o número que nos diz isso é exatamente 1. Isso quer dizer que **as pessoas notam se o preço muda, mas não vão abandonar o produto completamente** se ele ficar um pouco mais caro ou mais barato.

---
### **Elasticidade de Preço Negativa**
Se falamos de `elasticidade de preços negativa`, estamos dizendo que as pessoas não mudam muito suas compras mesmo quando o preço muda. Em termos simples, **se o preço sobe ou desce, as pessoas quase não alteram a quantidade que compram**. Esse número negativo é uma forma técnica de mostrar que **a demanda pelo produto é meio "teimosa"**; ela não se abala facilmente com mudanças no preço.

---
### **Interpretação Empresarial**
Para empresas, entender como o preço afeta as vendas é crucial:

1. `Elasticidade de preço unitária`: Quando o preço muda, as vendas mudam na mesma proporção. Então, a empresa precisa ser cautelosa ao mudar preços para não perder dinheiro ou clientes.

2. `Elasticidade de preço inelástica`: Aqui, a empresa tem liberdade para aumentar o preço um pouco, sem que as vendas caiam muito. Isso é bom para aumentar lucros.

3. `Elasticidade de preço elástica`: Nesse caso, qualquer alteração no preço pode fazer as vendas subirem ou caírem bastante. É um terreno perigoso para mexer nos preços.

4. `Elasticidade de preços negativa`: Nesse caso, as mudanças de preço não afetam muito as vendas. Pode ser um sinal de que o produto é essencial para os consumidores ou que não há alternativas no mercado.

Então, conhecer o tipo de elasticidade ajuda a empresa a decidir se pode aumentar o preço, se deve baixar ou mantê-lo, e como isso vai afetar suas vendas e lucros. É como um termômetro para estratégias de preço e marketing.

---
### **Cálculo da Elasticidade-Preço da Demanda**
A elasticidade-preço da demanda nos ajuda a entender como a quantidade vendida de um produto muda quando alteramos seu preço. Em termos simples, é uma medida que compara a mudança percentual na quantidade vendida com a mudança percentual no preço do produto.

Suponha que você tenha um produto cuja demanda diminuiu em 30% quando o preço aumentou em 15%. Para encontrar a elasticidade-preço da demanda, dividimos a `mudança percentual na demanda` (30%) pela `mudança percentual no preço` (15%). O resultado é 2.

Nesse exemplo, a `elasticidade é igual a 2`, o que indica que a **demanda é duas vezes mais sensível do que a mudança no preço**. Em termos técnicos, dizemos que o produto tem uma `elasticidade de preço elástica`, pois o valor é maior que 1. Isso significa que pequenas alterações no preço podem levar a grandes mudanças na quantidade demandada**.

---
### **Método do Ponto Médio**
O método do ponto médio serve para avaliar como as vendas de um produto se comportam quando você muda o seu preço. Essa avaliação pode variar dependendo de se você começa analisando do preço mais baixo para o mais alto, ou o contrário.

Vou usar um exemplo para ilustrar: imagine que você vende copos e resolveu subir o preço de 5 para 6 reais. Antes da mudança, você vendia 100 copos; depois, as vendas caíram para 80.

1. Calculamos a média das vendas, ou seja, a venda "intermediária". A média entre 100 copos e 80 copos é 90 copos.
2. Da mesma forma, calculamos a média do preço, que seria entre 5 e 6 reais. A média aqui é 5,50 reais.

Agora, comparemos as mudanças:

- Suas vendas médias eram de 90 copos e caíram para 80, ou seja, uma diminuição de 10 copos.
- O preço médio era de 5,50 reais e aumentou para 6, ou seja, um acréscimo de 50 centavos.

Agora, o que esses números nos mostram? Eles indicam que suas vendas são bastante sensíveis a alterações de preço. Com um aumento de apenas 50 centavos, você vendeu 10 copos a menos.

Essa sensibilidade ao preço é importante para você saber: se planeja alterar o preço no futuro, tenha em mente que pequenas mudanças podem ter um grande impacto nas suas vendas.

---
### **Interpretação do Resultado Matemático da Elasticidade de Preços**
Entender a elasticidade do preço é como saber o "termômetro" das vendas. Se você mexe no preço, ela te diz quanto suas vendas vão subir ou cair.

- Se a elasticidade é alta `(acima de 1)`, cuidado ao aumentar o preço, pois as vendas podem cair bastante. Por exemplo, com elasticidade de 15, se você aumentar o preço em 1%, pode esperar que as vendas caiam 15%.

- Se a elasticidade é baixa `(abaixo de 1)`, você tem mais liberdade para aumentar o preço sem perder muitas vendas. Com elasticidade de 0,15, se o preço sobe 1%, as vendas só caem 0,15%.

- Com `elasticidade igual a 1`, qualquer mudança no preço resulta numa mudança igual nas vendas. Se o preço sobe 1%, as vendas caem 1%.

Então, para resumir: Produtos com alta elasticidade podem ganhar mais clientes se ficarem mais baratos. Produtos com baixa elasticidade permitem que você aumente o preço sem perder muitas vendas.

---
### **Entendendo Demanda e Elasticidade de Preços**

**O que é Demanda?**

Demanda é simplesmente quantas unidades de um produto as pessoas querem comprar a um certo preço. Por exemplo, a 5 reais, talvez você venda 100 camisetas.

**O que é Elasticidade de Preços?**

A elasticidade de preços vai um passo além e responde: **"Se eu mudar o preço, quanto as vendas vão mudar?"**. Se você aumentar o preço da camiseta para 6 reais e agora só vende 80, a elasticidade ajuda a entender essa mudança.

**Por que São Diferentes?**

Demanda é o **"retrato"** das vendas a um preço fixo. Elasticidade é mais como um **"filme"** que mostra como as vendas mudam quando você brinca com o preço.

**Por que Precisamos de Uma Equação de Demanda?**

A equação de demanda é uma fórmula matemática que liga o preço e a quantidade vendida. Ela é crucial para calcular a elasticidade e também ajuda empresas a prever vendas futuras para diferentes preços.

**Concorrência e Elasticidade de Preços**

Se o preço do produto de um concorrente mudar, isso pode afetar suas vendas. Por exemplo, se o preço do chá cair, as pessoas podem comprar menos café. Isso torna o café "elástico", porque uma pequena mudança no preço do chá causou uma grande mudança na venda de café.

**Resumindo:**

- Demanda mostra as vendas em um preço específico.
- Elasticidade mostra como as vendas mudam com diferentes preços.
- A equação de demanda ajuda a calcular ambos.
- Concorrência pode tornar um produto mais ou menos "elástico".

Com esses conceitos, empresas podem fazer preços mais inteligentes e maximizar lucros.

---

# **Projeto de Elasticidade de Preços**

O objetivo deste projeto é analisar a elasticidade de preços de um determinado produto ou serviço. Vamos focar em entender como variações no preço afetam o número de vendas. Ao final do projeto, seremos capazes de fornecer insights valiosos sobre como o preço afeta o número de vendas, o que pode ser crucial para estratégias de precificação futuras.

Estaremos utilizando um conjunto de dados extenso, mas nossa análise será focada em três variáveis principais:

1. Data da venda
2. Número de vendas realizadas no período
3. Preço do produto ou serviço vendido

## **0.0 Imports**
Primeiro, vamos importar os dados e dar uma olhada nas primeiras linhas para entender sua estrutura.

In [None]:
import pandas as pd

In [None]:
# Carregando o conjunto de dados
df_raw = pd.read_csv('df_ready.csv')

# Visualizando as primeiras linhas do conjunto de dados
df_raw.head()

Após a preparação dos dados, realizaremos uma série de análises estatísticas e modelagens para entender a elasticidade de preços. Isso incluirá:

1. Análise descritiva das variáveis de interesse.
2. Cálculo da elasticidade de preços.
3. Modelagem estatística para validar os resultados.


### **1.0 Descrição dos Dados**
O objetivo desta etapa é preparar e entender os dados que serão utilizados para analisar a elasticidade de preços.

Para garantir a integridade dos dados originais, uma cópia dos dados brutos é feita e armazenada em um novo DataFrame chamado `df1`. Isso é feito usando o seguinte código:

In [None]:
df1 = df_raw.copy()

A criação de uma cópia dos dados brutos é uma prática recomendada em ciência de dados. Isso permite que você faça todas as manipulações necessárias no conjunto de dados copiado (`df1`), mantendo o conjunto de dados original (`df_raw`) intocado para referência futura ou para correção de erros.

In [None]:
cols_name = ['date_imp', 'category_name', 'name', 'price', 'disc_price', 'merchant',
             'disc_percentage', 'is_sale', 'imp_count', 'brand', 'p_description',
             'dateadded', 'dateupdated', 'manufacturer', 'day_n', 'month', 'month_n',
             'day', 'week_number']

df1.columns = cols_name

### **1.1 Renomeação de Colunas**

Ter nomes de colunas intuitivos e descritivos facilita a compreensão do conjunto de dados.
Isso também ajuda na documentação e na colaboração, tornando mais fácil para qualquer pessoa entender o que cada coluna representa.

Com a renomeação das colunas, o conjunto de dados agora está mais organizado e fácil de entender. Isso prepara o terreno para a análise exploratória de dados (EDA) e modelagem estatística que seguirão.

### **1.2 Verificação das Dimensões dos Dados**
Aqui entendemos a escala do conjunto de dados com o qual estamos trabalhando. Isso nos dará uma ideia inicial da complexidade e do volume de dados que precisaremos analisar.

Para verificar as dimensões do DataFrame `df1`, utilizamos os seguintes comandos em Python:



In [None]:
print(f'Número de linhas: {df1.shape[0]}')
print(f'Número de colunas: {df1.shape[1]}')


Conhecer o número de linhas e colunas é crucial para entender o tamanho do conjunto de dados. Isso nos ajuda a planejar os próximos passos do projeto, como a limpeza de dados e a modelagem, de forma mais eficiente.

Com esses comandos, obtemos uma visão rápida da estrutura do nosso conjunto de dados. Isso nos permite planejar melhor as etapas subsequentes, que podem incluir filtragem, agregação e aplicação de modelos estatísticos para entender a elasticidade de preços.




## **1.2 Análise Exploratória e Preparação dos Dados**

Realizaremoa uma análise exploratória inicial para entender a estrutura e as características do conjunto de dados. Além disso, planejamos reduzir a dimensionalidade dos dados para focar nas variáveis mais relevantes para a análise de elasticidade de preços.

1. **Dimensionalidade Inicial**: O conjunto de dados `df1` possui 23.151 linhas e 32 colunas.
2. **Seleção de Variáveis**: Para a análise de elasticidade, as variáveis primárias de interesse são 'demanda' e 'preço'. No entanto, outras variáveis podem ser consideradas para análises mais profundas.
3. **Redução de Dimensionalidade**: Planejamos reduzir o número de colunas, mantendo apenas as que são relevantes para o estudo.
4. **Testes Preliminares**: Foram realizados testes em dois tipos de dados para verificar a consistência na aplicação do modelo.
5. **Pivotamento dos Dados**: Uma transformação adicional será realizada para reorganizar os dados, o que pode levar a diferentes interpretações, dependendo das variáveis escolhidas.

### **Importância**
- A redução de dimensionalidade torna o modelo mais eficiente e focado.
- A análise exploratória inicial ajuda a entender o comportamento dos dados, o que é crucial antes de aplicar qualquer modelo estatístico.
- O pivotamento e a seleção de variáveis permitem flexibilidade na análise, adaptando-se às necessidades específicas do projeto.

Nesta subetapa, identificamos a estrutura do conjunto de dados e planejamos as ações para torná-lo mais gerenciável e relevante para a análise de elasticidade de preços. Os próximos passos incluirão a limpeza e transformação dos dados, seguidos pela aplicação de modelos estatísticos para entender a relação entre preço e demanda.



**Verificação de Tipos de Dados:** Utilizamos o comando `df1.dtypes` para listar os tipos de dados de cada coluna.

### **1.3 Tipos de Dados**

In [None]:
df1.dtypes

In [None]:
df1.columns

### **1.4 Check NA**
A execução deste comando nos fornecerá um resumo da quantidade de valores ausentes em cada coluna. Com base nessa informação, poderemos tomar decisões informadas sobre como tratar esses valores ausentes nas etapas subsequentes de limpeza de dados.Utilizamos o seguinte comando para verificar a quantidade de valores ausentes em cada coluna do DataFrame df1:

In [None]:
df1.isna().sum()

A presença de valores ausentes pode afetar a precisão dos modelos estatísticos.
Saber onde estão os valores ausentes ajuda a decidir se eles devem ser preenchidos, ignorados ou se as linhas/colunas devem ser excluídas.



### **1.5 Change types**
Para alterar os tipos de dados, utilizaremos comandos específicos em Python, como astype() ou to_datetime(), dependendo do tipo de dado que desejamos.

In [None]:
# Convertendo a coluna 'price' para o tipo de dado float.
# Isso é feito para permitir operações matemáticas mais precisas com os valores de preço.
df1['price'] = df1['price'].astype(float)

# Convertendo a coluna 'date_imp' para o tipo de dado de data e hora (datetime).
# Isso facilita a manipulação e análise de dados que envolvem informações temporais.
df1['date_imp'] = pd.to_datetime(df1['date_imp'])

Ter os tipos de dados corretos é crucial para a execução eficiente de cálculos e modelos estatísticos. Isso também minimiza o risco de erros e imprecisões que podem surgir devido a tipos de dados inadequados.

Com a alteração dos tipos de dados, o conjunto de dados está agora mais bem preparado para análises e modelagens estatísticas. Isso também facilita a manipulação dos dados em etapas futuras.

### **1.7 Descriptive Statistics**
O objetivo desta subetapa é gerar estatísticas descritivas para as variáveis numéricas e categóricas do conjunto de dados. Isso nos fornecerá uma visão geral dos dados e ajudará a identificar padrões, anomalias ou necessidades de limpeza adicional.

Para separar as variáveis numéricas e categóricas, utilizamos os seguintes comandos:



In [None]:

# Selecionando apenas as colunas com tipos de dados numéricos (float e int64)
num_attributes = df1.select_dtypes(include=['float', 'int64'])

# Selecionando as colunas que não são numéricas (excluindo float e int64)
col_attributes = df1.select_dtypes(exclude=['float', 'int64'])

- As estatísticas descritivas das variáveis numéricas nos ajudarão a entender a distribuição, a centralidade e a dispersão dos dados.
- Para as variáveis categóricas, entender a frequência das diferentes categorias pode ser útil para a análise.


Com a separação das variáveis numéricas e categóricas, estamos agora prontos para calcular estatísticas descritivas que fornecerão insights valiosos para as etapas subsequentes de análise e modelagem.


In [None]:
# Medidas de Tendência Central
ct1 = pd.DataFrame(num_attributes.apply(np.mean).T)
ct2 = pd.DataFrame(num_attributes.apply(np.median).T)

# Medidas de Dispersão
d1 = pd.DataFrame(num_attributes.apply(np.std).T)
d2 = pd.DataFrame(num_attributes.apply(np.min).T)
d3 = pd.DataFrame(num_attributes.apply(np.max).T)
d4 = pd.DataFrame(num_attributes.apply(lambda x: x.max() - x.min()).T)
d5 = pd.DataFrame(num_attributes.apply(lambda x: x.skew()).T)
d6 = pd.DataFrame(num_attributes.apply(lambda x: x.kurtosis()).T)

# Consolidando as medidas em um único DataFrame
measures = pd.concat([d2, d3, d4, ct1, ct2, d1, d5, d6]).T.reset_index()
measures.columns = ['att', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurt']


As medidas de tendência central (média e mediana) fornecem uma ideia do valor "típico" para cada atributo.
As medidas de dispersão (desvio padrão, mínimo, máximo, amplitude, assimetria e curtose) ajudam a entender a variabilidade e a forma da distribuição dos dados.

Com essas medidas calculadas, temos uma visão mais completa e detalhada dos atributos numéricos em nosso conjunto de dados. Isso nos permite fazer análises mais profundas e tomar decisões de modelagem mais informadas.

### **Exploratory Data Analysis**

In [None]:
df2 = df1.copy()

In [None]:
df2.head()

In [None]:
df2.columns

### **Questões do Projeto**

1. **Qual o merchant que mais vendeu?**
   - Qual é o merchant que mais vendeu em termos de volume de vendas nos últimos 30 dias?
   - Qual merchant tem a maior receita acumulada no último trimestre?

2. **Qual a categoria mais vendida?**
   - Qual categoria de produtos teve o maior volume de vendas no último mês?
   - Qual categoria gerou a maior receita no último ano?

3. **Qual a marca mais vendida?**
   - Qual marca teve o maior número de unidades vendidas na última semana?
   - Qual marca gerou a maior receita no último semestre?

4. **Quais os dias que mais vendem?**
   - Em quais dias da semana o volume de vendas é tipicamente mais alto?
   - Há algum dia específico do mês que se destaca em termos de vendas?

5. **Quais os meses que mais vendem?**
   - Quais meses do ano apresentam o maior volume de vendas?
   - Existe uma sazonalidade mensal nas vendas? Se sim, quais são os meses de pico?

6. **Quais as semanas que mais vendem?**
   - Quais semanas do ano registraram o maior volume de vendas?
   - Existe alguma semana específica que se destaca em termos de receita gerada?

### 1. **Qual o merchant que mais vendeu?**

In [None]:
# Importa as bibliotecas necessárias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# --- Preparação dos Dados ---
# Agrupa o DataFrame original (df2) por 'merchant' e conta o número de vendas
# O resultado é um novo DataFrame chamado 'grouped_merchants'
grouped_merchants = df2.groupby('merchant').size().reset_index(name='total_sales')

# Ordena este novo DataFrame por 'total_sales' em ordem decrescente
grouped_merchants_sorted = grouped_merchants.sort_values(by='total_sales', ascending=False)

# --- Configuração da Visualização ---
# Define o tamanho da figura para o gráfico (10 unidades de largura por 6 de altura)
plt.figure(figsize=(10, 6))

# Define o estilo do gráfico como "whitegrid" para um visual mais limpo
sns.set(style="whitegrid")

# --- Criação do Gráfico ---
# Utiliza a biblioteca Seaborn para criar o gráfico de barras
sns.barplot(x='merchant', y='total_sales', data=grouped_merchants_sorted)

# --- Personalização do Gráfico ---
# Adiciona um título ao gráfico
plt.title('Vendas por Comerciante')

# Nomeia o eixo X como 'Comerciante'
plt.xlabel('Comerciante')

# Nomeia o eixo Y como 'Total de Vendas'
plt.ylabel('Total de Vendas')

# Rotaciona os rótulos do eixo X em 45 graus para melhor visualização
plt.xticks(rotation=45)

# --- Finalização ---
# Ajusta o layout para evitar sobreposições
plt.tight_layout()

# Exibe o gráfico
plt.show()

In [None]:
# --- Preparação Inicial ---
# Lista de nomes dos comerciantes que queremos filtrar no DataFrame original
merchants_to_filter = ['Bestbuy.com', 'bhphotovideo.com', 'Walmart.com', 'ebay.com']

# Inicializa um dicionário vazio para armazenar os DataFrames filtrados
filtered_dfs = {}

# --- Filtragem dos Dados ---
# Percorre a lista de comerciantes para realizar o filtro
for merchant in merchants_to_filter:
    # Filtra o DataFrame original (df2) com base no nome do comerciante
    # O resultado é armazenado no dicionário, com o nome do comerciante como chave
    filtered_dfs[merchant] = df2[df2['merchant'] == merchant]

# --- Acesso aos Dados Filtrados ---
# Neste ponto, 'filtered_dfs' contém os DataFrames filtrados,
# e você pode acessá-los usando o nome do comerciante como chave.
# Por exemplo, para acessar o DataFrame de 'Bestbuy.com', você pode usar: filtered_dfs['Bestbuy.com']

## **2.2 Qual é a categoria mais vendidas**

### **2.2.1 Qual é a categoria mais vendida no geral?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Agrupa por 'category_name', conta as vendas e ordena os resultados
grouped_categories = df2.groupby('category_name').size().reset_index(name='total_sales').sort_values(by='total_sales', ascending=False)

# Configura o gráfico
plt.figure(figsize=(20, 10))  # Tamanho da figura
sns.set(style="whitegrid")  # Estilo de fundo

# Cria o gráfico de barras
sns.barplot(x='category_name', y='total_sales', data=grouped_categories)

# Personaliza título e eixos
plt.title('Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Total de Vendas')
plt.xticks(rotation=90)  # Rotação dos rótulos para melhor visualização

# Mostra o gráfico
plt.show()

### **2.2.1 Qual é a categoria mais vendida por loja?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# --- Configurações Iniciais do Gráfico ---
# Define o tamanho da figura para acomodar todos os gráficos (30 de largura, 20 de altura)
plt.figure(figsize=(30, 20))

# --- Gráfico 1: Bestbuy.com ---
# Escolhe a primeira posição em uma grade de 2x2 para este gráfico
plt.subplot(2, 2, 1)

# Agrupa os dados de Bestbuy.com por 'category_name', conta as ocorrências e ordena em ordem decrescente
dados_bestbuy = df_best.groupby('category_name').count().reset_index().sort_values(by='date_imp', ascending=False)

# Cria o gráfico de barras
sns.barplot(x='category_name', y='date_imp', data=dados_bestbuy)

# Adiciona um título ao gráfico e roda os rótulos do eixo X para melhor visualização
plt.title('Bestbuy.com', fontsize=16)
plt.xticks(rotation=90, fontsize=12)

# --- Gráfico 2: bhphotovideo.com ---
# Escolhe a segunda posição em uma grade de 2x2 para este gráfico
plt.subplot(2, 2, 2)

# Processamento semelhante ao primeiro gráfico, mas para bhphotovideo.com
dados_bhp = df_bhp.groupby('category_name').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='category_name', y='date_imp', data=dados_bhp)
plt.title('bhphotovideo.com', fontsize=16)
plt.xticks(rotation=90, fontsize=12)

# --- Gráfico 3: Ebay.com ---
# Terceira posição
plt.subplot(2, 2, 3)

# Processamento semelhante aos gráficos anteriores, mas para Ebay.com
dados_ebay = df_ebay.groupby('category_name').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='category_name', y='date_imp', data=dados_ebay)
plt.title('Ebay.com', fontsize=16)
plt.xticks(rotation=90, fontsize=12)

# --- Gráfico 4: Walmart.com ---
# Quarta posição
plt.subplot(2, 2, 4)

# Processamento semelhante aos gráficos anteriores, mas para Walmart.com
dados_walmart = df_walmart.groupby('category_name').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='category_name', y='date_imp', data=dados_walmart)
plt.title('Walmart.com', fontsize=16)
plt.xticks(rotation=90, fontsize=12)

# --- Ajustes Finais ---
# Ajusta o layout para evitar sobreposições
plt.tight_layout()

# Exibe os gráficos
plt.show()

### **2.3 Qual é a marca mais vendida?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# --- Preparação dos Dados ---
# Agrupa os dados por 'brand', conta as ocorrências de cada uma e ordena em ordem decrescente.
# Mantém apenas as 10 marcas mais vendidas para o gráfico.
grouped_brands = df2.groupby('brand').size().reset_index(name='total_sales').sort_values(by='total_sales', ascending=False).head(10)

# --- Configurações Iniciais do Gráfico ---
# Configura o tamanho da figura (20 de largura, 8 de altura)
plt.figure(figsize=(20, 8))

# Configura o estilo do gráfico para "whitegrid", que é um dos estilos do Seaborn
sns.set(style="whitegrid")

# --- Criação do Gráfico ---
# Cria o gráfico de barras usando os dados das 10 marcas mais vendidas
sns.barplot(x='brand', y='total_sales', data=grouped_brands)

# --- Personalizações Visuais ---
# Adiciona um título ao gráfico e ajusta o tamanho da fonte
plt.title('Top 10 Marcas Mais Vendidas', fontsize=16)

# Adiciona rótulos para os eixos X e Y e ajusta o tamanho da fonte
plt.xlabel('Marca', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)

# Rotação dos rótulos do eixo X para evitar sobreposição e ajuste do tamanho da fonte
plt.xticks(rotation=45, fontsize=12)

# --- Exibição do Gráfico ---
# Mostra o gráfico finalizado
plt.show()

### **2.3 Qual é a Marca mais vendida por Loja?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura o tamanho total da figura (30 de largura, 20 de altura)
plt.figure(figsize=(30, 20))

# --- Primeiro Gráfico (Bestbuy.com) ---
# Seleciona a posição 1 em uma grade de 2x2 para esse gráfico
plt.subplot(2, 2, 1)

# Agrupa por 'brand', conta as ocorrências e ordena em ordem decrescente, pegando apenas as 5 primeiras
aux8 = df_best.groupby('brand').count().reset_index().sort_values(by='date_imp', ascending=False).head(5)

# Cria o gráfico de barras
sns.barplot(x='brand', y='date_imp', data=aux8)

# Adiciona título e rótulos para os eixos
plt.title('Bestbuy.com', fontsize=16)
plt.xlabel('Marca', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)
plt.xticks(rotation=45, fontsize=12)  # Rotação das legendas do eixo x para melhor visualização

# --- Segundo Gráfico (bhphotovideo.com) ---
plt.subplot(2, 2, 2)
aux9 = df_bhp.groupby('brand').count().reset_index().sort_values(by='date_imp', ascending=False).head(5)
sns.barplot(x='brand', y='date_imp', data=aux9)
plt.title('bhphotovideo.com', fontsize=16)
plt.xlabel('Marca', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)
plt.xticks(rotation=45, fontsize=12)

# --- Terceiro Gráfico (Ebay.com) ---
plt.subplot(2, 2, 3)
aux10 = df_ebay.groupby('brand').count().reset_index().sort_values(by='date_imp', ascending=False).head(5)
sns.barplot(x='brand', y='date_imp', data=aux10)
plt.title('Ebay.com', fontsize=16)
plt.xlabel('Marca', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)
plt.xticks(rotation=45, fontsize=12)

# --- Quarto Gráfico (Walmart.com) ---
plt.subplot(2, 2, 4)
aux11 = df_walmart.groupby('brand').count().reset_index().sort_values(by='date_imp', ascending=False).head(5)
sns.barplot(x='brand', y='date_imp', data=aux11)
plt.title('Walmart.com', fontsize=16)
plt.xlabel('Marca', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)
plt.xticks(rotation=45, fontsize=12)

# Ajusta o layout para que os gráficos não se sobreponham
plt.tight_layout()

# Mostra todos os gráficos
plt.show()

## **2.4 Quais os dias que mais vendem?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura o tamanho da figura onde o gráfico será plotado (20 de largura, 8 de altura)
plt.figure(figsize=(20, 8))

# Agrupa os dados por 'day_n', conta as ocorrências e ordena em ordem decrescente
aux12 = df2.groupby('day_n').count().reset_index().sort_values(by='date_imp', ascending=False)

# Cria o gráfico de barras usando a biblioteca Seaborn
sns.barplot(x='day_n', y='date_imp', data=aux12)

# Configurações adicionais para melhorar a visualização do gráfico
plt.title('Vendas por Dia', fontsize=16)  # Título do gráfico
plt.xlabel('Dia da Semana', fontsize=14)  # Rótulo do eixo X
plt.ylabel('Total de Vendas', fontsize=14)  # Rótulo do eixo Y
plt.xticks(rotation=45, fontsize=12)  # Rotação dos rótulos do eixo X e ajuste do tamanho da fonte

# Exibe o gráfico
plt.show()

### **2.4.1 Quais os Dias que mais vendem por Loja?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura o tamanho da figura onde os gráficos serão plotados
plt.figure(figsize=(30, 20))

# ------ Gráfico para Bestbuy.com ------
plt.subplot(2, 2, 1)  # Define a posição do primeiro gráfico (superior esquerdo)

# Agrupa os dados por 'day_n', conta e ordena em ordem decrescente
aux13 = df_best.groupby('day_n').count().reset_index().sort_values(by='date_imp', ascending=False)

# Plot do gráfico
sns.barplot(x='day_n', y='date_imp', data=aux13)

# Configurações do gráfico
plt.title('Bestbuy.com', fontsize=16)
plt.xticks(rotation=45, fontsize=12)

# ------ Gráfico para bhphotovideo.com ------
plt.subplot(2, 2, 2)
aux14 = df_bhp.groupby('day_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='day_n', y='date_imp', data=aux14)
plt.title('bhphotovideo.com', fontsize=16)
plt.xticks(rotation=45, fontsize=12)

# ------ Gráfico para Ebay.com ------
plt.subplot(2, 2, 3)
aux15 = df_ebay.groupby('day_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='day_n', y='date_imp', data=aux15)
plt.title('Ebay.com', fontsize=16)
plt.xticks(rotation=45, fontsize=12)

# ------ Gráfico para Walmart.com ------
plt.subplot(2, 2, 4)
aux16 = df_walmart.groupby('day_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='day_n', y='date_imp', data=aux16)
plt.title('Walmart.com', fontsize=16)
plt.xticks(rotation=45, fontsize=12)

# Ajusta o layout para evitar sobreposições e exibe os gráficos
plt.tight_layout()
plt.show()


## **2.5 Quais os Meses que mais vendem?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura tamanho da figura
plt.figure(figsize=(20, 8))

# Agrupa por mês e conta vendas, depois ordena
aux17 = df2.groupby('month_n').count().reset_index().sort_values(by='date_imp', ascending=False)

# Cria gráfico de barras
sns.barplot(x='month_n', y='date_imp', data=aux17)

# Ajusta rótulos do eixo X
plt.xticks(rotation=90, fontsize=12)

# Mostra gráfico
plt.show()

### **2.5.1 Quais os Meses que mais vendem por Loja?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura tamanho da figura
plt.figure(figsize=(30, 20))

# Gráfico 1 (Bestbuy.com)
plt.subplot(2, 2, 1)
aux18 = df_best.groupby('month_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='month_n', y='date_imp', data=aux18)
plt.title('Bestbuy.com')
plt.xticks(rotation=90, fontsize=12)

# Gráfico 2 (bhphotovideo.com)
plt.subplot(2, 2, 2)
aux19 = df_bhp.groupby('month_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='month_n', y='date_imp', data=aux19)
plt.title('bhphotvideo.com')
plt.xticks(rotation=90, fontsize=12)

# Gráfico 3 (Ebay.com)
plt.subplot(2, 2, 3)
aux20 = df_ebay.groupby('month_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='month_n', y='date_imp', data=aux20)
plt.title('Ebay.com')
plt.xticks(rotation=90, fontsize=12)

# Gráfico 4 (Walmart.com)
plt.subplot(2, 2, 4)
aux21 = df_walmart.groupby('month_n').count().reset_index().sort_values(by='date_imp', ascending=False)
sns.barplot(x='month_n', y='date_imp', data=aux21)
plt.title('Walmart.com')
plt.xticks(rotation=90, fontsize=12)

# Ajusta layout
plt.tight_layout()

# Mostra gráfico
plt.show()

In [None]:
df2.columns

## **2.6 Quais são as semanas que mais vendem?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura tamanho da figura
plt.figure(figsize=(20, 8))

# Agrupa por semana e conta vendas
aux22 = df2.groupby('week_number').count().reset_index().sort_values(by='date_imp', ascending=False)

# Cria gráfico de barras
sns.barplot(x='week_number', y='date_imp', data=aux22)

# Configura rótulos e título
plt.xticks(rotation=90, fontsize=12)

# Mostra gráfico
plt.show()

### **2.6.1 Quais as semanas que mais vendem por Loja?**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configura tamanho da figura
plt.figure(figsize=(20, 8))

# Agrupa os dados por 'week_number' e conta as ocorrências, depois ordena por contagem
vendas_por_semana = df2.groupby('week_number').size().reset_index(name='total_vendas').sort_values(by='total_vendas', ascending=False)

# Cria o gráfico de barras
sns.barplot(x='week_number', y='total_vendas', data=vendas_por_semana)

# Personaliza o gráfico
plt.title('Vendas Totais por Semana', fontsize=16)
plt.xlabel('Número da Semana', fontsize=14)
plt.ylabel('Total de Vendas', fontsize=14)
plt.xticks(rotation=90, fontsize=12)

# Ajusta layout e exibe o gráfico
plt.tight_layout()
plt.show()
