In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

%matplotlib inline

## Carregando os Dados

In [None]:
# Carrega o dataset
df_dsa = pd.read_csv('dados/dataset.csv')

In [None]:
# Shape
df_dsa.shape

In [None]:
# Amostra dos dados
df_dsa.head()

In [None]:
# Amostra dos dados
df_dsa.tail()

## Análise Exploratória

In [None]:
# Colunas do conjunto de dados
df_dsa.columns

In [None]:
# Verificando o tipo de dado de cada coluna
df_dsa.dtypes

In [None]:
# Resumo estatístico da coluna com o valor de venda
df_dsa['Valor_Venda'].describe()

In [None]:
# Verificando se há registros duplicados
df_dsa[df_dsa.duplicated()]

In [None]:
# Verificando de há valores ausentes
df_dsa.isnull().sum()

In [None]:
df_dsa.head()

## Pergunta de Negócio 1:

### Qual Cidade com Maior Valor de Venda de Produtos da Categoria 'Office Supplies'?

In [None]:
df_dsa_categoria_1 = df_dsa[df_dsa['Categoria'] == 'Office Supplies']
df_dsa_categoria_1

In [None]:
df_dsa_categoria_1[df_dsa_categoria_1['Valor_Venda'] == df_dsa_categoria_1['Valor_Venda'].max()]['Cidade']

A resposta está errada, não considerei a repetição das cidades. Deveria ter somado os valores referentes a cada cidade e ter encontrado o valor máximo da soma por cidade.

In [None]:
df_dsa_p1 = df_dsa_categoria_1.groupby('Cidade')['Valor_Venda'].sum()
df_dsa_p1

In [None]:
print(f'A Cidade com a maior venda é {df_dsa_p1.idxmax()}')

In [None]:
df_dsa_p1.sort_values(ascending=False)

## Pergunta de Negócio 2:

### Qual o Total de Vendas Por Data do Pedido?

Demonstre o resultado através de um gráfico de barras.

In [None]:
df_dsa_data_total = df_dsa.groupby('Data_Pedido')['Valor_Venda'].sum()

In [None]:
%matplotlib inline

plt.plot(df_dsa_data_total)
plt.show()

Melhorando a visualização do gráfico.

In [None]:
plt.figure(figsize=(20, 6))
df_dsa_data_total.plot(x='Data_Pedido', y='Valor_Venda', color='green')
plt.title('Total de vendas por data do pedido')
plt.show()

## Pergunta de Negócio 3:

### Qual o Total de Vendas por Estado?

Demonstre o resultado através de um gráfico de barras.

In [None]:
df_dsa_vendas_estado = df_dsa.groupby('Estado')['Valor_Venda'].sum()

In [None]:
df_dsa_vendas_estado.head()

In [None]:
plt.figure(figsize=(20, 6))
df_dsa_vendas_estado.plot.bar(x='Estado', y='Valor_Venda', color='royalblue')
plt.title('Total de vendas por Estado')
plt.show()

Resposta correta, mas as ticks do eixo x devem ser rotacionadas para proporcionar uma leitura mais agradável.

## Pergunta de Negócio 4:

### Quais São as 10 Cidades com Maior Total de Vendas?

Demonstre o resultado através de um gráfico de barras.

In [None]:
df_dsa_vendas_cidades = df_dsa.groupby('Cidade')['Valor_Venda'].sum().reset_index()

In [None]:
df_dsa_vendas_cidades_top_10 = df_dsa_vendas_cidades.sort_values(by='Valor_Venda', ascending=False).head(10)

In [None]:
plt.figure(figsize=(15, 6))
sns.barplot(data=df_dsa_vendas_cidades_top_10, y='Valor_Venda', x='Cidade').set(title='Top 10 Cidades com maior total de vendas')
plt.show()

Resposta correta. É possível mudar a paleta de cores usando: `sns.set_palette()`

## Pergunta de Negócio 5:

### Qual Segmento Teve o Maior Total de Vendas?

Demonstre o resultado através de um gráfico de pizza.

In [None]:
df_dsa.head()

In [None]:
df_dsa[['Segmento', 'Valor_Venda']].info()

In [None]:
df_dsa['Segmento'].unique()

In [None]:
df_dsa_segmento_vendas = df_dsa.groupby('Segmento')['Valor_Venda'].sum().reset_index().sort_values(by='Valor_Venda', ascending=False).head()

In [None]:
df_dsa_segmento_vendas['Valor_Venda']

In [None]:
fig, ax = plt.subplots()
ax.pie(df_dsa_segmento_vendas['Valor_Venda'], explode=[.1, 0, 0], labels=df_dsa_segmento_vendas['Segmento'], autopct='%1.2f%%')
plt.show

A resposta está correta. Foi recomendado pelo docente formatar o valor total de vendas.

## Pergunta de Negócio 6 (Desafio Nível Baby):

### Qual o Total de Vendas Por Segmento e Por Ano?

In [None]:
df_dsa['Data_Pedido'].info()

In [None]:
df_dsa['Ano_Pedido'] = df_dsa['Data_Pedido'].str[-4:].astype('int64')

In [None]:
df_dsa.groupby(['Segmento', 'Ano_Pedido'])['Valor_Venda'].sum().reset_index()

A solução está correta, a resposta do docente foi diferente.

In [None]:
df_dsa['Data_Pedido'] = pd.to_datetime(df_dsa['Data_Pedido'], dayfirst=True)

In [None]:
df_dsa['Ano'] = df_dsa['Data_Pedido'].dt.year

In [None]:
df_dsa_p6 = df_dsa.groupby(['Ano', 'Segmento'])['Valor_Venda'].sum()

In [None]:
df_dsa_p6

## Pergunta de Negócio 7 (Desafio Nível Júnior):

Os gestores da empresa estão considerando conceder diferentes faixas de descontos e gostariam de fazer uma simulação com base na regra abaixo:

- Se o Valor_Venda for maior que 1000 recebe 15% de desconto.
- Se o Valor_Venda for menor que 1000 recebe 10% de desconto.

### Quantas Vendas Receberiam 15% de Desconto?

In [None]:
quantidade_vendas_maior_1000 = df_dsa['Valor_Venda'][df_dsa['Valor_Venda'] > 1000].count()

In [None]:
quantidade_vendas_menor_1000 = df_dsa['Valor_Venda'][df_dsa['Valor_Venda'] < 1000].count()

In [None]:
print(f'A quantidade de vendas que receberiam 15% de desconto é {quantidade_vendas_maior_1000}')

In [None]:
print(f'A quantidade de vendas que receberiam 10% de desconto é {quantidade_vendas_menor_1000}')

A resposta está correta. O docente adicionaou uma nova coluna nos dados e fez os cálculos em cada linha do DataFrame.

In [None]:
df_dsa['Desconto'] = np.where(df_dsa['Valor_Venda'] > 1000, 0.15, 0.10)

In [None]:
df_dsa['Desconto'].value_counts()

## Pergunta de Negócio 8 (Desafio Nível Master):

### Considere Que a Empresa Decida Conceder o Desconto de 15% do Item Anterior. Qual Seria a Média do Valor de Venda Antes e Depois do Desconto?

In [None]:
# média de venda antes do desconto
print(f"A média do valor de venda antes do desconto é de {round(df_dsa['Valor_Venda'][df_dsa['Valor_Venda'] > 1000].mean(), 2)}.")

In [None]:
df_dsa['valor_venda_desconto'] = np.where(df_dsa['Valor_Venda'] > 1000, 
                                          df_dsa['Valor_Venda'] - df_dsa['Valor_Venda'] * 0.15, 
                                          df_dsa['Valor_Venda'])

In [None]:
print(f"A média do valor de venda depois do desconto é de {round(df_dsa['valor_venda_desconto'][df_dsa['Valor_Venda'] > 1000].mean(), 2)}.")

A resposta está correta. A forma do docente foi diferente.

In [None]:
df_dsa['Valor_Venda_Desconto'] = df_dsa['Valor_Venda'] - (df_dsa['Valor_Venda'] * df_dsa['Desconto'])

In [None]:
df_dsa_p8_vendas_antes = df_dsa.loc[df_dsa['Desconto']==0.15, 'Valor_Venda'].mean()

In [None]:
# df_dsa_p8_vendas_depois = df_dsa.loc[df_dsa['Desconto']==0.15, 'Valor_Venda_desconto'].mean()

## Pergunta de Negócio 9 (Desafio Nível Master Ninja):

### Qual o Média de Vendas Por Segmento, Por Ano e Por Mês?

Demonstre o resultado através de gráfico de linha.

In [None]:
df_dsa.head()

In [None]:
df_dsa['Data_Pedido'].info()

In [None]:
df_dsa['Mes'] = df_dsa['Data_Pedido'].dt.month

In [None]:
df_dsa_media_vendas_segmento_ano_mes = df_dsa.groupby(['Segmento', 'Ano_Pedido', 'Mes'])['Valor_Venda'].agg([np.mean])

In [None]:
df_dsa_media_vendas_segmento_ano_mes.index

In [None]:
segmento = df_dsa_media_vendas_segmento_ano_mes.index.get_level_values(0)
ano_pedido = df_dsa_media_vendas_segmento_ano_mes.index.get_level_values(1)
mes = df_dsa_media_vendas_segmento_ano_mes.index.get_level_values(2)

In [None]:
plt.figure(figsize=(12, 6))
fig1 = sns.relplot(kind='line',
                   data=df_dsa_media_vendas_segmento_ano_mes,
                   y='mean',
                   x=mes,
                   hue=segmento,
                   col=ano_pedido,
                   col_wrap=2)
plt.show()

Esse foi mais difícil, mas tudo certo isso fas parte do processo de aprendizagem.

## Pergunta de Negócio 10 (Desafio Nível Master Ninja das Galáxias):

### Qual o Total de Vendas Por Categoria e SubCategoria, Considerando Somente as Top 12 SubCategorias? 

Demonstre tudo através de um único gráfico.

# Fim