<a href="https://colab.research.google.com/github/pablohenrique93/projeto2-capitulo13-curso-datascience-academy/blob/main/project_2_ds4_exploratory_data_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importação das Bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

# Carregamento do Dataset

In [None]:
df = pd.read_csv('/content/dataset.csv')

# Pré Visualização do Dataset

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.shape

(9994, 21)

# Análise Exploratória

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
# Resumo Estatístico
df['Valor_Venda'].describe()

In [None]:
# Verificando se há registros duplicados
df[df.duplicated()]

In [None]:
# Verificando de há valores ausentes
df.isnull().sum()

# Pergunta de Negócio 1:

## Qual Cidade com Maior Valor de Venda de Produtos da Categoria 'Office Supplies'?

In [None]:
# Primeiro filtramos o dataframe com os registros da categoria que desejamos
df_p1 = df[df['Categoria'] == 'Office Supplies']

In [None]:
# Em seguida agrupamos por cidade e calculamos o total de valor_venda
df_p1_total = df_p1.groupby('Cidade')['Valor_Venda'].sum()

In [None]:
#  Então encontramos a cidade com maior valor de venda
cidade_maior_venda = df_p1_total.idxmax()
print("Cidade com maior valor de venda para 'Office Supplies':", cidade_maior_venda)

In [None]:
# Para conferir o resultado
df_p1_total.sort_values(ascending = False)

# Pergunta de Negócio 2:

## Qual o Total de Vendas Por Data do Pedido?
## Demonstre o resultado através de um gráfico de barras.

In [None]:
# Calculamos o total de vendas para cada data de pedido
df_p2 = df.groupby('Data_Pedido')['Valor_Venda'].sum()

In [None]:
df_p2.head()

In [None]:
# Plot
plt.figure(figsize = (20, 6)) # Tamanho da figura (20 = largura, 6 = altura)
df_p2.plot(x = 'Data_Pedido', y = 'Valor_Venda', color = 'green') # Definição de Colunas e Cores
plt.title('Total de Vendas Por Data do Pedido') # Título
plt.show() # Exibição

# Pergunta de Negócio 3:

## Qual o Total de Vendas por Estado?

## Demonstre o resultado através de um gráfico de barras.

In [None]:
# Agrupamos por estado e calculamos o total de vendas
df_p3 = df.groupby('Estado')['Valor_Venda'].sum().reset_index()

In [None]:
# Plot
plt.figure(figsize = (16, 6))
sns.barplot(data = df_p3,
            y = 'Valor_Venda',
            x = 'Estado').set(title = 'Vendas Por Estado')
plt.xticks(rotation = 80)
plt.show()

# Pergunta de Negócio 4:

## Quais São as 10 Cidades com Maior Total de Vendas?

## Demonstre o resultado através de um gráfico de barras.

In [None]:
# Agrupamos por cidade, calculamos o total de vendas e ordenamos listando somente os 10 primeiros registros
df_p4 = df.groupby('Cidade')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda',
                                                                                    ascending = False).head(10)

In [None]:
df_p4.head(10)

In [None]:
# Plot
plt.figure(figsize = (16, 6))
sns.set_palette('coolwarm')
sns.barplot(data = df_p4,
            y = 'Valor_Venda',
            x = 'Cidade').set(title = 'As 10 Cidades com Maior Total de Vendas')
plt.show()

# Pergunta de Negócio 5:

## Qual Segmento Teve o Maior Total de Vendas?

## Demonstre o resultado através de um gráfico de pizza.

In [None]:
# Agrupamos por segmento e calculamos o total de vendas
df_p5 = df.groupby('Segmento')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda',
                                                                                      ascending = False)

In [None]:
df_p5.head()

In [None]:
# Função para converter os dados em valor absoluto
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return ' $ {v:d}'.format(v = val)
    return my_format

In [None]:
# Plot

# Tamanho da figura
plt.figure(figsize = (16, 6))

# Gráfico de pizza
plt.pie(df_p5['Valor_Venda'],
        labels = df_p5['Segmento'],
        autopct = autopct_format(df_p5['Valor_Venda']),
        startangle = 90)

# Limpa o círculo central
centre_circle = plt.Circle((0, 0), 0.82, fc = 'white') # Medidas do Círculo e Preenchimento com cor, neste caso, branca
fig = plt.gcf()
fig.gca().add_artist(centre_circle)

# Labels e anotações
plt.annotate(text = 'Total de Vendas: ' + '$ ' + str(int(sum(df_p5['Valor_Venda']))), xy = (-0.25, 0))
plt.title('Total de Vendas Por Segmento')
plt.show()

# Pergunta de Negócio 6 (Desafio Nível Baby):

## Qual o Total de Vendas Por Segmento e Por Ano?

In [None]:
df.head()

In [None]:
# Convertemos a coluna de data para o tipo datetime para obter o formato adequado
df['Data_Pedido'] = pd.to_datetime(df['Data_Pedido'], dayfirst = True)

In [None]:
# Extraímos o ano criando nova variável
df['Ano'] = df['Data_Pedido'].dt.year

In [None]:
df.head()

In [None]:
# Total de vendas por segmento e por ano
df_p6 = df.groupby(['Ano', 'Segmento'])['Valor_Venda'].sum()

In [None]:
df_p6

# Pergunta de Negócio 7 (Desafio Nível Júnior):

Os gestores da empresa estão considerando conceder diferentes faixas de descontos e gostariam de fazer uma simulação com base na regra abaixo:

- Se o Valor_Venda for maior que 1000 recebe 15% de desconto.
- Se o Valor_Venda for menor que 1000 recebe 10% de desconto.

## Quantas Vendas Receberiam 15% de Desconto?

In [None]:
# Cria uma nova coluna de acordo com a regra definida acima
df['Desconto'] = np.where(df['Valor_Venda'] > 1000, 0.15, 0.10)

In [None]:
df.head()

In [None]:
# Total por cada valor da variável
df['Desconto'].value_counts()

In [None]:
print('No Total 457 Vendas Receberiam Desconto de 15%.')

## Pergunta de Negócio 8 (Desafio Nível Master):


## Considere Que a Empresa Decida Conceder o Desconto de 15% do Item Anterior. Qual Seria a Média do Valor de Venda Antes e Depois do Desconto?

In [None]:
# Criamos uma coluna calculando o valor de venda menos o desconto
df['Valor_Venda_Desconto'] = df['Valor_Venda'] - (df['Valor_Venda'] * df['Desconto'])

In [None]:
df.head()

In [None]:
# Filtrando as vendas antes do desconto de 15%
df_dsa_p8_vendas_antes_desconto = df.loc[df['Desconto'] == 0.15, 'Valor_Venda']

In [None]:
# Filtrando as vendas depois do desconto de 15%
df_dsa_p8_vendas_depois_desconto = df.loc[df['Desconto'] == 0.15, 'Valor_Venda_Desconto']

In [None]:
# Calcula a média das vendas antes do desconto de 15%
media_vendas_antes_desconto = df_dsa_p8_vendas_antes_desconto.mean()

In [None]:
# Calcula a média das vendas depois do desconto de 15%
media_vendas_depois_desconto = df_dsa_p8_vendas_depois_desconto.mean()

In [None]:
print("Média das vendas antes do desconto de 15%:", round(media_vendas_antes_desconto, 2))

In [None]:
print("Média das vendas depois do desconto de 15%:", round(media_vendas_depois_desconto, 2))

# Pergunta de Negócio 9 (Desafio Nível Master Ninja):

## Qual o Média de Vendas Por Segmento, Por Ano e Por Mês?

## Demonstre o resultado através de gráfico de linha.

In [None]:
# Extraímos o mês e gravamos em uma nova variável
df['Mes'] = df['Data_Pedido'].dt.month

In [None]:
df.head()

In [None]:
# Agrupamos por ano, mês e segmento e calculamos estatísticas de agregação
df_p9 = df.groupby(['Ano', 'Mes', 'Segmento'])['Valor_Venda'].agg([np.sum, np.mean, np.median])

In [None]:
df_p9

In [None]:
# Vamos extrair os níveis
anos = df_p9.index.get_level_values(0) #índice 0 (Ano)
meses = df_p9.index.get_level_values(1) #índice 1 (Mês)
segmentos = df_p9.index.get_level_values(2) #índice 2 (Segmento)

In [None]:
# Plot
plt.figure(figsize = (12, 6))
sns.set() # Limpar as configs do seaborn, pois ja utilizamos la em cima com algumas pré definções
fig1 = sns.relplot(kind = 'line', # Tipo, nesse caso, Linha
                   data = df_p9,
                   y = 'mean',
                   x = meses,
                   hue = segmentos,
                   col = anos,
                   col_wrap = 4)
plt.show()

# Pergunta de Negócio 10 (Desafio Nível Master Ninja das Galáxias):

## Qual o Total de Vendas Por Categoria e SubCategoria, Considerando Somente as Top 12 SubCategorias?

## Demonstre tudo através de um único gráfico.

In [None]:
df.head()

In [None]:
# Agrupamos por categoria e subcategoria e calculamos a soma somente para variáveus numéricas
df_p10 = df.groupby(['Categoria',
                             'SubCategoria']).sum(numeric_only = True).sort_values('Valor_Venda',
                                                                                   ascending = False).head(12)

In [None]:
# Convertemos a coluna Valor_Venda em número inteiro e classificamos por categoria
df_p10 = df_p10[['Valor_Venda']].astype(int).sort_values(by = 'Categoria').reset_index()

Obs: Classificar o item acima por categoria é importante para preencher o gráfico com as subcategorias para cada categoria de forma ordenada.

In [None]:
# Dataframe com categorias e subcategorias
df_p10

In [None]:
# Criamos outro dataframe somente com os totais por categoria
df_p10_cat = df_p10.groupby('Categoria').sum(numeric_only = True).reset_index()

In [None]:
# Dataframe com categorias
df_p10_cat

In [None]:
# Listas de cores para categorias
cores_categorias = ['#5d00de',
                    '#0ee84f',
                    '#e80e27']

In [None]:
# Listas de cores para subcategorias
cores_subcategorias = ['#aa8cd4',
                       '#aa8cd5',
                       '#aa8cd6',
                       '#aa8cd7',
                       '#26c957',
                       '#26c958',
                       '#26c959',
                       '#26c960',
                       '#e65e65',
                       '#e65e66',
                       '#e65e67',
                       '#e65e68']

In [None]:
# Plot

# Tamanho da figura
fig, ax = plt.subplots(figsize = (18,12))

# Gráfico das categorias
p1 = ax.pie(df_p10_cat['Valor_Venda'],
            radius = 1,
            labels = df_p10_cat['Categoria'],
            wedgeprops = dict(edgecolor = 'white'), #Divisória do gráfico
            colors = cores_categorias)

# Gráfico das subcategorias
p2 = ax.pie(df_p10['Valor_Venda'],
            radius = 0.9,
            labels = df_p10['SubCategoria'],
            autopct = autopct_format(df_p10['Valor_Venda']),
            colors = cores_subcategorias,
            labeldistance = 0.7,
            wedgeprops = dict(edgecolor = 'white'),
            pctdistance = 0.53,
            rotatelabels = True)

# Limpa o centro do círculo
centre_circle = plt.Circle((0, 0), 0.6, fc = 'white')

# Labels e anotações
fig = plt.gcf()
fig.gca().add_artist(centre_circle)
plt.annotate(text = 'Total de Vendas: ' + '$ ' + str(int(sum(df_p10['Valor_Venda']))), xy = (-0.2, 0))
plt.title('Total de Vendas Por Categoria e Top 12 SubCategorias')
plt.show()

# FIM