In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

In [None]:
#carregando dataset
df = pd.read_csv('dados/dataset.csv')

In [None]:
# Amostra dos dados
df.head()

In [None]:
#checagem inicial do dataframe 
df.info()

In [None]:
df[df.duplicated()]

## Agora podemos começar algumas perguntas
## Pergunta de Negócio 1:

### Qual Cidade com Maior Valor de Venda de Produtos da Categoria 'Office Supplies'?

In [None]:
#Filtro de Categoria
maior_valor_venda = df[df['Categoria'] == 'Office Supplies']

In [None]:
#agrupamento da info que quemos com groupby
cidade_vendas_max= maior_valor_venda.groupby(['Cidade','Categoria'])['Valor_Venda'].sum()

In [None]:
#usando o idmax para encontar a cidade com mais vendas e depois printando a infromação
maior_venda = cidade_vendas_max.idxmax()
print(f"Cidade com maior valor de venda para 'Office Supplies': {maior_venda}")

## Pergunta de Negócio 2:

### Qual o Total de Vendas Por Ano?

a partir daqui pra tornar tudo mais visivel vamos usar gráficos com matplotlib e seaborn

In [None]:
df.head()

In [None]:
#para responder essa vou utilizar o datetime para extrair o ano da coluna Data_Pedido e criar a cluna ano
df['Data_Pedido'] = pd.to_datetime(df['Data_Pedido'], dayfirst=True)

In [None]:
#veficiando se o type foi modificado
df.info()

In [None]:
#agora é so criar a tabela ano
df['Ano'] = df['Data_Pedido'].dt.year

In [None]:
#verificando se a coluna foi criada
df.head()

In [None]:
#com a coluna criada, agora é so agrupar
total_vendas_ano = df.groupby('Ano')['Valor_Venda'].sum().reset_index()

In [None]:
total_vendas_ano

In [None]:
#agora vamos tornar isso visual, utilizando seaborn
fig, ax = plt.subplots(figsize =(10,6))
sns.barplot(data = total_vendas_ano, 
            y = 'Valor_Venda', 
            x = 'Ano',
            estimator="sum").set(title = 'Vendas Por Ano')
ax.bar_label(ax.containers[0], fontsize=10)
ax.set_ylabel('Valor em $')
plt.show()



## Pergunta de Negócio 3:

### Qual o Total de Vendas por Estado?




In [None]:
df.head()

In [None]:
#novamente usar o groupby para agrupar
vendas_estado = df.groupby('Estado')['Valor_Venda'].sum().reset_index()

In [None]:
vendas_estado.head()

In [None]:
#reaproveitando o codigo do grafico passado
fig, ax = plt.subplots(figsize =(16,6))
sns.barplot(data = vendas_estado, 
            y = 'Valor_Venda', 
            x = 'Estado',
            estimator='sum'
            ).set(title = 'Vendas por estado')
plt.xticks(rotation = 80)
ax.set_ylabel('Valor em $')
plt.show()

## Pergunta de Negócio 4:

### Quais São as 10 Cidades com Maior Total de Vendas?



In [None]:
#mais uma vez o groupby
vendas_cidade = df.groupby('Cidade')['Valor_Venda'].sum().reset_index().sort_values(by='Valor_Venda',ascending=False).head(10)

In [None]:
#reaproveitando o codigo do grafico passado
fig, ax = plt.subplots(figsize =(16,6))
sns.barplot(data = vendas_cidade, 
            y = 'Valor_Venda', 
            x = 'Cidade',
            estimator='sum').set(title = 'As 10 Cidades com Maior Total de Vendas')
ax.bar_label(ax.containers[0], fontsize=10)
plt.xticks(rotation = 80)
ax.set_ylabel('Valor em $')
plt.show()

## Pergunta de Negócio 5:

### Qual Segmento Teve o Maior Total de Vendas?

In [None]:
# Agrupamos por segmento e calculamos o total de vendas
maior_seg = df.groupby('Segmento')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda',
                                                                                      ascending = False)

In [None]:
maior_seg

In [None]:
#como o valor está em numeros cientificos, precisamos de um função para mudar esse comportamente
def autopct_format(values): 
    def my_format(pct): 
        total = sum(values) 
        val = int(round(pct * total / 100.0))
        return ' $ {v:d}'.format(v = val)
    return my_format

In [None]:
# faremos um grafico de pizza nesse já que são poucas categorias
plt.figure(figsize = (16, 6))

# Gráfico de pizza
plt.pie(maior_seg['Valor_Venda'], 
        labels = maior_seg['Segmento'],
        autopct = autopct_format(maior_seg['Valor_Venda']),
        startangle = 90)
plt.title('Vendas por categoria')

plt.show()

In [None]:
## Pergunta de Negócio 6 

### Qual o Total de Vendas Por Segmento e Por Ano?

In [None]:
df.head()

In [None]:
venda_seg_ano = df.groupby(['Segmento','Ano'])['Valor_Venda'].sum().reset_index()

In [None]:
venda_seg_ano

In [None]:
#aproveitando um gráfico de outro projeto que tenho no github para plotar o resultado dos 3 anos
#dando ênfase ao maior valor
fig,ax = plt.subplots(figsize=(16,6))

wid = 0.2

ax.bar(venda_seg_ano[venda_seg_ano['Segmento'] == 'Consumer'].Ano.values-wid,venda_seg_ano[venda_seg_ano['Segmento'] == 'Consumer'].Valor_Venda.values,
       color = '#00c698',label='Consumer',width=wid,)
ax.bar(venda_seg_ano[venda_seg_ano['Segmento'] == 'Corporate'].Ano.values,venda_seg_ano[venda_seg_ano['Segmento'] == 'Corporate'].Valor_Venda.values,
       color = '#00a9b5',label='Corporate',width=wid)
ax.bar(venda_seg_ano[venda_seg_ano['Segmento'] == 'Home Office'].Ano.values+wid,venda_seg_ano[venda_seg_ano['Segmento'] == 'Home Office'].Valor_Venda.values,
       color = '#008ac5',label='Home Office',width=wid)
ax.bar_label(ax.containers[0],fontsize=10)

ax.xaxis.set_ticks([2015,2016,2017,2018])

ax.legend()

plt.show()

## Pergunta de Negócio 7 
### Seguindo as condições abaixo, quantas Vendas Receberiam 15% de Desconto?

- Se o Valor_Venda for maior que 1000 recebe 15% de desconto.
- Se o Valor_Venda for menor que 1000 recebe 10% de desconto.



In [None]:
#podemos contar os valores a partir do value counts,porem não temos a coluna ainda, por isso precisamos criar
#uma forma simples de aplicar essa condição é usando o np.where, que é um if e else basicamente

In [None]:
df["Desconto"] = np.where(df["Valor_Venda"] > 1000, 0.15, 0.10)

In [None]:
#verificando se a tabela foi criada
df.head()

In [None]:
#agora podemos usar o loc para localizar no dataframe exatamente as linhas que cumprem o requisito
# e depois usar o len(), pra ter a resposta em forma de int
total = df.loc[df['Desconto'] == 0.15].__len__()
print(f'o total de vendas que receberia 15% de desconto é de {total}')

## Pergunta de Negócio 8:

### Qual o Média de Vendas Por Segmento, Por Ano e Por Mês?


In [None]:
df.head()

In [None]:
#criando a tabela mÊs ja que não temos
df['Mes'] = df['Data_Pedido'].dt.month

In [None]:
#verificando se foi criada
df.head()

In [None]:
#agora é só agupar com groupby e tirar sua média, aqui vou colocar a soma e mediana tambem  pra treinar a func agg
df_media = df.groupby(['Ano', 'Mes', 'Segmento'])['Valor_Venda'].agg(['sum','mean','median'])

In [None]:
df_media

## FIM POR ENQUANTO