In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

In [None]:
#carregando dataset
df = pd.read_csv('dados/dataset.csv')

In [None]:
# Amostra dos dados
df.head()

In [None]:
#checagem inicial do dataframe 
df.info()

In [None]:
df[df.duplicated()]

## Agora podemos começar algumas perguntas
## Pergunta de Negócio 1:

### Qual Cidade com Maior Valor de Venda de Produtos da Categoria 'Office Supplies'?

In [None]:
#Filtro de Categoria
maior_valor_venda = df[df['Categoria'] == 'Office Supplies']

In [None]:
#agrupamento da info que quemos com groupby
cidade_vendas_max= maior_valor_venda.groupby(['Cidade','Categoria'])['Valor_Venda'].sum()

In [None]:
#usando o idmax para encontar a cidade com mais vendas e depois printando a infromação
maior_venda = cidade_vendas_max.idxmax()
print(f"Cidade com maior valor de venda para 'Office Supplies': {maior_venda}")

## Pergunta de Negócio 2:

### Qual o Total de Vendas Por Ano?

a partir daqui pra tornar tudo mais visivel vamos usar gráficos com matplotlib e seaborn

In [None]:
df.head()

In [None]:
#para responder essa vou utilizar o datetime para extrair o ano da coluna Data_Pedido e criar a cluna ano
df['Data_Pedido'] = pd.to_datetime(df['Data_Pedido'], dayfirst=True)

In [None]:
#veficiando se o type foi modificado
df.info()

In [None]:
#agora é so criar a tabela ano
df['Ano'] = df['Data_Pedido'].dt.year

In [None]:
#verificando se a coluna foi criada
df.head()

In [None]:
#com a coluna criada, agora é so agrupar
total_vendas_ano = df.groupby('Ano')['Valor_Venda'].sum().reset_index()

In [None]:
total_vendas_ano

In [None]:
#agora vamos tornar isso visual, utilizando seaborn
fig, ax = plt.subplots(figsize =(10,6))
sns.barplot(data = total_vendas_ano, 
            y = 'Valor_Venda', 
            x = 'Ano',
            estimator="sum").set(title = 'Vendas Por Ano')
ax.bar_label(ax.containers[0], fontsize=10)
ax.set_ylabel('Valor em $')
plt.show()



## Pergunta de Negócio 3:

### Qual o Total de Vendas por Estado?




In [None]:
df.head()

In [None]:
#novamente usar o groupby para agrupar
vendas_estado = df.groupby('Estado')['Valor_Venda'].sum().reset_index()

In [None]:
vendas_estado.head()

In [None]:
#reaproveitando o codigo do grafico passado
fig, ax = plt.subplots(figsize =(16,6))
sns.barplot(data = vendas_estado, 
            y = 'Valor_Venda', 
            x = 'Estado',
            estimator='sum'
            ).set(title = 'Vendas por estado')
plt.xticks(rotation = 80)
ax.set_ylabel('Valor em $')
plt.show()

## Pergunta de Negócio 4:

### Quais São as 10 Cidades com Maior Total de Vendas?



In [None]:
#mais uma vez o groupby
vendas_cidade = df.groupby('Cidade')['Valor_Venda'].sum().reset_index().sort_values(by='Valor_Venda',ascending=False).head(10)

In [None]:
#reaproveitando o codigo do grafico passado
fig, ax = plt.subplots(figsize =(16,6))
sns.barplot(data = vendas_cidade, 
            y = 'Valor_Venda', 
            x = 'Cidade',
            estimator='sum').set(title = 'As 10 Cidades com Maior Total de Vendas')
ax.bar_label(ax.containers[0], fontsize=10)
plt.xticks(rotation = 80)
ax.set_ylabel('Valor em $')
plt.show()

## Pergunta de Negócio 5:

### Qual Segmento Teve o Maior Total de Vendas?

In [None]:
# Agrupamos por segmento e calculamos o total de vendas
maior_seg = df.groupby('Segmento')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda',
                                                                                      ascending = False)

In [None]:
maior_seg

In [None]:
#como o valor está em numeros cientificos, precisamos de um função para mudar esse comportamente
def autopct_format(values): 
    def my_format(pct): 
        total = sum(values) 
        val = int(round(pct * total / 100.0))
        return ' $ {v:d}'.format(v = val)
    return my_format

In [None]:
# faremos um grafico de pizza nesse já que são poucas categorias
plt.figure(figsize = (16, 6))

# Gráfico de pizza
plt.pie(maior_seg['Valor_Venda'], 
        labels = maior_seg['Segmento'],
        autopct = autopct_format(maior_seg['Valor_Venda']),
        startangle = 90)
plt.title('Vendas por categoria')

plt.show()