## Projeto 2

Para o Projeto 2 o objetivo é responder 10 perguntas de negócio a partir de um dataset sobre uma rede de varejo que comercializa diversos produtos em diversas cidades dos EUA.

Os dados são reais e foram extraídos do link:

https://community.tableau.com/s/question/0D54T00000CWeX8SAL/sample-superstore-sales-excelxlsFizemos


### Pacotes

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

### Leitura dos dados

In [None]:
df_dados = pd.read_csv('C:/Users/prisc/Downloads/dataset.csv')

### Analise exploratória dos dados

In [None]:
# Nome das colunas
print(df_dados.columns)

In [None]:
# Verificar o tipo de dado de cada coluna
df_dados.dtypes

In [None]:
df_dados.head(3)

In [None]:
print("Formato dados:", df_dados.shape)

In [None]:
# Convertendo a coluna 'data_objeto' para o tipo de data dd/mm/yyyy
df_dados['Data_Pedido'] = pd.to_datetime(df_dados['Data_Pedido'], format='%d/%m/%Y')

df_dados.dtypes

In [None]:
print(df_dados['Data_Pedido'][0])

In [None]:
# Verificando se há registros duplicados
df_dados[df_dados.duplicated()]

In [None]:
# Verificando de há valores ausentes
df_dados.isnull().sum()

In [None]:
# Amostra da tabela
df_dados.sample(3)

### Perguntas de negócio:

1) Qual Cidade com Maior Valor de Venda de Produtos da Categoria 'Office Supplies'?

In [None]:
# Ordenando os dados de Office Supplies por maior valor de venda
df_dados[df_dados['Categoria'] == 'Office Supplies'] \
        .sort_values(by='Valor_Venda', ascending=False)\
        [['Pais', 'Cidade','Estado', 'Valor_Venda']].head()

A Cidade com maior valor de venda para a categoria 'Office Supplies' é a cidade de Michigan com valor de venda de 9892,74.

2) Qual o Total de Vendas Por Data do Pedido? Demonstre o resultado através de um gráfico.

In [None]:
total_venda_por_data = df_dados.groupby('Data_Pedido')['Valor_Venda'].sum()

total_venda_por_data.to_frame().sort_values(by='Valor_Venda')

In [None]:
plt.figure(figsize=(10, 5))  

total_venda_por_data.plot(x = 'Data_Pedido', y = 'Valor_Venda')

# Rotacionar eixo
plt.xticks(rotation=45)

# Adicionar rótulos e título
plt.xlabel('Data do Pedido')
plt.ylabel('Total de Venda')
plt.title('Valor Total de Vendas por Data de Pedido')


plt.show();


3) Qual o Total de Vendas por Estado? Demonstre o resultado através de um gráfico de barras.

In [None]:
total_estado = df_dados.groupby('Estado')['Valor_Venda'].sum().reset_index()
total_estado.head()

In [None]:
plt.figure(figsize = (10, 4))
sns.barplot(data = total_estado, 
            y = 'Valor_Venda', 
            x = 'Estado')
plt.title("Total de vendas por Estado")
plt.ylabel("Total vendas")
plt.xticks(rotation = 90)
plt.show()

4. Quais São as 10 Cidades com Maior Total de Vendas?Demonstre o resultado através de um gráfico de barras.

In [None]:
top_10_vendas = total_estado.nlargest(10, 'Valor_Venda')
top_10_vendas["Posicao"] = range(1,11)
print("Os 10 estados com maior total de vendas são:")
top_10_vendas.iloc[:,[2,0,1]]

In [None]:
plt.figure(figsize = (10, 4))
sns.barplot(data = top_10_vendas, 
            y = 'Valor_Venda', 
            x = 'Estado')
plt.title("Os 10 Estados com mais vendas")
plt.ylabel("Total vendas")
plt.xticks(rotation = 30)
plt.show()

5. Qual Segmento Teve o Maior Total de Vendas?Demonstre o resultado através de um gráfico de pizza

In [None]:
total_segmento = df_dados.groupby('Segmento')['Valor_Venda'].sum().reset_index()

total_segmento


In [None]:
plt.figure(figsize=(8, 6))
plt.pie(total_segmento['Valor_Venda'],labels = total_segmento['Segmento'] , autopct='%1.1f%%');
plt.title('Vendas por Segmento')
plt.show()

6. Qual o Total de Vendas Por Segmento e Por Ano?


In [None]:
# Criando a variavel ano
df_dados["Ano"] = df_dados["Data_Pedido"].dt.year

# Agrupar por segmento e ano
df_dados.groupby(['Segmento','Ano'])['Valor_Venda'].sum()

In [None]:
# Agrupar por Ano e segmento
df_dados.groupby(['Ano','Segmento'])['Valor_Venda'].sum()

7. Os  gestores  da  empresa  estão  considerando conceder  diferentes  faixas  de  descontos  e gostariam de fazer uma simulação com base na regra abaixo:
- Se o Valor_Venda for maior que 1000 recebe 15% de desconto.
- Se o Valor_Venda for menor que 1000 recebe 10% de desconto.

- Quantas Vendas Receberiam 15% de Desconto?

In [None]:
# Soma o total de ocorrencias com valor de venda maior que 1000
n_vendas = (df_dados["Valor_Venda"] > 1000).sum()

print(n_vendas, "vendas receberiam 15% de desconto.")

8. Considere  Que  a  Empresa  Decida  Conceder  o  Desconto  de  15%  do  Item  Anterior.  Qual Seria a Média do Valor de Venda Antes e Depois do Desconto?

In [None]:
media_antes = df_dados["Valor_Venda"].mean()

valor_venda_desconto= [v*0.85 if v > 1000 else v for v in df_dados["Valor_Venda"]]

media_depois = np.array(valor_venda_desconto).mean()

print("A Média do valor de vendas antes do desconto é de:", round(media_antes))
print("A Média do valor de vendas depois do desconto é de:", round(media_depois))

9. Qual o Média de Vendas Por Segmento, Por Ano e Por Mês?Demonstre o resultado através de gráfico de linha.

In [None]:
df_dados.columns

In [None]:
# Criando a coluna "mes"
df_dados["Mes"] = df_dados["Data_Pedido"].dt.month

media_venda = df_dados.groupby(['Segmento','Ano','Mes'])['Valor_Venda'].mean().reset_index()

media_venda

In [None]:
# sns.lineplot(data = df_dados, x = "Mes", y = 'Valor_Venda',
#             hue = "Segmento", style="Segmento", ci=None);

g = sns.FacetGrid(df_dados, col='Ano', col_wrap=2, height=4, aspect=1)

g.map(sns.lineplot,"Mes", 'Valor_Venda',  "Segmento",  ci=None ).add_legend()

plt.show()




10. Qual o Total de Vendas Por Categoria e SubCategoria, Considerando Somente as Top 12 SubCategorias? Demonstre tudo através de um único gráfico

In [None]:
top_categorias = df_dados.groupby(['Categoria','SubCategoria'])['Valor_Venda'].\
    sum().rename('Total_Venda').reset_index().\
        nlargest(12, 'Total_Venda').sort_values(by = ['Categoria','Total_Venda'], ascending = False)

top_categorias

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(data=top_categorias, x='Total_Venda', y='SubCategoria', hue='Categoria')
plt.title("Top 12 Subcategorias com mais vendas")
plt.ylabel("Sub Categoria")
plt.xlabel("Total Vendas")

plt.show()
