# **Base de Vendas**

In [None]:
#importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('seaborn')

In [None]:
#upload do arquivo
from google.colab import files
arq = files.upload()

In [None]:
#Criando data Frame
df = pd.read_excel('AdventureWorks.xlsx')

In [None]:
#Visualizando as 5 primeiras linhas
df.head()

In [None]:
#Quantidade de linhas e colunas
df.shape

(904, 16)

In [None]:
#Verificando o tipo de dados
df.dtypes

In [None]:
#Verificando a receita total
df['Valor Venda'].sum()

5984606.1426

In [None]:
#Calculando o custo total
df['Custo'] = df['Custo Unitário'].mul(df['Quantidade']) #Cria a coluna Custo

In [None]:
df.head()

In [None]:
#Qual o custo total
round(df['Custo'].sum(), 2) #arredonda o valor em 2 casas decimais

In [None]:
#Criando a coluna e encontrando o lucro total (Receita - Custo)
df['Lucro'] = df['Valor Venda'] - df['Custo']

In [None]:
df.head()

In [None]:
#Lucro total
round(df['Lucro'].sum(), 2)

In [None]:
#Criando uma coluna com o tempo total para o envio do produto
df['Tempo_envio'] = df['Data Envio'] - df['Data Venda']

In [None]:
df.head()

**Calculando a média do tempo de envio para cada marca, de forma quea coluna Tempo_envio seja do tipo numérico**

In [None]:
#Extraindo apenas os dias
df['Tempo_envio'] = (df['Data Envio'] - df['Data Venda']).dt.days

In [None]:
df.head()

In [None]:
#verificando o tipo da coluna Tempo_envio
df['Tempo_envio'].dtype

In [None]:
#Média do tempo de envio por marca
df.groupby('Marca')['Tempo_envio'].mean()

### **Missing Values**

In [None]:
#Verificando se há dados faltantes
df.isnull().sum()

### ***Agrupando por Ano e por Marca***

In [None]:
df.groupby([df['Data Venda'].dt.year, 'Marca'])['Lucro'].sum()

In [None]:
pd.options.display.float_format = '{:20,.2f}'.format #Configura o formato de apresentação dos numeros flutuantes (float)

In [None]:
#resetando o Index
lucro_ano = df.groupby([df['Data Venda'].dt.year, 'Marca'])['Lucro'].sum().reset_index() #reseta o index para armazenar os dados em formato de colunas em um novo dataframe
lucro_ano

In [None]:
#total de produtos vendidos
df.groupby('Produto')['Quantidade'].sum().sort_values(ascending=False)

In [None]:
#gráfico total de produtos
df.groupby('Produto')['Quantidade'].sum().sort_values(ascending=True).plot.barh(title='Total de produtos vendido')
plt.xlabel('Total')
plt.ylabel('Produto');

In [None]:
#lucro por ano
df.groupby(df['Data Venda'].dt.year)['Lucro'].sum().plot.bar(title='Lucro x Ano')
plt.xlabel('Ano')
plt.ylabel('Receita');

In [None]:
#selecionando as vendas de 2009
df_2009 = df[df['Data Venda'].dt.year == 2009]

In [None]:
df_2009.head()

In [None]:
#lucro por mês
df_2009.groupby(df_2009['Data Venda'].dt.month)['Lucro'].sum().plot(title='Lucro x Mês')
plt.xlabel('Mês')
plt.ylabel('Lucro');

In [None]:
#lucro por marca
df_2009.groupby('Marca')['Lucro'].sum().plot.bar(title='Lucro x Marca')
plt.xlabel('Marca')
plt.ylabel('Lucro');

In [None]:
#lucro por classe de produto
df_2009.groupby('Classe')['Lucro'].sum().plot.bar(title='Lucro x Classe')
plt.xlabel('Classe')
plt.ylabel('Lucro')
plt.xticks(rotation='horizontal'); #coloca as legendas na orientalção vertical

In [None]:
#análises estatisticas básicas do dataset
df_2009['Tempo_envio'].describe()

In [None]:
#gráfico de Boxplot
plt.boxplot(df['Tempo_envio']);

In [None]:
#Histograma
plt.hist(df['Tempo_envio']);

In [None]:
#Tempo minimo de envio
df['Tempo_envio'].min()

In [None]:
#Tempo máximo de envio
df['Tempo_envio'].max()

In [None]:
#Identificador de Outlier (filtragem)
df[df['Tempo_envio'] == 20]

In [None]:
#Salvando em novo arquivo
df.to_csv('df_Vendas_novo.csv', index=False)