<a href="https://colab.research.google.com/github/joaogcbarbosa/data_analysis_pandas/blob/main/adventure_works.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
df = pd.read_excel('/content/drive/MyDrive/AdventureWorks.xlsx')

In [3]:
pd.options.display.float_format = '{:,.2f}'.format

In [88]:
df.rename(columns={'Valor Venda': 'Receita'}, inplace=True)

In [83]:
plt.style.use('seaborn') 

In [None]:
#Visualizar as 5 primeiras linhas
df.head()

In [None]:
#Quantidade de linhas e colunas
df.shape

In [None]:
#Verificar os tipos de dados
df.dtypes

In [None]:
#Receita total
f'A receita total é de US${round(df["Receita"].sum(), 2)}'

In [None]:
#Custo total
df['Custo Total'] = df['Custo Unitário'].mul(df['Quantidade'])
round(df["Custo Total"], 2)

In [None]:
#Lucro total
df['Lucro Total'] = df['Receita'] - df['Custo Total']
round(df['Lucro Total'], 2)

In [None]:
#Total de dias para enviar o produto
df['Tempo Envio'] = df['Data Envio'] - df['Data Venda']
df['Tempo Envio']

In [None]:
#Transformar a variável acima em int
df['Tempo Envio'] = df['Tempo Envio'].astype('int64')

In [None]:
#Média de tempo de envio por marca
df['Tempo Envio'] = (df['Data Envio'] - df['Data Venda']).dt.days
df.groupby('Marca')['Tempo Envio'].mean()

In [None]:
#Verificar se há dados faltantes
df.isnull().sum()

In [None]:
#Lucro por ano e marca
lucro_ano_marca = df.groupby([df['Data Venda'].dt.year, 'Marca'])['Lucro Total'].sum()
lucro_ano_marca

In [None]:
#Quantidade de produtos vendidos, agrupado por produto
qtd_produto = df.groupby('Produto')['Quantidade'].sum().sort_values(ascending=False)
qtd_produto

In [None]:
#Gráfico da quantidade de produtos vendidos, agrupado por produto
qtd_produto.plot.pie(title='Produtos vendidos')
plt.ylabel('')

In [None]:
#Gráfico do lucro por ano
df.groupby(df['Data Venda'].dt.year)['Lucro Total'].sum().plot.barh(title='Lucro X Ano')
plt.xlabel('Lucro(Milhões)')
plt.ylabel('Ano')

In [None]:
#Apenas as vendas de 2009
vendas_2009 = df[df['Data Venda'].dt.year == 2009]
vendas_2009.sample(20)

In [None]:
#Gráfico do lucro por mês do ano de 2009
vendas_2009.groupby(vendas_2009['Data Venda'].dt.month)['Lucro Total'].sum().plot(title='Lucro X Mês (2009)')
plt.xlabel('Mês')
plt.ylabel('Lucro')

In [None]:
#Gráfico do lucro por marca do ano de 2009
vendas_2009.groupby('Marca')['Lucro Total'].sum().plot.barh(title='Lucro X Marca (2009)')
plt.xlabel('Lucro (Milhões)')
plt.ylabel('Marca')

In [None]:
#Gráfico do lucro por classe
df.groupby('Classe')['Lucro Total'].sum().plot.barh(title='Lucro X Classe')
plt.xlabel('Lucro (Milhões)')
plt.ylabel('Classe')

In [None]:
#Análise estatística do tempo de envio
df['Tempo Envio'].describe()

In [None]:
#Gráfico de boxplot do tempo de envio
plt.boxplot(df['Tempo Envio'])

In [None]:
#Histograma do tempo de envio
plt.hist(df['Tempo Envio'])

In [None]:
#Tempo mínimo de envio
df['Tempo Envio'].min()

In [None]:
#Tempo máximo de envio
df['Tempo Envio'].max()

In [None]:
#Identificar o outlier
df[df['Tempo Envio'] == 20]