<a href="https://colab.research.google.com/github/odharamaggi/Analise_Dados_Python/blob/main/An%C3%A1lise_de_Dados_com_Python_e_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## *Seleção e transformação dos dados*



In [1]:
# Importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

In [3]:
# Importando arquivos

df = pd.read_excel("/content/drive/MyDrive/datasets/AdventureWorks.xlsx")

In [4]:
# Visualizando primeiras linhas do dataset

df.head()

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,Valor Venda,Produto,Fabricante,Marca,Classe,Cor
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
2,2008-05-14,2008-05-20,306,384,19052,200805143CS576,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
3,2008-05-21,2008-05-27,306,384,19052,200805213CS576,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
4,2008-06-20,2008-06-27,306,384,19053,200806203CS586,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red


In [10]:
# Verificando quantidade de linhas e colunas

df.shape

(904, 16)

In [11]:
# Verificando o nome e o tipo de dado em cada coluna

df.dtypes

Data Venda        datetime64[ns]
Data Envio        datetime64[ns]
ID Loja                    int64
ID Produto                 int64
ID Cliente                 int64
No. Venda                 object
Custo Unitário           float64
Preço Unitário           float64
Quantidade                 int64
Valor Desconto           float64
Valor Venda              float64
Produto                   object
Fabricante                object
Marca                     object
Classe                    object
Cor                       object
dtype: object

In [42]:
# Verificando se há dados vazios

df.isnull().sum()

Data Venda        0
Data Envio        0
ID Loja           0
ID Produto        0
ID Cliente        0
No. Venda         0
Custo Unitário    0
Preço Unitário    0
Quantidade        0
Valor Desconto    0
Valor Venda       0
Produto           0
Fabricante        0
Marca             0
Classe            0
Cor               0
Custo Total       0
Lucro             0
Tempo de envio    0
dtype: int64

In [43]:
# Criando a coluna de "Custo Total"

df["custo_total"] = df["Custo Unitário"].mul(df["Quantidade"])

In [44]:
# Criando a coluna de "Lucro"

df["lucro"] = df["Valor Venda"] - df["Custo Total"]

In [45]:
# Criando coluna de "Tempo de envio" com o tipo de dado numérico

df["tempo_de_envio"] = (df["Data Envio"] - df["Data Venda"]).dt.days

In [46]:
# Confirmando se o tipo de dado da nova coluna "Tempo de envio" é realmente numérico

df["tempo_de_envio"].dtypes

dtype('int64')

In [47]:
# Visualizando as novas colunas inseridas

df.head()

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,...,Fabricante,Marca,Classe,Cor,Custo Total,Lucro,Tempo de envio,custo_total,lucro,tempo_de_envio
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,...,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,20,2091.48,2456.52,20
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.0,6,0.0,...,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,5,2091.48,2456.52,5
2,2008-05-14,2008-05-20,306,384,19052,200805143CS576,348.58,758.0,6,0.0,...,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,6,2091.48,2456.52,6
3,2008-05-21,2008-05-27,306,384,19052,200805213CS576,348.58,758.0,6,0.0,...,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,6,2091.48,2456.52,6
4,2008-06-20,2008-06-27,306,384,19053,200806203CS586,348.58,758.0,6,0.0,...,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,7,2091.48,2456.52,7


## *Analisando os dados*

In [63]:
# Configurando o formato do tipo de dado float

pd.options.display.float_format = '{:20,.2f}'.format

In [64]:
# Qual o tempo médio de envio por Marca?

df.groupby("Marca")["tempo_de_envio"].mean()

Marca
Adventure Works                   8.66
Contoso                           8.47
Fabrikam                          8.51
Name: tempo_de_envio, dtype: float64

In [65]:
# Qual o lucro por ano e por marca?

df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum()

Data Venda  Marca          
2008        Adventure Works             306,641.16
            Contoso                      56,416.00
            Fabrikam                  1,557,020.55
2009        Adventure Works             405,395.08
            Contoso                     138,258.95
            Fabrikam                  1,034,091.35
Name: lucro, dtype: float64

In [67]:
# Criando um novo dataframe para armazenar o resumo sintético do lucro por marca e ano

lucro_ano = df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum().reset_index()
lucro_ano

Unnamed: 0,Data Venda,Marca,lucro
0,2008,Adventure Works,306641.16
1,2008,Contoso,56416.0
2,2008,Fabrikam,1557020.55
3,2009,Adventure Works,405395.08
4,2009,Contoso,138258.95
5,2009,Fabrikam,1034091.35
