<a href="https://colab.research.google.com/github/EvertonVaz/dioCienciaDados/blob/main/pandasdio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Notebook para a realização do desafio de projeto

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px

In [None]:
# função para formatar numeros
def format_n(n):
  return f'{n:,.2f}'

# analise feita em aula

In [None]:
df = pd.read_excel("AdventureWorks.xlsx")
df.head(2)

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,Valor Venda,Produto,Fabricante,Marca,Classe,Cor
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red


In [None]:
df.dtypes

Data Venda        datetime64[ns]
Data Envio        datetime64[ns]
ID Loja                    int64
ID Produto                 int64
ID Cliente                 int64
No. Venda                 object
Custo Unitário           float64
Preço Unitário           float64
Quantidade                 int64
Valor Desconto           float64
Valor Venda              float64
Produto                   object
Fabricante                object
Marca                     object
Classe                    object
Cor                       object
dtype: object

In [None]:
id_columns = [i for i in df.columns if "ID" in i]
for col in id_columns:
  df[col] = df[col].astype(str)

df.dtypes

Data Venda        datetime64[ns]
Data Envio        datetime64[ns]
ID Loja                   object
ID Produto                object
ID Cliente                object
No. Venda                 object
Custo Unitário           float64
Preço Unitário           float64
Quantidade                 int64
Valor Desconto           float64
Valor Venda              float64
Produto                   object
Fabricante                object
Marca                     object
Classe                    object
Cor                       object
dtype: object

In [None]:
df.shape

(904, 16)

Transformando as colunas para facilitar o uso das mesmas

In [None]:
#transformando todas as colunas em letras minusculas, trocar espaços por "_", e remover pontos
df.columns = [i.replace('.', '').replace(' ', '_') for i in df.columns.str.lower()]

df.columns

Index(['data_venda', 'data_envio', 'id_loja', 'id_produto', 'id_cliente',
       'no_venda', 'custo_unitário', 'preço_unitário', 'quantidade',
       'valor_desconto', 'valor_venda', 'produto', 'fabricante', 'marca',
       'classe', 'cor'],
      dtype='object')

In [None]:
#Qual a receita total ?
format_n(df.valor_venda.sum())

'5,984,606.14'

In [None]:
# qual o custo?
df['custo'] = df.custo_unitário.mul(df.quantidade)
df.head(1)

Unnamed: 0,data_venda,data_envio,id_loja,id_produto,id_cliente,no_venda,custo_unitário,preço_unitário,quantidade,valor_desconto,valor_venda,produto,fabricante,marca,classe,cor,custo
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red,2091.48


In [None]:
#qual o custo total?
format_n(df.custo.sum())

'2,486,783.05'

In [None]:
# qual o lucro?
df['lucro'] = df.valor_venda - df.custo

In [None]:
# lucro total
format_n(df.lucro.sum())

'3,497,823.09'

In [None]:
# quantidade de dias da venda ao envio
df['tempo_envio'] = (df.data_envio - df.data_venda)#.dt.day
df.head(1)

Unnamed: 0,data_venda,data_envio,id_loja,id_produto,id_cliente,no_venda,custo_unitário,preço_unitário,quantidade,valor_desconto,valor_venda,produto,fabricante,marca,classe,cor,custo,lucro,tempo_envio
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,20 days


In [None]:
# encontrei um erro ao tentar utilizar o dt direto
(df.data_envio - df.data_venda).dt.day

AttributeError: ignored

In [None]:
# media de tempo de envio para cada marca
df.groupby(['fabricante']).tempo_envio.mean()

fabricante
Adventure Works   8 days 15:55:57.983193277
Contoso, Ltd      8 days 11:18:08.372093023
Fabrikam, Inc.    8 days 12:14:34.493927125
Name: tempo_envio, dtype: timedelta64[ns]

In [None]:
# contornando o erro acima
df.tempo_envio = df.tempo_envio.astype(str).str.replace('days', '').astype(int)
df.groupby(['fabricante']).tempo_envio.mean()

fabricante
Adventure Works    8.663866
Contoso, Ltd       8.470930
Fabrikam, Inc.     8.510121
Name: tempo_envio, dtype: float64

In [None]:
# verificando dados faltantes 
df.isnull().sum()

data_venda        0
data_envio        0
id_loja           0
id_produto        0
id_cliente        0
no_venda          0
custo_unitário    0
preço_unitário    0
quantidade        0
valor_desconto    0
valor_venda       0
produto           0
fabricante        0
marca             0
classe            0
cor               0
custo             0
lucro             0
tempo_envio       0
dtype: int64

In [None]:
# Lucro por ano e por marca
df.groupby([df.data_venda.dt.year, df.fabricante]).lucro.sum()

data_venda  fabricante     
2008        Adventure Works    3.066412e+05
            Contoso, Ltd       5.641600e+04
            Fabrikam, Inc.     1.557021e+06
2009        Adventure Works    4.053951e+05
            Contoso, Ltd       1.382590e+05
            Fabrikam, Inc.     1.034091e+06
Name: lucro, dtype: float64

In [None]:
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
df.groupby([df.data_venda.dt.year, df.fabricante]).lucro.sum()

data_venda  fabricante     
2008        Adventure Works     306,641.16
            Contoso, Ltd         56,416.00
            Fabrikam, Inc.    1,557,020.55
2009        Adventure Works     405,395.08
            Contoso, Ltd        138,258.95
            Fabrikam, Inc.    1,034,091.35
Name: lucro, dtype: float64

In [None]:
df.groupby([df.data_venda.dt.year, df.fabricante]).lucro.sum().reset_index()

Unnamed: 0,data_venda,fabricante,lucro
0,2008,Adventure Works,306641.16
1,2008,"Contoso, Ltd",56416.0
2,2008,"Fabrikam, Inc.",1557020.55
3,2009,Adventure Works,405395.08
4,2009,"Contoso, Ltd",138258.95
5,2009,"Fabrikam, Inc.",1034091.35


In [None]:
# total de produtos vendidos
df.groupby('produto').quantidade.sum().sort_values(ascending=False)

produto
Headphone Adapter for Contoso Phone E130 Silver    25232
Headphone Adapter for Contoso Phone E130 White     25008
Adventure Works Laptop15.4W M1548 Black             1089
Fabrikam Trendsetter 2/3'' 17mm X100 Grey           1087
Adventure Works Laptop15.4W M1548 Red               1047
Fabrikam Trendsetter 2/3'' 17mm X100 Black           926
Fabrikam Trendsetter 1/3'' 8.5mm X200 Black          884
Fabrikam Trendsetter 1/3'' 8.5mm X200 Grey           845
Fabrikam Trendsetter 1/3'' 8.5mm X200 White          789
Name: quantidade, dtype: int64

In [None]:
produtos = df.groupby('produto').quantidade.sum().sort_values(ascending=True).reset_index()
fig = px.bar(produtos, x=produtos.quantidade, y=produtos.produto, title="Total produtos vendidos", orientation='h')
fig.show()

In [None]:
lucro_ano = df.groupby(df.data_venda.dt.year).lucro.sum().reset_index()
fig = px.bar(lucro_ano, x="data_venda", y="lucro", title="Lucro por ano", text="data_venda")
fig.update_xaxes(showticklabels=False)
fig.show()

In [None]:
df09 = df[df.data_venda.dt.year == 2009]
df09.head(1)

Unnamed: 0,data_venda,data_envio,id_loja,id_produto,id_cliente,no_venda,custo_unitário,preço_unitário,quantidade,valor_desconto,valor_venda,produto,fabricante,marca,classe,cor,custo,lucro,tempo_envio
11,2009-05-02,2009-05-14,199,384,18938,200905023CS847,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,12


In [None]:
lucro09 = df09.groupby(df09.data_venda.dt.month).lucro.sum().reset_index()
lucro09.data_venda = lucro09.data_venda.astype(str)
fig = px.line(lucro09, x="data_venda", y="lucro", title="Lucro por mês")
fig.show()

In [None]:
# lucro por marca
marca = df.groupby('fabricante').lucro.sum().reset_index()
fig = px.bar(marca, x="fabricante", y="lucro", title="Lucro por marca")
fig.show()

In [None]:
classe = df.groupby('classe').lucro.sum().reset_index()
fig = px.bar(classe, x="classe", y="lucro", title="Lucro por classe")
fig.show()

In [None]:
df.tempo_envio.describe()

count   904.00
mean      8.54
std       3.06
min       4.00
25%       6.00
50%       9.00
75%      11.00
max      20.00
Name: tempo_envio, dtype: float64

In [None]:
px.box(df, y='tempo_envio')

In [None]:
px.histogram(df, x='tempo_envio')

In [None]:
df[df.tempo_envio == 20]

Unnamed: 0,data_venda,data_envio,id_loja,id_produto,id_cliente,no_venda,custo_unitário,preço_unitário,quantidade,valor_desconto,valor_venda,produto,fabricante,marca,classe,cor,custo,lucro,tempo_envio
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.0,6,0.0,4548.0,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red,2091.48,2456.52,20
