# **Trabalhando com Datas**

In [4]:
# Mapear arquivos do Excel no Google Drive

In [5]:
# Carregando dataframe da aula anterior 

import pandas as pd
df_aju = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Aracaju.xlsx")
df_fla = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Fortaleza.xlsx")
df_ntl = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Natal.xlsx")
df_rce = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Recife.xlsx")
df_sdr = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Salvador.xlsx")
df = pd.concat([df_aju, df_fla, df_ntl, df_rce, df_sdr])
df["LojaID"]=df["LojaID"].astype("object")
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)
df.dropna(inplace = True)
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [6]:
df.dtypes

Cidade             object
Data       datetime64[ns]
Vendas            float64
LojaID             object
Qtde              float64
Receita           float64
dtype: object

In [7]:
# Transformando a coluna Data do tipo datetime64 para int64

df["Data"] = df["Data"].astype("int64")

  This is separate from the ipykernel package so we can avoid doing imports until


In [8]:
# Verificando o tipo de dados em cada coluna

df.dtypes

Cidade      object
Data         int64
Vendas     float64
LojaID      object
Qtde       float64
Receita    float64
dtype: object

In [9]:
# Transformando coluna Data de int64 para datetime64

df["Data"] = pd.to_datetime(df["Data"])

In [10]:
# Verificando o tipo de dados em cada coluna

df.dtypes

Cidade             object
Data       datetime64[ns]
Vendas            float64
LojaID             object
Qtde              float64
Receita           float64
dtype: object

In [11]:
# Agrupamento por Ano (receitas por ano)

df.groupby(df["Data"].dt.year)["Receita"].sum()

Data
2018    116716.820000
2019    227869.304198
Name: Receita, dtype: float64

In [12]:
# Criando uma nova coluna extraindo apenas o ano da coluna Data

df["Ano_Venda"] = df["Data"].dt.year

In [14]:
# Verificando alteração com uma amostra (sample) 

df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda
218,Natal,2019-01-02,189.12,1036.0,3.0,567.36,2019
38,Fortaleza,2019-01-01,35.09,1004.0,4.0,140.36,2019
73,Natal,2018-01-05,773.0,852.0,2.0,1546.0,2018
156,Salvador,2019-01-02,36.14,1037.0,3.0,108.42,2019
38,Aracaju,2018-01-01,142.46,1520.0,1.0,142.46,2018


In [18]:
# Criando duas novas colunas para extrair o mês e o dia

df["Mes_venda"], df["Dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [20]:
# Verificando alterações com uma amostra

df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,Mes_venda,Dia_venda
186,Salvador,2019-01-02,169.09,1036.0,2.0,338.18,2019,1,2
6,Recife,2019-01-01,16.27,981.0,6.0,97.62,2019,1,1
90,Natal,2019-01-02,100.54,1036.0,2.0,201.08,2019,1,2
102,Recife,2019-01-01,96.5,982.0,7.0,675.5,2019,1,1
30,Aracaju,2018-01-01,119.21,1520.0,8.0,953.68,2018,1,1


In [21]:
# Retornando a data mais antiga de um dataframe

df["Data"].min()

Timestamp('2018-01-01 00:00:00')

In [23]:
# Criando nova coluna para a diferença de dias entre uma data e a mais antiga

df["Diferença_dias"] = df["Data"] - df["Data"].min()

In [24]:
# Verificando alterações com uma amostra

df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,Mes_venda,Dia_venda,Diferença_dias
122,Recife,2019-03-02,235.06,983.0,3.0,705.18,2019,3,2,425 days
32,Natal,2019-03-17,244.0,854.0,2.0,488.0,2019,3,17,440 days
25,Fortaleza,2019-01-01,80.31,1004.0,4.0,321.24,2019,1,1,365 days
10,Natal,2018-10-27,828.0,852.0,4.0,3312.0,2018,10,27,299 days
47,Fortaleza,2019-01-01,13.45,1004.0,5.0,67.25,2019,1,1,365 days


In [25]:
# Criando a coluna de trimestre

df["Trimestre_venda"] = df["Data"].dt.quarter

In [54]:
# Verificando alterações com uma amostra

df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,Mes_venda,Dia_venda,Diferença_dias,Trimestre_venda
63,Recife,2019-01-01,37.95,980.0,2.0,75.9,2019,1,1,365 days,1
43,Natal,2019-04-01,538.0,853.0,3.0,1614.0,2019,4,1,455 days,2
112,Natal,2019-01-02,43.0,1036.0,3.0,129.0,2019,1,2,366 days,1
137,Fortaleza,2019-03-02,51.99,983.0,3.0,155.97,2019,3,2,425 days,1
174,Salvador,2019-01-02,35.3,1037.0,1.0,35.3,2019,1,2,366 days,1


In [55]:
# Filtrando as vendas de março de 2019 e atribuindo a uma variável

vendas_marco_2019 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]

In [None]:
# Imprimindo a variável vendas_marco_2019

In [57]:
vendas_marco_2019.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,Mes_venda,Dia_venda,Diferença_dias,Trimestre_venda
114,Salvador,2019-03-02,25.52,1034.0,1.0,25.52,2019,3,2,425 days,1
114,Fortaleza,2019-03-02,16.82,983.0,4.0,67.28,2019,3,2,425 days,1
125,Fortaleza,2019-03-02,37.6,983.0,4.0,150.4,2019,3,2,425 days,1
136,Recife,2019-03-02,39.09,982.0,4.0,156.36,2019,3,2,425 days,1
127,Salvador,2019-03-02,240.61,1035.0,3.0,721.83,2019,3,2,425 days,1
66,Natal,2019-03-24,559.0,853.0,2.0,1118.0,2019,3,24,447 days,1
129,Recife,2019-03-02,35.34,982.0,7.0,247.38,2019,3,2,425 days,1
133,Salvador,2019-03-02,153.71,1035.0,1.0,153.71,2019,3,2,425 days,1
29,Natal,2019-03-09,646.0,854.0,2.0,1292.0,2019,3,9,432 days,1
119,Salvador,2019-03-02,136.37,1034.0,2.0,272.74,2019,3,2,425 days,1
