**Trabalhando com Datas**

In [None]:
# Importando a biblioteca do pandas
import pandas as pd

In [None]:
# Efetuado a leitura dos arquivos excel enviados do diretório local 
# para o google drive - temporariamente
df1=pd.read_excel('Aracaju.xlsx')
df2=pd.read_excel('Fortaleza.xlsx')
df3=pd.read_excel('Natal.xlsx')
df4=pd.read_excel('Recife.xlsx')
df5=pd.read_excel('Salvador.xlsx')

In [None]:
# Como os arquivos tem a mesma estrutura posso unir todos num único dataset.
df=pd.concat([df1,df2,df3,df4,df5])

In [None]:
# Alterando o tipo de dado de uma das colunas, numérico para string, é interessante fazer isso quando não vou
# utilizar a mesma para cálculos.
df["LojaID"]=df["LojaID"].astype('object')

In [None]:
# Criando a coluna de "Receitas"
df['Receitas']=df['Vendas'].mul(df['Qtde'])

In [None]:
# Outro exemplo, por exemplo para obter a quantidade
df['Receitas/Vendas']=df['Receitas']/df['Vendas']

In [None]:
# Verificando o dataset de vendas, vamos transformar o tipo de dados da coluna data para inteiro:
df['Data'] = df['Data'].astype('int64')

In [None]:
# Verificando agora o dataset de vendas, temos que o tipo de dados da coluna data não é um formato de data
# e sim um inteiro:
df.dtypes

Cidade              object
Data                 int64
Vendas             float64
LojaID              object
Qtde                 int64
Receitas           float64
Receitas/Vendas    float64
dtype: object

In [None]:
# Vamos agora converter o formato da coluna data novamente:
df['Data'] = pd.to_datetime(df['Data'])

In [None]:
# Verificando agora o dataset de vendas novamente, agora o campo "Data" voltou para o type datetime:
df.dtypes

Cidade                     object
Data               datetime64[ns]
Vendas                    float64
LojaID                     object
Qtde                        int64
Receitas                  float64
Receitas/Vendas           float64
dtype: object

In [None]:
# Agora vamos totalizar as vendas por ano utilizando o campo data:
df.groupby(df['Data'].dt.year)['Receitas'].sum()

Data
2018    118176.53
2019    228246.45
Name: Receitas, dtype: float64

In [None]:
# Agora vamos criar uma nova coluna com o ano da venda:
df['Ano_Venda'] = df['Data'].dt.year

In [None]:
# Vamos solicitar um exemplo aleatório do arquivo, e verificamos que a coluna foi criada corretamente:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda
6,Aracaju,2018-01-01,35.5,1522,2,71.0,2.0,2018
125,Recife,2019-03-02,37.6,983,4,150.4,4.0,2019
9,Fortaleza,2019-01-01,11.17,1002,6,67.02,6.0,2019
97,Recife,2019-01-01,153.04,983,4,612.16,4.0,2019
40,Fortaleza,2019-02-13,19.13,1002,4,76.52,4.0,2019


In [None]:
# Vamos extrair o dia e o mês das vendas:
df['mes_venda'], df['dia_venda'] = (df['Data'].dt.month, df['Data'].dt.day)


In [None]:
# Vamos solicitar um exemplo aleatório do arquivo, e verificamos que as colunas foram criadas corretamente:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda
188,Salvador,2019-01-02,178.11,1035,3,534.33,3.0,2019,1,2
72,Natal,2018-05-02,612.0,854,4,2448.0,4.0,2018,5,2
233,Natal,2019-01-03,172.4,1036,2,344.8,2.0,2019,1,3
205,Natal,2019-01-02,196.09,1037,1,196.09,1.0,2019,1,2
118,Fortaleza,2019-03-02,17.7,981,5,88.5,5.0,2019,3,2


In [None]:
# Vou obter a data mínima:
df['Data'].min()

Timestamp('2018-01-01 00:00:00')

In [None]:
# Agora vou criar uma coluna com a diferença da data de venda e a data mínima
df['diferenca_dias'] = df['Data'] - df['Data'].min()

In [None]:
# Verificando se a coluna foi criada corretamente:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias
113,Recife,2019-03-02,38.63,980,2,77.26,2.0,2019,3,2,425 days
7,Fortaleza,2019-02-11,35.5,1003,2,71.0,2.0,2019,2,11,406 days
113,Natal,2019-01-02,18.9,1034,3,56.7,3.0,2019,1,2,366 days
41,Recife,2019-02-13,157.78,981,4,631.12,4.0,2019,2,13,408 days
44,Recife,2019-01-01,142.21,983,8,1137.68,8.0,2019,1,1,365 days


In [None]:
# Posso apresentar em que trimestre as vendas ocorreram para isso vou criar uma nova coluna:
df['venda_trimestral'] = df['Data'].dt.quarter

In [None]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias,venda_trimestral
66,Salvador,2019-01-01,70.2,1035,3,210.6,3.0,2019,1,1,365 days,1
238,Natal,2019-01-03,139.64,1035,1,139.64,1.0,2019,1,3,367 days,1
219,Salvador,2019-01-02,19.67,1037,2,39.34,2.0,2019,1,2,366 days,1
194,Salvador,2019-01-02,156.47,1035,1,156.47,1.0,2019,1,2,366 days,1
61,Aracaju,2018-01-01,39.8,1520,6,238.8,6.0,2018,1,1,0 days,1


In [None]:
# Posso criar uma amostra filtrando registros com uma determinada informação:
vendas_marco_2019 = df.loc[(df['Data'].dt.year == 2019) & (df['Data'].dt.month == 3)]

In [None]:
# Verificando os dados selecionados:
vendas_marco_2019

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias,venda_trimestral
108,Fortaleza,2019-03-02,152.89,981,4,611.56,4.0,2019,3,2,425 days,1
109,Fortaleza,2019-03-02,18.90,982,6,113.40,6.0,2019,3,2,425 days,1
110,Fortaleza,2019-03-02,51.98,983,6,311.88,6.0,2019,3,2,425 days,1
111,Fortaleza,2019-03-02,8.00,981,3,24.00,3.0,2019,3,2,425 days,1
112,Fortaleza,2019-03-02,133.59,982,1,133.59,1.0,2019,3,2,425 days,1
...,...,...,...,...,...,...,...,...,...,...,...,...
137,Salvador,2019-03-02,51.66,1036,3,154.98,3.0,2019,3,2,425 days,1
138,Salvador,2019-03-02,212.03,1037,3,636.09,3.0,2019,3,2,425 days,1
139,Salvador,2019-03-02,169.01,1036,1,169.01,1.0,2019,3,2,425 days,1
140,Salvador,2019-03-02,20.79,1036,2,41.58,2.0,2019,3,2,425 days,1


In [None]:
# Verificando que a filtragem do dataset com "loc" gera uma matriz:
print(vendas_marco_2019,type)

        Cidade       Data  Vendas LojaID  Qtde  Receitas  Receitas/Vendas  \
108  Fortaleza 2019-03-02  152.89    981     4    611.56              4.0   
109  Fortaleza 2019-03-02   18.90    982     6    113.40              6.0   
110  Fortaleza 2019-03-02   51.98    983     6    311.88              6.0   
111  Fortaleza 2019-03-02    8.00    981     3     24.00              3.0   
112  Fortaleza 2019-03-02  133.59    982     1    133.59              1.0   
..         ...        ...     ...    ...   ...       ...              ...   
137   Salvador 2019-03-02   51.66   1036     3    154.98              3.0   
138   Salvador 2019-03-02  212.03   1037     3    636.09              3.0   
139   Salvador 2019-03-02  169.01   1036     1    169.01              1.0   
140   Salvador 2019-03-02   20.79   1036     2     41.58              2.0   
141   Salvador 2019-03-02    9.08   1036     1      9.08              1.0   

     Ano_Venda  mes_venda  dia_venda diferenca_dias  venda_trimestral  
108

In [None]:
# Buscando uma amostra da filtragem do dataset:
vendas_marco_2019.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias,venda_trimestral
120,Salvador,2019-03-02,140.17,1036,2,280.34,2.0,2019,3,2,425 days,1
45,Natal,2019-03-11,431.0,852,3,1293.0,3.0,2019,3,11,434 days,1
117,Fortaleza,2019-03-02,15.42,983,8,123.36,8.0,2019,3,2,425 days,1
71,Natal,2019-03-20,840.0,854,3,2520.0,3.0,2019,3,20,443 days,1
137,Fortaleza,2019-03-02,51.99,983,3,155.97,3.0,2019,3,2,425 days,1
112,Salvador,2019-03-02,43.0,1036,3,129.0,3.0,2019,3,2,425 days,1
130,Salvador,2019-03-02,59.78,1036,1,59.78,1.0,2019,3,2,425 days,1
112,Recife,2019-03-02,133.59,982,1,133.59,1.0,2019,3,2,425 days,1
112,Fortaleza,2019-03-02,133.59,982,1,133.59,1.0,2019,3,2,425 days,1
123,Fortaleza,2019-03-02,20.22,981,6,121.32,6.0,2019,3,2,425 days,1
