# **Trabalhando com datas**

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Criar variável de data frame a partir dos arquivos .xlsx
dfAracaju = pd.read_excel('Aracaju.xlsx')
dfFortaleza = pd.read_excel('Fortaleza.xlsx')
dfNatal = pd.read_excel('Natal.xlsx')
dfRecife = pd.read_excel('Recife.xlsx')
dfSalvador = pd.read_excel('Salvador.xlsx')

In [3]:
# Conferir as estrutura do dataframe de Aracaju
dfAracaju.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [4]:
# Juntar (concatenar) todos os data frames em um só
df = pd.concat([dfAracaju, dfFortaleza, dfNatal, dfRecife, dfSalvador])

In [9]:
# Exbibir as primeiras linhas do dataframe concatenado
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,1514764800000000000,142.0,1520,1
1,Aracaju,1514764800000000000,14.21,1522,6
2,Aracaju,1514764800000000000,71.55,1520,1
3,Aracaju,1514764800000000000,3.01,1521,7
4,Aracaju,1514764800000000000,24.51,1522,8


In [12]:
df['Receita'] = df['Vendas'].mul(df['Qtde'])

In [6]:
# Verificar o tipo de dado de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [7]:
# Transformar coluna 'Data' em tipo 'int64'
df['Data'] = df['Data'].astype('int64')

  


In [8]:
# Verificar novamente o tipo de dado de cada coluna
df.dtypes

Cidade     object
Data        int64
Vendas    float64
LojaID      int64
Qtde        int64
dtype: object

In [10]:
# Transformar coluna 'Data' de volta em em tipo 'datetime64'
df['Data'] = pd.to_datetime(df['Data'])

In [11]:
# Verificar novamente o tipo de dado de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [13]:
# Retornar a soma da receita agrupada por ano
df.groupby(df['Data'].dt.year)['Receita'].sum()

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [14]:
# Criar coluna 'Ano da venda'
df['Ano da venda'] = df['Data'].dt.year

In [15]:
# Verificar alteração no data frame
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano da venda
0,Aracaju,2018-01-01,142.0,1520,1,142.0,2018
1,Aracaju,2018-01-01,14.21,1522,6,85.26,2018
2,Aracaju,2018-01-01,71.55,1520,1,71.55,2018
3,Aracaju,2018-01-01,3.01,1521,7,21.07,2018
4,Aracaju,2018-01-01,24.51,1522,8,196.08,2018


In [16]:
# Criar colunas 'Mês da venda" e "Dia da venda"
df['Mes da venda'], df['Dia da venda'] = (df['Data'].dt.month, df['Data'].dt.day)

In [21]:
# Verificar alteração no data frame
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano da venda,Mes da venda,Dia da venda
124,Recife,2019-03-02,47.98,983,7,335.86,2019,3,2
115,Aracaju,2018-01-01,50.99,1522,10,509.9,2018,1,1
24,Recife,2019-01-01,13.0,983,2,26.0,2019,1,1
7,Salvador,2019-02-11,6.13,1034,2,12.26,2019,2,11
0,Aracaju,2018-01-01,142.0,1520,1,142.0,2018,1,1


In [22]:
# Retornar data mais antiga
df['Data'].min()

Timestamp('2018-01-01 00:00:00')

In [23]:
# Calcular diferença de dias entre a data da venda a e a data mais antiga
df['Diferenca de dias'] = df['Data'] - df['Data'].min()

In [24]:
# Verificar alteração no data frame
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano da venda,Mes da venda,Dia da venda,Diferenca de dias
141,Salvador,2019-03-02,9.08,1036,1,9.08,2019,3,2,425 days
196,Natal,2019-01-02,145.09,1036,2,290.18,2019,1,2,366 days
217,Salvador,2019-01-02,37.65,1036,2,75.3,2019,1,2,366 days
112,Fortaleza,2019-03-02,133.59,982,1,133.59,2019,3,2,425 days
126,Aracaju,2018-01-01,13.41,1520,7,93.87,2018,1,1,0 days


In [25]:
# Criar coluna "Trimestre da venda"
df['Trimestre da venda'] = df['Data'].dt.quarter

In [33]:
# Verificar alteração no data frame
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano da venda,Mes da venda,Dia da venda,Diferenca de dias,Trimestre da venda
96,Recife,2019-01-01,165.36,982,7,1157.52,2019,1,1,365 days,1
30,Natal,2018-10-02,856.0,853,4,3424.0,2018,10,2,274 days,4
95,Aracaju,2018-01-01,127.43,1522,9,1146.87,2018,1,1,0 days,1
56,Aracaju,2018-01-01,41.9,1523,6,251.4,2018,1,1,0 days,1
205,Salvador,2019-01-02,196.09,1037,1,196.09,2019,1,2,366 days,1


In [34]:
#Criar variável 'vendas_marco_2019' com todas as vendas do mês de 3 do ano de 2019
vendas_marco_2019 = df.loc[(df['Data'].dt.year == 2019) & (df['Data'].dt.month == 3)]

In [37]:
# Verificar variável
vendas_marco_2019.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano da venda,Mes da venda,Dia da venda,Diferenca de dias,Trimestre da venda
66,Natal,2019-03-24,559.0,853,2,1118.0,2019,3,24,447 days,1
120,Recife,2019-03-02,184.9,982,4,739.6,2019,3,2,425 days,1
139,Recife,2019-03-02,141.16,980,7,988.12,2019,3,2,425 days,1
116,Fortaleza,2019-03-02,79.1,982,2,158.2,2019,3,2,425 days,1
138,Recife,2019-03-02,150.38,983,6,902.28,2019,3,2,425 days,1
111,Recife,2019-03-02,8.0,981,3,24.0,2019,3,2,425 days,1
141,Salvador,2019-03-02,9.08,1036,1,9.08,2019,3,2,425 days,1
113,Recife,2019-03-02,38.63,980,2,77.26,2019,3,2,425 days,1
126,Fortaleza,2019-03-02,41.87,980,8,334.96,2019,3,2,425 days,1
140,Recife,2019-03-02,166.89,983,5,834.45,2019,3,2,425 days,1
