### Agora vamos trabalhar com data e hora com o pandas

In [24]:
import datetime as dt
import pandas as pd
from pandas_datareader import data

In [2]:
#O objeto de tempo mais comum é o Timestamp, que conta com data e hora

#Para criar um objeto Timestamp, o pandas é capaz de entender diveras sintaxes

#A Data deve ser inserida com aspas

pd.Timestamp('10-1-2000')
pd.Timestamp('15/3/2010')
pd.Timestamp('2000-1-3')
pd.Timestamp('15, 2, 2003')

#Quando não informamos o horário do Timestamp, o padrão será meia noite

Timestamp('2003-02-15 00:00:00')

In [3]:
#Vamos criar uma lista com várias datas

datas = ['2020-3-12', '2001-9-11', '1822-11-15']

In [4]:
#Para transformar uma lista de datas do python em uma lista de datas do pandas:

datas = pd.DatetimeIndex(datas)

In [5]:
#Podemos usar essas datas como índices de séries do pandas

valores = [100, 200, 300]
pd.Series(data = valores, index = datas)

2020-03-12    100
2001-09-11    200
1822-11-15    300
dtype: int64

In [6]:
nascimento = dt.datetime(1998, 6, 22, 7, 20)

In [7]:
pd.to_datetime(nascimento)

Timestamp('1998-06-22 07:20:00')

### Como funcionam os Data Ranges?

Um data range é tem data de início e fim, além de poder ser dividido em períodos.
A ideia é ter uma lista com valores de datas a partir de determinado valor até outro

In [8]:
#Para criar um data range precisamos informar uma data de início e fim

ano_2022 = pd.date_range(start = '2022-01-01', end = '2022-12-31')
ano_2022

#O data range cria uma lista com diversos timestamps, podendo ser acessados um a um ano_2022[1]

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10',
               ...
               '2022-12-22', '2022-12-23', '2022-12-24', '2022-12-25',
               '2022-12-26', '2022-12-27', '2022-12-28', '2022-12-29',
               '2022-12-30', '2022-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [9]:
#O parâmetro de frequência é interessante, pois com ele podemos definir como os timestamps serão divididos

pd.date_range('01/01/2022', '30/06/2022', freq = '2D') #Primeiro semestre com frequência de 2 dias
pd.date_range('01/01/2022', '30/06/2022', freq = 'W') #Primeiro semestre com frequência de 1 semana
#A frequencia semanal padrão é contabilizada pelos domingos, mas podemos alterar isso
pd.date_range('01/01/2022', '30/06/2022', freq = 'W-TUE') #Primeiro semestre, com frequência semanal, mas contabilizado pelas terças-feiras
pd.date_range('01/01/2022', '30/06/2022', freq = 'B') #Apenas dias úteis do primeiro semestre
pd.date_range('01/01/2022', '30/06/2022', freq = '6H') #A frequencia pode ser definida por hora também. 1º sem separado a cada 6 horas
pd.date_range('01/01/2022', '30/06/2022', freq = 'M') #Primeiro semestre com frequência mensal. Este comando retorna o último dia de cada mês
pd.date_range('01/01/2022', '30/06/2022', freq = 'MS') #Retorna o range mensal, considerando o primeiro dia de cada mês
pd.date_range('01/01/2022', '30/06/2070', freq = 'A') #Similarmente podemos criar um range considerando o último dia de cada ano

DatetimeIndex(['2022-12-31', '2023-12-31', '2024-12-31', '2025-12-31',
               '2026-12-31', '2027-12-31', '2028-12-31', '2029-12-31',
               '2030-12-31', '2031-12-31', '2032-12-31', '2033-12-31',
               '2034-12-31', '2035-12-31', '2036-12-31', '2037-12-31',
               '2038-12-31', '2039-12-31', '2040-12-31', '2041-12-31',
               '2042-12-31', '2043-12-31', '2044-12-31', '2045-12-31',
               '2046-12-31', '2047-12-31', '2048-12-31', '2049-12-31',
               '2050-12-31', '2051-12-31', '2052-12-31', '2053-12-31',
               '2054-12-31', '2055-12-31', '2056-12-31', '2057-12-31',
               '2058-12-31', '2059-12-31', '2060-12-31', '2061-12-31',
               '2062-12-31', '2063-12-31', '2064-12-31', '2065-12-31',
               '2066-12-31', '2067-12-31', '2068-12-31', '2069-12-31'],
              dtype='datetime64[ns]', freq='A-DEC')

In [15]:
#Invés de usarmos start e end, vamos criar um Data Range com start e period
#Os períodos serão a quantidade de timestamps que queremos, na frequência informada

pd.date_range(start = '15/01/2022', periods = 25, freq = 'D')

# O output é uma lista de 25 dias a partir do dia informado

DatetimeIndex(['2022-01-15', '2022-01-16', '2022-01-17', '2022-01-18',
               '2022-01-19', '2022-01-20', '2022-01-21', '2022-01-22',
               '2022-01-23', '2022-01-24', '2022-01-25', '2022-01-26',
               '2022-01-27', '2022-01-28', '2022-01-29', '2022-01-30',
               '2022-01-31', '2022-02-01', '2022-02-02', '2022-02-03',
               '2022-02-04', '2022-02-05', '2022-02-06', '2022-02-07',
               '2022-02-08'],
              dtype='datetime64[ns]', freq='D')

In [16]:
#Alterando a frequência para 'B', teremos 25 dias úteis partir da data informada

pd.date_range(start = '15/01/2022', periods = 25, freq = 'B')


DatetimeIndex(['2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-24', '2022-01-25', '2022-01-26',
               '2022-01-27', '2022-01-28', '2022-01-31', '2022-02-01',
               '2022-02-02', '2022-02-03', '2022-02-04', '2022-02-07',
               '2022-02-08', '2022-02-09', '2022-02-10', '2022-02-11',
               '2022-02-14', '2022-02-15', '2022-02-16', '2022-02-17',
               '2022-02-18'],
              dtype='datetime64[ns]', freq='B')

In [19]:
#Se o atributo freq for 'W', teremos a frequência semanal, sempre aos domingos
#Porém podemos alterar para 'W-WED', para considerar as Quartas-feiras, por exemplo

pd.date_range(start = '15/01/2022', periods = 25, freq = 'W')


DatetimeIndex(['2022-01-16', '2022-01-23', '2022-01-30', '2022-02-06',
               '2022-02-13', '2022-02-20', '2022-02-27', '2022-03-06',
               '2022-03-13', '2022-03-20', '2022-03-27', '2022-04-03',
               '2022-04-10', '2022-04-17', '2022-04-24', '2022-05-01',
               '2022-05-08', '2022-05-15', '2022-05-22', '2022-05-29',
               '2022-06-05', '2022-06-12', '2022-06-19', '2022-06-26',
               '2022-07-03'],
              dtype='datetime64[ns]', freq='W-SUN')

In [23]:
#Similarmente, podemos criar Data Ranges usando apenas end e períodos

pd.date_range(end = '31/12/1999', periods = 10 , freq = 'D')

#O output trará os 9 dias anteriores e o dia informado.

#Outras frequências são aplicáveis, assim como os exemplos anteriores

DatetimeIndex(['1999-12-22', '1999-12-23', '1999-12-24', '1999-12-25',
               '1999-12-26', '1999-12-27', '1999-12-28', '1999-12-29',
               '1999-12-30', '1999-12-31'],
              dtype='datetime64[ns]', freq='D')

### Vamos trabalhar com o Pandas Data Reader

In [48]:
#Vamos utilizar o Data Reader para pegar os preços do Bitcoin do site Yahoo Finance
#O range será de Janeiro de 2021 até hoje, então irei passar uma data futura, e teremos os dados atualizados

Bitcoin = data.DataReader(name = 'BTC-USD', data_source = 'yahoo', start = '01/01/2015', end = '31/12/2022')
Bitcoin.head()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-01,320.434998,314.002991,320.434998,314.248993,8036550.0,314.248993
2015-01-02,315.838989,313.565002,314.07901,315.032013,7860650.0,315.032013
2015-01-03,315.149994,281.082001,314.846008,281.082001,33054400.0,281.082001
2015-01-04,287.230011,257.612,281.145996,264.195007,55629100.0,264.195007
2015-01-05,278.341003,265.084015,265.084015,274.473999,43962800.0,274.473999


In [43]:
#Mas como acessar os valores de uma data específica?
#Podemos fazer isso através dos métodos .loc[] e/ou .iloc[]

Bitcoin.loc['2021-10-14']
Bitcoin.iloc[100]

High         6.079055e+04
Low          5.928980e+04
Open         5.984623e+04
Close        6.020496e+04
Volume       4.628025e+10
Adj Close    6.020496e+04
Name: 2021-04-11 00:00:00, dtype: float64

In [60]:
#Agora vamos acessar um intervalo de datas

Bitcoin.loc['2021-01-01':'2021-02-15']

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-01-01,29600.626953,28803.585938,28994.009766,29374.152344,40730300000.0,29374.152344
2021-01-02,33155.117188,29091.181641,29376.455078,32127.267578,67865420000.0,32127.267578
2021-01-03,34608.558594,32052.316406,32129.408203,32782.023438,78665240000.0,32782.023438
2021-01-04,33440.21875,28722.755859,32810.949219,31971.914062,81163480000.0,31971.914062
2021-01-05,34437.589844,30221.1875,31977.041016,33992.429688,67547320000.0,33992.429688
2021-01-06,36879.699219,33514.035156,34013.613281,36824.363281,75289430000.0,36824.363281
2021-01-07,40180.367188,36491.191406,36833.875,39371.042969,84762140000.0,39371.042969
2021-01-08,41946.738281,36838.636719,39381.765625,40797.609375,88107520000.0,40797.609375
2021-01-09,41436.351562,38980.875,40788.640625,40254.546875,61984160000.0,40254.546875
2021-01-10,41420.191406,35984.628906,40254.21875,38356.441406,79980750000.0,38356.441406


In [58]:
#Mas como acessar todos os preços do bitcoin no meu aniversário?

aniversarios = pd.date_range(start = '22/06/2015', periods = 6, freq = pd.DateOffset(years = 1))

Bitcoin.loc[aniversarios]

Unnamed: 0,High,Low,Open,Close,Volume,Adj Close
2015-06-22,247.917007,243.779007,243.968994,246.990005,17692500.0,246.990005
2016-06-22,678.669983,587.482971,665.914978,596.116028,266393000.0,596.116028
2017-06-22,2723.73999,2642.360107,2691.030029,2705.409912,1097940000.0,2705.409912
2018-06-22,6747.080078,6006.600098,6737.879883,6083.689941,5079810000.0,6083.689941
2019-06-22,11157.345703,10107.035156,10175.923828,10701.691406,29995200000.0,10701.691406
2020-06-22,9655.073242,9296.87207,9300.915039,9648.717773,21104010000.0,9648.717773


In [63]:
#Mas como somar e subtrair datas (somar dias, semanas, meses)
#Vamos tentar somar 5 dias a esta variável abaixo:

pd.Timestamp('2020/01/01') + 5


TypeError: Addition/subtraction of integers and integer-arrays with Timestamp is no longer supported.  Instead of adding/subtracting `n`, use `n * obj.freq`

In [65]:
#O erro deve-se ao fato do Pandas não entender o que deverá ser somado.
#Para somar datas, precisamos usar DateOffsets

pd.Timestamp('2020/01/01') + pd.DateOffset(days = 5)

#O output será a data informada anteriormente + 5 dias

Timestamp('2020-01-06 00:00:00')

#### Como descobrir a distância entre duas datas?

In [71]:
meu_nascimento = pd.Timestamp('22/06/1998')
hoje = pd.Timestamp('06/01/2022')

In [74]:
hoje - meu_nascimento

Timedelta('8745 days 00:00:00')

In [76]:
#Wow! Estou vivo há vários dias
#Importante notar que o output trouxe um objeto chamado Timedelta
#Podemos criar um Timedelta manualmente

pd.Timedelta(days = 12, minutes = 15, seconds = 40)

Timedelta('12 days 00:15:40')

In [77]:
#Podemos somar ou subtrair esse Timedelta facilmente
#Vamos ver o timestamp de 12 dias, 15 minutos e 40 segundos após meu nascimento:

meu_nascimento + pd.Timedelta(days = 12, minutes = 15, seconds = 40)


Timestamp('1998-07-04 00:15:40')

In [87]:
#Agora vamos usar os Timedeltas num DataSet

ecommerce = pd.read_csv('ecommerce.csv', index_col = 'Order ID', parse_dates = ['Order Date', 'Ship Date'])

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [88]:
ecommerce.head()

#A planilha consta com data da compra e data da entrega.
#Vamos ver a diferença entre essas datas

Unnamed: 0_level_0,Order Date,Ship Date,Aging,Ship Mode,Product Category,Product,Sales,Quantity,Discount,Profit,Shipping Cost,Order Priority,Customer ID,Customer Name,Segment,City,State,Country,Region,Months
Order ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
AU-2015-1,2015-11-09,2015-11-17,8.0,First Class,Auto & Accessories,Car Media Players,$140.00,2,0.05,$46.00,$4.60,Medium,LS-001,Lane Daniels,Consumer,Brisbane,Queensland,Australia,Oceania,Nov
AU-2015-2,2015-06-30,2015-07-02,2.0,First Class,Auto & Accessories,Car Speakers,$211.00,3,0.03,$112.00,$11.20,Medium,IZ-002,Alvarado Kriz,Home Office,Berlin,Berlin,Germany,Central,Jun
AU-2015-3,2015-12-05,2015-12-13,8.0,First Class,Auto & Accessories,Car Body Covers,$117.00,5,0.01,$31.20,$3.10,Critical,EN-003,Moon Weien,Consumer,Porirua,Wellington,New Zealand,Oceania,Dec
AU-2015-4,2015-05-09,2015-05-16,7.0,First Class,Auto & Accessories,Car & Bike Care,$118.00,2,0.05,$26.20,$2.60,High,AN-004,Sanchez Bergman,Corporate,Kabul,Kabul,Afghanistan,Central Asia,May
AU-2015-5,2015-07-09,2015-07-18,9.0,First Class,Auto & Accessories,Tyre,$250.00,1,0.04,$160.00,$16.00,Critical,ON-005,Rowe Jackson,Corporate,Townsville,Queensland,Australia,Oceania,Jul


In [94]:
#Esta é a diferença entre a data do pedido e a data de entrega

ecommerce['Ship Date'] - ecommerce['Order Date']

#O output é uma lista de Timedeltas

#Vamos criar uma coluna para inserir o tempo de entrega

ecommerce['Delivery Time'] = ecommerce['Ship Date'] - ecommerce['Order Date']
ecommerce.head(5)

Unnamed: 0_level_0,Order Date,Ship Date,Aging,Ship Mode,Product Category,Product,Sales,Quantity,Discount,Profit,...,Order Priority,Customer ID,Customer Name,Segment,City,State,Country,Region,Months,Delivery Time
Order ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AU-2015-1,2015-11-09,2015-11-17,8.0,First Class,Auto & Accessories,Car Media Players,$140.00,2,0.05,$46.00,...,Medium,LS-001,Lane Daniels,Consumer,Brisbane,Queensland,Australia,Oceania,Nov,8 days
AU-2015-2,2015-06-30,2015-07-02,2.0,First Class,Auto & Accessories,Car Speakers,$211.00,3,0.03,$112.00,...,Medium,IZ-002,Alvarado Kriz,Home Office,Berlin,Berlin,Germany,Central,Jun,2 days
AU-2015-3,2015-12-05,2015-12-13,8.0,First Class,Auto & Accessories,Car Body Covers,$117.00,5,0.01,$31.20,...,Critical,EN-003,Moon Weien,Consumer,Porirua,Wellington,New Zealand,Oceania,Dec,8 days
AU-2015-4,2015-05-09,2015-05-16,7.0,First Class,Auto & Accessories,Car & Bike Care,$118.00,2,0.05,$26.20,...,High,AN-004,Sanchez Bergman,Corporate,Kabul,Kabul,Afghanistan,Central Asia,May,7 days
AU-2015-5,2015-07-09,2015-07-18,9.0,First Class,Auto & Accessories,Tyre,$250.00,1,0.04,$160.00,...,Critical,ON-005,Rowe Jackson,Corporate,Townsville,Queensland,Australia,Oceania,Jul,9 days


In [102]:
#Com esse novo dataframe, é possível fazer as análises convencionais

ecommerce['Delivery Time'].max() #Entrega mais demorada
ecommerce['Delivery Time'].min() #Entrega mais rápida
ecommerce['Delivery Time'].mean() #Tempo médio de entrega

Timedelta('5 days 04:51:24.170094952')