## Lidando com tempo e datas
---

In [1]:
import pandas as pd
import numpy as np

o método `.to_datetime()` é usado para criar um objeto temporal:

In [3]:
tmp = pd.to_datetime('15/12/2023 15:42:23')
tmp

  tmp = pd.to_datetime('15/12/2023 15:42:23')


Timestamp('2023-12-15 15:42:23')

com isso, é possível manipular a data, por exemplo:

In [4]:
tmp + pd.to_timedelta(np.arange(12), 'D')

DatetimeIndex(['2023-12-15 15:42:23', '2023-12-16 15:42:23',
               '2023-12-17 15:42:23', '2023-12-18 15:42:23',
               '2023-12-19 15:42:23', '2023-12-20 15:42:23',
               '2023-12-21 15:42:23', '2023-12-22 15:42:23',
               '2023-12-23 15:42:23', '2023-12-24 15:42:23',
               '2023-12-25 15:42:23', '2023-12-26 15:42:23'],
              dtype='datetime64[ns]', freq=None)

passando uma lista de datas para o método `.DatetimeIndex()`, é assim criado índices em formate de datas para uma series, por exemplo:

In [20]:
dt = pd.DatetimeIndex(['15/12/2023', '16/12/2023', '17/12/2023', '18/12/2023', '15/12/2024', '16/12/2024', '17/12/2024', '18/12/2024'])
sr = pd.Series([0, 1, 2, 3, 3, 2, 1, 0], index=dt)
sr

2023-12-15    0
2023-12-16    1
2023-12-17    2
2023-12-18    3
2024-12-15    3
2024-12-16    2
2024-12-17    1
2024-12-18    0
dtype: int64

sendo um series, qualquer manipulação possível dos series, aqui também será possível:

In [10]:
sr['17/12/2023']

2

In [21]:
sr[['15/12/2023', '18/12/2024']]

2023-12-15    0
2024-12-18    0
dtype: int64

In [22]:
sr['16/12/2023':'16/12/2024']

2023-12-16    1
2023-12-17    2
2023-12-18    3
2024-12-15    3
2024-12-16    2
dtype: int64

passando apenas o ano, obtém-se todos resultados das datas registradas deste ano:

In [28]:
sr['2023']

2023-12-15    0
2023-12-16    1
2023-12-17    2
2023-12-18    3
dtype: int64

lembrando que, `.to_datetime()` já altomaticamente transforma uma lista de datas em `.DatetimeIndex()`, bem como, é capaz de interpretar diversos tipos de inputs diferentes:

In [33]:
from datetime import datetime
datas = pd.to_datetime([datetime(2023, 12, 15), '16th of december, 2023', '2023-dec-17', '18-12-2023', '20231219'])
datas

DatetimeIndex(['2023-12-15', '2023-12-16', '2023-12-17', '2023-12-18',
               '2023-12-19'],
              dtype='datetime64[ns]', freq=None)

ainda é possível criar um período usando `.to_period()`, e passando um código indicando o espaçamento entre as datas através do parâmetro `freq=`. Neste exemplo, as datas distam uma da outras exatamente um dia, logo, o código a ser usado é `D`:

In [34]:
datas.to_period('D')

PeriodIndex(['2023-12-15', '2023-12-16', '2023-12-17', '2023-12-18',
             '2023-12-19'],
            dtype='period[D]')

observe que, por ser uma lista de datas, cria-se o objeto `.PeriodIndex()`, que pode ser criado manualmente e pode servir índices em datasets.

os códigos para usar com `freq` são:
código|significado
---|---
D|dia do calendário
W|semana
M|final mês
Q|final quadrimestre
A|final ano
H|hora
T|minutos
S|segundos
L|milissegundos
U|microssegundos
N|nanossegundos
B|dia útil
BM|final mês útil
BQ|final quadrimestre útil
BA|final ano útil
BH|hora útil
MS|início mês
QS|início quadrimestre
AS|início ano
BMS|início mês útil
BQS|início quadrimestre útil
BAS|início ano útil

em alguns casos, é interessante marcar o momento em que um frequência acaba e começa outra, por exemplo, sendo, assim, possível marcar com um código de três letras, por exemplo: para o quadrimestre `Q-JAN`, `BQ-FEB`, `QS-MAR`, `BQS-APR`, etc.; para o ano `A-JAN`, `BA-FEB`, `AS-MAR`, `BAS-APR`, etc.; para a semana `W-SUN`, `W-MON`, `W-TUE`, `W-WED`, etc.

outro objeto é o `.TimedeltaIndex()` que é criado a partir da criação de uma data baseada em outro, e, da mesma forma, pode ser usado com índice:

In [36]:
datas - datas[0]

TimedeltaIndex(['0 days', '1 days', '2 days', '3 days', '4 days'], dtype='timedelta64[ns]', freq=None)

#### sequências regulares
---

para criar datasets em que os momentos são espaçados de forma regular pode-se usar o métodos `pd.date_range()` para objetos `.datetime()`, `pd.oeriod_range()` para objetos `.to_period()` e `pd.timedelta_range()` para objetos `.timedelta()`. Assim como a função nativa do python `range()` recebe uma ponto de partida, um final e um passo, todos esses objetos recebem uma data de partida, uma data final e um passo:

In [39]:
pd.date_range('15/12/2023', '25/12/2023')

DatetimeIndex(['2023-12-15', '2023-12-16', '2023-12-17', '2023-12-18',
               '2023-12-19', '2023-12-20', '2023-12-21', '2023-12-22',
               '2023-12-23', '2023-12-24', '2023-12-25'],
              dtype='datetime64[ns]', freq='D')

ou, basta apresentar o primeiro dia e o período:

In [42]:
pd.date_range('15/12/2023', periods=11)

DatetimeIndex(['2023-12-15', '2023-12-16', '2023-12-17', '2023-12-18',
               '2023-12-19', '2023-12-20', '2023-12-21', '2023-12-22',
               '2023-12-23', '2023-12-24', '2023-12-25'],
              dtype='datetime64[ns]', freq='D')

pode-se, ainda, determinar a frequência usando `freq=`:

In [44]:
pd.date_range('15/12/2023 16:18', periods=8, freq='H')

DatetimeIndex(['2023-12-15 16:18:00', '2023-12-15 17:18:00',
               '2023-12-15 18:18:00', '2023-12-15 19:18:00',
               '2023-12-15 20:18:00', '2023-12-15 21:18:00',
               '2023-12-15 22:18:00', '2023-12-15 23:18:00'],
              dtype='datetime64[ns]', freq='H')

da mesma forma funciona os métodos `pd.period_range()` e `pd.timedelta_range()`.

In [47]:
pd.timedelta_range('00:00:00', periods=9, freq='2H30T')

TimedeltaIndex(['0 days 00:00:00', '0 days 02:30:00', '0 days 05:00:00',
                '0 days 07:30:00', '0 days 10:00:00', '0 days 12:30:00',
                '0 days 15:00:00', '0 days 17:30:00', '0 days 20:00:00'],
               dtype='timedelta64[ns]', freq='150T')

#### modificando datas
---

os métodos `.resample()` e `.asfreq()` conseguem redimensionar as valores de um dataset, sendo `.resample()` um aggregation e `.asfreq()` um seleção de dados:

In [48]:
dt = pd.DatetimeIndex(['15/12/2023', '16/12/2023', '17/12/2023', '18/12/2023', '15/12/2024', '16/12/2024', '17/12/2024', '18/12/2024'])
sr = pd.Series([0, 1, 2, 3, 3, 2, 1, 0], index=dt)
sr

2023-12-15    0
2023-12-16    1
2023-12-17    2
2023-12-18    3
2024-12-15    3
2024-12-16    2
2024-12-17    1
2024-12-18    0
dtype: int64

compare:

In [51]:
sr.resample('BA').mean()

2023-12-29    1.5
2024-12-31    1.5
Freq: BA-DEC, dtype: float64

In [54]:
sr.asfreq('BA')

2023-12-29   NaN
Freq: BA-DEC, dtype: float64

observe que `.resample()` retorna a média dos valores de cada mês do perído, já `.asfreq()` retorna o valor no último dia do período. Neste exemplo, como foi passado `BA`, o período é o ano útil. Assim, como não há valores registrados na series para o dia 29/12/2023, `.asfreq()` retorna `NA`.

para evitar erros, pode-se ser passado o parâmetro `method=` em que recebe `bfill`, isto é, *backward fill*, ou `ffill`, *forward fill*:

In [58]:
sr.asfreq('BA', method='bfill')

2023-12-29    3
Freq: BA-DEC, dtype: int64

In [57]:
sr.asfreq('BA', method='ffill')

2023-12-29    3
Freq: BA-DEC, dtype: int64

apesar de no exemplo ter dado valores iguais, eles podem ter resultados diferentes.

In [59]:
sr.asfreq('D').shift(23)

2023-12-15   NaN
2023-12-16   NaN
2023-12-17   NaN
2023-12-18   NaN
2023-12-19   NaN
              ..
2024-12-14   NaN
2024-12-15   NaN
2024-12-16   NaN
2024-12-17   NaN
2024-12-18   NaN
Freq: D, Length: 370, dtype: float64

In [62]:
dtfm = pd.DataFrame(sr)
dtfm

Unnamed: 0,0
2023-12-15,0
2023-12-16,1
2023-12-17,2
2023-12-18,3
2024-12-15,3
2024-12-16,2
2024-12-17,1
2024-12-18,0


In [65]:
dtfm.asfreq('D', method='pad').shift(900)

Unnamed: 0,0
2023-12-15,
2023-12-16,
2023-12-17,
2023-12-18,
2023-12-19,
...,...
2024-12-14,
2024-12-15,
2024-12-16,
2024-12-17,
