## Tratamento de dados de séries temporais

In [22]:
from datetime import datetime

Vamos começar aprendendo como definir dados do tipo data no Python.

In [23]:
ano = 2024
mes = 2
dia = 27
hora = 17
min = 40
seg = 30            

A partir desses dados numéricos podemos utilizar *datetime* para criar uma data.

In [24]:
data1 = datetime(ano, mes, dia)


Note que hora, minuto e segundo estão zeradas. Podemos criar uma data completa usando essas informações.

In [25]:
data2 = datetime(ano , mes , dia , hora, min, seg)
print(data2)

2024-02-27 17:40:30


Existem inúmeros métodos e propriedades que a classe datetime provê para mainipulação de datas. Podemos, por exemplo, obter o dia da semana que cai essa data.

In [26]:
data2.weekday()

1

A função *weekday()* retorna um inteiro. Significado: \
0 = segunda \
1 = terça \
... \
6 = domingo

O pacote numpy oferece melhores funcionalidades para manipulação de datas. A seguir, veremos como manipular datas usando o numpy.

In [27]:
import numpy as np

In [28]:
np.array(['2024-02-10', '2024-02-15', '2024-02-20'], dtype='datetime64')

array(['2024-02-10', '2024-02-15', '2024-02-20'], dtype='datetime64[D]')

Notem que o D que aparece no datetime64 após a execução refere-se a precisão da data. A precisão default é dia, por isso a letra D. Se quisermos podemos alterar essa precisão para anos utilizando Y.

In [29]:
np.array(['2024-02-10', '2024-02-15', '2024-02-20'], dtype='datetime64[Y]')

array(['2024', '2024', '2024'], dtype='datetime64[Y]')

Vamos agora utilizar o Numpy para trabalhar com um intervalo de datas. Para tanto vamos utilizar arange. \
Para inteiros, arange gera uma sequência de números com a seguinte assinatura: \
arange(start, stop, step) \
Vejamos um exemplo a seguir.

In [30]:
np.arange(2,10,2)

array([2, 4, 6, 8])

Vejamos agora como arange funciona para datas. Vamos gerar datas com intervalo (step) de 7 dias para o mês de janeiro.

In [31]:
np.arange("2024-01-01" , "2024-01-31",7, dtype='datetime64[D]')

array(['2024-01-01', '2024-01-08', '2024-01-15', '2024-01-22',
       '2024-01-29'], dtype='datetime64[D]')

### Exercício
Obtenha os anos entre 1990 e 2015

In [32]:
np.arange("1990" , "2016",1, dtype='datetime64[Y]')

array(['1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997',
       '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015'], dtype='datetime64[Y]')

Agora veremos as funcionalidades que o pacote Pandas provê para a manipulação de datas. Utilizando Pandas podemos criar datas que poderão ser utilizadas como índices, o que facilita a utilização dessas datas em séries temporais.

In [33]:
import pandas as pd

In [34]:
pd.date_range('2024-01-01' , periods=7, freq='D')

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07'],
              dtype='datetime64[ns]', freq='D')

Pandas é bastante flexível e permite utilizar diferentes formatos para manipulação de datas.

In [35]:
pd.to_datetime(['1/1/2024', '2/1/2024'],format='%d/%m/%Y')

DatetimeIndex(['2024-01-01', '2024-01-02'], dtype='datetime64[ns]', freq=None)

Por default as datas devem ser representadas no formato americano Y-M-D. Podemos usar outros formatos de datas utilizando *to_datetime* e fornecendo o formato utilizado. Vamos criar duas datas no formato *pt-Br*: 01/01/2024 e 01/02/2024.

In [45]:
dados = np.random.randn(3,2)
cols = ["A" , "B"]
print(dados)

[[ 0.26865809  0.02946136]
 [ 0.49087128 -0.29694814]
 [ 1.2069808   0.28912793]]


Vamos agora criar um dataframe e indexá-lo com datas.

In [46]:
ind = pd.date_range("2024-01-01" , periods=3, freq="D")
df = pd.DataFrame(dados, index=ind,columns=cols)
print(df)

                   A         B
2024-01-01  0.268658  0.029461
2024-01-02  0.490871 -0.296948
2024-01-03  1.206981  0.289128


In [47]:
df.index.max()

Timestamp('2024-01-03 00:00:00')

Vamos agora obter o maior e o menor índices do nosso dataframe.

In [48]:
df.index.min()

Timestamp('2024-01-01 00:00:00')

In [49]:
df.to_csv("arq.csv")