# Introdução a séries temporais

## Trabalhando com datas

O pacote ```pandas``` contem diversas funcionalidades para trabalhar com dados de séries temporais. Usando os ```dtypes``` ```datetime64``` e ```timedelta64```do pacote ```NumPy```, o ```pandas``` consolidou um grande número de atributos de outras bibliotecas ```python``` como ```scikits.timeseries``` além de ter criado uma grande quantidade de novas funcionalidades para manipulação de séries temporais. 

### Passando datas

Temos três formas básicas de passar datas para um ```DataFrame``` através do comando ```pandas.to_datetime```. A primeira é através de um texto contendo a data desejada. Passando uma lista de datas, temos como resultado um objeto do tipo ```DatetimeIndex```.

In [8]:
import pandas as pd

pd.to_datetime(['01/01/2019', '01/02/2019'])

DatetimeIndex(['2019-01-01', '2019-01-02'], dtype='datetime64[ns]', freq=None)

Passando somente uma data no lugar de uma lista, obtemos como resultado um objeto do tipo ```Timestam```.

In [12]:
pd.to_datetime('01/02/2019')

Timestamp('2019-01-02 00:00:00')

Observe que o formato padrão para datas passadas como texto é do tipo mês/dia/ano. Para especificar um formato, utilizamos o parâmetro ```format``` passando a codificação da data de acordo com a documentação: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

Para passarmos a data no formato dia/mês/ano, por exemplo, passamos o parâmetro ```format='%d/%m/%Y'```.

In [10]:
pd.to_datetime(['01/01/2019', '02/01/2019', '03/01/2019'], format='%d/%m/%Y')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03'], dtype='datetime64[ns]', freq=None)

Outras formas de passar datas para um ```DataFrame``` ou ```Series``` é através do uso de pacotes como o ```numpy``` e ```datetime```. Para os dois métodos, o formato padrão das datas é ano-mês-dia.

In [21]:
import numpy as np

pd.to_datetime(np.datetime64('2018-01-01'))

Timestamp('2018-01-01 00:00:00')

In [22]:
import datetime

pd.to_datetime(datetime.datetime(2018, 1, 1))

Timestamp('2018-01-01 00:00:00')

### Operações matemáticas com datas

No pandas possuimos funcinalidades específicas para formatos de data. Utilizando o comando ```Timestamp.day_name()```, obtemos o nome do dia da semana correspondente a data. No exemplo abaixo, temos que a data 2018-01-05 corresponde a uma sexta-feira.

In [13]:
dia = pd.Timestamp('2018-01-05')
dia.day_name()

'Friday'

Para executar operações de soma e subtração de períodos utilizamos o comando ```pandas.Timedelta()```, passando como parâmetro um texto contendo o período desejado. Por exemplo, para acrescentar um dia a variável ```dia``` contendo o ```Timestamp``` de 2018-01-05, passamos como parâmetro o texto '1 day```.

In [14]:
dia2 = dia + pd.Timedelta('1 day')

In [16]:
dia2.day_name()

'Saturday'

Para considerar somente dia úteis, utilizamos o comando ```pandas.offsets.BDay()```, passando como parâmetro o número de dias úteis (valor padrão igual a 1).

In [20]:
dia + pd.offsets.BDay(1)

Timestamp('2018-01-08 00:00:00')

### Criando lista de datas paseada em frequência

Em uma série temporal, o intervalo entre datas deve possuir a mesma amplitude, i.e., frequência. Utilizando o comando ```pandas.date_range()``` temos a possiblidade de criar listas de datas de acordo com uma frequência específica. Como parâmetro, o comando ```date_range()``` recebe a data de início, a frequência com o parâmetro ```freq``` e o número de períodos com o parâmetro ```periods```. No exemplo abaixo, temos uma lista de datas diárias iniciando de 2019-01-01 com número de períodos igual a 365.

A lista de códigos de frequência encontra-se no link: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

In [25]:
pd.date_range('2019-01-01', freq='D', periods=365)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10',
               ...
               '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25',
               '2019-12-26', '2019-12-27', '2019-12-28', '2019-12-29',
               '2019-12-30', '2019-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

### Convertendo frequências de séries temporais

Temos, também, a possibilidade de modificar a frequência de uma série temporal. Considere a sequinte série com frequência em horas.

In [29]:
index = pd.date_range('2018-01-01', periods=10, freq='H')
ts = pd.Series(range(len(index)), index=index)
ts

2018-01-01 00:00:00    0
2018-01-01 01:00:00    1
2018-01-01 02:00:00    2
2018-01-01 03:00:00    3
2018-01-01 04:00:00    4
2018-01-01 05:00:00    5
2018-01-01 06:00:00    6
2018-01-01 07:00:00    7
2018-01-01 08:00:00    8
2018-01-01 09:00:00    9
Freq: H, dtype: int64

Para conversão de frequência, utilizamos o comando ```Series.resample()```. Como parâmetro, passamos a nova frequência. Precisamos. também, especificar a forma como a mudança será feita em relação aos valores da śérie. Para redução de frequência, por exemplo, podemos utilizar a média com o comando ```mean()```, ou a soma com o comando ```sum()```.

In [32]:
ts.resample('2H').mean()

2018-01-01 00:00:00    0.5
2018-01-01 02:00:00    2.5
2018-01-01 04:00:00    4.5
2018-01-01 06:00:00    6.5
2018-01-01 08:00:00    8.5
Freq: 2H, dtype: float64

Para o aumento na frequência, temos a possibilidade de obter os novos valores por meio da interpolação utlizando o comando ```interpolate()```.

In [36]:
ts.resample('0.5H').interpolate()

2018-01-01 00:00:00    0.0
2018-01-01 00:30:00    0.5
2018-01-01 01:00:00    1.0
2018-01-01 01:30:00    1.5
2018-01-01 02:00:00    2.0
2018-01-01 02:30:00    2.5
2018-01-01 03:00:00    3.0
2018-01-01 03:30:00    3.5
2018-01-01 04:00:00    4.0
2018-01-01 04:30:00    4.5
2018-01-01 05:00:00    5.0
2018-01-01 05:30:00    5.5
2018-01-01 06:00:00    6.0
2018-01-01 06:30:00    6.5
2018-01-01 07:00:00    7.0
2018-01-01 07:30:00    7.5
2018-01-01 08:00:00    8.0
2018-01-01 08:30:00    8.5
2018-01-01 09:00:00    9.0
Freq: 30T, dtype: float64