# Manipulação de séries temporais com pandas
## Autores: Eduardo Salis e João Victor Araujo Evangelista

## Introdução

Por definição, uma série temporal consiste em observações sequenciais de uma variável (ou conjunto de variáveis) **cronologicamente ordenadas** e reunidas em **intervalos regulares de tempo**. Tal intervalo é equivalente à frequência em que os dados são coletados (a cada hora, diariamente, mensalmente, anualmente, etc.). Na área de **negócios** ou **economia**, certamente já nos deparamos com uma série temporal, seja analisando o crescimento econômico de um país (PIB), descrevendo a inflação ao consumidor, estimando as vendas de determinados produtos, ou observando os preços de ativos listados na bolsa de valores. Sua compreensão também é de grande importância para outros campos  além desses, como medicina, música, ecologia , física, etc.

O Estudo de séries temporais busca compreender o comportamento desses tipos de dados, utilizando modelos estatísticos para , através de seu passado histórico, projetar observações futuras, sendo de grande importância para entendimento de mercados (nosso contexto) e na formulação de estratégias para lidar com tais. Por exemplo, ao analisar a viabilidade de investimento em uma varejista, podemos tentar projetar suas vendas nos próximos trimestres (supondo que tenhamos os dados necessários para tal). Podemos, através desses estudos, tentar responder certas perguntas como: " Podemos prever a demanda de determinada commoditie?" ou " Seria possível modelar a série de preços de um ativo, e como isso ganhar dinheiro?"

Esse será o primeiro de uma "série" de artigos que faremos sobre a temática. Conceitos, características, análises, visualização, e modelagem serão assuntos posteriores. O foco deste será em usar o Python, em especial  a biblioteca **pandas** , como **ferramenta** de **manipulação.**

## Tipo de dado temporal e ferramentas de datas

Começaremos com os diferentes formatos de datas há várias fontes que podem representá-la. Uma dessas fontes, é a biblioteca padrão do Python  chamada **datetime**,  a qual fornece classes para manipular datas e tempo. Seu objeto date (datetime.date) fornece pontos (períodos) específicos no tempo, enquanto os atributos e métodos extraem informações/detalhes dessas datas (dia, mês, ano). Para obter informações quanto a "hora", minutos ou segundos; é necessário o objeto time (datetime.time). Para obter as duas funcionalidades, pode ser usado o datetime.datetime() .

In [1]:
import datetime

dt = datetime.date(year=2020, month=12 , day=14)
dt2 = datetime.time(hour= 7, minute= 30 , second=15)
dt3 = datetime.datetime(year=2020, month=12 , day=14,hour= 7, minute= 30 , second=15 )

In [2]:
print(dt)
print(dt2)
print(dt3)

print(dt.day)
print(dt.month)
print(dt.year)


print(dt2.hour)
print(dt2.minute)
print(dt2.second)

2020-12-14
07:30:15
2020-12-14 07:30:15
14
12
2020
7
30
15


Nesse módulo  podemos instanciar as datas de dia e do horário em que rodamos o código

In [3]:
hoje = datetime.date.today() # retorna o dia de hoje
agora = datetime.datetime.now() # retorna o dia e horario de agora

print(hoje)
print(agora)
print(hoje.day) #retorna um atributo do objeto instanciado


2021-10-21
2021-10-21 19:06:24.065140
21


Também podemos usar strings para representar datas, assim como converter datas em strings. 

Caso queira saber um pouco mais sobre os códigos para representar diferentes tipos de datas, segue o link [https://strftime.org/](https://strftime.org/) .  Para outras funcionalidades, confira a documentação da biblioteca  [https://docs.python.org/pt-br/3/library/datetime.html](https://docs.python.org/pt-br/3/library/datetime.html)

In [4]:
data_str = "2021-08-16"  # YYYY-MM-DD (representação ISO861)

# Para obter um objeto datetime.date a partir da formatação ISO861, basta:
print(datetime.date.fromisoformat(data_str))
# a função strptime retorna uma data dependendo do formato
data_str2 = "08-16-2021 14:45:37"
formato = "%m-%d-%Y %H:%M:%S"
print(datetime.datetime.strptime(data_str2, formato))

data_str3 = "16/08/06"
formato2 = "%d/%m/%y"
print(datetime.datetime.strptime(data_str3, formato2))

In [5]:
dt4 = datetime.datetime(2020,3,15)
string = str(dt4)
print(string)
print(type(string))

2020-03-15 00:00:00
<class 'str'>


Para outras funcionalidades, confira a documentação da biblioteca  [https://docs.python.org/pt-br/3/library/datetime.html](https://docs.python.org/pt-br/3/library/datetime.html)

In [6]:
import pandas as pd

In [7]:
data = pd.Timestamp(datetime.datetime(2021,1,1))
data2 = pd.Timestamp('2021-01-01')
print(data, data2)
print(data == data2)


2021-01-01 00:00:00 2021-01-01 00:00:00
True


Podemos, da mesma forma que no pacote datetime, extrair informações  específicas por meio de métodos e atributos (confira a lista deles na documentação do pandas [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html))

In [8]:
print(data.year)
print(data.month)
print(data.day)
print(data.dayofweek)
print(data.month_name())
print(data.day_name())

2021
1
1
4
January
Friday


O pandas possui uma outra forma de criar datas, pd.Period, com funcionamento similar ao Timestamp, porém com alguns métodos diferenentes

In [9]:
data3 = pd.Period('2021-03')
print(data3)
print(data3.freq) # obtemos qual é a frequência do objeto
print(data3.asfreq("D")) # asfreq converte a frequência
print(data3.asfreq("Y")) # asfreq converte a frequência

2021-03
<MonthEnd>
2021-03-31
2021


Possuindo essa noção sobre objetos que representam datas, seguiremos  para como torná-los sequências através do pd.date_range, cujos argumentos principais são : 

- start: início da sequência de datas
- end: final da sequência de datas
- periods: número de instâncias de tempo queremos
- freq: frequência da série (mensal, diária, etc.)

In [10]:
seq_datas = pd.date_range('2021-01', periods=12, freq='M') # freq mensal
print(seq_datas)
seq_datas2 = pd.date_range('2021-01',periods=60, freq='D' ) #freq diária
print(seq_datas2)
seq_datas3= pd.date_range(start='2021-01',end='2021-03') #freq diária é o padrão quando não é explicitada 
print(seq_datas3)
seq_datas4= pd.date_range(end='2021-03', periods=60) #podemos só definir o fim e o número de períodos
print(seq_datas4)

DatetimeIndex(['2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30',
               '2021-05-31', '2021-06-30', '2021-07-31', '2021-08-31',
               '2021-09-30', '2021-10-31', '2021-11-30', '2021-12-31'],
              dtype='datetime64[ns]', freq='M')
DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10', '2021-01-11', '2021-01-12',
               '2021-01-13', '2021-01-14', '2021-01-15', '2021-01-16',
               '2021-01-17', '2021-01-18', '2021-01-19', '2021-01-20',
               '2021-01-21', '2021-01-22', '2021-01-23', '2021-01-24',
               '2021-01-25', '2021-01-26', '2021-01-27', '2021-01-28',
               '2021-01-29', '2021-01-30', '2021-01-31', '2021-02-01',
               '2021-02-02', '2021-02-03', '2021-02-04', '2021-02-05',
               '2021-02-06', '2021-02-07', '2021-02-08', '2021-02-09',
               '2021-02-10',

In [11]:
seq_datas[0]

Timestamp('2021-01-31 00:00:00', freq='M')

----

## Série Temporal: preços de fechamento ajustado PETR4

## Index e DataFrames

Sequências de datas podem compor  "*Pandas Series*" ou colunas dos "*DataFrames*". Para facilitar a leitura desse, incorporamos uma série de datas através dos índices, já em certas situações , precisamos que o índice registre informação sobre o tempo, para que possa ser representado uma série temporal.

In [12]:
petr4 =pd.read_csv('PETR4.csv')

In [13]:
petr4.head()

Unnamed: 0,data,PETR4
0,2015-01-02,7.9297
1,2015-01-05,7.2943
2,2015-01-06,7.0571
3,2015-01-07,7.3451
4,2015-01-08,7.7772


In [14]:
petr4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1638 entries, 0 to 1637
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   data    1638 non-null   object 
 1   PETR4   1638 non-null   float64
dtypes: float64(1), object(1)
memory usage: 25.7+ KB


Perceba que aqui a coluna datas possui não possui suas observações como do tipo data, para isso, basta utilizar aplicar a função pd.to_datetime(). Repare que após essa aplicação, o tipo dos dados será datetime64

In [15]:
petr4['data'] = pd.to_datetime(petr4['data'])

In [16]:
print(petr4.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1638 entries, 0 to 1637
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   data    1638 non-null   datetime64[ns]
 1   PETR4   1638 non-null   float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 25.7 KB
None


Perceba que aqui a coluna datas possui não possui suas observações como do tipo data, para isso, basta utilizar aplicar a função pd.to_datetime(). Repare que após essa aplicação, o tipo dos dados será datetime64

In [17]:
petr4.set_index('data',inplace=True)

In [18]:
print(petr4['2015']) # seleciona apenas os dados de 2015

             PETR4
data              
2015-01-02  7.9297
2015-01-05  7.2943
2015-01-06  7.0571
2015-01-07  7.3451
2015-01-08  7.7772
...            ...
2015-12-22  5.7524
2015-12-23  5.8710
2015-12-28  5.6762
2015-12-29  5.6677
2015-12-30  5.6762

[246 rows x 1 columns]


  print(petr4['2015']) # seleciona apenas os dados de 2015


In [19]:
print(petr4['2015':'2017'])  # seleciona apenas os dados de 2015 a 2017

              PETR4
data               
2015-01-02   7.9297
2015-01-05   7.2943
2015-01-06   7.0571
2015-01-07   7.3451
2015-01-08   7.7772
...             ...
2017-12-21  13.4364
2017-12-22  13.3432
2017-12-26  13.5296
2017-12-27  13.5974
2017-12-28  13.6397

[739 rows x 1 columns]


In [20]:
print(petr4['2015-06':'2015-08'])  # seleciona apenas os dados de junho a agosto de 2015

              PETR4
data               
2015-06-01  10.4797
2015-06-02  10.8779
2015-06-03  10.8694
2015-06-05  10.6407
2015-06-08  10.6491
...             ...
2015-08-25   6.6928
2015-08-26   6.8707
2015-08-27   7.5315
2015-08-28   7.6247
2015-08-31   7.7856

[64 rows x 1 columns]


In [21]:
print(petr4['2015-06-01':'2015-07-20'])  # seleciona apenas os dados do dia 01 de junho a 20 de julho  de 2015

              PETR4
data               
2015-06-01  10.4797
2015-06-02  10.8779
2015-06-03  10.8694
2015-06-05  10.6407
2015-06-08  10.6491
2015-06-09  10.9880
2015-06-10  11.0558
2015-06-11  11.0558
2015-06-12  11.0304
2015-06-15  11.0050
2015-06-16  11.3099
2015-06-17  11.1744
2015-06-18  11.3862
2015-06-19  11.1575
2015-06-22  11.1829
2015-06-23  10.9880
2015-06-24  11.1829
2015-06-25  10.6746
2015-06-26  11.1913
2015-06-29  10.8016
2015-06-30  10.7677
2015-07-01  10.3187
2015-07-02  10.4204
2015-07-03   9.9375
2015-07-06   9.7257
2015-07-07   9.9799
2015-07-08   9.7850
2015-07-10   9.9883
2015-07-13  10.0138
2015-07-14  10.1662
2015-07-15   9.9968
2015-07-16  10.0985
2015-07-17   9.6579
2015-07-20   9.1411


Esse modo de seleção será descontinuado nas próximas atualizações da biblioteca, sendo substituído pela seleção por meio do método .loc (df.loc[‘string_data’]):

In [22]:
petr4.loc['2015']

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,7.9297
2015-01-05,7.2943
2015-01-06,7.0571
2015-01-07,7.3451
2015-01-08,7.7772
...,...
2015-12-22,5.7524
2015-12-23,5.8710
2015-12-28,5.6762
2015-12-29,5.6677


## Funções built in

### pct_change()

O pandas possui uma função nativa para obter a mudança percentual dos valores de uma série, no caso de dados dos preços de fechamento de uma ação, obtemos os retornos diários desse ativo

In [23]:
petr4.pct_change()

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,-0.080129
2015-01-06,-0.032519
2015-01-07,0.040810
2015-01-08,0.058828
...,...
2021-08-13,0.008593
2021-08-16,-0.024191
2021-08-17,-0.000004
2021-08-18,-0.008879


Repare que o primeiro valor da série será um NaN, pois não há valor anterior a tal para calcular a mudança percentual de um dia. 

O primeiro argumento dessa função se refere ao número de períodos que calculamos a diferença percentual. Como padrão, calcula-se a mudança percentual relativa  a 1 dia ( petr4.pct_change(period=1) ), porém podemos passar outros valores

In [24]:
petr4.pct_change(10) #retorno de 10 dias

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,
2015-01-06,
2015-01-07,
2015-01-08,
...,...
2021-08-13,0.090675
2021-08-16,0.084440
2021-08-17,0.066664
2021-08-18,0.080120


### diff()

Essa função calcula as diferenças entre as observações periódicas, sua lógica é parecida com a anterior quanto aos períodos

In [25]:
petr4.diff()

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,-0.6354
2015-01-06,-0.2372
2015-01-07,0.2880
2015-01-08,0.4321
...,...
2021-08-13,0.2360
2021-08-16,-0.6701
2021-08-17,-0.0001
2021-08-18,-0.2400


In [26]:
petr4.diff(3)

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,
2015-01-06,
2015-01-07,-0.5846
2015-01-08,0.4829
...,...
2021-08-13,1.0099
2021-08-16,-0.0283
2021-08-17,-0.4342
2021-08-18,-0.9102


### rolling()

Método que “agrupa” a série temporal em sub períodos fixos. Em outras palavras, cria uma espécie de “janela de tempo de mesmo tamanho”. Podemos então calcular métricas móveis como média, desvio padrão, máximo e mínimo. Seu parâmetro principal é o window, que define o tamanho da janela:

In [27]:
petr4.rolling(window=30).mean() #média móvel de 30 dias

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,
2015-01-06,
2015-01-07,
2015-01-08,
...,...
2021-08-13,26.068993
2021-08-16,26.052007
2021-08-17,26.045397
2021-08-18,26.067910


In [28]:
petr4.rolling(window=30).std() # desv. padr móvel de 30 dias

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,
2015-01-06,
2015-01-07,
2015-01-08,
...,...
2021-08-13,0.839203
2021-08-16,0.813161
2021-08-17,0.804024
2021-08-18,0.815404


In [29]:
petr4.rolling(window=30).max() # máximo "móvel" de 30 dias

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,
2015-01-05,
2015-01-06,
2015-01-07,
2015-01-08,
...,...
2021-08-13,27.7002
2021-08-16,27.7002
2021-08-17,27.7002
2021-08-18,27.7002


### Funções para janelas expansoras

Em determinadas situações, necessitamos que uma função de agregação forneça um output com base em todas as observações dos dados até certo ponto (i.g calcular os retornos cumulativos de um ativo, obter a demanda de um item ao longo do ano, etc). Para isso , utilizaremos  as chamadas _expanding windows_ (em tradução livre, janelas expansoras) junto com funções ( ```min()```, ```.max()```, .```sum()``` )



In [30]:
petr4.expanding().max() # máximo acumulado 

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,7.9297
2015-01-05,7.9297
2015-01-06,7.9297
2015-01-07,7.9297
2015-01-08,7.9297
...,...
2021-08-13,28.4144
2021-08-16,28.4144
2021-08-17,28.4144
2021-08-18,28.4144


Há determinados métodos no pandas que já usam janelas expansoras em seus calculos. Alguns exemplos: ```cummax()``` , .```cumsum()```, ```cumprod()```

In [31]:
petr4.cummax() # máximo acumulado 

Unnamed: 0_level_0,PETR4
data,Unnamed: 1_level_1
2015-01-02,7.9297
2015-01-05,7.9297
2015-01-06,7.9297
2015-01-07,7.9297
2015-01-08,7.9297
...,...
2021-08-13,28.4144
2021-08-16,28.4144
2021-08-17,28.4144
2021-08-18,28.4144


## Lag and Shift

Agora que já exploramos os tipos de datas e as ferramentas mais básicas, vamos aprender a utilizar métodos mais complexos de manipulação de séries temporais.

Primeiro, vamos aprender como deslocar os dados ao longo da série temporal. O jeito mais fácil de fazer isso é usar o método do pandas ```.shift()```, que funciona tanto com objetos pandas.Series como também com pandas.DataFrame. O primeiro parâmetro do método (que já vimos nos métodos ```.pct_change()``` e .```diff()```) é o periodos. Nele, definimos se queremos deslocar os dados para o futuro ou para o passado (isto é, deslocar os valores das linhas indexadas em uma data para outra data), bem como a quantidade de períodos que serão deslocados.

Basicamente, o número inteiro atribuído ao argumento periods será a quantidade de períodos que os dados se moverão para o futuro no caso dos números positivos ou para o passado no caso dos números negativos.

Num contexto econômico, por exemplo, é possível imaginar uma situação em que gostaríamos de calcular o quanto a venda de veículos cresceu em um mês para o outro ou de um ano para o outro:

In [32]:
vendas = pd.read_csv('vendas_fenabrave.csv', sep=';', index_col=0)
vendas

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
01/01/1979,86.374
01/02/1979,74.507
01/03/1979,63.835
01/04/1979,84.263
01/05/1979,89.071
...,...
01/04/2021,269.798
01/05/2021,299.054
01/06/2021,289.158
01/07/2021,288.025


In [42]:
vendas = pd.read_csv('vendas_fenabrave.csv', sep=';', index_col=0)
vendas

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
1979-01-01,
1979-02-01,86.374
1979-03-01,74.507
1979-04-01,63.835
1979-05-01,84.263
...,...
2021-04-01,251.679
2021-05-01,269.798
2021-06-01,299.054
2021-07-01,289.158


Tratando-se de uma Time Series de frequência mensal, para acharmos a variação mensal (também conhecido como month-over-month) dividimos a série atual pela série movimentada um período para frente. O resultado da divisão deve ser subtraído por um e multiplicado por cem para termos o valor em porcentagem.

In [33]:
fenabrave_mom = ((vendas / vendas.shift(1)) - 1) * 100
fenabrave_mom

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
01/01/1979,
01/02/1979,-13.739088
01/03/1979,-14.323486
01/04/1979,32.001253
01/05/1979,5.705944
...,...
01/04/2021,7.199250
01/05/2021,10.843668
01/06/2021,-3.309101
01/07/2021,-0.391827


Já para a variação anual (year-over-year), realizamos o mesmo processo, mas dessa vez deslocando a série em 12 meses (analogamente, é possível encontrar qualquer variação deslocando o número correto de períodos):


In [34]:
fenabrave_yoy = ((vendas / vendas.shift(12)) - 1) * 100
fenabrave_yoy

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
01/01/1979,
01/02/1979,
01/03/1979,
01/04/1979,
01/05/1979,
...,...
01/04/2021,221.337288
01/05/2021,227.224781
01/06/2021,61.825559
01/07/2021,10.923473


Se esses exemplos causaram um deja vu, não se assuste! O que fizemos agora poderia ter sido facilmente substituído pelo método ```.pct_change()```, porém o deslocamento dos valores de séries temporais é útil para diversos outros cálculos que envolvem a comparação de valores em períodos diferentes.

O método ```.shift()``` conta com outros parâmetros que poderão ser usados para ampliar a análise, sendo importante destacar os parâmetros ```axis``` e ```fill_value```.

Com o primeiro, você poderá indicar em qual sentido você deseja deslocar sua série. O valor padrão ```axis=0``` especifica o deslocamento através das linhas, mas também é possível usar ```axis=1``` para realizar o deslocamento pelas colunas.

Já o segundo serve para preenchermos os valores que ficariam como NaN (Not a Number) ao deslocar a série. Quando deslocamos os valores para o futuro, o pandas não tem valores anteriores aos das primeiras linhas para deslocar para elas, eles são preenchidos então como NaN (caso desloquemos para o passado isso ocorre com os últimos valores). Dessa forma, podemos usar o parâmetro fill_value= para decidirmos o que gostaríamos de preencher no lugar desses valores faltantes.

Outro caso que vale a pena mencionar é  a utilização valores negativos para a variável ```periods```, que retorna os valores seguintes de uma observação (um "lag"). 

In [41]:
vendas.shift(-1)

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
1979-01-01,74.507
1979-02-01,63.835
1979-03-01,84.263
1979-04-01,89.071
1979-05-01,90.288
...,...
2021-04-01,299.054
2021-05-01,289.158
2021-06-01,288.025
2021-07-01,275.507


O propósito de utilizar valores anteriores ou posteriores de uma série fará mais sentido quando aplicarmos conceitos de Econometria ou de Machine Learning 

## Resampling

As séries temporais possuem frequências específica, porém, muitas vezes desejamos mudar a frequência para fins de cálculo, apresentação ou comparação entre duas séries. Para fazer isso, utilizaremos o método ```.resample()``` (há outras formas de converter frequência no Python, porém focaremos nesse método por ser mais geral). Basicamente, basta aplicar o método na sua série temporal, passando o primeiro argumento como uma string que representa a frequência para a qual você deseja passar a série temporal.

Abaixo um dicionário de todas as siglas para cada tipo de frequência:



B         business day frequency

C         custom business day frequency (experimental)

D         calendar day frequency

W         weekly frequency

M         month end frequency

SM        semi-month end frequency (15th and end of month)

BM        business month end frequency

CBM       custom business month end frequency

MS        month start frequency

SMS       semi-month start frequency (1st and 15th)

BMS       business month start frequency

CBMS      custom business month start frequency

Q         quarter end frequency

BQ        business quarter endfrequency

QS        quarter start frequency

BQS       business quarter start frequency

A         year end frequency

BA, BY    business year end frequency

AS, YS    year start frequency

BAS, BYS  business year start frequency

BH        business hour frequency

H         hourly frequency

T, min    minutely frequency

S         secondly frequency

L, ms     milliseconds

U, us     microseconds

N         nanoseconds

Para fins didáticos, usaremos as frequência ‘M’ e ‘D’, pois são mais comuns e facilitará a explicação. De modo geral existe dois tipo de resampling, o downsampling e o upsampling, o primeiro é quando seus dados estão em uma frequência maior que o desejado, enquanto o segundo é quando a frequência é menor.

No downsampling, devemos agregar os dados para formar a time series numa sequência menor, tradicionalmente podemos agregar os dados tirando a média ou a mediana. Para isso, após o método .resample() usamos outro método, o .mean() no caso de tirar a média e o .median() para a mediana. Usando como exemplo a mesma série de vendas de carro do Fenabrave, temos:

In [35]:
vendas.index = pd.to_datetime(vendas.index, format = "%d/%m/%Y")
vendas.resample('Y').mean()

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
1979-12-31,84.577083
1980-12-31,81.688417
1981-12-31,48.39375
1982-12-31,57.607833
1983-12-31,60.644333
1984-12-31,56.4235
1985-12-31,63.598333
1986-12-31,86.074
1987-12-31,62.974833
1988-12-31,75.53225


Ou seja, a série foi convertida para a frequência anual e os valores refere-se a média de vendas dos 12 meses de cada ano.

No upsampling o processo é semelhante, entretanto nesse caso desejamos acrescentar dados, portanto, podemos usar os métodos .interpolate() e .ffill(), o primeiro adiciona um ponto na linha reta entre os outros dois pontos da série, enquanto o segundo mantém o último valor. Exemplo:

In [36]:
vendas.resample('D').interpolate()

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
1979-01-01,86.374000
1979-01-02,85.991194
1979-01-03,85.608387
1979-01-04,85.225581
1979-01-05,84.842774
...,...
2021-07-28,277.122226
2021-07-29,276.718419
2021-07-30,276.314613
2021-07-31,275.910806


In [37]:
vendas.resample('D').ffill()

Unnamed: 0_level_0,TOTAL Geral
Período,Unnamed: 1_level_1
1979-01-01,86.374
1979-01-02,86.374
1979-01-03,86.374
1979-01-04,86.374
1979-01-05,86.374
...,...
2021-07-28,288.025
2021-07-29,288.025
2021-07-30,288.025
2021-07-31,288.025


Há outros métodos que poderão ser usados para agregar ou preencher os dados no resampling, apresentamos os mais usados e tudo dependerá de qual fará mais sentido para sua série.

# Resumo 

Vimos ao longo do artigo diversas ferramentas básicas que serão essenciais para possamos futuramente fazer análises e desenvolver modelos de séries temporais. Foram elas

- Datas e Indexing: para facilitar a leitura de dados de séries temporais 
- Lag e shift: manipular a série através do tempo
- Funções que produzem informações relevantes sobre os dados, como:
    - pct_change
    - diff()
    - Rolling window
    - Acumulativas 
- Resampling: convertendo instâncias de tempo


Vale lembrar que esse é apenas um recorte do tema, para mais informações visite as documentações dos pacotes mencionados. 

----

# Referências

Cap 10 e 11 : Python for Data Analysis

[https://docs.python.org/pt-br/3/library/datetime.html](https://docs.python.org/pt-br/3/library/datetime.html) 

[https://realpython.com/python-datetime/](https://realpython.com/python-datetime/) 

[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html) 

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.expanding.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.expanding.html)

[https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html)