### Bibliotecas úteis para Time Series com Python


*   Pandas
*   Scikit-learn
*   Numpy
*   Statsmodel



### Explorando os dados

In [1]:
import pandas as pd
series = pd.read_csv('champagne_sales.csv')

In [2]:
type(series)

pandas.core.frame.DataFrame

In [3]:
series.tail()

Unnamed: 0,Month,Sales
100,1972-05,4618
101,1972-06,5312
102,1972-07,4298
103,1972-08,1413
104,1972-09,5877




*   **header=0** : A informação de colunas está na primeira linha do arquivo
*   **parse_date=True** : Sinalizamos que o dataset contém coluna do tipo date.
*   **index_col=0** : Definimos nossa coluna indice que é a informação temporal.
*   **squeeze=True**: Sinalizamos que nos temos apenas um dado de coluna e que queremos transformar isso em uma série e não em um dataframe.



In [None]:
from pandas import read_csv
series = read_csv('champagne_sales.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

**Explorando e resumindo os dados**

In [None]:
series.describe()

**Visualizando dados**

In [None]:
import matplotlib.pyplot as plt
series.plot(figsize=(10,5), 
            linewidth=3, 
            fontsize=10,
            title='Vendas ao longo dos anos')
plt.xlabel('Ano', fontsize=10);

**Vendas no ano de 1964 e 1965**

In [None]:
series['1964']

In [None]:
series['1965-01']

In [None]:
series.index

In [None]:
series.values

**Vendas por mês de cada ano**

In [None]:
from pandas import Grouper
from matplotlib import pyplot
from pandas import DataFrame

In [None]:
series

In [None]:
# Removendo os dados do ano 1972 por este ano ter menos dados
series.drop(series['1972'].index, inplace=True)

In [None]:
grupos = series.groupby(Grouper(freq='A'))
anos = DataFrame()
for nome, grupo in grupos:
  anos[nome.year] = grupo.values

In [None]:
anos

In [None]:
anos.plot(figsize=(10,5)
          ,subplots=True
          ,title='Vendas em meses por anos')

**Vendas por ano - Gráfico de pontos**

In [None]:
series.plot(style='k.')

**Visualizando a distribuição da série**

In [None]:
series.hist()

**Gráfico de Densidade**

In [None]:
series.plot(kind='kde')

**Visualizando Outliers por anos**

In [None]:
grupos = series.groupby(Grouper(freq='A'))
anos = DataFrame() 
for nome, grupo in grupos:
  anos[nome.year] = grupo.values
anos.boxplot(figsize=(10,5))

**Dispersão de valores e lags**


*   Visualizando a dispersão entre o valor t e t+n



In [None]:
from pandas.plotting import lag_plot
lag_plot(series, lag=1)

**Autocorrelação**



1.   Mede a autocorrelação entre os lags.
2.   Ao execer as linhas pontilhadas mostra relevância estatística.



In [None]:
from pandas.plotting import autocorrelation_plot
autocorrelation_plot(series)

**Autocorrelação com Statsmodels**



*   Calcula a correlação com lags.
*   Pode ser utilizado para configurações de modelos de previsão.
*   Exibe o intervalo de confiança de 95% por padrão.

In [None]:
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
from matplotlib import pyplot

In [None]:
plot_acf(series, lags=40)
pyplot.show()

###Modelando Dados

Remodelar os dados envolve alterar a frequência das observacoes em dois tipos:

 **Upsampling**: Significa aumentar a frequencia das amostras, como por exemplo, minutos para segundos.

 **Downsampling**: Significa diminuir a frequencia das amostras, como por exemplo, dias para meses.

Existem duas principais razoes porque queremos remodelar nossos dados:

 **Problem Framing**: Remodelar os dados para trabalhar na mesma frequencia que as predicoes que iremos entregar.

 **Feature Engineering**: Remodelar os dados podem entregar insights e informações importantes para modelos de machine learning.

In [None]:
resample = series.resample('2M')

In [None]:
type(resample)

In [None]:
print(resample)

Cria uma variável para receber os dados do tipo série.

In [None]:
vendas_medias_dois_meses = resample.mean()

In [None]:
print(vendas_medias_dois_meses.head(5))

In [None]:
vendas_medias_dois_meses.plot(figsize=(10,5), linewidth=3, fontsize=10, title='Vendas médias a cada dois meses')
pyplot.show()

Trabalhando com Trimestres

In [None]:
upsampled = series.resample('Q')

In [None]:
vendas_trimestre = upsampled.mean()

Plota o gráfico de vendas por trimestre

In [None]:
vendas_trimestre.plot(figsize=(10,5), linewidth=3, fontsize=10, title='Vendas médias por trimestre')
pyplot.show()

Calculando a média de vendas por ano

In [None]:
resample = series.resample('A')

In [None]:
vendas_medias_por_ano = resample.mean() 
print(vendas_medias_por_ano.head())

In [None]:
vendas_medias_por_ano.plot(figsize=(10,5), linewidth=3, fontsize=10, title='Vendas médias por ano')
pyplot.show()

#### Engenharia de Features para Séries temporais


*   Objetivo da Engenharia de Features:
    - Fornecer uma **forte e simples** relação entre as variáveis de entrada e a variável alvo para o algoritmo de Machine Learning
    - Para Séries temporais não existe uma relação entre **variáveis de entrada e saída**, nós devemos inventar esses para modelar isso como um problema de aprendizado supervisionado a partir do zero.
    - Podemos nos basear na capacidade de modelos sofisticados para decifrar a complexidade do problema. Ou melhor, podemos facilitar o trabalho para esses modelos (e até usar modelos mais simples) se pudermos expor melhor o relacionamento inerente entre entradas e saídas nos dados.

*  É muito usado em séries temporais features que refletem:

  - *Sazonalidade.*
  - *Janelas de tempo (lag).*
  - *Janelas de tempo com estatísticas.*

*   Foco no negócio. Exemplos: 
    - *Trimestre, dia da semana, dia do mês, feriados, final de semana*
    - *vendas dos dias ou periodos anteriores ou a diferença desses valores*





In [None]:
# datetime tipo de dado
type(series.index)

In [None]:
series

In [None]:
# retorna a hora do datetime
series.index.hour

In [None]:
# retorna o trimestre
series.index.quarter

In [None]:
# retorna o dia da semana
series.index.dayofweek

In [None]:
# retorna o dia do ano
series.index.dayofyear

In [None]:
# retorna se é o último dia do ano
series.index.is_year_end

In [None]:
# retorna se é o primeiro dia do ano
series.index.is_year_start

### Manipulando datas

In [None]:
import pandas as pd
faixa = pd.date_range(start='2019-01-01', end='2019-12-31', freq='B')

In [None]:
faixa

In [None]:
#pip install holidays

In [None]:
import holidays
from datetime import date

In [None]:
feriados = holidays.Brazil()

In [None]:
# Dia do trabalho
date(2019, 5, 1) in feriados

In [None]:
dias_uteis = []
for dia in faixa.values:
  dia = pd.to_datetime(dia).date()
  if dia in feriados:
    continue
  else:
    dias_uteis.append(dia)

In [None]:
len(dias_uteis)

In [None]:
dias_uteis = pd.to_datetime(dias_uteis)

In [None]:
dias_uteis

In [None]:
'2019-01-01' in dias_uteis

In [None]:
'2019-01-02' in dias_uteis

##### **Features de data**
- Dois features com os quais podemos começar são o mês e o dia de vendas.
- Podemos imaginar que algoritmos de aprendizado supervisionado podem usar essas entradas para ajudar a obter informações de sazonalidade, como por exemplo: *mês com mais vendas, ou dia do mês que mais vende*.

In [None]:
dataframe = DataFrame()

In [None]:
dataframe['mes'] = [series.index[i].month for i in range(len(series))]

In [None]:
dataframe['dia'] = [series.index[i].day for i in range(len(series))]

In [None]:
dataframe['vendas'] = [series[i] for i in range(len(series))]

In [None]:
dataframe

### Lag Features

- Slide Window (Janelas deslizantes)

In [None]:
series.head()

In [None]:
# desloca o valor um lag a frente
series.shift(1)

In [None]:
# Cria um dataframe chamado temp
temp = DataFrame(series.values)

In [None]:
temp

In [None]:
# Desloca o valor um lag a frente
temp.shift(1)

Concatenando o dataframe

In [None]:
from pandas import concat
dataframe = concat([temp.shift(1), temp], axis=1)

In [None]:
# cria as colunas t e t+1
dataframe.columns = ['t', 't+1']

In [None]:
dataframe.head(5)

Expandindo os lags

In [None]:
temp = DataFrame(series.values)

In [None]:
# expandindo 2 lags a frente
temp.shift(2)

In [None]:
# expandindo 3 lags a frente
temp.shift(3)

In [None]:
# concatena lags
dataframe = concat([temp.shift(3), temp.shift(2), temp.shift(1), temp], axis=1)

In [None]:
# cria colunas
dataframe.columns = ['t-2', 't-1', 't', 't+1']

In [None]:
# imprime o dataframe gerado
print(dataframe.head(10))

In [None]:
# dados originais..
temp.head(10)

### Trabalhando com o método Rolling 

In [None]:
# cria um dataframe a partir dos dados originais
temp = pd.DataFrame(series.values)

In [None]:
# a variável dados_deslocados recebe os dados de um lag a frente
dados_deslocados = temp.shift(1)

In [None]:
# imprime a variável dados_deslocados
dados_deslocados

In [None]:
# cria uma variável com rolling
window = dados_deslocados.rolling(window=2)

In [None]:
# imprime a variável window
window

In [None]:
# cria a variável media
media = window.mean()

In [None]:
# imprime a variável media
media

In [None]:
# cria um dataframe concatendo a media com os dados reais
dataframe = concat([media, temp], axis=1)

In [None]:
# cria as colunas
dataframe.columns = ['mean(t-1,t)', 't+1']

In [None]:
# imprime o dataframe gerado
print(dataframe.head(10))

Entendendo os dados gerados..

- `Os primeiros NaN values foram criados pelo deslocamento dos dados.`

- `O segundo valor não pode ser usado apenas para calcular a média.`

- `A terceira linha mostra o valor esperado de 2743.5 (média de 2815 e 2672) e o valor de t+1`


Comparando com a série original...

In [None]:
series.head()

Adicionando estatística nos dados

In [None]:
# define a variável tamanho
tamanho = 3

In [None]:
# variável dados_deslocados recebe tamanho - 1
dados_deslocados = temp.shift(tamanho)

In [None]:
# imprime a variável dados_deslocados
dados_deslocados

In [None]:
# cria a variável janela que recebe o rolling do tamanho especificado
janela = dados_deslocados.rolling(window=tamanho)

In [None]:
janela

In [None]:
# cria o dataframe com as estatísticas da janela
dataframe = concat([window.min(), window.mean(), window.max(), temp], axis=1)

In [None]:
# cria as colunas do dataframe
dataframe.columns = ['min', 'mean', 'max', 't+1']

In [None]:
# imprime o dataframe
dataframe.head(10)

### Médias Móveis (Average Moving Smoothing)



*   Valor médio de valores em uma sequência de tempo.
*   Técnica de suavização que remove variações finas nos dados.
*   Objetivo é remover ruídos e fazer previsões.
*   Pode ser usado para Feature Engineering.



In [None]:
# importa as bibliotecas que serão usadas
import pandas as pd
from pandas import read_csv
from pandas import concat
from matplotlib import pyplot

In [None]:
# ler a base de dados usada.
series = read_csv('champagne_sales.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

In [None]:
# cria um objeto rolling de janela igual a 3
rolling = series.rolling(window=3)

In [None]:
# calcula a média da janela
rolling_mean = rolling.mean()

In [None]:
# plot os dados originais e os dados da média móvel 
series.plot()
rolling_mean.plot(color='red')
pyplot.show()

#### Média Móvel - Engenharia de Features



In [None]:
from pandas import DataFrame

In [None]:
# cria um dataframe df
df = DataFrame(series.values)

In [None]:
# imprime as 5 linhas do dataframe
df.head()

In [None]:
# cria uma constante
tamanho = 3

In [None]:
# cria uma variável com os dados deslocados +1
lag1 = df.shift(1)

In [None]:
# cria uma variável com os dados deslocados +3
lag3 = df.shift(tamanho)

In [None]:
# cria uma janela usando o rolling
window = lag3.rolling(window=tamanho)

In [None]:
# cria a variável media que é a média da jenela.
media = window.mean()

In [None]:
# imprime a variável media
media

In [None]:
# imprime o dataframe
df.head()

In [None]:
# concatena os dados
dataframe = concat([media, lag1, df], axis=1)

In [None]:
# cria as colunas
dataframe.columns = ['media', 't', 't+1']

In [None]:
lag3

In [None]:
# imprime o dataframe
dataframe.head(10)

#### Previsões com Média Móvel



1.   Solução simples (walk-forward)
2.   Interessante para se criar baselines.
3.   Pode se usar Janelas Deslizantes para trabalhar com dados quentes.



![walk_forward.png](attachment:e79097e6-a9c0-405a-90b3-d17f6e95973a.png)

In [None]:
from math import sqrt
from pandas import read_csv
from numpy import mean
from sklearn.metrics import mean_squared_error

In [None]:
series

In [None]:
# Define uma janela de 3 elementos
window = 3

In [None]:
# Obtem os 3 primeiros valores da serie
history = [series.values[i] for i in range(window)]

In [None]:
# imprime a variável history
history

In [None]:
# Obtem todos os valores após os tres primeiros.
# range(3, tamanho_da_serie)

test = [series.values[i] for i in range(window, 13)]

In [None]:
# imprime a variável test
# 10 primeiros valores da série após o history
test

In [None]:
# serie original
series.values

**Previsão com Média Móvel - Janela deslizante**

In [None]:
# Define uma variavel chamada X que é a copia da serie de dados
X = series.values

# Define a variável window = 3 que será a janela de 3 valores
window = 3

# Obtem os 3 primeiros valores da serie
history = [X[i] for i in range(window)]

# Obtem todos os valores após os tres primeiros.
test = [X[i] for i in range(window, len(X))]

# cria lista de predições
predicoes = []

# Intera sobre os dados de teste...

for t in range(len(test)):
  # define a variavel length com o tamanho da variável history
  length = len(history)
  
  # define a variável valor_predito com a média dos 3 valores correntes..                                                           
  valor_predito = mean([history[i] for i in range(length - window, length)])        
  
  # define a variável valor_real com o valor atual do teste..
  valor_real = test[t]                                                              
  
  # alimenta a lista de predicoes
  predicoes.append(valor_predito)                                                  
  
  # atualiza a lista history com os valores correntes..
  history.append(valor_real)                                                        
  
  # imprime o valor predito e o real...
  print('Valor predito=%f, Valor real=%f' % (valor_predito, valor_real))                 

In [None]:
# calcula a métrica de rmse
rmse = sqrt(mean_squared_error(test, predicoes))                               

In [None]:
# imprime o valor de rmse
print('Métrica RMSE: %.3f' % rmse)

In [None]:
# plot o valor real (test) e as predições 
pyplot.plot(test) 
pyplot.plot(predicoes, color='red')
pyplot.show()