# üìä Predi√ß√£o de s√©ries temporais com SARIMA

## üìä Contexto do Projeto

üìÅ **Dataset utilizado:**  
O conjunto de dados analisado √© o cl√°ssico **Air Passengers Dataset**, que cont√©m o n√∫mero mensal de passageiros de uma companhia a√©rea internacional ao longo do tempo.

üóìÔ∏è **Per√≠odo de observa√ß√£o:**  
De **janeiro de 1949** at√© **dezembro de 1960**, totalizando **144 registros mensais**.

---

### üîç Por que esse dataset √© interessante?

Este dataset √© frequentemente utilizado para estudos e modelagens de **s√©ries temporais**, devido √†s suas caracter√≠sticas bem definidas:

- üìà **Tend√™ncia:**  
  O n√∫mero de passageiros cresce ao longo dos anos, indicando uma **tend√™ncia de alta**.

- üìÜ **Sazonalidade:**  
  A s√©rie exibe um **padr√£o sazonal anual**, ou seja, o comportamento se repete aproximadamente a cada **12 meses**.

- üå™Ô∏è **Flutua√ß√µes aleat√≥rias:**  
  Existem pequenas **varia√ß√µes** al√©m da tend√™ncia e sazonalidade, que podem estar relacionadas a **ru√≠dos** ou **eventos espec√≠ficos**.

---

### üß† Estrat√©gia de Modelagem

üìå Para este estudo, foi escolhido o modelo **SARIMA** (*Seasonal AutoRegressive Integrated Moving Average*), pois:

> ‚ö†Ô∏è A s√©rie possui uma **sazonalidade expl√≠cita** ‚Äî o que torna o SARIMA uma op√ß√£o ideal para capturar tanto a tend√™ncia quanto os ciclos sazonais.


## Imports

In [None]:
import statsmodels.api as sm
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.statespace.sarimax import SARIMAX

## Pipeline 

### Carregamento dos dados 

In [None]:
# Carregar o dataset AirPassengers
data = sm.datasets.get_rdataset('AirPassengers', package='datasets')
df = data.data

#Renomeando colunas
df = df.rename(columns={'time':'Month', 'value':'Passengers'})

#Convertendo valores decimais em data
def decimal_to_date(decimal):
    year = int(decimal)
    # Extrai fra√ß√£o e converte em m√™s
    month_fraction = decimal - year
    month = int(round(month_fraction * 12)) + 1
    if month > 12:
        month = 1
        year += 1
    return pd.Timestamp(year=year, month=month, day=1)

df['Month'] = df.Month.apply(decimal_to_date)

#Setando a coluna m√™s para index
df.reset_index()
df.set_index('Month', inplace=True)

### Explora√ß√£o dos dados (EDA)

#### Visualiza√ß√£o inicial dos dados

In [None]:
df.head()

#### Resumo estat√≠stico das vari√°veis num√©ricas

In [None]:
df.describe()

#### Verificar a exist√™ncia de valores nulos

N√£o existem valores nulos

In [None]:
df.isnull().sum()

#### Visualizando a s√©rie temporal: Verificando a exit√™ncia de sazonalidade

Analisando visualmente o gr√°fico, vemos que existem padr√µes que se repetem o que nos remete a exist√™ncia de sazonalidade

In [None]:
df.Passengers.plot()
plt.ylabel('Passengers')
plt.show()

#### Vericar de quanto em quanto tempo se repetem os ciclos de sazonalidade

Analisando o gr√°fico ACF vemos que a sazonalidade acontece de 12 em 12 meses, ou seja, a cada ano

In [None]:
plot_acf(df, lags=48)  # lags ajustados conforme o necess√°rio
plt.show()

#### Decompondo a s√©rie temporal em componentes (Tend√™ncia, Sazonalidade e Res√≠duos)

In [None]:
# Decomposi√ß√£o com o per√≠odo de 12 meses
result = seasonal_decompose(df, model='additive', period=12)
result.plot()
plt.show()

#### Aplicando a diferencia√ß√£o sazonal

Como a s√©rie √© sazona em 12, aplicamos a diferencia√ß√£o sazonal para remover a sazonalidade da s√©ria e deix√°-la estacion√°ria para facilitar modelagem e escolha de par·∫Ωmetros do modelo

In [None]:
# Diferencia√ß√£o sazonal de ordem 1 (D=1)
df_seasonal_diff = df.diff(12).dropna()

# Plot da s√©rie diferenciada sazonalmente
plt.plot(df_seasonal_diff, label="Seasonally Differenced Data (D=1)")
plt.title("Diferencia√ß√£o sazonal (Sazonalidade de 12 meses)")
plt.xlabel("Ano")
plt.ylabel("Contagem de Passageiros Diferenciada Sazonalmente")
plt.legend()
plt.show()

#### Realizando o teste de estacionaridade ADF

Realizando o teste de estacionaridade, vemos que com a diferencia√ß√£o sazonal, a s√©ria passou no teste de estacionaridade

In [None]:
def testar_adf(serie_temporal):
    """
    Realiza o teste ADF (Augmented Dickey-Fuller) para verificar se a s√©rie temporal √© estacion√°ria.
    
    Par√¢metros:
    serie_temporal (pandas.Series): A s√©rie temporal a ser testada.
    
    Retorna:
    str: Mensagem com o resultado do teste.
    """
    
    # Realiza o Teste ADF
    resultado = adfuller(serie_temporal)
    
    # Estat√≠sticas do Teste
    estatistica_adf = resultado[0]
    valor_p = resultado[1]
    lags_usados = resultado[2]
    num_observacoes = resultado[3]
    valores_criticos = resultado[4]
    
    # Exibe os resultados
    print('Estat√≠stica ADF:', estatistica_adf)
    print('Valor-p:', valor_p)
    print('N√∫mero de lags usados:', lags_usados)
    print('N√∫mero de observa√ß√µes:', num_observacoes)
    print('Valores cr√≠ticos:')
    for chave, valor in valores_criticos.items():
        print(f'\t{chave}: {valor}')
    
    # Interpreta√ß√£o do resultado
    if valor_p < 0.05:
        return "Rejeita a hip√≥tese nula: A s√©rie √© estacion√°ria."
    else:
        return "N√£o rejeita a hip√≥tese nula: A s√©rie n√£o √© estacion√°ria."

testar_adf(df_seasonal_diff)

### Teste de Modelos: SARIMA

#### Defini√ß√£o dos par√¢metros do modelo: p, q, m e d

- Visualizando os gr√°ficos ACF e PACF vamos definir os par√¢metros do modelo SARIMA:

- O valor de d √© igual a 1 pq foi aplicada a diferencia√ß√£o sazonal de primeira ordem.

- O valor de m que seria a frequ√™ncia sazonal serie de 12 m√™ses definido na an√°lise explorar√≥ria acima.

- Analizando o AFC vemos que o lado posterior acaba sendo menor que o anterior e que o valor de q pode ser muito menor (q = 0, q = 1)

- Analisando o PACF vemos que a partir do segundo lag, vemos uma queda brusca isso remete que o valor de p √© muito pequeno (p = 1 ou p = 2).

In [None]:
# Gerar gr√°fico de ACF
plt.figure(figsize=(12, 6))
plot_acf(df, lags=40)  # Ajuste o n√∫mero de lags conforme necess√°rio
plt.title("ACF - Autocorrela√ß√£o")
plt.show()

# Gerar gr√°fico de PACF
plt.figure(figsize=(12, 6))
plot_pacf(df, lags=40)  # Ajuste o n√∫mero de lags conforme necess√°rio
plt.title("PACF - Autocorrela√ß√£o Parcial")
plt.show()

#### Defini√ß√£o dos par√¢metros do modelo: P Q e D

- No grafico PACF vemos o primeiro e segundo lag com picos significativos ou seja ou valor o valor de P pode assumir (P = 1 ou P 2).
- O valor de D √© a ordem de diferencia√ß√£o, como a diferencia√ß√£o sazonal √© de ordem 1 ent√£o (D = 1).
- No gr√°fico ACF os lags sazonais come√ßam em um pico alto, v√£o diminuindo ao longo do tempo e chegando a zero o que indica que o valor de Q pode assumir (Q = 1).

In [None]:
# Gerar gr√°fico de ACF
plt.figure(figsize=(12, 6))
plot_acf(df_seasonal_diff, lags=40)  # Ajuste o n√∫mero de lags conforme necess√°rio
plt.title("ACF - Autocorrela√ß√£o")
plt.show()

# Gerar gr√°fico de PACF
plt.figure(figsize=(12, 6))
plot_pacf(df_seasonal_diff, lags=40)  # Ajuste o n√∫mero de lags conforme necess√°rio
plt.title("PACF - Autocorrela√ß√£o Parcial")
plt.show()

#### Treinamento do modelo SARIMA

In [None]:
# Treinamento do SARIMA

df.index.freq = 'MS'
model = SARIMAX(df['Passengers'], order=(1,1,1), seasonal_order=(1,1,1,12))

In [None]:
result = model.fit()

# Previs√£o de 12 meses a frente
forecast = result.forecast(steps=12)

# Plot actual vs forecasted values
plt.figure(figsize=(12, 6))
plt.plot(df, label="Atual")
plt.plot(forecast, label="Previsto", linestyle="dashed", color='red')
plt.title("SARIMA Forecast")
plt.xlabel("Ano")
plt.ylabel("Passengers")
plt.legend()
plt.show()

## Resumo dos Resultados do Forecast SARIMA
Foi ajustado um modelo SARIMA(1,1,1)(1,1,1,12) para a s√©rie temporal de passageiros a√©reos mensais, contemplando tanto a diferencia√ß√£o regular quanto a sazonal, com sazonalidade anual (12 meses).

Durante o processo de otimiza√ß√£o via L-BFGS-B, o modelo apresentou boa converg√™ncia:

O valor da fun√ß√£o objetivo (Log-Likelihood) foi minimizado de 3.5284 para 3.5149.
O algoritmo convergiu ap√≥s 23 itera√ß√µes e 27 avalia√ß√µes de fun√ß√£o, com um gradiente projetado final de 3.24e-05, indicando um ajuste est√°vel e eficiente.
A mensagem de converg√™ncia final: "REL_REDUCTION_OF_F <= FACTR * EPSMCH", confirma que o crit√©rio de parada baseado na redu√ß√£o relativa da fun√ß√£o foi atendido com sucesso.
Com isso, o modelo foi considerado bem ajustado e foi utilizado para realizar um forecast de 12 meses √† frente da s√©rie original, proporcionando previs√µes com base nos padr√µes de tend√™ncia e sazonalidade detectados.