<a href="https://colab.research.google.com/github/saulosma/ML-e-Psicologia/blob/main/Auto_Arima.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# --------------------------- AUTO ARIMA INTELIGENTE --------------------------- #
# Script completo que:
# - Testa a estacionariedade da s√©rie temporal
# - Aplica diferencia√ß√£o autom√°tica, se necess√°rio
# - Executa a busca autom√°tica pelo melhor modelo ARIMA/SARIMA
# ---------------------------------------------------------------------------- #

import pandas as pd
import numpy as np
import itertools
from statsmodels.tsa.statespace.sarimax import SARIMAX
from sklearn.metrics import mean_absolute_error, mean_squared_error
from statsmodels.tsa.stattools import adfuller

# ========================== CONFIGURA√á√ïES INICIAIS =========================== #

# >>>> ALTERE APENAS ESTA SE√á√ÉO  <<<<
base = base_nucleos  # Substitua pelo nome da sua s√©rie temporal (pandas.Series)

janela = 24   # tamanho da janela de treino (ex.: 24 meses)
h = 12         # horizonte de previs√£o (ex.: 12 meses √† frente)
s = 12        # sazonalidade (12 = mensal)
#-> ADAPTE A SUA NECESSIDADE DE PREVIS√ÉO
# Espa√ßo de busca (p, d, q, P, D, Q)
p = d = q = range(0, 3)
P = D = Q = range(0, 2)

# ========================= FUN√á√ÉO DE ESTAIONARIEDADE ========================= #

def testar_estacionariedade(serie, nome="S√©rie"):
    """
    Testa a estacionariedade da s√©rie usando o teste ADF (Dickey-Fuller Aumentado).
    Retorna True se a s√©rie for estacion√°ria, False caso contr√°rio.
    """
    serie = serie.dropna()
    resultado = adfuller(serie)
    estatistica, p_valor = resultado[0], resultado[1]

    print(f"\nüîé Teste ADF para {nome}:")
    print(f"  Estat√≠stica ADF: {estatistica:.4f}")
    print(f"  Valor-p: {p_valor:.4f}")

    if p_valor < 0.05:
        print("‚úÖ A s√©rie √© estacion√°ria (n√≠vel de signific√¢ncia de 5%)")
        return True
    else:
        print("‚ö†Ô∏è A s√©rie N√ÉO √© estacion√°ria. Aplicando diferencia√ß√£o...")
        return False

# ====================== AJUSTE AUTOM√ÅTICO DE ESTAIONARIEDADE ====================== #

base_diff = base.copy()

# Teste da s√©rie original
if not testar_estacionariedade(base_diff, "S√©rie Original"):
    base_diff = base_diff.diff().dropna()
    if not testar_estacionariedade(base_diff, "1¬™ Diferencia√ß√£o"):
        # Caso ainda n√£o seja estacion√°ria, aplica diferencia√ß√£o sazonal
        base_diff = base_diff.diff(s).dropna()
        testar_estacionariedade(base_diff, "Diferencia√ß√£o Sazonal")

print("\nüìä S√©rie pronta para modelagem ARIMA/SARIMA!")

# =========================== PREPARA√á√ÉO DO LOOP ============================== #

pdq = list(itertools.product(p, d, q))
seasonal_pdq = list(itertools.product(P, D, Q))

resultados = []

# =============================== LOOP AUTO ARIMA ============================== #

for ordem in pdq:
    for ordem_sazonal in seasonal_pdq:
        previsoes = []
        reais = []

        for i in range(janela, len(base_diff) - h + 1):
            treino = base_diff[i-janela:i]
            teste = base_diff[i:i+h]

            try:
                modelo = SARIMAX(
                    treino,
                    order=ordem,
                    seasonal_order=(ordem_sazonal[0],
                                    ordem_sazonal[1],
                                    ordem_sazonal[2],
                                    s),
                    enforce_stationarity=False,
                    enforce_invertibility=False
                )
                resultado = modelo.fit(disp=False)
                forecast = resultado.forecast(steps=h)

                valor_previsto = float(forecast.values.ravel()[-1])
                valor_real = float(teste.values.ravel()[-1])

                if not np.isnan(valor_previsto) and not np.isnan(valor_real):
                    previsoes.append(valor_previsto)
                    reais.append(valor_real)

            except Exception:
                continue

        # Avalia√ß√£o das previs√µes
        if len(previsoes) > 0:
            previsoes = np.array(previsoes, dtype=float)
            reais = np.array(reais, dtype=float)

            mask = ~np.isnan(previsoes) & ~np.isnan(reais)
            previsoes = previsoes[mask]
            reais = reais[mask]

            if len(previsoes) > 0:
                mae = mean_absolute_error(reais, previsoes)
                rmse = mean_squared_error(reais, previsoes) ** 0.5

                resultados.append({
                    "ordem": ordem,
                    "ordem_sazonal": ordem_sazonal,
                    "MAE": mae,
                    "RMSE": rmse
                })

# ============================= RESULTADOS FINAIS ============================= #

if len(resultados) == 0:
    print("‚ö†Ô∏è Nenhum modelo p√¥de ser ajustado. Verifique a base ou os par√¢metros.")
else:
    resultados_ordenados = sorted(resultados, key=lambda x: x["MAE"])

    print("\nüèÜ Top 10 modelos (menor MAE):")
    for r in resultados_ordenados[:10]:
        print(f"ARIMA{r['ordem']} x SARIMA{r['ordem_sazonal']}12 "
              f"-> MAE: {r['MAE']:.4f}, RMSE: {r['RMSE']:.4f}")

print("\n‚úÖ Processo conclu√≠do com sucesso!")

# ---------------------------------------------------------------------------- #
# NOTAS:
# - Teste de estacionariedade autom√°tico (ADF)
# - Aplica√ß√£o autom√°tica de diferencia√ß√£o se necess√°rio
# - Feedback visual e estruturado sobre a prepara√ß√£o da s√©rie
# - Altere apenas o nome da vari√°vel 'base' no in√≠cio do script.
# - Certifique-se de que 'base' √© uma s√©rie temporal univariada (pandas.Series).
# - 'janela' define o n√∫mero de observa√ß√µes para treino.
# - 'h' define o horizonte de previs√£o.
# - Ajuste p, d, q, P, D, Q e s conforme o padr√£o dos seus dados, se necessario.
# - Quanto maior o espa√ßo de busca, mais lento ser√° o processamento.
# ---------------------------------------------------------------------------- #