![Logo BV IBMEC](https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/logo-bv-ibmec-notebooks.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ian-iania/IBMEC-BV-Modelos-Preditivos/blob/main/notebooks/NB01_Regression.ipynb)

# NB01 - Regressão e Séries Temporais (FP&A Banco BV)

**Objetivo:** aplicar regressão e séries temporais em dados sintéticos de FP&A do BV, com linguagem simples e foco em negócio.
**Vamos comparar baseline e modelos com split temporal e métricas MAE/RMSE, em fluxo linear.**
**A ideia é entender o processo sem exigir conhecimento prévio de programação.**


## 1) Setup do notebook

### O que vamos fazer
Importar as bibliotecas da aula.

### Por que isso importa para FP&A
Sem essas bibliotecas não conseguimos carregar dados, treinar modelos e visualizar resultados.

### O que você deve ver no output
Sem erro na execução.


In [None]:
import pandas as pd  # biblioteca para carregar e manipular tabelas (DataFrames)
import numpy as np  # biblioteca para operações numéricas
import matplotlib.pyplot as plt  # biblioteca para criar gráficos
from sklearn.linear_model import LinearRegression, Ridge, ElasticNet  # modelos lineares
from sklearn.tree import DecisionTreeRegressor  # modelo de árvore de decisão
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor  # modelos de ensemble baseados em árvores
from sklearn.metrics import mean_absolute_error, mean_squared_error  # métricas de avaliação MAE e RMSE
from statsmodels.tsa.holtwinters import ExponentialSmoothing  # modelo ETS (Holt-Winters)
from statsmodels.tsa.statespace.sarimax import SARIMAX  # modelo ARIMA/ARIMAX


---
## 1.1) Dois caminhos de previsão em FP&A: Supervisionados (X→Y) vs Séries temporais (t→Y)

### ✅ Modelos supervisionados (X → Y)
- Temos um alvo `y` (ex.: originação mensal) e drivers `X` (Selic, LTV, mix, marketing…).
- O modelo aprende a relação **X → y** no histórico.
- **Treino vs Teste (no tempo):** treinamos no passado e avaliamos no período futuro (o que FP&A realmente precisa).

### ✅ Modelos de séries temporais (t → Y)
- O principal driver é o **tempo**: tendência, sazonalidade e “memória” do histórico.
- Algumas abordagens aceitam drivers externos (ex.: Selic) — isso aparece em **ARIMAX** (e pode aparecer no Prophet).

> Mensagem FP&A: não existe “modelo melhor sempre”. Existe o melhor modelo para o padrão do dado e para o objetivo (forecast robusto e defendível).
---


## 2) PARTE A - Regressão com dataset linear (X -> y)

### O que vamos fazer
Carregar dataset linear, montar treino/teste e comparar baseline + modelos.

### Por que isso importa para FP&A
Esse tipo de modelo ajuda a explicar e prever a originação com base nos drivers.


In [None]:
url_linear = 'https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_fpa_regressao_linear.csv'  # URL do dataset linear
df_lin = pd.read_csv(url_linear)  # leitura do CSV para DataFrame
df_lin['ds'] = pd.to_datetime(df_lin['ds'])  # conversão da data para datetime
df_lin.head()  # exibe as primeiras linhas da base


### 2.1 Significado das colunas

- `ds`: data de referência mensal (início do mês)
- `y`: originação mensal em R$ milhões (**variável alvo**)
- `selic`: taxa SELIC
- `desemprego`: taxa de desemprego
- `ltv_medio`: LTV médio
- `spread`: spread médio
- `marketing`: índice sintético de esforço comercial
- `mix_auto`: participação de mix auto (0 a 1)
- `mes`: mês numérico (1 a 12)

Observação: `ds` e `y` são nomes comuns em modelagem (inclusive Prophet).


### 2.2 Inspeção da base (saídas separadas)

Agora vamos checar tamanho, colunas e tipos em células separadas para não misturar output.


In [None]:
df_lin.shape  # mostra quantidade de linhas e colunas da base


In [None]:
list(df_lin.columns)  # lista os nomes de todas as colunas


In [None]:
df_lin.dtypes  # mostra o tipo de dado de cada coluna


### 2.3 Visualização inicial

### O que vamos fazer
Ver `y` ao longo do tempo e `selic` versus `y`.

### O que você deve ver no output
Um gráfico de linha e um de dispersão.


In [None]:
plt.figure(figsize=(10, 4))  # cria a figura do gráfico temporal
plt.plot(df_lin['ds'], df_lin['y'], linewidth=2)  # plota y ao longo do tempo
plt.title('PARTE A - Originação (y) ao longo do tempo')  # define o título
plt.xlabel('Data')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


In [None]:
plt.figure(figsize=(6, 4))  # cria a figura do gráfico de dispersão
plt.scatter(df_lin['selic'], df_lin['y'], alpha=0.75)  # plota selic no eixo X e y no eixo Y
plt.title('PARTE A - SELIC vs y')  # define título
plt.xlabel('SELIC')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


### 2.4 Split temporal e baseline

### O que vamos fazer
Separar treino/teste no tempo (80%/20%, sem embaralhar) e calcular baseline naive.

### Por que isso importa para FP&A
No mundo real, o modelo sempre prevê períodos futuros com base no passado.


In [None]:
features = ['selic', 'desemprego', 'ltv_medio', 'spread', 'marketing', 'mix_auto', 'mes']  # lista de variáveis explicativas
split_idx = int(len(df_lin) * 0.8)  # define ponto de corte para treino e teste
train_lin = df_lin.iloc[:split_idx].copy()  # seleciona linhas de treino
train_lin = train_lin.sort_values('ds')  # garante ordenação temporal no treino
test_lin = df_lin.iloc[split_idx:].copy()  # seleciona linhas de teste
test_lin = test_lin.sort_values('ds')  # garante ordenação temporal no teste
X_train_lin = train_lin[features]  # cria matriz X de treino
X_test_lin = test_lin[features]  # cria matriz X de teste
y_train_lin = train_lin['y']  # cria vetor y de treino
y_test_lin = test_lin['y']  # cria vetor y de teste
print('Treino:', X_train_lin.shape, 'Teste:', X_test_lin.shape)  # imprime tamanhos de treino e teste
print('Período treino:', train_lin['ds'].min().date(), '->', train_lin['ds'].max().date())  # imprime intervalo de treino
print('Período teste :', test_lin['ds'].min().date(), '->', test_lin['ds'].max().date())  # imprime intervalo de teste


In [None]:
baseline_value_lin = y_train_lin.iloc[-1]  # pega o último valor de y no treino
pred_baseline_lin = np.repeat(baseline_value_lin, len(y_test_lin))  # repete esse valor para todo o teste
mae_baseline_lin = mean_absolute_error(y_test_lin, pred_baseline_lin)  # calcula MAE do baseline
rmse_baseline_lin = np.sqrt(mean_squared_error(y_test_lin, pred_baseline_lin))  # calcula RMSE do baseline
print('Baseline MAE :', round(mae_baseline_lin, 3))  # imprime MAE
print('Baseline RMSE:', round(rmse_baseline_lin, 3))  # imprime RMSE


### 2.5 Modelos de regressão (execução linear)

Vamos treinar um modelo por vez, com uma célula de texto antes de cada treino.


#### Modelo: LinearRegression

**O que é:** regressão linear clássica; serve como baseline supervisionado simples.


In [None]:
model_lr = LinearRegression()  # cria o modelo de regressão linear
model_lr.fit(X_train_lin, y_train_lin)  # treina o modelo
pred_lr = model_lr.predict(X_test_lin)  # gera previsão no teste
mae_lr = mean_absolute_error(y_test_lin, pred_lr)  # calcula MAE
rmse_lr = np.sqrt(mean_squared_error(y_test_lin, pred_lr))  # calcula RMSE
print('LinearRegression RMSE:', round(rmse_lr, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


#### Modelo: Ridge

**O que é:** regressão linear com regularização L2; ajuda estabilidade dos coeficientes.


In [None]:
model_ridge = Ridge(alpha=1.0, random_state=42)  # cria modelo Ridge
model_ridge.fit(X_train_lin, y_train_lin)  # treina o Ridge
pred_ridge = model_ridge.predict(X_test_lin)  # gera previsão no teste
mae_ridge = mean_absolute_error(y_test_lin, pred_ridge)  # calcula MAE
rmse_ridge = np.sqrt(mean_squared_error(y_test_lin, pred_ridge))  # calcula RMSE
print('Ridge RMSE:', round(rmse_ridge, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


#### Modelo: ElasticNet

**O que é:** combina regularizações L1 e L2; útil com variáveis correlacionadas.


In [None]:
model_en = ElasticNet(alpha=0.05, l1_ratio=0.5, random_state=42, max_iter=5000)  # cria modelo ElasticNet
model_en.fit(X_train_lin, y_train_lin)  # treina o ElasticNet
pred_en = model_en.predict(X_test_lin)  # gera previsão no teste
mae_en = mean_absolute_error(y_test_lin, pred_en)  # calcula MAE
rmse_en = np.sqrt(mean_squared_error(y_test_lin, pred_en))  # calcula RMSE
print('ElasticNet RMSE:', round(rmse_en, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


#### Modelo: DecisionTree

**O que é:** captura não-linearidades por regras de divisão.


In [None]:
model_tree = DecisionTreeRegressor(max_depth=4, random_state=42)  # cria modelo de árvore
model_tree.fit(X_train_lin, y_train_lin)  # treina árvore
pred_tree = model_tree.predict(X_test_lin)  # gera previsão no teste
mae_tree = mean_absolute_error(y_test_lin, pred_tree)  # calcula MAE
rmse_tree = np.sqrt(mean_squared_error(y_test_lin, pred_tree))  # calcula RMSE
print('DecisionTree RMSE:', round(rmse_tree, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


#### Modelo: RandomForest

**O que é:** ensemble de árvores; tende a reduzir variância e melhorar generalização.


In [None]:
model_rf = RandomForestRegressor(n_estimators=300, max_depth=6, random_state=42)  # cria RandomForest
model_rf.fit(X_train_lin, y_train_lin)  # treina RandomForest
pred_rf = model_rf.predict(X_test_lin)  # gera previsão no teste
mae_rf = mean_absolute_error(y_test_lin, pred_rf)  # calcula MAE
rmse_rf = np.sqrt(mean_squared_error(y_test_lin, pred_rf))  # calcula RMSE
print('RandomForest RMSE:', round(rmse_rf, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


#### Modelo: GradientBoosting

**O que é:** modelo de boosting que aprende correções sequenciais.


In [None]:
model_gbm = GradientBoostingRegressor(random_state=42)  # cria modelo GradientBoosting
model_gbm.fit(X_train_lin, y_train_lin)  # treina GradientBoosting
pred_gbm = model_gbm.predict(X_test_lin)  # gera previsão no teste
mae_gbm = mean_absolute_error(y_test_lin, pred_gbm)  # calcula MAE
rmse_gbm = np.sqrt(mean_squared_error(y_test_lin, pred_gbm))  # calcula RMSE
print('GradientBoosting RMSE:', round(rmse_gbm, 3))  # imprime RMSE do modelo


**Por que esse resultado importa:** ele entra na comparação final em condições iguais de treino/teste.


---
### Teaser (ponte para Treino/Teste e comparação justa)
“OK, eu medi MAE/RMSE… mas em qual dado? E como eu sei se isso vai funcionar no próximo trimestre?”

Regras desta aula:
- Comparação justa: todos os modelos usam o MESMO split temporal (mesmo TESTE).
- Critério FP&A: escolhemos pelo desempenho no TESTE (MAE/RMSE), não pelo “passado perfeito”.
---


### 2.6 Tabela final e gráfico comparativo (PARTE A)


In [None]:
results_a = pd.DataFrame([  # cria tabela de métricas da PARTE A
    {'modelo': 'Baseline_Naive', 'mae': mae_baseline_lin, 'rmse': rmse_baseline_lin},  # baseline
    {'modelo': 'LinearRegression', 'mae': mae_lr, 'rmse': rmse_lr},  # linear
    {'modelo': 'Ridge', 'mae': mae_ridge, 'rmse': rmse_ridge},  # ridge
    {'modelo': 'ElasticNet', 'mae': mae_en, 'rmse': rmse_en},  # elasticnet
    {'modelo': 'DecisionTree', 'mae': mae_tree, 'rmse': rmse_tree},  # árvore
    {'modelo': 'RandomForest', 'mae': mae_rf, 'rmse': rmse_rf},  # random forest
    {'modelo': 'GradientBoosting', 'mae': mae_gbm, 'rmse': rmse_gbm},  # gradient boosting
]).sort_values('rmse').reset_index(drop=True)  # ordena por melhor RMSE
results_a  # exibe ranking final


In [None]:
best_linear_name = results_a[results_a['modelo'].isin(['LinearRegression', 'Ridge', 'ElasticNet'])].iloc[0]['modelo']  # seleciona melhor linear
best_nonlinear_name = results_a[results_a['modelo'].isin(['DecisionTree', 'RandomForest', 'GradientBoosting'])].iloc[0]['modelo']  # seleciona melhor não-linear
pred_map_a = {  # dicionário com previsões da PARTE A
    'LinearRegression': pred_lr,  # previsões linear
    'Ridge': pred_ridge,  # previsões ridge
    'ElasticNet': pred_en,  # previsões elasticnet
    'DecisionTree': pred_tree,  # previsões árvore
    'RandomForest': pred_rf,  # previsões random forest
    'GradientBoosting': pred_gbm,  # previsões gradient boosting
}  # fim do dicionário
plt.figure(figsize=(11, 4))  # cria figura para comparação de previsões
plt.plot(test_lin['ds'], y_test_lin.values, label='Real', color='black', linewidth=2)  # linha real
plt.plot(test_lin['ds'], pred_baseline_lin, label='Baseline_Naive', linewidth=1.8)  # linha baseline
plt.plot(test_lin['ds'], pred_map_a[best_linear_name], label=f'Melhor linear: {best_linear_name}', linewidth=1.8)  # linha melhor linear
plt.plot(test_lin['ds'], pred_map_a[best_nonlinear_name], label=f'Melhor não-linear: {best_nonlinear_name}', linewidth=1.8)  # linha melhor não-linear
plt.title('PARTE A - Real vs Previsto (teste)')  # título do gráfico
plt.xlabel('Data')  # eixo X
plt.ylabel('y (R$ milhões)')  # eixo Y
plt.legend()  # legenda
plt.grid(alpha=0.3)  # grade
plt.show()  # renderiza gráfico


In [None]:
best_model_a = results_a.sort_values('rmse').iloc[0]['modelo']  # identifica o melhor modelo da PARTE A pelo menor RMSE
if best_model_a == 'Baseline_Naive':  # trata o caso em que o baseline seja o melhor
    pred_best_a = pred_baseline_lin  # usa previsão do baseline como melhor previsão
else:  # quando o melhor modelo não é o baseline
    pred_best_a = pred_map_a.get(best_model_a, None)  # busca as previsões do melhor modelo no dicionário

plt.figure(figsize=(11, 3.8))  # cria figura do erro absoluto por mês
plt.plot(test_lin['ds'], np.abs(y_test_lin - pred_baseline_lin), label='Erro abs - Baseline_Naive', linewidth=2)  # erro absoluto do baseline
if pred_best_a is not None:  # plota somente se houver previsão válida do melhor modelo
    plt.plot(test_lin['ds'], np.abs(y_test_lin - pred_best_a), label=f'Erro abs - {best_model_a}', linewidth=2)  # erro absoluto do melhor modelo
plt.title('PARTE A - Erro absoluto por mês (no TESTE)')  # define título do gráfico
plt.xlabel('Mês')  # define eixo X
plt.ylabel('|Erro| (unidade de y)')  # define eixo Y
plt.legend()  # adiciona legenda
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico
print('Leitura FP&A: picos de erro indicam meses com choque/sazonalidade/mudança de regime que merecem investigação.')  # interpretação de negócio


In [None]:
plt.figure(figsize=(5.5, 5.0))  # cria figura do scatter Predito vs Real
plt.scatter(y_test_lin, pred_best_a, alpha=0.7)  # plota valores reais contra valores preditos
plt.title(f'PARTE A - Predito vs Real (TESTE) | {best_model_a}')  # define título com nome do melhor modelo
plt.xlabel('Real (y)')  # define eixo X
plt.ylabel('Predito (ŷ)')  # define eixo Y
minv = min(y_test_lin.min(), pred_best_a.min())  # menor valor para linha de referência
maxv = max(y_test_lin.max(), pred_best_a.max())  # maior valor para linha de referência
plt.plot([minv, maxv], [minv, maxv], linewidth=2)  # desenha diagonal y=x
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico
print('Leitura FP&A: quanto mais perto da diagonal, melhor o modelo no período de TESTE.')  # interpretação de negócio


In [None]:
resid_a = y_test_lin - pred_best_a  # calcula resíduos da PARTE A (Real - Predito)
plt.figure(figsize=(7.5, 3.8))  # cria figura do histograma de resíduos
plt.hist(resid_a, bins=18, alpha=0.8)  # plota distribuição dos resíduos
plt.title(f'PARTE A - Resíduos no TESTE | {best_model_a} (Real - Predito)')  # define título
plt.xlabel('Resíduo')  # define eixo X
plt.ylabel('Frequência')  # define eixo Y
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico
print('Leitura FP&A: resíduos muito assimétricos ou com caudas grandes sugerem regime/driver faltando ou não-linearidade.')  # interpretação de negócio


### 2.7 Feature importance (introdução)

### O que vamos fazer
Medir importância das variáveis para RandomForest e GradientBoosting.

### Por que isso importa para FP&A
Ajuda a priorizar quais drivers merecem atenção na discussão gerencial.


---
### Como a Feature Importance é calculada (explicação simples)

Em modelos de árvore (DecisionTree / RandomForest / GradientBoosting), a **feature importance** costuma ser calculada assim:

- Cada split do tipo “se X > valor” reduz o erro do modelo naquele nó.
- A importância de uma variável mede **quanto ela contribuiu para reduzir o erro** ao longo dos splits.
- No scikit-learn, a importância é a soma da **redução do critério** (ex.: MSE) atribuída à variável em todos os splits, agregada no conjunto de árvores (RF/GBM) e normalizada para somar 1.

✅ O que representa:
- Um **ranking de utilidade para previsão**: quais drivers mais ajudaram a diminuir o erro.

⚠️ O que NÃO representa:
- **Causalidade**. Importância alta não prova que “X causa Y”.
- Se duas variáveis são correlacionadas (ex.: Selic e spread), a importância pode “migrar” de uma para outra.

> Mensagem FP&A: use importance como bússola para priorizar drivers e conversas, e valide com lógica de negócio.
---


In [None]:
rf_imp = pd.Series(model_rf.feature_importances_, index=features).sort_values(ascending=True)  # calcula importâncias do RandomForest
gbm_imp = pd.Series(model_gbm.feature_importances_, index=features).sort_values(ascending=True)  # calcula importâncias do GradientBoosting
rf_imp  # exibe vetor de importâncias do RandomForest


In [None]:
plt.figure(figsize=(6, 4))  # cria figura do RandomForest
plt.barh(rf_imp.index, rf_imp.values)  # plota barras horizontais do RandomForest
plt.title('Importância - RandomForest')  # define título do gráfico
plt.grid(axis='x', alpha=0.3)  # adiciona grade horizontal
plt.show()  # renderiza gráfico


In [None]:
plt.figure(figsize=(6, 4))  # cria figura do GradientBoosting
plt.barh(gbm_imp.index, gbm_imp.values)  # plota barras horizontais do GradientBoosting
plt.title('Importância - GradientBoosting')  # define título do gráfico
plt.grid(axis='x', alpha=0.3)  # adiciona grade horizontal
plt.show()  # renderiza gráfico


## 3) PARTE B - Mesmo pipeline no dataset não-linear

### O que vamos fazer
Repetir o fluxo no dataset não-linear.

### Por que isso importa para FP&A
Em cenários com limiares/interações, modelos não-lineares tendem a capturar melhor os padrões.


### 3.1 Carregar base não-linear e visualizar padrão


In [None]:
url_nlin = 'https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_fpa_regressao_nonlinear.csv'  # URL da base não-linear
df_nlin = pd.read_csv(url_nlin)  # leitura da base não-linear
df_nlin['ds'] = pd.to_datetime(df_nlin['ds'])  # conversão da data para datetime
df_nlin.head()  # exibe primeiras linhas


In [None]:
plt.figure(figsize=(10, 4))  # cria figura para série da PARTE B
plt.plot(df_nlin['ds'], df_nlin['y'], linewidth=2)  # plota y ao longo do tempo na base não-linear
plt.title('PARTE B - Originação (y) ao longo do tempo')  # define título
plt.xlabel('Data')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


---
### Visualizando o “regime” não-linear (por que árvores podem ganhar aqui)
No dataset não-linear, existe um comportamento por faixas (limiar). Vamos marcar um “regime” para visualizar onde o padrão muda.
---


In [None]:
threshold = 9.5  # define limiar de SELIC para separar regimes
df_nl = df_nlin.copy()  # cria cópia da base não-linear para análise de regime
df_nl['regime_selic'] = (df_nl['selic'] > threshold).astype(int)  # cria indicador 0/1 para o regime de SELIC

plt.figure(figsize=(7.8, 4.2))  # cria figura do scatter por regime
for r in [0, 1]:  # percorre os dois regimes (baixo e alto)
    sub = df_nl[df_nl['regime_selic'] == r]  # filtra dados do regime atual
    label = f'Selic <= {threshold}' if r == 0 else f'Selic > {threshold}'  # cria rótulo do regime
    plt.scatter(sub['selic'], sub['y'], alpha=0.7, label=label)  # plota pontos do regime atual
plt.title('PARTE B - Scatter Selic vs y (colorido por regime)')  # define título
plt.xlabel('Selic')  # define eixo X
plt.ylabel('y (originação)')  # define eixo Y
plt.legend()  # exibe legenda por regime
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico

print('Leitura FP&A: se os pontos formam padrões diferentes por faixa, uma reta única tende a errar mais — árvores/GBM capturam melhor limiares e interações.')  # interpretação de negócio


### 3.2 Split temporal e baseline (PARTE B)


In [None]:
split_idx_b = int(len(df_nlin) * 0.8)  # define ponto de corte de treino/teste
train_nlin = df_nlin.iloc[:split_idx_b].copy()  # recorte de treino da base não-linear
train_nlin = train_nlin.sort_values('ds')  # garante ordenação temporal de treino
test_nlin = df_nlin.iloc[split_idx_b:].copy()  # recorte de teste da base não-linear
test_nlin = test_nlin.sort_values('ds')  # garante ordenação temporal de teste
X_train_nlin = train_nlin[features]  # monta X de treino
X_test_nlin = test_nlin[features]  # monta X de teste
y_train_nlin = train_nlin['y']  # monta y de treino
y_test_nlin = test_nlin['y']  # monta y de teste

# aliases para facilitar leitura nos gráficos extras solicitados
X_train_nl = X_train_nlin  # alias do X treino
X_test_nl = X_test_nlin  # alias do X teste
y_train_nl = y_train_nlin  # alias do y treino
y_test_nl = y_test_nlin  # alias do y teste
test_nl = test_nlin  # alias do DataFrame de teste

baseline_value_nlin = y_train_nlin.iloc[-1]  # captura último valor de treino para baseline
pred_baseline_nlin = np.repeat(baseline_value_nlin, len(y_test_nlin))  # gera previsão baseline
pred_baseline_nl = pred_baseline_nlin  # alias da previsão baseline
mae_baseline_nlin = mean_absolute_error(y_test_nlin, pred_baseline_nlin)  # calcula MAE do baseline
rmse_baseline_nlin = np.sqrt(mean_squared_error(y_test_nlin, pred_baseline_nlin))  # calcula RMSE do baseline
print('Baseline RMSE (não-linear):', round(rmse_baseline_nlin, 3))  # imprime RMSE baseline da PARTE B


---
### Mini-experimento: profundidade da árvore e overfitting (treino vs teste)
Uma árvore muito profunda pode “decorar” o histórico. Vamos ver o efeito da profundidade no erro de treino e teste.
---


In [None]:
depths = list(range(1, 16))  # define profundidades a testar
rmse_train, rmse_test = [], []  # inicializa listas de erro de treino e teste

for d in depths:  # testa cada profundidade
    m = DecisionTreeRegressor(max_depth=d, random_state=42)  # cria árvore com profundidade d
    m.fit(X_train_nl, y_train_nl)  # treina árvore
    pred_tr = m.predict(X_train_nl)  # prevê no treino
    pred_te = m.predict(X_test_nl)  # prevê no teste
    rmse_train.append(np.sqrt(mean_squared_error(y_train_nl, pred_tr)))  # guarda RMSE treino
    rmse_test.append(np.sqrt(mean_squared_error(y_test_nl, pred_te)))  # guarda RMSE teste

plt.figure(figsize=(9.2, 3.8))  # cria figura do experimento
plt.plot(depths, rmse_train, label='RMSE Treino', linewidth=2)  # plota curva de treino
plt.plot(depths, rmse_test, label='RMSE Teste', linewidth=2)  # plota curva de teste
plt.title('PARTE B - Overfitting em árvore: RMSE vs profundidade')  # define título
plt.xlabel('max_depth')  # define eixo X
plt.ylabel('RMSE')  # define eixo Y
plt.legend()  # exibe legenda
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico

print('Leitura FP&A: quando o RMSE de treino cai muito e o de teste sobe, é overfitting (o modelo decorou o passado).')  # interpretação de negócio


### 3.3 Treinar modelos na base não-linear

Vamos repetir os mesmos modelos da PARTE A para comparação justa.


#### Modelo: LinearRegression (PARTE B)


In [None]:
model_lr_b = LinearRegression()  # cria LinearRegression da PARTE B
model_lr_b.fit(X_train_nlin, y_train_nlin)  # treina LinearRegression na base não-linear
pred_lr_b = model_lr_b.predict(X_test_nlin)  # gera previsão da LinearRegression


#### Modelo: Ridge (PARTE B)


In [None]:
model_ridge_b = Ridge(alpha=1.0, random_state=42)  # cria Ridge da PARTE B
model_ridge_b.fit(X_train_nlin, y_train_nlin)  # treina Ridge na base não-linear
pred_ridge_b = model_ridge_b.predict(X_test_nlin)  # gera previsão do Ridge


#### Modelo: ElasticNet (PARTE B)


In [None]:
model_en_b = ElasticNet(alpha=0.05, l1_ratio=0.5, random_state=42, max_iter=5000)  # cria ElasticNet da PARTE B
model_en_b.fit(X_train_nlin, y_train_nlin)  # treina ElasticNet na base não-linear
pred_en_b = model_en_b.predict(X_test_nlin)  # gera previsão do ElasticNet


#### Modelo: DecisionTree (PARTE B)


In [None]:
model_tree_b = DecisionTreeRegressor(max_depth=4, random_state=42)  # cria árvore da PARTE B
model_tree_b.fit(X_train_nlin, y_train_nlin)  # treina árvore da PARTE B
pred_tree_b = model_tree_b.predict(X_test_nlin)  # gera previsão da árvore


#### Modelo: RandomForest (PARTE B)


In [None]:
model_rf_b = RandomForestRegressor(n_estimators=300, max_depth=6, random_state=42)  # cria RandomForest da PARTE B
model_rf_b.fit(X_train_nlin, y_train_nlin)  # treina RandomForest da PARTE B
pred_rf_b = model_rf_b.predict(X_test_nlin)  # gera previsão do RandomForest


#### Modelo: GradientBoosting (PARTE B)


In [None]:
model_gbm_b = GradientBoostingRegressor(random_state=42)  # cria GradientBoosting da PARTE B
model_gbm_b.fit(X_train_nlin, y_train_nlin)  # treina GradientBoosting da PARTE B
pred_gbm_b = model_gbm_b.predict(X_test_nlin)  # gera previsão do GradientBoosting


### 3.4 Tabela de métricas (PARTE B)

Agora comparamos MAE/RMSE de todos os modelos no mesmo TESTE da PARTE B.


In [None]:
# Garantia para evitar NameError se alguma célula de treino tiver sido pulada
if 'pred_lr_b' not in globals():  # verifica se previsões da PARTE B existem
    model_lr_b = LinearRegression()  # recria LinearRegression da PARTE B
    model_lr_b.fit(X_train_nlin, y_train_nlin)  # retreina LinearRegression da PARTE B
    pred_lr_b = model_lr_b.predict(X_test_nlin)  # regenera previsão da LinearRegression da PARTE B
if 'pred_ridge_b' not in globals():  # verifica previsão do Ridge na PARTE B
    model_ridge_b = Ridge(alpha=1.0, random_state=42)  # recria Ridge da PARTE B
    model_ridge_b.fit(X_train_nlin, y_train_nlin)  # retreina Ridge da PARTE B
    pred_ridge_b = model_ridge_b.predict(X_test_nlin)  # regenera previsão do Ridge da PARTE B
if 'pred_en_b' not in globals():  # verifica previsão do ElasticNet na PARTE B
    model_en_b = ElasticNet(alpha=0.05, l1_ratio=0.5, random_state=42, max_iter=5000)  # recria ElasticNet da PARTE B
    model_en_b.fit(X_train_nlin, y_train_nlin)  # retreina ElasticNet da PARTE B
    pred_en_b = model_en_b.predict(X_test_nlin)  # regenera previsão do ElasticNet da PARTE B
if 'pred_tree_b' not in globals():  # verifica previsão da árvore na PARTE B
    model_tree_b = DecisionTreeRegressor(max_depth=4, random_state=42)  # recria árvore da PARTE B
    model_tree_b.fit(X_train_nlin, y_train_nlin)  # retreina árvore da PARTE B
    pred_tree_b = model_tree_b.predict(X_test_nlin)  # regenera previsão da árvore da PARTE B
if 'pred_rf_b' not in globals():  # verifica previsão do RandomForest na PARTE B
    model_rf_b = RandomForestRegressor(n_estimators=300, max_depth=6, random_state=42)  # recria RandomForest da PARTE B
    model_rf_b.fit(X_train_nlin, y_train_nlin)  # retreina RandomForest da PARTE B
    pred_rf_b = model_rf_b.predict(X_test_nlin)  # regenera previsão do RandomForest da PARTE B
if 'pred_gbm_b' not in globals():  # verifica previsão do GradientBoosting na PARTE B
    model_gbm_b = GradientBoostingRegressor(random_state=42)  # recria GradientBoosting da PARTE B
    model_gbm_b.fit(X_train_nlin, y_train_nlin)  # retreina GradientBoosting da PARTE B
    pred_gbm_b = model_gbm_b.predict(X_test_nlin)  # regenera previsão do GradientBoosting da PARTE B

results_b = pd.DataFrame([  # cria tabela de resultados da PARTE B
    {'modelo': 'Baseline_Naive', 'mae': mae_baseline_nlin, 'rmse': rmse_baseline_nlin},  # linha baseline
    {'modelo': 'LinearRegression', 'mae': mean_absolute_error(y_test_nlin, pred_lr_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_lr_b))},  # linha linear
    {'modelo': 'Ridge', 'mae': mean_absolute_error(y_test_nlin, pred_ridge_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_ridge_b))},  # linha ridge
    {'modelo': 'ElasticNet', 'mae': mean_absolute_error(y_test_nlin, pred_en_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_en_b))},  # linha elasticnet
    {'modelo': 'DecisionTree', 'mae': mean_absolute_error(y_test_nlin, pred_tree_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_tree_b))},  # linha árvore
    {'modelo': 'RandomForest', 'mae': mean_absolute_error(y_test_nlin, pred_rf_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_rf_b))},  # linha random forest
    {'modelo': 'GradientBoosting', 'mae': mean_absolute_error(y_test_nlin, pred_gbm_b), 'rmse': np.sqrt(mean_squared_error(y_test_nlin, pred_gbm_b))},  # linha gradient boosting
]).sort_values('rmse').reset_index(drop=True)  # ordena por melhor RMSE
results_b  # exibe ranking final da PARTE B


### 3.5 Gráfico comparativo (PARTE B)

Vamos comparar visualmente o melhor modelo linear versus o melhor não-linear.


In [None]:
best_linear_b = results_b[results_b['modelo'].isin(['LinearRegression', 'Ridge', 'ElasticNet'])].iloc[0]['modelo']  # identifica melhor linear da PARTE B
best_nonlinear_b = results_b[results_b['modelo'].isin(['DecisionTree', 'RandomForest', 'GradientBoosting'])].iloc[0]['modelo']  # identifica melhor não-linear da PARTE B
pred_map_b = {  # cria dicionário de previsões da PARTE B
    'LinearRegression': pred_lr_b,  # previsão LinearRegression
    'Ridge': pred_ridge_b,  # previsão Ridge
    'ElasticNet': pred_en_b,  # previsão ElasticNet
    'DecisionTree': pred_tree_b,  # previsão DecisionTree
    'RandomForest': pred_rf_b,  # previsão RandomForest
    'GradientBoosting': pred_gbm_b,  # previsão GradientBoosting
}  # fim do dicionário
plt.figure(figsize=(11, 4))  # cria figura comparativa da PARTE B
plt.plot(test_nlin['ds'], y_test_nlin.values, label='Real', color='black', linewidth=2)  # plota série real
plt.plot(test_nlin['ds'], pred_map_b[best_linear_b], label=f'Melhor linear: {best_linear_b}', linewidth=1.8)  # plota melhor linear
plt.plot(test_nlin['ds'], pred_map_b[best_nonlinear_b], label=f'Melhor não-linear: {best_nonlinear_b}', linewidth=1.8)  # plota melhor não-linear
plt.title('PARTE B - Melhor linear vs melhor não-linear (teste)')  # define título
plt.xlabel('Data')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.legend()  # exibe legenda
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


In [None]:
best_model_b = results_b.sort_values('rmse').iloc[0]['modelo']  # identifica melhor modelo da PARTE B pelo menor RMSE
if best_model_b == 'Baseline_Naive':  # trata caso do baseline ser o melhor
    pred_best_b = pred_baseline_nlin  # usa baseline como melhor previsão
else:  # caso modelo vencedor seja de ML
    pred_best_b = pred_map_b.get(best_model_b, None)  # busca previsões do melhor modelo

plt.figure(figsize=(11, 3.8))  # cria figura do erro absoluto da PARTE B
plt.plot(test_nl['ds'], np.abs(y_test_nl - pred_baseline_nl), label='Erro abs - Baseline_Naive', linewidth=2)  # erro baseline
if pred_best_b is not None:  # plota erro do melhor modelo quando disponível
    plt.plot(test_nl['ds'], np.abs(y_test_nl - pred_best_b), label=f'Erro abs - {best_model_b}', linewidth=2)  # erro melhor modelo
plt.title('PARTE B - Erro absoluto por mês (no TESTE)')  # define título
plt.xlabel('Mês')  # define eixo X
plt.ylabel('|Erro| (unidade de y)')  # define eixo Y
plt.legend()  # exibe legenda
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico


In [None]:
plt.figure(figsize=(5.5, 5.0))  # cria figura do scatter Predito vs Real da PARTE B
plt.scatter(y_test_nl, pred_best_b, alpha=0.7)  # plota valores reais versus preditos
plt.title(f'PARTE B - Predito vs Real (TESTE) | {best_model_b}')  # define título
plt.xlabel('Real (y)')  # define eixo X
plt.ylabel('Predito (ŷ)')  # define eixo Y
minv = min(y_test_nl.min(), pred_best_b.min())  # define mínimo para diagonal
maxv = max(y_test_nl.max(), pred_best_b.max())  # define máximo para diagonal
plt.plot([minv, maxv], [minv, maxv], linewidth=2)  # desenha linha de referência y=x
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico


In [None]:
resid_b = y_test_nl - pred_best_b  # calcula resíduos da PARTE B (Real - Predito)
plt.figure(figsize=(7.5, 3.8))  # cria figura do histograma de resíduos
plt.hist(resid_b, bins=18, alpha=0.8)  # plota distribuição dos resíduos
plt.title(f'PARTE B - Resíduos no TESTE | {best_model_b} (Real - Predito)')  # define título
plt.xlabel('Resíduo')  # define eixo X
plt.ylabel('Frequência')  # define eixo Y
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico


### 3.6 Visão executiva: ranking muda quando o dado muda

O objetivo aqui é comparar os **mesmos modelos** nos dois cenários:
- PARTE A (dataset linear)
- PARTE B (dataset não-linear)

Mensagem-chave: **não existe campeão universal**. O desempenho depende do padrão do dado.


In [None]:
comp_a = results_a[['modelo', 'rmse']].copy()  # seleciona colunas de modelo e RMSE da PARTE A
comp_b = results_b[['modelo', 'rmse']].copy()  # seleciona colunas de modelo e RMSE da PARTE B
comp = comp_a.merge(comp_b, on='modelo', suffixes=('_A_linear', '_B_nlinear'))  # junta resultados A e B por modelo
comp = comp.sort_values('rmse_B_nlinear').reset_index(drop=True)  # ordena pelo desempenho na PARTE B

x = np.arange(len(comp))  # cria posições no eixo X para cada modelo
w = 0.38  # define largura das barras

plt.figure(figsize=(11, 4.2))  # cria figura comparativa de RMSE
plt.bar(x - w/2, comp['rmse_A_linear'], width=w, label='RMSE PARTE A (linear)')  # barras RMSE da PARTE A
plt.bar(x + w/2, comp['rmse_B_nlinear'], width=w, label='RMSE PARTE B (não-linear)')  # barras RMSE da PARTE B
plt.xticks(x, comp['modelo'], rotation=35, ha='right')  # define rótulos do eixo X com rotação
plt.title('Comparativo executivo de RMSE no TESTE: PARTE A vs PARTE B')  # define título do gráfico
plt.ylabel('RMSE')  # define eixo Y
plt.legend()  # exibe legenda
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico

print('Leitura executiva: o ranking muda quando o padrão do dado muda; escolha de modelo deve ser contextual.')  # conclusão executiva


### 3.7 Cartões de conclusão: vencedor por parte


In [None]:
best_a = results_a.sort_values('rmse').iloc[0]  # captura melhor modelo da PARTE A
best_b = results_b.sort_values('rmse').iloc[0]  # captura melhor modelo da PARTE B

reason_map_a = {
    'LinearRegression': 'venceu por simplicidade e boa aderência em padrão mais linear.',
    'Ridge': 'venceu por estabilizar coeficientes e reduzir sensibilidade.',
    'ElasticNet': 'venceu por equilibrar regularização L1/L2.',
    'DecisionTree': 'venceu por capturar regras e não-linearidades locais.',
    'RandomForest': 'venceu por robustez em relações não-lineares.',
    'GradientBoosting': 'venceu por capturar padrões complexos com menor erro no teste.',
    'Baseline_Naive': 'venceu porque os modelos não superaram uma referência simples.'
}  # mapa de justificativas para a PARTE A

reason_map_b = {
    'LinearRegression': 'venceu mesmo em base não-linear, indicando relação ainda parcialmente estável.',
    'Ridge': 'venceu por bom equilíbrio entre viés e variância.',
    'ElasticNet': 'venceu por regularização eficiente no cenário não-linear.',
    'DecisionTree': 'venceu por capturar limiares e regras de regime.',
    'RandomForest': 'venceu por capturar interações e reduzir variância.',
    'GradientBoosting': 'venceu por modelar não-linearidades de forma incremental.',
    'Baseline_Naive': 'venceu porque os modelos não superaram a referência simples.'
}  # mapa de justificativas para a PARTE B

print('PARTE A - Vencedor no TESTE')  # título do cartão da PARTE A
print(f"Modelo: {best_a['modelo']} | RMSE: {best_a['rmse']:.3f} | MAE: {best_a['mae']:.3f}")  # métricas do vencedor A
print('Por que venceu:', reason_map_a.get(best_a['modelo'], 'desempenho superior no período de teste.'))  # justificativa A
print('-' * 90)  # separador visual
print('PARTE B - Vencedor no TESTE')  # título do cartão da PARTE B
print(f"Modelo: {best_b['modelo']} | RMSE: {best_b['rmse']:.3f} | MAE: {best_b['mae']:.3f}")  # métricas do vencedor B
print('Por que venceu:', reason_map_b.get(best_b['modelo'], 'desempenho superior no período de teste.'))  # justificativa B


### 3.8 Top 3 por parte + recomendação prática


In [None]:
top3_a = results_a.sort_values('rmse').head(3).copy()  # seleciona top 3 modelos da PARTE A por RMSE
top3_b = results_b.sort_values('rmse').head(3).copy()  # seleciona top 3 modelos da PARTE B por RMSE

print('Top 3 - PARTE A (RMSE no TESTE)')  # título da lista A
display(top3_a)  # exibe top 3 da PARTE A
print('Top 3 - PARTE B (RMSE no TESTE)')  # título da lista B
display(top3_b)  # exibe top 3 da PARTE B

print('Recomendação prática: sempre manter baseline + 1 candidato final; validar estabilidade.')  # recomendação operacional


### 3.9 Como a importance muda quando o dado muda (PARTE A vs PARTE B)

Aqui comparamos importâncias do mesmo tipo de modelo de árvore (RandomForest) nos dois cenários.


In [None]:
imp_a = pd.Series(model_rf.feature_importances_, index=features)  # extrai importâncias do RandomForest da PARTE A
imp_b = pd.Series(model_rf_b.feature_importances_, index=features)  # extrai importâncias do RandomForest da PARTE B
imp_comp = pd.DataFrame({'A_linear': imp_a, 'B_nlinear': imp_b})  # monta tabela comparativa A vs B
imp_comp['media'] = imp_comp.mean(axis=1)  # calcula média das importâncias para priorizar features
imp_top6 = imp_comp.sort_values('media', ascending=False).head(6).drop(columns='media')  # seleciona top 6 features
imp_top6 = imp_top6.sort_values('B_nlinear', ascending=True)  # ordena para visualização mais limpa

x = np.arange(len(imp_top6))  # cria posições no eixo X
w = 0.38  # define largura das barras

plt.figure(figsize=(9.5, 4.2))  # cria figura comparativa de importâncias
plt.barh(x - w/2, imp_top6['A_linear'], height=w, label='PARTE A (linear)')  # barras da PARTE A
plt.barh(x + w/2, imp_top6['B_nlinear'], height=w, label='PARTE B (não-linear)')  # barras da PARTE B
plt.yticks(x, imp_top6.index)  # define labels do eixo Y com nomes das features
plt.title('Top 6 features: mudança de importância (A vs B)')  # define título do gráfico
plt.xlabel('Importância relativa')  # define eixo X
plt.legend()  # exibe legenda
plt.tight_layout()  # ajusta layout
plt.show()  # renderiza gráfico

print('Leitura FP&A: importance é sensível a regimes; correlação entre drivers pode mudar o ranking.')  # interpretação de negócio


### 3.10 Checklist FP&A (1 minuto)

- baseline obrigatório
- split temporal
- métricas no teste (MAE/RMSE)
- checar overfitting (treino vs teste)
- interpretabilidade (importance/regras) com cuidado
- monitoramento + re-treino em mudança de regime


---
## Ponte final para PARTE C: quando escolher t→Y

Quando séries temporais são mais adequadas:
- quando o histórico de `y` já mostra padrão forte de tendência/sazonalidade;
- quando os drivers explicativos são limitados ou instáveis.

Na PARTE C vamos comparar:
- ETS como referência temporal;
- ARIMAX com Selic como exógena;
- Prophet com eventos/regressores (opcional).

Regra de ouro continua a mesma: validar no tempo (treino no passado, teste no futuro).
---


## 4) PARTE C - Séries temporais (t -> y)

### O que vamos fazer
Comparar baseline, ETS, ARIMA, ARIMAX e Prophet (opcional).

### Por que isso importa para FP&A
Muitas previsões corporativas são feitas a partir do histórico da própria série.


In [None]:
url_ts = 'https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_fpa_timeseries.csv'  # URL da base temporal
df_ts = pd.read_csv(url_ts)  # leitura da base temporal
df_ts['ds'] = pd.to_datetime(df_ts['ds'])  # conversão da data para datetime
df_ts.head()  # exibe primeiras linhas


In [None]:
plt.figure(figsize=(10, 4))  # cria figura da série temporal
plt.plot(df_ts['ds'], df_ts['y'], linewidth=2)  # plota y ao longo do tempo
plt.title('PARTE C - Série temporal y')  # define título
plt.xlabel('Data')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


In [None]:
holdout = 12  # define últimos 12 meses como teste
train_ts = df_ts.iloc[:-holdout].copy()  # separa treino temporal
test_ts = df_ts.iloc[-holdout:].copy()  # separa teste temporal
y_train_ts = train_ts['y'].values  # vetor y de treino
y_test_ts = test_ts['y'].values  # vetor y de teste
print('Treino:', train_ts.shape, 'Teste:', test_ts.shape)  # imprime tamanhos
print('Período treino:', train_ts['ds'].min().date(), '->', train_ts['ds'].max().date())  # imprime período de treino
print('Período teste :', test_ts['ds'].min().date(), '->', test_ts['ds'].max().date())  # imprime período de teste


In [None]:
pred_naive_ts = np.repeat(y_train_ts[-1], len(y_test_ts))  # cria previsão naive do período de teste
mae_naive_ts = mean_absolute_error(y_test_ts, pred_naive_ts)  # calcula MAE baseline temporal
rmse_naive_ts = np.sqrt(mean_squared_error(y_test_ts, pred_naive_ts))  # calcula RMSE baseline temporal
print('Baseline MAE :', round(mae_naive_ts, 3))  # imprime MAE baseline temporal
print('Baseline RMSE:', round(rmse_naive_ts, 3))  # imprime RMSE baseline temporal


In [None]:
ets = ExponentialSmoothing(train_ts['y'], trend='add', seasonal='add', seasonal_periods=12).fit(optimized=True)  # ajusta ETS
pred_ets = ets.forecast(len(test_ts)).values  # prevê com ETS para período de teste
mae_ets = mean_absolute_error(y_test_ts, pred_ets)  # calcula MAE ETS
rmse_ets = np.sqrt(mean_squared_error(y_test_ts, pred_ets))  # calcula RMSE ETS
print('ETS MAE :', round(mae_ets, 3))  # imprime MAE ETS
print('ETS RMSE:', round(rmse_ets, 3))  # imprime RMSE ETS


In [None]:
arima = SARIMAX(train_ts['y'], order=(1, 1, 1), enforce_stationarity=False, enforce_invertibility=False).fit(disp=False)  # ajusta ARIMA
pred_arima = arima.forecast(steps=len(test_ts)).values  # prevê com ARIMA no período de teste
mae_arima = mean_absolute_error(y_test_ts, pred_arima)  # calcula MAE ARIMA
rmse_arima = np.sqrt(mean_squared_error(y_test_ts, pred_arima))  # calcula RMSE ARIMA
print('ARIMA MAE :', round(mae_arima, 3))  # imprime MAE ARIMA
print('ARIMA RMSE:', round(rmse_arima, 3))  # imprime RMSE ARIMA


In [None]:
arimax = SARIMAX(train_ts['y'], exog=train_ts[['selic']], order=(1, 1, 1), enforce_stationarity=False, enforce_invertibility=False).fit(disp=False)  # ajusta ARIMAX com selic
pred_arimax = arimax.forecast(steps=len(test_ts), exog=test_ts[['selic']]).values  # prevê com ARIMAX usando selic no teste
mae_arimax = mean_absolute_error(y_test_ts, pred_arimax)  # calcula MAE ARIMAX
rmse_arimax = np.sqrt(mean_squared_error(y_test_ts, pred_arimax))  # calcula RMSE ARIMAX
print('ARIMAX MAE :', round(mae_arimax, 3))  # imprime MAE ARIMAX
print('ARIMAX RMSE:', round(rmse_arimax, 3))  # imprime RMSE ARIMAX


### 4.1 Prophet (opcional)

Se não instalar, siga a aula normalmente com ETS/ARIMA/ARIMAX.


In [None]:
import subprocess  # módulo para executar comando externo
import sys  # módulo para obter executável Python atual
prophet_ok = False  # flag de disponibilidade do Prophet
try:  # tenta importar Prophet já instalado
    from prophet import Prophet  # importa Prophet quando disponível
    prophet_ok = True  # marca disponibilidade
    print('Prophet já disponível.')  # mensagem de sucesso
except Exception:  # cai aqui quando Prophet não está instalado
    print('Tentando instalar Prophet...')  # informa tentativa de instalação
    try:  # tenta instalar via pip
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', 'prophet', '-q'])  # executa instalação
        from prophet import Prophet  # tenta importar novamente após instalação
        prophet_ok = True  # marca disponibilidade após instalar
        print('Prophet instalado com sucesso.')  # mensagem de sucesso
    except Exception as e:  # cai aqui quando instalação falha
        print('Prophet indisponível nesta sessão.')  # informa indisponibilidade
        print('Erro:', e)  # mostra detalhe do erro


In [None]:
pred_prophet = None  # inicializa vetor de previsão Prophet
mae_prophet = None  # inicializa MAE Prophet
rmse_prophet = None  # inicializa RMSE Prophet
if prophet_ok:  # executa bloco somente se Prophet disponível
    train_prophet = train_ts[['ds', 'y', 'selic', 'evento']].copy()  # monta base de treino no formato Prophet
    test_prophet = test_ts[['ds', 'selic', 'evento']].copy()  # monta base de teste no formato Prophet
    m = Prophet(yearly_seasonality=True, weekly_seasonality=False, daily_seasonality=False)  # cria modelo Prophet
    m.add_regressor('selic')  # adiciona regressor selic
    m.add_regressor('evento')  # adiciona regressor evento
    m.fit(train_prophet)  # treina Prophet
    fcst = m.predict(test_prophet)  # prevê no período de teste
    pred_prophet = fcst['yhat'].values  # extrai vetor de previsão
    mae_prophet = mean_absolute_error(y_test_ts, pred_prophet)  # calcula MAE Prophet
    rmse_prophet = np.sqrt(mean_squared_error(y_test_ts, pred_prophet))  # calcula RMSE Prophet
    print('Prophet MAE :', round(mae_prophet, 3))  # imprime MAE Prophet
    print('Prophet RMSE:', round(rmse_prophet, 3))  # imprime RMSE Prophet
else:  # executa quando Prophet indisponível
    print('Prophet não executado.')  # informa que etapa foi pulada


In [None]:
results_c = pd.DataFrame([  # cria tabela inicial da PARTE C
    {'modelo': 'Baseline_Naive', 'mae': mae_naive_ts, 'rmse': rmse_naive_ts},  # linha baseline
    {'modelo': 'ETS_HoltWinters', 'mae': mae_ets, 'rmse': rmse_ets},  # linha ETS
    {'modelo': 'ARIMA', 'mae': mae_arima, 'rmse': rmse_arima},  # linha ARIMA
    {'modelo': 'ARIMAX_selic', 'mae': mae_arimax, 'rmse': rmse_arimax},  # linha ARIMAX
])  # fecha DataFrame inicial
if pred_prophet is not None:  # verifica se Prophet está disponível
    results_c = pd.concat([results_c, pd.DataFrame([{'modelo': 'Prophet', 'mae': mae_prophet, 'rmse': rmse_prophet}])], ignore_index=True)  # acrescenta linha Prophet
results_c = results_c.sort_values('rmse').reset_index(drop=True)  # ordena por melhor RMSE
results_c  # exibe tabela final da PARTE C


In [None]:
plt.figure(figsize=(11, 4))  # cria figura do gráfico final da PARTE C
plt.plot(test_ts['ds'], y_test_ts, label='Real', color='black', linewidth=2)  # plota série real
plt.plot(test_ts['ds'], pred_naive_ts, label='Baseline_Naive', linewidth=1.8)  # plota baseline
plt.plot(test_ts['ds'], pred_ets, label='ETS_HoltWinters', linewidth=1.8)  # plota ETS
plt.plot(test_ts['ds'], pred_arimax, label='ARIMAX_selic', linewidth=1.8)  # plota ARIMAX
if pred_prophet is not None:  # verifica se previsão Prophet existe
    plt.plot(test_ts['ds'], pred_prophet, label='Prophet', linewidth=1.8)  # plota Prophet quando disponível
plt.title('PARTE C - Real vs Previsões (teste)')  # define título
plt.xlabel('Data')  # define eixo X
plt.ylabel('y (R$ milhões)')  # define eixo Y
plt.legend()  # mostra legenda
plt.grid(alpha=0.3)  # adiciona grade
plt.show()  # renderiza gráfico


## 5) Conclusão didática

- **X -> y (regressão):** útil quando temos drivers para explicar a originação.
- **t -> y (série temporal):** útil quando o histórico da própria série é forte.
- **Regra prática:** validar no tempo e sempre comparar com baseline.


## 6) Checklist FP&A

- Baseline: compare sempre com referência simples.
- Split temporal: nunca embaralhar passado e futuro.
- Métricas: acompanhe MAE e RMSE no teste.
- Governança: documente dados, período e versão do modelo.
- Monitoramento: revise performance e recalibre quando necessário.
