<a href="https://colab.research.google.com/github/fpaterni10/projeto-aplicado-iv-desemprego-br/blob/main/cd_projeto_aplicado_IV_entrega_4_BASE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Entrega 4 — Projeto Aplicado IV (Ciência de Dados EAD) - 2025/02**  
## **Predição da Taxa de Desemprego no Brasil: Séries Temporais com Dados do CAGED, PNAD e SELIC**
**ODS 8 — Trabalho Decente e Crescimento Econômico**


In [None]:
#@title **Identificação do Grupo e Opção do Projeto**
#@markdown Integrantes do Grupo, nome completo em ordem alfabética \(preencher abaixo\)
Aluno1 = 'Aline Correa de Araújo, 10414773' #@param {type:"string"}
Aluno2 = 'Franciele Paterni, 10414598'      #@param {type:"string"}
Aluno3 = 'Giovanna Sobral da Silva, 10424600' #@param {type:"string"}
Aluno4 = 'Guilherme Soares Frota, 10416060' #@param {type:"string"}
print('Integrantes:')
for a in [Aluno1,Aluno2,Aluno3,Aluno4]:
    if a and a.lower()!='none':
        print(' -', a)


## Introdução

O cenário econômico brasileiro é marcado por oscilações relevantes no mercado de trabalho e na taxa básica de juros (SELIC), fatores diretamente relacionados ao nível de emprego e à renda da população. Compreender esses movimentos é fundamental para a formulação de políticas públicas e para a tomada de decisão em setores estratégicos. A análise de séries temporais aplicadas ao emprego formal e ao comportamento da taxa de desocupação se torna, assim, um instrumento de previsão e planejamento, permitindo antecipar tendências e identificar padrões estruturais na economia brasileira (IBGE, 2025; BACEN, 2025).

O Brasil apresenta histórico de flutuações significativas na geração de empregos formais, influenciadas por fatores macroeconômicos, políticas governamentais e ciclos econômicos. Ao mesmo tempo, a taxa SELIC impacta diretamente a dinâmica do crédito, do consumo e do investimento, refletindo-se na variação do nível de emprego. Dessa forma, existe uma motivação clara em utilizar dados oficiais e atualizados para entender a relação entre esses elementos.

A justificativa central deste trabalho é que a previsão da taxa de desemprego, com base em indicadores fundamentais como o CAGED e a SELIC, oferece valor social e econômico. Tal análise apoia o **ODS 8 – Trabalho Decente e Crescimento Econômico**, ao fornecer insumos para políticas públicas voltadas à melhoria das condições do mercado de trabalho, além de gerar conhecimento relevante para gestores e pesquisadores.

Desenvolveremos um modelo de séries temporais para a predição da taxa de desocupação no Brasil, explorando dados do CAGED e da PNAD, bem como informações macroeconômicas relacionadas à taxa SELIC.

## Objetivos Específicos

- Realizar tratamento e padronização das bases de dados selecionadas (CAGED, PNAD e SELIC);  
- Explorar a série histórica, verificando estacionariedade, sazonalidade e ciclos;  
- Construir e avaliar modelos de previsão, como SARIMAX e técnicas de aprendizado de máquina aplicadas a séries temporais;  
- Comparar os resultados entre modelos estatísticos e de machine learning, verificando acurácia e robustez;  
- Apresentar previsões e insights que possam apoiar decisões em políticas públicas e planejamento estratégico.  

## Bases de Dados Utilizadas

- **CAGED (Cadastro Geral de Empregados e Desempregados):** dados mensais e trimestrais de admissões, desligamentos e saldo de empregos formais (MTE, 2025).  

- **PNAD Contínua – Tabela 4099**: taxas trimestrais de desocupação da população com 14 anos ou mais (IBGE, 2025).  

- **Taxa SELIC (Sistema Gerenciador de Séries Temporais – SGS)** taxa básica de juros diária, agregada para análise mensal e trimestral (BACEN, 2025).  

Essas bases abrangem o período de 2012 a 2025, no formato CSV, com granularidade mensal, trimestral e diária (tratada em médias para compatibilização). Todas as fontes são oficiais e públicas, permitindo a reprodução do experimento.



# **Pipeline da Solução**

A construção da solução será guiada por um pipeline de ciência de dados estruturado em etapas claras e interdependentes, garantindo a reprodutibilidade e a consistência do projeto. O foco será a previsão da taxa de desemprego no Brasil a partir da integração de séries temporais do CAGED (admissões, desligamentos e saldo de empregos), da PNAD Contínua (taxa de desocupação) e da taxa Selic (como variável exógena).

## 1. Coleta e Organização dos Dados
- **Bases utilizadas**:  
  - CAGED (mensal e trimestral, 2012–2025)  
  - PNAD Contínua (taxa de desocupação trimestral, 2012–2025)  
  - Taxa Selic (diária → mensal/trimestral, 2012–2025)  
- **Formato**: CSV e XLSX tratados previamente.  
- **Objetivo**: consolidar todas as bases em formato uniforme, com datas padronizadas (`datetime`).  

## 2. Pré-processamento de Dados
- Tratamento de valores ausentes e cabeçalhos duplicados.  
- Criação de variáveis derivadas (saldo = admissões − desligamentos).  
- Conversão da Selic diária em média mensal e trimestral.  
- Alinhamento temporal das bases.  

## 3. Componentização da Série Temporal
- Decomposição em tendência, sazonalidade e resíduos.  
- Análise de estacionariedade (ADF test).  
- ACF e PACF para identificar ordens de ARIMA/SARIMA.  

## 4. Análise Exploratória (EDA)
- Visualização da evolução do desemprego, saldo do CAGED e Selic.  
- Correlação entre séries (CAGED ↔ PNAD ↔ Selic).  
- Identificação de períodos críticos (crises, pandemia).  
- Estatísticas descritivas (média, variância, outliers).  

## 5. Modelagem
- Modelos estatísticos: ARIMA, SARIMA, SARIMAX.  
- Aprendizado de Máquina: Random Forest Regressor, XGBoost.  
- Métricas:RMSE, MAE, MAPE.  
- Comparação de modelos para selecionar o mais robusto.  

## 6. Validação e Testes
- Split temporal (train/test).  
- Validação cruzada para séries temporais.  
- Testes em períodos pós-pandemia.  

## 7. Produto Analítico e Visualização
- Dashboards interativos (Plotly/Matplotlib).  
- Gráficos de tendência e previsão com intervalos de confiança.  
- Relatório executivo com insights e recomendações.  

## 8. Entrega Final
- Notebook reprodutível no Colab.  
- Bases tratadas documentadas.  
- Relatório técnico.  
- Conexão com ODS 8 (Trabalho decente e crescimento econômico).  


## Diagrama de Solução
Figura do pipeline com o fluxo completo de dados → preparação → análise temporal → modelagem → avaliação → relatório.


In [None]:
# Exibir diagrama salvo no Drive (ajuste BASE se necessário)
from IPython.display import Image, display
from pathlib import Path
BASE = Path('/content/drive/MyDrive/BASE_DE_DADOS_REAIS')  # ajuste se necessário
PIPE = BASE / 'out' / 'relatorio_etapa3' / 'pipeline'
img_candidates = ['pipeline_etapa3_v4.png','pipeline_etapa3_v3.png','pipeline_etapa3.png']
for name in img_candidates:
    p = PIPE / name
    if p.exists():
        display(Image(filename=str(p)))
        break
else:
    print('Diagrama não encontrado em', PIPE)


## Setup (libs, Drive e caminhos)

In [None]:
# Instalar libs necessárias (pode reiniciar o runtime)
!pip -q install --upgrade lightgbm statsmodels pmdarima scikit-learn

from google.colab import drive
drive.mount('/content/drive')

from pathlib import Path
import pandas as pd, numpy as np
import matplotlib.pyplot as plt

BASE = Path('/content/drive/MyDrive/BASE_DE_DADOS_REAIS')  # ajuste se necessário
SERIES = BASE / 'dados_tratados' / 'CAGED_ETAPA_2' / 'series_for_ts_analysis.csv'
FEAT   = BASE / 'dados_tratados' / 'CAGED_ETAPA_2' / 'pnad_caged_features_prepared_v2_v3.csv'  # se existir
OUT    = BASE / 'out' / 'relatorio_etapa3'
print('BASE existe?', BASE.exists())
print('SERIES existe?', SERIES.exists())
print('FEAT existe?', FEAT.exists())



## EDA e Pré-processamento dos dados
- Merge PNAD + CAGED; padronização temporal trimestral.
- Engenharia de features: **lags**, **rolling**, **asinh**, **dummies** de trimestre/regime.
- Análise temporal: **ADF**, **ACF/PACF**, **decomposição (período=4)**.


In [None]:
# Carregar séries e exibir amostra

def ensure_date(df):
    if 'date' in df.columns:
        df['date'] = pd.to_datetime(df['date'])
    elif 'periodo_tri' in df.columns:
        df['date'] = pd.PeriodIndex(df['periodo_tri'], freq='Q').to_timestamp()
    else:
        raise ValueError("Não encontrei 'date' nem 'periodo_tri'.")
    return df

sdf = pd.read_csv(SERIES, encoding='utf-8-sig')
sdf = ensure_date(sdf).sort_values('date')
print(sdf.shape)
sdf.head(8)


In [None]:
# Exibir figuras da EDA (se existirem)
from IPython.display import Image, display
TS = OUT / 'ts_plots'
DECOMP = OUT / 'decomposition'
show = [
    TS/'acf_tx_desocupacao.png', TS/'pacf_tx_desocupacao.png',
    TS/'acf_caged_saldo_tri.png', TS/'pacf_caged_saldo_tri.png',
    DECOMP/'decomp_tx_desocupacao.png', DECOMP/'decomp_caged_saldo_tri.png'
]
for p in show:
    if p.exists(): display(Image(filename=str(p)))
    else: print('Não achei:', p)



## Modelo base — LGBM (campeão em holdout)
- Métricas (holdout): **MAE ≈ 0,2966**, **RMSE ≈ 0,3481**.
- Figuras: Real vs Pred calibrado; Resíduos.


In [None]:
# Exibir figuras do LGBM (se existirem)
from IPython.display import Image, display
p1 = OUT / 'real_vs_pred_calibrado.png'
p2 = OUT / 'residuos_calibrado.png'
for p in [p1,p2]:
    if p.exists(): display(Image(filename=str(p)))
    else: print('Não achei:', p)



## Modelo estatístico — SARIMAX
- Especificação selecionada: **(1,1,2) × (1,0,1,4)** com exógenas do CAGED.
- Métricas (teste): **MAE ≈ 0,362**, **RMSE ≈ 0,433**, **MAPE ≈ 5,54%**.
- Figuras: Real vs Pred, Resíduos, ACF dos resíduos.


In [None]:
# Exibir figuras do SARIMAX (se existirem) + ler métricas do CSV/JSON se houver
from IPython.display import Image, display
import json
SARIMAX_DIR = OUT / 'modelos' / 'sarimax'
SARIMAX_FIG = SARIMAX_DIR / 'figs'
imgs = [
    SARIMAX_FIG/'sarimax_real_vs_pred.png',
    SARIMAX_FIG/'sarimax_residuos.png',
    SARIMAX_FIG/'sarimax_residuos_acf.png'
]
for p in imgs:
    if p.exists(): display(Image(filename=str(p)))
    else: print('Não achei:', p)

pred_path = SARIMAX_DIR / 'sarimax_predictions_test.csv'
if pred_path.exists():
    pred = pd.read_csv(pred_path, parse_dates=['date'], index_col='date')
    from sklearn.metrics import mean_absolute_error, mean_squared_error
    import numpy as np
    mae = mean_absolute_error(pred['y_test'], pred['y_hat'])
    rmse = np.sqrt(mean_squared_error(pred['y_test'], pred['y_hat']))
    mape = (np.abs((pred['y_test']-pred['y_hat'])/pred['y_test']).replace([np.inf,-np.inf], np.nan).dropna().mean())*100
    print({'MAE':round(mae,3),'RMSE':round(rmse,3),'MAPE_%':round(mape,2)})
else:
    print('Predições de teste do SARIMAX não encontradas em', pred_path)



## Backtest (rolling-origin, expanding window)
Avaliação robusta simulando linha do tempo real para **SARIMAX** e **LGBM**.


In [None]:
# Funções de backtest — SARIMAX e LGBM
from statsmodels.tsa.statespace.sarimax import SARIMAX
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# preparar y e X
sdf2 = sdf.set_index('date').copy()
y = sdf2['tx_desocupacao'].astype(float)
exog_cols = [c for c in ['caged_saldo_tri','caged_roll3_asinh'] if c in sdf2.columns]
X = sdf2[exog_cols].copy() if exog_cols else None
if X is not None:
    X = X.join(X.shift(1).add_suffix('_lag1'))

# SARIMAX backtest (1 passo à frente)
def sarimax_backtest(y, X=None, order=(1,1,2), seasonal=(1,0,1,4), initial=36):
    idx = y.index; preds=[]; reals=[]
    for t in range(initial, len(y)):
        y_tr = y.iloc[:t]
        X_tr = X.iloc[:t] if X is not None else None
        X_te = X.iloc[t:t+1] if X is not None else None
        res  = SARIMAX(y_tr, exog=X_tr, order=order, seasonal_order=seasonal,
                       enforce_stationarity=False, enforce_invertibility=False).fit(disp=0)
        p    = res.get_forecast(steps=1, exog=X_te).predicted_mean.iloc[0]
        preds.append(p); reals.append(y.iloc[t])
    bt = pd.DataFrame({'real':reals,'pred':preds}, index=idx[initial:])
    mae = mean_absolute_error(bt.real, bt.pred)
    rmse= np.sqrt(mean_squared_error(bt.real, bt.pred))
    return bt, mae, rmse

bt_sx, mae_sx, rmse_sx = sarimax_backtest(y, X)
print('Backtest SARIMAX → MAE=', round(mae_sx,3), 'RMSE=', round(rmse_sx,3))

# LGBM backtest (expanding, 1 passo)
import lightgbm as lgb
cand = ['caged_roll3_asinh','caged_lag1_asinh','caged_asinh_k','caged_yoy_w','post_2021','interaction_roll_post']
features = [c for c in cand if c in sdf2.columns]

df_ml = sdf2[features + ['tx_desocupacao']].dropna().copy()

def lgbm_backtest(df_ml, features, initial=36):
    idx = df_ml.index
    preds, reals = [], []
    for t in range(initial, len(df_ml)):
        train = df_ml.iloc[:t]
        test1 = df_ml.iloc[t:t+1]
        model = lgb.LGBMRegressor(n_estimators=300, random_state=42)
        model.fit(train[features], train['tx_desocupacao'])
        p = float(model.predict(test1[features]))
        preds.append(p); reals.append(float(test1['tx_desocupacao'].iloc[0]))
    bt = pd.DataFrame({'real':reals,'pred':preds}, index=idx[initial:])
    mae = mean_absolute_error(bt.real, bt.pred)
    rmse= np.sqrt(mean_squared_error(bt.real, bt.pred))
    return bt, mae, rmse

if features:
    bt_lgb, mae_lgb, rmse_lgb = lgbm_backtest(df_ml, features)
    print('Backtest LGBM → MAE=', round(mae_lgb,3), 'RMSE=', round(rmse_lgb,3))
else:
    mae_lgb = rmse_lgb = np.nan
    print('LGBM: features não encontradas — pulei o backtest')


## Comparação entre modelos (holdout + backtest)

In [None]:
# Tabela final (preenche com os números do seu holdout conhecido)
holdout = pd.DataFrame({
    'modelo': ['LGBM (calibrado)', 'SARIMAX'],
    'MAE_holdout': [0.2966, 0.3618],
    'RMSE_holdout': [0.3481, 0.4329]
})

backtest = pd.DataFrame({
    'modelo': ['LGBM (expanding)', 'SARIMAX (expanding)'],
    'MAE_backtest': [mae_lgb if 'mae_lgb' in globals() else np.nan, mae_sx],
    'RMSE_backtest': [rmse_lgb if 'rmse_lgb' in globals() else np.nan, rmse_sx]
})

cmp = holdout.merge(backtest, how='outer', on='modelo')
cmp



## Previsões finais (2025) com intervalo de confiança — SARIMAX
Cenário baseline: exógenas persistidas (mantidas no último valor observado).


In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX
# Ajuste final e forecast para 2 trimestres
H=2
X_all = X.loc[y.index] if 'X' in globals() and X is not None else None
res_all = SARIMAX(y, exog=X_all, order=(1,1,2), seasonal_order=(1,0,1,4),
                  enforce_stationarity=False, enforce_invertibility=False).fit(disp=0)

X_fut = None
if X_all is not None:
    last = X_all.iloc[[-1]].copy()
    X_fut = pd.concat([last]*H, ignore_index=True)

fc = res_all.get_forecast(steps=H, exog=X_fut)
pred = fc.predicted_mean
ci   = fc.conf_int()

future_idx = pd.period_range(y.index[-1].to_period('Q')+1, periods=H, freq='Q').to_timestamp()
forecast = pd.DataFrame({'pred':pred.values, 'ci_low':ci.iloc[:,0].values, 'ci_high':ci.iloc[:,1].values}, index=future_idx)
forecast


In [None]:
# Gráfico do forecast
plt.figure(figsize=(10,4))
plt.plot(y.index, y, label='real')
plt.plot(forecast.index, forecast['pred'], marker='o', label='forecast SARIMAX')
plt.fill_between(forecast.index, forecast['ci_low'], forecast['ci_high'], alpha=0.2, label='IC 95%')
plt.title('Forecast 2025 (Q3–Q4) – SARIMAX')
plt.legend()
plt.tight_layout()
plt.show()


# Cronograma

##  Etapas 1 e 2:  (20/08/2025 — 26/09/2025)
| Nº | ATIVIDADE | RESPONSÁVEL | DATA INÍCIO | DATA TÉRMINO | STATUS |
|----|-----------|----------------|-------------|--------------|--------|
| 1 | Definição do título e escopo do projeto | Todos | 20/08/2025 | 07/09/2025 | Concluído |
| 2 | Identificação do grupo (nomes e matrículas) | Todos | 20/08/2025 | 07/09/2025 | Concluído |
| 3 | Redação da Introdução, Motivação e Justificativa | Todos | 20/08/2025 | 07/09/2025 | Concluído |
| 4 | Formulação de Objetivo Geral e Objetivos Específicos | Todos | 20/08/2025 | 07/09/2025 | Concluído |
| 5 | Descrição da base de dados e variáveis exógenas (CAGED, SELIC) | Franciele / Guilherme | 20/08/2025 | 07/09/2025 | Concluído |
| 6 | Justificativa metodológica e bibliografia inicial | Aline / Giovanna | 20/08/2025 | 07/09/2025 | Concluído |
| 7 | Planejamento inicial (pipeline + subetapas) | Todos | 20/08/2025 | 25/09/2025 | Concluído |
| 8 | Elaboração da Entrega 2 (introdução, referencial, pipeline, cronograma) | Todos | 10/09/2025 | 25/09/2025 | Concluído |

---

## Etapa 3: Implementação Parcial (25/09/2025 — 31/10/2025)
| Nº | Atividade | Responsável(s) | Data início | Data término | Status |
|----|-----------|----------------|-------------|--------------|--------|
| 9 | Aquisição e integração dos arquivos brutos (CAGED + SELIC) | Guilherme / Fran | 25/09/2025 | 28/09/2025 | Concluído |
| 10 | Pré-processamento e montagem da série mensal consolidada | Fran / Aline | 29/09/2025 | 06/10/2025 | Concluído |
| 11 | Engenharia de features exógenas (SELIC, lags, médias móveis) | Guilherme / Giovanna | 29/09/2025 | 06/10/2025 | Planejado |
| 12 | Análise Exploratória de Dados (EDA) e visualizações | Giovanna / Aline | 07/10/2025 | 13/10/2025 | Planejado |
| 13 | Diagrama da solução (fluxo visual do pipeline) | Todos | 07/10/2025 | 10/10/2025 | Planejado |
| 14 | Definição final dos modelos candidatos (ARIMA, SARIMA, SARIMAX) | Todos | 14/10/2025 | 16/10/2025 | Planejado |
| 15 | Treinamento inicial dos modelos clássicos | Aline / Guilherme | 17/10/2025 | 20/10/2025 | Planejado |
| 16 | Treinamento de baseline com redes neurais (opcional) | Giovanna / Fran | 21/10/2025 | 24/10/2025 | Planejado |
| 17 | Avaliação preliminar e ajustes iniciais | Todos | 25/10/2025 | 28/10/2025 | Planejado |
| 18 | Consolidação da Entrega 3 (notebook parcial) | Todos | 29/10/2025 | 31/10/2025 | Planejado |

---

## Etapa 4: Implementação Final (01/11/2025 — 28/11/2025)
| Nº | Atividade | Responsável(s) | Data início | Data término | Status |
|----|-----------|----------------|-------------|--------------|--------|
| 19 | Avaliação final e tuning dos modelos | Todos | 01/11/2025 | 05/11/2025 | Planejado |
| 20 | Geração dos resultados finais (métricas + gráficos + forecast 2025) | Fran / Aline | 06/11/2025 | 10/11/2025 | Planejado |
| 21 | Discussão e conclusão crítica (qualidades, limitações, melhorias) | Giovanna / Guilherme | 11/11/2025 | 15/11/2025 | Planejado |
| 22 | Redação dos resultados e organização no notebook | Todos | 16/11/2025 | 20/11/2025 | Planejado |
| 23 | Revisão final e formatação ABNT nas referências | Todos | 21/11/2025 | 23/11/2025 | Planejado |
| 24 | Preparação da apresentação (slides + vídeo) | Todos | 24/11/2025 | 26/11/2025 | Planejado |
| 25 | Submissão final no GitHub + vídeo | Todos | 27/11/2025 | 28/11/2025 | Planejado |



**Referências**
- INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Pesquisa Nacional por Amostra de Domicílios Contínua – PNAD Contínua. Disponível em: https://www.ibge.gov.br
. Acesso em: 25 set. 2025.

- MINISTÉRIO DO TRABALHO E EMPREGO (MTE). Cadastro Geral de Empregados e Desempregados – CAGED (Microdados). Disponível em: ftp://ftp.mtps.gov.br/pdet/microdados/
. Acesso em: 25 set. 2025.

- BANCO CENTRAL DO BRASIL (BACEN). Sistema Gerenciador de Séries Temporais – Taxa Selic. Disponível em: https://www.bcb.gov.br
. Acesso em: 25 set. 2025.

- AGÊNCIA GOV. Desocupação cai para 6,4%, segunda menor taxa da série histórica. Brasília: EBC, 31 out. 2024. Disponível em: https://agenciagov.ebc.com.br
. Acesso em: 25 set. 2025.

- GOVERNO FEDERAL. Informativo PNAD 2025 – Emprego e Renda. Brasília: Governo do Brasil, 2025. Disponível em: https://www.gov.br
. Acesso em: 25 set. 2025.



## Avaliação (preencha para calcular a Nota Final no template)

In [None]:
# Entradas simples (0 a 10)
EDA_e_preprocessamento = 10  #@param {type:"number"}
Modelo_base = 10              #@param {type:"number"}

nota = 0.50*EDA_e_preprocessamento + 0.50*Modelo_base
print(f'Nota final do trabalho {nota:.1f}')
