# An√°lise Preditiva de Desmatamento: Metodologia SEMMA Completa

**Autor:** Pedro Mambelli Fernandes  
**Projeto:** Desafio Zetta Labs 2025

Este notebook demonstra a aplica√ß√£o completa da metodologia SEMMA (Sample, Explore, Modify, Model, Assess) no projeto de an√°lise preditiva de desmatamento. Cada etapa utiliza as fun√ß√µes e classes desenvolvidas nos scripts do projeto, proporcionando uma execu√ß√£o reprodut√≠vel e did√°tica de todo o pipeline de machine learning.

## Metodologia SEMMA

- **Sample (Amostragem):** Carregamento e resumo inicial dos dados
- **Explore (Explora√ß√£o):** An√°lise explorat√≥ria e identifica√ß√£o de padr√µes
- **Modify (Modifica√ß√£o):** Pr√©-processamento e engenharia de features
- **Model (Modelagem):** Treinamento dos modelos preditivos
- **Assess (Avalia√ß√£o):** An√°lise de performance e interpreta√ß√£o

## 1. Configura√ß√£o do Ambiente

Primeiro, configuramos o ambiente de trabalho. Adicionamos o diret√≥rio raiz do projeto ao `sys.path` para permitir a importa√ß√£o dos m√≥dulos customizados localizados em `/scripts`. Em seguida, importamos as bibliotecas e os scripts necess√°rios.

In [1]:
import os
import sys
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Adiciona a raiz do projeto ao path para importar os scripts
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

# Importando os scripts do projeto (metodologia SEMMA)
from scripts import sampling  # S - Sample
from scripts import explore   # E - Explore  
from scripts import modify    # M - Modify
from scripts import model     # M - Model
from scripts import assess    # A - Assess

print("‚úÖ Ambiente configurado com sucesso!")
print("üì¶ M√≥dulos SEMMA importados:")
print("   üìä sampling - Amostragem e carregamento de dados")
print("   üîç explore - An√°lise explorat√≥ria")
print("   üîß modify - Pr√©-processamento e feature engineering")
print("   ü§ñ model - Treinamento de modelos")
print("   üìà assess - Avalia√ß√£o e an√°lise de resultados")

‚úÖ Ambiente configurado com sucesso!
üì¶ M√≥dulos SEMMA importados:
   üìä sampling - Amostragem e carregamento de dados
   üîç explore - An√°lise explorat√≥ria
   üîß modify - Pr√©-processamento e feature engineering
   ü§ñ model - Treinamento de modelos
   üìà assess - Avalia√ß√£o e an√°lise de resultados


### Estrutura dos Scripts SEMMA

Cada script implementa uma etapa espec√≠fica da metodologia:

- **`sampling.py`** ‚Üí Carregamento inicial e gera√ß√£o de resumos estat√≠sticos
- **`explore.py`** ‚Üí An√°lise de qualidade e visualiza√ß√µes explorat√≥rias  
- **`modify.py`** ‚Üí Limpeza, agrega√ß√µes e engenharia de features
- **`model.py`** ‚Üí Treinamento temporal de modelos (XGBoost, Random Forest)
- **`assess.py`** ‚Üí Avalia√ß√£o comparativa e gera√ß√£o de insights

O notebook organiza cada etapa em sequ√™ncia, utilizando as fun√ß√µes e classes desenvolvidas nos scripts para demonstrar o processo de forma clara.


## 2. SAMPLE - Amostragem e Carregamento dos Dados

A primeira etapa do SEMMA consiste em carregar os dados e gerar resumos iniciais para entender a estrutura de cada dataset. O script `sampling.py` automatiza esse processo para os tr√™s principais conjuntos de dados:

- **Desmatamento Anual:** Dados hist√≥ricos de desmatamento por munic√≠pio (formato Parquet)
- **Infra√ß√µes do IBAMA:** Autos de infra√ß√£o ambientais de 1977-2025 (m√∫ltiplos CSVs)
- **√çndice de Progresso Social (IPS):** Indicadores socioecon√¥micos dos munic√≠pios do Par√°

O script gera relat√≥rios detalhados com estat√≠sticas descritivas, informa√ß√µes sobre tipos de dados e identifica√ß√£o de valores ausentes.

In [2]:
print("üîÑ Executando etapa SAMPLE - Amostragem...")
print("=" * 50)

# Executar o script de sampling completo
sampling.main()

print("\n‚úÖ Etapa SAMPLE conclu√≠da!")
print("üìÅ Relat√≥rios gerados em: ../reports/")
print("   - summary_ips_municipios.txt")
print("   - summary_desmatamento_anual.txt") 
print("   - summary_ibama_infracoes_consolidadas.txt")

üîÑ Executando etapa SAMPLE - Amostragem...
Iniciando a etapa de Sampling (Amostragem)...
Relat√≥rio de resumo salvo em: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\summary_ips_municipios.txt
Relat√≥rio de resumo salvo em: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\summary_desmatamento_anual.txt
Relat√≥rio de resumo salvo em: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\summary_ibama_infracoes_consolidadas.txt

Etapa de Sampling conclu√≠da.
Verifique os arquivos de resumo no diret√≥rio: reports

‚úÖ Etapa SAMPLE conclu√≠da!
üìÅ Relat√≥rios gerados em: ../reports/
   - summary_ips_municipios.txt
   - summary_desmatamento_anual.txt
   - summary_ibama_infracoes_consolidadas.txt


## 3. EXPLORE - An√°lise Explorat√≥ria de Dados

A segunda etapa do SEMMA foca na explora√ß√£o visual e estat√≠stica dos dados. O script `explore.py` realiza:

- **Filtragem geogr√°fica:** Foco no estado do Par√° (UF = 'PA')
- **An√°lise de qualidade:** Identifica√ß√£o de valores ausentes por fonte de dados
- **Visualiza√ß√µes:** Gr√°ficos de barras mostrando a porcentagem de missing values
- **Valida√ß√£o temporal:** Verifica√ß√£o da cobertura temporal dos dados (2008+)

Esta etapa √© crucial para identificar problemas de qualidade antes do pr√©-processamento.

In [3]:
print("üîÑ Executando etapa EXPLORE - An√°lise Explorat√≥ria...")
print("=" * 50)

# Executar o script de explora√ß√£o completo
explore.main()

print("\n‚úÖ Etapa EXPLORE conclu√≠da!")
print("üìÅ Gr√°ficos de qualidade dos dados gerados em: ../reports/figures/")
print("   - missing_values_ips_pa.png")
print("   - missing_values_desmatamento_pa.png")
print("   - missing_values_ibama_pa.png")

üîÑ Executando etapa EXPLORE - An√°lise Explorat√≥ria...
Iniciando a etapa de Explore (Explora√ß√£o)...

[IPS] Colunas dispon√≠veis: ['C√≥digo IBGE', 'Munic√≠pio', 'UF', '√Årea (km¬≤)', 'Popula√ß√£o 2022', 'PIB per capita 2021', '√çndice de Progresso Social', 'Necessidades Humanas B√°sicas', 'Fundamentos do Bem-estar', 'Oportunidades', 'Nutri√ß√£o e Cuidados M√©dicos B√°sicos', '√Ågua e Saneamento', 'Moradia', 'Seguran√ßa Pessoal', 'Acesso ao Conhecimento B√°sico', 'Acesso √† Informa√ß√£o e Comunica√ß√£o', 'Sa√∫de e Bem-estar', 'Qualidade do Meio Ambiente', 'Direitos Individuais', 'Liberdades Individuais e de Escolha', 'Inclus√£o Social', 'Acesso √† Educa√ß√£o Superior', 'Cobertura Vacinal (Poliomielite)', 'Hospitaliza√ß√µes por Condi√ß√µes Sens√≠veis √† Aten√ß√£o Prim√°ria', 'Mortalidade Ajustada por Condi√ß√µes Sens√≠veis √† Aten√ß√£o Prim√°ria', 'Mortalidade Infantil at√© 5 Anos', 'Subnutri√ß√£o', 'Abastecimento de √Ågua via Rede de Distribui√ß√£o', 'Esgotamento Sanit√°rio Adequado

## 4. MODIFY - Pr√©-processamento e Engenharia de Features

A terceira etapa do SEMMA √© a mais cr√≠tica para o sucesso dos modelos. O script `modify.py` realiza:

### Processamento dos Dados:
- **Carregamento inteligente:** IPS (CSV), Desmatamento (Parquet), IBAMA (m√∫ltiplos CSVs)
- **Filtragem temporal:** Dados de 2008 em diante para garantir consist√™ncia
- **Filtragem geogr√°fica:** Foco no estado do Par√°
- **Limpeza:** Padroniza√ß√£o de c√≥digos IBGE, tratamento de valores ausentes

### Agrega√ß√µes Estrat√©gicas:
- **IBAMA por munic√≠pio/ano:** Total de autos, valor de multas, infra√ß√µes de flora
- **Interpola√ß√£o de IPS:** Preenchimento temporal usando interpola√ß√£o linear

### Features Temporais:
- **Lags:** Desmatamento do ano anterior (`desmatamento_lag1`)
- **M√©dias m√≥veis:** Tend√™ncia de 3 anos (`desmatamento_ma3`)
- **Per√≠odos presidenciais:** Lula, Dilma, Temer, Bolsonaro (codificado)
- **Anos de transi√ß√£o:** Marcadores para mudan√ßas de governo

In [4]:
print("üîÑ Executando etapa MODIFY - Pr√©-processamento...")
print("=" * 50)

# Executar o script de modifica√ß√£o completo
modify.main()

print("\n‚úÖ Etapa MODIFY conclu√≠da!")
print("üìÅ Tabelas anal√≠ticas geradas em: ../reports/processed/")
print("   - analytical_base_table.parquet: Tabela completa com todas as features")
print("   - analytical_table_tabular.parquet: Para modelos tabulares (RF, XGBoost)")
print("   - analytical_table_temporal.parquet: Para modelos temporais (LSTM, GRU)")
print("   - data_summary.txt: Resumo dos dados processados")

üîÑ Executando etapa MODIFY - Pr√©-processamento...
Iniciando a etapa de Modify (Modifica√ß√£o)...
Per√≠odo de an√°lise: 2008 em diante
Estado: PA
--------------------------------------------------
1. Carregando dados...
IPS: 144 munic√≠pios do Par√° carregados
Desmatamento: 2069 registros do Par√° de 2008 em diante
IBAMA: 37544 registros do Par√° de 2008 em diante

2. Processando dados do IBAMA...
IBAMA agregado: 1609 registros munic√≠pio-ano

3. Criando tabela anal√≠tica base...
Ap√≥s interpola√ß√£o do IPS: 2069 registros
Ap√≥s merge com IBAMA: 2069 registros

4. Adicionando features temporais...

5. Preparando encodings para ML...

6. Salvando tabelas anal√≠ticas...
Tabela anal√≠tica base salva: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\processed\analytical_base_table.parquet
Tabela para modelos tabulares salva: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\processed\analytical_table_tabular.parquet
Tabela para modelos temporais salva: C:\Users\pedro\Documents\Dev\zetta

## 5. MODEL - Treinamento dos Modelos Preditivos

A quarta etapa do SEMMA envolve o treinamento de modelos de machine learning. A estrat√©gia implementada √© de **modelagem temporal por per√≠odos**, onde cada modelo √© treinado com dados hist√≥ricos para prever o pr√≥ximo ano.

### Estrat√©gia de Modelagem:
- **Per√≠odos de treinamento:** 2013-2023 (11 modelos, um para cada ano)
- **Modelos implementados:** XGBoost e Random Forest
- **Valida√ß√£o:** Walk-forward temporal (sem vazamento de dados futuros)
- **Arquitetura modular:** Classes especializadas para cada algoritmo

### Pipeline de Treinamento:
1. **Carregamento:** Tabela anal√≠tica processada
2. **Prepara√ß√£o:** Sele√ß√£o de features e defini√ß√£o do target
3. **Treinamento:** Ajuste bayesiano dos hiperpar√¢metros com Optuna
4. **Predi√ß√£o:** Gera√ß√£o de predi√ß√µes para o ano de teste
5. **Persist√™ncia:** Salvar modelos, metadados e predi√ß√µes

### Outputs Gerados:
- **Modelos treinados:** Arquivos `.pkl` para cada per√≠odo/algoritmo
- **Metadados:** Configura√ß√µes e feature importance (JSON)
- **Predi√ß√µes:** Valores reais vs. previstos (Parquet)
- **M√©tricas:** R¬≤, RMSE, MAE por per√≠odo

In [5]:
print("üîÑ Executando etapa MODEL - Treinamento dos Modelos...")
print("=" * 50)

# Executar o pipeline de modelagem completo
model.main()

print("\n‚úÖ Etapa MODEL conclu√≠da!")
print("üìÅ Resultados de modelagem gerados em:")
print("   üìÇ ../reports/models/ - Modelos treinados por per√≠odo")
print("   üìÇ ../reports/results/ - M√©tricas de performance")
print("   üìÇ ../reports/checkpoints/ - Consolida√ß√£o de todos os resultados")
print("\nüìä Para cada per√≠odo (2013-2023):")
print("   - {modelo}_model.pkl: Modelo treinado")
print("   - {modelo}_metadata.json: Configura√ß√µes e feature importance")
print("   - {modelo}_predictions.parquet: Predi√ß√µes vs. valores reais")

üîÑ Executando etapa MODEL - Treinamento dos Modelos...
üîß Executando pipeline de modelagem refatorado...
üìÅ Estrutura modular:
   ‚îú‚îÄ‚îÄ models/base.py - Funcionalidades comuns
   ‚îú‚îÄ‚îÄ models/xgboost_model.py - XGBoost
   ‚îú‚îÄ‚îÄ models/random_forest_model.py - Random Forest
   ‚îî‚îÄ‚îÄ models/trainer.py - Orquestrador principal
   ‚îî‚îÄ‚îÄ scripts/assess.py - An√°lise de resultados

Iniciando pipeline de modelagem modular...
ID da execu√ß√£o: 20250630_181342
0. Verificando execu√ß√µes anteriores...
Checkpoint carregado: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\checkpoints\all_results_20250629_204235.pkl
Carregados 22 resultados existentes
Encontrados 22 resultados de execu√ß√µes anteriores
Experimentos j√° completados: 22

1. Carregando dados...
Dados tabulares: (2069, 21)
Dados temporais: (2069, 23)

2. Criando splits walk-forward...
Criados 11 splits walk-forward

3. Treinando modelos tabulares (11 per√≠odos)...

Per√≠odo 1/11: Treino at√© 2012.0, Teste 20

## 6. ASSESS - Avalia√ß√£o e An√°lise dos Resultados

A quinta e √∫ltima etapa do SEMMA √© focada na avalia√ß√£o objetiva dos modelos e gera√ß√£o de insights acion√°veis. O script `assess.py` realiza uma an√°lise abrangente da performance.

### An√°lises Realizadas:

#### 1. **Compara√ß√£o Temporal de Performance**
- **Gr√°fico:** Evolu√ß√£o do R¬≤ e RMSE ao longo dos anos de teste
- **Insight:** Identifica√ß√£o de per√≠odos onde os modelos t√™m melhor/pior performance
- **Output:** `model_comparison_timeline.png`

#### 2. **Import√¢ncia das Features**
- **Gr√°fico:** Top 10 features mais importantes para cada modelo
- **An√°lise:** Compara√ß√£o entre XGBoost e Random Forest
- **Output:** `feature_importance_comparison.png`

#### 3. **Evolu√ß√£o Temporal: Real vs. Previsto**
- **Gr√°fico:** S√©ries temporais com destaque para mudan√ßas pol√≠ticas
- **Contexto:** Per√≠odos de suspens√£o do PPCDAm (2019-2022)
- **Output:** `temporal_evolution_real_vs_predicted.png`

#### 4. **An√°lise de Anos Cr√≠ticos**
- **Foco:** Performance espec√≠fica em 2019 (in√≠cio Bolsonaro) e 2023 (retorno Lula)
- **Insight:** Como os modelos se comportam durante mudan√ßas pol√≠ticas
- **Output:** `critical_years_analysis.png`

### Dados Estruturados para Dashboard:
Todos os gr√°ficos geram tamb√©m tabelas em formato Parquet para alimentar o dashboard interativo.

In [6]:
print("üîÑ Executando etapa ASSESS - Avalia√ß√£o dos Modelos...")
print("=" * 50)

# Executar a an√°lise completa de avalia√ß√£o
assess.main()

print("\n‚úÖ Etapa ASSESS conclu√≠da!")
print("üìÅ An√°lises geradas em: ../reports/figures/")
print("   üìä model_comparison_timeline.png: Compara√ß√£o temporal R¬≤ e RMSE")
print("   üìä feature_importance_comparison.png: Top 10 features por modelo")
print("   üìä temporal_evolution_real_vs_predicted.png: Real vs. Previsto com contexto pol√≠tico")
print("   üìä critical_years_analysis.png: Performance em anos cr√≠ticos (2019, 2023)")
print("\nüíæ Dados estruturados em: ../reports/processed/")
print("   üìã model_comparison_data.parquet")
print("   üìã feature_importance_data.parquet")
print("   üìã temporal_evolution_data.parquet")
print("   üìã critical_years_data.parquet")
print("   üìã model_summary.parquet")

üîÑ Executando etapa ASSESS - Avalia√ß√£o dos Modelos...

üéØ AN√ÅLISE FOCADA DE MODELOS
üìä Carregando: all_results_20250629_204235.pkl
üìà 22 resultados | 2,814 predi√ß√µes

üîç Gerando an√°lises...
‚úÖ Compara√ß√£o temporal salva: model_comparison_timeline.png
‚úÖ random_forest: 11 per√≠odos processados, 18 features
‚úÖ xgboost: 11 per√≠odos processados, 18 features
‚úÖ Import√¢ncia das features salva: feature_importance_comparison.png
‚úÖ Evolu√ß√£o temporal salva: temporal_evolution_real_vs_predicted.png
‚úÖ An√°lise de anos cr√≠ticos salva: critical_years_analysis.png

üìä RESUMO DOS MODELOS:
Random Forest:
  R¬≤ m√©dio: 0.861 (¬±0.086) - Ranking: #2
  RMSE m√©dio: 22.2 (¬±13.0) - Ranking: #2

Xgboost:
  R¬≤ m√©dio: 0.877 (¬±0.076) - Ranking: #1
  RMSE m√©dio: 20.3 (¬±8.3) - Ranking: #1


‚úÖ An√°lise conclu√≠da!
üìÅ Gr√°ficos: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\figures
üíæ Dados: C:\Users\pedro\Documents\Dev\zetta-labs-2\reports\processed

‚úÖ Etapa ASSESS

## 7. Visualiza√ß√£o dos Resultados

Ap√≥s a execu√ß√£o completa do pipeline, voc√™ pode examinar os resultados gerados. Aqui est√£o alguns exemplos de como acessar e interpretar os dados processados.


In [8]:
# Carregamento e exibi√ß√£o de resultados exemplo
import os
from pathlib import Path

REPORTS_DIR = Path("../reports")
PROCESSED_DIR = REPORTS_DIR / "processed"
FIGURES_DIR = REPORTS_DIR / "figures"

print("üìä RESULTADOS DISPON√çVEIS:")
print("=" * 40)

# Verificar se os diret√≥rios existem
if PROCESSED_DIR.exists():
    print("üíæ Dados processados:")
    for file in sorted(PROCESSED_DIR.glob("*.parquet")):
        size_mb = file.stat().st_size / (1024 * 1024)
        print(f"   üìã {file.name} ({size_mb:.1f} MB)")
        
    print("\nüìÑ Relat√≥rios:")  
    for file in sorted(PROCESSED_DIR.glob("*.txt")):
        print(f"   üìù {file.name}")
        
if FIGURES_DIR.exists():
    print("\nüìä Visualiza√ß√µes:")
    for file in sorted(FIGURES_DIR.glob("*.png")):
        size_kb = file.stat().st_size / 1024
        print(f"   üñºÔ∏è  {file.name} ({size_kb:.0f} KB)")

# Exemplo: Carregar resumo dos modelos se dispon√≠vel
if (PROCESSED_DIR / "model_summary.parquet").exists():
    print("\nü§ñ RESUMO DOS MODELOS:")
    print("-" * 30)
    model_summary = pd.read_parquet(PROCESSED_DIR / "model_summary.parquet")
    for _, row in model_summary.iterrows():
        model_name = row['model_type'].replace('_', ' ').title()
        print(f"{model_name}:")
        print(f"  üìà R¬≤ m√©dio: {row['r2_mean']:.3f} (ranking: #{row['r2_rank']})")
        print(f"  üìâ RMSE m√©dio: {row['rmse_mean']:.1f} km¬≤ (ranking: #{row['rmse_rank']})")
        print()
else:
    print("\n‚ö†Ô∏è  Execute primeiro o pipeline completo para ver os resultados.")


üìä RESULTADOS DISPON√çVEIS:
üíæ Dados processados:
   üìã analytical_base_table.parquet (0.1 MB)
   üìã analytical_table_tabular.parquet (0.1 MB)
   üìã analytical_table_temporal.parquet (0.1 MB)
   üìã critical_years_data.parquet (0.0 MB)
   üìã executive_summary.parquet (0.0 MB)
   üìã feature_importance_analysis.parquet (0.0 MB)
   üìã feature_importance_data.parquet (0.0 MB)
   üìã model_comparison_data.parquet (0.0 MB)
   üìã model_performance_analysis.parquet (0.0 MB)
   üìã model_summary.parquet (0.0 MB)
   üìã performance_statistics.parquet (0.0 MB)
   üìã prediction_quality_metrics.parquet (0.0 MB)
   üìã predictions_analysis_sample.parquet (0.1 MB)
   üìã temporal_evolution_data.parquet (0.0 MB)

üìÑ Relat√≥rios:
   üìù data_summary.txt

üìä Visualiza√ß√µes:
   üñºÔ∏è  critical_years_analysis.png (118 KB)
   üñºÔ∏è  feature_importance_comparison.png (250 KB)
   üñºÔ∏è  missing_values_ibama_pa.png (102 KB)
   üñºÔ∏è  model_comparison_timeline.png (284 K