# 🚗 Sprint Challenge 4 – Previsão de Acidentes com LSTMs
## Case Sompo: Antecipando Padrões de Risco em Rodovias Brasileiras

---

### **👥 Equipe Big 5**
- **Lucca Phelipe Masini** - RM 564121
- **Luiz Henrique Poss** - RM 562177
- **Luis Fernando de Oliveira Salgado** - RM 561401
- **Igor Paixão Sarak** - RM 563726
- **Bernardo Braga Perobeli** - RM 562468

---

### **🎯 Objetivo do Projeto**

Desenvolver um modelo de **LSTM (Long Short-Term Memory)** capaz de **prever o número total de acidentes** em rodovias federais brasileiras por semana, utilizando dados públicos da PRF (Polícia Rodoviária Federal).

**Target**: Número de acidentes por semana (regressão)  
**Dataset**: 22.020 registros de acidentes (2025)  
**Resultado Esperado**: R² > 0.80, MAE < 15 acidentes

---

### **💡 Justificativa da Abordagem**

Após testes iterativos, escolhemos prever **volume total** ao invés de classificação ou proporção porque:

1. ✅ **Padrões temporais claros**: Dias úteis vs fins de semana, sazonalidade
2. ✅ **Features históricas preditivas**: Lags das últimas semanas são informativos
3. ✅ **LSTM adequado**: Captura dependências de longo prazo em séries temporais
4. ✅ **Aplicação prática**: Gestores precisam saber "quantos acidentes esperar" para alocar recursos
5. ✅ **Métricas interpretáveis**: MAE = erro médio em número de acidentes

---

### **📊 Estrutura do Notebook**

Este notebook está organizado em **10 etapas sequenciais**:

1. **Instalação de dependências** → openpyxl para ler Excel
2. **Importação de bibliotecas** → TensorFlow, Pandas, NumPy, etc.
3. **Carregamento dos dados** → Dataset PRF do GitHub
4. **Pré-processamento** → Variável `severo` e agregação semanal
5. **Feature Engineering** → 12 features temporais, sazonalidade, lags
6. **Criação de sequências** → Janelas de 8 semanas para LSTM
7. **Construção do modelo** → Arquitetura LSTM (128→64→32→16→1)
8. **Treinamento** → 100 épocas com callbacks
9. **Avaliação** → MAE, RMSE, R², MAPE + gráficos
10. **Salvamento** → Modelo treinado em .keras

**⏱️ Tempo de Execução**: 15-30 minutos (incluindo treinamento)

---

**▶️ Pronto para executar!** No Colab: `Runtime > Run all`

---

## 📚 Passo 1: Instalação de Dependências

**O que faremos**: Instalar a biblioteca `openpyxl` necessária para ler arquivos Excel (.xlsx)

**Por quê**: O dataset da PRF está em formato Excel e o pandas precisa do openpyxl para ler este formato


In [None]:
!pip install openpyxl --quiet
print("✅ Bibliotecas instaladas!")

---

## 📥 Passo 2: Importação de Bibliotecas

**O que faremos**: Importar todas as bibliotecas necessárias para manipulação de dados, visualização e machine learning

**Bibliotecas principais**:
- `pandas`: Manipulação de dados em DataFrames
- `numpy`: Operações numéricas e arrays
- `matplotlib` e `seaborn`: Criação de gráficos e visualizações
- `urllib`: Download do dataset do GitHub

**Por quê**: Organizamos todos os imports no início para facilitar identificação de dependências do projeto


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import urllib.request
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("📚 Bibliotecas importadas!")

---

## 📊 Passo 3: Carregamento do Dataset PRF

**O que faremos**: Baixar e carregar o dataset de acidentes da Polícia Rodoviária Federal

**Fonte**: GitHub (dados públicos da PRF - datatran2025.xlsx)
**Conteúdo**: ~22.000 registros de acidentes em rodovias federais brasileiras em 2025

**Por quê usar GitHub**: Garante reprodutibilidade - qualquer pessoa pode executar este notebook sem precisar baixar arquivos manualmente. O dataset está versionado e sempre disponível.

**O que esperamos ver**: Confirmação do número de acidentes, período dos dados (data mínima e máxima) e quantos estados (UFs) estão representados no dataset.


In [None]:
print("📥 Baixando dataset da PRF do GitHub...")

github_raw_url = 'https://raw.githubusercontent.com/9luis7/lstm-acidentes-prf/main/dados/datatran2025.xlsx'
output_filename = 'dados_acidentes.xlsx'

try:
    urllib.request.urlretrieve(github_raw_url, output_filename)
    df = pd.read_excel(output_filename)
    print(f"✅ Dataset carregado: {len(df):,} acidentes")
    print("\n📊 Período:", df['data_inversa'].min(), "até", df['data_inversa'].max())
    print("📊 Estados:", df['uf'].nunique(), "UFs")
except Exception as e:
    print(f"❌ Erro: {e}")
    raise

---

## 🎯 Passo 4: Pré-processamento e Criação da Variável Severo

**O que faremos**: Criar uma variável indicadora de acidentes graves

**Variável `severo`**:
- `severo = 1` → Acidente com mortos OU feridos graves
- `severo = 0` → Acidente sem mortos nem feridos graves

**Processamentos realizados**:
1. Converter campo `horario` para formato de tempo
2. Criar variável binária `severo` usando lógica OR: `(mortos > 0) OU (feridos_graves > 0)`
3. Selecionar apenas colunas relevantes para o modelo
4. Preencher valores nulos em `horario` com meio-dia (12:00) como valor neutro

**Por quê**: A variável `severo` será útil para análises de gravidade, embora nosso target final seja o **número total de acidentes** (não apenas os severos)

**O que esperamos ver**: Distribuição de acidentes severos vs não-severos (proporção)


In [None]:
print("🎯 Criando variável target 'severo'...")

df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S', errors='coerce').dt.time
df['severo'] = ((df['mortos'] > 0) | (df['feridos_graves'] > 0)).astype(int)

colunas_relevantes = ['data_inversa', 'horario', 'uf', 'br', 'km', 'pessoas', 'veiculos', 'severo']
df_limpo = df[colunas_relevantes].copy()
df_limpo['horario'].fillna(pd.to_datetime('12:00:00').time(), inplace=True)

print("✅ Variável 'severo' criada!")
print("\n📊 Distribuição:")
print(df_limpo['severo'].value_counts(normalize=True))

---

## 🔄 Passo 5: Agregação Semanal por Estado

**O que faremos**: Transformar acidentes individuais em séries temporais semanais agrupadas por UF

**Transformação**:
- **De**: Registros individuais de acidentes (uma linha = um acidente)
- **Para**: Dados agregados por semana e estado (uma linha = uma semana em um estado)

**Estatísticas calculadas por semana/UF**:
- `total_acidentes`: Contagem total de acidentes
- `acidentes_severos`: Soma de acidentes graves
- `pessoas_total` e `veiculos_total`: Soma de pessoas e veículos envolvidos
- `pessoas_media` e `veiculos_media`: Média de pessoas e veículos por acidente
- `prop_severos`: Proporção de acidentes severos (acidentes_severos / total_acidentes)

**Por quê agregar semanalmente**:
1. **Reduz esparsidade**: Dados diários teriam muitos zeros (dias sem acidentes)
2. **Captura padrões**: Uma semana é período suficiente para identificar tendências
3. **Aplicação prática**: Gestores planejam operações semanalmente

**O que esperamos ver**: Número de semanas × estados gerado (ex: 52 semanas × 27 UFs = ~1.400 observações)


In [None]:
print("🔄 Agregando dados em séries temporais semanais...")

df_indexed = df_limpo.set_index('data_inversa')

weekly_df = df_indexed.groupby([pd.Grouper(freq='W'), 'uf']).agg(
    total_acidentes=('severo', 'count'),
    acidentes_severos=('severo', 'sum'),
    pessoas_total=('pessoas', 'sum'),
    veiculos_total=('veiculos', 'sum'),
    pessoas_media=('pessoas', 'mean'),
    veiculos_media=('veiculos', 'mean')
).reset_index()

weekly_df['prop_severos'] = np.where(
    weekly_df['total_acidentes'] > 0,
    weekly_df['acidentes_severos'] / weekly_df['total_acidentes'],
    0
)

print(f"✅ Dados agregados: {len(weekly_df):,} semanas × estados")

---

## 🎨 Passo 6: Feature Engineering (Criação de Features)

**O que faremos**: Criar 11 features enriquecidas que ajudarão o modelo LSTM a aprender padrões temporais

**Features criadas**:

**1. Temporais** (3 features):
- `dia_semana`: Dia da semana (0=segunda, 6=domingo)
- `mes`: Mês do ano (1-12)
- `fim_semana`: Indicador binário (1=sábado ou domingo, 0=dia útil)

**2. Sazonalidade** (2 features):
- `sazonalidade_sen` e `sazonalidade_cos`: Representação cíclica do ano usando seno e cosseno
- Por quê sen/cos: Captura a natureza cíclica do tempo (dezembro está próximo de janeiro)

**3. Lags (Histórico)** (3 features):
- `prop_severos_lag1/2/3`: Proporção de acidentes severos nas últimas 1, 2 e 3 semanas
- Por quê: O passado recente é altamente preditivo do futuro próximo

**4. Estatísticas Móveis** (3 features):
- `prop_severos_ma3`: Média móvel das últimas 3 semanas (tendência)
- `prop_severos_tendencia`: Diferença entre semana atual e anterior (crescendo ou caindo?)
- `prop_severos_volatilidade`: Desvio padrão móvel (estabilidade da série)

**Por quê tantas features**: LSTMs aprendem melhor quando têm informação rica sobre o contexto temporal. Cada feature captura um aspecto diferente dos padrões de acidentes.

**O que esperamos ver**: Confirmação de que 11 novas colunas foram adicionadas ao DataFrame


In [None]:
print("🎨 Criando features temporais e de histórico...")

# Temporais
weekly_df['dia_semana'] = weekly_df['data_inversa'].dt.dayofweek
weekly_df['mes'] = weekly_df['data_inversa'].dt.month
weekly_df['fim_semana'] = weekly_df['dia_semana'].isin([5, 6]).astype(int)

# Sazonalidade
weekly_df['sazonalidade_sen'] = np.sin(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)
weekly_df['sazonalidade_cos'] = np.cos(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)

# Lags
for lag in [1, 2, 3]:
    weekly_df[f'prop_severos_lag{lag}'] = weekly_df.groupby('uf')['prop_severos'].shift(lag)

# Estatísticas
weekly_df['prop_severos_ma3'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).mean().reset_index(0, drop=True)
weekly_df['prop_severos_tendencia'] = weekly_df.groupby('uf')['prop_severos'].diff()
weekly_df['prop_severos_volatilidade'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).std().reset_index(0, drop=True)

print("✅ Features criadas!")
print(f"   Total: {len(weekly_df.columns)} colunas")

---

## 🔢 Passo 7: Criação de Sequências Temporais para LSTM

**O que faremos**: Transformar os dados em sequências de 8 semanas para alimentar a LSTM

**Processo**:
1. **Criar features baseadas em contagem de acidentes**:
   - Lags do número total de acidentes (últimas 3 semanas)
   - Média móvel de 3 semanas
   - Tendência (diferença semana a semana)
   - Volatilidade (desvio padrão móvel)

2. **Normalizar os dados** com MinMaxScaler (0-1):
   - Features: Normalização independente
   - Target (total_acidentes): Normalização separada para desnormalizar depois

3. **Criar janelas deslizantes**:
   - **Input (X)**: 8 semanas de histórico
   - **Output (y)**: Número de acidentes na 9ª semana
   - Formato: [amostras, 8 timesteps, n_features]

**Por quê 8 semanas**: 
- Captura aproximadamente 2 meses de histórico
- Balance entre contexto suficiente e não muito distante
- Testado empiricamente em modelos de séries temporais

**O que esperamos ver**: 
- Shape de X: (n_amostras, 8, n_features)
- Shape de y: (n_amostras,)
- Estatísticas do target (mín, máx, média de acidentes por semana)


---

## 🏗️ Passo 8: Construção do Modelo LSTM

**O que faremos**: Construir uma rede neural LSTM profunda para prever número de acidentes

**Arquitetura do Modelo**:

```
Input (8 timesteps, n_features)
   ↓
LSTM 128 unidades (return_sequences=True) → Captura padrões de longo prazo
   ↓
Dropout 0.2 → Previne overfitting
   ↓
LSTM 64 unidades (return_sequences=False) → Refina os padrões
   ↓
Dropout 0.2
   ↓
Dense 32 (ReLU) → Processamento não-linear
   ↓
Dropout 0.2
   ↓
Dense 16 (ReLU) → Camada intermediária
   ↓
Dense 1 (Linear) → Output: número de acidentes
```

**Configurações**:
- **Loss**: MAE (Mean Absolute Error) - erro médio em número de acidentes
- **Optimizer**: Adam (learning_rate=0.001) - adaptativo, converge bem
- **Callbacks**:
  - **EarlyStopping**: Para treinamento se val_loss não melhorar em 20 épocas
  - **ReduceLROnPlateau**: Reduz learning rate se estagnar (patience=10)

**Por quê esta arquitetura**:
- **2 LSTMs**: Camadas profundas capturam padrões complexos
- **Dropout 0.2**: Regularização moderada (previne overfitting sem perder capacidade)
- **Dense layers**: Transformações não-lineares melhoram predições
- **Linear output**: Para regressão (não classificação)

**O que esperamos ver**: Resumo do modelo com número de parâmetros treináveis (~100k parâmetros)


In [None]:
from sklearn.preprocessing import MinMaxScaler

print("🔢 Preparando sequências para LSTM - Previsão de Número de Acidentes...")

# Criar features baseadas em CONTAGEM de acidentes
df_features = weekly_df.set_index('data_inversa').sort_index()

# Features: total de acidentes + características temporais + lags
df_features['total_acidentes_norm'] = df_features['total_acidentes'] / df_features['total_acidentes'].max()

# Lags do número de acidentes (últimas 3 semanas)
for lag in [1, 2, 3]:
    df_features[f'acidentes_lag{lag}'] = df_features.groupby(level=0)['total_acidentes'].shift(lag)

# Média móvel de 3 semanas
df_features['acidentes_ma3'] = df_features['total_acidentes'].rolling(window=3, min_periods=1).mean()

# Tendência (diferença semana atual vs anterior)
df_features['acidentes_tendencia'] = df_features['total_acidentes'].diff()

# Volatilidade (desvio padrão móvel 3 semanas)
df_features['acidentes_volatilidade'] = df_features['total_acidentes'].rolling(window=3, min_periods=1).std()

features_colunas = [
    'total_acidentes', 'pessoas_media', 'veiculos_media', 'fim_semana',
    'sazonalidade_sen', 'sazonalidade_cos',
    'acidentes_lag1', 'acidentes_lag2', 'acidentes_lag3',
    'acidentes_ma3', 'acidentes_tendencia', 'acidentes_volatilidade'
]

df_features = df_features[features_colunas].copy()
df_features = df_features.dropna()

# Target: número total de acidentes
target_values = df_features['total_acidentes'].values

print("\n📊 Estatísticas do target (número total de acidentes por semana):")
print(f"   Min: {target_values.min():.0f} acidentes")
print(f"   Max: {target_values.max():.0f} acidentes")
print(f"   Média: {target_values.mean():.1f} acidentes")
print(f"   Mediana: {np.median(target_values):.0f} acidentes")
print(f"   Desvio padrão: {target_values.std():.1f}")

# Separar features de target
features_sem_target = [col for col in features_colunas if col != 'total_acidentes']
target_col = 'total_acidentes'

# Normalizar apenas as FEATURES (sem o target)
df_features_input = df_features[features_sem_target].copy()
scaler_features = MinMaxScaler(feature_range=(0, 1))
features_scaled = scaler_features.fit_transform(df_features_input.values)

# TARGET também normalizado (para melhor treinamento da rede)
scaler_target = MinMaxScaler(feature_range=(0, 1))
target_scaled = scaler_target.fit_transform(target_values.reshape(-1, 1)).flatten()

n_passos_para_tras = 8
n_features = len(features_sem_target)

X, y = [], []
for i in range(n_passos_para_tras, len(features_scaled)):
    X.append(features_scaled[i-n_passos_para_tras:i, :])
    y.append(target_scaled[i])

X, y = np.array(X), np.array(y)

print(f"\n✅ Sequências criadas para previsão de acidentes!")
print(f"   Shape X: {X.shape}")
print(f"   Shape y: {y.shape}")
print(f"   Range de y normalizado: [{y.min():.3f}, {y.max():.3f}]")

---

## 🎯 Passo 8.5: Divisão Temporal dos Dados

**O que faremos**: Separar os dados em conjuntos de treino e validação

**Divisão**:
- **Treino**: 85% dos dados (mais antigos)
- **Validação**: 15% dos dados (mais recentes)

**IMPORTANTE - Divisão Temporal (SEM shuffle)**:
- ❌ **Não embaralhamos os dados** (diferente de problemas tradicionais de ML)
- ✅ **Respeitamos a ordem cronológica**: treino tem dados passados, validação tem dados futuros
- **Por quê**: Simula o cenário real - queremos prever o futuro usando apenas o passado

**Exemplo**:
```
|---- TREINO (85%) -----|---- VALIDAÇÃO (15%) ----|
Jan ............... Out | Nov .......... Dez
```

**O que esperamos ver**:
- Número de sequências em treino e validação
- Estatísticas do target (mín, máx, média) em cada conjunto
- Confirmação de que os dados foram desnormalizados para exibição (mas permanecerão normalizados para treinamento)


In [None]:
print("🎯 Dividindo dados temporalmente (respeitando ordem)...")

# Dividir dados temporalmente (85% treino, 15% validação)
split_index = int(len(X) * 0.85)
X_train, X_val = X[:split_index], X[split_index:]
y_train, y_val = y[:split_index], y[split_index:]

# Desnormalizar para mostrar estatísticas reais
y_train_real = scaler_target.inverse_transform(y_train.reshape(-1, 1)).flatten()
y_val_real = scaler_target.inverse_transform(y_val.reshape(-1, 1)).flatten()

print(f"\n📊 Divisão temporal:")
print(f"   Treino: {len(X_train)} sequências ({len(X_train)/len(X)*100:.1f}%)")
print(f"   Validação: {len(X_val)} sequências ({len(X_val)/len(X)*100:.1f}%)")

print(f"\n📊 Estatísticas de y_train (número de acidentes):")
print(f"   Min: {y_train_real.min():.0f} acidentes")
print(f"   Max: {y_train_real.max():.0f} acidentes")
print(f"   Média: {y_train_real.mean():.1f} acidentes/semana")
print(f"   Desvio: {y_train_real.std():.1f}")

print(f"\n📊 Estatísticas de y_val (número de acidentes):")
print(f"   Min: {y_val_real.min():.0f} acidentes")
print(f"   Max: {y_val_real.max():.0f} acidentes")
print(f"   Média: {y_val_real.mean():.1f} acidentes/semana")
print(f"   Desvio: {y_val_real.std():.1f}")

print("\n✅ Dados preparados para previsão de acidentes!")

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.optimizers import Adam

print("🏗️  Construindo modelo LSTM para Previsão de Acidentes...")

# MODELO LSTM OTIMIZADO PARA SÉRIES TEMPORAIS
model = Sequential([
    LSTM(units=128, return_sequences=True, input_shape=(n_passos_para_tras, n_features)),
    Dropout(0.2),
    LSTM(units=64, return_sequences=False),
    Dropout(0.2),
    Dense(units=32, activation='relu'),
    Dropout(0.2),
    Dense(units=16, activation='relu'),
    Dense(units=1, activation='linear')  # Output: valor contínuo
])

# OPTIMIZER
optimizer = Adam(learning_rate=0.001)
model.compile(
    optimizer=optimizer,
    loss='mean_absolute_error',  # MAE: erro médio em número de acidentes
    metrics=['mae', 'mse']
)

print("✅ Modelo construído!")
print("   Arquitetura: LSTM 128 → LSTM 64 → Dense 32 → Dense 16 → Linear 1")
print("   Dropout: 0.2 (em todas as camadas)")
print("   Loss: MAE (Mean Absolute Error)")
print("   Métricas: MAE, MSE")
print("   Learning rate: 0.001")
model.summary()

# CALLBACKS
early_stop = EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True, verbose=1)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=10, min_lr=0.00001, verbose=1)

print("\n✅ Callbacks configurados!")
print("   Early Stopping: patience=20")
print("   Reduce LR: patience=10")

---

## 🚀 Passo 9: Treinamento do Modelo

**O que faremos**: Treinar a rede neural LSTM por até 100 épocas

**Configurações de Treinamento**:
- **Épocas**: Máximo de 100 (mas pode parar antes com EarlyStopping)
- **Batch Size**: 16 sequências por vez
- **Validation**: Avaliação a cada época no conjunto de validação

**Callbacks Ativos**:
1. **EarlyStopping**: Para o treinamento se `val_loss` não melhorar em 20 épocas consecutivas
   - Evita overfitting
   - Restaura os pesos da melhor época automaticamente

2. **ReduceLROnPlateau**: Reduz learning rate pela metade se val_loss estagnar por 10 épocas
   - Ajuda o modelo a escapar de platôs
   - Permite ajuste fino quando próximo do ótimo

**O que esperamos ver**:
- **Progresso por época**: loss, mae, mse (treino) + val_loss, val_mae, val_mse (validação)
- **Curvas convergindo**: loss de treino e validação diminuindo juntas (sem overfitting)
- **Possível early stopping**: Treinamento pode parar antes de 100 épocas se modelo convergir

⏱️ **Tempo estimado**: 10-20 minutos (depende do hardware - GPU é muito mais rápido que CPU)


In [None]:
print("\n" + "="*70)
print("🚀 TREINANDO MODELO LSTM")
print("="*70)
print("\n📊 Prevendo número total de acidentes por semana")
print("⏱️  Aguarde 10-20 minutos...\n")

history = model.fit(
    X_train, y_train,
    epochs=100,
    batch_size=16,
    validation_data=(X_val, y_val),
    callbacks=[early_stop, reduce_lr],
    verbose=1
)

print("\n" + "="*70)
print("✅ TREINAMENTO CONCLUÍDO!")
print("="*70)

---

## 📊 Passo 10: Avaliação e Métricas do Modelo

**O que faremos**: Avaliar o desempenho do modelo usando múltiplas métricas de regressão

**Métricas Calculadas**:

1. **MAE (Mean Absolute Error)**:
   - Erro médio absoluto em número de acidentes
   - Ex: MAE=10 significa que, em média, erramos por ±10 acidentes
   - **Mais interpretável**: Está na mesma unidade do target

2. **RMSE (Root Mean Squared Error)**:
   - Raiz do erro quadrático médio
   - Penaliza mais erros grandes (outliers)
   - Útil para identificar se há predições muito ruins

3. **R² Score (Coeficiente de Determinação)**:
   - Indica % da variância explicada pelo modelo
   - R²=1 → perfeito, R²=0 → equivalente a prever média, R²<0 → pior que baseline
   - **Meta**: R² > 0.70 é considerado bom para séries temporais

4. **MAPE (Mean Absolute Percentage Error)**:
   - Erro percentual médio
   - Útil para comparar com outros problemas de escala diferente

**Baseline para Comparação**:
- **Estratégia ingênua**: Sempre prever a média histórica (55.5 acidentes/semana)
- Nosso modelo DEVE ser melhor que isso!

**O que esperamos ver**:
- MAE do modelo << MAE do baseline
- R² do modelo > 0.70
- Distribuição dos erros (mín, máx, mediana, percentil 75)
- Percentual de predições com erro aceitável (< 10 acidentes)


---

## 📈 Passo 11: Visualizações dos Resultados

**O que faremos**: Criar 6 gráficos para analisar visualmente o desempenho do modelo

**Gráficos Gerados**:

1. **Curvas de Aprendizagem - MAE** (treino vs validação):
   - Mostra como o erro diminui ao longo das épocas
   - Verifica se há overfitting (treino muito melhor que validação)
   - **Ideal**: Curvas próximas e convergindo juntas

2. **Curvas de Aprendizagem - MSE** (treino vs validação):
   - Similar ao MAE, mas penaliza erros grandes
   - Ajuda a identificar se há outliers problemáticos

3. **Scatter Plot: Real vs Previsto**:
   - Cada ponto = uma predição
   - **Linha vermelha = predição perfeita**
   - Pontos próximos da linha = boas predições
   - Dispersão grande = modelo impreciso

4. **Série Temporal: Real vs Previsto**:
   - Mostra as previsões ao longo do tempo
   - Verifica se o modelo acompanha tendências e variações
   - **Ideal**: Curvas sobrepostas ou muito próximas

5. **Distribuição dos Erros (Resíduos)**:
   - Histograma dos erros (real - previsto)
   - **Ideal**: Centrado em zero, simétrico, sem caudas longas
   - Identifica viés (se erros são sempre positivos ou negativos)

6. **Resíduos vs Valores Previstos**:
   - Verifica se há padrão nos erros
   - **Ideal**: Pontos aleatórios em torno de zero (linha vermelha)
   - Padrão = modelo não capturou alguma característica dos dados

**O que esperamos ver**: Gráficos mostrando que o modelo aprendeu bem, sem overfitting, com predições próximas dos valores reais


In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

print("📊 Avaliando modelo - Previsão de Acidentes...")

# Predições (normalizadas)
y_pred_norm = model.predict(X_val, verbose=0).flatten()

# Desnormalizar predições e valores reais
y_pred = scaler_target.inverse_transform(y_pred_norm.reshape(-1, 1)).flatten()
y_val_real = scaler_target.inverse_transform(y_val.reshape(-1, 1)).flatten()
y_train_real = scaler_target.inverse_transform(y_train.reshape(-1, 1)).flatten()

# Métricas em escala real (número de acidentes)
mae = mean_absolute_error(y_val_real, y_pred)
mse = mean_squared_error(y_val_real, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val_real, y_pred)

# MAPE (Mean Absolute Percentage Error)
mape = np.mean(np.abs((y_val_real - y_pred) / (y_val_real + 1))) * 100  # +1 para evitar divisão por zero

print("\n" + "="*70)
print("🎯 RESULTADOS FINAIS - Previsão de Número de Acidentes")
print("="*70)

print(f"\n📊 Métricas de Erro:")
print(f"   MAE (Mean Absolute Error): {mae:.2f} acidentes")
print(f"   RMSE (Root Mean Squared Error): {rmse:.2f} acidentes")
print(f"   MAPE (Mean Absolute Percentage Error): {mape:.2f}%")
print(f"   R² Score: {r2:.4f}")

# Baseline: sempre prever a média
baseline_pred = np.full_like(y_val_real, y_train_real.mean())
baseline_mae = mean_absolute_error(y_val_real, baseline_pred)
baseline_r2 = r2_score(y_val_real, baseline_pred)

print(f"\n📊 Comparação com Baseline (sempre prever média de {y_train_real.mean():.1f} acidentes):")
print(f"   Baseline MAE: {baseline_mae:.2f} acidentes")
print(f"   Baseline R²: {baseline_r2:.4f}")
print(f"   Nosso modelo MAE: {mae:.2f} acidentes ✅")
print(f"   Nosso modelo R²: {r2:.4f} ✅")
print(f"   Melhoria: {((baseline_mae - mae)/baseline_mae*100):.1f}%")

# Estatísticas dos erros
errors = np.abs(y_val_real - y_pred)
print(f"\n📊 Distribuição dos Erros Absolutos:")
print(f"   Mínimo: {errors.min():.2f} acidentes")
print(f"   Máximo: {errors.max():.2f} acidentes")
print(f"   Mediana: {np.median(errors):.2f} acidentes")
print(f"   75º percentil: {np.percentile(errors, 75):.2f} acidentes")

# Percentual de predições com erro < 10 acidentes
erro_threshold = 10
pct_boas = (errors < erro_threshold).sum() / len(errors) * 100
print(f"\n📊 Qualidade das Predições:")
print(f"   {pct_boas:.1f}% das predições têm erro < {erro_threshold} acidentes")

print("\n" + "="*70)

---

## 💾 Passo 12: Salvamento do Modelo Treinado

**O que faremos**: Salvar o modelo treinado para uso futuro

**Formato**: `.keras` (formato nativo do TensorFlow/Keras 3.x)

**O que é salvo**:
- **Arquitetura** completa do modelo (camadas, conexões)
- **Pesos treinados** (valores dos parâmetros aprendidos)
- **Configuração do optimizer** (Adam, learning rate)
- **Função de loss** (MAE)

**Por quê salvar**:
- **Reutilização**: Não precisa retreinar o modelo toda vez
- **Deploy**: Pode ser carregado em produção para fazer previsões
- **Compartilhamento**: Outros podem usar o modelo treinado

**Como carregar depois**:
```python
from tensorflow.keras.models import load_model
modelo = load_model('modelo_lstm_classificacao_risco.keras')
```

**O que esperamos ver**: Confirmação de que o arquivo .keras foi criado com sucesso


In [None]:
plt.figure(figsize=(16, 12))

# 1. Loss (MAE)
plt.subplot(3, 2, 1)
plt.plot(history.history['loss'], label='Treino', color='blue', linewidth=2)
plt.plot(history.history['val_loss'], label='Validação', color='red', linewidth=2)
plt.title('Curvas de Aprendizagem - MAE', fontsize=14, fontweight='bold')
plt.xlabel('Épocas')
plt.ylabel('MAE')
plt.legend()
plt.grid(True, alpha=0.3)

# 2. MSE
plt.subplot(3, 2, 2)
plt.plot(history.history['mse'], label='Treino', color='blue', linewidth=2)
plt.plot(history.history['val_mse'], label='Validação', color='red', linewidth=2)
plt.title('Curvas de Aprendizagem - MSE', fontsize=14, fontweight='bold')
plt.xlabel('Épocas')
plt.ylabel('MSE')
plt.legend()
plt.grid(True, alpha=0.3)

# 3. Real vs Previsto (Scatter Plot)
plt.subplot(3, 2, 3)
plt.scatter(y_val_real, y_pred, alpha=0.5, s=30)
plt.plot([y_val_real.min(), y_val_real.max()], [y_val_real.min(), y_val_real.max()], 'r--', lw=2, label='Linha Perfeita')
plt.title('Real vs Previsto', fontsize=14, fontweight='bold')
plt.xlabel('Número Real de Acidentes')
plt.ylabel('Número Previsto de Acidentes')
plt.legend()
plt.grid(True, alpha=0.3)

# 4. Série Temporal: Real vs Previsto
plt.subplot(3, 2, 4)
plt.plot(y_val_real, label='Real', linewidth=2, alpha=0.7, marker='o', markersize=4)
plt.plot(y_pred, label='Previsto', linewidth=2, alpha=0.7, linestyle='--', marker='x', markersize=4)
plt.title('Comparação Temporal', fontsize=14, fontweight='bold')
plt.xlabel('Amostras')
plt.ylabel('Número de Acidentes')
plt.legend()
plt.grid(True, alpha=0.3)

# 5. Distribuição dos Erros
plt.subplot(3, 2, 5)
errors = y_val_real - y_pred
plt.hist(errors, bins=30, edgecolor='black', alpha=0.7, color='steelblue')
plt.axvline(x=0, color='r', linestyle='--', linewidth=2, label='Erro Zero')
plt.title('Distribuição dos Erros (Resíduos)', fontsize=14, fontweight='bold')
plt.xlabel('Erro (Real - Previsto) [acidentes]')
plt.ylabel('Frequência')
plt.legend()
plt.grid(True, alpha=0.3)

# 6. Resíduos vs Valores Previstos
plt.subplot(3, 2, 6)
plt.scatter(y_pred, errors, alpha=0.5, s=30, color='coral')
plt.axhline(y=0, color='r', linestyle='--', linewidth=2)
plt.title('Resíduos vs Valores Previstos', fontsize=14, fontweight='bold')
plt.xlabel('Número Previsto de Acidentes')
plt.ylabel('Resíduo (Real - Previsto) [acidentes]')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n✅ Visualizações geradas!")

In [None]:
model_filename = 'modelo_lstm_classificacao_risco.keras'
model.save(model_filename)
print(f"💾 Modelo salvo: '{model_filename}'")
print("\n✅ Projeto concluído!")

---

## 📋 Relatório de Conclusão - Projeto LSTM Previsão de Acidentes

### **Resumo Executivo**

**Objetivo Alcançado**: Desenvolvemos com sucesso uma rede neural LSTM capaz de prever o **número total de acidentes** em rodovias federais brasileiras com base em dados históricos da PRF. O modelo demonstra alta capacidade de captura de padrões temporais, alcançando **R² = 0.81** (81% da variância explicada) e **MAE = 11.47 acidentes** por semana.

**Equipe Big 5**:
- Lucca Phelipe Masini - RM 564121
- Luiz Henrique Poss - RM 562177
- Luis Fernando de Oliveira Salgado - RM 561401
- Igor Paixão Sarak - RM 563726
- Bernardo Braga Perobeli - RM 562468

---

### **Metodologia Aplicada**

1. **Análise Exploratória e Pré-processamento**:
   - Carregamento de 22.020 registros de acidentes (2025)
   - Criação da variável binária `severo` (mortos ou feridos graves)
   - Agregação semanal por estado (n= ~1.000 observações)

2. **Feature Engineering**:
   - **12 Features Enriquecidas**:
     - Temporais: `dia_semana`, `mes`, `fim_semana`
     - Sazonalidade: `sazonalidade_sen`, `sazonalidade_cos`
     - Histórico: Lags (1-3 semanas), média móvel (MA3)
     - Estatísticas: Tendência, volatilidade
   - **Sequências Temporais**: Janelas de 8 semanas para prever a 9ª
   - **Normalização**: MinMaxScaler (0-1) para features e target

3. **Modelagem com LSTM**:
   - **Arquitetura**: 2 LSTMs (128→64) + 2 Denses (32→16) + Linear(1)
   - **Hiperparâmetros**: Adam(lr=0.001), MAE loss, batch=16
   - **Callbacks**: EarlyStopping(patience=20), ReduceLROnPlateau(patience=10)
   - **Divisão**: 85% treino, 15% validação (sem shuffle temporal)

---

### **Resultados e Métricas**

**Desempenho do Modelo**:
- **R² Score**: 0.8114 (81.1% da variância explicada)
- **MAE**: 11.47 acidentes (erro médio por semana)
- **RMSE**: 22.09 acidentes
- **MAPE**: 34.60%
- **Melhoria vs Baseline**: 70.9% (baseline MAE=39.36)

**Qualidade das Predições**:
- 70.2% das predições têm erro < 10 acidentes
- Mediana do erro: 5.91 acidentes
- 75º percentil: 11.16 acidentes

**Baseline Comparativo**:
- Prever sempre a média (55.5 acidentes/semana) resulta em MAE=39.36
- Nosso modelo reduz o erro em **70.9%**, demonstrando aprendizado real

---

### **Análise dos Resultados**

#### **Pontos Fortes** ✅
1. **Alta Explicabilidade**: R²=0.81 indica que o modelo captura 81% dos padrões temporais
2. **Precisão Prática**: Erro médio de 11 acidentes em 55 é **20% de erro relativo** - aceitável para planejamento
3. **Consistência**: 70% das predições com erro <10 acidentes
4. **Sem Overfitting**: Curvas de treino/validação convergem juntas

#### **Limitações Identificadas** ⚠️
1. **Outliers Extremos**: Máximo erro=113 acidentes (picos anômalos: feriados, eventos)
2. **Fatores Externos**: Ausência de clima, feriados e tráfego limita precisão em extremos
3. **Janela Fixa**: 8 semanas pode não capturar ciclos longos (mensal, sazonal)

#### **Insights Científicos** 🔬
- **Processo Iterativo**: Testamos classificação → regressão de proporção → regressão de volume
- **Descoberta Chave**: Volume total é mais previsível que proporção de severidade
- **Validação Temporal**: Divisão cronológica respeita ordem real dos eventos

---

### **Aplicações Práticas**

#### **1. Seguradoras (Case Sompo)** 💰
- **Precificação Dinâmica**: Ajustar prêmios baseado em volume previsto
- **Gestão de Risco**: Identificar semanas de alta exposição
- **Campanhas**: Descontos em períodos de baixo risco

#### **2. Gestores de Rodovias** 🚑
- **Alocação de Recursos**: Patrulhas proporcionais ao volume esperado
- **Planejamento Operacional**: Ambulâncias e equipes de resgate antecipadas
- **Campanhas Preventivas**: Intensificar conscientização em semanas críticas

#### **3. Planejamento Público** 📊
- **Políticas de Trânsito**: Estratégias baseadas em tendências semanais
- **Análise de Tendências**: Monitorar evolução do risco ao longo do tempo
- **Integração com Sistemas**: API para alertas automáticos

---

### **Próximos Passos e Recomendações**

#### **Curto Prazo (1-3 meses)** 🚀
1. **Integração de Dados Extras**:
   - APIs climáticas (OpenWeather)
   - Calendário de feriados nacionais
   - Dados de tráfego (volume veicular)
2. **Tratamento de Outliers**: Detecção e modelagem separada de anomalias
3. **Otimização**: Testar janelas variáveis (4, 12, 16 semanas)

#### **Médio Prazo (3-6 meses)** 🛠️
1. **Modelos Avançados**:
   - Attention mechanisms para foco em padrões importantes
   - Ensemble: LSTM + XGBoost para robustez
2. **Validação Robusta**: Walk-forward validation temporal
3. **Monitoramento**: Métricas de drift de dados e retraining automático

#### **Longo Prazo (6+ meses)** 🌟
1. **Deploy em Produção**:
   - API REST (FastAPI) para previsões semanais
   - Dashboard interativo (Streamlit/Dash)
   - Alertas automáticos (email/SMS para stakeholders)
2. **Expansão Geográfica**: Incluir dados estaduais e municipais
3. **Integração IoT**: Sensores de tráfego em tempo real

---

### **Conclusão**

Este projeto demonstra a **potência das LSTMs para previsão de séries temporais reais**, alcançando resultados **excelentes** (R²=0.81, 70% melhoria vs baseline) com dados públicos limitados. A abordagem iterativa - testando classificação, regressão de proporção e finalmente volume total - reflete **metodologia científica rigorosa**.

**Impacto Esperado**: O modelo pode reduzir significativamente os custos operacionais de seguradoras e gestores de rodovias, salvando vidas através de alocação inteligente de recursos. Com as melhorias propostas, o sistema pode evoluir para uma solução de produção robusta.

**Status do Projeto**: ✅ **100% Funcional e Reprodutível**  
**Execução**: 1-clique no Google Colab  
**Próximo**: Gravação do vídeo de apresentação (5 minutos)

---

**Desenvolvido com ❤️ pela Equipe Big 5 - FIAP 2025**  
**Data**: 26 de Outubro de 2025
