# üöó Sprint Challenge 4 ‚Äì Previs√£o de Acidentes com LSTMs
## Case Sompo: Antecipando Padr√µes de Risco em Rodovias Brasileiras

---

**Equipe Big 5**
- Lucca Phelipe Masini - RM 564121
- Luiz Henrique Poss - RM 562177
- Luis Fernando de Oliveira Salgado - RM 561401
- Igor Paix√£o Sarak - RM 563726
- Bernardo Braga Perobeli - RM 562468

---

## üéØ Target Escolhido: Regress√£o - Propor√ß√£o de Acidentes Severos

**Prevemos o valor cont√≠nuo** da propor√ß√£o de acidentes severos (com mortos ou feridos graves) em cada semana por estado.

- **Range**: 0% a 100% de acidentes severos
- **Interpreta√ß√£o**: Quanto maior o valor, maior o risco da semana

### Justificativa

Optamos por **regress√£o** em vez de classifica√ß√£o porque:

1. ‚úÖ **Mais adequado aos dados** - Features temporais n√£o capturam fatores cr√≠ticos para classifica√ß√£o (clima, eventos)
2. ‚úÖ **Informa√ß√£o mais rica** - Valor cont√≠nuo (ex: 28% vs 32%) √© mais √∫til que categoria bin√°ria
3. ‚úÖ **M√©tricas claras** - MAE e RMSE mostram erro m√©dio real em pontos percentuais
4. ‚úÖ **Honestidade cient√≠fica** - Mostra o que o modelo CONSEGUE fazer, n√£o for√ßa classifica√ß√£o artificial

---

## üìö Passo 1: Instala√ß√£o e Importa√ß√£o de Bibliotecas

Primeiro, vamos instalar e importar todas as bibliotecas necess√°rias para o projeto.


In [None]:
!pip install openpyxl --quiet
print("‚úÖ Bibliotecas instaladas!")

---

## üì• Passo 2: Carregamento dos Dados

Carregamos os dados diretamente do GitHub para garantir reprodutibilidade total.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import urllib.request
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("üìö Bibliotecas importadas!")

---

## üéØ Passo 3: Pr√©-processamento e Cria√ß√£o da Vari√°vel Target

Criamos a vari√°vel bin√°ria `severo` que identifica acidentes com mortos ou feridos graves.


In [None]:
print("üì• Baixando dataset da PRF do GitHub...")

github_raw_url = 'https://raw.githubusercontent.com/9luis7/lstm-acidentes-prf/main/dados/datatran2025.xlsx'
output_filename = 'dados_acidentes.xlsx'

try:
    urllib.request.urlretrieve(github_raw_url, output_filename)
    df = pd.read_excel(output_filename)
    print(f"‚úÖ Dataset carregado: {len(df):,} acidentes")
    print("\nüìä Per√≠odo:", df['data_inversa'].min(), "at√©", df['data_inversa'].max())
    print("üìä Estados:", df['uf'].nunique(), "UFs")
except Exception as e:
    print(f"‚ùå Erro: {e}")
    raise

---

## üîÑ Passo 4: Agrega√ß√£o Semanal

Transformamos acidentes individuais em s√©ries temporais semanais por estado.


In [None]:
print("üéØ Criando vari√°vel target 'severo'...")

df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S', errors='coerce').dt.time
df['severo'] = ((df['mortos'] > 0) | (df['feridos_graves'] > 0)).astype(int)

colunas_relevantes = ['data_inversa', 'horario', 'uf', 'br', 'km', 'pessoas', 'veiculos', 'severo']
df_limpo = df[colunas_relevantes].copy()
df_limpo['horario'].fillna(pd.to_datetime('12:00:00').time(), inplace=True)

print("‚úÖ Vari√°vel 'severo' criada!")
print("\nüìä Distribui√ß√£o:")
print(df_limpo['severo'].value_counts(normalize=True))

---

## üé® Passo 5: Feature Engineering

Criamos 12 features enriquecidas: temporais, sazonalidade e hist√≥rico (lags).


In [None]:
print("üîÑ Agregando dados em s√©ries temporais semanais...")

df_indexed = df_limpo.set_index('data_inversa')

weekly_df = df_indexed.groupby([pd.Grouper(freq='W'), 'uf']).agg(
    total_acidentes=('severo', 'count'),
    acidentes_severos=('severo', 'sum'),
    pessoas_total=('pessoas', 'sum'),
    veiculos_total=('veiculos', 'sum'),
    pessoas_media=('pessoas', 'mean'),
    veiculos_media=('veiculos', 'mean')
).reset_index()

weekly_df['prop_severos'] = np.where(
    weekly_df['total_acidentes'] > 0,
    weekly_df['acidentes_severos'] / weekly_df['total_acidentes'],
    0
)

print(f"‚úÖ Dados agregados: {len(weekly_df):,} semanas √ó estados")

---

## üî¢ Passo 6: Cria√ß√£o de Sequ√™ncias Temporais

Criamos janelas de 8 semanas para prever a semana seguinte. Normalizamos os dados com MinMaxScaler.


In [None]:
print("üé® Criando features temporais e de hist√≥rico...")

# Temporais
weekly_df['dia_semana'] = weekly_df['data_inversa'].dt.dayofweek
weekly_df['mes'] = weekly_df['data_inversa'].dt.month
weekly_df['fim_semana'] = weekly_df['dia_semana'].isin([5, 6]).astype(int)

# Sazonalidade
weekly_df['sazonalidade_sen'] = np.sin(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)
weekly_df['sazonalidade_cos'] = np.cos(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)

# Lags
for lag in [1, 2, 3]:
    weekly_df[f'prop_severos_lag{lag}'] = weekly_df.groupby('uf')['prop_severos'].shift(lag)

# Estat√≠sticas
weekly_df['prop_severos_ma3'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).mean().reset_index(0, drop=True)
weekly_df['prop_severos_tendencia'] = weekly_df.groupby('uf')['prop_severos'].diff()
weekly_df['prop_severos_volatilidade'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).std().reset_index(0, drop=True)

print("‚úÖ Features criadas!")
print(f"   Total: {len(weekly_df.columns)} colunas")

---

## üéØ Passo 7: Prepara√ß√£o para Regress√£o

Preparamos os dados para prever valores cont√≠nuos da propor√ß√£o de acidentes severos.


---

## üèóÔ∏è Passo 8: Constru√ß√£o do Modelo LSTM para Regress√£o

**Arquitetura para Regress√£o:**
- LSTM (64 neur√¥nios) - captura padr√µes temporais
- Dense (32 ‚Üí 16 neur√¥nios) - processamento n√£o-linear
- Output (1 neur√¥nio, linear) - valor cont√≠nuo
- Loss: MAE (Mean Absolute Error)
- M√©tricas: MAE e MSE


In [None]:
from sklearn.preprocessing import MinMaxScaler

print("üî¢ Preparando sequ√™ncias para LSTM (REGRESS√ÉO)...")

features_colunas = [
    'prop_severos', 'pessoas_media', 'veiculos_media', 'fim_semana',
    'sazonalidade_sen', 'sazonalidade_cos',
    'prop_severos_lag1', 'prop_severos_lag2', 'prop_severos_lag3',
    'prop_severos_ma3', 'prop_severos_tendencia', 'prop_severos_volatilidade'
]

df_features = weekly_df.set_index('data_inversa').sort_index()
df_features = df_features[features_colunas].copy()
df_features = df_features.dropna()

# Target: propor√ß√£o de acidentes severos (valores cont√≠nuos 0-1)
target_values = df_features['prop_severos'].values

print("\nüìä Estat√≠sticas do target (propor√ß√£o de acidentes severos):")
print(f"   Min: {target_values.min():.3f} ({target_values.min()*100:.1f}%)")
print(f"   Max: {target_values.max():.3f} ({target_values.max()*100:.1f}%)")
print(f"   M√©dia: {target_values.mean():.3f} ({target_values.mean()*100:.1f}%)")
print(f"   Mediana: {np.median(target_values):.3f} ({np.median(target_values)*100:.1f}%)")
print(f"   Desvio padr√£o: {target_values.std():.3f}")

# Separar features de target
features_sem_target = [col for col in features_colunas if col != 'prop_severos']
target_col = 'prop_severos'

# Normalizar apenas as FEATURES (sem o target)
df_features_input = df_features[features_sem_target].copy()
scaler_features = MinMaxScaler(feature_range=(0, 1))
features_scaled = scaler_features.fit_transform(df_features_input.values)

# TARGET permanece em escala original (0-1 j√° √© uma escala natural)
target_values = df_features[target_col].values

n_passos_para_tras = 8
n_features = len(features_sem_target)

X, y = [], []
for i in range(n_passos_para_tras, len(features_scaled)):
    X.append(features_scaled[i-n_passos_para_tras:i, :])
    y.append(target_values[i])

X, y = np.array(X), np.array(y)

print(f"\n‚úÖ Sequ√™ncias criadas para regress√£o!")
print(f"   Shape X: {X.shape}")
print(f"   Shape y: {y.shape}")
print(f"   Range de y: [{y.min():.3f}, {y.max():.3f}]")

In [None]:
print("üéØ Preparando dados para REGRESS√ÉO...")

# Dividir dados temporalmente (85% treino, 15% valida√ß√£o)
split_index = int(len(X) * 0.85)
X_train, X_val = X[:split_index], X[split_index:]
y_train, y_val = y[:split_index], y[split_index:]

print(f"\nüìä Divis√£o temporal:")
print(f"   Treino: {len(X_train)} sequ√™ncias ({len(X_train)/len(X)*100:.1f}%)")
print(f"   Valida√ß√£o: {len(X_val)} sequ√™ncias ({len(X_val)/len(X)*100:.1f}%)")

print(f"\nüìä Estat√≠sticas de y_train:")
print(f"   Min: {y_train.min():.3f} ({y_train.min()*100:.1f}%)")
print(f"   Max: {y_train.max():.3f} ({y_train.max()*100:.1f}%)")
print(f"   M√©dia: {y_train.mean():.3f} ({y_train.mean()*100:.1f}%)")
print(f"   Desvio: {y_train.std():.3f}")

print(f"\nüìä Estat√≠sticas de y_val:")
print(f"   Min: {y_val.min():.3f} ({y_val.min()*100:.1f}%)")
print(f"   Max: {y_val.max():.3f} ({y_val.max()*100:.1f}%)")
print(f"   M√©dia: {y_val.mean():.3f} ({y_val.mean()*100:.1f}%)")
print(f"   Desvio: {y_val.std():.3f}")

print("\n‚úÖ Dados preparados para regress√£o!")

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.optimizers import Adam

print("üèóÔ∏è  Construindo modelo LSTM para REGRESS√ÉO...")

# MODELO LSTM PARA REGRESS√ÉO
model = Sequential([
    LSTM(units=64, return_sequences=False, input_shape=(n_passos_para_tras, n_features)),
    Dropout(0.3),
    Dense(units=32, activation='relu'),
    Dropout(0.2),
    Dense(units=16, activation='relu'),
    Dense(units=1, activation='linear')  # REGRESS√ÉO: 1 neur√¥nio, ativa√ß√£o linear
])

# OPTIMIZER
optimizer = Adam(learning_rate=0.001)
model.compile(
    optimizer=optimizer,
    loss='mean_absolute_error',  # MAE: erro m√©dio absoluto em pontos percentuais
    metrics=['mae', 'mse']
)

print("‚úÖ Modelo constru√≠do para REGRESS√ÉO!")
print("   Arquitetura: LSTM 64 ‚Üí Dense 32 ‚Üí Dense 16 ‚Üí Linear 1")
print("   Dropout: 0.3 e 0.2")
print("   Loss: MAE (Mean Absolute Error)")
print("   M√©tricas: MAE e MSE")
print("   Learning rate: 0.001")
model.summary()

# CALLBACKS
early_stop = EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True, verbose=1)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=10, min_lr=0.00001, verbose=1)

print("\n‚úÖ Callbacks configurados!")
print("   Early Stopping: patience=20 (monitor val_loss/MAE)")
print("   Reduce LR: patience=10")

---

## üöÄ Passo 9: Treinamento do Modelo

Treinamos o modelo com class weights para corrigir desbalanceamento. Monitoramos val_loss para evitar overfitting.


In [None]:
print("\n" + "="*70)
print("üöÄ TREINANDO MODELO LSTM DE REGRESS√ÉO")
print("="*70)
print("\nüìä Prevendo propor√ß√£o cont√≠nua de acidentes severos")
print("‚è±Ô∏è  Aguarde 10-20 minutos...\n")

history = model.fit(
    X_train, y_train,
    epochs=100,
    batch_size=16,
    validation_data=(X_val, y_val),
    callbacks=[early_stop, reduce_lr],
    verbose=1
)

print("\n" + "="*70)
print("‚úÖ TREINAMENTO CONCLU√çDO!")
print("="*70)

---

## üîß Abordagem de Modelagem: Regress√£o

### Por que Regress√£o?

Ap√≥s testes com classifica√ß√£o (4 classes e bin√°ria), identificamos que:

‚ùå **Classifica√ß√£o n√£o funcionou** - Modelo sempre previa uma √∫nica classe  
‚ùå **Features limitadas** - Dados temporais n√£o capturam fatores cr√≠ticos (clima, eventos)  
‚úÖ **Regress√£o √© mais adequada** - Valores cont√≠nuos aproveitam melhor informa√ß√£o dispon√≠vel

### Vantagens da Abordagem

1. **Informa√ß√£o rica** - Prever 28% vs 32% √© mais √∫til que "risco baixo" vs "alto"
2. **M√©tricas claras** - MAE mostra erro m√©dio em pontos percentuais
3. **Honestidade cient√≠fica** - Mostra capacidade real do modelo
4. **Aplica√ß√£o pr√°tica** - Gestores podem definir pr√≥prios thresholds de alerta

### Arquitetura

- **Input**: Sequ√™ncias de 8 semanas √ó 11 features
- **LSTM**: 64 neur√¥nios (captura padr√µes temporais)
- **Dense**: 32 ‚Üí 16 neur√¥nios (processamento n√£o-linear)
- **Output**: 1 neur√¥nio linear (valor cont√≠nuo 0-1)
- **Loss**: MAE (Mean Absolute Error)

---



---

## üìä Passo 10: Avalia√ß√£o e M√©tricas

Avaliamos o modelo com MAE, RMSE e R¬≤. Comparamos com baseline (sempre prever a m√©dia).


---

## üìà Passo 11: Visualiza√ß√µes

Geramos 6 gr√°ficos: curvas de aprendizagem (MAE/MSE), scatter plot real vs previsto, s√©rie temporal, distribui√ß√£o de erros e an√°lise de res√≠duos.


In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

print("üìä Avaliando modelo de REGRESS√ÉO...")

# Predi√ß√µes
y_pred = model.predict(X_val, verbose=0).flatten()

# M√©tricas
mae = mean_absolute_error(y_val, y_pred)
mse = mean_squared_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print("\n" + "="*70)
print("üéØ RESULTADOS FINAIS - REGRESS√ÉO")
print("="*70)

print(f"\nüìä M√©tricas de Erro:")
print(f"   MAE (Mean Absolute Error): {mae:.4f} ({mae*100:.2f} pontos percentuais)")
print(f"   RMSE (Root Mean Squared Error): {rmse:.4f} ({rmse*100:.2f} pontos percentuais)")
print(f"   R¬≤ Score: {r2:.4f}")

# Baseline: sempre prever a m√©dia
baseline_pred = np.full_like(y_val, y_train.mean())
baseline_mae = mean_absolute_error(y_val, baseline_pred)

print(f"\nüìä Compara√ß√£o com Baseline (sempre prever m√©dia):")
print(f"   Baseline MAE: {baseline_mae:.4f} ({baseline_mae*100:.2f}pp)")
print(f"   Nosso modelo MAE: {mae:.4f} ({mae*100:.2f}pp)")
print(f"   Melhoria: {((baseline_mae - mae)/baseline_mae*100):.1f}%")

# Estat√≠sticas dos erros
errors = np.abs(y_val - y_pred)
print(f"\nüìä Distribui√ß√£o dos Erros Absolutos:")
print(f"   M√≠nimo: {errors.min():.4f} ({errors.min()*100:.2f}pp)")
print(f"   M√°ximo: {errors.max():.4f} ({errors.max()*100:.2f}pp)")
print(f"   Mediana: {np.median(errors):.4f} ({np.median(errors)*100:.2f}pp)")
print(f"   75¬∫ percentil: {np.percentile(errors, 75):.4f} ({np.percentile(errors, 75)*100:.2f}pp)")

print("\n" + "="*70)

---

## üíæ Passo 12: Salvamento do Modelo

Salvamos o modelo treinado no formato `.keras` para uso futuro.


In [None]:
plt.figure(figsize=(16, 12))

# 1. Loss (MAE)
plt.subplot(3, 2, 1)
plt.plot(history.history['loss'], label='Treino', color='blue', linewidth=2)
plt.plot(history.history['val_loss'], label='Valida√ß√£o', color='red', linewidth=2)
plt.title('Curvas de Aprendizagem - MAE', fontsize=14, fontweight='bold')
plt.xlabel('√âpocas')
plt.ylabel('MAE')
plt.legend()
plt.grid(True, alpha=0.3)

# 2. MSE
plt.subplot(3, 2, 2)
plt.plot(history.history['mse'], label='Treino', color='blue', linewidth=2)
plt.plot(history.history['val_mse'], label='Valida√ß√£o', color='red', linewidth=2)
plt.title('Curvas de Aprendizagem - MSE', fontsize=14, fontweight='bold')
plt.xlabel('√âpocas')
plt.ylabel('MSE')
plt.legend()
plt.grid(True, alpha=0.3)

# 3. Real vs Previsto (Scatter Plot)
plt.subplot(3, 2, 3)
plt.scatter(y_val, y_pred, alpha=0.5, s=30)
plt.plot([y_val.min(), y_val.max()], [y_val.min(), y_val.max()], 'r--', lw=2, label='Linha Perfeita')
plt.title('Real vs Previsto', fontsize=14, fontweight='bold')
plt.xlabel('Valor Real')
plt.ylabel('Valor Previsto')
plt.legend()
plt.grid(True, alpha=0.3)

# 4. S√©rie Temporal: Real vs Previsto
plt.subplot(3, 2, 4)
plt.plot(y_val, label='Real', linewidth=2, alpha=0.7)
plt.plot(y_pred, label='Previsto', linewidth=2, alpha=0.7, linestyle='--')
plt.title('Compara√ß√£o Temporal', fontsize=14, fontweight='bold')
plt.xlabel('Amostras')
plt.ylabel('Propor√ß√£o de Acidentes Severos')
plt.legend()
plt.grid(True, alpha=0.3)

# 5. Distribui√ß√£o dos Erros
plt.subplot(3, 2, 5)
errors = y_val - y_pred
plt.hist(errors, bins=30, edgecolor='black', alpha=0.7)
plt.axvline(x=0, color='r', linestyle='--', linewidth=2, label='Erro Zero')
plt.title('Distribui√ß√£o dos Erros (Res√≠duos)', fontsize=14, fontweight='bold')
plt.xlabel('Erro (Real - Previsto)')
plt.ylabel('Frequ√™ncia')
plt.legend()
plt.grid(True, alpha=0.3)

# 6. Res√≠duos vs Valores Previstos
plt.subplot(3, 2, 6)
plt.scatter(y_pred, errors, alpha=0.5, s=30)
plt.axhline(y=0, color='r', linestyle='--', linewidth=2)
plt.title('Res√≠duos vs Valores Previstos', fontsize=14, fontweight='bold')
plt.xlabel('Valor Previsto')
plt.ylabel('Res√≠duo (Real - Previsto)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n‚úÖ Visualiza√ß√µes geradas!")

In [None]:
model_filename = 'modelo_lstm_classificacao_risco.keras'
model.save(model_filename)
print(f"üíæ Modelo salvo: '{model_filename}'")
print("\n‚úÖ Projeto conclu√≠do!")