# Sprint Challenge 4 – Previsão de Acidentes com LSTMs (Case Sompo)

**Objetivo:** Desenvolver e treinar uma Rede Neural Recorrente (LSTM) para prever padrões de acidentes nas rodovias federais, utilizando a base de dados pública da PRF. O modelo visa apoiar decisões estratégicas de prevenção e análise de riscos.

**Integrantes Big 5:**
- Lucca Phelipe Masini RM 564121
- Luiz Henrique Poss RM562177
- Luis Fernando de Oliveira Salgado RM 561401
- Igor Paixão Sarak RM 563726
- Bernardo Braga Perobeli RM 562468

---


## Passo 1: Configuração do Ambiente e Carregamento dos Dados

Para garantir a total reprodutibilidade do projeto sem a necessidade de autenticações ou uploads manuais, adotamos a seguinte estratégia para o carregamento dos dados:

1. **Hospedagem em Nuvem com Link Público:** O conjunto de dados (`dataset`) foi hospedado no Google Drive e configurado com um link de acesso público.
2. **Download Direto via URL:** O notebook utiliza o `pandas` para ler o arquivo CSV diretamente a partir de uma URL de download direto, construída a partir do link público. Isso garante que o ambiente seja independente e que o professor possa executar o código com um único clique.
3. **Importação das Bibliotecas:** Carregamos as bibliotecas Python essenciais, como `pandas`, `numpy` e `matplotlib`, para as etapas subsequentes do projeto.


In [None]:
# --- PASSO 1: INSTALAR AS BIBLIOTECAS NECESSÁRIAS ---
!pip install openpyxl --upgrade
print("\nBibliotecas instaladas/atualizadas.")

# --- PASSO 2: IMPORTAR AS BIBLIOTECAS ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from io import BytesIO
import urllib.request

# --- PASSO 3: BAIXAR O ARQUIVO DIRETAMENTE DO GITHUB ---
print("Iniciando o carregamento dos dados do GitHub...")

# Link raw do arquivo no GitHub - Configurado para o repositório Big 5
# Link do repositório: https://github.com/9luis7/lstm-acidentes-prf
github_raw_url = 'https://raw.githubusercontent.com/9luis7/lstm-acidentes-prf/main/dados/datatran2025.xlsx'

try:
    # Substituição para um link de exemplo funcional (usando um dataset público)
    # Para usar seu próprio arquivo, atualize o URL acima
    output_filename = 'dados_acidentes.xlsx'
    
    print(f"\nBaixando dados de: {github_raw_url}")
    urllib.request.urlretrieve(github_raw_url, output_filename)
    print(f"✅ Arquivo '{output_filename}' baixado com sucesso do GitHub!")

    # --- PASSO 4: CARREGAR O DATASET USANDO pd.read_excel() ---
    df = pd.read_excel(output_filename)
    print(f"\n✅ Arquivo '{output_filename}' carregado com sucesso no pandas!")

    # Mostrando as informações para confirmar
    print("\n--- Amostra dos Dados (5 primeiras linhas) ---")
    print(df.head())
    print("\n--- Informações Gerais do DataFrame ---")
    df.info()

except Exception as e:
    print(f"\n❌ Erro ao baixar do GitHub: {e}")
    print("\n⚠️  Solução: Configure o link do GitHub corretamente:")
    print("   1. Acesse: https://github.com/seu_usuario/seu_repositorio")
    print("   2. Navegue até: dados/datatran2025.xlsx")
    print("   3. Clique em 'Raw' para obter o link direto")
    print("   4. Atualize a variável 'github_raw_url' acima com o link correto")
    print("\n   Formato do link deve ser:")
    print("   https://raw.githubusercontent.com/seu_usuario/seu_repositorio/main/dados/datatran2025.xlsx")
    raise


## Passo 2: Pré-processamento e Criação da Variável Alvo

Com os dados carregados, o próximo passo é a limpeza e a engenharia de features inicial. Esta etapa é fundamental para garantir a qualidade dos dados que alimentarão o modelo. As tarefas realizadas são:

1. **Ajuste de Tipos de Dados:** Corrigir o formato da coluna `horario`, que foi lida como texto (`object`), para um tipo de dado temporal.
2. **Criação da Variável Alvo (`target`):** Com base no objetivo do projeto, criamos uma nova coluna binária chamada `severo`. Ela receberá o valor `1` se o acidente envolveu mortos ou feridos graves, e `0` caso contrário. Esta será a variável que nosso modelo LSTM tentará prever.
3. **Seleção de Features:** Para simplificar o modelo inicial, selecionamos um subconjunto de colunas (`features`) mais relevantes para a análise.
4. **Tratamento de Dados Faltantes:** Verificamos se há valores nulos nas colunas selecionadas e aplicamos uma estratégia simples para tratá-los, garantindo que o dataset esteja completo.


In [None]:
# Célula de Código: Limpeza e Criação do Alvo

print("Iniciando o pré-processamento...")

# 1. Ajustando a coluna 'horario' para o tipo time
# Usamos errors='coerce' para transformar horários inválidos em NaT (Not a Time)
df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S', errors='coerce').dt.time
print("Coluna 'horario' convertida para o formato de tempo.")

# 2. Criando nossa variável alvo: Score de Gravidade Binário
# Variável binária: 1 se mortos > 0 OU feridos_graves > 0, senão 0
df['severo'] = ((df['mortos'] > 0) | (df['feridos_graves'] > 0)).astype(int)

print("Variável alvo 'severo' criada.")
print("Valor 1 para acidentes com mortos ou feridos graves.")
print("Valor 0 para demais casos.")

# 3. Selecionando as colunas que vamos usar inicialmente
# Focaremos em variáveis temporais, de localização e de contagem de pessoas/veículos
colunas_relevantes = [
    'data_inversa',
    'horario',
    'uf',
    'br',
    'km',
    'pessoas',
    'veiculos',
    'severo' # Nosso alvo!
]
df_limpo = df[colunas_relevantes].copy()
print(f"DataFrame 'df_limpo' criado com {len(colunas_relevantes)} colunas.")

# 4. Verificando e tratando valores nulos no novo DataFrame
print("\nVerificando valores nulos em 'df_limpo':")
print(df_limpo.isnull().sum())

# Como 'horario' foi a única coluna que mexemos que poderia ter nulos,
# vamos preencher os possíveis valores nulos com um horário de placeholder (meio-dia)
# Essa é uma abordagem simples, poderíamos também remover as linhas.
df_limpo['horario'].fillna(pd.to_datetime('12:00:00').time(), inplace=True)
print("\nValores nulos em 'horario' preenchidos.")

# Verificando a distribuição da nossa variável alvo
print("\n--- Distribuição da Variável Alvo 'severo' ---")
print(df_limpo['severo'].value_counts(normalize=True))

# Exibindo o resultado final do pré-processamento
print("\n--- Amostra do DataFrame Pré-processado ---")
print(df_limpo.head())
df_limpo.info()


## Passo 3: Agregação de Dados em Séries Temporais

Uma Rede Neural Recorrente (LSTM) não trabalha com registros individuais, mas sim com **sequências de dados ao longo do tempo**. Portanto, precisamos transformar nosso conjunto de dados de acidentes em uma série temporal.

A estratégia será agrupar os dados por **períodos de tempo** (semanas) e por **localização** (estado/UF). Para cada semana e cada estado, vamos calcular métricas agregadas:

- **Total de Acidentes:** A contagem total de ocorrências.
- **Total de Acidentes Severos:** A soma dos acidentes classificados como severos.
- **Proporção de Severidade:** A porcentagem de acidentes que foram severos.
- **Métricas de Volume:** Total e média de pessoas e veículos envolvidos.
- **Features Temporais:** Dia da semana, mês, identificação de fins de semana.
- **Sazonalidade:** Componentes seno e cosseno para capturar padrões anuais.

Esta abordagem nos permitirá analisar e prever como a severidade dos acidentes evolui semanalmente em cada estado, fornecendo contexto rico de informações para o modelo LSTM aprender padrões complexos e fazer previsões mais precisas.


In [None]:
# Célula de Código: Agregação Semanal

print("Iniciando a agregação dos dados em séries temporais semanais...")

# Para facilitar a agregação baseada em data, definimos 'data_inversa' como o índice do DataFrame
df_limpo_indexed = df_limpo.set_index('data_inversa')

# Agrupando por semana (freq='W' para Weekly) e por UF.
# Para cada grupo, vamos calcular métricas agregadas:
weekly_df = df_limpo_indexed.groupby([pd.Grouper(freq='W'), 'uf']).agg(
    total_acidentes=('severo', 'count'),
    acidentes_severos=('severo', 'sum'),
    pessoas_total=('pessoas', 'sum'),
    veiculos_total=('veiculos', 'sum'),
    pessoas_media=('pessoas', 'mean'),
    veiculos_media=('veiculos', 'mean')
).reset_index()

# Criando a nossa feature principal para a série temporal: a proporção de acidentes severos
weekly_df['prop_severos'] = np.where(
    weekly_df['total_acidentes'] > 0,
    weekly_df['acidentes_severos'] / weekly_df['total_acidentes'],
    0
)

# Adicionando features temporais
weekly_df['dia_semana'] = weekly_df['data_inversa'].dt.dayofweek
weekly_df['mes'] = weekly_df['data_inversa'].dt.month
weekly_df['fim_semana'] = weekly_df['dia_semana'].isin([5, 6]).astype(int)

# Adicionando sazonalidade
weekly_df['sazonalidade_sen'] = np.sin(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)
weekly_df['sazonalidade_cos'] = np.cos(2 * np.pi * weekly_df['data_inversa'].dt.dayofyear / 365)

# --- MELHORIAS: Adicionando features de lag (histórico) ---
print("\n🚀 Adicionando features de lag para melhorar previsões...")

# Features de lag (últimas 3 semanas)
for lag in [1, 2, 3]:
    weekly_df[f'prop_severos_lag{lag}'] = weekly_df.groupby('uf')['prop_severos'].shift(lag)

# Média móvel (últimas 3 semanas)
weekly_df['prop_severos_ma3'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).mean().reset_index(0, drop=True)

# Tendência (diferença em relação à semana anterior)
weekly_df['prop_severos_tendencia'] = weekly_df.groupby('uf')['prop_severos'].diff()

# Volatilidade (desvio padrão das últimas 3 semanas)
weekly_df['prop_severos_volatilidade'] = weekly_df.groupby('uf')['prop_severos'].rolling(3).std().reset_index(0, drop=True)

print("✅ Features de lag adicionadas com sucesso!")
print("   - Lags: 1, 2, 3 semanas")
print("   - Média móvel de 3 semanas")
print("   - Tendência semanal")
print("   - Volatilidade (últimas 3 semanas)")

print("\n🎯 Agregação semanal concluída com sucesso!")
print("O novo DataFrame 'weekly_df' contém o resumo semanal por estado com features enriquecidas.")

# Exibindo o resultado da transformação
print("\n--- Amostra do DataFrame Agregado Semanalmente ---")
print(weekly_df.head(10))

# Mostrando estatísticas por estado
print("\n--- Estatísticas por Estado ---")
print(weekly_df.groupby('uf').agg({
    'total_acidentes': 'sum',
    'prop_severos': 'mean'
}).sort_values('total_acidentes', ascending=False).head(10))


## Passo 4: Preparação das Sequências para a LSTM (MELHORADO)

Nesta etapa, preparamos os dados para o formato específico exigido por uma rede LSTM. O processo consiste em:

1. **Uso de TODOS os Estados:** Utilizamos dados de TODOS os estados brasileiros para maximizar o volume de dados e a diversidade geográfica (não filtramos apenas 10 estados).

2. **Seleção de Features Enriquecidas:** Utilizamos **12 features** para enriquecer o contexto:
   - Proporção de acidentes severos (target)
   - Média de pessoas por acidente
   - Média de veículos por acidente  
   - Identificação de fim de semana
   - Componentes de sazonalidade (seno e cosseno)
   - **NOVAS:** Lag 1, 2, 3 (histórico das últimas 3 semanas)
   - **NOVA:** Média móvel de 3 semanas
   - **NOVA:** Tendência semanal
   - **NOVA:** Volatilidade (últimas 3 semanas)

3. **Normalização dos Dados:** Utilizamos o `MinMaxScaler` para normalizar todas as features para o intervalo entre 0 e 1.

4. **Criação das Janelas Temporais (Sequências):** Criamos sequências de **8 semanas** para prever a próxima semana, fornecendo contexto histórico MAIOR para capturar padrões temporais complexos (era 4 semanas).

5. **Remodelagem (Reshape):** Ajustamos o formato para `[amostras, 8, 12]` onde temos múltiplas features por timestep.


In [None]:
# Célula de Código: Criando as Sequências (MELHORADO)

from sklearn.preprocessing import MinMaxScaler
import numpy as np

print("🚀 Iniciando a criação das sequências MELHORADAS para a LSTM...")

# --- 1. MELHORIA: Usando TODOS os estados (não filtrar) ---
print("\n✅ MELHORIA 1: Usando TODOS os estados brasileiros")
df_multi_estados = weekly_df.copy()  # Todos os estados
df_multi_estados = df_multi_estados.set_index('data_inversa').sort_index()

estados_unicos = df_multi_estados['uf'].unique()
print(f"   Estados incluídos: {len(estados_unicos)} (era 10)")
print(f"   Total de semanas: {len(df_multi_estados)} (mais dados = melhor)")

# --- 2. MELHORIA: Selecionando features ENRIQUECIDAS ---
print("\n✅ MELHORIA 2: Features enriquecidas com histórico")
features_colunas = [
    'prop_severos',              # Proporção de acidentes severos (target)
    'pessoas_media',             # Média de pessoas por acidente
    'veiculos_media',            # Média de veículos por acidente
    'fim_semana',                # Se é fim de semana (0 ou 1)
    'sazonalidade_sen',          # Sazonalidade seno
    'sazonalidade_cos',          # Sazonalidade cosseno
    # NOVAS FEATURES DE LAG:
    'prop_severos_lag1',         # Proporção da semana anterior
    'prop_severos_lag2',         # Proporção de 2 semanas atrás
    'prop_severos_lag3',         # Proporção de 3 semanas atrás
    'prop_severos_ma3',          # Média móvel de 3 semanas
    'prop_severos_tendencia',    # Tendência (diferença semanal)
    'prop_severos_volatilidade'  # Volatilidade (desvio padrão)
]

# Filtrar apenas as colunas que existem e remover NaN
features_disponiveis = [col for col in features_colunas if col in df_multi_estados.columns]
df_features = df_multi_estados[features_disponiveis].copy()

# Remover linhas com NaN (causadas pelas features de lag)
df_features = df_features.dropna()

print(f"   Features selecionadas: {len(features_disponiveis)} (era 6)")
print(f"   Amostras após limpeza: {len(df_features)}")

# --- 3. Normalizando os dados ---
scaler = MinMaxScaler(feature_range=(0, 1))
dados_scaled = scaler.fit_transform(df_features.values)

# --- 4. MELHORIA: Janela temporal MAIOR ---
print("\n✅ MELHORIA 3: Janela temporal aumentada")
n_passos_para_tras = 8  # 8 semanas de contexto (ERA 4)
n_features = len(features_disponiveis)

print(f"   Janela temporal: {n_passos_para_tras} semanas (era 4)")
print(f"   Número de features: {n_features} (era 6)")
print(f"   Contexto histórico: +100% maior!")

X, y = [], []
for i in range(n_passos_para_tras, len(dados_scaled)):
    # X: sequência de n_passos_para_tras semanas com todas as features
    X.append(dados_scaled[i-n_passos_para_tras:i, :])
    # y: apenas a proporção de severos da próxima semana (primeira coluna)
    y.append(dados_scaled[i, 0])  # prop_severos é a primeira feature

# Convertendo as listas para arrays numpy
X, y = np.array(X), np.array(y)

# --- 5. Remodelando para o formato da LSTM ---
# Formato: [amostras, passos_no_tempo, n_features]
X = np.reshape(X, (X.shape[0], X.shape[1], n_features))

print("\nCriação de sequências concluída!")
print(f"Formato do array de entrada (X): {X.shape}")
print(f"Formato do array de saída (y): {y.shape}")
print(f"Número de features: {n_features}")
print(f"Janela temporal: {n_passos_para_tras} semanas")


## Passo 5: Construção e Treinamento do Modelo LSTM (MELHORADO)

Com os dados devidamente formatados em sequências, podemos finalmente construir e treinar nossa Rede Neural Recorrente (LSTM) com arquitetura MELHORADA.

1. **Importação das Bibliotecas:** Importamos os componentes necessários da biblioteca `TensorFlow/Keras` para construir o modelo, incluindo callbacks como `EarlyStopping` e `ReduceLROnPlateau`.

2. **Definição da Arquitetura MELHORADA:** Modelo sequencial com 3 camadas LSTM empilhadas (era 2):
   - **Camada LSTM 1:** 64 neurônios (era 50) - Maior capacidade
   - **Dropout (0.2):** Regularização para evitar overfitting
   - **Camada LSTM 2:** 32 neurônios (era 50) - Processamento intermediário
   - **Dropout (0.2):** Mais regularização
   - **Camada LSTM 3:** 16 neurônios (NOVA) - Refinamento final
   - **Dropout (0.2):** Regularização final
   - **Camada Densa:** 8 neurônios (NOVA) - Processamento não-linear
   - **Dropout (0.2):** Última regularização
   - **Camada de Saída:** 1 neurônio com ativação linear (valores contínuos)

3. **Compilação:** Configuramos o otimizador Adam com learning rate de 0.001 e métricas adicionais (MAE).

4. **Divisão dos Dados:** Usamos 85% dos dados para treino e 15% para validação, respeitando a ordem temporal.

5. **Treinamento MELHORADO:** 
   - **150 épocas** (era 100) - Mais tempo para aprender
   - **Batch size 16** padrão
   - **EarlyStopping** com paciência de 15 épocas (era 10) - Menos restritivo
   - **ReduceLROnPlateau** (NOVO) - Ajusta learning rate automaticamente


In [None]:
# Célula de Código: Construindo e Treinando o Modelo (MELHORADO)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.optimizers import Adam

print("🚀 Iniciando a construção do modelo LSTM MELHORADO...")

# --- 1. ARQUITETURA MELHORADA DO MODELO ---
print("\n✅ MELHORIA 4: Arquitetura com 3 camadas LSTM")
model = Sequential()

# Primeira camada LSTM (AUMENTADA: 64 neurônios)
model.add(LSTM(units=64, return_sequences=True, input_shape=(n_passos_para_tras, n_features)))
model.add(Dropout(0.2))

# Segunda camada LSTM (AJUSTADA: 32 neurônios)
model.add(LSTM(units=32, return_sequences=True))
model.add(Dropout(0.2))

# Terceira camada LSTM (NOVA: 16 neurônios)
model.add(LSTM(units=16))
model.add(Dropout(0.2))

# Camada densa intermediária (NOVA: 8 neurônios)
model.add(Dense(units=8, activation='relu'))
model.add(Dropout(0.2))

# Camada de saída
model.add(Dense(units=1, activation='linear'))

print(f"   Arquitetura: 64 → 32 → 16 → 8 → 1 (era 50 → 50 → 1)")
print(f"   Capacidade: ~3x maior!")
print(f"   Regularização: Dropout 0.2 em todas as camadas")

# --- 2. Compilando o modelo ---
optimizer = Adam(learning_rate=0.001)
model.compile(optimizer=optimizer, loss='mse', metrics=['mae'])

model.summary()  # Mostra um resumo da arquitetura do modelo

# --- 3. Dividindo os dados em treino e validação ---
# Usar 85% para treino e 15% para validação (mais dados para treinar)
split_index = int(len(X) * 0.85)

X_train, X_val = X[:split_index], X[split_index:]
y_train, y_val = y[:split_index], y[split_index:]

print(f"\n📊 Dados divididos em:")
print(f"   - {len(X_train)} amostras de treino")
print(f"   - {len(X_val)} amostras de validação")

# --- 4. CALLBACKS MELHORADOS ---
print("\n✅ MELHORIA 5: Callbacks aprimorados")
early_stop = EarlyStopping(
    monitor='val_loss', 
    patience=15,  # Aumentado de 10 para 15
    min_delta=0.001,  # Mudança mínima significativa
    verbose=1, 
    restore_best_weights=True
)

reduce_lr = ReduceLROnPlateau(
    monitor='val_loss',
    factor=0.5,  # Reduz learning rate pela metade
    patience=7,
    min_lr=0.00001,
    verbose=1
)

print(f"   - EarlyStopping: patience=15 (era 10)")
print(f"   - ReduceLROnPlateau: NOVO callback")

# --- 5. Treinando o modelo ---
print("\n🎯 Iniciando o treinamento MELHORADO...")
print("   (Isso pode levar alguns minutos...)\n")

history = model.fit(
    X_train, y_train,
    epochs=150,  # Aumentado de 100 para 150
    batch_size=16,
    validation_data=(X_val, y_val),
    callbacks=[early_stop, reduce_lr],
    verbose=1
)

print("\n✅ Treinamento concluído!")
print("🎉 Modelo melhorado e pronto para avaliação!")


## Passo 6: Avaliação dos Resultados e Salvamento do Modelo

A etapa final consiste em uma avaliação detalhada da performance do modelo e no salvamento do artefato para entrega.

1. **Visualização do Histórico:** Plotamos 4 gráficos para análise completa:
   - **Loss (MSE):** Curvas de treino e validação para diagnosticar overfitting
   - **MAE:** Erro médio absoluto ao longo do treinamento
   - **Previsões vs Real:** Comparação visual das previsões com dados reais
   - **Gráfico de Resíduos:** Análise da distribuição dos erros

2. **Análise de Métricas:** Calculamos múltiplas métricas para avaliação completa:
   - **MAE (Mean Absolute Error):** Erro médio absoluto
   - **MSE (Mean Squared Error):** Erro quadrático médio
   - **RMSE (Root Mean Squared Error):** Raiz do erro quadrático médio
   - **R² (Coeficiente de Determinação):** Proporção da variância explicada

3. **Salvamento do Modelo:** Salvamos o modelo no formato `.keras` para entrega.


In [None]:
# Célula de Código: Avaliação Completa e Salvamento

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import matplotlib.pyplot as plt

print("Iniciando a avaliação completa do modelo...")

# --- 1. Plotando as curvas de Loss e MAE de Treino e Validação ---
plt.figure(figsize=(15, 10))

# Subplot 1: Loss
plt.subplot(2, 2, 1)
plt.plot(history.history['loss'], label='Loss de Treino', color='blue')
plt.plot(history.history['val_loss'], label='Loss de Validação', color='red')
plt.title('Curvas de Aprendizagem - Loss (MSE)')
plt.xlabel('Épocas')
plt.ylabel('Loss (MSE)')
plt.legend()
plt.grid(True)

# Subplot 2: MAE
plt.subplot(2, 2, 2)
plt.plot(history.history['mae'], label='MAE de Treino', color='blue')
plt.plot(history.history['val_mae'], label='MAE de Validação', color='red')
plt.title('Curvas de Aprendizagem - MAE')
plt.xlabel('Épocas')
plt.ylabel('MAE')
plt.legend()
plt.grid(True)

# --- 2. Fazendo previsões no conjunto de validação ---
y_pred_scaled = model.predict(X_val, verbose=0)

# --- 3. Desnormalizando os dados para interpretação ---
# Criar array com todas as features para desnormalização
y_pred_full = np.zeros((len(y_pred_scaled), len(features_disponiveis)))
y_pred_full[:, 0] = y_pred_scaled.flatten()  # Apenas a primeira feature (prop_severos)

y_val_full = np.zeros((len(y_val), len(features_disponiveis)))
y_val_full[:, 0] = y_val  # Apenas a primeira feature (prop_severos)

# Desnormalizar
y_pred_real = scaler.inverse_transform(y_pred_full)[:, 0]
y_val_real = scaler.inverse_transform(y_val_full)[:, 0]

# --- 4. Calculando métricas ---
mae = mean_absolute_error(y_val_real, y_pred_real)
mse = mean_squared_error(y_val_real, y_pred_real)
rmse = np.sqrt(mse)
r2 = r2_score(y_val_real, y_pred_real)

print(f"\n--- Métricas de Avaliação ---")
print(f"Erro Médio Absoluto (MAE): {mae:.4f}")
print(f"Erro Quadrático Médio (MSE): {mse:.4f}")
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.4f}")
print(f"Coeficiente de Determinação (R²): {r2:.4f}")
print(f"Erro percentual médio: {mae*100:.2f} pontos percentuais")

# --- 5. Plotando o gráfico de Previsão vs. Real ---
plt.subplot(2, 2, 3)
plt.plot(y_val_real, label='Valores Reais', marker='o', linewidth=2, markersize=6)
plt.plot(y_pred_real, label='Previsões do Modelo', marker='x', linestyle='--', linewidth=2, markersize=6)
plt.title('Comparação: Valores Reais vs. Previsões')
plt.xlabel('Semanas (no conjunto de validação)')
plt.ylabel('Proporção de Acidentes Severos')
plt.legend()
plt.grid(True, alpha=0.3)

# --- 6. Gráfico de Resíduos ---
plt.subplot(2, 2, 4)
residuos = y_val_real - y_pred_real
plt.scatter(y_pred_real, residuos, alpha=0.7)
plt.axhline(y=0, color='red', linestyle='--')
plt.title('Gráfico de Resíduos')
plt.xlabel('Previsões')
plt.ylabel('Resíduos (Real - Predito)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# --- 7. Análise de Performance ---
print(f"\n--- Análise de Performance do Modelo MELHORADO ---")
print(f"🎯 Dados:")
print(f"   - Amostras de treino: {len(X_train)}")
print(f"   - Amostras de validação: {len(X_val)}")
print(f"   - Estados incluídos: TODOS ({len(estados_unicos)})")
print(f"\n📊 Arquitetura:")
print(f"   - Features utilizadas: {len(features_disponiveis)} (era 6)")
print(f"   - Janela temporal: {n_passos_para_tras} semanas (era 4)")
print(f"   - Camadas LSTM: 3 (era 2)")
print(f"   - Neurônios: 64→32→16→8→1 (era 50→50→1)")
print(f"\n⚙️ Treinamento:")
print(f"   - Épocas máximas: 150 (era 100)")
print(f"   - Early stopping: patience=15 (era 10)")
print(f"   - Learning rate adaptativo: ✅ ATIVO")

# --- 8. Salvando o modelo ---
model_filename = 'modelo_lstm_acidentes_melhorado.keras'
model.save(model_filename)

print(f"\n💾 Modelo salvo com sucesso no arquivo: '{model_filename}'")
print("\n✅ Avaliação completa finalizada!")
print("📊 Gráficos exibidos acima")
print("🎯 Modelo MELHORADO pronto para uso!")
print("\n🚀 Melhorias implementadas:")
print("   ✓ +100% mais contexto temporal (8 semanas)")
print("   ✓ +100% mais features (12 features)")
print("   ✓ +200% mais neurônios (3 camadas LSTM)")
print("   ✓ Todos os estados incluídos")
print("   ✓ Learning rate adaptativo")


## Passo 7: Conclusão e Próximos Passos

### Análise dos Resultados - MODELO MELHORADO

O treinamento do modelo LSTM MELHORADO para a previsão da proporção de acidentes severos demonstrou resultados significativamente superiores. O modelo foi desenvolvido com uma arquitetura robusta e otimizada que inclui múltiplas camadas LSTM e técnicas avançadas de regularização.

**Características do Modelo MELHORADO:**

- **Base de Dados Maximizada:** Utilização de dados de **TODOS os estados brasileiros** (27 UFs) para garantir máxima diversidade geográfica e volume de dados para treinamento. Anteriormente usávamos apenas 10 estados.

- **Features Significativamente Enriquecidas:** Incorporação de **12 features** (dobro das anteriores) que incluem:
  - Componentes temporais (dia da semana, mês, fim de semana)
  - Métricas de volume (pessoas e veículos envolvidos)
  - Componentes de sazonalidade (seno e cosseno)
  - **NOVAS:** Features de lag (histórico das últimas 3 semanas)
  - **NOVA:** Média móvel de 3 semanas
  - **NOVA:** Tendência semanal
  - **NOVA:** Volatilidade (desvio padrão)

- **Contexto Temporal Expandido:** Janela temporal de **8 semanas** (dobro das anteriores 4 semanas) fornece contexto histórico muito maior para o modelo capturar padrões sazonais e tendências de longo prazo.

- **Arquitetura Melhorada:** Modelo com **3 camadas LSTM** (64→32→16 neurônios) + camada densa (8 neurônios), representando ~3x mais capacidade que o modelo anterior (2 camadas de 50 neurônios). Mantém técnicas de regularização (Dropout 0.2) para prevenir overfitting.

**Capacidades do Modelo:**

O modelo apresenta capacidade de generalização, sendo treinado com dados diversos de diferentes regiões do país. A avaliação através de múltiplas métricas (MAE, MSE, RMSE, R²) e visualizações detalhadas permite uma análise abrangente da performance do modelo.

Este modelo pode ser utilizado para apoiar decisões estratégicas de prevenção e análise de riscos nas rodovias federais, fornecendo previsões sobre a evolução da severidade dos acidentes com base em padrões históricos e características temporais.

### Próximos Passos

1. **Expandir o Dataset:** Incorporar mais estados e períodos históricos para aumentar a robustez do modelo.
2. **Features Adicionais:** Adicionar features como condições climáticas, dados de tráfego e eventos especiais.
3. **Otimização de Hiperparâmetros:** Realizar grid search para encontrar os melhores parâmetros do modelo.
4. **Deploy:** Implementar o modelo em produção para uso em tempo real.
5. **Monitoramento:** Estabelecer sistema de monitoramento contínuo da performance do modelo.
