In [28]:
import itertools
import json
import lightgbm as lgb
import pandas as pd
import pickle
from datetime import datetime
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import TimeSeriesSplit
from sklearn.preprocessing import LabelEncoder
import warnings
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import r2_score, mean_squared_error

import numpy as np


warnings.filterwarnings("ignore")

In [29]:
df = pd.read_json('datatran_consolidado.json')
df.head()

Unnamed: 0,data_inversa,dia_semana,horario,uf,municipio,tipo_acidente,condicao_metereologica,latitude,longitude
0,01/01/2020,quarta-feira,05:40:00,PA,SAO FRANCISCO DO PARA,Saida de leito carrocavel,Ceu Claro,-13101929,-4774456398
1,01/01/2020,quarta-feira,06:00:00,MG,UBERABA,Colisao transversal,Ceu Claro,-1976747537,-4798725511
2,01/01/2020,quarta-feira,06:00:00,BA,CANUDOS,Saida de leito carrocavel,Nublado,-1032002103,-3906425211
3,01/01/2020,quarta-feira,10:08:00,SP,APARECIDA,Colisao traseira,Sol,-2285651665,-4523114328
4,01/01/2020,quarta-feira,12:10:00,MG,JUATUBA,Saida de leito carrocavel,Ceu Claro,-19947864,-44381226


In [30]:
df["data"] = pd.to_datetime(df["data_inversa"], format="%d/%m/%Y", errors="coerce")
df["hora"] = pd.to_datetime(df["horario"], format="%H:%M:%S", errors="coerce").dt.hour

# Remover nulos essenciais para a agregação
df.dropna(subset=['data', 'hora', 'tipo_acidente', 'uf', 'municipio'], inplace=True)

# AGREGACAO CORRIGIDA: Contar acidentes para a combinação única de Data, Local, Tipo e Condição
cols_agrupamento = ['data', 'uf', 'municipio', 'tipo_acidente', 'condicao_metereologica', 'dia_semana']
df_agg = df.groupby(cols_agrupamento).agg(
    acidentes=("data", "count"),
    hora_media=('hora', 'mean')
).reset_index()

print(df_agg.head())

        data  uf             municipio                tipo_acidente  \
0 2020-01-01  AL  MATRIZ DE CAMARAGIBE  Colisao com objeto estatico   
1 2020-01-01  AL    UNIAO DOS PALMARES      Atropelamento de Animal   
2 2020-01-01  AP        FERREIRA GOMES      Atropelamento de Animal   
3 2020-01-01  AP          PORTO GRANDE    Saida de leito carrocavel   
4 2020-01-01  BA               CANUDOS    Saida de leito carrocavel   

  condicao_metereologica    dia_semana  acidentes  hora_media  
0              Ceu Claro  quarta-feira          1         6.0  
1                Nublado  quarta-feira          1         2.0  
2              Ceu Claro  quarta-feira          1         0.0  
3                  Chuva  quarta-feira          1        15.0  
4                Nublado  quarta-feira          1         6.0  


In [31]:
df_agg["dia_semana_num"] = df_agg["data"].dt.dayofweek
df_agg["mes"] = df_agg["data"].dt.month
df_agg["ano"] = df_agg["data"].dt.year
df_agg["dia_do_ano"] = df_agg["data"].dt.dayofyear
df_agg["dia_do_mes"] = df_agg["data"].dt.day

print(f"Total de registros agrupados: {len(df_agg)}")

Total de registros agrupados: 371301


In [None]:
cat_features = ['uf', 'municipio', 'tipo_acidente', 'condicao_metereologica']
mappings = {}

# Aplicar LabelEncoder e salvar mapeamento
for col in cat_features:
    le = LabelEncoder()
    # Usar .astype(str) garante que não haverá problemas com NaN's
    df_agg[col] = le.fit_transform(df_agg[col].astype(str))
    mappings[col] = list(le.classes_)

# Garantir sincronia do mapeamento para a interface.py
with open('label_encoder_mappings.json', 'w', encoding='utf-8') as f:
    mappings['dia_semana'] = sorted(df['dia_semana'].unique().tolist())
    json.dump(mappings, f, ensure_ascii=False)
print("'label_encoder_mappings.json' atualizado.")

Arquivo 'label_encoder_mappings.json' atualizado com sucesso.


In [None]:
features = [
    'uf', 'municipio', 'tipo_acidente', 'condicao_metereologica', 
    'hora_media', 'dia_semana_num', 'mes', 'ano', 'dia_do_ano', 'dia_do_mes'
]

X = df_agg[features]
y = df_agg['acidentes']

# Índices das colunas categóricas para o LightGBM (0 a 3)
cat_indices = [0, 1, 2, 3]

In [34]:
#import sklearn, sys
#reg = lgb.LGBMRegressor(random_state=30, verbose=-1, objective='poisson')
#reg.fit(X_train, y_train)

In [None]:
# Seleciona as features e o target
r2_list = []
rmse_list = []
n_loops = 30

for i in range(n_loops):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i*30)
    
    # Configuração Otimizada do Modelo
    model = lgb.LGBMRegressor(
        objective='poisson',       # Ideal para contagem
        n_estimators=1000,         # Aumentado MUITO para maior profundidade
        learning_rate=0.01,        # Diminuído MUITO para aprendizado mais lento e preciso
        num_leaves=50,             # Aumento na complexidade do modelo
        min_child_samples=20,      # Aumentado para evitar overfitting em acidentes raros e altos
        random_state=i,
        verbose=-1,
        n_jobs=-1
    )
    
    # Treino informando quais colunas são categóricas
    model.fit(
        X_train, y_train, 
        categorical_feature=cat_indices
    )
    
    y_pred = model.predict(X_test)
    
    r2_list.append(r2_score(y_test, y_pred))
    rmse_list.append(np.sqrt(mean_squared_error(y_test, y_pred)))
    
    print(f"Rodada {i+1}/{n_loops} -> R²: {r2_list[-1]:.4f} | RMSE: {rmse_list[-1]:.4f}")

print("-" * 40)
print(f"MÉDIA FINAL -> R²: {np.mean(r2_list):.4f} (±{np.std(r2_list):.4f})")
print(f"MÉDIA FINAL -> RMSE: {np.mean(rmse_list):.4f}")

Rodada 1/10 -> R²: 0.4063 | RMSE: 0.1285
Rodada 2/10 -> R²: 0.4372 | RMSE: 0.1284
Rodada 3/10 -> R²: 0.4152 | RMSE: 0.1316
Rodada 4/10 -> R²: 0.4079 | RMSE: 0.1336
Rodada 5/10 -> R²: 0.4168 | RMSE: 0.1317
Rodada 6/10 -> R²: 0.4229 | RMSE: 0.1308
Rodada 7/10 -> R²: 0.4285 | RMSE: 0.1295
Rodada 8/10 -> R²: 0.4080 | RMSE: 0.1290
Rodada 9/10 -> R²: 0.4244 | RMSE: 0.1258
Rodada 10/10 -> R²: 0.4147 | RMSE: 0.1297
----------------------------------------
MÉDIA FINAL -> R²: 0.4182 (±0.0095)
MÉDIA FINAL -> RMSE: 0.1299


In [None]:
model_final = lgb.LGBMRegressor(
    objective='poisson',
    n_estimators=1200, 
    learning_rate=0.01,
    num_leaves=60,
    min_child_samples=20,
    random_state=30,
    verbose=-1
)

model_final.fit(X, y, categorical_feature=cat_indices)

with open('preditor.pkl', 'wb') as f:
    pickle.dump(model_final, f)

print(f"Modelo final salvo em 'preditor.pkl'. ✅")

Modelo salvo em 'preditor.pkl'.
Features usadas (10): ['uf', 'municipio', 'tipo_acidente', 'condicao_metereologica', 'hora_media', 'dia_semana_num', 'mes', 'ano', 'dia_do_ano', 'dia_do_mes']
