In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder

# Supondo que o dataframe 'df' tenha as colunas 'feridos_leves', 'feridos_graves' e 'mortos'
# Criar a coluna 'gravidade' com base nas condições especificadas
df = pd.read_excel(r'C:\Users\a475039\Desktop\TCC Dataset\PR_2019_2023.xlsx')

condicoes = [
    (df['mortos'] > 0) | (df['feridos_graves'] > 0),  # Condição para "grave"
    (df['feridos_leves'] > 0) & (df['mortos'] == 0) & (df['feridos_graves'] == 0),  # Condição para "moderado"
    (df['feridos_leves'] == 0) & (df['feridos_graves'] == 0) & (df['mortos'] == 0)  # Condição para "leve"
]

valores = ['grave', 'moderado', 'leve']

df['gravidade'] = np.select(condicoes, valores, default='indefinido')

# Filtrar casos indefinidos, se houver
df = df[df['gravidade'] != 'indefinido']

# Selecionar apenas as colunas 'causa_acidente' e 'gravidade'
df = df[['causa_acidente', 'gravidade']]

# Remover categorias raras em 'causa_acidente'
contagem_causas = df['causa_acidente'].value_counts()
causas_frequentes = contagem_causas[contagem_causas > 10].index  # Ajuste o limite conforme necessário
df = df[df['causa_acidente'].isin(causas_frequentes)]

# Codificar 'causa_acidente' usando One Hot Encoding
df_encoded = pd.get_dummies(df, columns=['causa_acidente'], drop_first=True)

# Codificar a variável alvo 'gravidade' usando LabelEncoder
le = LabelEncoder()
df_encoded['gravidade'] = le.fit_transform(df_encoded['gravidade'])

# Dividir os dados em variáveis independentes (X) e variável dependente (y)
X = df_encoded.drop('gravidade', axis=1)
y = df_encoded['gravidade']

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Criar o modelo de regressão logística multinomial com regularização
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=200, class_weight='balanced')

# Treinar o modelo
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)


In [2]:

# Avaliar o modelo
print("Relatório de Classificação:")
print(classification_report(y_test, y_pred, target_names=le.classes_))



Relatório de Classificação:
              precision    recall  f1-score   support

       grave       0.38      0.46      0.42      1981
        leve       0.36      0.40      0.38      1471
    moderado       0.61      0.51      0.55      3885

    accuracy                           0.48      7337
   macro avg       0.45      0.46      0.45      7337
weighted avg       0.50      0.48      0.48      7337



In [3]:

print("Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred))


Matriz de Confusão:
[[ 918  325  738]
 [ 324  590  557]
 [1197  703 1985]]


In [4]:

# Coeficientes do modelo para a classe "grave"
class_index = np.where(le.classes_ == 'grave')[0][0]
grave_coefficients = model.coef_[class_index]

# Obter os 10 maiores coeficientes que mais afetam os acidentes graves
coef_series = pd.Series(grave_coefficients, index=X.columns)
top_10_coefficients = coef_series.nlargest(10)

print("Top 10 maiores coeficientes que mais afetam os acidentes graves:")
print(top_10_coefficients)

Top 10 maiores coeficientes que mais afetam os acidentes graves:
causa_acidente_Entrada inopinada do pedestre                                                   1.713789
causa_acidente_Pedestre andava na pista                                                        1.457855
causa_acidente_Pedestre cruzava a pista fora da faixa                                          1.387764
causa_acidente_Falta de Atenção do Pedestre                                                    1.135268
causa_acidente_Desobediência às normas de trânsito pelo pedestre                               0.963978
causa_acidente_Ingestão de álcool ou de substâncias psicoativas pelo pedestre                  0.716777
causa_acidente_Área urbana sem a presença de local apropriado para a travessia de pedestres    0.710490
causa_acidente_Sinalização mal posicionada                                                     0.626167
causa_acidente_Transitar na contramão                                                          0.617484