# Modelo Supervisionado dos Acidentes de Trânsito

## Projeto da disciplina **SSC0957 - Práticas em Ciência de Dados II**

- Alexandre Eduardo de Souza Jesus - alexandre_souza@usp.br - 12559506

- Lucas Ivars Cadima Ciziks - luciziks@usp.br - 125599472

- Gustavo Silva de Oliveira - guspfc03@usp.br - 12567231

<img src="pictures.gif" style="width: 200px;"/>

---


## 7. Modelo Supervisionado

Ao longo do projeto, nosso objetivo era compreender e extrair possíveis causas e correlações entre as variáveis do acidente. Na Análise Exploratória e Estatística, focamos principalmente em entender como os fatores climáticos podem influenciar na causa do acidente. Entretanto, como é possível observar, os dados analisados não possuem um rótulo ou variável alvo de interesse. 

Embora tenha se verificado que há variáveis que influenciam mais na causa do acidente do que outras, esses fatores não são suficientes ou expressivos o suficiente para explicar a ocorrência de um acidente. Entretanto, com as informações obtidas até aqui, é possível separar algumas variáveis mais relevantes para verificar sua explicabilidade em um modelo supervisionado.

### 7.1. Classificação do Acidente

Para testar isso, vamos implementar um modelo de **Regressão Logística** para predizer o número de feridos do acidente.



In [2]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [3]:
prf_rain_data = pd.read_csv("processed_data/prf_rain_data.csv", index_col=0)
all_data = prf_rain_data[
    [
        "tipo_acidente",
        "dia_semana",
        "fase_dia",
        "sentido_via",
        "classificacao_acidente",
        "tipo_pista",
        "tracado_via",
        "uso_solo",
        "rain",
        "temperature_2m",
        "apparent_temperature",
        "relativehumidity_2m",
        "cloudcover",
        "windspeed_10m",
    ]
]

all_data.head()

Unnamed: 0,tipo_acidente,dia_semana,fase_dia,sentido_via,classificacao_acidente,tipo_pista,tracado_via,uso_solo,rain,temperature_2m,apparent_temperature,relativehumidity_2m,cloudcover,windspeed_10m
6,Colisão lateral mesmo sentido,sábado,Pleno dia,Crescente,Com Vítimas Feridas,Dupla,Desvio Temporário,Não,0.2,21.2,24.3,88.0,100.0,1.4
29,Colisão traseira,domingo,Pleno dia,Decrescente,Com Vítimas Feridas,Dupla,Reta,Sim,0.4,21.5,21.9,80.0,80.0,17.0
72,Colisão frontal,segunda-feira,Plena Noite,Crescente,Com Vítimas Feridas,Simples,Curva,Não,0.1,22.7,26.2,91.0,29.0,6.9
175,Colisão frontal,quinta-feira,Pleno dia,Decrescente,Com Vítimas Feridas,Simples,Reta,Não,4.1,27.9,30.5,63.0,100.0,9.4
183,Saída de leito carroçável,quinta-feira,Pleno dia,Crescente,Com Vítimas Feridas,Dupla,Reta,Não,1.1,23.2,26.9,89.0,100.0,6.2


In [4]:
scaler = StandardScaler()
num_variables = [
    "rain",
    "temperature_2m",
    "apparent_temperature",
    "relativehumidity_2m",
    "cloudcover",
    "windspeed_10m",
]

all_data.loc[:, num_variables] = scaler.fit_transform(all_data[num_variables])

all_data.head()

Unnamed: 0,tipo_acidente,dia_semana,fase_dia,sentido_via,classificacao_acidente,tipo_pista,tracado_via,uso_solo,rain,temperature_2m,apparent_temperature,relativehumidity_2m,cloudcover,windspeed_10m
6,Colisão lateral mesmo sentido,sábado,Pleno dia,Crescente,Com Vítimas Feridas,Dupla,Desvio Temporário,Não,-0.462921,-0.123616,0.074372,0.260338,0.774267,-1.472732
29,Colisão traseira,domingo,Pleno dia,Decrescente,Com Vítimas Feridas,Dupla,Reta,Sim,-0.331584,-0.052791,-0.355572,-0.357829,-0.046153,1.586238
72,Colisão frontal,segunda-feira,Plena Noite,Crescente,Com Vítimas Feridas,Simples,Curva,Não,-0.52859,0.230508,0.414744,0.492151,-2.138224,-0.394249
175,Colisão frontal,quinta-feira,Pleno dia,Decrescente,Com Vítimas Feridas,Simples,Reta,Não,2.098161,1.458138,1.185059,-1.671433,0.774267,0.095971
183,Saída de leito carroçável,quinta-feira,Pleno dia,Crescente,Com Vítimas Feridas,Dupla,Reta,Não,0.128098,0.34855,0.540144,0.337609,0.774267,-0.53151


In [5]:
label_encoder = LabelEncoder()

data_encoded = all_data.copy()

data_encoded["dia_semana"] = label_encoder.fit_transform(all_data["dia_semana"])
data_encoded["fase_dia"] = label_encoder.fit_transform(all_data["fase_dia"])
data_encoded["sentido_via"] = label_encoder.fit_transform(all_data["sentido_via"])
data_encoded["tipo_pista"] = label_encoder.fit_transform(all_data["tipo_pista"])
data_encoded["tracado_via"] = label_encoder.fit_transform(all_data["tracado_via"])
data_encoded["uso_solo"] = label_encoder.fit_transform(all_data["uso_solo"])
data_encoded["tipo_acidente"] = label_encoder.fit_transform(all_data["tipo_acidente"])
data_encoded["classificacao_acidente"] = label_encoder.fit_transform(
    all_data["classificacao_acidente"]
)

data_encoded.head()

Unnamed: 0,tipo_acidente,dia_semana,fase_dia,sentido_via,classificacao_acidente,tipo_pista,tracado_via,uso_solo,rain,temperature_2m,apparent_temperature,relativehumidity_2m,cloudcover,windspeed_10m
6,4,5,3,0,1,0,1,0,-0.462921,-0.123616,0.074372,0.260338,0.774267,-1.472732
29,7,0,3,1,1,0,5,1,-0.331584,-0.052791,-0.355572,-0.357829,-0.046153,1.586238
72,3,3,2,0,1,2,0,0,-0.52859,0.230508,0.414744,0.492151,-2.138224,-0.394249
175,3,2,3,1,1,2,5,0,2.098161,1.458138,1.185059,-1.671433,0.774267,0.095971
183,12,2,3,0,1,0,5,0,0.128098,0.34855,0.540144,0.337609,0.774267,-0.53151


Testando com todas as variáveis do dataset

In [6]:
X = data_encoded[
    [
        "dia_semana",
        "fase_dia",
        "sentido_via",
        "classificacao_acidente",
        "tipo_pista",
        "tracado_via",
        "uso_solo",
        "rain",
        "temperature_2m",
        "apparent_temperature",
        "relativehumidity_2m",
        "cloudcover",
        "windspeed_10m",
    ]
]

y = data_encoded[["tipo_acidente"]]

In [7]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42
)

In [8]:
model = LogisticRegression(solver="liblinear", random_state=42)
model.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


In [9]:
R_squared = model.score(X_test, y_test)
R_squared

0.38666666666666666

Como esperado, o modelo não obteve uma boa performance. A medida de avaliação utilizada foi o 𝑅ˆ2, também conhecido como coeficiente de determinação, que tem por objetivo determinar o quanto o modelo encontrado explica a variabilidade dos dados. Dado que o valor encontrado foi 𝑅^2=0.38, conclui-se que o modelo resultante
não aderiu bem aos dados e que as variáveis utilizadas não são suficientes para explicar os dados.