### **| MBA_DSA_USP_ESALQ_2022-2024**
### **| Inteligência Artificial para predição de acidentes de trânsito na rodovia BR-101**
##### **| Análise de dados de acidentes ocorridos entre 2018 e 2023**
###### | Dataset disponível em: <https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-da-prf>

#### 1 - Pré-Processamento (Preprocessing):
#### Coleta - Importação de Dados / Limpeza de dados:  


In [1]:
''' Importação das Bibliotecas para análise dos dados:'''

# Tratamento de dados:
import pandas as pd
import numpy as np

# Plotagem de Dados:
import matplotlib.pyplot as plt
import seaborn as sns

# Dados Cartográficos:
from folium.plugins import HeatMap
import folium

'''Machine Learning'''

'Machine Learning'

##### Importação do dataset com dados de 2018 a 2023 utilizando a biblioteca Pandas:


In [2]:
# Carregando as seis planilhas com dados agrupados por: "Acidentes", "Localidade", "TipoVeiculo", "Vitimas"... 
# A função "read_csv" do pandas faz a leitura de cada arquivo no formato .CSV e carrega cada uma em um DataFrame separado.

df_2018 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2018_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)
df_2019 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2019_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)
df_2020 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2020_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)
df_2021 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2021_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)
df_2022 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2022_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)
df_2023 = pd.read_csv('C:/Users/filipe/anaconda3/envs/tccdsa1/ProjetoF2/dataset_dabertosPRF_2018-2023/acidentes2023_todas_causas_tipos.csv', sep=';', encoding='cp1252', low_memory=False)


##### Juntando os DataFrames em um único Dataframe (frames.csv):


In [3]:
# 'frames' é uma lista dos DataFrames:
frames = [df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]

# Concatenar (juntar) todos os DataFrames em um único DataFrame chamado "df_concatenado":
df_concatenado = pd.concat(frames)

# Salvar o DataFrame concatenado em um novo arquivo CSV:
df_concatenado.to_csv('planilha_concatenada.csv', index=False)


##### Verificando as linhas e colunas

In [4]:
# Imprimir a quantidade de linhas e colunas:
print(f"Shape: O DataFrame possui {df_concatenado.shape[0]} linhas e {df_concatenado.shape[1]} colunas.\n")

# Imprimir as primeiras linhas:
print("Primeiras linhas:")
print(df_concatenado.head())
print("\n")

# Imprimir as últimas linhas
print("Últimas linhas:")
print(df_concatenado.tail())
print("\n")


Shape: O DataFrame possui 2401454 linhas e 37 colunas.

Primeiras linhas:
        id     pesid data_inversa     dia_semana   horario  uf     br     km  \
0  99973.0  216523.0   2018-01-01  segunda-feira  00:20:00  RJ  116.0  303,5   
1  99973.0  216524.0   2018-01-01  segunda-feira  00:20:00  RJ  116.0  303,5   
2  99973.0  216527.0   2018-01-01  segunda-feira  00:20:00  RJ  116.0  303,5   
3  99973.0  216532.0   2018-01-01  segunda-feira  00:20:00  RJ  116.0  303,5   
4  99973.0  216530.0   2018-01-01  segunda-feira  00:20:00  RJ  116.0  303,5   

  municipio causa_principal  ...       sexo  ilesos feridos_leves  \
0   RESENDE             Sim  ...  Masculino       0             0   
1   RESENDE             Sim  ...   Feminino       0             0   
2   RESENDE             Sim  ...   Feminino       0             0   
3   RESENDE             Sim  ...  Masculino       1             0   
4   RESENDE             Sim  ...  Masculino       0             0   

  feridos_graves mortos   lati

##### Verificando os tipos dos dados de cada índice/coluna:

In [5]:
# Iterar sobre cada coluna:
for col in df_concatenado.columns:
    # Imprimir o nome da coluna e o tipo de dados:
    print(f"{col}: {df_concatenado[col].dtype}")


id: float64
pesid: float64
data_inversa: object
dia_semana: object
horario: object
uf: object
br: float64
km: object
municipio: object
causa_principal: object
causa_acidente: object
ordem_tipo_acidente: int64
tipo_acidente: object
classificacao_acidente: object
fase_dia: object
sentido_via: object
condicao_metereologica: object
tipo_pista: object
tracado_via: object
uso_solo: object
id_veiculo: float64
tipo_veiculo: object
marca: object
ano_fabricacao_veiculo: float64
tipo_envolvido: object
estado_fisico: object
idade: float64
sexo: object
ilesos: int64
feridos_leves: int64
feridos_graves: int64
mortos: int64
latitude: object
longitude: object
regional: object
delegacia: object
uop: object


##### Valores possíveis das variáveis:

In [6]:
# Para ver os valores únicos em cada coluna
for col in df_concatenado.columns:
    print(f"{col}: {df_concatenado[col].unique()}")

id: [ 99973.  99976.  99977. ... 549223. 549291. 549361.]
pesid: [ 216523.  216524.  216527. ... 1213315. 1213314. 1213505.]
data_inversa: ['2018-01-01' '2018-01-02' '2018-01-03' ... '2023-08-29' '2023-08-30'
 '2023-08-31']
dia_semana: ['segunda-feira' 'terça-feira' 'quarta-feira' 'quinta-feira' 'sexta-feira'
 'sábado' 'domingo']
horario: ['00:20:00' '00:40:00' '00:30:00' ... '05:34:00' '04:17:00' '03:04:00']
uf: ['RJ' 'SC' 'RS' 'MT' 'SP' 'DF' 'PB' 'PR' 'RN' 'MG' 'PE' 'AL' 'MS' 'GO'
 'MA' 'BA' 'TO' 'PI' 'RO' 'CE' 'SE' 'PA' 'ES' 'RR' 'AM' 'AP' 'AC']
br: [116. 282. 493. 386. 293. 163.  80. 470. 230. 277. 101.  40. 232.  70.
 104. 364. 158. 262.  60. 392. 153. 287. 135. 410. 376. 343.  10. 319.
  20. 381. 222. 471. 155. 316. 290. 251. 280. 267. 174. 418. 476. 402.
 367. 435. 365. 427. 459. 423. 373. 393. 304. 285.  50. 480. 408. 242.
 226. 432. 324. 110. 412. 407. 401. 235. 472. 369. 308. 259. 421. 424.
 146. 406. 156. 415. 356. 452. 405. 428. 465. 210. 468. 354. 272. 317.
 463. 414. 377.

##### Intervalo de valores das variáveis numéricas


In [8]:
# Para ver o intervalo de valores em cada coluna (com variáveis numéricas)
for col in df_concatenado.columns:
    if pd.api.types.is_numeric_dtype(df_concatenado[col]):
        print(f"{col}: {df_concatenado[col].min()} - {df_concatenado[col].max()}")


## Verificou-se que existem outliers na coluna "idade"

id: 99973.0 - 549361.0
pesid: 216291.0 - 1213505.0
br: 10.0 - 498.0
ordem_tipo_acidente: 1 - 15
id_veiculo: 177629.0 - 974980.0
ano_fabricacao_veiculo: 1900.0 - 2023.0
idade: 0.0 - 2022.0
ilesos: 0 - 1
feridos_leves: 0 - 1
feridos_graves: 0 - 1
mortos: 0 - 1


#### Seleção de características (Feature Selection) e identificação de variáveis para o modelo:

##### Visualização do DataFrame:

In [9]:
# Visualizando todas as colunas e as primeiras linhas do dataframe carregado por meio da biblioteca Pandas: 

# Configurando o pandas para mostrar todas as colunas
pd.set_option('display.max_columns', None)

# Mostrando as primeiras linhas do DataFrame.
df_concatenado.head(3)

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,ordem_tipo_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,id_veiculo,tipo_veiculo,marca,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop
0,99973.0,216523.0,2018-01-01,segunda-feira,00:20:00,RJ,116.0,3035,RESENDE,Sim,Condutor Dormindo,1,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Decrescente,Nublado,Múltipla,Reta,Sim,177708.0,Automóvel,GM/OPALA COMODORO SL/OPALA COMODORO SL/OPALA C...,1988.0,Condutor,Lesões Graves,58.0,Masculino,0,0,1,0,-2246937,-4444705,SPRF-RJ,DEL07-RJ,DEL5/7-UOP03/RJ
1,99973.0,216524.0,2018-01-01,segunda-feira,00:20:00,RJ,116.0,3035,RESENDE,Sim,Condutor Dormindo,1,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Decrescente,Nublado,Múltipla,Reta,Sim,177708.0,Automóvel,GM/OPALA COMODORO SL/OPALA COMODORO SL/OPALA C...,1988.0,Passageiro,Lesões Graves,59.0,Feminino,0,0,1,0,-2246937,-4444705,SPRF-RJ,DEL07-RJ,DEL5/7-UOP03/RJ
2,99973.0,216527.0,2018-01-01,segunda-feira,00:20:00,RJ,116.0,3035,RESENDE,Sim,Condutor Dormindo,1,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Decrescente,Nublado,Múltipla,Reta,Sim,177708.0,Automóvel,GM/OPALA COMODORO SL/OPALA COMODORO SL/OPALA C...,1988.0,Passageiro,Lesões Graves,9.0,Feminino,0,0,1,0,-2246937,-4444705,SPRF-RJ,DEL07-RJ,DEL5/7-UOP03/RJ


#### Filtrando o dataframe para trabalhar apenas com os registros referentes a BR-101

In [10]:
# Convertendo a coluna "br" para string:
df_concatenado['br'] = df_concatenado['br'].astype(str)


# Por meio do método str.contains() foi realizada a filtragem das linhas cuja rodovia contém o termo “101”:
# Eliminando linhas cujas rodovias não contenham o termo "101"
# Filtrando as linhas que contenham "101" na coluna "br":
df_filtrado101 = df_concatenado[df_concatenado['br'].str.contains('101')]

# Salvando o DataFrame filtrado em um arquivo .csv :
df_filtrado101.to_csv('df_filtrado101.csv', index=False)
