# Acidentes em rodovias federais 2021 - 2023

No Brasil acontecem tantos acidentes em rodovias que parece que fomos anestesiados, constantemente vemos os jornais noticiarem que determinado feriado foi marcado por tragedias em nossas rodovias. Também não é incomum ouvir relatados de conhecidos que presenciaram ou vivenciaram um ou mais acidentes durante um viagem ou passeio.


Em 2021 em rodovias federais ocorreram 64539 acidentes, 4664 com vitimais fatais (7% dos casos), e ao todo 5396 mortos. Já em 2022 os númericos quase não mudam, são 64547 acidentes, 4662 com vitimas fatais (novamente 7% dos casos) e 5439 pessoas mortas.


fontes:
https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-da-prf

https://www.cnt.org.br/painel-acidente




In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
# Datasets about accidents between 2021 and 2023
df_2021 = pd.read_csv('https://raw.githubusercontent.com/Muniz97/Federal-road-accidents---Brazil/main/0%20-%20Datasets/datatran2021.csv',encoding='ISO-8859-1', sep= ';')
df_2022 = pd.read_csv('https://raw.githubusercontent.com/Muniz97/Federal-road-accidents---Brazil/main/0%20-%20Datasets/datatran2022.csv',encoding='ISO-8859-1', sep= ';')
df_2023 = pd.read_csv('https://raw.githubusercontent.com/Muniz97/Federal-road-accidents---Brazil/main/0%20-%20Datasets/datatran2023.csv',encoding='ISO-8859-1', sep= ';')

In [None]:
# Unifies 3 years
df = pd.concat([df_2021,df_2022,df_2023], ignore_index = True)
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,331730.0,2021-01-01,sexta-feira,05:30:00,SP,116.0,453,REGISTRO,Reação tardia ou ineficiente do condutor,Tombamento,Com Vítimas Feridas,Amanhecer,Crescente,Nublado,Dupla,Curva,Não,1,0,1,0,0,0,1,1,-2456168114,-4786752174,SPRF-SP,DEL05-SP,UOP01-DEL05-SP
1,331804.0,2021-01-01,sexta-feira,08:05:00,AM,174.0,937,MANAUS,Reação tardia ou ineficiente do condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Não,6,0,1,0,5,0,1,4,-2508068,-60036434,SPRF-AM,DEL01-AM,UOP01-DEL01-AM
2,331815.0,2021-01-01,sexta-feira,10:10:00,CE,222.0,1285,ITAPAJE,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Curva,Não,3,0,2,0,0,1,2,2,-3707626,-39623509,SPRF-CE,DEL04-CE,UOP03-DEL04-CE
3,331823.0,2021-01-01,sexta-feira,12:30:00,RJ,493.0,18,MAGE,Ingestão de álcool e/ou substâncias psicoativa...,Colisão lateral,Com Vítimas Feridas,Pleno dia,Decrescente,Nublado,Simples,Curva,Sim,2,0,1,0,1,0,1,2,-226687122,-4301862696,SPRF-RJ,DEL02-RJ,UOP04-DEL02-RJ
4,331843.0,2021-01-01,sexta-feira,14:40:00,RJ,393.0,252,BARRA DO PIRAI,Condutor Dormindo,Colisão frontal,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Reta,Não,3,0,1,1,1,0,2,2,-2243422023,-4377561487,SPRF-RJ,DEL05-RJ,UOP02-DEL05-RJ


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184550 entries, 0 to 184549
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      184550 non-null  float64
 1   data_inversa            184550 non-null  object 
 2   dia_semana              184550 non-null  object 
 3   horario                 184550 non-null  object 
 4   uf                      184550 non-null  object 
 5   br                      184057 non-null  float64
 6   km                      184057 non-null  object 
 7   municipio               184550 non-null  object 
 8   causa_acidente          184550 non-null  object 
 9   tipo_acidente           184550 non-null  object 
 10  classificacao_acidente  184550 non-null  object 
 11  fase_dia                184550 non-null  object 
 12  sentido_via             184550 non-null  object 
 13  condicao_metereologica  184550 non-null  object 
 14  tipo_pista          

# Proporção de missing values

A ideia é identificar quanto missing values existe por feature. Até 5% será tratado, valores acima disso serão desconsiderados.

In [None]:
(df.isnull().sum() / df.count()) * 100 # Proporção de valores nulos

id                        0.000000
data_inversa              0.000000
dia_semana                0.000000
horario                   0.000000
uf                        0.000000
br                        0.267852
km                        0.267852
municipio                 0.000000
causa_acidente            0.000000
tipo_acidente             0.000000
classificacao_acidente    0.000000
fase_dia                  0.000000
sentido_via               0.000000
condicao_metereologica    0.000000
tipo_pista                0.000000
tracado_via               0.000000
uso_solo                  0.000000
pessoas                   0.000000
mortos                    0.000000
feridos_leves             0.000000
feridos_graves            0.000000
ilesos                    0.000000
ignorados                 0.000000
feridos                   0.000000
veiculos                  0.000000
latitude                  0.000000
longitude                 0.000000
regional                  0.003793
delegacia           

In [None]:
df['km'] = df['km'].str.replace(',','.').astype(float)
df['km'].fillna(df['km'].mean(), inplace = True)

In [None]:
df[['br', 'regional', 'delegacia', 'uop']] = df[['br', 'regional', 'delegacia', 'uop']].apply(lambda col: col.fillna(col.mode().iloc[0]))

In [None]:
df['br'] = df['br'].astype(int).astype(object)

In [None]:
# Revendo a tratativa
(df.isnull().sum() / df.count()) * 100

id                        0.0
data_inversa              0.0
dia_semana                0.0
horario                   0.0
uf                        0.0
br                        0.0
km                        0.0
municipio                 0.0
causa_acidente            0.0
tipo_acidente             0.0
classificacao_acidente    0.0
fase_dia                  0.0
sentido_via               0.0
condicao_metereologica    0.0
tipo_pista                0.0
tracado_via               0.0
uso_solo                  0.0
pessoas                   0.0
mortos                    0.0
feridos_leves             0.0
feridos_graves            0.0
ilesos                    0.0
ignorados                 0.0
feridos                   0.0
veiculos                  0.0
latitude                  0.0
longitude                 0.0
regional                  0.0
delegacia                 0.0
uop                       0.0
dtype: float64

In [None]:
# Identifiquei o valor "Não Informado", que possui a mesma função de um valor nulo
((df =='Não Informado').sum() / df.count())*100

id                         0.000000
data_inversa               0.000000
dia_semana                 0.000000
horario                    0.000000
uf                         0.000000
br                         0.000000
km                         0.000000
municipio                  0.000000
causa_acidente             0.000000
tipo_acidente              0.000000
classificacao_acidente     0.000000
fase_dia                   0.000000
sentido_via                0.267136
condicao_metereologica     0.000000
tipo_pista                 0.000000
tracado_via               17.231103
uso_solo                   0.000000
pessoas                    0.000000
mortos                     0.000000
feridos_leves              0.000000
feridos_graves             0.000000
ilesos                     0.000000
ignorados                  0.000000
feridos                    0.000000
veiculos                   0.000000
latitude                   0.000000
longitude                  0.000000
regional                   0

In [None]:
# tracado_via possui 17% de valor 'Não Informado', logo supera a margem de 5%, portanto será removido
df.drop('tracado_via', axis = 1, inplace = True)

In [None]:
sentido_via_mode = df['sentido_via'].mode().iloc[0]
df['sentido_via'].replace('Não Informado',sentido_via_mode, inplace = True)

In [None]:
((df =='Não Informado').sum() / df.count())*100

id                        0.0
data_inversa              0.0
dia_semana                0.0
horario                   0.0
uf                        0.0
br                        0.0
km                        0.0
municipio                 0.0
causa_acidente            0.0
tipo_acidente             0.0
classificacao_acidente    0.0
fase_dia                  0.0
sentido_via               0.0
condicao_metereologica    0.0
tipo_pista                0.0
uso_solo                  0.0
pessoas                   0.0
mortos                    0.0
feridos_leves             0.0
feridos_graves            0.0
ilesos                    0.0
ignorados                 0.0
feridos                   0.0
veiculos                  0.0
latitude                  0.0
longitude                 0.0
regional                  0.0
delegacia                 0.0
uop                       0.0
dtype: float64

In [None]:
df.head(50)

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,331730.0,2021-01-01,sexta-feira,05:30:00,SP,116,453.0,REGISTRO,Reação tardia ou ineficiente do condutor,Tombamento,Com Vítimas Feridas,Amanhecer,Crescente,Nublado,Dupla,Não,1,0,1,0,0,0,1,1,-2456168114,-4786752174,SPRF-SP,DEL05-SP,UOP01-DEL05-SP
1,331804.0,2021-01-01,sexta-feira,08:05:00,AM,174,937.0,MANAUS,Reação tardia ou ineficiente do condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Não,6,0,1,0,5,0,1,4,-2508068,-60036434,SPRF-AM,DEL01-AM,UOP01-DEL01-AM
2,331815.0,2021-01-01,sexta-feira,10:10:00,CE,222,128.5,ITAPAJE,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Não,3,0,2,0,0,1,2,2,-3707626,-39623509,SPRF-CE,DEL04-CE,UOP03-DEL04-CE
3,331823.0,2021-01-01,sexta-feira,12:30:00,RJ,493,18.0,MAGE,Ingestão de álcool e/ou substâncias psicoativa...,Colisão lateral,Com Vítimas Feridas,Pleno dia,Decrescente,Nublado,Simples,Sim,2,0,1,0,1,0,1,2,-226687122,-4301862696,SPRF-RJ,DEL02-RJ,UOP04-DEL02-RJ
4,331843.0,2021-01-01,sexta-feira,14:40:00,RJ,393,252.0,BARRA DO PIRAI,Condutor Dormindo,Colisão frontal,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Não,3,0,1,1,1,0,2,2,-2243422023,-4377561487,SPRF-RJ,DEL05-RJ,UOP02-DEL05-RJ
5,331844.0,2021-01-01,sexta-feira,15:20:00,BA,101,818.1,ITAMARAJU,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Não,1,0,1,0,0,0,1,1,-1716637837,-3957859039,SPRF-BA,DEL09-BA,UOP02-DEL09-BA
6,331855.0,2021-01-01,sexta-feira,15:45:00,PR,277,51.3,SAO JOSE DOS PINHAIS,Pista Escorregadia,Saída de leito carroçável,Com Vítimas Feridas,Pleno dia,Decrescente,Garoa/Chuvisco,Dupla,Não,4,0,1,0,3,0,1,3,-2559515989,-4890700787,SPRF-PR,DEL01-PR,UOP05-DEL01-PR
7,331857.0,2021-01-01,sexta-feira,15:30:00,GO,20,183.0,ALVORADA DO NORTE,Demais falhas mecânicas ou elétricas,Incêndio,Sem Vítimas,Pleno dia,Crescente,Céu Claro,Simples,Não,1,0,0,0,1,0,0,1,-14456929,-46474163,SPRF-DF,DEL02-DF,UOP02-DEL02-DF
8,331864.0,2021-01-01,sexta-feira,17:10:00,SC,470,79.1,INDAIAL,Transitar na contramão,Colisão frontal,Com Vítimas Fatais,Pleno dia,Crescente,Nublado,Simples,Não,9,2,5,1,0,1,6,3,-26951565,-49306534,SPRF-SC,DEL04-SC,UOP01-DEL04-SC
9,331871.0,2021-01-01,sexta-feira,16:15:00,MG,381,6.8,BETIM,Condutor Dormindo,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Dupla,Sim,3,0,1,1,1,0,2,2,-1996825,-44198708,SPRF-MG,DEL01-MG,UOP03-DEL01-MG


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184550 entries, 0 to 184549
Data columns (total 29 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      184550 non-null  float64
 1   data_inversa            184550 non-null  object 
 2   dia_semana              184550 non-null  object 
 3   horario                 184550 non-null  object 
 4   uf                      184550 non-null  object 
 5   br                      184550 non-null  object 
 6   km                      184550 non-null  float64
 7   municipio               184550 non-null  object 
 8   causa_acidente          184550 non-null  object 
 9   tipo_acidente           184550 non-null  object 
 10  classificacao_acidente  184550 non-null  object 
 11  fase_dia                184550 non-null  object 
 12  sentido_via             184550 non-null  object 
 13  condicao_metereologica  184550 non-null  object 
 14  tipo_pista          

In [None]:
df.to_csv('Federal_Accidents_Data_Clean.csv', index= False,encoding='ISO-8859-1')