## Principais Causas de Acidentes de Trânsito Brasil 2024
Analise de base de dados com as principais registros de acidentes de trânsitos reportados pelo DENATRAN 2024.

In [14]:
import sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

In [8]:
## Importando dados
data = pd.read_csv("acidentes2024_todas_causas_tipos.csv", index_col=0 ,sep=';',decimal=',', encoding='ISO-8859-1')

In [9]:
## Visualizando amostra dos dados
data.head()

Unnamed: 0_level_0,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,...,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
571772.0,1268971.0,2024-01-01,segunda-feira,00:05:00,RJ,101.0,272.5,TANGUA,Sim,Reação tardia ou ineficiente do condutor,...,Masculino,0.0,0.0,0.0,1.0,-22.72936,-42.701125,SPRF-RJ,DEL02-RJ,UOP03-DEL02-RJ
571774.0,1268985.0,2024-01-01,segunda-feira,00:05:00,GO,153.0,424.6,ANAPOLIS,Não,Animais na Pista,...,Feminino,1.0,0.0,0.0,0.0,-16.229185,-49.009797,SPRF-GO,DEL02-GO,UOP01-DEL02-GO
571774.0,1268985.0,2024-01-01,segunda-feira,00:05:00,GO,153.0,424.6,ANAPOLIS,Sim,Velocidade Incompatível,...,Feminino,1.0,0.0,0.0,0.0,-16.229185,-49.009797,SPRF-GO,DEL02-GO,UOP01-DEL02-GO
571777.0,1269020.0,2024-01-01,segunda-feira,01:45:00,ES,101.0,264.1,SERRA,Sim,Reação tardia ou ineficiente do condutor,...,Masculino,1.0,0.0,0.0,0.0,-20.172928,-40.267364,SPRF-ES,DEL02-ES,UOP01-DEL02-ES
571778.0,1269028.0,2024-01-01,segunda-feira,00:45:00,SC,101.0,110.0,PENHA,Não,Reação tardia ou ineficiente do condutor,...,Masculino,1.0,0.0,0.0,0.0,-26.83477,-48.706151,SPRF-SC,DEL03-SC,UOP02-DEL03-SC


In [10]:
## Verificando tipo de variáveis
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 343412 entries, 571772.0 to 621831.0
Data columns (total 36 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   pesid                   309888 non-null  float64
 1   data_inversa            343412 non-null  object 
 2   dia_semana              343412 non-null  object 
 3   horario                 343412 non-null  object 
 4   uf                      343412 non-null  object 
 5   br                      342588 non-null  float64
 6   km                      342588 non-null  float64
 7   municipio               343412 non-null  object 
 8   causa_principal         343412 non-null  object 
 9   causa_acidente          343412 non-null  object 
 10  ordem_tipo_acidente     343412 non-null  int64  
 11  tipo_acidente           343412 non-null  object 
 12  classificacao_acidente  343409 non-null  object 
 13  fase_dia                343412 non-null  object 
 14  sentido_via     

In [11]:
# Tamanho dos dados
data.shape

(343412, 36)

#### Verificando integridade dos dados

In [12]:
### Total de linhas por colunas
data.count()

pesid                     309888
data_inversa              343412
dia_semana                343412
horario                   343412
uf                        343412
br                        342588
km                        342588
municipio                 343412
causa_principal           343412
causa_acidente            343412
ordem_tipo_acidente       343412
tipo_acidente             343412
classificacao_acidente    343409
fase_dia                  343412
sentido_via               343412
condicao_metereologica    343412
tipo_pista                343412
tracado_via               343412
uso_solo                  343412
id_veiculo                332051
tipo_veiculo              332051
marca                     343412
ano_fabricacao_veiculo    332051
tipo_envolvido            309888
estado_fisico             309888
idade                     280129
sexo                      309888
ilesos                    309888
feridos_leves             309888
feridos_graves            309888
mortos    

In [16]:
# Extraindo o total de valores ausentes por coluna
valores_ausentes = data.isnull().sum().sort_values(ascending = False)

In [17]:
valores_ausentes

idade                     63283
pesid                     33524
mortos                    33524
feridos_graves            33524
feridos_leves             33524
ilesos                    33524
sexo                      33524
estado_fisico             33524
tipo_envolvido            33524
id_veiculo                11361
ano_fabricacao_veiculo    11361
tipo_veiculo              11361
br                          824
km                          824
uop                         185
delegacia                    76
regional                      3
classificacao_acidente        3
condicao_metereologica        0
causa_principal               0
longitude                     0
latitude                      0
dia_semana                    0
horario                       0
uf                            0
municipio                     0
causa_acidente                0
tipo_pista                    0
ordem_tipo_acidente           0
tipo_acidente                 0
marca                         0
fase_dia

In [18]:
# Calculando o percentual de valores ausentes
valores_ausentes_percent = valores_ausentes[valores_ausentes > 0] / data.shape[0] 

In [19]:
print(f'{valores_ausentes_percent * 100} %')

idade                     18.427719
pesid                      9.762035
mortos                     9.762035
feridos_graves             9.762035
feridos_leves              9.762035
ilesos                     9.762035
sexo                       9.762035
estado_fisico              9.762035
tipo_envolvido             9.762035
id_veiculo                 3.308271
ano_fabricacao_veiculo     3.308271
tipo_veiculo               3.308271
br                         0.239945
km                         0.239945
uop                        0.053871
delegacia                  0.022131
regional                   0.000874
classificacao_acidente     0.000874
dtype: float64 %


#### Análise Exploratória dos Dados