# Análise de Acidentes de Trânsito no Brasil

In [104]:
# Importando bibliotecas

import pandas as pd
import numpy as np

In [105]:
pd.set_option('display.max_columns', None)

## Concatenando os Arquivos.

In [106]:
# Leitura dos arquivos.

df_2021 = pd.read_csv('2021.csv', sep=';', encoding='ISO-8859-1')
df_2022 = pd.read_csv('2022.csv', sep=',')
df_2023 = pd.read_csv('2023.csv', sep=';', encoding='ISO-8859-1')
df_2024 = pd.read_csv('2024.csv', sep=',',)

In [107]:
# Tamanho dos arquivos.

print(f'Dados 2021:{df_2021.shape}')
print(f'Dados 2022:{df_2022.shape}')
print(f'Dados 2023:{df_2023.shape}')
print(f'Dados 2024:{df_2024.shape}')

Dados 2021:(64567, 30)
Dados 2022:(64606, 30)
Dados 2023:(67766, 30)
Dados 2024:(53950, 30)


In [157]:
# Concatenando todos os arquivos.

df_concatenado = pd.concat([df_2021, df_2022, df_2023, df_2024])
print(f'Dados concatenados:{df_concatenado.shape}')

Dados concatenados:(250889, 30)


In [158]:
# Salvando arquivo concatenado como .csv

df_concatenado.to_csv('./dados_2021_a_2024', index = False)

## Limpeza e Tratamento

In [159]:
# Leitura de dados.

df = pd.read_csv('dados_2021_a_2024')

In [160]:
# Número de linhas e colunas do dataframe.

print(f'(Número de linhas e colunas: {df.shape})')

(Número de linhas e colunas: (250889, 30))


In [161]:
# Tipo dos dados

df.dtypes

id                        float64
data_inversa               object
dia_semana                 object
horario                    object
uf                         object
br                          int64
km                         object
municipio                  object
causa_acidente             object
tipo_acidente              object
classificacao_acidente     object
fase_dia                   object
sentido_via                object
condicao_metereologica     object
tipo_pista                 object
tracado_via                object
uso_solo                   object
pessoas                     int64
mortos                      int64
feridos_leves               int64
feridos_graves              int64
ilesos                      int64
ignorados                   int64
feridos                     int64
veiculos                    int64
latitude                   object
longitude                  object
regional                   object
delegacia                  object
uop           

In [162]:
# Verificando valores ausentes e nulos.

df.isna().sum()

id                          0
data_inversa                0
dia_semana                  0
horario                     0
uf                          0
br                          0
km                          0
municipio                   0
causa_acidente              0
tipo_acidente               0
classificacao_acidente      4
fase_dia                    0
sentido_via                 0
condicao_metereologica      0
tipo_pista                  0
tracado_via                 0
uso_solo                    0
pessoas                     0
mortos                      0
feridos_leves               0
feridos_graves              0
ilesos                      0
ignorados                   0
feridos                     0
veiculos                    0
latitude                    0
longitude                   0
regional                   23
delegacia                  85
uop                       219
dtype: int64

Colunas com valores ausentes e/ou nulos
- classificacao_acidente      4
- regional                   23
- delegacia                  85
- uop                       219

In [163]:
# Verificando linhas duplicadas.

duplicados = df[df.duplicated()]
duplicados

# Não temos linhas duplicadas.

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop


## Tipagem dos Dados.

### - Coluna:  <font color="red"> id <font> 

In [164]:
# Coluna id.

df['id'] = df['id'].astype(int)

### - Coluna:  <font color="red"> data_inversa <font> 

In [165]:
# Coluna de data_inversa.

df['data_inversa'] = pd.to_datetime(df['data_inversa'])

### - Coluna:  <font color="red"> horario <font> 

In [166]:
# Coluna horario.

df['horario'] = pd.to_datetime(df['horario'], format = '%H:%M:%S')
df['horario'] = df['horario'].dt.time

### - Coluna:  <font color="red"> km <font> 

In [167]:
# Coluna km

df['km'] = df['km'].str.replace(',','.')
df['km'] = df['km'].astype(float)

### - Coluna:  <font color="red"> latitude  <font> e <font color='red'> longitude <font> 

In [168]:
# Colunas latitude e longitude

df['latitude'] = df['latitude'].str.replace(',','.')
df['longitude'] = df['longitude'].str.replace(',','.')

df['latitude'] = df['latitude'].astype(float)
df['longitude'] = df['longitude'].astype(float)

In [169]:
df.dtypes

id                                 int64
data_inversa              datetime64[ns]
dia_semana                        object
horario                           object
uf                                object
br                                 int64
km                               float64
municipio                         object
causa_acidente                    object
tipo_acidente                     object
classificacao_acidente            object
fase_dia                          object
sentido_via                       object
condicao_metereologica            object
tipo_pista                        object
tracado_via                       object
uso_solo                          object
pessoas                            int64
mortos                             int64
feridos_leves                      int64
feridos_graves                     int64
ilesos                             int64
ignorados                          int64
feridos                            int64
veiculos        

In [170]:
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,331730,2021-01-01,sexta-feira,05:30:00,SP,116,453.0,REGISTRO,Reação tardia ou ineficiente do condutor,Tombamento,Com Vítimas Feridas,Amanhecer,Crescente,Nublado,Dupla,Curva,Não,1,0,1,0,0,0,1,1,-24.561681,-47.867522,SPRF-SP,DEL05-SP,UOP01-DEL05-SP
1,331804,2021-01-01,sexta-feira,08:05:00,AM,174,937.0,MANAUS,Reação tardia ou ineficiente do condutor,Colisão traseira,,Pleno dia,Crescente,Céu Claro,Simples,Reta,Não,7,0,1,0,5,1,1,5,-2.508068,-60.036434,SPRF-AM,DEL01-AM,UOP01-DEL01-AM
2,331815,2021-01-01,sexta-feira,10:10:00,CE,222,128.5,ITAPAJE,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Curva,Não,3,0,2,0,0,11,2,12,-3.707626,-39.623509,SPRF-CE,DEL04-CE,UOP03-DEL04-CE
3,331823,2021-01-01,sexta-feira,12:30:00,RJ,493,18.0,MAGE,Ingestão de álcool e/ou substâncias psicoativa...,Colisão lateral,Com Vítimas Feridas,Pleno dia,Decrescente,Nublado,Simples,Curva,Sim,3,0,1,0,1,1,1,3,-22.668712,-43.018627,SPRF-RJ,DEL04-RJ,UOP02-DEL04-RJ
4,331843,2021-01-01,sexta-feira,14:40:00,RJ,393,252.0,BARRA DO PIRAI,Condutor Dormindo,Colisão frontal,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Reta,Não,4,0,1,1,1,1,2,3,-22.43422,-43.775615,SPRF-RJ,DEL05-RJ,UOP04-DEL05-RJ


## Valores Nulos e/ou Ausentes


### Coluna: <font color="red"> classificacao acidente </font>



In [171]:
# Verificando valores.

df['classificacao_acidente'].describe()

count                  250885
unique                      3
top       Com Vítimas Feridas
freq                   189879
Name: classificacao_acidente, dtype: object

In [172]:
# Trocando valores Nulos ou ausentes pela moda da coluna.

df['classificacao_acidente'] = df['classificacao_acidente'].fillna('Com Vítimas Feridas')

In [173]:
# Verificando a alteração.

df.isna().sum()

id                          0
data_inversa                0
dia_semana                  0
horario                     0
uf                          0
br                          0
km                          0
municipio                   0
causa_acidente              0
tipo_acidente               0
classificacao_acidente      0
fase_dia                    0
sentido_via                 0
condicao_metereologica      0
tipo_pista                  0
tracado_via                 0
uso_solo                    0
pessoas                     0
mortos                      0
feridos_leves               0
feridos_graves              0
ilesos                      0
ignorados                   0
feridos                     0
veiculos                    0
latitude                    0
longitude                   0
regional                   23
delegacia                  85
uop                       219
dtype: int64

### Coluna: <font color="red"> regional </font>


In [174]:
# Verificando valores.

df['regional'].describe()

count      250866
unique         28
top       SPRF-MG
freq        32281
Name: regional, dtype: object

In [175]:
# Trocando valores Nulos ou ausentes pela moda da coluna.


df['regional'] = df['regional'].fillna('SPRF-MG')

In [176]:
df.isna().sum()

id                          0
data_inversa                0
dia_semana                  0
horario                     0
uf                          0
br                          0
km                          0
municipio                   0
causa_acidente              0
tipo_acidente               0
classificacao_acidente      0
fase_dia                    0
sentido_via                 0
condicao_metereologica      0
tipo_pista                  0
tracado_via                 0
uso_solo                    0
pessoas                     0
mortos                      0
feridos_leves               0
feridos_graves              0
ilesos                      0
ignorados                   0
feridos                     0
veiculos                    0
latitude                    0
longitude                   0
regional                    0
delegacia                  85
uop                       219
dtype: int64

### Coluna: <font color="red"> delegagia </font>


In [177]:
# Verificando valores.

df['delegacia'].describe()

count       250804
unique         154
top       DEL01-PR
freq         10079
Name: delegacia, dtype: object

In [178]:
# Trocando valores Nulos ou ausentes pela moda da coluna.


df['delegacia'] = df['delegacia'].fillna('DEL01-PR')

In [179]:
df.isna().sum()

id                          0
data_inversa                0
dia_semana                  0
horario                     0
uf                          0
br                          0
km                          0
municipio                   0
causa_acidente              0
tipo_acidente               0
classificacao_acidente      0
fase_dia                    0
sentido_via                 0
condicao_metereologica      0
tipo_pista                  0
tracado_via                 0
uso_solo                    0
pessoas                     0
mortos                      0
feridos_leves               0
feridos_graves              0
ilesos                      0
ignorados                   0
feridos                     0
veiculos                    0
latitude                    0
longitude                   0
regional                    0
delegacia                   0
uop                       219
dtype: int64

### Coluna: <font color="red"> uop </font>

In [180]:
# Verificando valores.

df['uop'].describe()

count             250670
unique               404
top       UOP01-DEL01-SC
freq                4088
Name: uop, dtype: object

In [181]:
# Trocando valores Nulos ou ausentes pela moda da coluna.


df['uop'] = df['uop'].fillna('UOP01-DEL01-SC')

In [182]:
df.isna().sum()

id                        0
data_inversa              0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
pessoas                   0
mortos                    0
feridos_leves             0
feridos_graves            0
ilesos                    0
ignorados                 0
feridos                   0
veiculos                  0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
uop                       0
dtype: int64

# Engenharia de Atributos

In [183]:
df_teste = df

In [186]:
df

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,data_completa,Ano,mes,periodo
0,331730,2021-01-01,sexta-feira,05:30:00,SP,116,453.0,REGISTRO,Reação tardia ou ineficiente do condutor,Tombamento,Com Vítimas Feridas,Amanhecer,Crescente,Nublado,Dupla,Curva,Não,1,0,1,0,0,0,1,1,-24.561681,-47.867522,SPRF-SP,DEL05-SP,UOP01-DEL05-SP,2021-01-01 05:30:00,2021,1,5
1,331804,2021-01-01,sexta-feira,08:05:00,AM,174,937.0,MANAUS,Reação tardia ou ineficiente do condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Não,7,0,1,0,5,1,1,5,-2.508068,-60.036434,SPRF-AM,DEL01-AM,UOP01-DEL01-AM,2021-01-01 08:05:00,2021,1,8
2,331815,2021-01-01,sexta-feira,10:10:00,CE,222,128.5,ITAPAJE,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Curva,Não,3,0,2,0,0,11,2,12,-3.707626,-39.623509,SPRF-CE,DEL04-CE,UOP03-DEL04-CE,2021-01-01 10:10:00,2021,1,10
3,331823,2021-01-01,sexta-feira,12:30:00,RJ,493,18.0,MAGE,Ingestão de álcool e/ou substâncias psicoativa...,Colisão lateral,Com Vítimas Feridas,Pleno dia,Decrescente,Nublado,Simples,Curva,Sim,3,0,1,0,1,1,1,3,-22.668712,-43.018627,SPRF-RJ,DEL04-RJ,UOP02-DEL04-RJ,2021-01-01 12:30:00,2021,1,12
4,331843,2021-01-01,sexta-feira,14:40:00,RJ,393,252.0,BARRA DO PIRAI,Condutor Dormindo,Colisão frontal,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Reta,Não,4,0,1,1,1,1,2,3,-22.434220,-43.775615,SPRF-RJ,DEL05-RJ,UOP04-DEL05-RJ,2021-01-01 14:40:00,2021,1,14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
250884,635554,2024-09-27,sexta-feira,16:15:00,BA,324,615.0,SALVADOR,Condutor deixou de manter distância do veículo...,Colisão lateral mesmo sentido,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Dupla,Reta,Sim,2,0,1,0,1,0,1,2,-12.872064,-38.427464,SPRF-BA,DEL01-BA,UOP01-DEL01-BA,2024-09-27 16:15:00,2024,9,16
250885,635630,2024-09-15,domingo,20:30:00,RJ,116,108.0,GUAPIMIRIM,Condutor deixou de manter distância do veículo...,Colisão traseira,Com Vítimas Feridas,Plena Noite,Crescente,Nublado,Dupla,Reta,Não,2,0,1,0,1,0,1,2,-22.535843,-42.991250,SPRF-RJ,DEL04-RJ,UOP01-DEL04-RJ,2024-09-15 20:30:00,2024,9,20
250886,635699,2024-08-13,terça-feira,16:22:00,AP,210,3.0,MACAPA,Transitar na calçada,Colisão lateral sentido oposto,Sem Vítimas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Sim,3,0,0,0,3,0,0,2,0.087234,-51.085690,SPRF-AP,DEL01-AP,UOP01-DEL01-AP,2024-08-13 16:22:00,2024,8,16
250887,635887,2024-09-21,sábado,18:50:00,PR,277,679.0,MEDIANEIRA,Manobra de mudança de faixa,Capotamento,Com Vítimas Feridas,Plena Noite,Decrescente,Céu Claro,Dupla,Declive;Reta,Não,2,0,1,0,1,0,1,2,-25.317580,-54.156842,SPRF-PR,DEL05-PR,UOP01-DEL05-PR,2024-09-21 18:50:00,2024,9,18


## Criação de Colunas


Colunas:
- Ano;
- Mês;
- Período do dia.


In [187]:
# Criando uma coluna do tipo datetime com a data completa (ano, mês, dia e horário).

df['data_completa'] = df['data_inversa'].astype(str) + ' ' + df['horario'].astype(str)
df['data_completa'] = pd.to_datetime(df['data_completa'])

In [188]:
# Extraindo o ano, mês e hora.

df['Ano'] = df['data_completa'].dt.year
df['mes'] = df['data_completa'].dt.month
df['periodo'] = df['data_completa'].dt.hour



### Coluna Mês

In [189]:
# Criando um dicionário para os meses.

dic_mes = {
    1:'Janeiro',
    2:'Fevereiro',
    3:'Março',
    4:'Abril',
    5:'Maio',
    6:'Junho',
    7:'Julho',
    8:'Agosto',
    9:'Setembro',
    10:'Outubro',
    11:'Novembro',
    12:'Dezembro'
}

In [190]:
# Atribuindo valores de meses para coluna mes.

df['mes'] = df['mes'].map(dic_mes)

### Coluna Período

Coluna com base no horário em que o acidente aconteceu.
- 00 até 05 Madrugada;
- 06 até 11 Manhã;
- 12 até 17 Tarde;
- 18 até 23 Noite. 

In [192]:
df['periodo'] = pd.cut(df['periodo'], 
                             bins = [0, 5, 11,17, 23],
                             labels = ['Madrugada', 'Manhã', 'Tarde', 'Noite']
                            )/

In [195]:
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,data_completa,Ano,mes,periodo
0,331730,2021-01-01,sexta-feira,05:30:00,SP,116,453.0,REGISTRO,Reação tardia ou ineficiente do condutor,Tombamento,Com Vítimas Feridas,Amanhecer,Crescente,Nublado,Dupla,Curva,Não,1,0,1,0,0,0,1,1,-24.561681,-47.867522,SPRF-SP,DEL05-SP,UOP01-DEL05-SP,2021-01-01 05:30:00,2021,Janeiro,Madrugada
1,331804,2021-01-01,sexta-feira,08:05:00,AM,174,937.0,MANAUS,Reação tardia ou ineficiente do condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Não,7,0,1,0,5,1,1,5,-2.508068,-60.036434,SPRF-AM,DEL01-AM,UOP01-DEL01-AM,2021-01-01 08:05:00,2021,Janeiro,Manhã
2,331815,2021-01-01,sexta-feira,10:10:00,CE,222,128.5,ITAPAJE,Velocidade Incompatível,Tombamento,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Curva,Não,3,0,2,0,0,11,2,12,-3.707626,-39.623509,SPRF-CE,DEL04-CE,UOP03-DEL04-CE,2021-01-01 10:10:00,2021,Janeiro,Manhã
3,331823,2021-01-01,sexta-feira,12:30:00,RJ,493,18.0,MAGE,Ingestão de álcool e/ou substâncias psicoativa...,Colisão lateral,Com Vítimas Feridas,Pleno dia,Decrescente,Nublado,Simples,Curva,Sim,3,0,1,0,1,1,1,3,-22.668712,-43.018627,SPRF-RJ,DEL04-RJ,UOP02-DEL04-RJ,2021-01-01 12:30:00,2021,Janeiro,Tarde
4,331843,2021-01-01,sexta-feira,14:40:00,RJ,393,252.0,BARRA DO PIRAI,Condutor Dormindo,Colisão frontal,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Reta,Não,4,0,1,1,1,1,2,3,-22.43422,-43.775615,SPRF-RJ,DEL05-RJ,UOP04-DEL05-RJ,2021-01-01 14:40:00,2021,Janeiro,Tarde


# Análise Exploratória dos Dados


Realizem análises para compreender a distribuição dos dados:

- Histogramas e boxplots das principais variáveis.
- Matriz de correlação entre variáveis numéricas.
- Etc.

Documentem insights relevantes obtidos durante a exploração:

- Explorar qual o período do dia que ocorrem mais acidentes;
- Explorar quais os dias da semana ocorrem mais acidentes;
- Explorar se a condição metereológica influencia nos acidentes;
- Explorar se existe relação em tipo de pista e o número de acidentes.

Lembrar de criar gráficos e figuras para visualização dos dados.