# Data Analysis of Vehicle Accidents

We have datasets on crashes that occurred on Brazilian highways between 2021 and 2025. The columns include information such as the date of the accident, its cause, what happened, the number of victims, the crash’s latitude and longitude, and more.

In [1]:
import pandas as pd
import os
import numpy as np

## Concatenating all dfs for this analysis

In [2]:
# showing all rows and columns on notebook
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [3]:
# opening all dataframes
path = '/Users/juliaaffonso/Documents/Julia/Lede/Projects/Project_2/Docs/Files'
files = []
for file in os.listdir(path):
    if file.endswith(".csv"):
        file_path = os.path.join(path, file)
        df_temp = pd.read_csv(file_path, sep=';', encoding='latin-1')
        files.append(df_temp)

In [4]:
# concatenating them all together
df = pd.concat(files, ignore_index=True)
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,496519.0,2023-01-01,domingo,02:00:00,ES,101,114,SOORETAMA,Ausência de reação do condutor,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Simples,Reta,Não,1,0,1,0,0,0,1,1,-1909484877,-4005095848,SPRF-ES,DEL04-ES,UOP01-DEL04-ES
1,496543.0,2023-01-01,domingo,03:40:00,SP,116,1131,TAUBATE,Entrada inopinada do pedestre,Atropelamento de Pedestre,Com Vítimas Fatais,Plena Noite,Decrescente,Céu Claro,Dupla,Reta,Sim,5,1,0,0,0,4,0,2,-230445658,-4558259814,SPRF-SP,DEL02-SP,UOP02-DEL02-SP
2,496590.0,2023-01-01,domingo,01:40:00,MT,163,1112,GUARANTA DO NORTE,Reação tardia ou ineficiente do condutor,Tombamento,,Plena Noite,Crescente,Ignorado,Simples,Curva;Declive,Não,2,0,0,1,0,2,1,3,-970020602,-5487588757,SPRF-MT,DEL06-MT,UOP03-DEL06-MT
3,496610.0,2023-01-01,domingo,10:40:00,PR,376,3148,ORTIGUEIRA,Velocidade Incompatível,Tombamento,Sem Vítimas,Pleno dia,Crescente,Sol,Dupla,Curva,Não,2,0,0,0,1,2,0,3,-23985512,-51083555,SPRF-PR,DEL07-PR,UOP02-DEL07-PR
4,496659.0,2023-01-01,domingo,14:55:00,MG,116,5694,MANHUACU,Acumulo de água sobre o pavimento,Colisão frontal,Com Vítimas Feridas,Pleno dia,Decrescente,Chuva,Simples,Declive;Curva,Não,4,0,0,2,1,1,2,3,-2010007457,-4217884091,SPRF-MG,DEL06-MG,UOP03-DEL06-MG


In [5]:
df.shape

(298693, 30)

In [6]:
df.dtypes

id                        float64
data_inversa               object
dia_semana                 object
horario                    object
uf                         object
br                          int64
km                         object
municipio                  object
causa_acidente             object
tipo_acidente              object
classificacao_acidente     object
fase_dia                   object
sentido_via                object
condicao_metereologica     object
tipo_pista                 object
tracado_via                object
uso_solo                   object
pessoas                     int64
mortos                      int64
feridos_leves               int64
feridos_graves              int64
ilesos                      int64
ignorados                   int64
feridos                     int64
veiculos                    int64
latitude                   object
longitude                  object
regional                   object
delegacia                  object
uop           

In [7]:
# converting the date column into datetime
df['data_inversa'] = pd.to_datetime(df['data_inversa'])

In [8]:
# how many accidents per year?
df.groupby(df['data_inversa'].dt.year)['id'].count()

data_inversa
2021    64567
2022    64606
2023    67766
2024    73156
2025    28598
Name: id, dtype: int64

In [9]:
# How many accidents by cause occurred between 2021 and 2025?
df['causa_acidente'].value_counts()

causa_acidente
Reação tardia ou ineficiente do condutor                                        40329
Ausência de reação do condutor                                                  37468
Acessar a via sem observar a presença dos outros veículos                       26837
Velocidade Incompatível                                                         21983
Condutor deixou de manter distância do veículo da frente                        19935
Ingestão de álcool pelo condutor                                                17884
Manobra de mudança de faixa                                                     16936
Demais falhas mecânicas ou elétricas                                            13113
Transitar na contramão                                                           9614
Condutor Dormindo                                                                9516
Ultrapassagem Indevida                                                           7253
Desrespeitar a preferência no cruzament

In [103]:
df['causa_acidente'].value_counts(normalize=True).round(3)

causa_acidente
Reação tardia ou ineficiente do condutor                                        0.135
Ausência de reação do condutor                                                  0.125
Acessar a via sem observar a presença dos outros veículos                       0.090
Velocidade Incompatível                                                         0.074
Condutor deixou de manter distância do veículo da frente                        0.067
Ingestão de álcool pelo condutor                                                0.060
Manobra de mudança de faixa                                                     0.057
Demais falhas mecânicas ou elétricas                                            0.044
Transitar na contramão                                                          0.032
Condutor Dormindo                                                               0.032
Ultrapassagem Indevida                                                          0.024
Desrespeitar a preferência no cruzament

In [10]:
# How many accidents per year are due to cell phone use?
df[df['causa_acidente'] == 'Condutor usando celular'].groupby(df['data_inversa'].dt.year)['id'].count()

data_inversa
2021    125
2022    121
2023    128
2024    120
2025     72
Name: id, dtype: int64

In [11]:
# how many accidents per day of the week?
df['dia_semana'].value_counts(normalize=True).round(2)

dia_semana
domingo          0.16
sábado           0.16
sexta-feira      0.15
segunda-feira    0.14
quinta-feira     0.13
quarta-feira     0.13
terça-feira      0.12
Name: proportion, dtype: float64

In [13]:
# separating by states
df['uf'].value_counts()

uf
MG    38576
SC    34928
PR    32446
RJ    23783
RS    21662
SP    20215
BA    16318
GO    13970
PE    12696
ES    10475
MT    10266
MS     7468
PB     7261
CE     6337
RO     6252
RN     6215
PI     5579
MA     4959
DF     4338
PA     3934
AL     2778
TO     2688
SE     2381
AC     1086
RR      833
AP      711
AM      538
Name: count, dtype: int64

# Classifying data

We're importing CSV files from another notebook to use here and classify the causes of the accidents. We'll create two columns: one with broader categories—'human error', 'non-human error', and 'other' (to include issues like brake failure, where the fault is unclear)—and another with more specific details, such as 'human cause – alcohol' and 'human cause – drugs'.

In [14]:
classified = pd.read_csv('/Users/juliaaffonso/Documents/Julia/Lede/Projects/Project_2/Docs/New_Files/causes_for_hand_classification.csv', encoding='utf-8-sig', sep=';')

In [15]:
classified.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,ai_guess,groundtruth,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,601785.0,20/05/2024,segunda-feira,09:40:00,GO,40,87,LUZIANIA,Acessar a via sem observar a presença dos outr...,Other Human Causes,Other Human Causes,Colisão traseira,Com Vítimas Feridas,Pleno dia,Decrescente,Céu Claro,Dupla,Reta;Retorno Regulamentado,Sim,2,0,1,0,1,0,1,2,-16.116.158,-4.796.761,SPRF-DF,DEL01-DF,UOP01-DEL01-DF
1,689908.0,08/05/2025,quinta-feira,20:30:00,RJ,493,1,ITABORAI,Acessar a via sem observar a presença dos outr...,Other Human Causes,Other Human Causes,Colisão transversal,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Simples,Reta,Sim,2,0,1,1,0,0,2,2,-2276710288,-4292261766,SPRF-RJ,DEL02-RJ,UOP02-DEL02-RJ
2,391303.0,22/10/2021,sexta-feira,22:55:00,PR,277,7254,FOZ DO IGUACU,Acessar a via sem observar a presença dos outr...,Other Human Causes,Other Human Causes,Colisão transversal,Com Vítimas Feridas,Plena Noite,Decrescente,Céu Claro,Dupla,Interseção de Vias,Sim,2,0,0,2,0,0,2,2,-2550823541,-5454619865,SPRF-PR,DEL05-PR,UOP03-DEL05-PR
3,371940.0,21/07/2021,quarta-feira,07:00:00,RJ,116,172,MESQUITA,Acessar a via sem observar a presença dos outr...,Other Human Causes,Other Human Causes,Queda de ocupante de veículo,Com Vítimas Feridas,Amanhecer,Decrescente,Nublado,Dupla,Reta,Sim,1,0,1,0,0,0,1,1,-2277396562,-4340320587,SPRF-RJ,DEL01-RJ,UOP02-DEL01-RJ
4,625739.0,04/09/2024,quarta-feira,11:00:00,PE,232,255,ARCOVERDE,Acessar a via sem observar a presença dos outr...,Other Human Causes,Other Human Causes,Colisão transversal,Com Vítimas Feridas,Pleno dia,Decrescente,Céu Claro,Simples,Reta;Retorno Regulamentado,Sim,2,0,0,1,1,0,1,2,-84.124.021,-3.708.493.608,SPRF-PE,DEL04-PE,UOP02-DEL04-PE


In [16]:
classified.shape

(90, 32)

In [17]:
# making a dictionary of what we already have of classified categories
new_dict = dict(zip(classified['causa_acidente'], classified['groundtruth']))
new_dict

{'Acessar a via sem observar a presença dos outros veículos': 'Other Human Causes',
 'Acesso irregular': 'Other Human Causes',
 'Acumulo de água sobre o pavimento': 'Not Human Causes',
 'Acumulo de areia ou detritos sobre o pavimento': 'Not Human Causes',
 'Acumulo de óleo sobre o pavimento': 'Not Human Causes',
 'Animais na Pista': 'Not Human Causes',
 'Ausência de reação do condutor': 'Other Human Causes',
 'Avarias e/ou desgaste excessivo no pneu': 'Other Human Causes',
 'Carga excessiva e/ou mal acondicionada': 'Other Human Causes',
 'Chuva': 'Not Human Causes',
 'Condutor deixou de manter distância do veículo da frente': 'Other Human Causes',
 'Condutor Dormindo': 'Other Human Causes',
 'Condutor usando celular': 'Other Human Causes',
 'Conversão proibida': 'Other Human Causes',
 'Curva acentuada': 'Other',
 'Deficiência do Sistema de Iluminação/Sinalização': 'Not Human Causes',
 'Demais falhas mecânicas ou elétricas': 'Other',
 'Desrespeitar a preferência no cruzamento': 'Other H

In [18]:
len(new_dict)

31

In [19]:
# making a list of causes to do a second round of classification on another notebook
list_causes = list(new_dict.keys())
list_causes

['Acessar a via sem observar a presença dos outros veículos',
 'Acesso irregular',
 'Acumulo de água sobre o pavimento',
 'Acumulo de areia ou detritos sobre o pavimento',
 'Acumulo de óleo sobre o pavimento',
 'Animais na Pista',
 'Ausência de reação do condutor',
 'Avarias e/ou desgaste excessivo no pneu',
 'Carga excessiva e/ou mal acondicionada',
 'Chuva',
 'Condutor deixou de manter distância do veículo da frente',
 'Condutor Dormindo',
 'Condutor usando celular',
 'Conversão proibida',
 'Curva acentuada',
 'Deficiência do Sistema de Iluminação/Sinalização',
 'Demais falhas mecânicas ou elétricas',
 'Desrespeitar a preferência no cruzamento',
 'Estacionar ou parar em local proibido',
 'Ingestão de álcool pelo condutor',
 'Mal súbito do condutor',
 'Manobra de mudança de faixa',
 'Pedestre andava na pista',
 'Pista esburacada',
 'Pista Escorregadia',
 'Reação tardia ou ineficiente do condutor',
 'Trafegar com motocicleta (ou similar) entre as faixas',
 'Transitar na contramão',
 'T

In [20]:
# opening the new classification df
classified_2 = pd.read_csv('/Users/juliaaffonso/Documents/Julia/Lede/Projects/Project_2/Docs/New_Files/causes_for_hand_classification_sr.csv', encoding='utf-8-sig', sep=';')

In [21]:
# making a new dictionary of what we have of classified categories
new_dict2 = dict(zip(classified_2['causa_acidente'], classified_2['groundtruth']))
new_dict2

{'Acostamento em desnível': 'Not Human Causes',
 'Afundamento ou ondulação no pavimento': 'Not Human Causes',
 'Área urbana sem a presença de local apropriado para a travessia de pedestres': 'Not Human Causes',
 'Ausência de sinalização': 'Not Human Causes',
 'Condutor desrespeitou a iluminação vermelha do semáforo': 'Other Human Causes',
 'Declive acentuado': 'Other',
 'Demais falhas na via': 'Not Human Causes',
 'Demais Fenômenos da natureza': 'Not Human Causes',
 'Entrada inopinada do pedestre': 'Not Human Causes',
 'Falta de acostamento': 'Not Human Causes',
 'Falta de elemento de contenção que evite a saída do leito carroçável': 'Other Human Causes',
 'Frear bruscamente': 'Other',
 'Fumaça': 'Not Human Causes',
 'Iluminação deficiente': 'Not Human Causes',
 'Ingestão de álcool e/ou substâncias psicoativas pelo pedestre': 'Not Human Causes',
 'Ingestão de álcool ou de substâncias psicoativas pelo pedestre': 'Not Human Causes',
 'Ingestão de substâncias psicoativas pelo condutor': '

In [22]:
len(new_dict2)

29

In [23]:
# Merging two dicts
merged_dict = new_dict | new_dict2
merged_dict

{'Acessar a via sem observar a presença dos outros veículos': 'Other Human Causes',
 'Acesso irregular': 'Other Human Causes',
 'Acumulo de água sobre o pavimento': 'Not Human Causes',
 'Acumulo de areia ou detritos sobre o pavimento': 'Not Human Causes',
 'Acumulo de óleo sobre o pavimento': 'Not Human Causes',
 'Animais na Pista': 'Not Human Causes',
 'Ausência de reação do condutor': 'Other Human Causes',
 'Avarias e/ou desgaste excessivo no pneu': 'Other Human Causes',
 'Carga excessiva e/ou mal acondicionada': 'Other Human Causes',
 'Chuva': 'Not Human Causes',
 'Condutor deixou de manter distância do veículo da frente': 'Other Human Causes',
 'Condutor Dormindo': 'Other Human Causes',
 'Condutor usando celular': 'Other Human Causes',
 'Conversão proibida': 'Other Human Causes',
 'Curva acentuada': 'Other',
 'Deficiência do Sistema de Iluminação/Sinalização': 'Not Human Causes',
 'Demais falhas mecânicas ou elétricas': 'Other',
 'Desrespeitar a preferência no cruzamento': 'Other H

In [24]:
# creating a column with full classification
df['erro'] = df['causa_acidente'].map(merged_dict)

### Manually classifying the remaining values in the error column

In [25]:
nan_error = df['erro'].isna()

In [26]:
nan_error.value_counts()

erro
False    297512
True       1181
Name: count, dtype: int64

In [27]:
# getting a list of the unclassified accident causes
causa_acidente_for_nan_errors = df.loc[nan_error, 'causa_acidente'].unique()
causa_acidente_for_nan_errors

array(['Restrição de visibilidade em curvas horizontais',
       'Desvio temporário', 'Redutor de velocidade em desacordo',
       'Transitar na calçada', 'Modificação proibida',
       'Sinalização mal posicionada', 'Obstrução Via tentativa Assalto',
       'Deixar de acionar o farol da motocicleta (ou similar)',
       'Faixas de trânsito com largura insuficiente',
       'Sinalização encoberta',
       'Restrição de visibilidade em curvas verticais',
       'Sistema de drenagem ineficiente', 'Participar de racha',
       'Faróis desregulados',
       'Pedestre - Ingestão de álcool/ substâncias psicoativas',
       'Semáforo com defeito'], dtype=object)

In [28]:
len(causa_acidente_for_nan_errors)

16

In [29]:
# creating a third dictionary with hand classification
dict_3 = {'Restrição de visibilidade em curvas horizontais': 'Not Human Causes',
       'Desvio temporário': 'Other', 'Redutor de velocidade em desacordo':'Not Human Causes',
       'Transitar na calçada':'Other Human Causes', 'Modificação proibida':'Other Human Causes',
       'Sinalização mal posicionada':'Not Human Causes', 'Obstrução Via tentativa Assalto':'Not Human Causes',
       'Deixar de acionar o farol da motocicleta (ou similar)':'Other Human Causes',
       'Faixas de trânsito com largura insuficiente':'Not Human Causes',
       'Sinalização encoberta':'Not Human Causes',
       'Restrição de visibilidade em curvas verticais':'Not Human Causes',
       'Sistema de drenagem ineficiente':'Not Human Causes', 'Participar de racha':'Other Human Causes',
       'Faróis desregulados':'Other Human Causes',
       'Pedestre - Ingestão de álcool/ substâncias psicoativas':'Not Human Causes',
       'Semáforo com defeito':'Not Human Causes'}

In [30]:
len(dict_3)

16

In [31]:
len(dict_3.values())

16

In [32]:
len(dict_3.keys())

16

In [33]:
# Merging all of the dicts
merged_dict_2 = merged_dict | dict_3
merged_dict_2

{'Acessar a via sem observar a presença dos outros veículos': 'Other Human Causes',
 'Acesso irregular': 'Other Human Causes',
 'Acumulo de água sobre o pavimento': 'Not Human Causes',
 'Acumulo de areia ou detritos sobre o pavimento': 'Not Human Causes',
 'Acumulo de óleo sobre o pavimento': 'Not Human Causes',
 'Animais na Pista': 'Not Human Causes',
 'Ausência de reação do condutor': 'Other Human Causes',
 'Avarias e/ou desgaste excessivo no pneu': 'Other Human Causes',
 'Carga excessiva e/ou mal acondicionada': 'Other Human Causes',
 'Chuva': 'Not Human Causes',
 'Condutor deixou de manter distância do veículo da frente': 'Other Human Causes',
 'Condutor Dormindo': 'Other Human Causes',
 'Condutor usando celular': 'Other Human Causes',
 'Conversão proibida': 'Other Human Causes',
 'Curva acentuada': 'Other',
 'Deficiência do Sistema de Iluminação/Sinalização': 'Not Human Causes',
 'Demais falhas mecânicas ou elétricas': 'Other',
 'Desrespeitar a preferência no cruzamento': 'Other H

In [34]:
len(merged_dict_2)

76

In [35]:
# creating another column with full classification
df['erro'] = df['causa_acidente'].map(merged_dict_2)

In [36]:
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,erro
0,496519.0,2023-01-01,domingo,02:00:00,ES,101,114,SOORETAMA,Ausência de reação do condutor,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Simples,Reta,Não,1,0,1,0,0,0,1,1,-1909484877,-4005095848,SPRF-ES,DEL04-ES,UOP01-DEL04-ES,Other Human Causes
1,496543.0,2023-01-01,domingo,03:40:00,SP,116,1131,TAUBATE,Entrada inopinada do pedestre,Atropelamento de Pedestre,Com Vítimas Fatais,Plena Noite,Decrescente,Céu Claro,Dupla,Reta,Sim,5,1,0,0,0,4,0,2,-230445658,-4558259814,SPRF-SP,DEL02-SP,UOP02-DEL02-SP,Not Human Causes
2,496590.0,2023-01-01,domingo,01:40:00,MT,163,1112,GUARANTA DO NORTE,Reação tardia ou ineficiente do condutor,Tombamento,,Plena Noite,Crescente,Ignorado,Simples,Curva;Declive,Não,2,0,0,1,0,2,1,3,-970020602,-5487588757,SPRF-MT,DEL06-MT,UOP03-DEL06-MT,Other Human Causes
3,496610.0,2023-01-01,domingo,10:40:00,PR,376,3148,ORTIGUEIRA,Velocidade Incompatível,Tombamento,Sem Vítimas,Pleno dia,Crescente,Sol,Dupla,Curva,Não,2,0,0,0,1,2,0,3,-23985512,-51083555,SPRF-PR,DEL07-PR,UOP02-DEL07-PR,Human Causes - Speed
4,496659.0,2023-01-01,domingo,14:55:00,MG,116,5694,MANHUACU,Acumulo de água sobre o pavimento,Colisão frontal,Com Vítimas Feridas,Pleno dia,Decrescente,Chuva,Simples,Declive;Curva,Não,4,0,0,2,1,1,2,3,-2010007457,-4217884091,SPRF-MG,DEL06-MG,UOP03-DEL06-MG,Not Human Causes


In [37]:
# checking if there are still na values
df['erro'].unique()

array(['Other Human Causes', 'Not Human Causes', 'Human Causes - Speed',
       'Other', 'Human Causes - Alcohol'], dtype=object)

In [38]:
df['erro'].apply(type).value_counts()

erro
<class 'str'>    298693
Name: count, dtype: int64

In [39]:
df['erro'].value_counts(dropna=False)

erro
Other Human Causes        200866
Not Human Causes           39112
Human Causes - Speed       21983
Other                      18478
Human Causes - Alcohol     18254
Name: count, dtype: int64

In [40]:
# creating a column with a broader classification
dict_4 = {'Other Human Causes': 'Human error', 'Other': 'Other',
          'Not Human Causes': 'Not human error',
          'Human Causes - Speed': 'Human error', 'Human Causes - Alcohol': 'Human error',
          'Human Causes - Drugs': 'Human error'}

In [41]:
df['broader_error'] = df['erro'].map(dict_4)

In [42]:
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,erro,broader_error
0,496519.0,2023-01-01,domingo,02:00:00,ES,101,114,SOORETAMA,Ausência de reação do condutor,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Simples,Reta,Não,1,0,1,0,0,0,1,1,-1909484877,-4005095848,SPRF-ES,DEL04-ES,UOP01-DEL04-ES,Other Human Causes,Human error
1,496543.0,2023-01-01,domingo,03:40:00,SP,116,1131,TAUBATE,Entrada inopinada do pedestre,Atropelamento de Pedestre,Com Vítimas Fatais,Plena Noite,Decrescente,Céu Claro,Dupla,Reta,Sim,5,1,0,0,0,4,0,2,-230445658,-4558259814,SPRF-SP,DEL02-SP,UOP02-DEL02-SP,Not Human Causes,Not human error
2,496590.0,2023-01-01,domingo,01:40:00,MT,163,1112,GUARANTA DO NORTE,Reação tardia ou ineficiente do condutor,Tombamento,,Plena Noite,Crescente,Ignorado,Simples,Curva;Declive,Não,2,0,0,1,0,2,1,3,-970020602,-5487588757,SPRF-MT,DEL06-MT,UOP03-DEL06-MT,Other Human Causes,Human error
3,496610.0,2023-01-01,domingo,10:40:00,PR,376,3148,ORTIGUEIRA,Velocidade Incompatível,Tombamento,Sem Vítimas,Pleno dia,Crescente,Sol,Dupla,Curva,Não,2,0,0,0,1,2,0,3,-23985512,-51083555,SPRF-PR,DEL07-PR,UOP02-DEL07-PR,Human Causes - Speed,Human error
4,496659.0,2023-01-01,domingo,14:55:00,MG,116,5694,MANHUACU,Acumulo de água sobre o pavimento,Colisão frontal,Com Vítimas Feridas,Pleno dia,Decrescente,Chuva,Simples,Declive;Curva,Não,4,0,0,2,1,1,2,3,-2010007457,-4217884091,SPRF-MG,DEL06-MG,UOP03-DEL06-MG,Not Human Causes,Not human error


In [43]:
df.columns

Index(['id', 'data_inversa', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'latitude', 'longitude', 'regional',
       'delegacia', 'uop', 'erro', 'broader_error'],
      dtype='object')

In [44]:
df['broader_error'].unique()

array(['Human error', 'Not human error', 'Other'], dtype=object)

In [45]:
# checking each label
df[df['broader_error'] == 'Human error']['causa_acidente'].unique()

array(['Ausência de reação do condutor',
       'Reação tardia ou ineficiente do condutor',
       'Velocidade Incompatível', 'Condutor Dormindo',
       'Desrespeitar a preferência no cruzamento',
       'Transitar na contramão',
       'Acessar a via sem observar a presença dos outros veículos',
       'Manobra de mudança de faixa',
       'Avarias e/ou desgaste excessivo no pneu',
       'Condutor deixou de manter distância do veículo da frente',
       'Trafegar com motocicleta (ou similar) entre as faixas',
       'Carga excessiva e/ou mal acondicionada',
       'Condutor desrespeitou a iluminação vermelha do semáforo',
       'Ultrapassagem Indevida', 'Ingestão de álcool pelo condutor',
       'Conversão proibida',
       'Falta de elemento de contenção que evite a saída do leito carroçável',
       'Estacionar ou parar em local proibido', 'Acesso irregular',
       'Ingestão de substâncias psicoativas pelo condutor',
       'Retorno proibido', 'Condutor usando celular',
       '

In [46]:
df[df['broader_error'] == 'Other']['causa_acidente'].unique()

array(['Demais falhas mecânicas ou elétricas', 'Curva acentuada',
       'Obstrução na via', 'Frear bruscamente', 'Problema com o freio',
       'Problema na suspensão', 'Obras na pista', 'Desvio temporário',
       'Declive acentuado', 'Transtornos Mentais (exceto suicidio)'],
      dtype=object)

In [47]:
df[df['broader_error'] == 'Not human error']['causa_acidente'].unique()

array(['Entrada inopinada do pedestre',
       'Acumulo de água sobre o pavimento', 'Pista Escorregadia',
       'Pista esburacada', 'Pedestre andava na pista',
       'Acumulo de óleo sobre o pavimento', 'Chuva',
       'Mal súbito do condutor', 'Afundamento ou ondulação no pavimento',
       'Demais falhas na via', 'Animais na Pista',
       'Pedestre cruzava a pista fora da faixa',
       'Restrição de visibilidade em curvas horizontais',
       'Acostamento em desnível', 'Ausência de sinalização',
       'Ingestão de álcool e/ou substâncias psicoativas pelo pedestre',
       'Neblina', 'Falta de acostamento',
       'Redutor de velocidade em desacordo',
       'Acumulo de areia ou detritos sobre o pavimento',
       'Sinalização mal posicionada', 'Pista em desnível',
       'Iluminação deficiente',
       'Ingestão de álcool ou de substâncias psicoativas pelo pedestre',
       'Deficiência do Sistema de Iluminação/Sinalização',
       'Demais Fenômenos da natureza', 'Obstrução Via 

In [48]:
# seeing what happens the most
df['broader_error'].value_counts(normalize=True).round(2)

broader_error
Human error        0.81
Not human error    0.13
Other              0.06
Name: proportion, dtype: float64

In [49]:
# what is always like that? seeing the distribution among the years
df[df['broader_error'] == 'Human error'].groupby(df['data_inversa'].dt.year)['broader_error'].value_counts().unstack().round(2)

broader_error,Human error
data_inversa,Unnamed: 1_level_1
2021,51134
2022,51619
2023,54890
2024,59979
2025,23481


In [50]:
df.groupby(df['data_inversa'].dt.year)['broader_error'].value_counts(normalize=True).unstack().round(2)

broader_error,Human error,Not human error,Other
data_inversa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,0.79,0.14,0.07
2022,0.8,0.14,0.06
2023,0.81,0.13,0.06
2024,0.82,0.12,0.06
2025,0.82,0.12,0.06


In [96]:
# numbers of accidents per day of the year
month_day = df[df['data_inversa'].dt.year != 2025].groupby(df['data_inversa'])['id'].count().reset_index().rename(columns={'id': 'n_crashes'})
month_day.head()

Unnamed: 0,data_inversa,n_crashes
0,2021-01-01,185
1,2021-01-02,181
2,2021-01-03,219
3,2021-01-04,140
4,2021-01-05,133


In [97]:
# exporting new df
month_day.to_csv('/Users/juliaaffonso/Documents/Julia/Lede/Projects/Project_2/Docs/New_Files/crashes_day.csv', index=False, encoding='utf-8-sig', sep=',')

In [83]:
# seeing what happens the most
df['broader_error'].value_counts().round(2)

broader_error
Human error        241103
Not human error     39112
Other               18478
Name: count, dtype: int64

In [52]:
# separating among years
df.groupby(df['data_inversa'].dt.year)['broader_error'].count()

data_inversa
2021    64567
2022    64606
2023    67766
2024    73156
2025    28598
Name: broader_error, dtype: int64

In [53]:
df['fase_dia'].value_counts(normalize=True).round(2)

fase_dia
Pleno dia      0.55
Plena Noite    0.35
Anoitecer      0.06
Amanhecer      0.05
Name: proportion, dtype: float64

In [54]:
# grouping by the broader error and time of day
df.groupby('broader_error')['fase_dia'].value_counts(normalize=True).round(2)

broader_error    fase_dia   
Human error      Pleno dia      0.56
                 Plena Noite    0.34
                 Anoitecer      0.06
                 Amanhecer      0.05
Not human error  Pleno dia      0.45
                 Plena Noite    0.44
                 Anoitecer      0.06
                 Amanhecer      0.05
Other            Pleno dia      0.62
                 Plena Noite    0.28
                 Anoitecer      0.05
                 Amanhecer      0.05
Name: proportion, dtype: float64

In [55]:
# grouping by the broader error and type of highway
df.groupby('broader_error')['tipo_pista'].value_counts(normalize=True).round(2)

broader_error    tipo_pista
Human error      Simples       0.49
                 Dupla         0.42
                 Múltipla      0.10
Not human error  Simples       0.51
                 Dupla         0.42
                 Múltipla      0.07
Other            Simples       0.47
                 Dupla         0.45
                 Múltipla      0.08
Name: proportion, dtype: float64

In [56]:
# grouping by the broader error and meteorological condition
df.groupby('broader_error')['condicao_metereologica'].value_counts(normalize=True).round(2)

broader_error    condicao_metereologica
Human error      Céu Claro                 0.64
                 Nublado                   0.16
                 Chuva                     0.08
                 Sol                       0.06
                 Garoa/Chuvisco            0.03
                 Ignorado                  0.01
                 Nevoeiro/Neblina          0.01
                 Vento                     0.00
                 Granizo                   0.00
                 Neve                      0.00
Not human error  Céu Claro                 0.49
                 Chuva                     0.26
                 Nublado                   0.14
                 Garoa/Chuvisco            0.05
                 Sol                       0.04
                 Ignorado                  0.01
                 Nevoeiro/Neblina          0.01
                 Vento                     0.00
                 Granizo                   0.00
                 Neve                      0.00


In [57]:
# creating another column to categorize victims who have died
def death(number):
    if number == 0:
        return 'no'
    else:
        return 'yes'

df['death_categ'] = df['mortos'].apply(death)

In [58]:
# creating another column to categorize victims who have been injured
def injured(number):
    if number == 0:
        return 'no'
    else:
        return 'yes'

df['injured_categ'] = df['feridos'].apply(injured)

In [59]:
# creating another column to categorize victims who have been hardly injured
def hardly_injured(number):
    if number == 0:
        return 'no'
    else:
        return 'yes'

df['hardly_injured_categ'] = df['feridos_graves'].apply(hardly_injured)

In [60]:
df.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,erro,broader_error,death_categ,injured_categ,hardly_injured_categ
0,496519.0,2023-01-01,domingo,02:00:00,ES,101,114,SOORETAMA,Ausência de reação do condutor,Saída de leito carroçável,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Simples,Reta,Não,1,0,1,0,0,0,1,1,-1909484877,-4005095848,SPRF-ES,DEL04-ES,UOP01-DEL04-ES,Other Human Causes,Human error,no,yes,no
1,496543.0,2023-01-01,domingo,03:40:00,SP,116,1131,TAUBATE,Entrada inopinada do pedestre,Atropelamento de Pedestre,Com Vítimas Fatais,Plena Noite,Decrescente,Céu Claro,Dupla,Reta,Sim,5,1,0,0,0,4,0,2,-230445658,-4558259814,SPRF-SP,DEL02-SP,UOP02-DEL02-SP,Not Human Causes,Not human error,yes,no,no
2,496590.0,2023-01-01,domingo,01:40:00,MT,163,1112,GUARANTA DO NORTE,Reação tardia ou ineficiente do condutor,Tombamento,,Plena Noite,Crescente,Ignorado,Simples,Curva;Declive,Não,2,0,0,1,0,2,1,3,-970020602,-5487588757,SPRF-MT,DEL06-MT,UOP03-DEL06-MT,Other Human Causes,Human error,no,yes,yes
3,496610.0,2023-01-01,domingo,10:40:00,PR,376,3148,ORTIGUEIRA,Velocidade Incompatível,Tombamento,Sem Vítimas,Pleno dia,Crescente,Sol,Dupla,Curva,Não,2,0,0,0,1,2,0,3,-23985512,-51083555,SPRF-PR,DEL07-PR,UOP02-DEL07-PR,Human Causes - Speed,Human error,no,no,no
4,496659.0,2023-01-01,domingo,14:55:00,MG,116,5694,MANHUACU,Acumulo de água sobre o pavimento,Colisão frontal,Com Vítimas Feridas,Pleno dia,Decrescente,Chuva,Simples,Declive;Curva,Não,4,0,0,2,1,1,2,3,-2010007457,-4217884091,SPRF-MG,DEL06-MG,UOP03-DEL06-MG,Not Human Causes,Not human error,no,yes,yes


In [61]:
# did people die in most accidents?
df['death_categ'].value_counts(normalize=True).round(2) # percentage

death_categ
no     0.93
yes    0.07
Name: proportion, dtype: float64

In [62]:
df['death_categ'].value_counts() # absolut number

death_categ
no     277246
yes     21447
Name: count, dtype: int64

In [63]:
# did people get hurt in most accidents?
df['injured_categ'].value_counts(normalize=True).round(2)

injured_categ
yes    0.79
no     0.21
Name: proportion, dtype: float64

In [64]:
# did people get really hurt in most accidents? - percentage
df['hardly_injured_categ'].value_counts(normalize=True).round(2)

hardly_injured_categ
no     0.77
yes    0.23
Name: proportion, dtype: float64

In [65]:
# did people get really hurt in most accidents? - absolute number
df['hardly_injured_categ'].value_counts().round(2)

hardly_injured_categ
no     231108
yes     67585
Name: count, dtype: int64

In [66]:
# grouping by the broader error and victims
df.groupby('broader_error')['death_categ'].value_counts(normalize=True).unstack().round(2)

death_categ,no,yes
broader_error,Unnamed: 1_level_1,Unnamed: 2_level_1
Human error,0.93,0.07
Not human error,0.88,0.12
Other,0.97,0.03


In [67]:
# grouping by the broader error and victims
df.groupby('broader_error')['injured_categ'].value_counts(normalize=True).unstack().round(2)

injured_categ,no,yes
broader_error,Unnamed: 1_level_1,Unnamed: 2_level_1
Human error,0.2,0.8
Not human error,0.21,0.79
Other,0.44,0.56


In [68]:
# getting the unique values for road layout
df['tracado_via'].unique()

array(['Reta', 'Curva;Declive', 'Curva', ...,
       'Interseção de Vias;Rotatória;Curva;Retorno Regulamentado',
       'Aclive;Desvio Temporário;Viaduto;Em Obras;Curva',
       'Interseção de Vias;Rotatória;Reta;Em Obras;Retorno Regulamentado'],
      shape=(1127,), dtype=object)

In [69]:
df['tracado_via'].nunique()

1127

In [70]:
df['tracado_via'].value_counts()

tracado_via
Reta                                                                                                               172343
Curva                                                                                                               38588
Interseção de Vias                                                                                                   9503
Reta;Declive                                                                                                         6542
Declive                                                                                                              5906
Reta;Aclive                                                                                                          5536
Curva;Declive                                                                                                        5176
Aclive                                                                                                               4938
Rotatória   

In [71]:
df['tracado_via'].value_counts(normalize=True).round(2)

tracado_via
Reta                                                                                                               0.58
Curva                                                                                                              0.13
Interseção de Vias                                                                                                 0.03
Reta;Declive                                                                                                       0.02
Declive                                                                                                            0.02
Reta;Aclive                                                                                                        0.02
Curva;Declive                                                                                                      0.02
Aclive                                                                                                             0.02
Rotatória                   

In [72]:
# checking if there is a row with both 'reta' and 'curva' values
df.loc[df['tracado_via'].str.contains('reta', case=False, na=False) & df['tracado_via'].str.contains('curva', case=False, na=False)]

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,erro,broader_error,death_categ,injured_categ,hardly_injured_categ


In [73]:
df['tracado_via'].isna().value_counts()

tracado_via
False    298693
Name: count, dtype: int64

In [74]:
# creating a broader column to categorize the road's layout
df['layout_categ'] = np.nan
df.loc[df['tracado_via'].str.contains("reta", case=False, na=False), 'layout_categ'] = 'Reta'
df.loc[df['tracado_via'].str.contains("curva", case=False, na=False), 'layout_categ'] = 'Curva'
df.loc[df['layout_categ'].isna() & ~df['tracado_via'].isna(), 'layout_categ'] = 'Outro'

  df.loc[df['tracado_via'].str.contains("reta", case=False, na=False), 'layout_categ'] = 'Reta'


In [75]:
df['layout_categ'].value_counts()

layout_categ
Reta     209805
Curva     54737
Outro     34151
Name: count, dtype: int64

In [76]:
df['layout_categ'].value_counts(normalize=True).round(2)

layout_categ
Reta     0.70
Curva    0.18
Outro    0.11
Name: proportion, dtype: float64

## Filtering for Alcohol- and Drug-Related Accidents

In [77]:
# getting only alcool and drugs related causes
ad_causes = df[(df['causa_acidente'] == 'Ingestão de álcool pelo condutor') | (df['causa_acidente'] == 'Ingestão de substâncias psicoativas pelo condutor')]

In [78]:
ad_causes.head()

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,erro,broader_error,death_categ,injured_categ,hardly_injured_categ,layout_categ
141,497371.0,2023-01-05,quinta-feira,08:45:00,GO,60,107,GOIANAPOLIS,Ingestão de álcool pelo condutor,Colisão traseira,Sem Vítimas,Pleno dia,Decrescente,Nublado,Múltipla,Reta,Não,4,0,0,0,4,0,0,2,-16431,-49018,SPRF-GO,DEL02-GO,UOP01-DEL02-GO,Human Causes - Alcohol,Human error,no,no,no,Reta
227,497799.0,2023-01-07,sábado,16:18:00,RS,101,861,OSORIO,Ingestão de álcool pelo condutor,Colisão lateral mesmo sentido,Sem Vítimas,Pleno dia,Decrescente,Céu Claro,Dupla,Curva,Não,3,0,0,0,2,1,0,3,-298754149,-5025734711,SPRF-RS,DEL03-RS,UOP01-DEL03-RS,Human Causes - Alcohol,Human error,no,no,no,Curva
249,497939.0,2023-01-08,domingo,05:30:00,MT,174,388,NOVA LACERDA,Ingestão de álcool pelo condutor,Colisão lateral sentido oposto,Com Vítimas Feridas,Pleno dia,Decrescente,Sol,Simples,Reta,Não,4,0,2,0,1,1,2,3,-14482545,-5958194,SPRF-MT,DEL04-MT,UOP01-DEL04-MT,Human Causes - Alcohol,Human error,no,yes,no,Reta
256,497981.0,2023-01-08,domingo,13:20:00,BA,116,815,VITORIA DA CONQUISTA,Ingestão de álcool pelo condutor,Engavetamento,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Simples,Reta;Declive,Sim,7,0,1,0,6,0,1,4,-1477315332,-4072201784,SPRF-BA,DEL08-BA,UOP01-DEL08-BA,Human Causes - Alcohol,Human error,no,yes,no,Reta
258,497983.0,2023-01-08,domingo,12:40:00,MG,40,5118,RIBEIRAO DAS NEVES,Ingestão de álcool pelo condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Nublado,Dupla,Reta,Não,2,0,1,0,1,0,1,2,-1978164295,-4411733194,SPRF-MG,DEL01-MG,UOP02-DEL01-MG,Human Causes - Alcohol,Human error,no,yes,no,Reta


In [79]:
# checking if it worked
ad_causes['causa_acidente'].unique()

array(['Ingestão de álcool pelo condutor',
       'Ingestão de substâncias psicoativas pelo condutor'], dtype=object)

In [312]:
ad_causes.shape

(18254, 36)

In [313]:
# How many accidents due to alcohol and drug use per year
ad_causes.groupby(df['data_inversa'].dt.year)['id'].count()

data_inversa
2021    4688
2022    4433
2023    3688
2024    3927
2025    1518
Name: id, dtype: int64

In [334]:
# accidents per week day
ad_causes['dia_semana'].value_counts(normalize=True).round(2)

dia_semana
domingo          0.32
sábado           0.27
sexta-feira      0.12
segunda-feira    0.08
quinta-feira     0.08
quarta-feira     0.07
terça-feira      0.06
Name: proportion, dtype: float64

In [314]:
# number of people who died
ad_causes.groupby(df['data_inversa'].dt.year)[['mortos', 'feridos_leves', 'feridos_graves']].sum().reset_index()

Unnamed: 0,data_inversa,mortos,feridos_leves,feridos_graves
0,2021,221,2935,1001
1,2022,205,2843,1089
2,2023,188,2371,758
3,2024,200,2312,866
4,2025,95,935,401


In [315]:
# what time of the day these crashes happened
ad_causes['fase_dia'].value_counts(normalize=True).round(2)

fase_dia
Plena Noite    0.62
Pleno dia      0.27
Amanhecer      0.06
Anoitecer      0.05
Name: proportion, dtype: float64

Most of the crashes caused by alcohol or drug use happened at night.

In [316]:
# which states had the highest number of crashes
ad_causes['uf'].value_counts()

uf
SC    2847
PR    2308
RS    1789
MG    1592
GO    1255
BA     913
SP     826
RJ     780
PE     730
MT     673
MS     549
PB     492
ES     418
RN     410
DF     356
CE     354
RO     344
PI     328
MA     307
AL     204
SE     197
PA     195
TO     189
RR      95
AP      47
AC      37
AM      19
Name: count, dtype: int64

In [317]:
# most of the crashes have victims of any sort?
ad_causes['classificacao_acidente'].value_counts(normalize=True).round(2)

classificacao_acidente
Com Vítimas Feridas    0.54
Sem Vítimas            0.41
Com Vítimas Fatais     0.04
Name: proportion, dtype: float64

More than half of the crashes caused by alcohol or drugs involved victims.

In [318]:
# average number of cars involved in accidents due to alcohol and drugs
f'{ad_causes['veiculos'].mean().round(2)} cars, on average, were involved in accidents the past 5 years.'

'1.79 cars, on average, were involved in accidents the past 5 years.'

In [319]:
# average number of cars involved in accidents due to alcohol and drugs
f'{ad_causes['veiculos'].median().round(2)} cars, on median, were involved in accidents the past 5 years.'

'2.0 cars, on median, were involved in accidents the past 5 years.'

More than half of the crashes resulted in injuries or deaths.

In [320]:
ad_causes['layout_categ'].value_counts(normalize=True).round(2)

layout_categ
Reta     0.72
Curva    0.17
Outro    0.12
Name: proportion, dtype: float64

In [321]:
# grouping by the broader error and victims
ad_causes['death_categ'].value_counts(normalize=True).round(2)

death_categ
no     0.96
yes    0.04
Name: proportion, dtype: float64

In [322]:
# grouping by the broader error and victims
ad_causes['injured_categ'].value_counts(normalize=True).round(2)

injured_categ
yes    0.57
no     0.43
Name: proportion, dtype: float64

In [323]:
# grouping by the broader error and victims
ad_causes['hardly_injured_categ'].value_counts(normalize=True).round(2)

hardly_injured_categ
no     0.82
yes    0.18
Name: proportion, dtype: float64

In [324]:
ad_causes['tipo_acidente'].value_counts(normalize=True).round(4)

tipo_acidente
Saída de leito carroçável         0.2536
Colisão traseira                  0.1900
Colisão com objeto                0.1336
Colisão frontal                   0.0947
Colisão transversal               0.0694
Colisão lateral mesmo sentido     0.0676
Colisão lateral sentido oposto    0.0539
Tombamento                        0.0517
Queda de ocupante de veículo      0.0343
Capotamento                       0.0279
Atropelamento de Pedestre         0.0099
Engavetamento                     0.0078
Eventos atípicos                  0.0019
Colisão lateral                   0.0019
Derramamento de carga             0.0008
Atropelamento de Animal           0.0008
Incêndio                          0.0002
Sinistro pessoal de trânsito      0.0001
Name: proportion, dtype: float64

In [325]:
# creating a broader column to categorize the road's layout
ad_causes['accident_type'] = ad_causes['tipo_acidente']
ad_causes.loc[ad_causes['tipo_acidente'].str.contains("colisão", case=False, na=False), 'accident_type'] = 'Colisão'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ad_causes['accident_type'] = ad_causes['tipo_acidente']


In [326]:
ad_causes['accident_type'].value_counts(normalize=True).round(4)

accident_type
Colisão                         0.6110
Saída de leito carroçável       0.2536
Tombamento                      0.0517
Queda de ocupante de veículo    0.0343
Capotamento                     0.0279
Atropelamento de Pedestre       0.0099
Engavetamento                   0.0078
Eventos atípicos                0.0019
Derramamento de carga           0.0008
Atropelamento de Animal         0.0008
Incêndio                        0.0002
Sinistro pessoal de trânsito    0.0001
Name: proportion, dtype: float64

In [327]:
ad_causes['accident_type'].value_counts().round(4)

accident_type
Colisão                         11153
Saída de leito carroçável        4630
Tombamento                        944
Queda de ocupante de veículo      627
Capotamento                       509
Atropelamento de Pedestre         180
Engavetamento                     143
Eventos atípicos                   35
Derramamento de carga              15
Atropelamento de Animal            14
Incêndio                            3
Sinistro pessoal de trânsito        1
Name: count, dtype: int64

In [328]:
# more accidents close to capitals? metropolitan region? size of the city? ibge has it?

In [329]:
# export ad_causes df
ad_causes.to_csv('/Users/juliaaffonso/Documents/Julia/Lede/Projects/Project_2/Docs/New_Files/ad_causes.csv', index=False, encoding='utf-8-sig', sep=';')