# Análise exploratória de dados: Bad Drivers

Utilizando a base de dados CSV do FiveThirtyEight, disponível no GitHub, este estudo visa aprimorar as habilidades em Python e identificar os principais fatores que contribuem para a ocorrência de acidentes de trânsito.

In [1]:
# Importação da biblioteca
import pandas as pd  

In [2]:
# Leitura do dataframe
df = pd.read_csv('bad-drivers.csv')

In [3]:
# Primeira impressão dos dados
df.head()

Unnamed: 0,State,Number of drivers involved in fatal collisions per billion miles,Percentage Of Drivers Involved In Fatal Collisions Who Were Speeding,Percentage Of Drivers Involved In Fatal Collisions Who Were Alcohol-Impaired,Percentage Of Drivers Involved In Fatal Collisions Who Were Not Distracted,Percentage Of Drivers Involved In Fatal Collisions Who Had Not Been Involved In Any Previous Accidents,Car Insurance Premiums ($),Losses incurred by insurance companies for collisions per insured driver ($)
0,Alabama,18.8,39,30,96,80,784.55,145.08
1,Alaska,18.1,41,25,90,94,1053.48,133.93
2,Arizona,18.6,35,28,84,96,899.47,110.35
3,Arkansas,22.4,18,26,94,95,827.34,142.39
4,California,12.0,35,28,91,89,878.41,165.63


In [4]:
# Contagem de linhas e colunas da base de dados
df.shape

(51, 8)

Para facilitar a compreensão dos dados, foram traduzidas e renomeadas as colunas para o idioma Português-BR.

In [5]:
# Renomeação das colunas
df = df.rename(columns={'State': 'Estado', 'Number of drivers involved in fatal collisions per billion miles': 'taxa_mortalidade_veicular', 'Percentage Of Drivers Involved In Fatal Collisions Who Were Speeding': 'perc_motoristas_alta_velocidade_fatais', 'Percentage Of Drivers Involved In Fatal Collisions Who Were Alcohol-Impaired': 'perc_motoristas_alcoolizados_fatais', 'Percentage Of Drivers Involved In Fatal Collisions Who Were Not Distracted' : 'perc_motoristas_atentos_fatais', 'Percentage Of Drivers Involved In Fatal Collisions Who Had Not Been Involved In Any Previous Accidents': 'perc_motoristas_sem_historico_fatais', 'Car Insurance Premiums ($)': 'custo_seguro_auto', 'Losses incurred by insurance companies for collisions per insured driver ($)': 'custo_indenizacoes_motoristas' })

In [6]:
# Descrição estastísticas dos dados
df.describe().round(2)

Unnamed: 0,taxa_mortalidade_veicular,perc_motoristas_alta_velocidade_fatais,perc_motoristas_alcoolizados_fatais,perc_motoristas_atentos_fatais,perc_motoristas_sem_historico_fatais,custo_seguro_auto,custo_indenizacoes_motoristas
count,51.0,51.0,51.0,51.0,51.0,51.0,51.0
mean,15.79,31.73,30.69,85.92,88.73,886.96,134.49
std,4.12,9.63,5.13,15.16,6.96,178.3,24.84
min,5.9,13.0,16.0,10.0,76.0,641.96,82.75
25%,12.75,23.0,28.0,83.0,83.5,768.43,114.64
50%,15.6,34.0,30.0,88.0,88.0,858.97,136.05
75%,18.5,38.0,33.0,95.0,95.0,1007.94,151.87
max,23.9,54.0,44.0,100.0,100.0,1301.52,194.78


In [7]:
# Verificação geral dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 8 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   Estado                                  51 non-null     object 
 1   taxa_mortalidade_veicular               51 non-null     float64
 2   perc_motoristas_alta_velocidade_fatais  51 non-null     int64  
 3   perc_motoristas_alcoolizados_fatais     51 non-null     int64  
 4   perc_motoristas_atentos_fatais          51 non-null     int64  
 5   perc_motoristas_sem_historico_fatais    51 non-null     int64  
 6   custo_seguro_auto                       51 non-null     float64
 7   custo_indenizacoes_motoristas           51 non-null     float64
dtypes: float64(3), int64(4), object(1)
memory usage: 3.3+ KB


- Os dados estão limpos e consistentes, sem valores ausentes, e seus tipos são adequados para realizar cálculos futuros.

A seguir, apresentamos os estados e suas respectivas taxas de mortalidade no trânsito, em ordem decrescente.

In [8]:
estado_max_taxa_fatais = df.groupby('Estado')['taxa_mortalidade_veicular'].max().sort_values(ascending=False)
print(estado_max_taxa_fatais)

Estado
North Dakota            23.9
South Carolina          23.9
West Virginia           23.8
Arkansas                22.4
Montana                 21.4
Kentucky                21.4
Louisiana               20.5
Oklahoma                19.9
Tennessee               19.5
Texas                   19.4
South Dakota            19.4
Alabama                 18.8
Arizona                 18.6
New Mexico              18.4
Pennsylvania            18.2
Alaska                  18.1
Florida                 17.9
Kansas                  17.8
Mississippi             17.6
Hawaii                  17.5
Wyoming                 17.4
North Carolina          16.8
Delaware                16.2
Missouri                16.1
Iowa                    15.7
Georgia                 15.6
Idaho                   15.3
Maine                   15.1
Nebraska                14.9
Nevada                  14.7
Indiana                 14.5
Michigan                14.1
Ohio                    14.1
Wisconsin               13.8
Colorad

- **North Dakota** liderou o ranking dos estados com a maior taxa de mortalidade no trânsito, enquanto o **Distrito de Columbia** ocupou a última posição.

Analisamos a condição física dos condutores envolvidos em acidentes fatais nos estados de North Dakota e Distrito de Columbia. Os resultados estão apresentados abaixo:

In [9]:
estado_max_perc_fatais = df[df['Estado'] == 'North Dakota']
display(estado_max_perc_fatais)

Unnamed: 0,Estado,taxa_mortalidade_veicular,perc_motoristas_alta_velocidade_fatais,perc_motoristas_alcoolizados_fatais,perc_motoristas_atentos_fatais,perc_motoristas_sem_historico_fatais,custo_seguro_auto,custo_indenizacoes_motoristas
34,North Dakota,23.9,23,42,99,86,688.75,109.72


In [10]:
estado_min_perc_fatais = df[df['Estado'] == 'District of Columbia']
display(estado_min_perc_fatais)

Unnamed: 0,Estado,taxa_mortalidade_veicular,perc_motoristas_alta_velocidade_fatais,perc_motoristas_alcoolizados_fatais,perc_motoristas_atentos_fatais,perc_motoristas_sem_historico_fatais,custo_seguro_auto,custo_indenizacoes_motoristas
8,District of Columbia,5.9,34,27,100,100,1273.89,136.05


Para uma melhor visualização do perfil dos motoristas, destacamos os três estados com a maior concentração de cada tipo de condutor.

In [11]:
top_3_max_alta_velocidade = df.groupby('Estado')['perc_motoristas_alta_velocidade_fatais'].max().sort_values(ascending=False).head(3)
print(f'\nOs três estados com maior número de acidentes fatais ocorridos por motoristas em alta velocidade:\n\n{top_3_max_alta_velocidade}')


Os três estados com maior número de acidentes fatais ocorridos por motoristas em alta velocidade:

Estado
Hawaii          54
Pennsylvania    50
Connecticut     46
Name: perc_motoristas_alta_velocidade_fatais, dtype: int64


In [12]:
top_3_alcoolizados = df.groupby('Estado')['perc_motoristas_alcoolizados_fatais'].max().sort_values(ascending=False).head(3)
print(f'\nOs três estados com maior número de acidentes fatais ocorridos por motoristas álcoolizados:\n\n{top_3_alcoolizados}')


Os três estados com maior número de acidentes fatais ocorridos por motoristas álcoolizados:

Estado
Montana         44
North Dakota    42
Hawaii          41
Name: perc_motoristas_alcoolizados_fatais, dtype: int64


In [13]:
top_3_atentos = df.groupby('Estado')['perc_motoristas_atentos_fatais'].max().sort_values(ascending=False).head(3)
print(f'\nOs três estados com maior número de acidentes fatais ocorridos por motoristas atentos:\n\n{top_3_atentos}')


Os três estados com maior número de acidentes fatais ocorridos por motoristas atentos:

Estado
District of Columbia    100
Ohio                     99
North Dakota             99
Name: perc_motoristas_atentos_fatais, dtype: int64


In [14]:
top_3_sem_historico = df.groupby('Estado')['perc_motoristas_sem_historico_fatais'].max().sort_values(ascending=False).head(3)
print(f'\nOs três estados com o maior número de acidentes fatais envolvendo motoristas com histórico limpo:\n\n{top_3_sem_historico}')


Os três estados com o maior número de acidentes fatais envolvendo motoristas com histórico limpo:

Estado
District of Columbia    100
Mississippi             100
Delaware                 99
Name: perc_motoristas_sem_historico_fatais, dtype: int64


A presença do **Hawaii** entre os três estados com maior número de acidentes fatais relacionados ao consumo de álcool e à alta velocidade, evidencia a urgência de campanhas educativas e ações de fiscalização mais eficazes.

A discrepância entre a baixa taxa de mortalidade no trânsito do **Distrito de Columbia** e o alto número de acidentes fatais envolvendo motoristas experientes indica que outros fatores, além do histórico de condução, estão em jogo. Uma análise mais aprofundada, considerando variáveis como infraestrutura, condições climáticas e perfil dos condutores, é crucial para compreender essa peculiaridade, mas os dados disponíveis limitam essa investigação.

Considerando que o custo médio do seguro foi de R$ 886.96, listamos abaixo os seguros com valores superiores à média:

In [15]:
custo_seguro_acima_media = df[df['custo_seguro_auto'] > 886.96].reset_index(drop=True)
display(custo_seguro_acima_media)

Unnamed: 0,Estado,taxa_mortalidade_veicular,perc_motoristas_alta_velocidade_fatais,perc_motoristas_alcoolizados_fatais,perc_motoristas_atentos_fatais,perc_motoristas_sem_historico_fatais,custo_seguro_auto,custo_indenizacoes_motoristas
0,Alaska,18.1,41,25,90,94,1053.48,133.93
1,Arizona,18.6,35,28,84,96,899.47,110.35
2,Connecticut,10.8,46,36,87,82,1068.73,167.02
3,Delaware,16.2,38,30,87,99,1137.87,151.48
4,District of Columbia,5.9,34,27,100,100,1273.89,136.05
5,Florida,17.9,21,29,92,94,1160.13,144.18
6,Georgia,15.6,19,25,95,93,913.15,142.8
7,Louisiana,20.5,35,33,73,98,1281.55,194.78
8,Maryland,12.5,34,32,71,99,1048.78,192.7
9,Massachusetts,8.2,23,35,87,80,1011.14,135.63


In [16]:
top_3_seguro_alta_velocidade_max = df.groupby('Estado')['custo_seguro_auto'].max().sort_values(ascending=False).head(3).reset_index()
print(f'\nRanking dos três maiores pagamentos de seguro:\n\n{top_3_seguro_alta_velocidade_max.to_string(index=False)}')


Ranking dos três maiores pagamentos de seguro:

              Estado  custo_seguro_auto
          New Jersey            1301.52
           Louisiana            1281.55
District of Columbia            1273.89


O valor médio de indenizações pagas ao motorista foi de R$ 134.49, listamos abaixo os seguros com valores superiores à média:

In [17]:
indenizacoes_acima_media = df[df['custo_indenizacoes_motoristas'] > 134.49].reset_index(drop=True)
display(indenizacoes_acima_media)

Unnamed: 0,Estado,taxa_mortalidade_veicular,perc_motoristas_alta_velocidade_fatais,perc_motoristas_alcoolizados_fatais,perc_motoristas_atentos_fatais,perc_motoristas_sem_historico_fatais,custo_seguro_auto,custo_indenizacoes_motoristas
0,Alabama,18.8,39,30,96,80,784.55,145.08
1,Arkansas,22.4,18,26,94,95,827.34,142.39
2,California,12.0,35,28,91,89,878.41,165.63
3,Colorado,13.6,37,28,79,95,835.5,139.91
4,Connecticut,10.8,46,36,87,82,1068.73,167.02
5,Delaware,16.2,38,30,87,99,1137.87,151.48
6,District of Columbia,5.9,34,27,100,100,1273.89,136.05
7,Florida,17.9,21,29,92,94,1160.13,144.18
8,Georgia,15.6,19,25,95,93,913.15,142.8
9,Illinois,12.8,36,34,94,96,803.11,139.15


In [18]:
top_3_indenizacoes_alta_velocidade = df.groupby('Estado')['custo_indenizacoes_motoristas'].max().sort_values(ascending=False).head(3).reset_index()
print(f'\nRanking dos três maiores pagamentos de indenizações para os motoristas:\n\n{top_3_indenizacoes_alta_velocidade.to_string(index=False)}')


Ranking dos três maiores pagamentos de indenizações para os motoristas:

   Estado  custo_indenizacoes_motoristas
Louisiana                         194.78
 Maryland                         192.70
 Oklahoma                         178.86


Através desta análise exploratória aprofundada, obtivemos insights cruciais sobre as nuances do comportamento dos condutores em cada estado, revelando como esses padrões influenciam diretamente os índices de acidentes de trânsito. Com base nesses achados, podemos compreender melhor a eficácia das políticas de trânsito em vigor e direcionar esforços para aprimorá-las, visando um trânsito mais seguro para todos.