# Projeto I - Acidentes de Trânsito em Rodovias Federais
__Aluno: Guilherme Santos Silva__

__APRESENTAÇÃO__

Nesse projeto nós trabalharemos com os dados disponibilizados pela Polícia Rodoviária Federal (PRF), no seu portal de dados abertos, que já exploramos em uma aula passada.

Na página é possível acessar dados bem detalhados sobre acidentes e infrações de trânsito registrados pela PRF em rodovias federais de todo o país.

Nosso foco nesse projeto será nos dados de acidentes, especificamente dos anos de 2018, 2019 e 2020, cujos dados podem ser acessados nesse link.

Esse projeto será guiado, seguindo um roteiro, disposto a seguir, para ajudar vocês na elaboração das análises.

__1ª Tarefa__

Carregue em dataframes os conjuntos de dados referentes ao ano de 2018, 2019 e 2020. Corrija quaisquer erros que apareçam no carregamento dos arquivos. _É possível acessar os arquivos compactados diretamente do site, sem precisar baixá-los?_

__2ª Tarefa__

Explore os conjuntos de dados, respondendo as questões:

(a) quantos acidentes ocorreram em cada ano?

(b) quantas variáveis cada conjunto de dados registra?

(c) quais as cinco cidades brasileiras onde mais ocorreram acidentes em rodovias federais?

(d) quantos acidentes com feridos graves aconteceram na Paraíba em 2019?

__3ª Tarefa__

Para cada indicação abaixo, construa um novo dataframe, salvando-o com a terminação .csv.

(a) ranking de acidentes por estado para todos os anos (um só arquivo combinando a informação dos três anos);

(b) acidentes por dia da semana para todos os anos (um só arquivo combinando a informação dos três anos).

__4ª Tarefa__

Com relação a ocorrência dos acidentes, responda:

(a) qual a causa mais frequente e a mais rara de acidentes registrados nos três anos?

(b) qual a proporção de pessoas ilesas e de feridos graves por mês em cada um dos anos considerados? (proporção = numero de ilesos ou feridos graves/ número total de pessoas envolvidas no acidente);

(c) mostre, reorganizando o conjunto de dados, se a pandemia conseguiu diminuir ou não a incidência de acidentes nas rodovias federais.

__OBSERVAÇÕES:__

• O trabalho é individual;

• Somente serão considerados os resultados apresentados em notebooks jupyter;

• O projeto é o principal componente da nota (vale 60%), portanto, deixar de fazê-lo implica
em prejuízo na avaliação;

• Obviamente, é mandatório que todas as implementações feitas sejam discutidas, com explicações claras e diretas sobre como foi feito cada passo constante em seu trabalho. Projetos que contenham apenas o código serão considerados incompletos, assim como projetos com comentários iguais, gramatica ou semanticalmente, serão considerados PLÁGIO. E plágio é crime!

In [1]:
#Importando biblioteca pandas, numpy.

import numpy as np
import pandas as pd

#Carregando dados de dataframes sem baixar arquivos através do link do ano de 2018 até 2020, e sim, a biblioteca pandas ler o arquivo sem precisar baixar pelo parâmetro de leitura em arquivos csv.

df18 = pd.read_csv('https://arquivos.prf.gov.br/arquivos/index.php/s/MaC6cieXSFACNWT/download', encoding = "latin1", compression = "zip", sep = ";")
df18

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,99973.0,2018-01-01,segunda-feira,00:20:00,RJ,116.0,3035,RESENDE,Condutor Dormindo,Saída de leito carroçável,...,4,1,0,4,1,-2246937,-4444705,SR-RJ,DEL5/7,UOP03/RJ
1,99976.0,2018-01-01,segunda-feira,00:40:00,SC,282.0,04,FLORIANOPOLIS,Não guardar distância de segurança,Colisão traseira,...,2,1,0,2,2,-2759971687,-4857565694,SR-SC,DEL8/1,UOP01/SC
2,99977.0,2018-01-01,segunda-feira,00:30:00,RJ,493.0,1,ITABORAI,Ultrapassagem Indevida,Colisão frontal,...,0,3,1,1,3,-22763901,-42927532,SR-RJ,DEL5/4,UOP02/RJ
3,99981.0,2018-01-01,segunda-feira,01:15:00,RS,386.0,134,SARANDI,Ingestão de Álcool,Colisão transversal,...,0,2,0,0,2,-27953636,-52916374,SR-RS,DEL9/14,UOP01/RS
4,99982.0,2018-01-01,segunda-feira,00:20:00,RS,293.0,1517,CANDIOTA,Falta de Atenção à Condução,Saída de leito carroçável,...,1,0,0,1,1,-31395214,-5378391174,SR-RS,DEL9/11,UOP03/RS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
69290,252256.0,2018-12-24,segunda-feira,09:15:00,PI,343.0,2631,CAMPO MAIOR,Agressão Externa,Colisão com objeto estático,...,0,1,0,0,1,-4819326,-42158821,SR-PI,DEL17/1,UOP03/PI
69291,252652.0,2018-12-12,quarta-feira,07:00:00,BA,101.0,321,PRESIDENTE TANCREDO NEVES,Falta de Atenção à Condução,Saída de leito carroçável,...,0,0,0,1,1,-1344768518,-3942066193,SR-BA,DEL10/5,UOP03/BA
69292,252801.0,2018-11-15,quinta-feira,10:48:00,SP,116.0,529,BARRA DO TURVO,Falta de Atenção à Condução,Colisão traseira,...,0,0,1,1,2,-24939211,-48301248,SR-SP,DEL6/5,UOP03/SP
69293,253040.0,2018-11-23,sexta-feira,19:30:00,RS,472.0,5735,URUGUAIANA,Desobediência às normas de trânsito pelo condutor,Queda de ocupante de veículo,...,1,1,0,1,2,-2976355779,-5705200195,SR-RS,DEL9/13,UOP01/RS


In [2]:
df19 = pd.read_csv('https://arquivos.prf.gov.br/arquivos/index.php/s/kRBUylqz6DyQznN/download', encoding = "latin1", compression = "zip", sep = ";")
df19

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,182210.0,2019-01-01,terça-feira,01:30:00,SP,116.0,218,GUARULHOS,Falta de Atenção à Condução,Colisão com objeto estático,...,0,0,0,4,1,-2346052014,-4648772478,SR-SP,DEL6/1,UOP01/SP
1,182211.0,2019-01-01,terça-feira,01:30:00,PR,373.0,1773,PONTA GROSSA,Falta de Atenção à Condução,Colisão traseira,...,0,0,0,1,1,-2505533957,-5022776753,SR-PR,DEL7/3,UOP01/PR
2,182212.0,2019-01-01,terça-feira,00:45:00,SC,101.0,16,GARUVA,Animais na Pista,Colisão com objeto estático,...,0,0,0,1,1,-261216,-488826,SR-SC,DEL8/3,UOP01/SC
3,182214.0,2019-01-01,terça-feira,00:00:00,CE,20.0,4295,FORTALEZA,Ingestão de Substâncias Psicoativas,Colisão com objeto estático,...,1,0,0,1,1,-376999,-38670063,SR-CE,DEL16/1,UOP02/CE
4,182215.0,2019-01-01,terça-feira,01:00:00,MG,381.0,327,NOVA ERA,Falta de Atenção à Condução,Colisão transversal,...,1,1,0,1,2,-197609,-430306,SR-MG,DEL4/3,UOP01/MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67441,266255.0,2019-10-07,segunda-feira,09:10:00,ES,101.0,2705,SERRA,Falta de Atenção à Condução,Tombamento,...,1,1,0,1,2,-2023107,-4027387,SR-ES,DEL12/2,UOP01/ES
67442,266406.0,2019-11-25,segunda-feira,07:20:00,PR,116.0,125,FAZENDA RIO GRANDE,Falta de Atenção à Condução,Colisão lateral,...,0,1,1,1,2,-2559505,-4931631,SR-PR,DEL7/1,UOP03/PR
67443,266434.0,2019-06-03,segunda-feira,19:00:00,CE,222.0,14,CAUCAIA,Não guardar distância de segurança,Colisão traseira,...,1,1,0,1,2,-3736507,-3865337,SR-CE,DEL16/1,UOP01/CE
67444,266573.0,2019-07-13,sábado,19:35:00,PR,373.0,425,CANDOI,Defeito Mecânico no Veículo,Saída de leito carroçável,...,1,0,0,1,1,-257118,-5218374,SR-PR,DEL7/3,UOP02/PR


In [3]:
df20 = pd.read_csv('https://arquivos.prf.gov.br/arquivos/index.php/s/jdDLrQIf33xXSCe/download', encoding = "latin1", compression = "zip", sep = ";")
df20

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,260031.0,2020-01-01,quarta-feira,01:00:00,TO,153.0,6781,GURUPI,Animais na Pista,Atropelamento de Animal,...,5,0,0,5,1,-1177460203,-4910744996,SR-TO,UOP01/TO,
1,260036.0,2020-01-01,quarta-feira,01:00:00,RJ,116.0,178,NOVA IGUACU,Falta de Atenção do Pedestre,Atropelamento de Pedestre,...,0,1,0,0,1,-2275223028,-434379103,SR-RJ,DEL5/1,UOP02/RJ
2,260037.0,2020-01-01,quarta-feira,01:52:00,SC,101.0,2069,SAO JOSE,Ingestão de Álcool,Colisão lateral,...,0,1,0,1,2,-2759193546,-4861824557,SR-SC,DEL8/1,UOP01/SC
3,260038.0,2020-01-01,quarta-feira,01:15:00,RO,364.0,236,CACOAL,Velocidade Incompatível,Saída de leito carroçável,...,1,0,0,1,1,-1144624577,-6143761218,SR-RO,DEL21/2,UOP02/RO
4,260039.0,2020-01-01,quarta-feira,01:30:00,PR,153.0,360,REBOUCAS,Ingestão de Álcool,Capotamento,...,4,0,0,6,1,-2567503796,-5075089805,SR-PR,DEL7/3,UOP04/PR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63543,364615.0,2020-03-20,sexta-feira,09:00:00,RN,304.0,1718,ANGICOS,Falta de Atenção à Condução,Colisão traseira,...,1,2,0,2,4,-568711053,-36419458,SR-RN,UOP03,DEL01
63544,364810.0,2020-09-12,sábado,23:50:00,BA,116.0,115,VITORIA DA CONQUISTA,Ingestão de Álcool,Colisão lateral,...,0,2,0,1,2,-1487308214,-4087141514,SR-BA,UOP01,DEL08
63545,364817.0,2020-10-30,sexta-feira,10:30:00,BA,116.0,143,VITORIA DA CONQUISTA,Falta de Atenção à Condução,Colisão lateral,...,0,2,0,2,2,-1489597653,-4086098671,SR-BA,UOP01,DEL08
63546,364835.0,2020-09-20,domingo,23:00:00,BA,116.0,8,VITORIA DA CONQUISTA,Velocidade Incompatível,Queda de ocupante de veículo,...,0,0,0,1,1,-1484732305,-4088634968,SR-BA,UOP01,DEL08


In [4]:
#Aqui veremos quais são todas as colunas usadas para ter controle.

df18.columns

Index(['id', 'data_inversa', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'latitude', 'longitude', 'regional',
       'delegacia', 'uop'],
      dtype='object')

In [5]:
#Neste tópico iremos abordar o número de acidentes em cada ano (Número de Linhas x Número de Colunas)

#Começamos com o ano de 2018:

len(df18.index)

69295

In [6]:
#Ano de 2019:

len(df19.index)

67446

In [7]:
#Ano de 2020:

len(df20.index)

63548

In [8]:
#Agora encontraremos quantas variáveis cada conjunto de dados registra.

#2018

len(df18.columns)

30

In [9]:
#2019

len(df19.columns)

30

In [10]:
#2020

len(df20.columns)

30

In [11]:
#Colocando as cidades que mais ocorreram acidentes no Brasil em cada ano.
#2018:

df18['municipio'].value_counts(0).head(5)

CURITIBA     1019
SAO JOSE      874
BRASILIA      867
GUARULHOS     755
PALHOCA       688
Name: municipio, dtype: int64

In [12]:
#2019:

df19['municipio'].value_counts(0).head(5)

CURITIBA     1094
BRASILIA     1090
SAO JOSE      819
GUARULHOS     717
SERRA         633
Name: municipio, dtype: int64

In [13]:
#2020:

df20['municipio'].value_counts(0).head(5)

BRASILIA     1040
CURITIBA      950
GUARULHOS     639
SAO JOSE      629
PALHOCA       593
Name: municipio, dtype: int64

In [14]:
#Quantidade de acidentes com feridos graves aconteceram na Paraíba em 2019.

#Primeiro iremos localizar somente o estado da Paraíba.

df19pb = df19[df19['uf'] == 'PB']
df19pb

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
16,182232.0,2019-01-01,terça-feira,03:00:00,PB,230.0,5013,CAJAZEIRAS,Falta de Atenção à Condução,Colisão frontal,...,0,0,0,1,2,-6899,-385159,SR-PB,DEL14/3,UOP03/PB
47,182271.0,2019-01-01,terça-feira,04:15:00,PB,361.0,388,CATINGUEIRA,Ingestão de Álcool,Saída de leito carroçável,...,1,0,0,1,1,-710157405,-3760036469,SR-PB,DEL14/3,UOP01/PB
82,182312.0,2019-01-01,terça-feira,13:45:00,PB,230.0,189,JOAO PESSOA,Defeito Mecânico no Veículo,Tombamento,...,1,1,0,1,2,-7129088,-34850031,SR-PB,DEL14/1,UOP00/PB
220,182480.0,2019-01-02,quarta-feira,07:30:00,PB,230.0,57,CRUZ DO ESPIRITO SANTO,Velocidade Incompatível,Colisão traseira,...,0,1,0,1,2,-72028,-351125,SR-PB,DEL14/1,UOP02/PB
293,182577.0,2019-01-02,quarta-feira,16:30:00,PB,104.0,100,SAO SEBASTIAO DE LAGOA DE ROCA,Falta de Atenção à Condução,Colisão traseira,...,0,2,0,0,2,-7045145,-35857178,SR-PB,DEL14/2,UOP04/PB
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66954,259678.0,2019-12-30,segunda-feira,15:35:00,PB,230.0,505,CAJAZEIRAS,Mal Súbito,Queda de ocupante de veículo,...,1,0,0,1,1,-68995,-385494,SR-PB,DEL14/3,UOP03/PB
67009,259737.0,2019-12-30,segunda-feira,19:00:00,PB,230.0,3787,CONDADO,Desobediência às normas de trânsito pelo pedestre,Atropelamento de Pedestre,...,0,4,0,0,1,-69134,-376178,SR-PB,DEL14/3,UOP02/PB
67050,259780.0,2019-12-31,terça-feira,00:40:00,PB,101.0,122,CAAPORA,Velocidade Incompatível,Colisão traseira,...,1,1,0,1,2,-7450382,-3497994,SR-PB,DEL14/1,UOP01/PB
67100,259833.0,2019-12-31,terça-feira,12:15:00,PB,101.0,419,MAMANGUAPE,Defeito na Via,Colisão com objeto estático,...,0,2,1,0,2,-6847666,-351355,SR-PB,DEL14/1,UOP03/PB


In [15]:
#Agora a quantidade de acidente graves na Paraíba em 2019.

df19pb['feridos_graves'].value_counts().sum()

1564

In [16]:
#Agora iremos criar um novo dataframe que os três ano usados fiquem em um único df. Nesse tópico, vamos unir os dataframes com o método concat para obtermos uma filtragem detalhada.

df_concat = pd.concat([df18, df19, df20])
df_concat

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,99973.0,2018-01-01,segunda-feira,00:20:00,RJ,116.0,3035,RESENDE,Condutor Dormindo,Saída de leito carroçável,...,4,1,0,4,1,-2246937,-4444705,SR-RJ,DEL5/7,UOP03/RJ
1,99976.0,2018-01-01,segunda-feira,00:40:00,SC,282.0,04,FLORIANOPOLIS,Não guardar distância de segurança,Colisão traseira,...,2,1,0,2,2,-2759971687,-4857565694,SR-SC,DEL8/1,UOP01/SC
2,99977.0,2018-01-01,segunda-feira,00:30:00,RJ,493.0,1,ITABORAI,Ultrapassagem Indevida,Colisão frontal,...,0,3,1,1,3,-22763901,-42927532,SR-RJ,DEL5/4,UOP02/RJ
3,99981.0,2018-01-01,segunda-feira,01:15:00,RS,386.0,134,SARANDI,Ingestão de Álcool,Colisão transversal,...,0,2,0,0,2,-27953636,-52916374,SR-RS,DEL9/14,UOP01/RS
4,99982.0,2018-01-01,segunda-feira,00:20:00,RS,293.0,1517,CANDIOTA,Falta de Atenção à Condução,Saída de leito carroçável,...,1,0,0,1,1,-31395214,-5378391174,SR-RS,DEL9/11,UOP03/RS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63543,364615.0,2020-03-20,sexta-feira,09:00:00,RN,304.0,1718,ANGICOS,Falta de Atenção à Condução,Colisão traseira,...,1,2,0,2,4,-568711053,-36419458,SR-RN,UOP03,DEL01
63544,364810.0,2020-09-12,sábado,23:50:00,BA,116.0,115,VITORIA DA CONQUISTA,Ingestão de Álcool,Colisão lateral,...,0,2,0,1,2,-1487308214,-4087141514,SR-BA,UOP01,DEL08
63545,364817.0,2020-10-30,sexta-feira,10:30:00,BA,116.0,143,VITORIA DA CONQUISTA,Falta de Atenção à Condução,Colisão lateral,...,0,2,0,2,2,-1489597653,-4086098671,SR-BA,UOP01,DEL08
63546,364835.0,2020-09-20,domingo,23:00:00,BA,116.0,8,VITORIA DA CONQUISTA,Velocidade Incompatível,Queda de ocupante de veículo,...,0,0,0,1,1,-1484732305,-4088634968,SR-BA,UOP01,DEL08


In [17]:
#Veremos agora, o ranking de estados com mais acidentes nos 3 anos usados.

df_concat['uf'].value_counts().head(5)

MG    26160
SC    24145
PR    22850
RJ    13417
RS    13216
Name: uf, dtype: int64

In [18]:
#Veremos também, os dias da semana que ocorrem mais acidentes.

df_concat['dia_semana'].value_counts()

sábado           33005
domingo          33001
sexta-feira      30777
segunda-feira    27075
quinta-feira     26229
quarta-feira     25353
terça-feira      24849
Name: dia_semana, dtype: int64

In [19]:
#Agora veremos a causa mais frequente nos anos de 2018 à 2020.

df_concat['causa_acidente'].value_counts().head(5)

Falta de Atenção à Condução                          73231
Desobediência às normas de trânsito pelo condutor    24089
Velocidade Incompatível                              18763
Ingestão de Álcool                                   15689
Não guardar distância de segurança                   12082
Name: causa_acidente, dtype: int64

In [20]:
#E agora as causas mais raras de acidentes nos anos de 2018 à 2020.

df_concat['causa_acidente'].value_counts().tail().head(5)

Acumulo de óleo sobre o pavimento                                 1
Ausência de sinalização                                           1
Ingestão de álcool ou de substâncias psicoativas pelo pedestre    1
Pedestre cruzava a pista fora da faixa                            1
Fumaça                                                            1
Name: causa_acidente, dtype: int64

In [21]:
#Agora, vamos filtrar a proporção de pessoas ilesas e de feridos graves por mês em cada um dos anos considerados.
#Pessoas Ilesas:
#2018

(df18['ilesos'].sum() / df18['pessoas'].sum()).round(2)

0.45

In [22]:
#2019

(df19['ilesos'].sum() / df19['pessoas'].sum()).round(2)

0.42

In [23]:
#2020

(df20['ilesos'].sum() / df20['pessoas'].sum()).round(2)

0.41

In [24]:
#Feridos graves:
#2018:

(df18['feridos_graves'].sum() / df18['pessoas'].sum()).round(2)

0.11

In [25]:
#2019:

(df19['feridos_graves'].sum() / df19['pessoas'].sum()).round(2)

0.11

In [26]:
#2020:

(df20['feridos_graves'].sum() / df20['pessoas'].sum()).round(2)

0.12

In [37]:
#Abordaremos se a pandemia conseguiu diminuir ou não a incidência de acidentes nas rodovias federais.

df18.drop(['id', 'br'], axis = 1).mean().sum().round(2)

7.51

In [38]:
df19.drop(['id', 'br'], axis = 1).mean().sum().round(2)

7.65

In [39]:
df20.drop(['id', 'br'], axis = 1).mean().sum().round(2)

7.41

De acordo com as médias anuais, a pandemia (Ano de 2020) teve em consideração uma diminuição dos casos de acidentes no ano.