<a href="https://colab.research.google.com/github/lucifernandes/acidentesPRF/blob/master/scrub_explore_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


#**Dados abertos sobre Acidentes da Polícia Rodoviária Federal**

---



### Lendo as bases de dados

In [1]:
import pandas as pd

url = 'https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases'
bases = {'Ocorrencias': {'folder': 'Agrupados%20por%20ocorrencia', 
                         'files': ['datatran2007.csv', 'datatran2008.csv', 'datatran2009.csv', 'datatran2010.csv', 'datatran2011.csv', 'datatran2012.csv', 'datatran2013.csv', 'datatran2014.csv', 'datatran2015.csv', 'datatran2016_atual.csv', 'datatran2017.csv', 'datatran2018.csv', 'datatran2019.csv', 'datatran2020.csv']}, 
         'Pessoas': {'folder': 'Agrupados%20por%20pessoa', 
                     'files': ['acidentes2007.csv', 'acidentes2008.csv', 'acidentes2009.csv', 'acidentes2010.csv', 'acidentes2011.csv', 'acidentes2012.csv', 'acidentes2013.csv', 'acidentes2014.csv', 'acidentes2015.csv', 'acidentes2016_atual.csv', 'acidentes2017.csv', 'acidentes2018.csv', 'acidentes2019.csv', 'acidentes2020.csv']}, 
         'Acidentes': {'folder': 'Agrupados%20por%20pessoa%20-%20Todas%20as%20causas%20e%20tipos%20de%20acidentes%20(desde%202017)', 
                       'files': ['acidentes2017_todas_causas_tipos.csv', 'acidentes2018_todas_causas_tipos.csv', 'acidentes2019_todas_causas_tipos.csv', 'acidentes2020_todas_causas_tipos.csv']}
         }

In [2]:
# Mostra o link de todas as bases
for base in bases.keys():
  for arq in bases[base]['files']:
    print(f'{url}/{bases[base]["folder"]}/{arq}?raw=true')

https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2007.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2008.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2009.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2010.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2011.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2012.csv?raw=true
https://media.githubusercontent.com/media/lucifernandes/acidentesPRF/master/Bases/Agrupados%20por%20ocorrencia/datatran2013.csv?raw=true
https://media.githubusercontent.com/media

# **Etapa Limpeza**
Para a etapa de limpeza, foi optado, a priori, pelo estudo e análise das três bases disponibilizadas pela PRF separadamente, onde cada uma delas possuem *sub-bases* correspondentes ao anos referentes aos dados coletados:
-   **Agrupados por ocorrência**;
-  **Agrupados por pessoa**;
-  **Agrupados por pessoa - Todas as causas e tipos de acidentes (a partir de 2017)**.
 	> Optou-se em desconsiderar esta base, por apresentar atributos inclusos nas outras bases, evitando redundância.
 
O desenvolvimento da etapa segue fases aplicadas a cada base, tais foram:
1. Levantamento de todos os atributos de cada *sub-base* (ano);
	> A partir da visualização dos atributos presentes nas *sub-bases*, optou-se por aplicar as fases seguintes às *sub-bases* dos anos 2017 à 2020, devido uma melhor consistência e clareza dos dados.
2. Selecionar os atributos a serem **mantidos** e os a serem **descartados**;
3. Concatenação das *sub-bases*;
4. Analisar cada atributo;
  >Verificar quais possuem valores nulos e os tipos dos dados
5. Tratar e padronizar cada atributo.

## Base 1: **Agrupados por ocorrência**

In [None]:
# Observações para a reunião (Hugo)

# Tranformação dos atributos categóricos para numéricos (One-hot ou colocar números)
# Escolher atributos que podem gerar enviesamento(Naturalidade, Sexo) 
# Escolher atributos que serão estimados (Classificação e regressão)
# Normalização/padronização dos atributos numéricos
# Escolher estratégias para solução de dados faltantes (Ignorada, Não informada, (null), NULL, NaN)
# Analisar possível problema de Id's repetidos

# Base de Pessoas
# pesid repetido
#   Naturalidade = "Não Informado"
#   Marca = (null)

# Base de Ocorrencias 
# Id repetido
#   classificacao_acidente = (null)
#   condicao_metereologica = "Ignorada"

## Base 2: **Agrupados por pessoa**



---


- Atributos a serem **MANTIDOS**: 

|Atributos                |Critério utilizado                               |                
|----------------|-------------------------------|
|id, pesid|Relacionamento com a base *Agrupamento por ocorrência*  |     
|data_inversa, dia_semana, horario|Tempo, período           |            
|uf, br, km, municipio|Localização geográfica|
| causa_acidente, tipo_acidente, classificação_acidente |Características do acidente |
|tipo_envolvido, estado_fisico, idade, sexo, ilesos, feridos_leves, feridos_graves, mortos|Características, estado da pessoa envolvida|
|condicao_metereologica|Característica Meteorológica|
|tracado_via|Características espaço físico da ocorrência|
|tipo_veiculo |Característica do meio motor da ocorrência|

- Atributos a serem **REMOVIDOS**: 

|Atributos                |Critério utilizado                               |                
|----------------|-------------------------------|
|fase_dia, latitude, longitude, regional|Podem ser derivados de outros atributos |
|sentido_via, uso_solo, uop, id_veiculo, marca, ano_fabricacao_veiculo, delegacia | Confusos e Dispensáveis |




In [3]:
# IMPORTAÇÃO DAS 4 ÚLTIMAS BASES DE PESSOAS
dfs = list()
t = len(bases['Pessoas']['files'])
for i in range(t-4, t):
  dfs.append(pd.read_csv(f'{url}/{bases["Pessoas"]["folder"]}/{bases["Pessoas"]["files"][i]}?raw=true', encoding='ISO-8859-1', sep=';'))

dfPessoas = pd.concat(dfs)
dfPessoas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 609882 entries, 0 to 78411
Data columns (total 35 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      609882 non-null  float64
 1   pesid                   609878 non-null  float64
 2   data_inversa            609882 non-null  object 
 3   dia_semana              609882 non-null  object 
 4   horario                 609882 non-null  object 
 5   uf                      609882 non-null  object 
 6   br                      608891 non-null  float64
 7   km                      608891 non-null  object 
 8   municipio               609882 non-null  object 
 9   causa_acidente          609882 non-null  object 
 10  tipo_acidente           609882 non-null  object 
 11  classificacao_acidente  609882 non-null  object 
 12  fase_dia                609882 non-null  object 
 13  sentido_via             609882 non-null  object 
 14  condicao_metereologic

In [4]:
# REMOÇÃO DE ATRIBUTOS
dfPessoas = dfPessoas.drop(columns=['fase_dia', 'sentido_via', 'uso_solo', 'id_veiculo', 'marca', 'ano_fabricacao_veiculo', 'latitude', 'longitude', 'regional', 'delegacia', 'uop'])
dfPessoas.shape

(609882, 24)

In [5]:
# VERIFICAÇÃO DE NULOS
def testa_valores_nulos(dataframe, atributo):
  if sum(dataframe[atributo].isnull()) == 0:
    print('\033[94m', atributo, ' => OK (não tem valores nulos)')
  else:
    print('\033[93m', atributo, ' => *** TEM VALORES NULOS')

def testa_valores_null(dataframe, atributo):
  if sum(dataframe[atributo] == '(null)') == 0:
    print('\033[92m', atributo, ' => OK (não tem valores "(null)")')
  else:
    print('\033[91m', atributo, ' => *** TEM VALORES "(null)"')

print('-'*30, 'VALORES NULOS', '-'*30)
for attr in dfPessoas.columns:
  testa_valores_nulos(dfPessoas, attr)

print('\033[0m', '-'*30, 'VALORES (NULL)', '-'*30)
for attr in dfPessoas.columns:
  testa_valores_null(dfPessoas, attr)

------------------------------ VALORES NULOS ------------------------------
[94m id  => OK (não tem valores nulos)
[93m pesid  => *** TEM VALORES NULOS
[94m data_inversa  => OK (não tem valores nulos)
[94m dia_semana  => OK (não tem valores nulos)
[94m horario  => OK (não tem valores nulos)
[94m uf  => OK (não tem valores nulos)
[93m br  => *** TEM VALORES NULOS
[93m km  => *** TEM VALORES NULOS
[94m municipio  => OK (não tem valores nulos)
[94m causa_acidente  => OK (não tem valores nulos)
[94m tipo_acidente  => OK (não tem valores nulos)
[94m classificacao_acidente  => OK (não tem valores nulos)
[94m condicao_metereologica  => OK (não tem valores nulos)
[94m tipo_pista  => OK (não tem valores nulos)
[94m tracado_via  => OK (não tem valores nulos)
[94m tipo_veiculo  => OK (não tem valores nulos)
[94m tipo_envolvido  => OK (não tem valores nulos)
[94m estado_fisico  => OK (não tem valores nulos)
[93m idade  => *** TEM VALORES NULOS
[94m sexo  => OK (não tem valores 

  res_values = method(rvalues)


[92m data_inversa  => OK (não tem valores "(null)")
[92m dia_semana  => OK (não tem valores "(null)")
[92m horario  => OK (não tem valores "(null)")
[92m uf  => OK (não tem valores "(null)")
[92m br  => OK (não tem valores "(null)")
[92m km  => OK (não tem valores "(null)")
[92m municipio  => OK (não tem valores "(null)")
[92m causa_acidente  => OK (não tem valores "(null)")
[92m tipo_acidente  => OK (não tem valores "(null)")
[92m classificacao_acidente  => OK (não tem valores "(null)")
[92m condicao_metereologica  => OK (não tem valores "(null)")
[92m tipo_pista  => OK (não tem valores "(null)")
[92m tracado_via  => OK (não tem valores "(null)")
[92m tipo_veiculo  => OK (não tem valores "(null)")
[92m tipo_envolvido  => OK (não tem valores "(null)")
[92m estado_fisico  => OK (não tem valores "(null)")
[92m idade  => OK (não tem valores "(null)")
[92m sexo  => OK (não tem valores "(null)")
[92m ilesos  => OK (não tem valores "(null)")
[92m feridos_leves  => OK (não

In [6]:
# VERIFICAÇÃO DE TIPOS
def testa_tipos(dataframe, atributo, tipo):
  s = sum(dataframe[atributo].map(type) != tipo)
  if s == 0: 
    print('\033[92m', f'{atributo} => todos são {tipo}')
  else: 
    print('\033[91m', f'{atributo} => *** {s} ATRIBUTOS NÃO SÃO {tipo}')

atributos_str = ['data_inversa', 'dia_semana', 'horario', 'uf', 'municipio', 'causa_acidente', 'tipo_acidente', 'classificacao_acidente', 'condicao_metereologica', 'tipo_pista', 'tracado_via', 'tipo_veiculo', 'tipo_envolvido', 'estado_fisico', 'sexo']
atributos_int = ['id', 'pesid', 'br', 'idade', 'ilesos', 'feridos_leves', 'feridos_graves', 'mortos']
atributos_float = ['km']

print('\033[0m', 'Atributos que devem ser STR')
for attr in atributos_str:
    testa_tipos(dfPessoas, attr, str)

print('\033[0m', 'Atributos que devem ser INT')
for attr in atributos_int:
    testa_tipos(dfPessoas, attr, int)

print('\033[0m', 'Atributos que devem ser FLOAT')
for attr in atributos_float:
    testa_tipos(dfPessoas, attr, float)

print('\033[0m', 'Quantidade de DATA INVERSA FORA DO PADRÃO AAAA-MM-DD =', sum(~dfPessoas['data_inversa'].str.match('[0-9]{4}-[0-9]{2}-[0-9]{2}')))
print('\033[0m', 'Quantidade de HORÁRIO FORA DO PADRÃO HH:MM:SS =', sum(~dfPessoas['horario'].str.match('[0-9]{2}:[0-9]{2}:[0-9]{2}')))

[0m Atributos que devem ser STR
[92m data_inversa => todos são <class 'str'>
[92m dia_semana => todos são <class 'str'>
[92m horario => todos são <class 'str'>
[92m uf => todos são <class 'str'>
[92m municipio => todos são <class 'str'>
[92m causa_acidente => todos são <class 'str'>
[92m tipo_acidente => todos são <class 'str'>
[92m classificacao_acidente => todos são <class 'str'>
[92m condicao_metereologica => todos são <class 'str'>
[92m tipo_pista => todos são <class 'str'>
[92m tracado_via => todos são <class 'str'>
[92m tipo_veiculo => todos são <class 'str'>
[92m tipo_envolvido => todos são <class 'str'>
[92m estado_fisico => todos são <class 'str'>
[92m sexo => todos são <class 'str'>
[0m Atributos que devem ser INT
[91m id => *** 609882 ATRIBUTOS NÃO SÃO <class 'int'>
[91m pesid => *** 609882 ATRIBUTOS NÃO SÃO <class 'int'>
[91m br => *** 609882 ATRIBUTOS NÃO SÃO <class 'int'>
[91m idade => *** 609882 ATRIBUTOS NÃO SÃO <class 'int'>
[92m ilesos => todos s



---


- Tratamentos especiais dos atributos:
  - Remove-se registros com valores dos atributos 'br' e 'km' nulos, pois são apresentados em quantidade irrelevante;
  - Registros do aributo 'sexo' com valor= 'Ignorado' são convertidos ao valor 'Não Informado'.
---


- Padronização dos atributos **MANTIDOS**: 

|Atributos                |Tipo padronizado                               |                
|----------------|-------------------------------|
|dia_semana, uf, municipio, causa_acidente, tipo_acidente, classificacao_acident, condicao_metereologica, tipo_pist, tracado_via, tipo_veiculo, tipo_envolvido, estado_fisico, sexo| String (str)|
|id, pesid, br, idade, ilesos, feridos_leves, feridos_graves, mortos|Inteiro (int)|
|km| Float|
|data_inversa| String AAAA-MM-DD|
|horario|String HH:MM:SS|

In [7]:
# LIMPEZA
## Remove regitros com atributos br e km NaN
t = len(dfPessoas.id)
dfPessoas = dfPessoas[dfPessoas['br'].notna()]
dfPessoas = dfPessoas[dfPessoas['km'].notna()] # Nem precisava, onde br é NaN, km também é
print(f'Removidos {t - len(dfPessoas.id)} registros.')

## Pessoas com sexo = 'Ignorado' viraram sexo = 'Não Informado'
dfPessoas.loc[dfPessoas['sexo'] == 'Ignorado', 'sexo'] = 'Não Informado'

## Conversões
dfPessoas['id'] = dfPessoas['id'].astype(int)

qtd_pesid_nan = len(dfPessoas[dfPessoas['pesid'].isna()]['pesid'])
dfPessoas.loc[dfPessoas['pesid'].isna(), 'pesid'] = [dfPessoas['pesid'].max() + 1 + i for i in range(qtd_pesid_nan)] # Substituindo valores NaN por PESIDs novos
dfPessoas['pesid'] = dfPessoas['pesid'].astype(int)

media_idade = dfPessoas.loc[dfPessoas['idade'] <= 110, 'idade'].mean()
dfPessoas.loc[(dfPessoas['idade'].isna()) | (dfPessoas['idade'] > 110), 'idade'] = media_idade
dfPessoas['idade'] = dfPessoas['idade'].astype(int)

dfPessoas['data_inversa'] = pd.to_datetime(dfPessoas['data_inversa'])

Removidos 991 registros.


In [8]:
dfPessoas.info()
dfPessoas.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 608891 entries, 0 to 78411
Data columns (total 24 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   id                      608891 non-null  int64         
 1   pesid                   608891 non-null  int64         
 2   data_inversa            608891 non-null  datetime64[ns]
 3   dia_semana              608891 non-null  object        
 4   horario                 608891 non-null  object        
 5   uf                      608891 non-null  object        
 6   br                      608891 non-null  float64       
 7   km                      608891 non-null  object        
 8   municipio               608891 non-null  object        
 9   causa_acidente          608891 non-null  object        
 10  tipo_acidente           608891 non-null  object        
 11  classificacao_acidente  608891 non-null  object        
 12  condicao_metereologica  608891 

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,condicao_metereologica,tipo_pista,tracado_via,tipo_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos
0,8,1,2017-01-01,domingo,00:00:00,PR,376.0,112,PARANAVAI,Fenômenos da Natureza,Queda de ocupante de veículo,Com Vítimas Feridas,Chuva,Simples,Reta,Motocicleta,Condutor,Lesões Graves,19,Masculino,0,0,1,0
1,9,955,2017-01-01,domingo,00:01:00,SC,101.0,234,PALHOCA,Falta de Atenção à Condução,Colisão com objeto estático,Sem Vítimas,Chuva,Dupla,Curva,Automóvel,Condutor,Ileso,35,Masculino,1,0,0,0
2,11,3,2017-01-01,domingo,00:00:00,PR,153.0,569,SANTO ANTONIO DA PLATINA,Animais na Pista,Capotamento,Com Vítimas Feridas,Garoa/Chuvisco,Simples,Reta,Automóvel,Passageiro,Lesões Leves,27,Masculino,0,1,0,0
3,11,2,2017-01-01,domingo,00:00:00,PR,153.0,569,SANTO ANTONIO DA PLATINA,Animais na Pista,Capotamento,Com Vítimas Feridas,Garoa/Chuvisco,Simples,Reta,Automóvel,Condutor,Lesões Leves,27,Feminino,0,1,0,0
4,12,1499,2017-01-01,domingo,00:00:00,GO,153.0,435,ANAPOLIS,Avarias e/ou desgaste excessivo no pneu,Tombamento,Com Vítimas Feridas,Céu Claro,Dupla,Reta,Motocicleta,Condutor,Lesões Graves,24,Masculino,0,0,1,0


# **Etapa Exploração**
Para a etapa de exploração, foi optado pelo estudo e análise das duas bases resultantes da etapa de Limpeza:
-   **Agrupados por ocorrência**;
-  **Agrupados por pessoa**.

O desenvolvimento da etapa segue fases aplicadas a cada base, tais foram:
1. Levantamento de hipóteses;
2. Resolução das hipóteses.

##**Base 1: Agrupados por ocorrência**

##**Base 2: Agrupados por pessoa**

---

### Hipóteses apresentadas

1. Qual o tipo de veículo que mais se envolve em acidentes?
2. Qual a chance de um passageiro sair ileso em um acidente?
3. Qual a taxa de mortes para cada faixa de idade (Criança, Jovem, Adulto, Idoso)?
4. Quem sofre mais lesões, homens ou mulheres?


In [17]:
#HIPÓTESE 1
print('HIPÓTESE 1:\n', dfPessoas.groupby('tipo_veiculo').count().id.sort_values(ascending=False))
print('-----------------------------------------------------------------------')

#HIPÓTESE 2
todos = dfPessoas.id.count()
passageiros_ilesos = dfPessoas[(dfPessoas['tipo_envolvido'] == 'Passageiro') & (dfPessoas['estado_fisico'] == 'Ileso')].id.count()
print(f'HIPÓTESE 2: \n Um passageiro tem {passageiros_ilesos * 100 / todos:.2f} % de sair ileso em um acidente!')
print('-----------------------------------------------------------------------')

#HIPÓTESE 3
dfPessoasMortos = dfPessoas[dfPessoas['mortos'] == 1]
todosMortos = dfPessoasMortos.id.count()
print('HIPÓTESE 3:\n', dfPessoasMortos.groupby(pd.cut(dfPessoasMortos.idade, [0, 12, 24, 60, 110])).count().id.sort_values(ascending=False).apply(lambda x: f'{100 * x / todosMortos:.2f} %'))
print('-----------------------------------------------------------------------')

#HIPÓTESE 4
print('HIPÓTESE 4:\n', dfPessoas[dfPessoas['estado_fisico'].str.contains('Lesões')].groupby('sexo').count().id.sort_values(ascending=False))
print('-----------------------------------------------------------------------')

HIPÓTESE 1:
 tipo_veiculo
Automóvel            273152
Motocicleta          110140
Caminhonete           54741
Caminhão-trator       49158
Caminhão              44522
Ônibus                23004
Camioneta             15451
Motoneta              12729
Bicicleta              7458
Utilitário             6753
Micro-ônibus           5515
Outros                 2528
Ciclomotor             1712
Semireboque            1069
Carroça-charrete        319
Trator de rodas         261
Reboque                 156
Não Informado            73
Triciclo                 60
Trem-bonde               28
Carro de mão             21
Trator misto             15
Chassi-plataforma         9
Trator de esteira         9
Quadriciclo               8
Name: id, dtype: int64
-----------------------------------------------------------------------
HIPÓTESE 2: 
 Um passageiro tem 8.56 % de sair ileso em um acidente!
-----------------------------------------------------------------------
HIPÓTESE 3:
 idade
(24, 60]     70.72 

##### 2. Qual a chance de um passageiro sair ileso em um acidente?

In [None]:
todos = dfPessoas.id.count()
passageiros_ilesos = dfPessoas[(dfPessoas['tipo_envolvido'] == 'Passageiro') & (dfPessoas['estado_fisico'] == 'Ileso')].id.count()
print(f'Um passageiro tem {passageiros_ilesos * 100 / todos:.2f} % de sair ileso em um acidente!')

Um passageiro tem 8.56 % de sair ileso em um acidente!


##### 3. Qual a taxa de mortes para cada faixa de idade (Criança, Jovem, Adulto, Idoso)?

In [None]:
dfPessoasMortos = dfPessoas[dfPessoas['mortos'] == 1]
todosMortos = dfPessoasMortos.id.count()
dfPessoasMortos.groupby(pd.cut(dfPessoasMortos.idade, [0, 12, 24, 60, 110])).count().id.sort_values(ascending=False).apply(lambda x: f'{100 * x / todosMortos:.2f} %')

idade
(24, 60]     70.72 %
(12, 24]     14.73 %
(60, 110]    12.18 %
(0, 12]       2.15 %
Name: id, dtype: object

##### 4. Quem sofre mais lesões, homens ou mulheres?

In [None]:
dfPessoas[dfPessoas['estado_fisico'].str.contains('Lesões')].groupby('sexo').count().id.sort_values(ascending=False)

sexo
Masculino        193569
Feminino          83938
Não Informado       413
Name: id, dtype: int64