
# <font color="#0080ff"> Acidentes de trânsito no Brasil em 2022 </font>
### Limpeza, tratamento e preparação dos dados.
<hr color="#F5F5F5" size="1">

<strong>Por Rodrigo Xavier dos Santos</strong>

![title](acidente.png)

<a id='contexto-projeto'></a>
## <font color="#0080ff"> Sobre o contexto do projeto</font>
<hr color="#F5F5F5" size="1">

O Instituto de Pesquisa Econômica Aplicada (Ipea) estima em <strong>45 mil mortos anuais</strong> e R$ 50 bilhões de custo econômico o resultado dos acidentes de trânsito no Brasil. Em 2017, esses acidentes representaram a principal causa de mortes de crianças entre 5 e 14 anos no país. Recentemente, a legislação mudou para punir com mais rigor o homicídio culposo de trânsito. Especialistas em audiência no Senado defendem educação no trânsito nas escolas brasileiras.

**Fonte: [TV Senado](https://www12.senado.leg.br/tv/programas/em-discussao/2022/09/transito-brasileiro-45-mil-mortes-e-r-50-bilhoes-de-prejuizo-economico)**

<div class="alert alert-info"> 
<strong><div style="color: rgb(0, 0, 0);">📌 Os principais objetivos deste projeto: </div></strong> <br>
<div style="color: rgb(0, 0, 0);">→ Explorar os dados; </div>
<div style="color: rgb(0, 0, 0);">→ Aplicar técnicas de limpeza de dados;</div>
<div style="color: rgb(0, 0, 0);">→ Disponibilizar os dados tratados para análise em outras ferramentas.</div>
</div>

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">A fonte de dados:</div></strong> <br>
    <div style="color: rgb(0, 0, 0);">
        → Os dados são públicos e referente a acidentes de trânsito no Brasil em 2022 até (setembro).<br>
        → Esse dataset foi alimentado pela <strong>Polícia Rodoviária Federal.</strong>

A fonte de dados completa pode ser baixado em **[gov.br](https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes)**
</div>

<a id='carregando-dados'></a>
## <font color="#0080ff"> 1 - Importando os pacotes e módulos</font>
<hr color="#F5F5F5" size="1">

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.12


In [2]:
# Importando os pacotes
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys, os
import warnings
warnings.filterwarnings("ignore")

In [24]:
# Vamos adicionar caminho para o módulo Python que iremos utilizar para tratar os outliers
sys.path.append(os.path.abspath(os.path.join('modulos')))
from estrategia1 import *
from estrategia2 import *
from estrategia3 import *

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Rodrigo Xavier dos Santos" --iversions

Author: Rodrigo Xavier dos Santos

seaborn   : 0.11.2
numpy     : 1.21.5
sys       : 3.9.12 (main, Apr  4 2022, 05:22:27) [MSC v.1916 64 bit (AMD64)]
matplotlib: 3.5.1
pandas    : 1.2.4



<a id='carregando-dados'></a>
## <font color="#0080ff"> 2 - Carregando os dados</font>
<hr color="#F5F5F5" size="1">

In [60]:
# Carrega os dados
dados = pd.read_csv('dados/acidentes2022.csv' , sep = ';', engine = 'python', encoding='iso-8859-1')

In [61]:
#Quantidade de linhas e colunas
dados.shape

(376770, 37)

In [62]:
#habilitar o pandas a mostrar as 36 colunas, onde geralmente traz um resumo.
pd.set_option("display.max_columns", 36)

In [63]:
#Visualização da tabela
dados.head()

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,ordem_tipo_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,...,uso_solo,id_veiculo,tipo_veiculo,marca,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia,uop
0,405147,911178.0,2022-01-01,sábado,00:10:00,CE,222.0,28,FORTALEZA,Sim,Ingestão de álcool pelo condutor,1,Colisão transversal,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Múltipla,...,Sim,734116,Automóvel,CHEV/ONIX PLUS JOY BLACK/ONIX PLUS JOY BLACK,2021.0,Condutor,Ileso,45.0,Masculino,1,0,0,0,-373911117,-3858687498,SPRF-CE,DEL01-CE,UOP01-DEL01-CE
1,405147,911179.0,2022-01-01,sábado,00:10:00,CE,222.0,28,FORTALEZA,Sim,Ingestão de álcool pelo condutor,1,Colisão transversal,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Múltipla,...,Sim,734115,Motocicleta,HONDA/CG150 TITAN MIX ES/CG150 TITAN MIX ES,2009.0,Condutor,Lesões Graves,59.0,Masculino,0,0,1,0,-373911117,-3858687498,SPRF-CE,DEL01-CE,UOP01-DEL01-CE
2,405149,912796.0,2022-01-01,sábado,01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,2,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,...,Sim,734109,Motocicleta,YAMAHA/FACTOR YBR125 K/FACTOR YBR125 K,2009.0,Passageiro,Lesões Leves,25.0,Feminino,0,1,0,0,-82698,-359803,SPRF-PE,DEL02-PE,UOP01-DEL02-PE
3,405149,912793.0,2022-01-01,sábado,01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,2,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,...,Sim,734109,Motocicleta,YAMAHA/FACTOR YBR125 K/FACTOR YBR125 K,2009.0,Condutor,Lesões Graves,37.0,Masculino,0,0,1,0,-82698,-359803,SPRF-PE,DEL02-PE,UOP01-DEL02-PE
4,405149,913204.0,2022-01-01,sábado,01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,2,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,...,Sim,734108,Automóvel,VW/FOX CONNECT MB/FOX CONNECT MB,2019.0,Passageiro,Não Informado,,Não Informado,0,0,0,0,-82698,-359803,SPRF-PE,DEL02-PE,UOP01-DEL02-PE


In [64]:
# Informações gerais dos dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 376770 entries, 0 to 376769
Data columns (total 37 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      376770 non-null  int64  
 1   pesid                   341560 non-null  float64
 2   data_inversa            376770 non-null  object 
 3   dia_semana              376770 non-null  object 
 4   horario                 376770 non-null  object 
 5   uf                      376770 non-null  object 
 6   br                      375213 non-null  float64
 7   km                      375213 non-null  object 
 8   municipio               376770 non-null  object 
 9   causa_principal         376770 non-null  object 
 10  causa_acidente          376770 non-null  object 
 11  ordem_tipo_acidente     376770 non-null  int64  
 12  tipo_acidente           376770 non-null  object 
 13  classificacao_acidente  376770 non-null  object 
 14  fase_dia            

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Observando as colunas, podemos perceber que as colunas <strong>"data_inversa" e "horario"</strong> são, na verdade, valores de data e hora, embora sejam rotuladas como objetos pelo pandas. Além dessas duas colunas, temos quatro colunas que não serão necessárias em nossa análise, <strong>"ID", "id_veiculo", "pesid" e "uop"</strong>. Portanto, vamos <strong>converter duas colunas e excluir outras quatro</strong>. <br>
         
→ Como o dataset não tinha um dicionário de dados, não foi possível identificar do que se refere as colunas <strong>"pesid" e "uop"</strong>.</div>         
</div>

In [65]:
# Converte para datetime as colunas "data_inversa" e "horario"
convert_to_datetime(dados, ['data_inversa', 'horario'])

In [66]:
# Não usaremos a coluna ID. Vamos removê-la.
dados.drop(["id"], axis = 1, inplace = True)

In [67]:
# Não usaremos a coluna id_veiculo. Vamos removê-la.
dados.drop(["id_veiculo"], axis = 1, inplace = True)

In [68]:
# Não usaremos a coluna pesid.
dados.drop(["pesid"], axis = 1, inplace = True)

In [69]:
# Não usaremos a coluna uop. Vamos removê-la.
dados.drop(["uop"], axis = 1, inplace = True)

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Verificando se existe alguma varíavel numérica que na verdade seja dados booleanos (True / False)</div></strong>
</div>

In [70]:
# Descrevendo os dados numéricos
dados.describe()

Unnamed: 0,br,ordem_tipo_acidente,ano_fabricacao_veiculo,idade,ilesos,feridos_leves,feridos_graves,mortos
count,375213.0,376770.0,355296.0,297633.0,376770.0,376770.0,376770.0,376770.0
mean,216.258829,1.710526,2011.548056,39.157022,0.355464,0.298182,0.113772,0.04865
std,127.503385,0.986313,7.890299,34.278203,0.478654,0.45746,0.317535,0.215136
min,10.0,1.0,1900.0,0.0,0.0,0.0,0.0,0.0
25%,116.0,1.0,2008.0,27.0,0.0,0.0,0.0,0.0
50%,163.0,1.0,2013.0,37.0,0.0,0.0,0.0,0.0
75%,324.0,2.0,2018.0,49.0,1.0,1.0,0.0,0.0
max,495.0,12.0,2022.0,2021.0,1.0,1.0,1.0,1.0


In [71]:
# Registros para cada dado da coluna br
dados.br.value_counts()

116.0    54436
101.0    43541
163.0    19881
153.0    17425
40.0     16983
         ...  
265.0        9
437.0        4
484.0        4
434.0        2
342.0        2
Name: br, Length: 115, dtype: int64

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
    <div style="color: rgb(0, 0, 0);">  → A varíavel <strong>br</strong> não necessita ser do tipo numérico, iremos transformar em categórico.</div>         
</div>

In [72]:
# Irei converter a variável "br" em object
dados.br = dados.br.astype("object")

In [73]:
# Registros para cada dado da coluna ordem_tipo_acidente
dados.ordem_tipo_acidente.value_counts()

1     204673
2     105169
3      48917
4      12181
5       3494
6       1093
7        569
8        339
9        174
10       101
11        30
12        30
Name: ordem_tipo_acidente, dtype: int64

In [74]:
# Registros para cada dado da coluna idade
dados.idade.value_counts()

28.0      7951
34.0      7944
35.0      7742
40.0      7675
33.0      7654
          ... 
112.0        1
256.0        1
222.0        1
935.0        1
1022.0       1
Name: idade, Length: 114, dtype: int64

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
    <div style="color: rgb(0, 0, 0);">  → A varíavel <strong>idade</strong> tem alguns valores que indicam erro no registro dos dados, com idades acima de 95 anos. Irei resolver mais a frente.</div>         
</div>

In [79]:
# Registros para cada dado da coluna ilesos
dados.ilesos.value_counts()

0    242842
1    133928
Name: ilesos, dtype: int64

In [80]:
# Registros para cada dado da coluna feridos_leves
dados.feridos_leves.value_counts()

0    264424
1    112346
Name: feridos_leves, dtype: int64

In [81]:
# Registros para cada dado da coluna feridos_graves
dados.feridos_graves.value_counts()

0    333904
1     42866
Name: feridos_graves, dtype: int64

In [82]:
# Registros para cada dado da coluna mortos
dados.mortos.value_counts()

0    358440
1     18330
Name: mortos, dtype: int64

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → As variáveis <strong>"ilesos", "feridos_leves", "feridos_graves" e "mortos"</strong> são do tipo booleano. <strong>Irei transformar para o tipo object</strong>. E a varíável <strong>"ordem_tipo_acidente" irei excluir</strong>, pois não é relevante para a análise de dados futura, pois a mesma não tem informações adicionais sobre as categorias representadas</strong> </strong>.</div>         
</div>

In [83]:
# Agora convertemos para object a variável ilesos
dados.ilesos = dados.ilesos.astype("object")

In [84]:
# Agora convertemos para object a variável feridos_leves
dados.feridos_leves = dados.feridos_leves.astype("object")

In [85]:
# Agora convertemos para object a variável feridos_graves
dados.feridos_graves = dados.feridos_graves.astype("object")

In [86]:
# Agora convertemos para object a variável mortos
dados.mortos = dados.mortos.astype("object")

In [87]:
# Não usaremos a coluna ordem_tipo_acidente. Vamos removê-la.
dados.drop(["ordem_tipo_acidente"], axis = 1, inplace = True)

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Verificando se temos dados duplicados</div></strong>
</div>

In [88]:
dados.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
376765    False
376766    False
376767    False
376768    False
376769    False
Length: 376770, dtype: bool

In [89]:
# Informações gerais dos dados após alterações
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 376770 entries, 0 to 376769
Data columns (total 32 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   data_inversa            376770 non-null  datetime64[ns]
 1   dia_semana              376770 non-null  object        
 2   horario                 376770 non-null  datetime64[ns]
 3   uf                      376770 non-null  object        
 4   br                      375213 non-null  object        
 5   km                      375213 non-null  object        
 6   municipio               376770 non-null  object        
 7   causa_principal         376770 non-null  object        
 8   causa_acidente          376770 non-null  object        
 9   tipo_acidente           376770 non-null  object        
 10  classificacao_acidente  376770 non-null  object        
 11  fase_dia                376770 non-null  object        
 12  sentido_via             376770

In [90]:
# Descrevendo os dados não numéricos
dados.describe(include = object)

Unnamed: 0,dia_semana,uf,br,km,municipio,causa_principal,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,tipo_veiculo,marca,tipo_envolvido,estado_fisico,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia
count,376770,376770,375213.0,375213,376770,376770,376770,376770,376770,376770,376770,376770,376770,376770,376770,376770,359749,376770,376770,376770,376770,376770,376770,376770,376770,376770,376753,371373
unique,7,27,115.0,6968,1748,2,72,16,3,4,3,10,3,10,2,25,6064,6,5,4,2,2,2,2,27404,27388,27,147
top,domingo,MG,116.0,2,CURITIBA,Sim,Reação tardia ou ineficiente do condutor,Colisão traseira,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Não,Automóvel,SR/RANDON SR CA/RANDON SR CA,Condutor,Ileso,Masculino,0,0,0,0,-10735312,-6219715,SPRF-MG,DEL01-PR
freq,66530,48240,54436.0,1454,5626,217115,48730,54623,269836,199463,202095,230356,211667,216139,225140,133191,5386,221554,133928,231833,242842,264424,333904,358440,672,672,48195,16719


In [91]:
# Descrevendo os dados numéricos
dados.describe()

Unnamed: 0,ano_fabricacao_veiculo,idade
count,355296.0,297633.0
mean,2011.548056,39.157022
std,7.890299,34.278203
min,1900.0,0.0
25%,2008.0,27.0
50%,2013.0,37.0
75%,2018.0,49.0
max,2022.0,2021.0


<a id='carregando-dados'></a>
## <font color="#0080ff"> 3 - Identificando e resolvendo os valores ausentes e outliers</font>
<hr color="#F5F5F5" size="1">

In [92]:
#Temos valores ausentes?
dados.isna().any()

data_inversa              False
dia_semana                False
horario                   False
uf                        False
br                         True
km                         True
municipio                 False
causa_principal           False
causa_acidente            False
tipo_acidente             False
classificacao_acidente    False
fase_dia                  False
sentido_via               False
condicao_metereologica    False
tipo_pista                False
tracado_via               False
uso_solo                  False
tipo_veiculo              False
marca                      True
ano_fabricacao_veiculo     True
tipo_envolvido            False
estado_fisico             False
idade                      True
sexo                      False
ilesos                    False
feridos_leves             False
feridos_graves            False
mortos                    False
latitude                  False
longitude                 False
regional                   True
delegaci

In [93]:
#Quantidade de valores ausentes
dados.isna().sum()

data_inversa                  0
dia_semana                    0
horario                       0
uf                            0
br                         1557
km                         1557
municipio                     0
causa_principal               0
causa_acidente                0
tipo_acidente                 0
classificacao_acidente        0
fase_dia                      0
sentido_via                   0
condicao_metereologica        0
tipo_pista                    0
tracado_via                   0
uso_solo                      0
tipo_veiculo                  0
marca                     17021
ano_fabricacao_veiculo    21474
tipo_envolvido                0
estado_fisico                 0
idade                     79137
sexo                          0
ilesos                        0
feridos_leves                 0
feridos_graves                0
mortos                        0
latitude                      0
longitude                     0
regional                     17
delegaci

<a id='carregando-dados'></a>
### <font color="#0080ff"> 3.1 - Tratando os valores ausentes de cada variável</font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "br"</div></strong>
</div>

In [94]:
# Calcula o percentual de valores ausentes na variável br
dados.br.isnull().mean()*100

0.4132494625368262

Como o percentual é baixo não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 1557 linhas no dataset) ou podemos aplicar imputação. Vamos usar a segunda opção.
A variável está com tipo float, iremos alterar para tipo object, pois não é necessário cálculo com a mesma.

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Como o percentual é baixo não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 1557 linhas no dataset) ou podemos aplicar imputação. Vamos usar a segunda opção. </strong>.</div>         
</div>

In [96]:
# Categorias da variável
dados.br.value_counts()

116.0    54436
101.0    43541
163.0    19881
153.0    17425
40.0     16983
         ...  
265.0        9
437.0        4
484.0        4
342.0        2
434.0        2
Name: br, Length: 115, dtype: int64

In [97]:
# Vamos imputar com a moda, o valor mais frequente da variável.
dados.br.mode()

0    116.0
dtype: object

In [98]:
# imputação com a moda
dados.br.fillna("116.0", inplace = True)

In [99]:
# Valores ausentes tratados com sucesso
dados.br.isnull().sum()

0

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "km"</div></strong>
</div>

In [100]:
# Calcula o percentual de valores ausentes na variável km
dados.km.isnull().mean()*100 

0.4132494625368262

In [102]:
# Tipo de dados da variável
dados.km.dtypes

dtype('O')

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Como o percentual é baixo não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 1557 linhas no dataset) ou podemos aplicar imputação. Vamos usar a primeira opção. Decidi eliminar os registros, pois a moda seria o KM2, porém esse KM existe em inúmeras BRs, o que poderia ser relevante no resultado da análise desta variável </strong>.</div>         
</div>

In [103]:
# Eliminando os registros
dados.dropna(subset = ["km"], inplace = True)

In [104]:
# Valores ausentes tratados com sucesso
dados.km.isnull().sum()

0

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "marca"</div></strong>
</div>

In [105]:
# Calcula o percentual de valores ausentes na variável marca
dados.marca.isnull().mean()*100

4.527295163014075

In [106]:
#Tipo de dado da variável
dados.marca.dtypes

dtype('O')

In [107]:
# Categorias da variável
dados.marca.value_counts()

SR/RANDON SR CA/RANDON SR CA                       5380
VW/GOL 1.0/GOL 1.0                                 3922
HONDA/CG 160 FAN/CG 160 FAN                        3775
HONDA/CG 160 START/CG 160 START                    3365
MBENZ/MPOLO PARADISO R/MPOLO PARADISO R            3337
                                                   ... 
SR/PASTRE PCONTEINER 3E/PASTRE PCONTEINER 3E          1
VW/MPOLO VIALE U/MPOLO VIALE U                        1
I/NISSAN VERSA SENSE CVT/NISSAN VERSA SENSE CVT       1
GM/CHEVETTE SL 1.6/CHEVETTE SL 1.6                    1
M.BENZ/1723/1723                                      1
Name: marca, Length: 6059, dtype: int64

In [108]:
#Quantidade de valores nulos.
#Os valores diminuiram, pois excluímos alguns registros anteriormente.
dados.marca.isna().sum()

16987

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Como o percentual é baixo não podemos eliminar a coluna, utilizo uma margem de 30% para a exclusão da coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 16987 linhas no dataset) ou podemos aplicar imputação. Mas decidi não utilizar a moda para imputação, pois como se trata de marca e modelo acho importante apenas deixar como <strong>"não identificado"</strong> </strong>.</div>         
</div>

In [109]:
# imputação
dados.marca.fillna("NAO IDENTIFICADO", inplace = True)

In [110]:
# Valores ausentes tratados com sucesso
dados.marca.isnull().sum()

0

In [111]:
# Registros para cada marca
dados.marca.value_counts()

NAO IDENTIFICADO                                   16987
SR/RANDON SR CA/RANDON SR CA                        5380
VW/GOL 1.0/GOL 1.0                                  3922
HONDA/CG 160 FAN/CG 160 FAN                         3775
HONDA/CG 160 START/CG 160 START                     3365
                                                   ...  
SR/PASTRE PCONTEINER 3E/PASTRE PCONTEINER 3E           1
VW/MPOLO VIALE U/MPOLO VIALE U                         1
I/NISSAN VERSA SENSE CVT/NISSAN VERSA SENSE CVT        1
GM/CHEVETTE SL 1.6/CHEVETTE SL 1.6                     1
M.BENZ/1723/1723                                       1
Name: marca, Length: 6060, dtype: int64

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "ano_fabricacao_veiculo"</div></strong>
</div>

In [112]:
# Calcula o percentual de valores ausentes na variável ano_fabricacao_veiculo
dados.ano_fabricacao_veiculo.isnull().mean()*100

5.706625303494282

In [113]:
#Tipo de dado da variável
dados.ano_fabricacao_veiculo.dtypes

dtype('float64')

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Vamos alterar o tipo de dados da varíavel, pois se refere a dados categóricos, o ano de fabricação do veículo</strong> </strong>.</div>         
</div>

In [114]:
# Agora convertemos para object
dados.ano_fabricacao_veiculo = dados.ano_fabricacao_veiculo.astype("object")

In [115]:
#Tipo de dado da variável após a conversão
dados.ano_fabricacao_veiculo.dtypes

dtype('O')

In [116]:
# Registros para cada ano_fabricacao_veiculo
dados.ano_fabricacao_veiculo.value_counts()

2019.0    25086
2021.0    23735
2013.0    23263
2011.0    22526
2014.0    20424
          ...  
1960.0        7
1965.0        4
1962.0        3
1964.0        1
1929.0        1
Name: ano_fabricacao_veiculo, Length: 63, dtype: int64

In [117]:
#Quantidade de valores nulos.
#Os valores diminuiram, pois excluímos alguns registros anteriormente.
dados.ano_fabricacao_veiculo.isna().sum()

21412

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Como os valores ausentes são menos de 30% dos registros, não iremos excluir a coluna. Eu podería excluir os registros, mas acredito não ser pertinente, pois são mais de 5% dos registros. Também não poderia fazer a imputação pela moda, pois interfere no ano que é ligado ao modelo e marca de cada veículo. Então iremos utilizar a mesma estratégia da varíavel anterior, imputando por "não identificado"</strong> </strong>.</div>         
</div>

In [118]:
# imputação
dados.ano_fabricacao_veiculo.fillna("NAO IDENTIFICADO", inplace = True)

In [119]:
# Valores ausentes tratados com sucesso
dados.ano_fabricacao_veiculo.isnull().sum()

0

In [120]:
# Registros para cada ano_fabricacao_veiculo
dados.ano_fabricacao_veiculo.value_counts()

2019.0              25086
2021.0              23735
2013.0              23263
2011.0              22526
NAO IDENTIFICADO    21412
                    ...  
1960.0                  7
1965.0                  4
1962.0                  3
1964.0                  1
1929.0                  1
Name: ano_fabricacao_veiculo, Length: 64, dtype: int64

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "idade"</div></strong>
</div>

In [121]:
# Calcula o percentual de valores ausentes na variável idade
dados.idade.isnull().mean()*100

21.013131208140443

In [122]:
# Verificando o tipo de dado
dados.idade.dtypes

dtype('float64')

In [123]:
# Registros para cada idade
dados.idade.value_counts()

34.0      7905
28.0      7894
35.0      7702
40.0      7640
33.0      7577
          ... 
112.0        1
256.0        1
222.0        1
935.0        1
1022.0       1
Name: idade, Length: 114, dtype: int64

In [124]:
# Vamos verificar qual é a média de idade.
dados.idade.mean()

39.16918098721526

In [125]:
# Vamos verificar qual é a mediana.
dados.idade.median()

37.0

In [126]:
# Vamos verificar qual é a moda.
dados.idade.mode()

0    34.0
dtype: float64

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Irei utilizar a mediana para a imputação dos dados ausente na variável idade, pois a mediana é resistente a outliers. Os outliers irão ser resolvidos mais a frente</strong> </strong>.</div>         
</div>

In [127]:
# imputação pela mediana
dados.idade.fillna("34", inplace = True)

In [128]:
# Valores ausentes tratados com sucesso
dados.idade.isnull().sum()

0

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Irei alterar os dados da variável para inteiro, pois a idade não necessita ser decimal</strong> </strong>.</div>         
</div>

In [129]:
# Agora convertemos para int
dados.idade = dados.idade.astype("int")

In [130]:
# Resultado após conversão
dados.idade.dtypes

dtype('int32')

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "regional"</div></strong>
</div>

In [131]:
# Calcula o percentual de valores ausentes na variável regional
dados.regional.isnull().mean()*100

0.0

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → A variável "regional" tinha 17 valores ausentes, porém a nesna foi resolvida quando excluimos os registros de outras variáveis acima.</strong> </strong>.</div>         
</div>

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando a variável "delegacia"</div></strong>
</div>

In [132]:
# Calcula o percentual de valores ausentes na variável delegacia
dados.delegacia.isnull().mean()*100

1.3869455482619206

In [133]:
# Verificando o tipo de dado
dados.delegacia.dtypes

dtype('O')

In [134]:
# Registros para cada dado da coluna
dados.delegacia.value_counts()

DEL01-PR    16711
DEL01-MG     9290
DEL01-SC     7612
DEL01-SP     7324
DEL04-SC     7306
            ...  
DEL07-SP      485
DEL05-RJ      473
DEL12-RS      426
DEL03-RN      339
DEL02-PI      312
Name: delegacia, Length: 146, dtype: int64

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
     <div style="color: rgb(0, 0, 0);">  → Como o tipo de dado é 'object' vamos imputar com a moda, pois média e mediana apenas em dados numéricos</strong> </strong>.</div>         
</div>

In [135]:
# Irei verificar qual é a moda
dados.delegacia.mode()

0    DEL01-PR
dtype: object

In [136]:
# imputação pela moda
dados.delegacia.fillna("DEL01-PR", inplace = True)

In [137]:
# Valores ausentes tratados com sucesso
dados.delegacia.isnull().sum()

0

In [138]:
#Valores nulos resolvidos
dados.isna().any()

data_inversa              False
dia_semana                False
horario                   False
uf                        False
br                        False
km                        False
municipio                 False
causa_principal           False
causa_acidente            False
tipo_acidente             False
classificacao_acidente    False
fase_dia                  False
sentido_via               False
condicao_metereologica    False
tipo_pista                False
tracado_via               False
uso_solo                  False
tipo_veiculo              False
marca                     False
ano_fabricacao_veiculo    False
tipo_envolvido            False
estado_fisico             False
idade                     False
sexo                      False
ilesos                    False
feridos_leves             False
feridos_graves            False
mortos                    False
latitude                  False
longitude                 False
regional                  False
delegaci

<a id='carregando-dados'></a>
### <font color="#0080ff"> 3.2 - Resolvendo os outliers</font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando os outliers em variáveis númericas</div></strong>
</div>

In [149]:
# Cria o objeto trata outlier
trata_outlier = TrataOutlier(dados)

In [150]:
# dados gerais
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 375213 entries, 0 to 376769
Data columns (total 32 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   data_inversa            375213 non-null  datetime64[ns]
 1   dia_semana              375213 non-null  object        
 2   horario                 375213 non-null  datetime64[ns]
 3   uf                      375213 non-null  object        
 4   br                      375213 non-null  object        
 5   km                      375213 non-null  object        
 6   municipio               375213 non-null  object        
 7   causa_principal         375213 non-null  object        
 8   causa_acidente          375213 non-null  object        
 9   tipo_acidente           375213 non-null  object        
 10  classificacao_acidente  375213 non-null  object        
 11  fase_dia                375213 non-null  object        
 12  sentido_via             375213

In [151]:
# A variável idade é a única numérica do tipo "int".
# Irei colocar ela dentro de uma variável para ser utilizada com um módulo d etratamento de outliers
lista_colunas = dados.select_dtypes('int32').columns.tolist()

In [152]:
lista_colunas

['idade']

In [153]:
# Visão geral dos outliers das colunas tipo int32
trata_outlier.getOverview(lista_colunas)

Nome de Coluna,idade
Min,0
Q1,30.0
Median,34.0
Q3,45.0
Max,2021
IQR,15.0
Lower fence,7.5
Upper fence,67.5
Skew,47.362807
Num_Outliers,16507


<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
    <div style="color: rgb(0, 0, 0);">  → A coluna <strong>"idade"</strong> contém 11% de outliers. Irei tratar.</strong> </strong></div>         
</div>

In [155]:
# Registros para cada dado da coluna
dados.idade.value_counts()

34      86749
28       7894
35       7702
40       7640
33       7577
        ...  
935         1
112         1
96          1
1039        1
1022        1
Name: idade, Length: 114, dtype: int64

In [157]:
# Replace dos outliers
trata_outlier.replace_outliers_with_fences(lista_colunas)

In [158]:
# Visão geral dos outliers após tratamento
trata_outlier.getOverview(lista_colunas)

Nome de Coluna,idade
Min,7.5
Q1,30.0
Median,34.0
Q3,45.0
Max,67.5
IQR,15.0
Lower fence,7.5
Upper fence,67.5
Skew,0.401413
Num_Outliers,0


<div class="alert alert-warning"> 
<strong><div style="color: rgb(0, 0, 0);">Tratando os outliers em variáveis categóricas</div></strong>
</div>

<div class="alert alert-success"> 
<strong><div style="color: rgb(0, 0, 0);">💡 </div></strong> <br>
    <div style="color: rgb(0, 0, 0);">  → A varíavel idade tem alguns valores que indicam erro no registro dos dados, com idades acima de 95 anos. Irei resolver.</strong> </strong></div>         
</div>

In [159]:
# Coloco em uma variável os dados acima de 95 anos.
exclui_idades_95 = dados[ dados['idade'] > 95].index

In [160]:
# Excluo os dados acima de 95 anos
dados.drop(exclui_idades_95 , inplace=True)

In [162]:
# Registros para cada dado da coluna idade após a exclusão de dados outliers
dados.idade.value_counts()

34.0    86749
67.5    10898
28.0     7894
35.0     7702
40.0     7640
        ...  
11.0      864
9.0       753
10.0      747
13.0      714
12.0      676
Name: idade, Length: 62, dtype: int64

## 2 - Salvando os dados em csv para análise em outra ferramenta

In [163]:
# Quantidade de linhas e colunas após o tratamento dos dados
dados.shape

(375213, 32)

In [165]:
# Visão geral da tabela
dados.head()

Unnamed: 0,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_principal,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,tipo_veiculo,marca,ano_fabricacao_veiculo,tipo_envolvido,estado_fisico,idade,sexo,ilesos,feridos_leves,feridos_graves,mortos,latitude,longitude,regional,delegacia
0,2022-01-01,sábado,2022-12-02 00:10:00,CE,222.0,28,FORTALEZA,Sim,Ingestão de álcool pelo condutor,Colisão transversal,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Múltipla,Interseção de vias,Sim,Automóvel,CHEV/ONIX PLUS JOY BLACK/ONIX PLUS JOY BLACK,2021.0,Condutor,Ileso,45.0,Masculino,1,0,0,0,-373911117,-3858687498,SPRF-CE,DEL01-CE
1,2022-01-01,sábado,2022-12-02 00:10:00,CE,222.0,28,FORTALEZA,Sim,Ingestão de álcool pelo condutor,Colisão transversal,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Múltipla,Interseção de vias,Sim,Motocicleta,HONDA/CG150 TITAN MIX ES/CG150 TITAN MIX ES,2009.0,Condutor,Lesões Graves,59.0,Masculino,0,0,1,0,-373911117,-3858687498,SPRF-CE,DEL01-CE
2,2022-01-01,sábado,2022-12-02 01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,Interseção de vias,Sim,Motocicleta,YAMAHA/FACTOR YBR125 K/FACTOR YBR125 K,2009.0,Passageiro,Lesões Leves,25.0,Feminino,0,1,0,0,-82698,-359803,SPRF-PE,DEL02-PE
3,2022-01-01,sábado,2022-12-02 01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,Interseção de vias,Sim,Motocicleta,YAMAHA/FACTOR YBR125 K/FACTOR YBR125 K,2009.0,Condutor,Lesões Graves,37.0,Masculino,0,0,1,0,-82698,-359803,SPRF-PE,DEL02-PE
4,2022-01-01,sábado,2022-12-02 01:30:00,PE,104.0,63,CARUARU,Não,Reação tardia ou ineficiente do condutor,Queda de ocupante de veículo,Com Vítimas Feridas,Plena Noite,Crescente,Céu Claro,Dupla,Interseção de vias,Sim,Automóvel,VW/FOX CONNECT MB/FOX CONNECT MB,2019.0,Passageiro,Não Informado,34.0,Não Informado,0,0,0,0,-82698,-359803,SPRF-PE,DEL02-PE


In [166]:
# Salva em CSV
dados.to_csv('dados/acidentes2022_tratados.csv', index = False)