## Transformando vários dataset em apenas um e modificando categorias para ficar mais leve
Dados coletados dia 15/09/2020 do site da Polícia Rodoviária Federal

In [1]:
import pandas as pd
import os
from datetime import datetime, date, time

In [2]:
#buscando todos os nomes de arquivos da pasta de banco de dados
for dirname, _, filenames in os.walk('dataset'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

dataset\acidentes2017_todas_causas_tipos.csv
dataset\acidentes2018_todas_causas_tipos.csv
dataset\acidentes2019_todas_causas_tipos.csv


In [3]:
#listando todas as colunas para serem carregadas
colunas = ['pesid', 
           'data_inversa', 
           'dia_semana', 
           'horario', 
           'uf', 
           'br', 
           'km',
           'municipio', 
           'causa_principal', 
           'causa_acidente', 
           'ordem_tipo_acidente',
           'tipo_acidente', 
           'classificacao_acidente', 
           'fase_dia', 
           'sentido_via',
           'condicao_metereologica', 
           'tipo_pista', 
           'tracado_via', 
           'uso_solo',
           'id_veiculo', 
           'tipo_veiculo', 
           'marca', 
           'ano_fabricacao_veiculo',
           'tipo_envolvido', 
           'estado_fisico', 
           'idade', 
           'sexo', 
           'ilesos',
           'feridos_leves', 
           'feridos_graves', 
           'mortos', 
           'latitude', 
           'longitude',
           'regional', 
           'delegacia', 
           'uop']

In [5]:
#fazendo a importação dos arquivos
infracao_2017 = pd.read_csv('dataset/acidentes2017_todas_causas_tipos.csv', sep = ';', usecols=colunas, encoding='latin1', index_col=0, low_memory=False)
infracao_2018 = pd.read_csv('dataset/acidentes2018_todas_causas_tipos.csv', sep = ';', usecols=colunas, encoding='latin1', index_col=0, low_memory=False)
infracao_2019 = pd.read_csv('dataset/acidentes2019_todas_causas_tipos.csv', sep = ';', usecols=colunas, encoding='latin1', index_col=0, low_memory=False)

# não adicionei infracao de 2020 por não ter completado o ano e dar divergencias de quantidade de acidentes por mes
# infracao_2020 = pd.read_csv('dataset/acidentes2020_todas_causas_tipos.csv', sep = ';', usecols=colunas, encoding='latin1', index_col=0, low_memory=False)

In [6]:
#transformando em apenas um dataset
df = pd.concat([infracao_2017, infracao_2018, infracao_2019,],sort=False, ignore_index=True)

In [7]:
# verificando a quantidade de linhas e colunas
df.shape

(1005542, 35)

In [8]:
#verificando a memoria usada pelo dataset
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1005542 entries, 0 to 1005541
Data columns (total 35 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   data_inversa            1005542 non-null  object 
 1   dia_semana              1005542 non-null  object 
 2   horario                 1005542 non-null  object 
 3   uf                      1005542 non-null  object 
 4   br                      1004094 non-null  float64
 5   km                      1004094 non-null  object 
 6   municipio               1005542 non-null  object 
 7   causa_principal         1005542 non-null  object 
 8   causa_acidente          1005542 non-null  object 
 9   ordem_tipo_acidente     1005447 non-null  float64
 10  tipo_acidente           1005447 non-null  object 
 11  classificacao_acidente  1005542 non-null  object 
 12  fase_dia                1005542 non-null  object 
 13  sentido_via             1005542 non-null  object 
 14  co

In [8]:
# modificando as categorias para utilizar menos memoria no processamento dos dados

df.dia_semana = df.dia_semana.astype('category')
df.uf = df.uf.astype('category')
df.br = df.br.astype('category')
df.km = df.km.astype('category')
df.municipio = df.municipio.astype('category')           
df.causa_principal = df.causa_principal.astype('category')
df.ordem_tipo_acidente = df.ordem_tipo_acidente.astype('category')    
df.causa_acidente = df.causa_acidente.astype('category')
df.tipo_acidente = df.tipo_acidente.astype('category')    
df.classificacao_acidente = df.classificacao_acidente.astype('category')    
df.fase_dia = df.fase_dia.astype('category')
df.sentido_via = df.sentido_via.astype('category')
df.condicao_metereologica = df.condicao_metereologica.astype('category')
df.tipo_pista = df.tipo_pista.astype('category')
df.tracado_via = df.tracado_via.astype('category')
df.uso_solo = df.uso_solo.astype('category')
df.id_veiculo = df.id_veiculo.astype('category')
df.tipo_veiculo = df.tipo_veiculo.astype('category')
df.marca = df.marca.astype('category')
df.ano_fabricacao_veiculo = df.ano_fabricacao_veiculo.astype('category')
df.tipo_envolvido = df.tipo_envolvido.astype('category')
df.estado_fisico = df.estado_fisico.astype('category')
df.idade = df.idade.astype('category')
df.sexo = df.sexo.astype('category')
df.ilesos = df.ilesos.astype('uint8')
df.feridos_leves = df.feridos_leves.astype('uint8')
df.feridos_graves = df.feridos_graves.astype('uint8')
df.mortos = df.mortos.astype('uint8')
df.regional = df.regional.astype('category')
df.delegacia = df.delegacia.astype('category')
df.uop = df.uop.astype('category')

#trabalhando para separar data, hora, mes e ano em colunas diferentes
df['data_hora'] = df['data_inversa'].map(str) + ' ' + df['horario']
df['data_hora'] = pd.to_datetime(df['data_hora'])
df['ano'] = df['data_hora'].dt.year
df['mes'] = df['data_hora'].dt.month
df['hora'] = df['data_hora'].dt.hour

In [9]:
# verificando o uso de memoria
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1005542 entries, 0 to 1005541
Data columns (total 39 columns):
 #   Column                  Non-Null Count    Dtype         
---  ------                  --------------    -----         
 0   data_inversa            1005542 non-null  object        
 1   dia_semana              1005542 non-null  category      
 2   horario                 1005542 non-null  object        
 3   uf                      1005542 non-null  category      
 4   br                      1004094 non-null  category      
 5   km                      1004094 non-null  category      
 6   municipio               1005542 non-null  category      
 7   causa_principal         1005542 non-null  category      
 8   causa_acidente          1005542 non-null  category      
 9   ordem_tipo_acidente     1005447 non-null  category      
 10  tipo_acidente           1005447 non-null  category      
 11  classificacao_acidente  1005542 non-null  category      
 12  fase_dia      

# Eliminando os NaN e números faltantes

In [10]:
# verificando a quantidade de nulos e eliminando
df.isnull().sum()

data_inversa                   0
dia_semana                     0
horario                        0
uf                             0
br                          1448
km                          1448
municipio                      0
causa_principal                0
causa_acidente                 0
ordem_tipo_acidente           95
tipo_acidente                 95
classificacao_acidente         0
fase_dia                       0
sentido_via                    0
condicao_metereologica         0
tipo_pista                     0
tracado_via                    0
uso_solo                       0
id_veiculo                     5
tipo_veiculo                   0
marca                      40047
ano_fabricacao_veiculo     47324
tipo_envolvido                 0
estado_fisico                  0
idade                     186262
sexo                           0
ilesos                         0
feridos_leves                  0
feridos_graves                 0
mortos                         0
latitude  

In [11]:
df.drop(['uop', 'data_inversa', 'horario', 'idade'], axis=1, inplace = True)
df = df.dropna()

In [12]:
df.isnull().sum()

dia_semana                0
uf                        0
br                        0
km                        0
municipio                 0
causa_principal           0
causa_acidente            0
ordem_tipo_acidente       0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
id_veiculo                0
tipo_veiculo              0
marca                     0
ano_fabricacao_veiculo    0
tipo_envolvido            0
estado_fisico             0
sexo                      0
ilesos                    0
feridos_leves             0
feridos_graves            0
mortos                    0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
data_hora                 0
ano                       0
mes                       0
hora                      0
dtype: int64

In [13]:
df.shape

(956082, 35)

In [18]:
df.km = df.km.str.replace(',','.').astype(float)
df = df[df['estado_fisico'] != 'Não Informado']

In [20]:
df.to_csv('data.csv')