<a href="https://colab.research.google.com/github/KPxto/pucminas_tcc_mba/blob/master/tratamento_tcc_completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Importando bibliotecas a serem utilizadas

In [136]:
import os
import pandas as pd 
import numpy as np
from sqlalchemy import create_engine
import psycopg2
from time import sleep

### Leitura do arquivo

In [73]:
df = pd.read_csv('data/acidentes2007-2020.tar.xz', compression='xz', usecols=[
    'id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km', 'municipio', 
    'causa_acidente', 'tipo_acidente', 'classificacao_acidente', 'fase_dia', 
    'sentido_via', 'condicao_metereologica', 'tipo_pista', 'tracado_via', 
    'uso_solo', 'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos', 
    'ignorados', 'feridos', 'veiculos'], dtype={'br': 'str', 'km': 'str'})

In [74]:
df.columns

Index(['id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos'],
      dtype='object')

In [75]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
0,10.0,102007-06-11,segunda,15:30:00,MG,381,623.2,OLIVEIRA,falta de atenção,Colisão Frontal,...,Reta,Rural,9.0,0.0,4.0,0.0,5.0,0.0,4.0,6.0
1,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
2,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
3,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
4,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0


#### Checando o tamanho da nossa base

In [76]:
print(f'Nossa base de dados tem {df.shape[0]} linhas e {df.shape[1]} colunas.')

Nossa base de dados tem 1851866 linhas e 25 colunas.


### Conhecendo tipos de dados de cada coluna da nossa base 

In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1851866 entries, 0 to 1851865
Data columns (total 25 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   id                      float64
 1   id_unico                object 
 2   dia_semana              object 
 3   horario                 object 
 4   uf                      object 
 5   br                      object 
 6   km                      object 
 7   municipio               object 
 8   causa_acidente          object 
 9   tipo_acidente           object 
 10  classificacao_acidente  object 
 11  fase_dia                object 
 12  sentido_via             object 
 13  condicao_metereologica  object 
 14  tipo_pista              object 
 15  tracado_via             object 
 16  uso_solo                object 
 17  pessoas                 float64
 18  mortos                  float64
 19  feridos_leves           float64
 20  feridos_graves          float64
 21  ilesos                  float64

### Vamos checar quantos e onde estão os valores nulos

In [78]:
df.isna().sum()

id                          1
id_unico                    1
dia_semana                  1
horario                     1
uf                          1
br                        514
km                        514
municipio                   1
causa_acidente              1
tipo_acidente              13
classificacao_acidente     25
fase_dia                    2
sentido_via                 1
condicao_metereologica      4
tipo_pista                 11
tracado_via                 1
uso_solo                    1
pessoas                     1
mortos                      1
feridos_leves               1
feridos_graves              1
ilesos                      1
ignorados                   1
feridos                     1
veiculos                    1
dtype: int64

---

**No código abaixo vamos excluir as linhas de colunas que tiveram alguns valores nulos**

In [79]:
df.dropna(subset=['br', 'km', 'tipo_acidente', 'classificacao_acidente', 
                  'fase_dia', 'condicao_metereologica', 'tipo_pista'], axis=0, inplace=True)

**Como ficou nossa base**

In [80]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
1,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
2,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
3,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
4,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0
5,1070971.0,10709712007-03-05,segunda,08:10:00,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,...,Curva,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0


In [81]:
print(f'Agora nossa base tem {df.shape[0]} linhas e {df.shape[1]} colunas')

Agora nossa base tem 1851304 linhas e 25 colunas


**Vejamos novamente como está a qualidade das colunas da nossa base**

In [82]:
df.isna().sum()

id                        0
id_unico                  0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
pessoas                   0
mortos                    0
feridos_leves             0
feridos_graves            0
ilesos                    0
ignorados                 0
feridos                   0
veiculos                  0
dtype: int64

Já que excluímos várias linhas da base original, vamos zerar os índice do nosso dataframe

In [83]:
df.reset_index(inplace=True, drop=True)

>Agora sim, todas colunas com valores válidos e nossa base está pronta para a modelagem

**Aqui vemos que nossa base está arrumada e com o índice zerado**

In [84]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
0,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
1,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
2,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
3,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0
4,1070971.0,10709712007-03-05,segunda,08:10:00,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,...,Curva,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0


Extraindo a data da coluna id_unico e criando uma coluna especifica para data

In [85]:
df['data'] = pd.to_datetime(df['id_unico'].apply(lambda x: x[::-1][:10][::-1]))

In [86]:
#df = df[df['data'].dt.year >= 2015].copy()

### Modelagem para banco de dados

Listando as colunas

In [87]:
df.columns

Index(['id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'data'],
      dtype='object')

**Como a coluna horário se trata de uma categoria para a nossa análise, vamos extrair somente a faixa de hora**

Dessa forma será possível classificar acidentes por faixa de hora.

Aplicaremos uma função lambda para este fim e depois mapearemos cada hora para sua devida faixa

In [88]:
df['horario'] = df['horario'].apply(lambda x: x[:2])

In [89]:
df['horario'] = df['horario'].map({
    '01': '01:00-02:00',
    '02': '02:00-03:00',
    '03': '03:00-04:00',
    '04': '04:00-05:00',
    '05': '05:00-06:00',
    '06': '06:00-07:00',
    '07': '07:00-08:00',
    '08': '08:00-09:00',
    '09': '09:00-10:00',
    '10': '10:00-11:00',
    '11': '11:00-12:00',
    '12': '12:00-13:00',
    '13': '13:00-14:00',
    '14': '14:00-15:00',
    '15': '15:00-16:00',
    '16': '16:00-17:00',
    '17': '17:00-18:00',
    '18': '18:00-19:00',
    '19': '19:00-20:00',
    '20': '20:00-21:00',
    '21': '21:00-22:00',
    '22': '22:00-23:00',
    '23': '23:00-00:00',
    '00': '00:00-01:00',
})

In [90]:
df.columns

Index(['id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'data'],
      dtype='object')

In [91]:
df.rename(columns={
    'dia_semana': 'ID_dia',
    'horario': 'ID_hora',
    'uf': 'ID_uf',
    'br': 'ID_br',
    'km': 'ID_km',
    'municipio': 'ID_mun',
    'causa_acidente': 'ID_causa',
    'tipo_acidente': 'ID_tipo',
    'classificacao_acidente': 'ID_class',
    'fase_dia': 'ID_fase_dia',
    'sentido_via': 'ID_sentido',
    'condicao_metereologica': 'ID_condicao',
    'tipo_pista': 'ID_pista',
    'tracado_via': 'ID_tracado',
    'uso_solo': 'ID_solo',
    'pessoas': 'Total_pessoas',
    'mortos': 'Total_mortos',
    'feridos_leves': 'Total_feridos_leves',
    'feridos_graves': 'Total_feridos_graves',
    'ilesos': 'Total_ilesos',
    'ignorados': 'Total_ignorados',
    'feridos': 'Total_feridos',
    'veiculos': 'Total_veiculos'
}, inplace=True)

In [92]:
df.columns

Index(['id', 'id_unico', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km',
       'ID_mun', 'ID_causa', 'ID_tipo', 'ID_class', 'ID_fase_dia',
       'ID_sentido', 'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo',
       'Total_pessoas', 'Total_mortos', 'Total_feridos_leves',
       'Total_feridos_graves', 'Total_ilesos', 'Total_ignorados',
       'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

### Criando tabelas dimensão, fato e salvando-as no banco

In [123]:
# criando conexão ao banco de dados
con = create_engine('postgresql://kaio:25123436@localhost:5432/postgres')

**Tabelas dimensão**

In [124]:
# colunas que serão utilizadas para tabela dimensão
campos = [
    'ID_dia', 'ID_hora', 'ID_uf', 'ID_br',
    'ID_km', 'ID_mun', 'ID_causa', 'ID_tipo', 
    'ID_class', 'ID_fase_dia', 'ID_sentido', 
    'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo'
         ]

DataFrame que contém somente as colunas referentes às tabela dimensão

In [134]:
df_dim = df[campos].copy()

**Código para transformar colunas dimensão em tabelas e já salvar para o banco**

In [138]:
def criar_dim(coluna, salva=False):
    unicos = df_dim[coluna].unique().copy()
    tabela_dim = pd.DataFrame({'id_unico':range(1, len(unicos)+1), 'descr':unicos})
    if salva:
        tabela_dim.to_sql(f'd_{coluna[3:]}', con=con, index=False, if_exists='append')
    
    return tabela_dim

In [139]:
campos

['ID_dia',
 'ID_hora',
 'ID_uf',
 'ID_br',
 'ID_km',
 'ID_mun',
 'ID_causa',
 'ID_tipo',
 'ID_class',
 'ID_fase_dia',
 'ID_sentido',
 'ID_condicao',
 'ID_pista',
 'ID_tracado',
 'ID_solo']

**Aqui vamos criar um laço que vai percorrer por toda a lista acima e criar as tabelas no banco uma a uma**

In [142]:
for dimensao in campos:
    criar_dim(dimensao, True)
    sleep(5)

----

**Tabela fato**

In [143]:
df.columns

Index(['id', 'id_unico', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km',
       'ID_mun', 'ID_causa', 'ID_tipo', 'ID_class', 'ID_fase_dia',
       'ID_sentido', 'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo',
       'Total_pessoas', 'Total_mortos', 'Total_feridos_leves',
       'Total_feridos_graves', 'Total_ilesos', 'Total_ignorados',
       'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

In [146]:
df_fato = df[df.columns[1:]].copy()

In [147]:
df_fato.columns

Index(['id_unico', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km', 'ID_mun',
       'ID_causa', 'ID_tipo', 'ID_class', 'ID_fase_dia', 'ID_sentido',
       'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo', 'Total_pessoas',
       'Total_mortos', 'Total_feridos_leves', 'Total_feridos_graves',
       'Total_ilesos', 'Total_ignorados', 'Total_feridos', 'Total_veiculos',
       'data'],
      dtype='object')

Reordenando colunas

In [148]:
ordem_colunas = [
    'id_unico', 'data', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 
    'ID_km', 'ID_mun', 'ID_causa', 'ID_tipo', 'ID_class', 
    'ID_fase_dia', 'ID_sentido', 'ID_condicao', 'ID_pista', 
    'ID_tracado', 'ID_solo', 'Total_pessoas', 'Total_mortos', 
    'Total_feridos_leves', 'Total_feridos_graves', 'Total_ilesos', 
    'Total_ignorados', 'Total_feridos', 'Total_veiculos']

In [150]:
df_fato = df_fato[ordem_colunas].copy()

**Agora vamos mapear para que as colunas da tabela fato contenham os ids e não as descrições dos campos de dimensões**

In [164]:
def mapear_dim_fato(dim):
    dimensao = criar_dim(dim)
    mapa_base = dict(zip(dimensao['id_unico'].to_list(), dimensao['descr'].to_list()))
    mapa = {value: key for (key, value) in  mapa_base.items()}
    
    return mapa

In [184]:
df_fato

In [185]:
df_fato

Index(['ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km', 'ID_mun', 'ID_causa',
       'ID_tipo', 'ID_class', 'ID_fase_dia', 'ID_sentido', 'ID_condicao',
       'ID_pista', 'ID_tracado', 'ID_solo'],
      dtype='object')

Fazendo um loop para percorrer todas as colunas da tabela fato

In [187]:
for col in df_fato.columns[2:17]:
    df_fato[col] = df_fato[col].map(mapear_dim_fato(col))

**Salvando para um banco de dados**

In [189]:
#df_fato.to_sql('d_fato', con=con, index=False)