<a href="https://colab.research.google.com/github/KPxto/pucminas_tcc_mba/blob/master/tratamento_tcc_completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Importando bibliotecas a serem utilizadas

In [27]:
import os
import pandas as pd 
import numpy as np
from sqlalchemy import create_engine
import psycopg2

### Leitura do arquivo

In [40]:
df = pd.read_csv('data/acidentes2007-2020.tar.xz', compression='xz', usecols=[
    'id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km', 'municipio', 
    'causa_acidente', 'tipo_acidente', 'classificacao_acidente', 'fase_dia', 
    'sentido_via', 'condicao_metereologica', 'tipo_pista', 'tracado_via', 
    'uso_solo', 'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos', 
    'ignorados', 'feridos', 'veiculos'], dtype={'br': 'str', 'km': 'str'})

In [76]:
df.columns

Index(['id', 'id_unico', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km',
       'ID_mun', 'ID_causa', 'ID_tipo', 'ID_class', 'ID_fase_dia',
       'ID_sentido', 'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo',
       'Total_pessoas', 'Total_mortos', 'Total_feridos_leves',
       'Total_feridos_graves', 'Total_ilesos', 'Total_ignorados',
       'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

In [42]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
0,10.0,102007-06-11,segunda,15:30:00,MG,381,623.2,OLIVEIRA,falta de atenção,Colisão Frontal,...,Reta,Rural,9.0,0.0,4.0,0.0,5.0,0.0,4.0,6.0
1,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
2,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
3,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
4,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0


#### Checando o tamanho da nossa base

In [43]:
print(f'Nossa base de dados tem {df.shape[0]} linhas e {df.shape[1]} colunas.')

Nossa base de dados tem 1851866 linhas e 25 colunas.


### Conhecendo tipos de dados de cada coluna da nossa base 

In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1851866 entries, 0 to 1851865
Data columns (total 25 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   id                      float64
 1   id_unico                object 
 2   dia_semana              object 
 3   horario                 object 
 4   uf                      object 
 5   br                      object 
 6   km                      object 
 7   municipio               object 
 8   causa_acidente          object 
 9   tipo_acidente           object 
 10  classificacao_acidente  object 
 11  fase_dia                object 
 12  sentido_via             object 
 13  condicao_metereologica  object 
 14  tipo_pista              object 
 15  tracado_via             object 
 16  uso_solo                object 
 17  pessoas                 float64
 18  mortos                  float64
 19  feridos_leves           float64
 20  feridos_graves          float64
 21  ilesos                  float64

### Vamos checar quantos e onde estão os valores nulos

In [45]:
df.isna().sum()

id                          1
id_unico                    1
dia_semana                  1
horario                     1
uf                          1
br                        514
km                        514
municipio                   1
causa_acidente              1
tipo_acidente              13
classificacao_acidente     25
fase_dia                    2
sentido_via                 1
condicao_metereologica      4
tipo_pista                 11
tracado_via                 1
uso_solo                    1
pessoas                     1
mortos                      1
feridos_leves               1
feridos_graves              1
ilesos                      1
ignorados                   1
feridos                     1
veiculos                    1
dtype: int64

---

**No código abaixo vamos excluir as linhas de colunas que tiveram alguns valores nulos**

In [46]:
df.dropna(subset=['br', 'km', 'tipo_acidente', 'classificacao_acidente', 
                  'fase_dia', 'condicao_metereologica', 'tipo_pista'], axis=0, inplace=True)

**Como ficou nossa base**

In [47]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
1,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
2,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
3,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
4,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0
5,1070971.0,10709712007-03-05,segunda,08:10:00,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,...,Curva,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0


In [48]:
print(f'Agora nossa base tem {df.shape[0]} linhas e {df.shape[1]} colunas')

Agora nossa base tem 1851304 linhas e 25 colunas


**Vejamos novamente como está a qualidade das colunas da nossa base**

In [49]:
df.isna().sum()

id                        0
id_unico                  0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
pessoas                   0
mortos                    0
feridos_leves             0
feridos_graves            0
ilesos                    0
ignorados                 0
feridos                   0
veiculos                  0
dtype: int64

Já que excluímos várias linhas da base original, vamos zerar os índice do nosso dataframe

In [50]:
df.reset_index(inplace=True, drop=True)

>Agora sim, todas colunas com valores válidos e nossa base está pronta para a modelagem

**Aqui vemos que nossa base está arrumada e com o índice zerado**

In [51]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,tracado_via,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
0,1032898.0,10328982007-08-13,segunda,14:25:00,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Reta,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0
1,1051130.0,10511302007-02-12,segunda,02:10:00,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Reta,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0
2,1066824.0,10668242007-11-20,terça,05:30:00,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Reta,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0
3,1069918.0,10699182007-12-16,domingo,17:40:00,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Curva,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0
4,1070971.0,10709712007-03-05,segunda,08:10:00,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,...,Curva,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0


Extraindo a data da coluna id_unico

In [53]:
df['data'] = pd.to_datetime(df['id_unico'].apply(lambda x: x[::-1][:10][::-1]))
#df = df[df['data'].dt.year >= 2015].copy()

### Modelagem para banco de dados

Listando as colunas

In [54]:
df.columns

Index(['id', 'id_unico', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'data'],
      dtype='object')

**Como a coluna horário se trata de uma categoria para a nossa análise, vamos extrair somente a faixa de hora**

Dessa forma será possível classificar acidentes por faixa de hora.

Aplicaremos uma função lambda para este fim

In [55]:
df['horario'] = df['horario'].apply(lambda x: x[:2])

In [56]:
df.head()

Unnamed: 0,id,id_unico,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,uso_solo,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,data
0,1032898.0,10328982007-08-13,segunda,14,MG,40,585.5,ITABIRITO,outras,Saída de Pista,...,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0,2007-08-13
1,1051130.0,10511302007-02-12,segunda,2,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,...,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0,2007-02-12
2,1066824.0,10668242007-11-20,terça,5,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,...,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,2007-11-20
3,1069918.0,10699182007-12-16,domingo,17,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,...,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,2007-12-16
4,1070971.0,10709712007-03-05,segunda,8,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,...,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0,2007-03-05


In [57]:
df.rename(columns={
    'dia_semana': 'ID_dia',
    'horario': 'ID_hora',
    'uf': 'ID_uf',
    'br': 'ID_br',
    'km': 'ID_km',
    'municipio': 'ID_mun',
    'causa_acidente': 'ID_causa',
    'tipo_acidente': 'ID_tipo',
    'classificacao_acidente': 'ID_class',
    'fase_dia': 'ID_fase_dia',
    'sentido_via': 'ID_sentido',
    'condicao_metereologica': 'ID_condicao',
    'tipo_pista': 'ID_pista',
    'tracado_via': 'ID_tracado',
    'uso_solo': 'ID_solo',
    'pessoas': 'Total_pessoas',
    'mortos': 'Total_mortos',
    'feridos_leves': 'Total_feridos_leves',
    'feridos_graves': 'Total_feridos_graves',
    'ilesos': 'Total_ilesos',
    'ignorados': 'Total_ignorados',
    'feridos': 'Total_feridos',
    'veiculos': 'Total_veiculos'
}, inplace=True)

In [58]:
df.columns

Index(['id', 'id_unico', 'ID_dia', 'ID_hora', 'ID_uf', 'ID_br', 'ID_km',
       'ID_mun', 'ID_causa', 'ID_tipo', 'ID_class', 'ID_fase_dia',
       'ID_sentido', 'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo',
       'Total_pessoas', 'Total_mortos', 'Total_feridos_leves',
       'Total_feridos_graves', 'Total_ilesos', 'Total_ignorados',
       'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

**Campos a serem utilizadas para criação das tabelas dimensão**

In [59]:
campos = [
    'ID_dia', 'ID_hora', 'ID_uf', 'ID_br',
    'ID_km', 'ID_mun', 'ID_causa', 'ID_tipo', 
    'ID_class', 'ID_fase_dia', 'ID_sentido', 
    'ID_condicao', 'ID_pista', 'ID_tracado', 'ID_solo'
         ]

In [60]:
df_dim = df[campos].copy()

In [61]:
df_dim.head()

Unnamed: 0,ID_dia,ID_hora,ID_uf,ID_br,ID_km,ID_mun,ID_causa,ID_tipo,ID_class,ID_fase_dia,ID_sentido,ID_condicao,ID_pista,ID_tracado,ID_solo
0,segunda,14,MG,40,585.5,ITABIRITO,outras,Saída de Pista,Com Vítimas Feridas,Pleno dia,Crescente,Céu Claro,Simples,Reta,Rural
1,segunda,2,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,Com Vítimas Fatais,Plena noite,Crescente,Céu Claro,Simples,Reta,Urbano
2,terça,5,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,Com Vítimas Feridas,Amanhecer,Decrescente,Céu Claro,Dupla,Reta,Rural
3,domingo,17,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,Com Vítimas Feridas,Anoitecer,Crescente,Chuva,Simples,Curva,Rural
4,segunda,8,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,Sem Vítimas,Pleno dia,Crescente,Céu Claro,Simples,Curva,Urbano


**Criação da base para a tabela fato**

In [62]:
df_fato = df[df.columns[3:]].copy()

In [63]:
df_fato.columns

Index(['ID_hora', 'ID_uf', 'ID_br', 'ID_km', 'ID_mun', 'ID_causa', 'ID_tipo',
       'ID_class', 'ID_fase_dia', 'ID_sentido', 'ID_condicao', 'ID_pista',
       'ID_tracado', 'ID_solo', 'Total_pessoas', 'Total_mortos',
       'Total_feridos_leves', 'Total_feridos_graves', 'Total_ilesos',
       'Total_ignorados', 'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

In [64]:
df_fato.head()

Unnamed: 0,ID_hora,ID_uf,ID_br,ID_km,ID_mun,ID_causa,ID_tipo,ID_class,ID_fase_dia,ID_sentido,...,ID_solo,Total_pessoas,Total_mortos,Total_feridos_leves,Total_feridos_graves,Total_ilesos,Total_ignorados,Total_feridos,Total_veiculos,data
0,14,MG,40,585.5,ITABIRITO,outras,Saída de Pista,Com Vítimas Feridas,Pleno dia,Crescente,...,Rural,3.0,0.0,0.0,1.0,2.0,0.0,1.0,1.0,2007-08-13
1,2,MA,135,11.0,SAO LUIS,animais na pista,Atropelamento de Animal,Com Vítimas Fatais,Plena noite,Crescente,...,Urbano,5.0,2.0,2.0,1.0,0.0,0.0,3.0,1.0,2007-02-12
2,5,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,Com Vítimas Feridas,Amanhecer,Decrescente,...,Rural,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,2007-11-20
3,17,MA,230,14.0,BARAO DE GRAJAU,outras,Capotamento,Com Vítimas Feridas,Anoitecer,Crescente,...,Rural,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,2007-12-16
4,8,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,Sem Vítimas,Pleno dia,Crescente,...,Urbano,2.0,0.0,0.0,0.0,2.0,0.0,0.0,2.0,2007-03-05


In [65]:
df_fato.columns

Index(['ID_hora', 'ID_uf', 'ID_br', 'ID_km', 'ID_mun', 'ID_causa', 'ID_tipo',
       'ID_class', 'ID_fase_dia', 'ID_sentido', 'ID_condicao', 'ID_pista',
       'ID_tracado', 'ID_solo', 'Total_pessoas', 'Total_mortos',
       'Total_feridos_leves', 'Total_feridos_graves', 'Total_ilesos',
       'Total_ignorados', 'Total_feridos', 'Total_veiculos', 'data'],
      dtype='object')

**Automatizando criação das tabelas dim**

In [None]:
def criar_tabela(dimensao, nome):
    dim = pd.DataFrame(df[dimensao].unique())
    dim = dim.reset_index().rename(columns={'index':f'ID_{nome}', 0:f'Desc_{nome}'})
    
    return dim

In [None]:
dim_dia = criar_tabela(campos[0], campos[0][3:])
dim_hora = criar_tabela(campos[1], campos[1][3:])
dim_uf = criar_tabela(campos[2], campos[2][3:])
dim_br = criar_tabela(campos[3], campos[3][3:])
dim_km = criar_tabela(campos[4], campos[4][3:])
dim_mun = criar_tabela(campos[5], campos[5][3:])
dim_causa = criar_tabela(campos[6], campos[6][3:])
dim_tipo = criar_tabela(campos[7], campos[7][3:])
dim_class = criar_tabela(campos[8], campos[8][3:])
dim_fase_dia = criar_tabela(campos[9], campos[9][3:])
dim_sentido = criar_tabela(campos[10], campos[10][3:])
dim_condicao = criar_tabela(campos[11], campos[11][3:])
dim_pista = criar_tabela(campos[12], campos[12][3:])
dim_tracado = criar_tabela(campos[13], campos[13][3:])
dim_solo = criar_tabela(campos[14], campos[14][3:])

In [None]:
lista_dim = [
    dim_dia, dim_hora, dim_uf, dim_br, dim_km, 
    dim_mun, dim_causa, dim_tipo, dim_class,
    dim_fase_dia, dim_sentido, dim_condicao,
    dim_pista, dim_tracado, dim_solo
]

**Agora vamos mapear para que as colunas da tabela fato contenham os ids e não as descrições dos campos de dimensões**

In [None]:
def mapear_dim_fato(dim):
    desc = list(dim.to_dict().keys())[1]
    mapa_base = dim.to_dict()[desc]
    mapa = {value: key for (key, value) in  mapa_base.items()}
    
    return mapa

In [None]:
df_fato

Unnamed: 0,ID_dia,ID_hora,ID_uf,ID_br,ID_km,ID_mun,ID_causa,ID_tipo,ID_class,ID_fase_dia,...,ID_tracado,ID_solo,Total_pessoas,Total_mortos,Total_feridos_leves,Total_feridos_graves,Total_ilesos,Total_ignorados,Total_feridos,Total_veiculos
0,segunda,14,MG,40,585.5,ITABIRITO,outras,Saída de Pista,Com Vítimas Feridas,Pleno dia,...,Reta,Rural,3,0,0,1,2,0,1,1
1,segunda,02,MA,135,11,SAO LUIS,animais na pista,Atropelamento de Animal,Com Vítimas Fatais,Plena noite,...,Reta,Urbano,5,2,2,1,0,0,3,1
2,terça,05,CE,222,30.8,CAUCAIA,defeito mecânico no veículo,Capotamento,Com Vítimas Feridas,Amanhecer,...,Reta,Rural,1,0,1,0,0,0,1,1
3,domingo,17,MA,230,14,BARAO DE GRAJAU,outras,Capotamento,Com Vítimas Feridas,Anoitecer,...,Curva,Rural,1,0,0,1,0,0,1,1
4,segunda,08,PR,277,584.4,CASCAVEL,outras,Colisão Lateral,Sem Vítimas,Pleno dia,...,Curva,Urbano,2,0,0,0,2,0,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1851299,sexta,20,ES,101,287,CARIACICA,falta de atenção à condução,Colisão Lateral,Com Vítimas Feridas,Plena noite,...,Reta,Não,2,0,0,1,1,0,1,2
1851300,sexta,03,RO,364,1071,PORTO VELHO,desobediência ã s normas de trânsito pelo cond...,Colisão Frontal,Com Vítimas Fatais,Plena noite,...,Reta,Sim,2,1,1,0,0,0,1,2
1851301,sábado,18,RS,116,156.6,CAXIAS DO SUL,desobediência ã s normas de trânsito pelo cond...,Colisão Lateral,Com Vítimas Feridas,Anoitecer,...,Curva,Não,4,0,1,0,1,2,1,2
1851302,quarta,11,PI,343,20,PARNAIBA,falta de atenção à condução,Colisão Transversal,Com Vítimas Feridas,Pleno dia,...,Reta,Não,2,0,1,0,1,0,1,2


In [None]:
df_fato['ID_dia'] = df_fato['ID_dia'].map(mapear_dim_fato(dim_dia))
df_fato['ID_hora'] = df_fato['ID_hora'].map(mapear_dim_fato(dim_hora))
df_fato['ID_uf'] = df_fato['ID_uf'].map(mapear_dim_fato(dim_uf))
df_fato['ID_br'] = df_fato['ID_br'].map(mapear_dim_fato(dim_br))
df_fato['ID_km'] = df_fato['ID_km'].map(mapear_dim_fato(dim_km))
df_fato['ID_mun'] = df_fato['ID_mun'].map(mapear_dim_fato(dim_mun))
df_fato['ID_causa'] = df_fato['ID_causa'].map(mapear_dim_fato(dim_causa))
df_fato['ID_tipo'] = df_fato['ID_tipo'].map(mapear_dim_fato(dim_tipo))
df_fato['ID_class'] = df_fato['ID_class'].map(mapear_dim_fato(dim_class))
df_fato['ID_fase_dia'] = df_fato['ID_fase_dia'].map(mapear_dim_fato(dim_fase_dia))
df_fato['ID_sentido'] = df_fato['ID_sentido'].map(mapear_dim_fato(dim_sentido))
df_fato['ID_condicao'] = df_fato['ID_condicao'].map(mapear_dim_fato(dim_condicao))
df_fato['ID_pista'] = df_fato['ID_pista'].map(mapear_dim_fato(dim_pista))
df_fato['ID_tracado'] = df_fato['ID_tracado'].map(mapear_dim_fato(dim_tracado))
df_fato['ID_solo'] = df_fato['ID_solo'].map(mapear_dim_fato(dim_solo))


In [None]:
df_fato

Unnamed: 0,ID_dia,ID_hora,ID_uf,ID_br,ID_km,ID_mun,ID_causa,ID_tipo,ID_class,ID_fase_dia,...,ID_tracado,ID_solo,Total_pessoas,Total_mortos,Total_feridos_leves,Total_feridos_graves,Total_ilesos,Total_ignorados,Total_feridos,Total_veiculos
0,0,0,0,0,0,0,0,0,0,0,...,0,0,3,0,0,1,2,0,1,1
1,0,1,1,1,1,1,1,1,1,1,...,0,1,5,2,2,1,0,0,3,1
2,1,2,2,2,2,2,2,2,0,2,...,0,0,1,0,1,0,0,0,1,1
3,2,3,1,3,3,3,0,2,0,3,...,1,0,1,0,0,1,0,0,1,1
4,0,4,3,4,4,4,0,3,2,0,...,1,1,2,0,0,0,2,0,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1851299,5,6,4,5,1000,350,13,3,0,1,...,0,2,2,0,0,1,1,0,1,2
1851300,5,10,20,32,20463,315,29,14,1,1,...,0,3,2,1,1,0,0,0,1,2
1851301,6,21,7,8,15101,255,29,3,0,3,...,1,2,4,0,1,0,1,2,1,2
1851302,4,15,17,26,79,303,13,6,0,0,...,0,2,2,0,1,0,1,0,1,2


### Conectando este notebook à base de dados PostgreSQL

In [74]:
con = create_engine('postgresql://kaio:25123436@localhost:5432/postgres')

In [None]:
from time import sleep

In [None]:
dim_dia[:100].to_sql('Dim_dia', con=con, index=False)
dim_hora[:100].to_sql('Dim_hora', con=con, index=False)
dim_uf[:100].to_sql('Dim_uf', con=con, index=False)
dim_br[:100].to_sql('Dim_br', con=con, index=False)
dim_km[:100].to_sql('Dim_km', con=con, index=False)
dim_mun[:100].to_sql('Dim_mun', con=con, index=False)
dim_causa[:100].to_sql('Dim_causa', con=con, index=False)
dim_tipo[:100].to_sql('Dim_tipo', con=con, index=False)
dim_class[:100].to_sql('Dim_class', con=con, index=False)
dim_fase_dia[:100].to_sql('Dim_fase_dia', con=con, index=False)
dim_sentido[:100].to_sql('Dim_sentido', con=con, index=False)
dim_condicao[:100].to_sql('Dim_condicao', con=con, index=False)
dim_pista[:100].to_sql('Dim_pista', con=con, index=False)
dim_tracado[:100].to_sql('Dim_tracado', con=con, index=False)
dim_solo[:100].to_sql('Dim_solo', con=con, index=False)

In [None]:
criar_tabela('condicao_metereologica', 'cm')#.to_csv('dim_'.csv, index=False)

Unnamed: 0,ID_cm,Desc_cm
0,0,Céu Claro
1,1,Chuva
2,2,Nublado
3,3,Sol
4,4,Nevoeiro/Neblina
5,5,Ignorada
6,6,Vento
7,7,Granizo
8,8,(null)
9,9,Neve
