## Universidade de Brasília
## Instituto de Ciências Exatas
## Departamento de Ciência da Computação - PPCA
## Disciplina: Fundamentos de Banco de Dados
Projeto de Banco de Dados


In [1]:
# Importa módulos usados
import os
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import types
import sqlalchemy
import psycopg2
import datetime
import numpy as np
import unidecode

DEBUG = False

In [2]:
#Definindo funções
def ler_csv(arquivo, separador, colunas, codificacao, nomes_colunas):
    df = pd.read_csv(arquivo, delimiter=separador, usecols=colunas, encoding=codificacao)
    df.columns = nomes_colunas
    return df

## Órgãos do SIAF

In [3]:
csv = 'orgaos.CSV'
df_orgao = pd.read_csv(csv, encoding='ISO-8859-1')
df_orgao.columns = ['cod', 'nome', 'cnpj', 'codpoder', 'nomepoder', 'codtipoadministracao', 'nometipoadministracao']
print('{:,}'.format(len(df_orgao)) + " rows")

# Criando dataframe que vira tabela "poder"
df_poder = df_orgao[['codpoder', 'nomepoder']].copy()
df_poder.dropna(subset=['codpoder'], inplace=True)
df_poder.drop_duplicates(subset=['nomepoder'], keep="first", inplace=True)

df_orgao.drop(columns=['nomepoder'],inplace=True)

# Criando dataframe que vira tabela "tipo de administração"
df_tipo_administracao = df_orgao[['codtipoadministracao', 'nometipoadministracao']].copy()
df_tipo_administracao.dropna(subset=['codtipoadministracao'], inplace=True)
df_tipo_administracao.drop_duplicates(subset=['nometipoadministracao'], keep="first", inplace=True)

df_orgao.drop(columns=['nometipoadministracao'], inplace=True)
df_tipo_administracao

582 rows


Unnamed: 0,codtipoadministracao,nometipoadministracao
0,1,ADMINISTRACAO DIRETA
1,7,FUNDOS
37,4,FUNDACAO
38,3,AUTARQUIA
39,5,EMPRESA PUBLICA COMERCIAL E FINANCEIRA
42,6,ECONOMIA MISTA
532,15,EMPRESA PRIVADA
534,12,ADMINISTRACAO DIRETA MUNICIPAL
542,11,ADMINISTRACAO DIRETA ESTADUAL
581,-1,Sigiloso


In [4]:
df_orgao.loc()

<pandas.core.indexing._LocIndexer at 0x1f1da535580>

## Viagem

In [5]:
cols = [0, 1, 2, 3, 4, 5, 7, 9, 10, 14, 15, 16, 17, 18, 19]
campos = [ 'idprocessoviagem', 'numproposta', 'situacao', 'viagemurgente', 'justificativaurgencia',
           'codorgsuperior', 'codorgpagador', 'cpfviajante', 'nome', 'datainicio', 
           'datafim', 'destinos', 'motivo', 'valordiarias', 'valorpassagens']

In [6]:
# 2023, 2022, 2021, 2020, 2019
df_viagem = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
if not DEBUG:
    df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_viagem = pd.concat([df_viagem, df])
    df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_viagem = pd.concat([df_viagem, df])
    df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_viagem = pd.concat([df_viagem, df])
    df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_viagem = pd.concat([df_viagem, df])
print('{:,}'.format(len(df_viagem)) + " rows")

103,931 rows


### Limpeza dos dados de Viagem

In [7]:
# Formato de Data
df_viagem['datainicio'] = pd.to_datetime(df_viagem['datainicio'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')
df_viagem['datafim'] = pd.to_datetime(df_viagem['datafim'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')
# Sim e não para boolean
df_viagem['viagemurgente'] = df_viagem['viagemurgente'].map({'sim': True, 'não': False})
df_viagem['viagemurgente'].astype(bool)
# Troca vírgula por ponto no float
# Convertendo a coluna valor para float
df_viagem['valordiarias'] = df_viagem['valordiarias'].str.replace(',', '.')
df_viagem['valordiarias'] = df_viagem['valordiarias'].astype(float)
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].str.replace(',', '.')
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].astype(float)
# Unificando código do ministério do planejamento
df_viagem['codorgsuperior'] = df_viagem['codorgsuperior'].replace(47000, 20113)
df_viagem['codorgpagador'] = df_viagem['codorgpagador'].replace(47000, 20113)
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_viagem['cpfviajante'].fillna("Não informado", inplace = True)
df_viagem['nome'].fillna("Não informado", inplace = True)
df_viagem['nome'] = df_viagem['nome'].str.lower().apply(unidecode.unidecode)
# Dropando linhas duplicadas
df_viagem = df_viagem.drop_duplicates(subset=['idprocessoviagem'])
print('{:,}'.format(len(df_viagem)) + " rows")

103,931 rows


## Pessoas

Originário da tabela viagem. 

In [8]:
cols = [ 9, 10, 11, 12, 13]
campos = [ 'cpfviajante', 'nome', 'cargo', 'funcao', 'descricaofuncao' ]

# 2023, 2022, 2021, 2020, 2019
df_passageiros = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
if not DEBUG:
    df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_passageiros = pd.concat([df_passageiros, df])
    df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_passageiros = pd.concat([df_passageiros, df])
    df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_passageiros = pd.concat([df_passageiros, df])
    df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
    df_passageiros = pd.concat([df_passageiros, df])
print('{:,}'.format(len(df_passageiros)) + " rows")

103,931 rows


### Limpeza de dados de Pessoas

In [9]:
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_passageiros['cpfviajante'].fillna("Não informado", inplace = True)
df_passageiros['nome'].fillna("Não informado", inplace = True)

df_passageiros['cargo'].fillna("Desconhecido", inplace = True)
df_passageiros['funcao'].fillna("Desconhecido", inplace = True)
df_passageiros['descricaofuncao'].fillna("Desconhecido", inplace = True)

# remover duplicatas
df_passageiros['nome'] = df_passageiros['nome'].str.lower().apply(unidecode.unidecode)
df_passageiros=df_passageiros.drop_duplicates(subset=['cpfviajante', 'nome'], keep='first')
print('{:,}'.format(len(df_passageiros)) + " rows")

55,236 rows


## Trechos de Viagens

In [10]:
cols =   [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
campos = ['idprocessoviagem', 'seqtrecho', 'dataorigem', 'paisorigem', 'uforigem', 'cidadeorigem',
          'datadestino', 'paisdestino', 'ufdestino', 'cidadedestino',
          'meiotrasnporte', 'numdiarias', 'missao']

In [11]:
# 2023, 2022, 2021, 2020, 2019
df_trecho = ler_csv('2023_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
if not DEBUG:
    df = ler_csv('2022_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
    df_trecho = pd.concat([df_trecho, df])
    df = ler_csv('2021_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
    df_trecho = pd.concat([df_trecho, df])
    df = ler_csv('2020_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
    df_trecho = pd.concat([df_trecho, df])
    df = ler_csv('2019_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
    df_trecho = pd.concat([df_trecho, df])
print('{:,}'.format(len(df_trecho)) + " rows")

215,098 rows


#### Monta df_pais

In [12]:
# Monta dataframe de países
df_pais = pd.DataFrame(df_trecho['paisorigem'])
df_pais.rename(columns={'paisorigem' : 'pais'}, inplace=True)

df = pd.DataFrame(df_trecho['paisdestino'])
df.rename(columns={'paisdestino' : 'pais'}, inplace=True)

df_pais = pd.concat([df_pais, df], axis=0)
df_pais.dropna(subset=['pais'], inplace=True)
df_pais.drop_duplicates(subset=['pais'], keep="first", inplace=True)
df_pais.reset_index(drop=True, inplace=True)
df_pais['id'] = df_pais.index

dic_pais = df_pais.set_index('pais')['id'].to_dict()
df_pais

Unnamed: 0,pais,id
0,Brasil,0
1,Estados Unidos da América,1
2,República Democrática do Congo,2
3,Espanha,3
4,Argentina,4
...,...,...
129,Benin,129
130,República Togolesa,130
131,Bósnia-Herzegóvina,131
132,Myanmar,132


#### Monta df_uf

In [13]:
# Monta dataframe de uf
df_uf = pd.DataFrame(df_trecho['uforigem'])
df_uf.rename(columns={'uforigem' : 'uf'}, inplace=True)

df = pd.DataFrame(df_trecho['ufdestino'])
df.rename(columns={'ufdestino' : 'uf'}, inplace=True)

df_uf = pd.concat([df_uf, df], axis=0)
df_uf.dropna(subset=['uf'], inplace=True)
df_uf.drop_duplicates(subset=['uf'], keep="first", inplace=True)
df_uf.reset_index(drop=True, inplace=True)
df_uf['id'] = df_uf.index
df_uf['pais'] = dic_pais['Brasil']
dic_uf = df_uf.set_index('uf')['id'].to_dict()

df_uf

Unnamed: 0,uf,id,pais
0,Distrito Federal,0,0
1,Espírito Santo,1,0
2,Rio de Janeiro,2,0
3,Pará,3,0
4,Amazonas,4,0
5,Rio Grande do Sul,5,0
6,Paraíba,6,0
7,Paraná,7,0
8,Minas Gerais,8,0
9,Santa Catarina,9,0


#### Monta df_cidade

In [14]:
# Monta dataframe de cidade

df_cidade = df_trecho[['paisorigem', 'uforigem', 'cidadeorigem']].copy()
df_cidade.rename(columns={'cidadeorigem' : 'cidade', 'uforigem' : 'uf', 'paisorigem' : 'pais'}, inplace=True)
df_cidade['nacional'] = df_cidade['uf'].map(dic_uf)

df = df_trecho[['paisdestino', 'ufdestino', 'cidadedestino']].copy()
df.rename(columns={'cidadedestino' : 'cidade', 'ufdestino' : 'uf', 'paisdestino' : 'pais'}, inplace=True)
df['internacional'] = df['pais'].map(dic_pais)

df_cidade = pd.concat([df_cidade, df], axis=0)
df_cidade.dropna(subset=['cidade'], inplace=True)
df_cidade.drop_duplicates(subset=['cidade'], keep="first", inplace=True)
df_cidade.reset_index(drop=True, inplace=True)
df_cidade['id'] = df_cidade.index
df_cidade.drop(['uf','pais'], axis=1, inplace=True)
dic_cidade = df_cidade.set_index('cidade')['id'].to_dict()
df_cidade

Unnamed: 0,cidade,nacional,internacional,id
0,Brasília,0.0,,0
1,Nova York,,,1
2,Alegre,1.0,,2
3,Vitória,1.0,,3
4,Rio de Janeiro,2.0,,4
...,...,...,...,...
4472,Malabo,,133.0,4472
4473,Abuja,,62.0,4473
4474,Edmonton,,29.0,4474
4475,Cambridge - New York,,1.0,4475


#### Atualiza df_trecho

In [15]:
df_trecho['idcidadeorigem'] = df_trecho['cidadeorigem'].map(dic_cidade)
df_trecho['idcidadedestino'] = df_trecho['cidadedestino'].map(dic_cidade)
df_trecho.drop(columns=['paisorigem', 'uforigem', 'cidadeorigem', 
                        'paisdestino', 'ufdestino', 'cidadedestino'], axis=1, inplace=True)
df_trecho.rename(columns={'idcidadeorigem' : 'cidadeorigem', 'idcidadedestino' : 'cidadedestino'}, inplace=True)
df_trecho


Unnamed: 0,idprocessoviagem,seqtrecho,dataorigem,datadestino,meiotrasnporte,numdiarias,missao,cidadeorigem,cidadedestino
0,18288418,1,10/01/2023,28/01/2023,Aéreo,1750,Sim,0,1
1,18288418,2,28/01/2023,29/01/2023,Aéreo,150,Não,1,0
2,18296348,1,05/02/2023,10/02/2023,Rodoviário,250,Sim,2,3
3,18296348,2,10/02/2023,10/02/2023,Rodoviário,050,Não,3,2
4,18352553,2,28/01/2023,29/01/2023,Aéreo,150,Não,1,0
...,...,...,...,...,...,...,...,...,...
215093,2023000345,2,28/03/2023,28/03/2023,Aéreo,050,Não,4,0
215094,2023000346,1,27/03/2023,28/03/2023,Aéreo,100,Não,0,4
215095,2023000346,2,28/03/2023,28/03/2023,Aéreo,050,Não,4,0
215096,2023000357,2,29/03/2023,29/03/2023,Aéreo,050,Não,45,0


### Limpando os dados de Trechos de Viagens

In [16]:
# Formato de Data
df_trecho['dataorigem'] = pd.to_datetime(df_trecho['dataorigem'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')
df_trecho['datadestino'] = pd.to_datetime(df_trecho['datadestino'], format='%d/%m/%Y').dt.strftime('%Y-%m-%d')
# Sim e não para boolean
df_trecho['missao'] = df_trecho['missao'].map({'sim': True, 'não': False})
df_trecho['missao'].astype(bool)
# Convertendo a coluna valor para float
df_trecho['numdiarias'] = df_trecho['numdiarias'].str.replace(',', '.')
df_trecho['numdiarias'] = df_trecho['numdiarias'].astype(float)
# Verificando se há alguma linha com idviagem sem pai
df_trecho = df_trecho[df_trecho['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
# Dropando linhas duplicadas
df_trecho = df_trecho.drop_duplicates(subset=['idprocessoviagem', 'seqtrecho'])
print('{:,}'.format(len(df_trecho)) + " rows")

215,098 rows


## Pagamento

In [17]:
cols = [0, 1, 2, 4, 8, 9]
campos = ['idprocessoviagem', 'numproposta', 'codorgsuperior', 'codorgpagador', 'tipopagamento', 'valor']

In [18]:
# 2023, 2022, 2021, 2020, 2019
df_pagamento = ler_csv('2023_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
if not DEBUG:
    df = ler_csv('2022_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
    df_pagamento = pd.concat([df_pagamento, df])
    df = ler_csv('2021_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
    df_pagamento = pd.concat([df_pagamento, df])
    df = ler_csv('2020_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
    df_pagamento = pd.concat([df_pagamento, df])
    df = ler_csv('2019_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
    df_pagamento = pd.concat([df_pagamento, df])
print ('{:,}'.format(len(df_pagamento)) + " rows")

155,361 rows


### Limpando os dados de Pagamento

In [19]:
# Convertendo a coluna valor para float
df_pagamento['valor'] = df_pagamento['valor'].str.replace(',', '.')
df_pagamento['valor'] = df_pagamento['valor'].astype(float)
# Acertando código de orgão sigiloso
df_pagamento.loc[df_pagamento['codorgsuperior'] <= 0, 'codorgsuperior'] = -1
df_pagamento.loc[df_pagamento['codorgpagador'] <= 0, 'codorgpagador'] = -1
# Unificando código do ministério do planejamento
df_pagamento['codorgsuperior'] = df_pagamento['codorgsuperior'].replace(47000, 20113)
df_pagamento['codorgpagador'] = df_pagamento['codorgpagador'].replace(47000, 20113)
# Verificando se há alguma linha com idviagem sem pai
df_pagamento = df_pagamento[df_pagamento['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
print ('{:,}'.format(len(df_pagamento)) + " rows")

155,361 rows


In [20]:
soma = df_pagamento['valor'].sum()
print('Valor total    : ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))
soma = df_pagamento.loc[df_pagamento['codorgpagador'] <= 0, 'valor'].sum()
print('Valor em sigilo: ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))

Valor total    : R$ 234.894.998,80
Valor em sigilo: R$ 39.506.283,89


## Conexão com o Banco de dados e Carga dos Dados

In [22]:
inicio_transacao = datetime.datetime.now()

###########
# engine = create_engine('postgresql://postgres:postgres@172.22.22.231:5432/fbdprojeto')
engine = create_engine('postgresql://postgres:postgres@localhost:5432/fbdprojeto')
df_pais.to_sql('pais', engine, if_exists='append', index=False)
df_uf.to_sql('uf', engine, if_exists='append', index=False)
df_cidade.to_sql('cidade', engine, if_exists='append', index=False)
df_poder.to_sql('poder', engine, if_exists='append', index=False)
df_tipo_administracao.to_sql('tipo_administracao', engine, if_exists='append', index=False)
df_orgao.to_sql('orgao', engine, if_exists='append', index=False)
df_passageiros.to_sql('passageiro', engine, if_exists='append', index=False)
df_viagem.to_sql('viagem', engine, if_exists='append', index=False)
df_pagamento.to_sql('pagamento', engine, if_exists='append', index=False)
df_trecho.to_sql('trecho', engine, if_exists='append', index=False)
###########

fim_transacao = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim_transacao - inicio_transacao))

Tempo total de carga: 0:00:40.742580
