## Universidade de Brasília
## Instituto de Ciências Exatas
## Departamento de Ciência da Computação - PPCA
## Disciplina: Fundamentos de Banco de Dados
Projeto de Banco de Dados


In [1]:
# Importa módulos usados
import os
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import types
import sqlalchemy
import psycopg2
import datetime

In [2]:
#Definindo funções
def ler_csv(arquivo, separador, colunas, codificacao, nomes_colunas):
    df = pd.read_csv(arquivo, delimiter=separador, usecols=colunas, encoding=codificacao)
    df.columns = nomes_colunas
    return df

In [3]:
# Get the current working directory
# cwd = os.getcwd()
# print("Current working directory: {0}".format(cwd))

## Órgãos do SIAF

In [4]:
csv = 'orgaos.CSV'
df_orgao = pd.read_csv(csv, encoding='ISO-8859-1')
df_orgao.columns = ['cod', 'nome', 'cnpj', 'codpoder', 'nomepoder', 'codtipoadministracao', 'nometipoadministracao']
print('{:,}'.format(len(df_orgao)) + " rows")

582 rows


## Viagem

In [5]:
cols = [0, 1, 2, 3, 4, 5, 7, 9, 10, 14, 15, 16, 17, 18, 19]
campos = [ 'idprocessoviagem', 'numproposta', 'situacao', 'viagemurgente', 'justificativaurgencia',
           'codorgsuperior', 'codorgpagador', 'cpfviajante', 'nome', 'datainicio', 
           'datafim', 'destinos', 'motivo', 'valordiarias', 'valorpassagens']

In [6]:
# 2023, 2022, 2021, 2020, 2019
df_viagem = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
print('{:,}'.format(len(df_viagem)) + " rows")

2,358,260 rows


### Fazendo o toalete dos dados

In [7]:
# Sim e não para boolean
df_viagem['viagemurgente'] = df_viagem['viagemurgente'].map({'sim': True, 'não': False})
df_viagem['viagemurgente'].astype(bool)
# Troca vírgula por ponto no float
# Convertendo a coluna valor para float
df_viagem['valordiarias'] = df_viagem['valordiarias'].str.replace(',', '.')
df_viagem['valordiarias'] = df_viagem['valordiarias'].astype(float)
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].str.replace(',', '.')
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].astype(float)
# Unificando código do ministério do planejamento
df_viagem['codorgsuperior'] = df_viagem['codorgsuperior'].replace(47000, 20113)
# Dropando linhas duplicadas
df_viagem = df_viagem.drop_duplicates(subset=['idprocessoviagem'])

## Pessoas

Originário da tabela viagem. 

In [8]:
cols = [ 9, 10, 11, 12, 13]
campos = [ 'cpfviajante', 'nome', 'cargo', 'funcao', 'descricaofuncao' ]

# 2023, 2022, 2021, 2020, 2019
df_passageiros = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
print('{:,}'.format(len(df_passageiros)) + " rows")

2,358,260 rows


### Limpeza de dados de Pessoas

In [9]:
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_passageiros['cpfviajante'].fillna("Não informado", inplace = True)
df_passageiros['nome'].fillna("Não informado", inplace = True)

df_passageiros['cargo'].fillna("Desconhecido", inplace = True)
df_passageiros['funcao'].fillna("Desconhecido", inplace = True)
df_passageiros['descricaofuncao'].fillna("Desconhecido", inplace = True)

# remover duplicatas
df_passageiros.drop_duplicates(subset=['cpfviajante', 'nome'], keep='first')

Unnamed: 0,cpfviajante,nome,cargo,funcao,descricaofuncao
0,***.621.358-**,ANDRE LUIS COSTA PITANGUEIRA,Desconhecido,OfSuperior,OfSuperior
1,***.407.547-**,LIDIANY MIRANDA FERRAZ NUNES,AUXILIAR DE BIBLIIOTECA,-1,Não Informado
2,ID001000345,Informações protegidas por sigilo,Informações protegidas por sigilo,Sigilosa,Informações protegidas por sigilo
3,ID003200185,Informações protegidas por sigilo,Informações protegidas por sigilo,Sigilosa,Informações protegidas por sigilo
4,***.828.627-**,ROLANT VIEIRA JUNIOR,Desconhecido,OfSuperior,OfSuperior
...,...,...,...,...,...
844254,***.022.526-**,VIRGINIA MARTINS MARQUES,ANALISTA DO BANCO CENTRAL,-1,Não Informado
844255,***.509.566-**,CLAUDIO RENATO CORTES HORTA,ANALISTA DO BANCO CENTRAL,-1,Não Informado
844256,***.463.490-**,ALEXANDRE FOGACA DAMO,ANALISTA DO BANCO CENTRAL,-1,Não Informado
844268,***.201.968-**,RUI DA COSTA DE ALBUQUERQUE VIEIRA,TECNICO DO BANCO CENTRAL,-1,Não Informado


## Trechos de Viagens

In [None]:
cols =   [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
campos = ['idprocessoviagem', 'seqtrecho', 'dataorigem', 'paisorigem', 'uforigem', 'cidadeorigem',
          'datadestino', 'paisdestino', 'ufdestino', 'cidadedestino',
          'meiotrasnporte', 'numdiarias', 'missao']

In [None]:
# 2023, 2022, 2021, 2020, 2019
df_trecho = ler_csv('2023_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2021_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2020_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2019_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
print('{:,}'.format(len(df_trecho)) + " rows")## Trechos de Viagens

### Fazendo o toalete dos dados

In [None]:
# Sim e não para boolean
df_trecho['missao'] = df_trecho['missao'].map({'sim': True, 'não': False})
df_trecho['missao'].astype(bool)
# Convertendo a coluna valor para float
df_trecho['numdiarias'] = df_trecho['numdiarias'].str.replace(',', '.')
df_trecho['numdiarias'] = df_trecho['numdiarias'].astype(float)
# Verificando se há alguma linha com idviagem sem pai
df_trecho = df_trecho[df_trecho['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
# Dropando linhas duplicadas
df_trecho = df_trecho.drop_duplicates(subset=['idprocessoviagem', 'seqtrecho'])

## Pagamento

In [10]:
cols = [0, 1, 2, 4, 6, 8, 9]
campos = ['idprocessoviagem', 'numproposta', 'codorgsuperior', 'codorgpagador', 'codunidgestorapagadora', 'tipopagamento', 'valor']

In [11]:
# 2023, 2022, 2021, 2020, 2019
df_pagamento = ler_csv('2023_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2021_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2020_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2019_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
print ('{:,}'.format(len(df_pagamento)) + " rows")

3,816,631 rows


### Fazendo o toalete dos dados

In [12]:
# Convertendo a coluna valor para float
df_pagamento['valor'] = df_pagamento['valor'].str.replace(',', '.')
df_pagamento['valor'] = df_pagamento['valor'].astype(float)
# Acertando código de orgão sigiloso
df_pagamento.loc[df_pagamento['codorgsuperior'] <= 0, 'codorgsuperior'] = -1
df_pagamento.loc[df_pagamento['codorgpagador'] <= 0, 'codorgpagador'] = -1
df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'codunidgestorapagadora'] = -1
# Unificando código do ministério do planejamento
df_pagamento['codorgsuperior'] = df_pagamento['codorgsuperior'].replace(47000, 20113)
# Verificando se há alguma linha com idviagem sem pai
df_pagamento = df_pagamento[df_pagamento['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
print ('{:,}'.format(len(df_pagamento)) + " rows")

3,816,631 rows


In [13]:
soma = df_pagamento['valor'].sum()
print('Valor total    : ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))
soma = df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'valor'].sum()
print('Valor em sigilo: ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))

Valor total    : R$ 4.431.837.400,55
Valor em sigilo: R$ 826.267.766,15


## Conexão com o Banco de dados e Carga dos Dados

In [14]:
inicio_transacao = datetime.datetime.now()
###########
engine = create_engine('postgresql://postgres:postgres@172.22.22.231:5432/fbdprojeto')
df_orgao.to_sql('orgao', engine, if_exists='append', index=False)
df_viagem.to_sql('viagem', engine, if_exists='append', index=False)
df_pagamento.to_sql('pagamento', engine, if_exists='append', index=False)
df_trecho.to_sql('trecho', engine, if_exists='append', index=False)
df_passageiros.to_sql('passageiro', engine, if_exists='append', index=False)
###########
fim_transacao = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim_transacao - inicio_transacao))

OperationalError: (psycopg2.OperationalError) connection to server at "172.22.22.231", port 5432 failed: No route to host
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/20/e3q8)