## Universidade de Brasília
## Instituto de Ciências Exatas
## Departamento de Ciência da Computação - PPCA
## Disciplina: Fundamentos de Banco de Dados
Projeto de Banco de Dados


In [1]:
# Importa módulos usados
import os
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import types
import sqlalchemy
import psycopg2
import datetime

In [2]:
#Definindo funções
def ler_csv(arquivo, separador, colunas, codificacao, nomes_colunas):
    df = pd.read_csv(arquivo, delimiter=separador, usecols=colunas, encoding=codificacao)
    df.columns = nomes_colunas
    return df

In [3]:
# Get the current working directory
# cwd = os.getcwd()
# print("Current working directory: {0}".format(cwd))

## Órgãos do SIAF

In [4]:
csv = 'orgaos.CSV'
df_orgao = pd.read_csv(csv, encoding='ISO-8859-1')
df_orgao.columns = ['cod', 'nome', 'cnpj', 'codpoder', 'nomepoder', 'codtipoadministracao', 'nometipoadministracao']
print('{:,}'.format(len(df_orgao)) + " rows")

582 rows


## Viagem

In [5]:
cols = [0, 1, 2, 3, 4, 5, 7, 9, 10, 14, 15, 16, 17, 18, 19]
campos = [ 'idprocessoviagem', 'numproposta', 'situacao', 'viagemurgente', 'justificativaurgencia',
           'codorgsuperior', 'codorgpagador', 'cpfviajante', 'nome', 'datainicio', 
           'datafim', 'destinos', 'motivo', 'valordiarias', 'valorpassagens']

In [6]:
# 2023, 2022, 2021, 2020, 2019
df_viagem = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
print('{:,}'.format(len(df_viagem)) + " rows")

2,358,260 rows


### Fazendo o toalete dos dados

In [7]:
# Sim e não para boolean
df_viagem['viagemurgente'] = df_viagem['viagemurgente'].map({'sim': True, 'não': False})
df_viagem['viagemurgente'].astype(bool)
# Troca vírgula por ponto no float
# Convertendo a coluna valor para float
df_viagem['valordiarias'] = df_viagem['valordiarias'].str.replace(',', '.')
df_viagem['valordiarias'] = df_viagem['valordiarias'].astype(float)
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].str.replace(',', '.')
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].astype(float)
# Unificando código do ministério do planejamento
df_viagem['codorgsuperior'] = df_viagem['codorgsuperior'].replace(47000, 20113)
# Dropando linhas duplicadas
df_viagem = df_viagem.drop_duplicates(subset=['idprocessoviagem'])

## Pessoas

Originário da tabela viagem. 

In [8]:
cols = [ 0, 9, 10, 11, 12, 13]
campos = [ 'cpfviajante', 'nome', 'cargo', 'funcao', 'descricaofuncao' ]

# 2023, 2022, 2021, 2020, 2019
df_passageiros = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
print('{:,}'.format(len(df_passageiros)) + " rows")

2,358,260 rows


### Limpeza de dados de Pessoas

In [13]:
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_passageiros['cpfviajante'].fillna("Não informado", inplace = True)
df_passageiros['nome'].fillna("Não informado", inplace = True)
df_passageiros['idprocessoviagem'] = df_passageiros['idprocessoviagem'].astype(str)
# remover duplicatas

print(df_passageiros)

       idprocessoviagem     cpfviajante                               nome  \
0              18288418  ***.621.358-**       ANDRE LUIS COSTA PITANGUEIRA   
1              18296348  ***.407.547-**       LIDIANY MIRANDA FERRAZ NUNES   
2              18303291     ID001000345  Informações protegidas por sigilo   
3              18350498     ID003200185  Informações protegidas por sigilo   
4              18352553  ***.828.627-**               ROLANT VIEIRA JUNIOR   
...                 ...             ...                                ...   
844274       2019002844  ***.286.078-**                      FABIO KANCZUK   
844275       2019002869  ***.286.078-**                      FABIO KANCZUK   
844276       2019003138  ***.484.009-**       ALESSANDRA VON BOROWSKI DODL   
844277       2019003158  ***.783.207-**              BRUNO SERRA FERNANDES   
844278       2019003159  ***.783.207-**              BRUNO SERRA FERNANDES   

                                    cargo      funcao  \
0     

## Pagamento

In [None]:
cols = [0, 1, 2, 4, 6, 8, 9]
campos = ['idprocessoviagem', 'numproposta', 'codorgsuperior', 'codorgpagador', 'codunidgestorapagadora', 'tipopagamento', 'valor']

In [None]:
# 2023, 2022, 2021, 2020, 2019
df_pagamento = ler_csv('2023_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2021_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2020_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2019_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
print ('{:,}'.format(len(df_pagamento)) + " rows")

### Fazendo o toalete dos dados

In [None]:
# Convertendo a coluna valor para float
df_pagamento['valor'] = df_pagamento['valor'].str.replace(',', '.')
df_pagamento['valor'] = df_pagamento['valor'].astype(float)
# Acertando código de orgão sigiloso
df_pagamento.loc[df_pagamento['codorgsuperior'] <= 0, 'codorgsuperior'] = -1
df_pagamento.loc[df_pagamento['codorgpagador'] <= 0, 'codorgpagador'] = -1
df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'codunidgestorapagadora'] = -1
# Unificando código do ministério do planejamento
df_pagamento['codorgsuperior'] = df_pagamento['codorgsuperior'].replace(47000, 20113)
# Verificando se há alguma linha com idviagem sem pai
df_pagamento = df_pagamento[df_pagamento['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
print ('{:,}'.format(len(df_pagamento)) + " rows")

In [None]:
soma = df_pagamento['valor'].sum()
print('Valor total    : ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))
soma = df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'valor'].sum()
print('Valor em sigilo: ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))

## Conexão com o Banco de dados e Carga dos Dados

In [None]:
inicio_transacao = datetime.datetime.now()
###########
engine = create_engine('postgresql://postgres:postgres@172.22.22.231:5432/fbdprojeto')
df_orgao.to_sql('orgao', engine, if_exists='append', index=False)
df_viagem.to_sql('viagem', engine, if_exists='append', index=False)
df_pagamento.to_sql('pagamento', engine, if_exists='append', index=False)
###########
fim_transacao = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim_transacao - inicio_transacao))