## Universidade de Brasília
## Instituto de Ciências Exatas
## Departamento de Ciência da Computação - PPCA
## Disciplina: Fundamentos de Banco de Dados
Projeto de Banco de Dados


In [1]:
# Importa módulos usados
import os
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import types
import sqlalchemy
import psycopg2
import datetime

In [2]:
#Definindo funções
def ler_csv(arquivo, separador, colunas, codificacao, nomes_colunas):
    df = pd.read_csv(arquivo, delimiter=separador, usecols=colunas, encoding=codificacao)
    df.columns = nomes_colunas
    return df

In [3]:
# Get the current working directory
# cwd = os.getcwd()
# print("Current working directory: {0}".format(cwd))

## Órgãos do SIAF

In [4]:
csv = 'orgaos.CSV'
df_orgao = pd.read_csv(csv, encoding='ISO-8859-1')
df_orgao.columns = ['cod', 'nome', 'cnpj', 'codpoder', 'nomepoder', 'codtipoadministracao', 'nometipoadministracao']
print('{:,}'.format(len(df_orgao)) + " rows")

# Criando dataframe que vira tabela "poder"
df_poder = df_orgao[['codpoder', 'nomepoder']].copy()
df_orgao.drop(columns=['nomepoder'])

# Criando dataframe que vira tabela "tipo de administração"
df_tipo_administracao = df_orgao[['codtipoadministracao', 'nometipoadministracao']].copy()
df_orgao.drop(columns=['nometipoadministracao'])

## Viagem

In [5]:
cols = [0, 1, 2, 3, 4, 5, 7, 9, 10, 14, 15, 16, 17, 18, 19]
campos = [ 'idprocessoviagem', 'numproposta', 'situacao', 'viagemurgente', 'justificativaurgencia',
           'codorgsuperior', 'codorgpagador', 'cpfviajante', 'nome', 'datainicio', 
           'datafim', 'destinos', 'motivo', 'valordiarias', 'valorpassagens']

In [6]:
# 2023, 2022, 2021, 2020, 2019
df_viagem = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_viagem = pd.concat([df_viagem, df])
print('{:,}'.format(len(df_viagem)) + " rows")

### Limpeza dos dados de Viagem

In [7]:
# Sim e não para boolean
df_viagem['viagemurgente'] = df_viagem['viagemurgente'].map({'sim': True, 'não': False})
df_viagem['viagemurgente'].astype(bool)
# Troca vírgula por ponto no float
# Convertendo a coluna valor para float
df_viagem['valordiarias'] = df_viagem['valordiarias'].str.replace(',', '.')
df_viagem['valordiarias'] = df_viagem['valordiarias'].astype(float)
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].str.replace(',', '.')
df_viagem['valorpassagens'] = df_viagem['valorpassagens'].astype(float)
# Unificando código do ministério do planejamento
df_viagem['codorgsuperior'] = df_viagem['codorgsuperior'].replace(47000, 20113)
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_viagem['cpfviajante'].fillna("Não informado", inplace = True)
df_viagem['nome'].fillna("Não informado", inplace = True)
# Dropando linhas duplicadas
df_viagem = df_viagem.drop_duplicates(subset=['idprocessoviagem'])
print('{:,}'.format(len(df_viagem)) + " rows")

## Pessoas

Originário da tabela viagem. 

In [8]:
cols = [ 9, 10, 11, 12, 13]
campos = [ 'cpfviajante', 'nome', 'cargo', 'funcao', 'descricaofuncao' ]

# 2023, 2022, 2021, 2020, 2019
df_passageiros = ler_csv('2023_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2021_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2020_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
df = ler_csv('2019_Viagem.csv', ';', cols, 'ISO-8859-1', campos)
df_passageiros = pd.concat([df_passageiros, df])
print('{:,}'.format(len(df_passageiros)) + " rows")

### Limpeza de dados de Pessoas

In [9]:
# Par "cpf" e "nome" representa atributo identificador e não pode estar vazio
df_passageiros['cpfviajante'].fillna("Não informado", inplace = True)
df_passageiros['nome'].fillna("Não informado", inplace = True)

df_passageiros['cargo'].fillna("Desconhecido", inplace = True)
df_passageiros['funcao'].fillna("Desconhecido", inplace = True)
df_passageiros['descricaofuncao'].fillna("Desconhecido", inplace = True)

# remover duplicatas
df_passageiros=df_passageiros.drop_duplicates(subset=['cpfviajante', 'nome'], keep='first')
print('{:,}'.format(len(df_passageiros)) + " rows")

## Trechos de Viagens

In [10]:
cols =   [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
campos = ['idprocessoviagem', 'seqtrecho', 'dataorigem', 'paisorigem', 'uforigem', 'cidadeorigem',
          'datadestino', 'paisdestino', 'ufdestino', 'cidadedestino',
          'meiotrasnporte', 'numdiarias', 'missao']

In [11]:
# 2023, 2022, 2021, 2020, 2019
df_trecho = ler_csv('2023_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2021_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2020_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
df = ler_csv('2019_Trecho.csv', ';', cols, 'ISO-8859-1', campos)
df_trecho = pd.concat([df_trecho, df])
print('{:,}'.format(len(df_trecho)) + " rows")

In [12]:
# ORIGEM

df_locais_origem = df_trecho[['paisorigem', 'uforigem', 'cidadeorigem']].copy()

df_locais_origem.sort_values(by=['cidadeorigem'], inplace=True)

# remove cidades duplicadas (nacionais e internacionais)
df_locais_origem = df_locais_origem.drop_duplicates(subset='cidadeorigem', keep="first")

df_cidades = df_locais_origem[['cidadeorigem', 'paisorigem', 'uforigem']].copy()
df_cidades['id'] = df_cidades.index

# coluna internacional
df_cidades['dest_internacional'] = ""

# coluna destino nacional
df_cidades['dest_internacional'] = ""

df_cidades = df_cidades.astype(str)

df_ufs = df_locais_origem[['uforigem', 'paisorigem']].copy()
df_ufs = df_ufs.drop_duplicates(subset='uforigem', keep="first")
df_ufs['id'] = df_ufs.index

# coluna pais da uf
df_ufs["pais"] = ""

df_ufs = df_ufs.astype(str)

df_paises = df_locais_origem[['paisorigem']].copy()
df_paises = df_paises.drop_duplicates(subset='paisorigem', keep="first")
df_paises['id'] = df_paises.index

df_paises = df_cidades.astype(str)

# preenche as colunas CIDADES
for index, row in df_cidades.iterrows():

    # internacional
    if str(row['uforigem']) == "":

        row['dest_internacional'] = str(df_paises[df_paises["paisorigem"] == str(row['paisorigem'])]['id'].values[0])

    # nacional
    else:
        row['dest_nacional'] = str(df_ufs[df_ufs["uforigem"] == str(row['uforigem'])]['id'].values[0])

# preenche as colunas UFs
for index, row in df_ufs.iterrows():

    row['pais'] = str(df_paises[df_paises["paisorigem"] == str(row['paisorigem'])]['id'].values[0])


# drop nas colunas sem uso nas tabelas

df_cidades = df_cidades.drop('paisorigem', axis=1)
df_cidades = df_cidades.drop('uforigem', axis=1)

df_ufs = df_ufs.drop('paisorigem', axis=1)


In [13]:
# DESTINO

df_locais_destino = df_trecho[['paisdestino', 'ufdestino', 'cidadedestino']].copy()

df_locais_destino.sort_values(by=['cidadedestino'], inplace=True)

# remove cidades duplicadas (nacionais e internacionais)
df_locais_destino = df_locais_destino.drop_duplicates(subset='cidadedestino', keep="first")

df_cidades_append = df_locais_destino[['paisdestino', 'ufdestino', 'cidadedestino']].copy()
df_cidades_append['id'] = df_cidades_append.index

# coluna internacional
df_cidades_append['dest_internacional'] = ""

# coluna destino nacional
df_cidades_append['dest_internacional'] = ""

df_cidades_append = df_cidades_append.astype(str)

df_ufs_append = df_locais_destino[['ufdestino', 'paisdestino']].copy()
df_ufs_append = df_ufs_append.drop_duplicates(subset='ufdestino', keep="first")
df_ufs_append['id'] = df_ufs_append.index

# coluna pais da uf
df_ufs_append["pais"] = ""

df_ufs_append = df_ufs_append.astype(str)

df_paises_append = df_locais_destino[['paisdestino']].copy()
df_paises_append = df_paises_append.drop_duplicates(subset='paisdestino', keep="first")
df_paises_append['id'] = df_paises_append.index

df_paises_append = df_paises_append.astype(str)

# preenche as colunas CIDADES
for index, row in df_cidades_append.iterrows():

    # internacional
    if str(row['ufdestino']) == "":

        row['dest_internacional'] = str(df_paises_append[df_paises_append["paisdestino"] == str(row['paisdestino'])]['id'].values[0])

    # nacional
    else:
        row['dest_nacional'] = str(df_ufs_append[df_ufs_append["ufdestino"] == str(row['ufdestino'])]['id'].values[0])

# preenche as colunas UFs
for index, row in df_ufs_append.iterrows():

    row['pais'] = str(df_paises_append[df_paises_append["paisdestino"] == str(row['paisdestino'])]['id'].values[0])


# drop nas colunas sem uso nas tabelas

df_cidades_append = df_cidades_append.drop('paisdestino', axis=1)
df_cidades_append = df_cidades_append.drop('ufdestino', axis=1)

df_ufs_append = df_ufs_append.drop('paisdestino', axis=1)


In [14]:
# atualiza os campos de origens em df_trechos

df_trecho.drop(columns=['paisorigem', 'uforigem', 'paisdestino', 'paisorigem'])

df_cidades.rename(columns = {'cidadeorigem': 'cidade', 'paisorigem': 'pais', 'uforigem': 'uf'}, inplace = True)
df_cidades_append.rename(columns = {'paisdestino': 'pais', 'ufdestino': 'uf', 'cidadedestino': 'cidade'}, inplace = True)
df_cidades.append(df_cidades_append)
df_cidades = df_cidades.drop_duplicates(subset='cidade', keep="first")

df_ufs.rename(columns = {'uforigem': 'uf', 'paisorigem': 'pais'}, inplace = True)
df_ufs_append.rename(columns = {'ufdestino': 'uf', 'paisdestino': 'pais'}, inplace = True)
df_ufs.append(df_ufs_append)
df_ufs = df_ufs.drop_duplicates(subset='uf', keep="first")

df_paises.rename(columns = {'paisorigem':'pais'}, inplace = True)
df_paises_append.rename(columns = {'paisdestino':'pais'}, inplace = True)
df_paises.append(df_paises_append)
df_paises = df_paises.drop_duplicates(subset='pais', keep="first")

# agora cidade origem / cidade destino é relacionamento com codigo de cidade na tabela cidade

for index, row in df_trecho.iterrows():
    
    cidade = str(row['cidadeorigem'])
    row['cidadeorigem'] = str(df_cidades[df_cidades["cidade"] == cidade]['id'].values[0])
    
    
    cidade = str(row['cidadedestino'])
    row['cidadedestino'] = str(df_cidades[df_cidades["cidade"] == cidade]['id'].values[0])


### Limpando os dados de Trechos de Viagens

In [15]:
# Sim e não para boolean
df_trecho['missao'] = df_trecho['missao'].map({'sim': True, 'não': False})
df_trecho['missao'].astype(bool)
# Convertendo a coluna valor para float
df_trecho['numdiarias'] = df_trecho['numdiarias'].str.replace(',', '.')
df_trecho['numdiarias'] = df_trecho['numdiarias'].astype(float)
# Verificando se há alguma linha com idviagem sem pai
df_trecho = df_trecho[df_trecho['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
# Dropando linhas duplicadas
df_trecho = df_trecho.drop_duplicates(subset=['idprocessoviagem', 'seqtrecho'])
print('{:,}'.format(len(df_trecho)) + " rows")

## Pagamento

In [16]:
cols = [0, 1, 2, 4, 6, 8, 9]
campos = ['idprocessoviagem', 'numproposta', 'codorgsuperior', 'codorgpagador', 'codunidgestorapagadora', 'tipopagamento', 'valor']

In [17]:
# 2023, 2022, 2021, 2020, 2019
df_pagamento = ler_csv('2023_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df = ler_csv('2022_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2021_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2020_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
df = ler_csv('2019_Pagamento.csv', ';', cols, 'ISO-8859-1', campos)
df_pagamento = pd.concat([df_pagamento, df])
print ('{:,}'.format(len(df_pagamento)) + " rows")

### Limpando os dados de Pagamento

In [18]:
# Convertendo a coluna valor para float
df_pagamento['valor'] = df_pagamento['valor'].str.replace(',', '.')
df_pagamento['valor'] = df_pagamento['valor'].astype(float)
# Acertando código de orgão sigiloso
df_pagamento.loc[df_pagamento['codorgsuperior'] <= 0, 'codorgsuperior'] = -1
df_pagamento.loc[df_pagamento['codorgpagador'] <= 0, 'codorgpagador'] = -1
df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'codunidgestorapagadora'] = -1
# Unificando código do ministério do planejamento
df_pagamento['codorgsuperior'] = df_pagamento['codorgsuperior'].replace(47000, 20113)
# Verificando se há alguma linha com idviagem sem pai
df_pagamento = df_pagamento[df_pagamento['idprocessoviagem'].isin(df_viagem['idprocessoviagem'])]
print ('{:,}'.format(len(df_pagamento)) + " rows")

In [19]:
soma = df_pagamento['valor'].sum()
print('Valor total    : ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))
soma = df_pagamento.loc[df_pagamento['codunidgestorapagadora'] <= 0, 'valor'].sum()
print('Valor em sigilo: ' + 'R$ {:,.2f}'.format(soma).replace(",", ";").replace(".", ",").replace(";", "."))

## Conexão com o Banco de dados e Carga dos Dados

In [None]:
inicio_transacao = datetime.datetime.now()

###########
engine = create_engine('postgresql://postgres:postgres@172.22.22.231:5432/fbdprojeto')
df_paises.to_sql('pais', engine, if_exists='append', index=False)
df_ufs_append.to_sql('uf', engine, if_exists='append', index=False)
df_cidades.to_sql('cidade', engine, if_exists='append', index=False)
df_poder.to_sql('poder', engine, if_exists='append', index=False)
df_tipo_administracao.to_sql('tipo_administracao', engine, if_exists='append', index=False)
df_orgao.to_sql('orgao', engine, if_exists='append', index=False)
df_passageiros.to_sql('passageiro', engine, if_exists='append', index=False)
df_viagem.to_sql('viagem', engine, if_exists='append', index=False)
df_pagamento.to_sql('pagamento', engine, if_exists='append', index=False)
df_trecho.to_sql('trecho', engine, if_exists='append', index=False)
###########

fim_transacao = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim_transacao - inicio_transacao))