# Sanity Check

In [60]:
import os,sys
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt


pd.set_option('display.max.columns',500)

sys.path.append('..\\..')

In [61]:
DATA_PATH_ENTRADA = "../../dados/1_dados_entrada"
DATA_PATH_TRATADOS = "../../dados/2_dados_tratados"
DATA_PATH_ENTRADA_CSVS = os.path.join(DATA_PATH_ENTRADA, 'CSVs')

# 1 Entendimento da base

In [62]:
lista_csvs = os.listdir(DATA_PATH_ENTRADA_CSVS)

In [63]:
df_2014 = pd.read_csv(os.path.join(DATA_PATH_ENTRADA_CSVS, lista_csvs[0]), sep=';', encoding='latin-1')

In [64]:
df_2014.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28641 entries, 0 to 28640
Data columns (total 25 columns):
EXERCÍCIO                       28641 non-null int64
CÓDIGO ÓRGÃO SUPERIOR           28641 non-null int64
NOME ÓRGÃO SUPERIOR             28641 non-null object
CÓDIGO ÓRGÃO SUBORDINADO        28641 non-null int64
NOME ÓRGÃO SUBORDINADO          28641 non-null object
CÓDIGO UNIDADE ORÇAMENTÁRIA     28641 non-null int64
NOME UNIDADE ORÇAMENTÁRIA       28641 non-null object
CÓDIGO FUNÇÃO                   28641 non-null int64
NOME FUNÇÃO                     28641 non-null object
CÓDIGO SUBFUNÇÃO                28641 non-null int64
NOME SUBFUNÇÃO                  28641 non-null object
CÓDIGO PROGRAMA ORÇAMENTÁRIO    28641 non-null int64
NOME PROGRAMA ORÇAMENTÁRIO      28641 non-null object
CÓDIGO AÇÃO                     28641 non-null object
NOME AÇÃO                       28641 non-null object
CÓDIGO CATEGORIA ECONÔMICA      28641 non-null int64
NOME CATEGORIA ECONÔMICA        286

# 2. Ajustes Iniciais

## 2.1 Ajuste dos nomes das colunas

In [65]:
df_2014.columns = ['exercicios', 'cod_orgao_sup', 'nome_orgao_sup', 'cod_orgao_sub', 'nome_orgao_sub', 'cod_unid_orcament', 'nome_unid_orcament',
                   'cod_funcao', 'nome_funcao', 'cod_subfuncao', 'nome_subfuncao', 'cod_prog_orcament', 'nome_prog_orcament', 'cod_acao', 'nome_acao',
                   'cod_categ_econo', 'nome_categ_econo', 'cod_grp_despesa', 'nome_grp_despesa',  'cod_element_despesa', 'nome_element_despesa',
                   'orcamento_inicial', 'orcamento_atualizado', 'orcamento_empenhado', 'orcamento_realizado']

## 2.2 Exclusão de colunas não relevantes

In [66]:
df_2014.columns

Index(['exercicios', 'cod_orgao_sup', 'nome_orgao_sup', 'cod_orgao_sub',
       'nome_orgao_sub', 'cod_unid_orcament', 'nome_unid_orcament',
       'cod_funcao', 'nome_funcao', 'cod_subfuncao', 'nome_subfuncao',
       'cod_prog_orcament', 'nome_prog_orcament', 'cod_acao', 'nome_acao',
       'cod_categ_econo', 'nome_categ_econo', 'cod_grp_despesa',
       'nome_grp_despesa', 'cod_element_despesa', 'nome_element_despesa',
       'orcamento_inicial', 'orcamento_atualizado', 'orcamento_empenhado',
       'orcamento_realizado'],
      dtype='object')

<font color='green' size=6> Por simplicidade, excluirei as variáveis com código pra ficar mais fácil a leitura do dataset <font>

In [67]:
df_2014 = df_2014.drop(columns=df_2014.columns[df_2014.columns.str.contains(r'^cod_')])
df_2014.columns

Index(['exercicios', 'nome_orgao_sup', 'nome_orgao_sub', 'nome_unid_orcament',
       'nome_funcao', 'nome_subfuncao', 'nome_prog_orcament', 'nome_acao',
       'nome_categ_econo', 'nome_grp_despesa', 'nome_element_despesa',
       'orcamento_inicial', 'orcamento_atualizado', 'orcamento_empenhado',
       'orcamento_realizado'],
      dtype='object')

## 2.3 Ajuste dos tipos das variáveis

In [68]:
df_2014.dtypes

exercicios               int64
nome_orgao_sup          object
nome_orgao_sub          object
nome_unid_orcament      object
nome_funcao             object
nome_subfuncao          object
nome_prog_orcament      object
nome_acao               object
nome_categ_econo        object
nome_grp_despesa        object
nome_element_despesa    object
orcamento_inicial       object
orcamento_atualizado    object
orcamento_empenhado     object
orcamento_realizado     object
dtype: object

In [69]:
df_2014['exercicios'] = pd.to_datetime(df_2014['exercicios'], format='%Y')

df_2014['orcamento_inicial'] = df_2014['orcamento_inicial'].str.replace(',','.').astype(float)
df_2014['orcamento_atualizado'] = df_2014['orcamento_atualizado'].str.replace(',','.').astype(float)
df_2014['orcamento_empenhado'] = df_2014['orcamento_empenhado'].str.replace(',','.').astype(float)
df_2014['orcamento_realizado'] = df_2014['orcamento_realizado'].str.replace(',','.').astype(float)

In [70]:
df_2014.sample(3).T

Unnamed: 0,10234,20676,11459
exercicios,2014-01-01 00:00:00,2014-01-01 00:00:00,2014-01-01 00:00:00
nome_orgao_sup,Ministério da Educação,Ministério da Infraestrutura,Ministério da Educação
nome_orgao_sub,Fundação Coordenação de Aperfeiçoamento de Pes...,Departamento Nacional de Infraestrutura de Tra...,Instituto Federal do Rio de Janeiro
nome_unid_orcament,FUND.COORD.DE APERF.DE PESSOAL NIVEL SUPERIOR,DEPTO.NAC.DE INFRA±ESTRUT.DE TRANSPORTES-DNIT,"INST.FED.DE EDUC.,CIENC.E TEC.DO R.DE JANEIRO"
nome_funcao,Educação,Transporte,Educação
nome_subfuncao,Proteção e benefícios ao trabalhador,Transporte rodoviário,Ensino profissional
nome_prog_orcament,PROGRAMA DE GESTAO E MANUTENCAO DO MINISTERIO ...,TRANSPORTE RODOVIARIO,EDUCACAO PROFISSIONAL E TECNOLOGICA
nome_acao,"AUXILIO-TRANSPORTE AOS SERVIDORES CIVIS, EMPRE...",CONSTRUCAO DE CONTORNO RODOVIARIO EM MOSSORO -...,FUNCIONAMENTO DE INSTITUICOES FEDERAIS DE EDUC...
nome_categ_econo,DESPESA CORRENTE,DESPESA DE CAPITAL,DESPESA DE CAPITAL
nome_grp_despesa,Outras Despesas Correntes,Investimentos,Investimentos
