# Dados Utilizados

In [84]:
import pandas as pd

### Gastos diretos do Governo Federal do Brasil (2014-2019)
**Descrição:** Todo gasto que o governo faz com o dinheiro arrecado por meio de impostos ou outras fontes é categorizado. Há despesas em habitação, educação, saúde, segurança, etc. Há despesas que aumentam o patrimônio público e outras que pagam por manutenção. Essa estruturação ajuda a compreender os diferentes aspectos e a acompanhar como o governo utiliza o dinheiro público.

Para atender a diferentes objetos, existem diferentes formas de categorizar a despesa ou gasto público. As diferentes categorizações permitem a você saber, por exemplo, quem gastou o dinheiro, em qual área, o que foi contratado ou comprado e a classificação financeira do gasto.

O Portal da Transparência possibilita que você consulte as despesas executadas a partir de três diferentes visões: área de atuação do governo (função), ações e programas (estrutura programática) e a visão econômica (natureza da despesa).

**Fonte:** [Gastos Diretos do Governo Federal](https://www.kaggle.com/datasets/luizph21/oramento-governo-federal-do-brasil/data)

In [85]:
# Load dataset
gastos_diretos = pd.read_csv('../databases/gastosdiretos.csv', encoding='latin1')
gastos_diretos.head()

Unnamed: 0,EXERCÃCIO,CÃDIGO ÃRGÃO SUPERIOR,NOME ÃRGÃO SUPERIOR,CÃDIGO ÃRGÃO SUBORDINADO,NOME ÃRGÃO SUBORDINADO,CÃDIGO UNIDADE ORÃAMENTÃRIA,NOME UNIDADE ORÃAMENTÃRIA,CÃDIGO FUNÃÃO,NOME FUNÃÃO,CÃDIGO SUBFUNÃÃO,...,CÃDIGO CATEGORIA ECONÃMICA,NOME CATEGORIA ECONÃMICA,CÃDIGO GRUPO DE DESPESA,NOME GRUPO DE DESPESA,CÃDIGO ELEMENTO DE DESPESA,NOME ELEMENTO DE DESPESA,ORÃAMENTO INICIAL (R$),ORÃAMENTO ATUALIZADO (R$),ORÃAMENTO REALIZADO (R$),Year
0,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,14,DiÃ¡rias - Civil,37165556,37165556,33097148,2014
1,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,41,ContribuiÃ§Ãµes,165252500,165252500,153311271,2014
2,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,39,Outros ServiÃ§os de Terceiros - Pessoa JurÃ­dica,12392373,12392373,12219375,2014
3,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,33,Passagens e Despesas com LocomoÃ§Ã£o,129465808,129465808,118575289,2014
4,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,37,LocaÃ§Ã£o de MÃ£o-de-Obra,1242483,1242483,948542,2014


In [86]:
#Columns List
print(gastos_diretos.columns)

Index(['EXERCÃCIO', 'CÃDIGO ÃRGÃO SUPERIOR', 'NOME ÃRGÃO SUPERIOR',
       'CÃDIGO ÃRGÃO SUBORDINADO', 'NOME ÃRGÃO SUBORDINADO',
       'CÃDIGO UNIDADE ORÃAMENTÃRIA', 'NOME UNIDADE ORÃAMENTÃRIA',
       'CÃDIGO FUNÃÃO', 'NOME FUNÃÃO', 'CÃDIGO SUBFUNÃÃO',
       'NOME SUBFUNÃÃO', 'CÃDIGO PROGRAMA ORÃAMENTÃRIO',
       'NOME PROGRAMA ORÃAMENTÃRIO', 'CÃDIGO AÃÃO', 'NOME AÃÃO',
       'CÃDIGO CATEGORIA ECONÃMICA', 'NOME CATEGORIA ECONÃMICA',
       'CÃDIGO GRUPO DE DESPESA', 'NOME GRUPO DE DESPESA',
       'CÃDIGO ELEMENTO DE DESPESA', 'NOME ELEMENTO DE DESPESA',
       'ORÃAMENTO INICIAL (R$)', 'ORÃAMENTO ATUALIZADO (R$)',
       'ORÃAMENTO REALIZADO (R$)', 'Year'],
      dtype='object')


# Modificação das colunas

O conjunto de dados possui algumas colunas com problemas em relação a acentuação, com isso foi feita uma alteração nas nomenclaturas das colunas

In [87]:
# Rename the columns to correct the encoding issues
gastos_diretos.columns = [
    'EXERCICIO', 'CODIGO_ORGAO_SUPERIOR', 'NOME_ORGAO_SUPERIOR',
    'CODIGO_ORGAO_SUBORDINADO', 'NOME_ORGAO_SUBORDINADO',
    'CODIGO_UNIDADE_ORCAMENTARIA', 'NOME_UNIDADE_ORCAMENTARIA',
    'CODIGO_FUNCAO', 'NOME_FUNCAO', 'CODIGO_SUBFUNCAO',
    'NOME_SUBFUNCAO', 'CODIGO_PROGRAMA_ORCAMENTARIO',
    'NOME_PROGRAMA_ORCAMENTARIO', 'CODIGO_ACAO', 'NOME_ACAO',
    'CODIGO_CATEGORIA_ECONOMICA', 'NOME_CATEGORIA_ECONOMICA',
    'CODIGO_GRUPO_DE_DESPESA', 'NOME_GRUPO_DE_DESPESA',
    'CODIGO_ELEMENTO_DE_DESPESA', 'NOME_ELEMENTO_DE_DESPESA',
    'ORCAMENTO_INICIAL_R$', 'ORCAMENTO_ATUALIZADO_R$',
    'ORCAMENTO_REALIZADO_R$', 'ANO'
]

gastos_diretos.head()

Unnamed: 0,EXERCICIO,CODIGO_ORGAO_SUPERIOR,NOME_ORGAO_SUPERIOR,CODIGO_ORGAO_SUBORDINADO,NOME_ORGAO_SUBORDINADO,CODIGO_UNIDADE_ORCAMENTARIA,NOME_UNIDADE_ORCAMENTARIA,CODIGO_FUNCAO,NOME_FUNCAO,CODIGO_SUBFUNCAO,...,CODIGO_CATEGORIA_ECONOMICA,NOME_CATEGORIA_ECONOMICA,CODIGO_GRUPO_DE_DESPESA,NOME_GRUPO_DE_DESPESA,CODIGO_ELEMENTO_DE_DESPESA,NOME_ELEMENTO_DE_DESPESA,ORCAMENTO_INICIAL_R$,ORCAMENTO_ATUALIZADO_R$,ORCAMENTO_REALIZADO_R$,ANO
0,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,14,DiÃ¡rias - Civil,37165556,37165556,33097148,2014
1,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,41,ContribuiÃ§Ãµes,165252500,165252500,153311271,2014
2,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,39,Outros ServiÃ§os de Terceiros - Pessoa JurÃ­dica,12392373,12392373,12219375,2014
3,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,33,Passagens e Despesas com LocomoÃ§Ã£o,129465808,129465808,118575289,2014
4,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,AdministraÃ§Ã£o,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,37,LocaÃ§Ã£o de MÃ£o-de-Obra,1242483,1242483,948542,2014


# Valores de orçamento
As colunas de orçamento possuem valores tipo object que futuramente ocasionariam problemas para manipulação, com isso foi feita uma modificação de tipo

In [88]:
# List of columns to be converted
columns = ['ORCAMENTO_INICIAL_R$', 'ORCAMENTO_ATUALIZADO_R$', 'ORCAMENTO_REALIZADO_R$']

def convert_column(df, col):
    df[col] = df[col].astype(str)
    
    df[col] = df[col].str.replace('.', '', regex=False)
    df[col] = df[col].str.replace(',', '.', regex=False)
    
    df[col] = pd.to_numeric(df[col], errors='coerce')

for column in columns:
    convert_column(gastos_diretos, column)

## Nomenclatura das funções

A coluna 'NOME_FUNCAO' possuia problemas na nomenclatura que dificultavam muito o entendimento

In [89]:
# Dictionary to rename the function names with correct encoding issues
rename_functions = {
    'AdministraÃ§Ã£o': 'Administracao',
    'ComunicaÃ§Ãµes': 'Comunicacoes',
    'Direitos da cidadania': 'Direitos da cidadania',
    'SeguranÃ§a pÃºblica': 'Seguranca publica',
    'ComÃ©rcio e serviÃ§os': 'Comercio e servicos',
    'Transporte': 'Transporte',
    'Reserva de contingÃªncia': 'Reserva de contingencia',
    'Encargos especiais': 'Encargos especiais',
    'PrevidÃªncia social': 'Previdencia social',
    'Agricultura': 'Agricultura',
    'OrganizaÃ§Ã£o agrÃ¡ria': 'Organizacao agraria',
    'GestÃ£o ambiental': 'Gestao ambiental',
    'CiÃªncia e Tecnologia': 'Ciencia e Tecnologia',
    'IndÃºstria': 'Industria',
    'Trabalho': 'Trabalho',
    'AssistÃªncia social': 'Assistencia social',
    'Energia': 'Energia',
    'EducaÃ§Ã£o': 'Educacao',
    'Essencial Ã  justiÃ§a': 'Essencial a justiça',
    'RelaÃ§Ãµes exteriores': 'Relacoes exteriores',
    'SaÃºde': 'Saude',
    'Urbanismo': 'Urbanismo',
    'Cultura': 'Cultura',
    'Desporto e lazer': 'Desporto e lazer',
    'Defesa nacional': 'Defesa nacional',
    'HabitaÃ§Ã£o': 'Habitacao',
    'Saneamento': 'Saneamento',
    'JudiciÃ¡ria': 'Judiciaria',
    'Legislativa': 'Legislativa'
}


gastos_diretos['NOME_FUNCAO'] = gastos_diretos['NOME_FUNCAO'].replace(rename_functions)
gastos_diretos.head()

Unnamed: 0,EXERCICIO,CODIGO_ORGAO_SUPERIOR,NOME_ORGAO_SUPERIOR,CODIGO_ORGAO_SUBORDINADO,NOME_ORGAO_SUBORDINADO,CODIGO_UNIDADE_ORCAMENTARIA,NOME_UNIDADE_ORCAMENTARIA,CODIGO_FUNCAO,NOME_FUNCAO,CODIGO_SUBFUNCAO,...,CODIGO_CATEGORIA_ECONOMICA,NOME_CATEGORIA_ECONOMICA,CODIGO_GRUPO_DE_DESPESA,NOME_GRUPO_DE_DESPESA,CODIGO_ELEMENTO_DE_DESPESA,NOME_ELEMENTO_DE_DESPESA,ORCAMENTO_INICIAL_R$,ORCAMENTO_ATUALIZADO_R$,ORCAMENTO_REALIZADO_R$,ANO
0,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,Administracao,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,14,DiÃ¡rias - Civil,371655.56,371655.56,330971.48,2014
1,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,Administracao,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,41,ContribuiÃ§Ãµes,1652525.0,1652525.0,1533112.71,2014
2,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,Administracao,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,39,Outros ServiÃ§os de Terceiros - Pessoa JurÃ­dica,123923.73,123923.73,122193.75,2014
3,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,Administracao,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,33,Passagens e Despesas com LocomoÃ§Ã£o,1294658.08,1294658.08,1185752.89,2014
4,2014,20000,PresidÃªncia da RepÃºblica,20101,PresidÃªncia da RepÃºblica,20101,PRESIDENCIA DA REPUBLICA,4,Administracao,122,...,3,DESPESA CORRENTE,3,Outras Despesas Correntes,37,LocaÃ§Ã£o de MÃ£o-de-Obra,12424.83,12424.83,9485.42,2014


# Salvar dados limpos

In [90]:
gastos_diretos.to_csv('../databases/gastosdiretos_clean.csv', index=False)