# Dados Utilizados

In [81]:
import pandas as pd

### Gastos diretos do Governo Federal do Brasil (2014-2019)
**Descrição:** Todo gasto que o governo faz com o dinheiro arrecado por meio de impostos ou outras fontes é categorizado. Há despesas em habitação, educação, saúde, segurança, etc. Há despesas que aumentam o patrimônio público e outras que pagam por manutenção. Essa estruturação ajuda a compreender os diferentes aspectos e a acompanhar como o governo utiliza o dinheiro público.

Para atender a diferentes objetos, existem diferentes formas de categorizar a despesa ou gasto público. As diferentes categorizações permitem a você saber, por exemplo, quem gastou o dinheiro, em qual área, o que foi contratado ou comprado e a classificação financeira do gasto.

O Portal da Transparência possibilita que você consulte as despesas executadas a partir de três diferentes visões: área de atuação do governo (função), ações e programas (estrutura programática) e a visão econômica (natureza da despesa).

**Fonte:** [Gastos Diretos do Governo Federal](https://www.kaggle.com/datasets/luizph21/oramento-governo-federal-do-brasil/data)

In [82]:
# Carrega o dataset
gastos_diretos = pd.read_csv('../databases/gastosdiretos.csv', encoding='utf-8')
gastos_diretos.head()

Unnamed: 0,EXERCÍCIO,NOME ÓRGÃO SUPERIOR,NOME ÓRGÃO SUBORDINADO,NOME UNIDADE ORÇAMENTÁRIA,NOME FUNÇÃO,NOME SUBFUNÇÃO,NOME PROGRAMA ORÇAMENTÁRIO,NOME AÇÃO,NOME CATEGORIA ECONÔMICA,NOME GRUPO DE DESPESA,NOME ELEMENTO DE DESPESA,ORÇAMENTO INICIAL (R$),ORÇAMENTO ATUALIZADO (R$),ORÇAMENTO REALIZADO (R$),Year
0,2014,Presidência da República,Presidência da República,PRESIDENCIA DA REPUBLICA,Administração,Administração geral,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,COMISSAO NACIONAL DA VERDADE,DESPESA CORRENTE,Outras Despesas Correntes,Diárias - Civil,37165556,37165556,33097148,2014
1,2014,Presidência da República,Presidência da República,PRESIDENCIA DA REPUBLICA,Administração,Administração geral,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,COMISSAO NACIONAL DA VERDADE,DESPESA CORRENTE,Outras Despesas Correntes,Contribuições,16525250,16525250,153311271,2014
2,2014,Presidência da República,Presidência da República,PRESIDENCIA DA REPUBLICA,Administração,Administração geral,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,COMISSAO NACIONAL DA VERDADE,DESPESA CORRENTE,Outras Despesas Correntes,Outros Serviços de Terceiros - Pessoa Jurídica,12392373,12392373,12219375,2014
3,2014,Presidência da República,Presidência da República,PRESIDENCIA DA REPUBLICA,Administração,Administração geral,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,COMISSAO NACIONAL DA VERDADE,DESPESA CORRENTE,Outras Despesas Correntes,Passagens e Despesas com Locomoção,129465808,129465808,118575289,2014
4,2014,Presidência da República,Presidência da República,PRESIDENCIA DA REPUBLICA,Administração,Administração geral,PROGRAMA DE GESTAO E MANUTENCAO DA PRESIDENCIA...,COMISSAO NACIONAL DA VERDADE,DESPESA CORRENTE,Outras Despesas Correntes,Locação de Mão-de-Obra,1242483,1242483,948542,2014


# Exclusão de colunas não interessantes

In [83]:
colunas = gastos_diretos.columns.tolist()
colunas_para_excluir = [col for col in colunas if 'CÓDIGO' in col]
gastos_diretos.drop(columns=colunas_para_excluir, inplace=True)

# Valores númericos com tipo objeto

In [84]:
# Converte algumas colunas, que possuiam valores não númericos
columns = ['ORÇAMENTO INICIAL (R$)', 'ORÇAMENTO ATUALIZADO (R$)', 'ORÇAMENTO REALIZADO (R$)'] 
def convert_column(df, col):
    df[col] = df[col].astype(str)
    
    df[col] = df[col].str.replace('.', '', regex=False)
    df[col] = df[col].str.replace(',', '.', regex=False)
    
    df[col] = pd.to_numeric(df[col], errors='coerce')

for column in columns:
    convert_column(gastos_diretos, column)

# Salvar dados limpos

In [85]:
gastos_diretos.to_csv('../databases/gastosdiretos.csv', index=False)