# Configuração de ambiente

Importação das bibliotecas:
- Pandas: para manipulação de dados através do alias "pd"
- Google Colab: para manipulação de arquivos no Google Drive

E execução do comando "%matplotlib inline" para que os gráficos sejam exibidos no notebook logo abaixo da célula de código que os gerou.

In [51]:
import pandas as pd
from google.colab import drive

%matplotlib inline

Carregamento do Drive para que o notebook possa acessar os arquivos do Google Drive e com o parâmetro "force_remount=True" para que o Drive seja montado a cada execução do notebook.

In [52]:
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


# Leitura e visualização do dataset

Leitura do arquivo "dataset.csv" através da função "read_csv" do Pandas e armazenamento do resultado na variável "df". Uso do parâmetro "sep" para informar qual o separador de colunas do arquivo e do parâmetro "encoding" para informar qual o tipo de codificação do arquivo.

In [53]:
csv_url = "https://github.com/viniciusgugelmin/data-science/blob/main/projects/base_de_despesas/data/dataset.csv?raw=true"

df = pd.read_csv(csv_url, sep=';', encoding='iso-8859-1')

  exec(code_obj, self.user_global_ns, self.user_ns)


Exibição das 5 primeiras linhas do DataFrame através da função "head" do Pandas para verificar se o arquivo foi carregado corretamente e ter uma ideia do que ele contém.

In [54]:
df.head()

Unnamed: 0,ANO_EMPENHO,DT_EMPENHO,CD_FONTE,DS_FONTE,CD_FUNCAO,DS_FUNCAO,CD_PROGRAMA,DS_PROGRAMA,CD_ACAO,DS_ACAO,...,VL_TOTAL,PROTOCOLOSUP,DT_TRANSACAO,NR_PARCELA,TRANSACAO,VL_LIQUIDADO,VL_DEVOLVIDO,VL_ANULADO,VL_PAGO,VL_CONSIGNADO
0,-----------,----------,--------,--------,---------,---------,-----------,-----------,-------,-------,...,--------,------------,------------,------------,------------,------------,------------,----------,-------,-------------
1,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,21150000,,,,,,,,,
2,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,8040000,,,,,,,,,
3,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-22 00:00:00.000,1,Anulado de Empenho,000,000,53244,000,000
4,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-14 00:00:00.000,1,Pagamento de Empenho,000,000,000,113344,000


# Processo inicial de limpeza

Exclusão da coluna de índice 0 do DataFrame através da função "drop" do Pandas, pois ela é composta apenas por traços e não possui nenhum valor relevante além de separar as linhas do cabeçalho visualmente.

In [55]:
df = df.drop(0)
df

Unnamed: 0,ANO_EMPENHO,DT_EMPENHO,CD_FONTE,DS_FONTE,CD_FUNCAO,DS_FUNCAO,CD_PROGRAMA,DS_PROGRAMA,CD_ACAO,DS_ACAO,...,VL_TOTAL,PROTOCOLOSUP,DT_TRANSACAO,NR_PARCELA,TRANSACAO,VL_LIQUIDADO,VL_DEVOLVIDO,VL_ANULADO,VL_PAGO,VL_CONSIGNADO
1,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,21150000,,,,,,,,,
2,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,8040000,,,,,,,,,
3,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-22 00:00:00.000,1,Anulado de Empenho,000,000,53244,000,000
4,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-14 00:00:00.000,1,Pagamento de Empenho,000,000,000,113344,000
5,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-13 00:00:00.000,1,Liquidação de Empenho,113344,000,000,000,000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36082,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36083,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36084,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36085,2022,2022-08-31,0,Recursos Ordinários (Livres),4,ADMINISTRAÇÃO,7,PROGRAMA VIVA CURITIBA TRANSPARENTE,2164,"PROMOÇÃO DA ASSISTÊNCIA GERAL AO SERVIDOR, CON...",...,,,,,,,,,,


Reset do index do DataFrame através da função "reset_index" do Pandas para que o index seja redefinido a partir do 0 e utilização do parâmetro "drop=True" para que a coluna de índice antiga seja excluída.

In [56]:
df = df.reset_index(drop=True)
df

Unnamed: 0,ANO_EMPENHO,DT_EMPENHO,CD_FONTE,DS_FONTE,CD_FUNCAO,DS_FUNCAO,CD_PROGRAMA,DS_PROGRAMA,CD_ACAO,DS_ACAO,...,VL_TOTAL,PROTOCOLOSUP,DT_TRANSACAO,NR_PARCELA,TRANSACAO,VL_LIQUIDADO,VL_DEVOLVIDO,VL_ANULADO,VL_PAGO,VL_CONSIGNADO
0,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,21150000,,,,,,,,,
1,2022,2022-06-09,098,Recursos Próprios do Fundo Municipal de Apoio ...,08,ASSISTÊNCIA SOCIAL,0001,PROGRAMA VIVA CURITIBA QUE NÃO DORME,2011,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,...,8040000,,,,,,,,,
2,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-22 00:00:00.000,1,Anulado de Empenho,000,000,53244,000,000
3,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-14 00:00:00.000,1,Pagamento de Empenho,000,000,000,113344,000
4,2022,2022-06-23,024,Recursos Próprios do Fundo Municipal de Habita...,16,HABITAÇÃO,0002,PROGRAMA VIVA CURITIBA CIDADÃ,2066,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",...,,01-122405/2022,2022-07-13 00:00:00.000,1,Liquidação de Empenho,113344,000,000,000,000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36081,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36082,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36083,2022,2022-08-31,114,Programa Dinheiro Direto na Escola - PDDE - Ed...,12,EDUCAÇÃO,2,PROGRAMA VIVA CURITIBA CIDADÃ,2038,TRANSFERÊNCIA DE RECURSOS ÀS ENTIDADES PRIVADA...,...,,,,,,,,,,
36084,2022,2022-08-31,0,Recursos Ordinários (Livres),4,ADMINISTRAÇÃO,7,PROGRAMA VIVA CURITIBA TRANSPARENTE,2164,"PROMOÇÃO DA ASSISTÊNCIA GERAL AO SERVIDOR, CON...",...,,,,,,,,,,


In [57]:
df.columns

Index(['ANO_EMPENHO', 'DT_EMPENHO', 'CD_FONTE', 'DS_FONTE', 'CD_FUNCAO',
       'DS_FUNCAO', 'CD_PROGRAMA', 'DS_PROGRAMA', 'CD_ACAO', 'DS_ACAO',
       'CD_SUBELEMENTO', 'DS_SUBELEMENTO', 'CD_ORGAO', 'DS_ORGAO',
       'CD_DESPESA', 'DS_DESPESA', 'CODIGO_DESPESA_GRUPO', 'DS_GRUPO',
       'CODIGO_DESPESA_MODALIDADE', 'DS_MODALIDADE', 'CODIGO_DESPESA_ELEMENTO',
       'DS_ELEMENTO', 'CPF_CNPJ', 'NR_EMPENHO', 'LICITACAO', 'VL_EMPENHADO',
       'CD_ITEM', 'DS_ITEM', 'DS_UNIDADE', 'QUANTIDADE', 'VL_PRECO_UNITARIO',
       'VL_TOTAL', 'PROTOCOLOSUP', 'DT_TRANSACAO', 'NR_PARCELA', 'TRANSACAO',
       'VL_LIQUIDADO', 'VL_DEVOLVIDO', 'VL_ANULADO', 'VL_PAGO',
       'VL_CONSIGNADO'],
      dtype='object')

In [58]:
df = df.drop(df.filter(regex='ANO_EMPENHO|CD_|CODIGO_|NR_|LICITACAO|PROTOCOLOSUP|DS_GRUPO|DS_MODALIDADE').columns, axis=1)
df.columns

Index(['DT_EMPENHO', 'DS_FONTE', 'DS_FUNCAO', 'DS_PROGRAMA', 'DS_ACAO',
       'DS_SUBELEMENTO', 'DS_ORGAO', 'DS_DESPESA', 'DS_ELEMENTO', 'CPF_CNPJ',
       'VL_EMPENHADO', 'DS_ITEM', 'DS_UNIDADE', 'QUANTIDADE',
       'VL_PRECO_UNITARIO', 'VL_TOTAL', 'DT_TRANSACAO', 'TRANSACAO',
       'VL_LIQUIDADO', 'VL_DEVOLVIDO', 'VL_ANULADO', 'VL_PAGO',
       'VL_CONSIGNADO'],
      dtype='object')

In [59]:
df.columns = df.columns.str.replace('DT_', 'DATA_').str.replace('DS_', '').str.replace('VL_', 'VALOR_')
df.columns = df.columns.str.replace('CPF_CNPJ', 'DOCUMENTO').str.replace('UNIDADE', 'UNIDADE_ITEM').str.replace('QUANTIDADE', 'QUANTIDADE_ITEM').str.replace('DESPESA', 'TIPO').str.replace('DATA_EMPENHO', 'DATA')
df = df.rename(columns={'TRANSACAO': 'STATUS_TRANSACAO'})
df.columns

Index(['DATA', 'FONTE', 'FUNCAO', 'PROGRAMA', 'ACAO', 'SUBELEMENTO', 'ORGAO',
       'TIPO', 'ELEMENTO', 'DOCUMENTO', 'VALOR_EMPENHADO', 'ITEM',
       'UNIDADE_ITEM', 'QUANTIDADE_ITEM', 'VALOR_PRECO_UNITARIO',
       'VALOR_TOTAL', 'DATA_TRANSACAO', 'STATUS_TRANSACAO', 'VALOR_LIQUIDADO',
       'VALOR_DEVOLVIDO', 'VALOR_ANULADO', 'VALOR_PAGO', 'VALOR_CONSIGNADO'],
      dtype='object')