# Analytics Engineer Test 

### Importando o Pandas e extraindo os arquivos CSV

In [28]:
# Importa o pandas e os

import pandas as pd
import os

In [29]:
# Define o caminho para os arquivos CSV

file_path_despesas = './input/gdv_despesas_excel.csv'
file_path_receitas = './input/gdv_receitas_excel.csv'

In [30]:
# Define os dataframes

df_despesas = pd.read_csv(file_path_despesas, encoding="ISO-8859-1", sep=",", engine='python', thousands=".", decimal=",") 
df_receitas = pd.read_csv(file_path_receitas, encoding="ISO-8859-1", sep=",", engine='python', thousands=".", decimal=",") 

### Explorando e transformando os dataframes

#### Limpeza e formatação

In [31]:
# Altera o formato de exibição dos dados numéricos para duas casas decimais, melhorando a visualização

pd.options.display.float_format = "{:.2f}".format

In [32]:
# Mostra o dataframe, possibilitando observar as linhas iniciais e finais de df_despesas

df_despesas

Unnamed: 0,Fonte de Recursos,Despesa,Liquidado,Unnamed: 3
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900119 - ATRASADOS-OUTROS PODERES/MINIST.PUB...,79760504.67,
1,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900124 - COMPLEMENTACAO DE APOSENTADORIA,1850834374.26,
2,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900125 - COMPLEMENTACAO DE APOSENTADORIA - 1...,124536202.87,
3,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900325 - COMPLEMENTACAO DE PENSAO,10948297.00,
4,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900326 - COMPLEMENTACAO DE PENSAO - 13º SALARIO,521632.30,
...,...,...,...,...
2030,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,44905112 - INSTALACOES,2545097.24,
2031,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,44905130 - EXECUCAO DE OBRAS E INSTALACOES,32829959.39,
2032,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,44905210 - VEICULOS DIVERSOS,755209.26,
2033,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,44905234 - OUTROS EQUIPAMENTOS E MATERIAL PERM...,2098500.00,


In [33]:
# Mostra o dataframe, possibilitando observar as linhas iniciais e finais de df_receitas

df_receitas

Unnamed: 0,Fonte de Recursos,Receita,Arrecadado até 02/02/2024,Unnamed: 3
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130111 - IRRF - IMP.RENDA PESSOA FISICA-PRIN...,4267858335.83,
1,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130311 - IRRF-IMP. RENDA RET. FTE-TRABALHO-P...,4323772997.93,
2,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130341 - IRRF-OUTROS RENDIMENTOS-PRINCIPAL,123071158.14,
3,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11180121 - IPVA - IMP. PROPR. VEIC. AUTOM - P...,8202995933.47,
4,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11180122 - IPVA - MULTAS E JUROS,6927.39,
...,...,...,...,...
280,085 - RECURSOS VINCULADOS FEDERAIS-INTRA,89900011 - DEMAIS RECEITAS DE CAPITAL-PRINCIPA...,12392104.67,
281,086 - OUTRAS FONTES DE RECURSOS-INTRA,89100011 - INTEGRALIZACAO CAPITAL SOCIAL-PRINC...,137377128.78,
282,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,89100011 - INTEGRALIZACAO CAPITAL SOCIAL-PRINC...,46441531.83,
283,099 - EXTRA ORCAMENTARIA,13210011 - REMUNERACAO DEPOSITOS BANCARIOS - ...,0.00,


In [34]:
# Verifica os tipos de dados em df_despesas

df_despesas.dtypes

Fonte de Recursos     object
Despesa               object
Liquidado            float64
Unnamed: 3           float64
dtype: object

In [35]:
# Verifica os tipos de dados em df_receitas

df_receitas.dtypes

Fonte de Recursos             object
Receita                       object
Arrecadado até 02/02/2024    float64
Unnamed: 3                   float64
dtype: object

In [36]:
# Verifica o número de linhas e colunas dos dataframes

print( df_receitas.shape)
print( df_despesas.shape)

(285, 4)
(2035, 4)


In [37]:
# Remove a última linha, contendo o Total, em ambos os dataframes

df_receitas_limpo = df_receitas.iloc[:-1]
df_despesas_limpo = df_despesas.iloc[:-1]

print(df_despesas_limpo.shape)
print(df_receitas_limpo.shape)

(2034, 4)
(284, 4)


In [38]:
# Remove linhas em branco, caso existam

df_receitas_limpo = df_receitas_limpo.dropna(how='all')
df_despesas_limpo = df_despesas_limpo.dropna(how='all')

print(df_despesas_limpo.shape)
print(df_receitas_limpo.shape)

(2034, 4)
(284, 4)


In [39]:
# Confirma se todos os valores da coluna 'Unnamed: 3' de df_despesas são nulos:

df_despesas_limpo['Unnamed: 3'].value_counts() 

Series([], Name: count, dtype: int64)

In [40]:
# Confirma se todos os valores da coluna 'Unnamed: 3' de df_receitas são nulos:

df_receitas_limpo['Unnamed: 3'].value_counts() 

Series([], Name: count, dtype: int64)

In [41]:
# Remove a colunas 'Unnamed: 3' em ambos os dataframes

df_despesas_limpo = df_despesas_limpo.drop(columns=['Unnamed: 3'])
df_receitas_limpo = df_receitas_limpo.drop(columns=['Unnamed: 3'])

In [42]:
# Substitui valores nulos por 0, caso existam

df_despesas_limpo = df_despesas_limpo.fillna(0)
df_receitas_limpo = df_receitas_limpo.fillna(0)

In [43]:
# Renomeia coluna  "Arrecadado até 02/02/2024" como "Arrecadado" e verifica as primeiras 5 linhas de df_receitas_limpo

df_receitas_limpo = df_receitas_limpo.rename(columns={'Arrecadado até 02/02/2024': 'Arrecadado'})
df_receitas_limpo.head()

Unnamed: 0,Fonte de Recursos,Receita,Arrecadado
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130111 - IRRF - IMP.RENDA PESSOA FISICA-PRIN...,4267858335.83
1,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130311 - IRRF-IMP. RENDA RET. FTE-TRABALHO-P...,4323772997.93
2,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11130341 - IRRF-OUTROS RENDIMENTOS-PRINCIPAL,123071158.14
3,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11180121 - IPVA - IMP. PROPR. VEIC. AUTOM - P...,8202995933.47
4,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,11180122 - IPVA - MULTAS E JUROS,6927.39


In [44]:
# Verifica as primeiras 5 linhas de df_despesas_limpo

df_despesas_limpo.head()

Unnamed: 0,Fonte de Recursos,Despesa,Liquidado
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900119 - ATRASADOS-OUTROS PODERES/MINIST.PUB...,79760504.67
1,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900124 - COMPLEMENTACAO DE APOSENTADORIA,1850834374.26
2,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900125 - COMPLEMENTACAO DE APOSENTADORIA - 1...,124536202.87
3,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900325 - COMPLEMENTACAO DE PENSAO,10948297.0
4,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,31900326 - COMPLEMENTACAO DE PENSAO - 13º SALARIO,521632.3


#### Consolidado de valores Arrecadados e Liquidados por Fonte de Recursos

In [45]:
# Agrupa os dataframes por Fonte de Recursos, trazendo a soma dos valores Arrecadados e Liquidados em ordem decrescente

df_despesas_agrupado = df_despesas_limpo.groupby('Fonte de Recursos')['Liquidado'].sum().reset_index().sort_values(by='Liquidado', ascending=False).reset_index(drop=True)
df_receitas_agrupado = df_receitas_limpo.groupby('Fonte de Recursos')['Arrecadado'].sum().reset_index().sort_values(by='Arrecadado', ascending=False).reset_index(drop=True)

In [46]:
# Verifa as dimensões dos dataframes

print(df_despesas_agrupado.shape)
print(df_receitas_agrupado.shape)

(20, 2)
(21, 2)


In [47]:
# Traz o total arrecadado e liquidado por Fonte de Recursos, realizando um left join de df_receitas
# utilizado Fonte de Recursos como chave

df_consolidado = pd.merge(df_receitas_agrupado, df_despesas_agrupado[['Fonte de Recursos', 'Liquidado']], 
                     how='left', on='Fonte de Recursos').fillna(0)

In [48]:
# Cria a coluna Variação, que subtrai o valor Liquidado do Arrecadado

df_consolidado['Variação'] = df_consolidado['Arrecadado'] - df_consolidado['Liquidado']
df_consolidado

Unnamed: 0,Fonte de Recursos,Arrecadado,Liquidado,Variação
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,145359336941.22,146622207006.13,-1262870064.91
1,002 - RECURSOS VINCULADOS ESTADUAIS,51838245153.9,51132135649.47,706109504.43
2,081 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR-I...,30947501477.57,30931190214.98,16311262.59
3,004 - REC.PROPRIO-ADM.IND.-DOT.INIC.CR.SUPL.,10879120172.16,10198168865.47,680951306.69
4,005 - RECURSOS VINCULADOS FEDERAIS,8585540905.79,8091074605.92,494466299.87
5,003 - RECURSOS VINCULADOS-FUNDO ESPECIAL DE DE...,5443588925.19,4364160481.91,1079428443.28
6,007 - OP.CRED.E CONTRIB.DO EXTERIOR-DOT.INIC.C...,2382563194.35,1513684017.05,868879177.3
7,006 - OUTRAS FONTES DE RECURSOS,1091691526.65,615464247.96,476227278.69
8,082 - RECURSOS VINCULADOS ESTADUAIS-INTRA,406170287.52,406170287.52,0.0
9,085 - RECURSOS VINCULADOS FEDERAIS-INTRA,225804440.89,225804440.89,0.0


#### Dataframe único, com as informações detalhadas de Despesas e Receitas

In [49]:
# Cria coluna Tipo, a fim de identificar a linha como Despesa ou Receita

df_despesas_alterado = df_despesas_limpo
df_receitas_alterado = df_receitas_limpo

df_despesas_alterado['Tipo'] = 'Despesa/Liquidado'
df_receitas_alterado['Tipo'] = 'Receita/Arrecadado'

In [50]:
# Renomeia as colunas

df_despesas_alterado.rename(columns={'Despesa': 'Descrição', 'Liquidado': 'Valor'}, inplace=True)
df_receitas_alterado.rename(columns={'Receita': 'Descrição', 'Arrecadado': 'Valor'}, inplace=True)

In [51]:
# Combina os dataframes em df_combinado

df_combinado = pd.concat([df_receitas_alterado, df_despesas_alterado], axis=0)
df_combinado.reset_index(drop=True, inplace=True)


In [52]:
# Reordena as colunas do dataframe resultante

ordem = ['Fonte de Recursos', 'Tipo', 'Descrição', 'Valor']
df_combinado = df_combinado[ordem]
df_combinado

Unnamed: 0,Fonte de Recursos,Tipo,Descrição,Valor
0,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,Receita/Arrecadado,11130111 - IRRF - IMP.RENDA PESSOA FISICA-PRIN...,4267858335.83
1,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,Receita/Arrecadado,11130311 - IRRF-IMP. RENDA RET. FTE-TRABALHO-P...,4323772997.93
2,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,Receita/Arrecadado,11130341 - IRRF-OUTROS RENDIMENTOS-PRINCIPAL,123071158.14
3,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,Receita/Arrecadado,11180121 - IPVA - IMP. PROPR. VEIC. AUTOM - P...,8202995933.47
4,001 - TESOURO-DOT.INICIAL E CRED.SUPLEMENTAR,Receita/Arrecadado,11180122 - IPVA - MULTAS E JUROS,6927.39
...,...,...,...,...
2313,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,Despesa/Liquidado,44905111 - GERENCIAMENTO DE OBRAS,8150057.66
2314,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,Despesa/Liquidado,44905112 - INSTALACOES,2545097.24
2315,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,Despesa/Liquidado,44905130 - EXECUCAO DE OBRAS E INSTALACOES,32829959.39
2316,087 - OP.CRED.CONTR.EXTERIOR-DOT.INIC.CR.SUP-I...,Despesa/Liquidado,44905210 - VEICULOS DIVERSOS,755209.26


### Exportando os dataframes 

In [53]:
# Cria diretório output, caso não exista, e exporta os dataframes como arquivos CSV

directory = "output"
if not os.path.exists(directory):
    os.makedirs(directory)

# df_receitas_limpo.to_csv('./output/gdv_receitas_tratado.csv', sep=',', index=False)
# df_despesas_limpo.to_csv('./output/gdv_despesas_tratado.csv', sep=',', index=False)
df_consolidado.to_csv('./output/gdv_consolidado.csv', sep=',', index=False)
df_combinado.to_csv('./output/gdv_tratado.csv', sep=',', index=False)
