# Análise dos Gastos Públicos 


Como base é utilizado os dados do SICONFI (https://siconfi.tesouro.gov.br/siconfi/index.jsf)

Nestá primeira etapa será apenas apresentada a base, e suas particularidades.

Relizando algumas análises estatísticas.


In [5]:
import pandas as pd

df = pd.read_csv('data/finbra.csv', skiprows=4, encoding = 'ISO-8859-1', sep=";", decimal=',')
df.head(-15)

Unnamed: 0,Instituição,Cod.IBGE,UF,População,Coluna,Conta,Valor
0,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,Despesas Exceto Intraorçamentárias,22065362.39
1,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,01 - Legislativa,797417.88
2,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,01.031 - Ação Legislativa,797417.88
3,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,04 - Administração,2282545.92
4,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,04.122 - Administração Geral,1620112.75
...,...,...,...,...,...,...,...
1013686,Prefeitura Municipal de Reserva do Cabaçal - MT,5107156,MT,2638,Inscrição de Restos a Pagar Processados,08.244 - Assistência Comunitária,2829.27
1013687,Prefeitura Municipal de Reserva do Cabaçal - MT,5107156,MT,2638,Inscrição de Restos a Pagar Processados,10 - Saúde,46610.38
1013688,Prefeitura Municipal de Reserva do Cabaçal - MT,5107156,MT,2638,Inscrição de Restos a Pagar Processados,10.301 - Atenção Básica,46600.03
1013689,Prefeitura Municipal de Reserva do Cabaçal - MT,5107156,MT,2638,Inscrição de Restos a Pagar Processados,10.302 - Assistência Hospitalar e Ambulatorial,10.15


# Apenas as despesas empenhadas e principais

Como pode ser observado, as despesas se encontram na coluna Valor e são lançados em Subcontas, tendo a assim uma conta Totalizadoras.

Nesse primeiro momento estamos interessado nas Contas Sintéticas (Totalizadores).

Estamos interessados somente nas Despesas Empenhadas (Coluna)

Sendo assim, vamos criar uma base somente com essas contas, e em seguida alterar de linhas para colunas (pivot).

Também removemos as despesas Intraorçamentárias, pois aparentemente é a conta de todos os gastos acumulados.

In [6]:
df_empenhadas = df.loc[df['Coluna'] == 'Despesas Empenhadas']
df_desp_principais =  df_empenhadas.loc[~df_empenhadas['Conta'].str.contains('\.')]
df_desp_principais = df_desp_principais.loc[~df_desp_principais['Conta'].str.contains('Intraorçamentárias')]
df_desp_principais = df_desp_principais.loc[~df_desp_principais['Conta'].str.contains('FU')]

df_desp_principais.head(-15)

Unnamed: 0,Instituição,Cod.IBGE,UF,População,Coluna,Conta,Valor
1,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,01 - Legislativa,797417.88
3,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,04 - Administração,2282545.92
7,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,06 - Segurança Pública,82750.24
9,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,08 - Assistência Social,1069282.98
13,Prefeitura Municipal de Bonfinópolis - GO,5203559,GO,8876,Despesas Empenhadas,09 - Previdência Social,1911356.20
...,...,...,...,...,...,...,...
1013422,Prefeitura Municipal de Grossos - RN,2404408,RN,10293,Despesas Empenhadas,15 - Urbanismo,3288919.51
1013425,Prefeitura Municipal de Grossos - RN,2404408,RN,10293,Despesas Empenhadas,18 - Gestão Ambiental,2667954.50
1013427,Prefeitura Municipal de Grossos - RN,2404408,RN,10293,Despesas Empenhadas,20 - Agricultura,405134.56
1013429,Prefeitura Municipal de Grossos - RN,2404408,RN,10293,Despesas Empenhadas,24 - Comunicações,162475.56


# Gerando uma tabela unidimensional

Para área de aprendizado de máquina, precisamos de uma tabela unidimensional.

In [7]:
df_pivot = df_desp_principais.pivot_table(index=['Cod.IBGE','População'], columns='Conta',
                     values='Valor', aggfunc='first').reset_index()
df_pivot.head(-15)

Conta,Cod.IBGE,População,01 - Legislativa,02 - Judiciária,03 - Essencial à Justiça,04 - Administração,05 - Defesa Nacional,06 - Segurança Pública,07 - Relações Exteriores,08 - Assistência Social,...,19 - Ciência e Tecnologia,20 - Agricultura,21 - Organização Agrária,22 - Indústria,23 - Comércio e Serviços,24 - Comunicações,25 - Energia,26 - Transporte,27 - Desporto e Lazer,28 - Encargos Especiais
0,1100015,25506,2190082.84,,,11911101.21,,,,699772.25,...,,942120.85,,,446894.59,,,2084452.01,428950.38,540769.90
1,1100023,105896,6393376.88,6468047.90,,14490390.41,,2871382.45,,5484481.46,...,,3402152.48,,,46760.00,,,30806.00,26235.38,5399558.13
2,1100031,6289,1032956.80,,,3772480.43,,,,1322168.11,...,,584856.04,,,,,,1588781.46,68729.72,
3,1100049,87877,6573203.18,616360.46,,40118873.45,,8401.64,,3585373.17,...,,2017148.21,,,62259.59,444462.2,,6335025.45,1875626.29,3131935.59
4,1100056,17959,2091583.32,,,9173021.77,,,,1913686.54,...,,615173.40,,,,,,2778971.27,117083.40,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5433,5220454,102947,14912068.57,1545166.63,,67114320.03,,1738426.11,,,...,,469764.33,,,668915.82,,,,4708456.89,7525411.33
5434,5220504,8236,1667605.55,11725.31,,4342875.34,36102.05,79602.91,,1690279.29,...,,102433.48,,,563740.65,,,1143590.68,,1624603.26
5435,5220603,20357,2578265.93,,,8770113.73,,159102.43,,2079986.95,...,,263775.97,,230225.92,,,542638.23,1478623.29,961306.13,397970.43
5436,5220686,6863,769001.92,,,2081175.87,,428.51,,890211.52,...,,798771.71,,,,,,989523.49,275640.87,


# Analise Colunas

Podemos observar que estamos trabalhando com número muito grandes, então o próximo passo é suavizar e normalizar esses dados.


In [12]:
df_per_capita = df_pivot
df_pivot.describe()


Conta,Cod.IBGE,População,01 - Legislativa,02 - Judiciária,03 - Essencial à Justiça,04 - Administração,05 - Defesa Nacional,06 - Segurança Pública,07 - Relações Exteriores,08 - Assistência Social,...,19 - Ciência e Tecnologia,20 - Agricultura,21 - Organização Agrária,22 - Indústria,23 - Comércio e Serviços,24 - Comunicações,25 - Energia,26 - Transporte,27 - Desporto e Lazer,28 - Encargos Especiais
count,5453.0,5453.0,4945.0,1280.0,515.0,5442.0,286.0,2464.0,12.0,5438.0,...,201.0,4981.0,39.0,872.0,2178.0,949.0,1735.0,4184.0,5061.0,4401.0
mean,3256557.0,36882.37,3113544.0,1328878.0,1455067.0,12212800.0,68079.62,2381498.0,164504.5,3261607.0,...,1279614.0,797579.8,997974.9,406550.0,843286.4,549868.7,1037772.0,3327784.0,728066.1,5417169.0
std,976534.7,215626.8,17426850.0,7984227.0,4590163.0,41315170.0,177963.3,17624070.0,340026.5,20715180.0,...,8090019.0,1239128.0,4971009.0,1152813.0,5058774.0,5422439.0,3905598.0,79984030.0,3303484.0,84135310.0
min,1100015.0,815.0,6779.06,31.0,140.0,1.0,15.0,13.8,166.8,8400.0,...,92.0,65.0,376.5,82.94,20.0,20.06,36.5,35.71,80.3,37.06
25%,2513703.0,5507.0,744651.5,88310.93,84332.6,2760989.0,7120.96,24660.56,6482.02,800057.9,...,17385.0,183492.9,19702.62,29561.71,22776.56,7250.0,126491.5,248663.3,78959.62,300755.6
50%,3147600.0,11621.0,1133867.0,195976.8,220231.9,4372693.0,29091.44,82429.73,22107.9,1256973.0,...,93216.0,453078.0,82003.76,115149.3,115792.2,24678.45,284495.7,785383.2,217139.1,699216.0
75%,4119152.0,25232.0,2069232.0,568038.0,864509.6,8415655.0,59537.09,490795.0,109950.8,2334404.0,...,481618.7,990653.1,258752.5,353541.8,478364.2,83902.67,700910.4,1757284.0,529086.5,1732038.0
max,5222302.0,12038180.0,831980600.0,194165100.0,43845670.0,1400976000.0,2131648.0,549963600.0,1169607.0,1255894000.0,...,111430100.0,29934000.0,31199880.0,24153850.0,167578600.0,123794500.0,100009100.0,5128618000.0,176215600.0,5079563000.0


# Suavização - Gastos per capito

Transformando os gastos em per capita.
Podemos observar que muitas colunas (contas), tem poucos lançamentos (count / qtd de linhas)

Exemplo, Defesa Nacional, tem apenas 286 registro de 5438 possíveis.
Relações Exteriores = 12 / 5438
Ciência e Tecnologia = 201 / 5438

Mesmo assim, em um primeiro momento iremos manter todos os dados.


In [13]:
for ind, column in enumerate(df_per_capita.columns):
    if (ind > 1):
        df_per_capita[column] = df_per_capita[column].values / df_per_capita['População'].values
        
df_per_capita.describe()


Conta,Cod.IBGE,População,01 - Legislativa,02 - Judiciária,03 - Essencial à Justiça,04 - Administração,05 - Defesa Nacional,06 - Segurança Pública,07 - Relações Exteriores,08 - Assistência Social,...,19 - Ciência e Tecnologia,20 - Agricultura,21 - Organização Agrária,22 - Indústria,23 - Comércio e Serviços,24 - Comunicações,25 - Energia,26 - Transporte,27 - Desporto e Lazer,28 - Encargos Especiais
count,5453.0,5453.0,4945.0,1280.0,515.0,5442.0,286.0,2464.0,12.0,5438.0,...,201.0,4981.0,39.0,872.0,2178.0,949.0,1735.0,4184.0,5061.0,4401.0
mean,3256557.0,36882.37,125.657316,29.956377,31.258697,509.02256,3.925224,22.136229,27.217578,139.265037,...,8.668469,84.159159,39.567914,23.737193,28.689027,5.995923,39.370585,148.298705,32.389539,83.385071
std,976534.7,215626.8,82.377824,55.913052,78.973693,381.182251,10.084874,43.144585,64.203121,99.700393,...,17.154779,145.287581,112.952071,55.555253,119.116177,9.973279,93.206628,224.813095,47.017351,95.79206
min,1100015.0,815.0,0.229364,0.000725,0.010524,0.000181,0.001406,0.000501,0.005875,0.433631,...,0.002045,0.001449,0.068767,0.001787,0.000521,0.002317,0.000603,0.000885,0.00186,0.002039
25%,2513703.0,5507.0,76.045213,7.010401,6.052184,274.7942,0.339666,2.742864,0.014847,77.078479,...,0.445221,14.340955,1.958267,2.234286,1.758471,0.69558,12.97526,17.691811,7.304285,33.869234
50%,3147600.0,11621.0,100.315682,18.033328,16.113028,401.154898,1.403299,7.496191,0.099404,110.914463,...,2.894453,35.493761,8.262173,8.348095,7.922471,2.617976,31.968505,65.001861,18.988672,60.851837
75%,4119152.0,25232.0,150.063752,34.757053,29.946602,617.772752,4.505223,22.910619,0.571735,166.316113,...,8.264472,88.222568,26.718927,22.131517,26.101545,6.835955,52.327995,183.88349,39.561795,104.66062
max,5222302.0,12038180.0,1328.045223,933.360817,1022.729435,6385.701551,142.242596,917.209223,190.551755,1370.927649,...,107.857544,1730.061327,692.333385,618.420028,4420.551051,92.648824,3516.958022,3353.142675,1304.284753,3147.233157


# Suavização - Log População

Como temos poucas cidades com mais de 2 milhões de habitantes, elas por si só já seriam uma anomalia.
Assim aplicando Log, temos como dimensionar cidades próximas.

In [14]:
import numpy as np

df_per_capita['População'] = np.log(df_per_capita['População'].values)
df_per_capita.head(-15)

Conta,Cod.IBGE,População,01 - Legislativa,02 - Judiciária,03 - Essencial à Justiça,04 - Administração,05 - Defesa Nacional,06 - Segurança Pública,07 - Relações Exteriores,08 - Assistência Social,...,19 - Ciência e Tecnologia,20 - Agricultura,21 - Organização Agrária,22 - Indústria,23 - Comércio e Serviços,24 - Comunicações,25 - Energia,26 - Transporte,27 - Desporto e Lazer,28 - Encargos Especiais
0,1100015,10.146669,85.865398,,,466.992128,,,,27.435594,...,,36.937225,,,17.521155,,,81.723987,16.817626,21.201674
1,1100023,11.570213,60.374111,61.079247,,136.836051,,27.115117,,51.791205,...,,32.127299,,,0.441565,,,0.290908,0.247747,50.989255
2,1100031,8.746557,164.248179,,,599.853781,,,,210.235031,...,,92.996667,,,,,,252.628631,10.928561,
3,1100049,11.383693,74.800041,7.013900,,456.534400,,0.095607,,40.799904,...,,22.954222,,,0.708486,5.057776,,72.089687,21.343768,35.639992
4,1100056,9.795847,116.464353,,,510.775754,,,,106.558636,...,,34.254324,,,,,,154.739756,6.519483,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5433,5220454,11.541970,144.851900,15.009341,,651.930800,,16.886613,,,...,,4.563167,,,6.497672,,,,45.736708,73.099860
5434,5220504,9.016270,202.477604,1.423666,,527.303951,4.383445,9.665239,,205.230608,...,,12.437285,,,68.448355,,,138.852681,,197.256345
5435,5220603,9.921180,126.652549,,,430.815628,,7.815613,,102.175515,...,,12.957507,,11.309423,,,26.656100,72.634636,47.222387,19.549562
5436,5220686,8.833900,112.050404,,,303.245792,,0.062438,,129.711718,...,,116.388126,,,,,,144.182353,40.163321,
