### Importações e dicionários

In [122]:
import pandas as pd
import numpy as np
import os, sys
import datetime as dt
import psycopg2
import re
from glob import glob
pd.set_option('display.float_format', '{:,.2f}'.format)

In [123]:
def ConsultaSQL(sql, conf):
    conn = psycopg2.connect(conf)
    try:
        cursor = conn.cursor()
        cursor.execute(sql)
        colnames = []
        colnames = [desc[0] for desc in cursor.description]
        linhas = cursor.fetchall()
        conn.commit()
        cursor.close()
        conn.close()

    except(Exception, psycopg2.DatabaseError) as error:
        print(error)
    finally:
        if conn is not None:
            conn.close()
    df = pd.DataFrame(data = linhas, columns=colnames)
    #df.columns = colnames
    #df.append(linhas) 
    return df

def ConsultarBanco(caminho, conf):
    with open(caminho, 'r') as arquivo:
        consulta_sql = arquivo.read()
        consulta_sql = re.sub(r'[\ufeff]', '', consulta_sql)
        nome_arquivo = os.path.splitext(os.path.basename(caminho))[0]
        print(nome_arquivo)
    return(ConsultaSQL(consulta_sql, conf))

### Ler base

In [124]:
df = pd.read_parquet('./Base/base2010a2023corrigida_filtrada_materialidade 2025.03.01.parquet')

In [125]:
df

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge
0,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0100,6073317.27,3500105.00
1,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0300,2313660.01,3500105.00
2,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0400,592488.71,3500105.00
3,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1101,19430054.94,3500105.00
4,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1137,859.22,3500105.00
...,...,...,...,...,...,...
474427,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,5199,424122.54,3533809.00
474428,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,5200,957348.57,3533809.00
474429,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,9100,223698.24,3533809.00
474430,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,9300,69756.07,3533809.00


In [126]:
df.cd_municipio_ibge = df.cd_municipio_ibge.astype(int)

In [127]:
df.value_counts('ano_exercicio')

ano_exercicio
2023    38483
2022    38334
2021    36736
2020    35983
2019    34476
2018    33747
2017    33310
2014    32927
2015    32875
2016    32611
2013    32535
2012    30988
2011    30945
2010    30482
Name: count, dtype: int64

### Incluir População
https://repositorio.seade.gov.br/dataset/populacao-residente-estado-de-sao-paulo/resource/54a6f188-ee81-4dc1-bbc4-07353fe06b04

In [128]:
pop = pd.read_csv('./Base/serie_populacao2000a2023.csv', sep=';', encoding='ansi')
pop.rename(columns={'ano':'ano_exercicio', 'cod_ibge':'cd_municipio_ibge'}, inplace=True)

In [129]:
pop[['cd_municipio_ibge', 'ano_exercicio', 'pop_total']]

Unnamed: 0,cd_municipio_ibge,ano_exercicio,pop_total
0,3500105.00,2000.00,33484.00
1,3500105.00,2001.00,33577.00
2,3500105.00,2002.00,33636.00
3,3500105.00,2003.00,33677.00
4,3500105.00,2004.00,33715.00
...,...,...,...
15476,3557303.00,2020.00,11116.00
15477,3557303.00,2021.00,11200.00
15478,3557303.00,2022.00,11286.00
15479,3557303.00,2023.00,11359.00


In [130]:
len(df.index) == len(df.merge(pop[['cd_municipio_ibge', 'ano_exercicio', 'pop_total']], how='left'))

True

In [131]:
df = df.merge(pop[['cd_municipio_ibge', 'ano_exercicio', 'pop_total']], how='left')

In [132]:
df.isna().any()

ano_exercicio        False
ds_municipio         False
ds_orgao             False
cod_subelemento      False
vl_despesa           False
cd_municipio_ibge    False
pop_total            False
dtype: bool

In [133]:
df.dtypes

ano_exercicio          int64
ds_municipio          object
ds_orgao              object
cod_subelemento       object
vl_despesa           float64
cd_municipio_ibge      int32
pop_total            float64
dtype: object

In [134]:
df.sample(5)

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total
385050,2021,Piquerobi,PREFEITURA MUNICIPAL DE PIQUEROBI,3990,142923.97,3538303,3294.0
82193,2012,Pirapora do Bom Jesus,PREFEITURA MUNICIPAL DE PIRAPORA DO BOM JESUS,4300,86112.86,3539103,16082.0
317115,2019,Salesópolis,PREFEITURA MUNICIPAL DE SALESOPOLIS,3990,51848.28,3545001,15375.0
462168,2023,Pompéia,PREFEITURA MUNICIPAL DE POMPÉIA,2100,2301787.41,3540002,20154.0
231549,2017,Elisiário,PREFEITURA MUNICIPAL DE ELISIÁRIO,7100,603026.83,3514924,3168.0


### Incluir RCL

In [135]:
conf = 'dbname=audesp user=usr_leitura host=10.26.254.74'
caminho = './SQL/RCL.sql'
rcl = ConsultarBanco(caminho, conf)

RCL


OperationalError: connection to server at "10.26.254.74", port 5432 failed: Connection timed out (0x0000274C/10060)
	Is the server running on that host and accepting TCP/IP connections?


In [None]:
rcl.rename(columns={'ano':'ano_exercicio', 'cod_ibge':'cd_municipio_ibge'}, inplace=True)

In [None]:
rcl.value_counts('ano_exercicio')

ano_exercicio
2010    644
2011    644
2012    644
2013    644
2014    644
2015    644
2016    644
2017    644
2018    644
2019    644
2020    644
2021    644
2022    644
2023    644
Name: count, dtype: int64

In [None]:
len(df.index) ==len(df.merge(rcl, how='left'))

True

In [None]:
df = df.merge(rcl, how='left')

In [None]:
df.sample(5)

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total,RCL
412217,2022,Itaoca,PREFEITURA MUNICIPAL DE ITAOCA,3200,216564.14,3522158,3421.0,24314263.24
294879,2019,Buritama,PREFEITURA MUNICIPAL DE BURITAMA,5199,2358283.47,3508108,16932.0,66918653.28
75370,2012,Junqueirópolis,PREFEITURA MUNICIPAL DE JUNQUEIRÓPOLIS,3988,47426.47,3526001,19036.0,40204421.33
340307,2020,Jaguariúna,PREFEITURA MUNICIPAL DE JAGUARIÚNA,3923,4691.7,3524709,57043.0,392472470.05
371173,2021,Garça,PREFEITURA MUNICIPAL DE GARÇA,400,5288499.96,3516705,42382.0,166362539.53


### Incluir dados atemporais

In [None]:
atemporais = pd.read_excel('./Base/informacoes_municipios.xlsx')

In [None]:
atemporais.head()

Unnamed: 0,cod_ibge,Município,pib_nominal,atividade_principal,quantidade_total_vagas,vereadores,area,alunos_escola
0,3500105,adamantina,1054541,Demais serviços,2002,9,411,2359
1,3500204,adolfo,99734,"Agricultura, inclusive apoio à agricultura e a...",458,9,211,478
2,3500303,aguaí,942708,Demais serviços,1471,13,474,3489
3,3500709,agudos,2063021,Indústrias de transformação,2573,13,966,4062
4,3500758,alambari,100566,Demais serviços,409,9,159,683


In [None]:
atemporais = atemporais.rename(columns={'cod_ibge':'cd_municipio_ibge'})

In [None]:
len(df.index)

474432

In [None]:
df.head()

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total,RCL
0,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,100,6073317.27,3500105,33794.0,69138047.59
1,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,300,2313660.01,3500105,33794.0,69138047.59
2,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,400,592488.71,3500105,33794.0,69138047.59
3,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1101,19430054.94,3500105,33794.0,69138047.59
4,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1137,859.22,3500105,33794.0,69138047.59


In [None]:
atemporais

Unnamed: 0,cd_municipio_ibge,Município,pib_nominal,atividade_principal,quantidade_total_vagas,vereadores,area,alunos_escola
0,3500105,adamantina,1054541,Demais serviços,2002,9,411,2359
1,3500204,adolfo,99734,"Agricultura, inclusive apoio à agricultura e a...",458,9,211,478
2,3500303,aguaí,942708,Demais serviços,1471,13,474,3489
3,3500709,agudos,2063021,Indústrias de transformação,2573,13,966,4062
4,3500758,alambari,100566,Demais serviços,409,9,159,683
...,...,...,...,...,...,...,...,...
639,3500600,águas de são pedro,125145,Demais serviços,510,9,3,598
640,3501202,álvares florence,105910,"Agricultura, inclusive apoio à agricultura e a...",509,9,362,381
641,3501301,álvares machado,509445,Demais serviços,917,9,347,3081
642,3501400,álvaro de carvalho,49483,"Administração, defesa, educação e saúde públic...",245,9,153,371


In [None]:
len(df.index)==len(df.merge(atemporais, how='left').index)

True

In [None]:
df.merge(atemporais, how='left').isna().any()

ano_exercicio             False
ds_municipio              False
ds_orgao                  False
cod_subelemento           False
vl_despesa                False
cd_municipio_ibge         False
pop_total                 False
RCL                       False
Município                 False
pib_nominal               False
atividade_principal       False
quantidade_total_vagas    False
vereadores                False
area                      False
alunos_escola             False
dtype: bool

In [None]:
df = df.merge(atemporais, how='left')

In [None]:
df.sample(5)

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total,RCL,Município,pib_nominal,atividade_principal,quantidade_total_vagas,vereadores,area,alunos_escola
55903,2011,Santo Antônio do Jardim,PREFEITURA MUNICIPAL DE SANTO ANTONIO DO JARDIM,3039,750610.64,3548104,5961.0,11617772.49,santo antônio do jardim,137159,Demais serviços,391,9,109,557
289362,2018,Valparaíso,PREFEITURA MUNICIPAL DE VALPARAÍSO,3910,36168.54,3556305,23903.0,82852966.74,valparaíso,989934,Indústrias de transformação,1164,11,857,2540
391387,2021,Sarapuí,PREFEITURA MUNICIPAL DE SARAPUÍ,3917,12088.27,3551108,10276.0,38765594.43,sarapuí,150274,Demais serviços,588,9,352,1241
305079,2019,Jacareí,PREFEITURA MUNICIPAL DE JACAREÍ,9200,3481538.92,3524402,234877.0,822353396.39,jacareí,11696354,Indústrias de transformação,8382,13,464,18245
462164,2023,Pompéia,PREFEITURA MUNICIPAL DE POMPÉIA,1199,2837251.46,3540002,20154.0,145090372.83,pompéia,825898,Demais serviços,1673,11,784,1715


### Incluir PIB

In [None]:
pib = pd.read_parquet('./Base/Pib Municipal forecast 2022 e 2023.parquet')

In [None]:
pib = pib.rename(columns={'Exercício':'ano_exercicio', 'cod_municipio_ibge':'cd_municipio_ibge'}).drop('Municípios', axis=1)

In [None]:
df.head()

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total,RCL,Município,pib_nominal,atividade_principal,quantidade_total_vagas,vereadores,area,alunos_escola
0,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,100,6073317.27,3500105,33794.0,69138047.59,adamantina,1054541,Demais serviços,2002,9,411,2359
1,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,300,2313660.01,3500105,33794.0,69138047.59,adamantina,1054541,Demais serviços,2002,9,411,2359
2,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,400,592488.71,3500105,33794.0,69138047.59,adamantina,1054541,Demais serviços,2002,9,411,2359
3,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1101,19430054.94,3500105,33794.0,69138047.59,adamantina,1054541,Demais serviços,2002,9,411,2359
4,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1137,859.22,3500105,33794.0,69138047.59,adamantina,1054541,Demais serviços,2002,9,411,2359


In [None]:
pib.head()

Unnamed: 0,ano_exercicio,cd_municipio_ibge,Agropecuária,Indústria,Administração Pública,Total (exclusive Administração Pública),Total geral,Impostos,PIB (1),PIB per Capita (2)
0,2021,3500105,54224.14,178323.41,228217.17,785582.03,1246346.76,124519.17,1370865.93,40475.54
1,2021,3500204,22826.15,17782.94,27140.21,42622.33,110371.62,5118.37,115489.99,33611.75
2,2021,3500303,121795.92,358840.73,151739.51,437984.53,1070360.69,244376.57,1314737.26,36637.52
3,2021,3500402,25096.38,25550.8,36922.72,106278.69,193848.59,15155.41,209003.99,26771.36
4,2021,3500501,10298.97,41438.68,114950.72,372529.72,539218.08,46385.86,585603.94,31760.71


In [None]:
df.merge(pib, how='left')

Unnamed: 0,ano_exercicio,ds_municipio,ds_orgao,cod_subelemento,vl_despesa,cd_municipio_ibge,pop_total,RCL,Município,pib_nominal,...,area,alunos_escola,Agropecuária,Indústria,Administração Pública,Total (exclusive Administração Pública),Total geral,Impostos,PIB (1),PIB per Capita (2)
0,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0100,6073317.27,3500105,33794.00,69138047.59,adamantina,1054541,...,411,2359,33606.84,113294.52,92451.64,346461.65,585814.65,53275.85,639090.51,18911.36
1,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0300,2313660.01,3500105,33794.00,69138047.59,adamantina,1054541,...,411,2359,33606.84,113294.52,92451.64,346461.65,585814.65,53275.85,639090.51,18911.36
2,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,0400,592488.71,3500105,33794.00,69138047.59,adamantina,1054541,...,411,2359,33606.84,113294.52,92451.64,346461.65,585814.65,53275.85,639090.51,18911.36
3,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1101,19430054.94,3500105,33794.00,69138047.59,adamantina,1054541,...,411,2359,33606.84,113294.52,92451.64,346461.65,585814.65,53275.85,639090.51,18911.36
4,2010,Adamantina,PREFEITURA MUNICIPAL DE ADAMANTINA,1137,859.22,3500105,33794.00,69138047.59,adamantina,1054541,...,411,2359,33606.84,113294.52,92451.64,346461.65,585814.65,53275.85,639090.51,18911.36
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
474427,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,5199,424122.54,3533809,2490.00,24890330.62,óleo,88221,...,198,294,89447.04,6434.24,19302.47,24310.45,139494.21,2943.62,142437.83,56498.91
474428,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,5200,957348.57,3533809,2490.00,24890330.62,óleo,88221,...,198,294,89447.04,6434.24,19302.47,24310.45,139494.21,2943.62,142437.83,56498.91
474429,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,9100,223698.24,3533809,2490.00,24890330.62,óleo,88221,...,198,294,89447.04,6434.24,19302.47,24310.45,139494.21,2943.62,142437.83,56498.91
474430,2023,Óleo,PREFEITURA MUNICIPAL DE ÓLEO,9300,69756.07,3533809,2490.00,24890330.62,óleo,88221,...,198,294,89447.04,6434.24,19302.47,24310.45,139494.21,2943.62,142437.83,56498.91


In [None]:
len(df.index)==len(df.merge(pib, how='left').index)

True

In [None]:
df = df.merge(pib, how='left')

### Incluir Quadro de pessoal

In [None]:
quadro = pd.read_parquet('./Base/quadro_pessoal.parquet')

In [None]:
quadro.head()

Exercício de Atividade,cd_municipio_ibge,ano_exercicio,Efetivo,Efetivo em Comissão,Exclusivamente em Comissão
0,3500105,2016,929.0,,47.0
1,3500105,2017,939.0,,59.0
2,3500105,2018,964.0,,52.0
3,3500105,2019,1050.0,,31.0
4,3500105,2020,1064.0,,33.0


In [None]:
len(df.index)==len(df.merge(quadro, how='left'))

True

In [None]:
df = df.merge(quadro, how='left')

### Incluir dados do censo escolar

In [140]:
censo = pd.read_parquet('./Base/censo2010_2023.parquet')

In [137]:
censo.head()

Unnamed: 0,ano_exercicio,cd_municipio_ibge,QT_MAT_BAS,QT_MAT_INF,QT_MAT_FUND,QT_DOC_BAS,QT_DOC_INF,QT_DOC_FUND
0,2010,3500105,2559.0,947.0,1564.0,157.0,62.0,94.0
1,2010,3500204,530.0,33.0,497.0,34.0,2.0,32.0
2,2010,3500303,4190.0,885.0,2693.0,203.0,43.0,139.0
3,2010,3500402,629.0,164.0,450.0,41.0,11.0,30.0
4,2010,3500501,2388.0,720.0,1572.0,141.0,47.0,88.0


In [141]:
censo.loc[censo.ano_exercicio ==2020]

Unnamed: 0,ano_exercicio,cd_municipio_ibge,QT_MAT_BAS,QT_MAT_INF,QT_MAT_FUND,QT_DOC_BAS,QT_DOC_INF,QT_DOC_FUND
6450,2020,3500105,2380.00,1086.00,1272.00,164.00,74.00,89.00
6451,2020,3500204,611.00,115.00,496.00,49.00,9.00,40.00
6452,2020,3500303,4010.00,1283.00,2551.00,230.00,77.00,150.00
6453,2020,3500402,642.00,267.00,375.00,53.00,31.00,27.00
6454,2020,3500501,2331.00,794.00,1458.00,200.00,93.00,107.00
...,...,...,...,...,...,...,...,...
7090,2020,3557006,12511.00,5476.00,6997.00,490.00,207.00,298.00
7091,2020,3557105,8020.00,3675.00,4326.00,443.00,187.00,255.00
7092,2020,3557154,294.00,113.00,181.00,18.00,6.00,12.00
7093,2020,3557204,1451.00,513.00,938.00,125.00,51.00,77.00


In [144]:
censo.columns

Index(['ano_exercicio', 'cd_municipio_ibge', 'QT_MAT_BAS', 'QT_MAT_INF',
       'QT_MAT_FUND', 'QT_DOC_BAS', 'QT_DOC_INF', 'QT_DOC_FUND'],
      dtype='object')

In [151]:
len(df.merge(censo, how='left'))==len(df.index)

True

In [None]:
df = df.merge(censo, how='left')

### Incluir Receitas

In [157]:
receitas = pd.read_parquet('./Base/Receitas_2010a2023.parquet')

In [161]:
receitas.columns

Index(['ano_exercicio', 'receitas_correntes', 'receitas_capital',
       'receita_total', 'cd_municipio_ibge'],
      dtype='object')

In [159]:
len(df.index)==len(df.merge(receitas, how='left'))

True

In [160]:
df = df.merge(receitas, how='left')

### Incluir leitos hospitalares

In [168]:
df = pd.read_parquet('./Base/base_pronta_2023 2025.03.03.parquet')

In [169]:
leitos = pd.read_excel('./Base/saude_leitos_mun_ano.xlsx')

In [177]:
leitos.columns

Index(['cod_ibge', 'localidades', 'periodos', 'leitos_total', 'leitos_hab',
       'leitos sus', 'leitos_sus_hab', 'leitos não sus', 'leitos_naosus_hab'],
      dtype='object')

In [174]:
len(df.index)==len(df.merge(leitos.rename(columns={'cod_ibge':'cd_municipio_ibge', 
                                                   'periodos':'ano_exercicio'}).drop(columns='localidades'), how='left'))

True

In [175]:
df = df.merge(leitos.rename(columns={'cod_ibge':'cd_municipio_ibge', 
                                     'periodos':'ano_exercicio'}).drop(columns='localidades'), how='left')

In [182]:
colunas = ['leitos_total', 'leitos_hab', 'leitos sus', 'leitos_sus_hab', 'leitos não sus', 'leitos_naosus_hab']
df[colunas] = df[colunas].fillna(0)

### Salvar base pronta

In [178]:
cols = ['ano_exercicio', 'cd_municipio_ibge', 'ds_municipio', 'cod_subelemento',
       'vl_despesa', 'pop_total', 'RCL', 'pib_nominal', 'atividade_principal', 
       'quantidade_total_vagas', 'vereadores', 'area', 'alunos_escola', 'Agropecuária', 
       'Indústria', 'Administração Pública', 'Total  (exclusive Administração Pública)',
       'Total geral', 'Impostos', 'PIB (1)', 'PIB per Capita (2)', 'Efetivo',
       'Efetivo em Comissão', 'Exclusivamente em Comissão', 'QT_MAT_BAS',
       'QT_MAT_INF', 'QT_MAT_FUND', 'QT_DOC_BAS', 'QT_DOC_INF', 'QT_DOC_FUND', 
       'receitas_correntes', 'receitas_capital', 'receita_total',
       'leitos_total', 'leitos_hab', 'leitos sus', 'leitos_sus_hab', 'leitos não sus', 'leitos_naosus_hab']

In [183]:
df[cols].isna().any()

ano_exercicio                               False
cd_municipio_ibge                           False
ds_municipio                                False
cod_subelemento                             False
vl_despesa                                  False
pop_total                                   False
RCL                                         False
pib_nominal                                 False
atividade_principal                         False
quantidade_total_vagas                      False
vereadores                                  False
area                                        False
alunos_escola                               False
Agropecuária                                False
Indústria                                   False
Administração Pública                       False
Total  (exclusive Administração Pública)    False
Total geral                                 False
Impostos                                    False
PIB (1)                                     False


In [184]:
from datetime import datetime

# Obter a data atual no formato AAAA.MM.DD
hoje = datetime.today().strftime('%Y.%m.%d')

In [185]:
df[cols].to_parquet(f'./Base/base_pronta_2023 {hoje}.parquet', index=False)