In [1]:
import pandas as pd

In [2]:
pd.set_option('display.max_columns', None)

Abrindo os dados e arrumando a coluna de metas, em seguida checando os datatypes

In [3]:
dados_final = 'orcamento_limpo_final_3.xlsx'
df = pd.read_excel(dados_final)

In [4]:
def arrumar_num_meta(item):
    
    item = str(item)

    antes, depois = item.split('.')
    
    if int(depois)>0:
        return f'{antes}.{depois}'
    else:
        return antes

In [5]:
df['meta'] = df['meta'].apply(arrumar_num_meta)

In [6]:
df.dtypes

Unnamed: 0                            int64
Objetivo Estratégico Atualizado      object
secretaria                           object
meta                                 object
IN                                   object
Item                                 object
Custeio/\nInvestimento               object
Código Ação                          object
Unidade Orçamentária                 object
Ação                                 object
Fonte                                object
classif.                             object
V. Atualizado                       float64
V. Congelado                        float64
V. Disponível                       float64
Atualizado (Disponibilizado PDM)    float64
Congelado (Dispon. PDM)             float64
Disponível (Dispon. PDM)            float64
Custo 2021                          float64
Custo 2022                          float64
Custo 2023                          float64
Custo 2024                          float64
Custo TOTAL                     

Veio uma coluna a mais que deve ser o index, vou deletar ela abaixo

In [7]:
df.drop('Unnamed: 0', axis = 1, inplace = True)

Abaixo exploro a classificação das linhas. Há tanto itens de execução como contrapartida.

In [8]:
df['classif.'].unique()

array(['execução', 'contrapartida'], dtype=object)

In [9]:
linhas_contrapartidas = df['classif.']=='contrapartida'

In [10]:
contrapartidas = df[linhas_contrapartidas].copy()

In [11]:
contrapartidas['Custo TOTAL'].sum()

220345922.33071828

In [12]:
contrapartidas[contrapartidas['Custo TOTAL']>0]

Unnamed: 0,Objetivo Estratégico Atualizado,secretaria,meta,IN,Item,Custeio/\nInvestimento,Código Ação,Unidade Orçamentária,Ação,Fonte,classif.,V. Atualizado,V. Congelado,V. Disponível,Atualizado (Disponibilizado PDM),Congelado (Dispon. PDM),Disponível (Dispon. PDM),Custo 2021,Custo 2022,Custo 2023,Custo 2024,Custo TOTAL
3,Garantir à população atendimento integral em s...,SMS,3.1,a,2,Investimento,84.11.9204.00,84.11,9204,0,contrapartida,80002000.0,2000.0,80000000.0,,,,27640350.0,57390740.0,8321799.61,993968.93,94346860.0
497,Garantir à população atendimento integral em s...,SMS,3.2,A,2,investimento,84.11.9204.01,84.11,9204,1,contrapartida,,0.0,223111204.0,,,,82413380.0,37851690.0,1999785.13,0.0,122264900.0
499,Garantir à população atendimento integral em s...,SMS,3.2,B,2,investimento,84.11.9204.01,84.11,9204,1,contrapartida,223111204.0,0.0,223111204.0,,,,2238387.0,1495822.0,0.0,0.0,3734209.0


Como há linhas de contrapartida que possuem valores para as colunas de custo, decidi removê-las do cálculo.

In [13]:
df = df[~linhas_contrapartidas].copy()

In [14]:
df['classif.'].unique()

array(['execução'], dtype=object)

Agora checamos para ver se há algum objetivo estratégico sem informação.

Como veremos, faltou informar para uma meta, o que faço manualmente abaixo.

In [15]:
df[df['Objetivo Estratégico Atualizado'].isnull()]

Unnamed: 0,Objetivo Estratégico Atualizado,secretaria,meta,IN,Item,Custeio/\nInvestimento,Código Ação,Unidade Orçamentária,Ação,Fonte,classif.,V. Atualizado,V. Congelado,V. Disponível,Atualizado (Disponibilizado PDM),Congelado (Dispon. PDM),Disponível (Dispon. PDM),Custo 2021,Custo 2022,Custo 2023,Custo 2024,Custo TOTAL
5,,SMS,5.1,c,1,Custeio,84.28.2509.00,84.28,2509,0,execução,5805541.0,1000.0,5804541.0,,,,464000.0,144000.0,144000.0,144000.0,896000.0
6,,SMS,5.1,c,2,Custeio,84.28.2509.00,84.28,2509,0,execução,5805541.0,1000.0,5804541.0,,,,122815.0,38115.0,38115.0,38115.0,237160.0
7,,SMS,5.1,c,3,Custeio,84.28.2509.00,84.28,2509,0,execução,5805541.0,1000.0,5804541.0,,,,100796.4,,,,100796.4
8,,SMS,5.1,d,1,Custeio,84.22.2818.00,84.22,2818,0,execução,315750.0,0.0,315750.0,,,,416520.0,138840.0,138840.0,138840.0,833040.0
9,,SMS,5.1,d,2,Custeio,84.22.2818.00,84.22,2818,0,execução,315750.0,0.0,315750.0,,,,23395.32,7798.44,7798.44,7798.44,46790.64


In [16]:
objetivo_meta_5_1 = ('Garantir a proteção integral e o pleno desenvolvimento para crianças de 0 a 6 anos de idade.')

df['Objetivo Estratégico Atualizado'].fillna(objetivo_meta_5_1,
                                            inplace = True)

In [17]:
df['Objetivo Estratégico Atualizado'].isnull().sum()

0

Abaixo checamos se há alguma linha sem informação da meta. Como vemos, não há

In [18]:
df['meta'].isnull().sum()

0

Agora vou identificar se o custo total está batendo

In [19]:
def somar_custos(row):
    
    anos = ['Custo '+ str(i) for i in range(2021, 2025)]
    
    soma = 0
    for col in anos:
        val = row[col]
        if pd.isnull(val):
            val = 0
        soma+=val
    
    return soma

In [20]:
df['soma_custo_total_H'] = df.apply(somar_custos, axis = 1)

In [21]:
df['dif_custo_total'] = df['Custo TOTAL'] - df['soma_custo_total_H']

In [22]:
tem_dif = df[df['dif_custo_total']>0].copy()

In [23]:
len(tem_dif)

18

In [24]:
tem_dif

Unnamed: 0,Objetivo Estratégico Atualizado,secretaria,meta,IN,Item,Custeio/\nInvestimento,Código Ação,Unidade Orçamentária,Ação,Fonte,classif.,V. Atualizado,V. Congelado,V. Disponível,Atualizado (Disponibilizado PDM),Congelado (Dispon. PDM),Disponível (Dispon. PDM),Custo 2021,Custo 2022,Custo 2023,Custo 2024,Custo TOTAL,soma_custo_total_H,dif_custo_total
18,"Promover o acesso à moradia, à urbanização e à...",SEHAB,11,A/B,"1, 2 / 1,2",Investimento,XX..X.X.XX.XX,XX.,X,X,execução,,,,231131700.0,130581300.0,100550400.0,232693500.0,1104151000.0,986881700.0,880453700.0,3204180000.0,3204180000.0,4.768372e-07
72,Promover a inclusão e a melhoria na qualidade ...,SMPED,19,A,6,custeio,36.10.5407.00,36.10,5407,00,execução,2870000.0,0.0,2870000.0,0.0,0.0,0.0,0.0,81154.35,40577.18,44634.89,166366.4,166366.4,2.910383e-11
129,Ampliar a capacidade de monitoramento em segur...,SMSU,27,C,2,Custeio,38.10.2192.00,38.10,2192,00,execução,30471664.0,3000.0,30468664.0,8000000.0,0.0,8000000.0,6490131.0,8289150.0,8721825.0,9131728.0,32632830.0,32632830.0,3.72529e-09
136,"Ampliar a resiliência da cidade às chuvas, red...",SIURB,30,E,1,Custeio,xx..x.x.xx.xx,xx.,x,x,execução,0.0,0.0,0.0,108955300.0,4899380.0,104055900.0,109751500.0,109751500.0,109751500.0,109751500.0,439006200.0,439006200.0,0.01999998
145,Garantir a qualidade e segurança das vias públ...,SMSUB,33,A,3,Custeio,12.10.2340.00,12.10,2340,00,execução,111335013.0,0.0,111335013.0,0.0,0.0,,162455400.0,178700900.0,196571000.0,216228100.0,753955500.0,753955500.0,1.192093e-07
150,Garantir a qualidade e segurança das vias públ...,SIURB,35,C,3,Investimento,98.22.5287.08,98.22,5287,08,execução,8244700.0,8244700.0,0.0,8244700.0,8244700.0,0.0,443022.0,324882.8,317499.1,310115.4,1395519.0,1395519.0,2.328306e-10
250,Estimular a mobilidade ativa de maneira segura...,SMT; SMPED,39,c,22,Custeio,98.20.3757.08,98.20,3757,08,execução,18150000.0,18150000.0,0.0,44850.0,44850.0,0.0,44850.0,44850.0,942048.0,942048.0,1973796.0,1973796.0,0.01
261,Estimular a mobilidade ativa de maneira segura...,SMT,41,a,10,Investimento,98.20.1097.08,98.20,1097,08,execução,30546000.0,30546000.0,0.0,0.0,0.0,0.0,0.0,10816780.0,12619580.0,12619580.0,36055950.0,36055950.0,7.450581e-09
262,Estimular a mobilidade ativa de maneira segura...,SMT,41,a,11,Custeio,98.20.1097.08,98.20,1097,08,execução,30546000.0,30546000.0,0.0,0.0,0.0,0.0,0.0,1384419.0,1615155.0,1615155.0,4614729.0,4614729.0,0.01
264,Garantir o acesso ao Sistema Municipal de Tran...,SMT,42,d,1,Investimento,20.10.1095.00,20.10,1095,00,execução,1000.0,1000.0,0.0,0.0,0.0,0.0,,,,,6000000.0,0.0,6000000.0


Como vimos, há alguns casos em que o custo não bate, vou salvar eles abaixo para controle.

In [25]:
tem_dif.to_excel('items_orcamento_custo_total_nao_bate_2.xlsx')

Como pode ser uma questão metodológica das secretarias, continuar usando a coluna original.

Apenas vou preencher os valores nulos para não dar erro (com zero, no caso).

In [26]:
df['Custo TOTAL'].isnull().sum()

2

In [27]:
df['custo_total'] = df['Custo TOTAL'].fillna(0)
df['custo_total_2021'] = df['Custo 2021'].fillna(0)
df['custo_total_2022'] = df['Custo 2022'].fillna(0)
df['custo_total_2023'] = df['Custo 2023'].fillna(0)
df['custo_total_2024'] = df['Custo 2024'].fillna(0)

In [28]:
colunas_custos = [
    'custo_total_2021',
    'custo_total_2022',
    'custo_total_2023',
    'custo_total_2024',
    'custo_total'
]

Agora vou fazer os dois agrupamentos

In [29]:
por_objetivo = df.groupby('Objetivo Estratégico Atualizado').sum()[colunas_custos]

In [30]:
por_meta = df.groupby('meta').sum()[colunas_custos]

In [31]:
por_objetivo.head()

Unnamed: 0_level_0,custo_total_2021,custo_total_2022,custo_total_2023,custo_total_2024,custo_total
Objetivo Estratégico Atualizado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ampliar a capacidade de monitoramento em segurança urbana e a cobertura das ações protetivas destinadas às vítimas de violência na Cidade de São Paulo.,22930490.0,41422830.0,62306600.0,98683080.0,225343000.0
"Ampliar a resiliência da cidade às chuvas, reduzindo as áreas inundáveis e mitigando os prejuízos causados à população.",974907800.0,953372200.0,893665800.0,735370400.0,3557316000.0
Ampliar o respeito à diversidade e fomentar a igualdade de oportunidades.,24825760.0,19504420.0,20687230.0,24482040.0,89499460.0
"Assegurar o acesso à internet como direito fundamental, promover a inclusão digital e a expansão da economia criativa na cidade.",600735.3,900735.3,900735.3,600735.3,101500000.0
"Atingir grau de excelência em segurança viária, com foco na diminuição do número de acidentes e de vítimas fatais no trânsito.",26629480.0,162101000.0,231809200.0,159742100.0,580281700.0


In [32]:
por_meta.head()

Unnamed: 0_level_0,custo_total_2021,custo_total_2022,custo_total_2023,custo_total_2024,custo_total
meta,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10,642567200.0,1695373000.0,1567173000.0,1720243000.0,5625356000.0
11,233813500.0,1105271000.0,988001700.0,881573700.0,3208660000.0
12,166014800.0,154013100.0,106204700.0,106204700.0,532437300.0
14,3976540.0,11965400.0,12351400.0,12689800.0,40983140.0
15,2396800.0,17935000.0,27177600.0,31238400.0,78747800.0


In [33]:
por_objetivo.to_excel('custos_totais_por_objetivo_3.xlsx')
por_meta.to_excel('custos_totais_por_meta_3.xlsx')