# Reportagem: Execução orçamentária com Cultura pela Prefeitura de Fortaleza entre 2010 a 2022

Este repositório reúne códigos construídos para coleta e análise de dados para a realização da reportagem "[Cultura na gestão Sarto é marcada por recordes negativos de investimentos na área](https://mais.opovo.com.br/reportagens-especiais/2023/04/10/cultura-na-gestao-sarto-e-marcada-por-recordes-negativos-de-investimentos-na-area.html)", publicada no [O POVO+](https://mais.opovo.com.br/) em 10 de abril de 2023 e produzida em parceria com o Vida & Arte, núcleo de Cultura do O POVO.

**ÍNDICE**

1. [Coleta, limpeza e checagem dos dados](#coleta-limpeza-checagem)

    1.1 [Despesas por função](#despesas-funcao)

    1.2 [Despesas por área de atuação](#despesas-area-atuacao)


2. [Análise e visualizações](#analise-e-visualizacoes)

    2.1 [Valor empenhado para a Cultura por ano em Fortaleza-CE, entre 2010 e 2022 e Percentual do valor do orçamento empenhado para o setor cultural em relação às demais funções de governo entre 2010 e 2022](#valor-empenhado-demais-funcoes)

    2.2 [Valor empenhado em Cultura em cada ano (2010-2022) em relação ao que estava previsto na Lei Orçamentária Anual (LOA)](#valor-empenhado-loa)

    2.3 [Valores Empenhados, Liquidados e Pagos para a Cultura, entre 2014 e 2022](#valores-empenhados-liquidados-pagos)

## 1. Coleta, limpeza e checagem dos dados <a name="coleta-limpeza-checagem"></a>

In [None]:
import os
import pandas as pd
import numpy as np

### 1.1 Despesas por função <a name="despesas-funcao"></a>

O código utilizado para coleta, via *Selenium*, está disponível abaixo como comentário. Neste arquivo apenas realizamos a leitura e tratamento dos dados previamente coletados. 

In [None]:
arquivos = 'arquivos/'


Código utilizado para coleta (para saber mais sobre as configurações da biblioteca utilizada, consulte [este link](https://pypi.org/project/selenium/): 


``` python 
import pandas as pd

from selenium.webdriver import Chrome, ChromeOptions, Firefox
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import StaleElementReferenceException
import time 
from selenium.webdriver.firefox.options import Options


for a in range(2010,2023):
    print(a)
    meses = ['dez', 'nov', 'out', 'set', 'ago', 'jul', 'jun', 'mai', 'abr','mar', 'fev', 'jan']
    colunas = ['descrição da despesa','Valor Anual Previsto na LOA','valor mensal empenhado','Valor Acumulado']
    df_ano_mes = []
    for i,m in enumerate(meses):
        print(m)
        url = f'https://transparencia.fortaleza.ce.gov.br/index.php/despesa/exibirDespesasPorFuncao/{a}#tabs-{m}'

        options = Options()
        options.headless = True
        webdriver = Firefox(executable_path='/home/alexandre/bin/geckodriver', options=options)

        webdriver.get(url)
        time.sleep(3)

        table = webdriver.find_elements(By.CLASS_NAME, 'table')[11-i]
        
        rows = table.find_elements(By.TAG_NAME, "tr") 
        cr = 0
        lista_dados = []
        for row in rows[1:]:
            col = row.find_elements(By.TAG_NAME, "td")
            lista_dados.append({
                                'ano':a,
                                'mes':m,
                                colunas[0]:col[0].text,
                                colunas[1]:col[1].text,
                                colunas[2]:col[2].text,
                                colunas[3]:col[3].text,
                                })
        df = pd.DataFrame(lista_dados)

        df_ano_mes.append(df)

        df = pd.concat(df_ano_mes)
        df.to_csv(arquivos + f'df_{a}.csv')
        webdriver.close()
        
```




In [None]:
dict_meses = {'dez':12,
              'nov':11, 
              'out':10,
              'set':9, 
              'ago':8, 
              'jul':7, 
              'jun':6,
              'mai':5,
              'abr':4,
              'mar':3,
              'fev':2,
              'jan':1
             }

In [None]:
pd.options.display.float_format = '{:.2f}'.format

In [None]:
!pip install calculadora_do_cidadao

In [None]:
from calculadora_do_cidadao import Ipca
from datetime import date

In [None]:
ipca = Ipca()

In [None]:
path_scrap = 'web_scrap_selenium'

In [None]:
lista_df = []

for f in os.listdir(path_scrap):
    lista_df.append(pd.read_csv(path_scrap+'/'+f))

wsDf = pd.concat(lista_df)[['ano', 'mes', 'descrição da despesa',
       'Valor Anual Previsto na LOA', 'valor mensal empenhado',
       'Valor Acumulado']]

In [None]:
wsDf['ano/mes'] = wsDf.apply(lambda x: f'{x.mes}/{x.ano}', axis=1)

In [None]:
wsDf['Valor Anual Previsto na LOA'] = wsDf['Valor Anual Previsto na LOA'].str.replace('.', '').str.replace(',', '.').astype(float)
wsDf['valor mensal empenhado'] = wsDf['valor mensal empenhado'].str.replace('.', '').str.replace(',', '.').astype(float)
wsDf['Valor Acumulado'] = wsDf['Valor Acumulado'].str.replace('.', '').str.replace(',', '.').astype(float)

In [None]:
wsDf['dtg'] = wsDf.apply(lambda x: pd.to_datetime(f'{x.ano}-{dict_meses[x.mes]}'), axis=1)

In [None]:
wsDf['valor mensal empenhado corrigido'] = wsDf.apply(lambda x: x['valor mensal empenhado'] * float(ipca.adjust(x['dtg'])), axis=1)
wsDf['valor Acumulado corrigido'] = wsDf.apply(lambda x: x['Valor Acumulado'] * float(ipca.adjust(x['dtg'])), axis=1)

In [None]:
wsDf.loc[wsDf['descrição da despesa'] != 'TOTAIS'][['ano','mes','valor mensal empenhado','valor mensal empenhado corrigido','dtg']]

### 1.2 Despesas por área de atuação <a name="despesas-area-atuacao"></a>

A coleta dos dados foi feita com o webscraper, extensão para browsers. Para saber mais sobre a ferramenta, acesse [este link](https://www.webscraper.io/).

In [None]:
df = pd.read_csv('despesas_por_area_de_atuacao.csv')

In [None]:
funcoes = ['ADMINISTRACAO', 'ASSISTENCIA SOCIAL', 'CIENCIA E TECNOLOGIA', 'COMERCIO E SERVICOS', 'COMUNICACOES',  'CULTURA', 'DESPORTO E LAZER', 'DIREITOS DA CIDADANIA', 'EDUCACAO', 'ENCARGOS ESPECIAIS', 'ENERGIA', 'ESSENCIAL A JUSTICA', 'GESTAO AMBIENTAL', 'HABITACAO', 'JUDICIARIA', 'LEGISLATIVA', 'PREVIDENCIA SOCIAL', 'RESERVA DE CONTINGENCIA', 'SANEAMENTO', 'SAUDE', 'SEGURANCA PUBLICA', 'TRABALHO', 'TRANSPORTE', 'URBANISMO']

In [None]:
df['tipo'] = np.where(df['função / subfunção'].isin(funcoes), 'função', 'subfunção')

In [None]:
df['ano'] = df['web-scraper-start-url'].apply(lambda x: x.split("exercicio=")[1].split("&")[0]) 

In [None]:
df['Dotação Orçamentária'] = df['Dotação Orçamentária'].str.replace('.', '').str.replace(',', '.').astype(float)
df['Valor Empenhado'] = df['Valor Empenhado'].str.replace('.', '').str.replace(',', '.').astype(float)
df['Valor Liquidado'] = df['Valor Liquidado'].str.replace('.', '').str.replace(',', '.').astype(float)
df['Valor Pago'] = df['Valor Pago'].str.replace('.', '').str.replace(',', '.').astype(float)

In [None]:
df['dtg'] = df.ano.apply(lambda x: pd.to_datetime(f'{x}-12-31')) 

In [None]:
df['valor_pago_corrigido'] = df.apply(lambda x: x['Valor Pago'] * float(ipca.adjust(x['dtg'])), axis=1)
df['valor_empenhado_corrigido'] = df.apply(lambda x: x['Valor Empenhado'] * float(ipca.adjust(x['dtg'])), axis=1)
df['valor_liquidado_corrigido'] = df.apply(lambda x: x['Valor Liquidado'] * float(ipca.adjust(x['dtg'])), axis=1)

In [None]:
def getSubfunc(idx_ano):
    cont = idx_ano+1
    while df.iloc[cont].tipo == 'subfunção':
        cont+=1
        return df.iloc[idx_ano+1:cont].copy()

In [None]:
lista_subfuncoes = []
for y in list(df[df['função / subfunção'] == 'CULTURA'].index):
    lista_subfuncoes.append(getSubfunc(y))

In [None]:
subfuncoes_cultura = pd.concat(lista_subfuncoes)

In [None]:
subfuncoes_cultura

## 2. Análise e visualizações <a name="analise-e-visualizacoes"></a>

### 2.1 Valor empenhado para a Cultura por ano em Fortaleza-CE, entre 2010 e 2022 e Percentual do valor do orçamento empenhado para o setor cultural em relação às demais funções de governo entre 2010 e 2022 <a name="valor-empenhado-demais-funcoes"></a>


In [None]:
resumo_cultura_total = wsDf.loc[(wsDf['descrição da despesa'] == 'TOTAIS') | (wsDf['descrição da despesa'] == 'CULTURA')].pivot(index=['ano','mes'], columns ='descrição da despesa', values = 'valor mensal empenhado corrigido').reset_index()

In [None]:
resumo_cultura_total['pct'] = round(resumo_cultura_total['CULTURA']/resumo_cultura_total['TOTAIS']*100,2)

In [None]:
resumo_cultura_total.columns = ['Ano','Mẽs', 'Cultura', 'Todas as funções', 'Pct'] 

In [None]:
resumo_cultura_total

In [None]:
resumo_cultura_total_ano =  wsDf.loc[((wsDf['descrição da despesa'] == 'TOTAIS') | (wsDf['descrição da despesa'] == 'CULTURA')) & (wsDf['mes'] == 'dez')].pivot(index='ano', columns ='descrição da despesa', values = 'valor Acumulado corrigido').reset_index()

In [None]:
resumo_cultura_total_ano['pct'] = round(resumo_cultura_total_ano['CULTURA']/resumo_cultura_total_ano['TOTAIS']*100,2)

In [None]:
resumo_cultura_total_ano.columns = ['Ano', 'Cultura', 'Todas as funções', 'Pct']

In [None]:
resumo_cultura_total_ano

In [None]:
resumo_cultura_total_ano_sem_correcao =  wsDf.loc[((wsDf['descrição da despesa'] == 'TOTAIS') | (wsDf['descrição da despesa'] == 'CULTURA')) & (wsDf['mes'] == 'dez')].pivot(index='ano', columns ='descrição da despesa', values = 'Valor Acumulado').reset_index()

In [None]:
resumo_cultura_total_ano_sem_correcao['pct'] = round(resumo_cultura_total_ano_sem_correcao['CULTURA']/resumo_cultura_total_ano_sem_correcao['TOTAIS']*100,2)
resumo_cultura_total_ano_sem_correcao.columns = ['Ano', 'Cultura _ Sem Correção', 'Todas as funções _ Sem correção', 'Pct  _ Sem correção']

In [None]:
resumo_cultura_total_ano_sem_correcao

In [None]:
pd.merge(resumo_cultura_total_ano_sem_correcao, resumo_cultura_total_ano, on='Ano')

### 2.2 Valor empenhado em Cultura em cada ano (2010-2022) em relação ao que estava previsto na Lei Orçamentária Anual (LOA) <a name="valor-empenhado-loa"></a>

In [None]:
cultura_por_ano = wsDf.loc[(wsDf['descrição da despesa'] == 'CULTURA') &(wsDf['mes']== 'dez')].sort_values(by='ano')
cultura_por_ano['pct']  = round(cultura_por_ano['Valor Acumulado']/cultura_por_ano['Valor Anual Previsto na LOA']*100,2)
cultura_por_ano=cultura_por_ano[['ano','Valor Anual Previsto na LOA','Valor Acumulado','pct']]
cultura_por_ano.columns = ['Ano','Valor previsto na LOA','Valor empenhado no ano','Pct']
cultura_por_ano.to_csv(arquivos + 'valor_anual_previsto_LOA_e_valor_acumulado.csv', index=False)
cultura_por_ano

### 2.3 Valores Empenhados, Liquidados e Pagos para a Cultura, entre 2014 e 2022 <a name="valores-empenhados-liquidados-pagos"></a>
(Valores totais e distribuídos por subfunção)


In [None]:
valores_cultura_soma = subfuncoes_cultura.groupby('ano').sum().round(2)
valores_cultura_soma

In [None]:
valores_cultura = df[df['função / subfunção'] == 'CULTURA'][['ano','Dotação Orçamentária', 'Valor Empenhado','Valor Liquidado',
       'Valor Pago','%(B/A)%','valor_pago_corrigido','valor_empenhado_corrigido','valor_liquidado_corrigido']].sort_values(by='ano')
valores_cultura

In [None]:
# Teste de valores totais para cultura e divididos por subfunção, a cada ano:

valores_cultura_soma.reset_index()['Valor Pago'] == valores_cultura.reset_index()['Valor Pago']

In [None]:
valores_cultura_soma.reset_index()['Valor Liquidado'] == valores_cultura.reset_index()['Valor Liquidado']

In [None]:
valores_cultura_soma.reset_index()['Valor Empenhado'] == valores_cultura.reset_index()['Valor Empenhado']

In [None]:
valores_cultura_soma.reset_index()['Valor Pago'] == valores_cultura.reset_index()['Valor Pago']

In [None]:
colunas = ['ano','Dotação Orçamentária', 'Valor Empenhado', 'Valor Liquidado', 'Valor Pago','função / subfunção','valor_pago_corrigido','valor_empenhado_corrigido','valor_liquidado_corrigido']

todas = df[df['função / subfunção'] == 'CULTURA'][colunas].copy().sort_values(by='ano')
todas['função / subfunção'] = 'Todas'

pd.concat([todas,subfuncoes_cultura[colunas]]).to_csv(arquivos + 'gastos_cultura_por_subfuncao.csv', index=False)


pd.concat([todas,subfuncoes_cultura[colunas]])

In [None]:
resumo_por_subfuncao =  subfuncoes_cultura[colunas].copy()

resumo_por_subfuncao.loc[(resumo_por_subfuncao['função / subfunção'] != 'ADMINISTRACAO GERAL') & (resumo_por_subfuncao['função / subfunção'] != 'DIFUSAO CULTURAL'),'função / subfunção'] = 'Outras'

resumo_por_subfuncao = resumo_por_subfuncao.groupby(['ano','função / subfunção']).sum().reset_index().pivot(index='ano', columns='função / subfunção', values='valor_pago_corrigido').fillna(0).reset_index()

In [None]:
resumo_por_subfuncao

In [None]:
resumo_por_subfuncao.to_csv(arquivos + 'resumo_por_subfuncao.csv', index=False)

In [None]:
resumo_por_subfuncao_v2 =  subfuncoes_cultura[colunas].copy()

resumo_por_subfuncao_v2 = resumo_por_subfuncao_v2.groupby(['ano','função / subfunção']).sum().reset_index().pivot(index='ano', columns='função / subfunção', values='valor_pago_corrigido').fillna(0).reset_index()

In [None]:
resumo_por_subfuncao_v2.to_csv(arquivos + 'resumo_por_subfuncao_v2.csv', index=False)

In [None]:
resumo_por_subfuncao_v2