# GT Educação

O GT Educação enviou uma série de formulários com indicadores desejados para o painel. A maioria desses indicadores estão disponíveis no Portal de Dados Abertos da Prefeitura de São Paulo (http://dados.prefeitura.sp.gov.br/).

Portanto, vamos carregar o módulo de downloads do portal de dados abertos.

In [1]:
import os
import pandas as pd
from xlrd import xldate
from unidecode import unidecode
from dotenv import load_dotenv
import requests, zipfile
from io import BytesIO

from core.downloads import dadosabertos as da
from core.downloads import geosampa as gs

In [2]:
load_dotenv()

True

# Extração e transformação inicial

## Número de alunos da Rede Municipal de Ensino

O primeiro indicador é o número de alunos da rede municipal, segmentado por nível educacional (Creche, Pré Escola, Ensino Fundamental I, Ensino Fundamental II, EJA I, EJA II, Ensino Médio, Ed. Prof.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/demanda-e-matriculas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [3]:
pkg_name = 'demanda-e-matriculas'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Demanda e Matrículas - Dez/2024',
  'id': '23081b4e-7866-4c3e-843b-489354c00a3e',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/23081b4e-7866-4c3e-843b-489354c00a3e/download/publicacao-demanda-e-matriculas-dez-2024.xls'},
 {'name': 'Demanda e Matrículas - Dez/2024',
  'id': '8afd9653-8977-486e-928e-ae0dd5cff21c',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/8afd9653-8977-486e-928e-ae0dd5cff21c/download/publicacao-demanda-e-matriculas-dez-2024.csv'},
 {'name': 'Demanda e Matrículas - Out/2024',
  'id': '08856956-7c46-4dd1-ad3b-e1b7f0d4ab25',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/08856956-7c46-4dd1-ad3b-e1b7f0d4ab25/download/publicacao-demanda-e-matricula-out-2024.xls'},
 {'name': 'Demanda e Matrículas - Out/2024',
  'id': '7b5c0318-23ea-4cc8-9c3b-7936f00a340a',
  'url': 'https://dados.prefeitura.sp.gov.br/datas

Sabendo o id do arquivo de dezembro de 2023, vamos carregar o recurso como um dataframe.

In [4]:
resource_id = '23081b4e-7866-4c3e-843b-489354c00a3e'
mat_24 = da.load_resource(resource_id, pandas_kwargs=dict(header=[0,1]))
mat_24

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrícula em Processo,...,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.,Creche,...,Creche (3),Creche Total,Pré Escola (1),Pré Escola (2),Pré Escola (3),Pré Escola Total,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II
0,AGUA RASA,1264.0,724.0,967.0,932.0,0.0,23.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,ALTO DE PINHEIROS,273.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2912.0,1690.0,3650.0,2430.0,24.0,130.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,ARICANDUVA,1542.0,699.0,1217.0,1085.0,0.0,58.0,0.0,0.0,0.0,...,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,ARTUR ALVIM,2711.0,2138.0,2355.0,2128.0,0.0,21.0,0.0,0.0,0.0,...,6.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3609.0,1853.0,2435.0,1611.0,0.0,15.0,0.0,0.0,0.0,...,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
96,TOTAL,345019.0,216107.0,251032.0,183303.0,3591.0,13443.0,2076.0,1213.0,0.0,...,528.0,528.0,0.0,3.0,0.0,3.0,0.0,0.0,0.0,0.0
97,,,,,,,,,,,...,,,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,,,...,,,,,,,,,,


O dataframe contem dados de matrículas, matrículas em processo e demanda não atendida. Como desejamos apenas matrículas, vamos remover as outras colunas.

In [5]:
mat_24 = mat_24[['Distrito', 'Matrículas']]
mat_24

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1264.0,724.0,967.0,932.0,0.0,23.0,0.0,0.0
1,ALTO DE PINHEIROS,273.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2912.0,1690.0,3650.0,2430.0,24.0,130.0,0.0,0.0
3,ARICANDUVA,1542.0,699.0,1217.0,1085.0,0.0,58.0,0.0,0.0
4,ARTUR ALVIM,2711.0,2138.0,2355.0,2128.0,0.0,21.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3609.0,1853.0,2435.0,1611.0,0.0,15.0,0.0,0.0
96,TOTAL,345019.0,216107.0,251032.0,183303.0,3591.0,13443.0,2076.0,1213.0
97,,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


Agora, sabendo que temos apenas dados sobre matrículas, vamos ajustar as colunas.

In [6]:
mat_24 = (mat_24
 .droplevel(0, axis='columns')
 .rename(columns={'Unnamed: 0_level_1': 'Distrito'}))

mat_24

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1264.0,724.0,967.0,932.0,0.0,23.0,0.0,0.0
1,ALTO DE PINHEIROS,273.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2912.0,1690.0,3650.0,2430.0,24.0,130.0,0.0,0.0
3,ARICANDUVA,1542.0,699.0,1217.0,1085.0,0.0,58.0,0.0,0.0
4,ARTUR ALVIM,2711.0,2138.0,2355.0,2128.0,0.0,21.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3609.0,1853.0,2435.0,1611.0,0.0,15.0,0.0,0.0
96,TOTAL,345019.0,216107.0,251032.0,183303.0,3591.0,13443.0,2076.0,1213.0
97,,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


As últimas linhas do dataframe são apenas dados de totalização e notas, então vamos excluí-las também.

In [7]:
mat_24 = mat_24.loc[mat_24['Distrito'].str.lower()!='total']
mat_24 = mat_24.loc[~mat_24.iloc[:,1].isna()]
mat_24

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1264.0,724.0,967.0,932.0,0.0,23.0,0.0,0.0
1,ALTO DE PINHEIROS,273.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2912.0,1690.0,3650.0,2430.0,24.0,130.0,0.0,0.0
3,ARICANDUVA,1542.0,699.0,1217.0,1085.0,0.0,58.0,0.0,0.0
4,ARTUR ALVIM,2711.0,2138.0,2355.0,2128.0,0.0,21.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
91,VILA MARIANA,781.0,531.0,280.0,222.0,0.0,0.0,0.0,0.0
92,VILA MATILDE,1778.0,877.0,2188.0,1865.0,19.0,25.0,0.0,0.0
93,VILA MEDEIROS,3809.0,2335.0,1814.0,1413.0,79.0,271.0,0.0,0.0
94,VILA PRUDENTE,2445.0,1127.0,1035.0,832.0,24.0,70.0,0.0,0.0


Finalmente, vamos "despivotar" a tabela, transformando o nome das colunas em uma nova coluna chamada "Nível educacional" e unificando as colunas de valor sob uma coluna chamada matrículas.

In [8]:
mat_24 = mat_24.melt(
    id_vars='Distrito',
    var_name='Nível Educacional',
    value_name='Matrículas'
)
mat_24

Unnamed: 0,Distrito,Nível Educacional,Matrículas
0,AGUA RASA,Creche,1264.0
1,ALTO DE PINHEIROS,Creche,273.0
2,ANHANGUERA,Creche,2912.0
3,ARICANDUVA,Creche,1542.0
4,ARTUR ALVIM,Creche,2711.0
...,...,...,...
763,VILA MARIANA,Ed. Prof.,0.0
764,VILA MATILDE,Ed. Prof.,0.0
765,VILA MEDEIROS,Ed. Prof.,0.0
766,VILA PRUDENTE,Ed. Prof.,0.0


## Número de professores da Rede Municipal de Ensino

O segundo indicador solicitado é o número de professores da Rede Municipal de Ensino, com recortes por Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/microdados-servidores-perfil, porém os arquivos possuem informação sobre todos os servidores da SME, o que inclui os servidores administrativos, que precisarão ser excluídos.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [9]:
pkg_name = 'microdados-servidores-perfil'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Microdados - Perfil dos Servidores 2024',
  'id': 'f2d39e22-d919-4324-b92d-616adc5feb41',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/12a101f0-622b-43ad-946c-95c430ae6cab/resource/f2d39e22-d919-4324-b92d-616adc5feb41/download/perfilservidor24.csv'}]

Aparentemente, os dados de perfil dos servidores possuem periodicidade anual, já que temos apenas um arquivo disponível para 2024.

In [10]:
resource_id = resources[0]['id']
perf_24 = da.load_resource(resource_id)
perf_24

Unnamed: 0,DATA_BASE_EOL,ANO_REFERENCIA,CD_CAR_SERV_SME,MES_NASC,ANO_NASC,IDADE,CD_SEXO,CD_MUNICIPIO_NASC,DC_MUNICIPIO_NASC,UF_MUNICIPIO_NASC,...,CD_UNIDADE_FUNCAO,CD_FUNCAO,DC_FUNCAO,DT_INICIO_FUNCAO,CD_UNIDADE_SOBREPOSTO,CD_SOBREPOSTO,DC_SOBREPOSTO,DT_INICIO_SOBREPOSTO,ACUMULO_AMBITO,ACUMULO_SITUACAO_SEGUNDO_VINCULO
0,"dezembro, 2024",2024,13959569213340,5,1958,66,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Aposentado
1,"dezembro, 2024",2024,13757719212040,11,1954,70,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,,
2,"dezembro, 2024",2024,13054398219040,5,1952,72,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Aposentado
3,"dezembro, 2024",2024,13959668217340,5,1958,66,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,,
4,"dezembro, 2024",2024,13858808214640,4,1954,70,F,3.187364e+14,IRECE,BA,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,"dezembro, 2024",2024,300726592392517,6,1987,37,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Efetivo
90909,"dezembro, 2024",2024,371730092342317,2,1969,55,F,9.343737e+15,SANTO ANDRE,SP,...,,,,,,,,,Outros,Aposentado
90910,"dezembro, 2024",2024,371730092342217,4,1985,39,F,9.354739e+15,SAO PAULO,SP,...,,,,,1.315840e+13,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43864.0,,
90911,"dezembro, 2024",2024,309728622328717,10,1975,49,F,9.354739e+15,SAO BERNARDO DO CAMPO,SP,...,,,,,,,,,,


Com os dados baixados, vamos selecionar as colunas para atender às segmentações propostas no formulário.

In [11]:
# Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

perf_cols = [
    'CD_SEXO',
    'CD_RACA_COR',
    'DC_RACA_COR',
    'CD_DEF',
    'DC_SIT_FUNC',
    'CD_CARGO_BASE',
    'DC_CARGO_BASE',
    'DT_INICIO_CARGO_BASE',
    'CD_CARGO_ATUAL',
    'DC_CARGO_ATUAL',
    'CD_AREA_ATUACAO_BASE',
    'DC_AREA_ATUACAO_BASE',
    'CD_UNIDADE_ATUAL',
    'TP_UNIDADE_ATUAL',
    'DC_UNIDADE_ATUAL',
]

perf_24 = perf_24.loc[:, perf_cols]
perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_BASE,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA."
1,F,6361921931,NAO INFORMADA,12727970840,EM COMISSAO,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL,42495,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL,43411221211,TECNICA PEDAGOGICA,1.226440e+14,COORD,COORDENADORIA DE GESTAO DE PESSOAS - COGEP
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO
3,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO
4,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O
90909,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA
90910,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,CEU EMEF,ALTO ALEGRE
90911,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI


O formulário solicita também a exclusão de professores aposentados e servidores administrativos do conjunto de dados. Apesar de existir uma coluna com um valor "aposentado", a `ACUMULO_SITUACAO_SEGUNDO_VINCULO`, essa coluna parece se referir à situação do segundo vínculo, e não do vínculo com a PMSP. Além disso, a lista de servidores aposentados da Secretaria Municipal de Educação tem mais de 94 mil registros, então esses registros provavelmente não estão nos dados de perfil dos servidores.

Para excluir os servidores administrativos, vamos primeiro avaliar quais cargos estão presentes na base.

In [12]:
df_cargos = perf_24[['CD_CARGO_BASE', 'DC_CARGO_BASE']].copy()
df_cargos = df_cargos.drop_duplicates().reset_index(drop=True)

df_cargos

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9.234430e+12,PROF.ED.INF.E ENS.FUND.I
1,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL
2,9.274100e+13,PROF.DE ED.INFANTIL
3,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES
4,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES
...,...,...
92,1.232303e+10,SECRETARIO MUNICIPAL
93,4.292170e+11,CHEFE DE ASSESSORIA I
94,3.244140e+13,COORDENADOR II - ENS MED
95,8.234600e+12,ASSIST.ADM. DE GESTAO


Dado a quantidade de cargos, vamos fitrar a lista com base em uma regra geral, mantendo apenas os cargos que possual a string "PROF" em sua descrição.

In [13]:
filtro_prof = df_cargos['DC_CARGO_BASE'].str.lower().str.contains('prof.', regex=False)
df_cargos_prof = df_cargos.loc[filtro_prof]

df_cargos_prof

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9234430000000.0,PROF.ED.INF.E ENS.FUND.I
2,92741000000000.0,PROF.DE ED.INFANTIL
3,9264550000000.0,PROF.ENS.FUND.II E MED.-ARTES
4,9244720000000.0,PROF.ENS.FUND.II E MED.-PORTUGUES
5,9214970000000.0,PROF.ENS.FUND.II E MED.-MATEMATICA
6,9274960000000.0,PROF.ENS.FUND.II E MED.-CIENCIAS
7,92841100000000.0,PROF.ENS.FUND.II E MED.-INGLES
9,9214970000000.0,PROF.ENS.FUND.II E MED.-GEOGRAFIA
12,9224650000000.0,PROF.ENS.FUND.II E MED.-HISTORIA
19,9224640000000.0,PROF.SUBST.DE EDUCACAO INFANTIL


Por último, filtramos a base geral com base nessa lista de cargos.

In [14]:
perf_24 = (
    perf_24
    .loc[
        perf_24['DC_CARGO_BASE'].isin(df_cargos_prof['DC_CARGO_BASE'].tolist())
    ]
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_BASE,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA."
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO
3,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO
4,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO
5,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O
90909,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA
90910,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,CEU EMEF,ALTO ALEGRE
90911,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI


## Número de Unidades Escolares

O terceiro indicador solicitado é o número de Unidades Escolares da Rede Municipal de Ensino, com recortes por Tipo de Escola (EMEI, EMEF etc.) e Distrito.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/cadastro-de-escolas-municipais-conveniadas-e-privadas.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [15]:
pkg_name = 'cadastro-de-escolas-municipais-conveniadas-e-privadas'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Cadastro de escolas da cidade de São Paulo 2024',
  'id': '533188c6-1949-4976-ac4e-acd313415cd1',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/533188c6-1949-4976-ac4e-acd313415cd1/download/escolas122024.csv'}]

In [16]:
resource_id = resources[0]['id']
escolas_24 = da.load_resource(resource_id)
escolas_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMES,DESLOC,CEU,DIRETORIA,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,LATITUDE,LONGITUDE,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502.0,...,26134,13/06/1988,,16/03/1991,,,DIR,-23553905,-46398452,31/12/2024
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295.0,...,26314,04/07/1988,,16/03/1991,,,DIR,-23489728,-46670198,31/12/2024
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.","JOSE ERMIRIO DE MORAES, SEN.",,SAO MIGUEL,SAO MIGUEL,RUA SAO BRAS DO SUACUI,159.0,...,26312,05/07/1988,,13/03/2001,,VILA NITRO OPERARIA,DIR,-23478312,-46427344,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.","ALIPIO CORREA NETO, PROF.",,BUTANTA,BUTANTA,AVENIDA JOAO CAIAFFA,140.0,...,26003,27/05/1988,,16/03/1991,,,DIR,-23612237,-46749888,31/12/2024
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.","VERA LUCIA APARECIDA RIBEIRO, PROFA.",,PIRITUBA,PIRITUBA,RUA BENEDITO PEREIRA,206.0,...,26229,22/06/1988,,16/03/1991,,,DIR,-23486142,-46733901,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5021,PJ,700053,CEU AT COM,PINHEIRINHO DAGUA,PINHEIRINHO DAGUA,PINHEIRINHO D'AGUA,PIRITUBA,PIRITUBA,RUA CAMILLO ZANOTTI,92.0,...,59933,01/12/2020,,,,,CON,-23438098,-46732201,31/12/2024
5022,PE,700054,CEU AT COM,MONTE SERRAT,MONTE SERRAT,MONTE SERRAT,PENHA,MOOCA,RUA MONTE SERRAT,230.0,...,59931,01/12/2020,,,,,CON,-23539898,-46562294,31/12/2024
5023,PJ,700055,CEU AT COM,CORETO DE TAIPAS,CORETO DE TAIPAS,CORETO DE TAIPAS,PIRITUBA,PIRITUBA,RUA JOÃO AMADO COUTINHO,240.0,...,59932,01/12/2020,,,,,CON,-23447574,-46714798,31/12/2024
5024,PE,700056,CEU AT COM,HORIZONTE AZUL,HORIZONTE AZUL,HORIZONTE AZUL,PENHA,PENHA,AVENIDA SYLVIO TORRES,295.0,...,59930,01/12/2020,,,,,CON,-23552513,-46487631,31/12/2024


Os dados das escolas também serão usados com outros conjuntos de dados para regionalizá-los, então vamos manter também algumas colunas de identificação das escolas para facilitar esse uso o posterior. Vamos também filtrar apenas as escolas ativas.

In [17]:
escolas_cols = ['CODESC',
                'TIPOESC',
                'NOMES',
                'SUBPREF',
                'DISTRITO',
                'CODINEP',
                'CD_CIE',
                'NOME_ANT',
                'REDE']

escolas_24 = escolas_24.loc[:, escolas_cols]

escolas_24

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,35098711.0,1678110.0,,DIR
1,94,EMEI,VICENTE PAULO DA SILVA,CASA VERDE/CACHOEIRINHA,LIMAO,35098361.0,1670158.0,,DIR
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,1677116.0,VILA NITRO OPERARIA,DIR
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,1679154.0,,DIR
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,1671138.0,,DIR
...,...,...,...,...,...,...,...,...,...
5021,700053,CEU AT COM,PINHEIRINHO DAGUA,PIRITUBA,JARAGUA,35007555.0,,,CON
5022,700054,CEU AT COM,MONTE SERRAT,MOOCA,TATUAPE,35007556.0,,,CON
5023,700055,CEU AT COM,CORETO DE TAIPAS,PIRITUBA,JARAGUA,35007561.0,,,CON
5024,700056,CEU AT COM,HORIZONTE AZUL,PENHA,ARTUR ALVIM,35007631.0,,,CON


As unidades escolares também recebeu instruções de filtro para que os número fossem adequados ao informado no relatório de função. Devemos excluir as escolas de tipo `CEU AT COM` e `ESC.PART.`.

In [18]:
escolas_24['TIPOESC'].value_counts()

TIPOESC
CR.P.CONV     1826
ESC.PART.      795
EMEF           551
EMEI           517
CEI INDIR      399
CEI DIRET      315
MOVA           266
CEU AT COM      58
CEU             58
CEU EMEI        47
CEU EMEF        46
CEU CEI         45
ESP CONV        26
CEMEI           21
CIEJA           16
CEU CEMEI       12
EMEFM            8
EMEBS            6
E TEC            4
CECI             3
CCI/CIPS         3
CMCT             2
EMEI P FOM       1
EMEF P FOM       1
Name: count, dtype: int64

In [19]:
escolas_24 = escolas_24[~escolas_24['TIPOESC'].isin(['CEU AT COM', 'ESC.PART.'])]

escolas_24

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,35098711.0,1678110.0,,DIR
1,94,EMEI,VICENTE PAULO DA SILVA,CASA VERDE/CACHOEIRINHA,LIMAO,35098361.0,1670158.0,,DIR
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,1677116.0,VILA NITRO OPERARIA,DIR
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,1679154.0,,DIR
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,1671138.0,,DIR
...,...,...,...,...,...,...,...,...,...
4962,600047,ESP CONV,ASSOCIACAO CASA DOS DEFICIENTES DE ERMELINO MA...,SAO MIGUEL,SAO MIGUEL,,,ASSOCIACAO CASA DOS DEFICIENTES DE ERMELINO M,CON
4963,600050,ESP CONV,AACD - ASS DE ASS A CRIANCA DEFICIENTE - UNID ...,MOOCA,MOOCA,,,AACD - ASS DE ASS A CRIANCA DEFICIENTE - UNID,CON
4964,600051,ESP CONV,APAE - NUCLEO CAPELA DO SOCORRO,CAPELA DO SOCORRO,CIDADE DUTRA,,,APAE,CON
4965,600052,ESP CONV,APAE - NUCLEO CAMPO LIMPO,CAMPO LIMPO,CAMPO LIMPO,,,APAE,CON


## Perfil dos alunos

O quinto indicador solicitado é o número de alunos da Rede Municipal de Ensino, com recortes por Raça, Sexo, existência de Necessidades Especiais, Distrito, Rede de Ensino (Administração Direta ou Rede Conveniada/Parceira).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [20]:
pkg_name = 'perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Perfil dos educandos - Dez/2024',
  'id': '5ef5187b-9d3d-4c68-8da2-de441f7bff30',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/b9c5faef-1a61-4814-b89e-bd7a73154ebc/resource/5ef5187b-9d3d-4c68-8da2-de441f7bff30/download/perfil_dos_educandos_122024.csv'}]

Aparentemente, os dados de perfil dos educandos possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [21]:
resource_id = resources[0]['id']
alunos_24 = da.load_resource(resource_id)
alunos_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,6,AUTISMO,PARDA,1,31/12/2024
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,7,AUTISMO,PARDA,1,31/12/2024
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,10,,PARDA,1,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,11,,BRANCA,1,31/12/2024
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,3,Tarde,F,8,,PARDA,1,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
467257,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,PRETA,2,31/12/2024
467258,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,RECUSOU INFORMA,4,31/12/2024
467259,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,,PARDA,5,31/12/2024
467260,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,BAIXA VISAO/VISAO SUBNORMAL,RECUSOU INFORMA,2,31/12/2024


In [22]:
total_alunos_24_pre_filtros = alunos_24['Qtde'].sum()
total_alunos_24_pre_filtros

np.int64(1596412)

### Ajustando alunos de `EDPROF`

Para manter a quantidade de matrículas compatível com o relatório de função, vamos manter apenas algumas modalidades de ensino, de modo que não sejam consideradas matrículas de atividades em contraturno e similares. Além disso, a soma de alunos de `EDPROF` é diferente do último valor informado pela SME em auditoria. O valor informado pela SME foi de 1.879 matrículas, porém o total com base nos dados de `Perfil dos alunos` é 4.722. Vamos tentar entender de onde vem essa distorção.

In [23]:
(
    alunos_24
    .loc[alunos_24['MODAL'] == 'EDPROF', ['TIPOESC', 'Qtde']]
    .groupby('TIPOESC')
    .sum().reset_index()
)

Unnamed: 0,TIPOESC,Qtde
0,CEU AT COM,63
1,CMCT,2780
2,E TEC,1445
3,EMEBS,46
4,EMEFM,388


In [24]:
1445+46+388

1879

Vemos que a soma dos alunos de `E TEC` + `EMEBS` + `EMEFM` coincide exatamente com o número de matrículas informado pela SME. Após apresentar a situação para o Coordenador do GT Educação, decidiu-se por excluir os registros de `EDPROF` de `CEU AT COM` e `CMCT`.

In [25]:
filtro_alunos_24 = (
    (alunos_24['MODAL'] != 'EDPROF') |
    (~alunos_24['TIPOESC'].isin(['CEU AT COM', 'CMCT']))
)

In [26]:
alunos_24 = alunos_24.loc[filtro_alunos_24]
alunos_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,6,AUTISMO,PARDA,1,31/12/2024
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,7,AUTISMO,PARDA,1,31/12/2024
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,10,,PARDA,1,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,11,,BRANCA,1,31/12/2024
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,3,Tarde,F,8,,PARDA,1,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
467257,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,PRETA,2,31/12/2024
467258,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,RECUSOU INFORMA,4,31/12/2024
467259,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,,PARDA,5,31/12/2024
467260,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,BAIXA VISAO/VISAO SUBNORMAL,RECUSOU INFORMA,2,31/12/2024


Finalmente, vamos conferir se o filtro funcionou corretamente.

In [27]:
(
    alunos_24
    .loc[alunos_24['MODAL'] == 'EDPROF', ['TIPOESC', 'Qtde']]
    .groupby('TIPOESC')
    .sum().reset_index()
)

Unnamed: 0,TIPOESC,Qtde
0,E TEC,1445
1,EMEBS,46
2,EMEFM,388


In [28]:
total_alunos_24_pos_filtros = alunos_24['Qtde'].sum()
total_alunos_24_pos_filtros

np.int64(1593569)

In [29]:
total_alunos_24_pre_filtros - total_alunos_24_pos_filtros

np.int64(2843)

Vemos que todos os alunos de `EDPROF` que deviam estar presentes estão e a diferença antes e depois dos filtros é exatamente a quantidade de alunos de `CEU AT COM` e `CMCT`, então o filtro funcionou corretamente.

### Ajustando alunos de `ESPEC`

A soma de alunos de `ESPEC` também é diferente do último valor informado pela SME em auditoria. O valor informado pela SME foi de 693 matrículas, porém o total com base nos dados de `Perfil dos alunos` é 766. Vamos tentar entender de onde vem essa distorção.

In [30]:
(
    alunos_24
    .loc[alunos_24['MODAL'] == 'ESPEC', ['TIPOESC', 'Qtde']]
    .groupby('TIPOESC')
    .sum().reset_index()
)

Unnamed: 0,TIPOESC,Qtde
0,CEU EMEF,58
1,CEU EMEI,15
2,EMEBS,693


Vemos que a soma dos alunos de `EMEBS` coincide exatamente com o número de matrículas informado pela SME. Após apresentar a situação para o Coordenador do GT Educação, decidiu-se por excluir os registros de `CEU EMEF` e `CEU EMEI`.

In [31]:
total_alunos_24_pre_filtros = alunos_24['Qtde'].sum()
total_alunos_24_pre_filtros

np.int64(1593569)

In [32]:
filtro_alunos_24 = (
    (alunos_24['MODAL'] != 'ESPEC') |
    (~alunos_24['TIPOESC'].isin(['CEU EMEF', 'CEU EMEI']))
)

In [33]:
alunos_24 = alunos_24.loc[filtro_alunos_24]
alunos_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,6,AUTISMO,PARDA,1,31/12/2024
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,7,AUTISMO,PARDA,1,31/12/2024
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,10,,PARDA,1,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,11,,BRANCA,1,31/12/2024
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,3,Tarde,F,8,,PARDA,1,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
467257,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,PRETA,2,31/12/2024
467258,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,RECUSOU INFORMA,4,31/12/2024
467259,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,,PARDA,5,31/12/2024
467260,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,BAIXA VISAO/VISAO SUBNORMAL,RECUSOU INFORMA,2,31/12/2024


Finalmente, vamos conferir se o filtro funcionou corretamente.

In [34]:
(
    alunos_24
    .loc[alunos_24['MODAL'] == 'ESPEC', ['TIPOESC', 'Qtde']]
    .groupby('TIPOESC')
    .sum().reset_index()
)

Unnamed: 0,TIPOESC,Qtde
0,EMEBS,693


In [35]:
total_alunos_24_pos_filtros = alunos_24['Qtde'].sum()
total_alunos_24_pos_filtros

np.int64(1593496)

In [36]:
total_alunos_24_pre_filtros - total_alunos_24_pos_filtros

np.int64(73)

Vemos que todos os alunos de `ESPEC` que deviam estar presentes estão e a diferença antes e depois dos filtros é exatamente a quantidade de alunos de `CEU EMEF` e `CEU EMEI`, então o filtro funcionou corretamente.

In [37]:
alunos_24['MODAL'].unique()

array(['ATCOMP', 'FUND', 'PAEE COLAB', 'PAP', 'PAP COLAB', 'PRE', 'SAAI',
       'EJA', 'REC', 'CRECHE', 'MOVA', 'CELP', 'CONVEE', 'ESPEC',
       'EDPROF', 'MEDIO'], dtype=object)

In [38]:
modalidades = ['CRECHE', 'ESPEC', 'PRE',
               'CONVEE','EDPROF', 'EJA', 'FUND', 'MEDIO', 'MOVA']

alunos_24 = alunos_24[alunos_24['MODAL'].isin(modalidades)]
alunos_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
54,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,FUND,C.I 1.ANO F9,Diurno,6,Integral,F,6,,PARDA,3,31/12/2024
55,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,FUND,C.I 1.ANO F9,Diurno,6,Integral,F,7,,BRANCA,3,31/12/2024
56,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,FUND,C.I 1.ANO F9,Diurno,6,Integral,F,7,,PARDA,8,31/12/2024
57,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,FUND,C.I 1.ANO F9,Diurno,6,Integral,F,7,,PRETA,2,31/12/2024
58,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,FUND,C.I 1.ANO F9,Diurno,6,Integral,F,7,DEFICIENCIA INTELECTUAL,BRANCA,1,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
462528,SM,600035,ESP CONV,INSTITUTO MATER DEI,SAO MATEUS,7309,2024,CON,CONVEE,CONVEE,Diurno,3,Tarde,M,27,DEFICIENCIA INTELECTUAL,PARDA,1,31/12/2024
462529,SM,600035,ESP CONV,INSTITUTO MATER DEI,SAO MATEUS,7309,2024,CON,CONVEE,CONVEE,Diurno,3,Tarde,M,28,DEFICIENCIA INTELECTUAL,BRANCA,2,31/12/2024
462530,SM,600035,ESP CONV,INSTITUTO MATER DEI,SAO MATEUS,7309,2024,CON,CONVEE,CONVEE,Diurno,3,Tarde,M,29,DEFICIENCIA INTELECTUAL,PARDA,1,31/12/2024
462531,SM,600035,ESP CONV,INSTITUTO MATER DEI,SAO MATEUS,7309,2024,CON,CONVEE,CONVEE,Diurno,3,Tarde,M,30,DEFICIENCIA INTELECTUAL,BRANCA,1,31/12/2024


In [39]:
alunos_cols = ['DISTRITO',
               'REDE',
               'MODAL',
               'SEXO',
               'NEE',
               'RACA',
               'Qtde']

alunos_24 = alunos_24[alunos_cols]

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde
54,VILA SONIA,DIR,FUND,F,,PARDA,3
55,VILA SONIA,DIR,FUND,F,,BRANCA,3
56,VILA SONIA,DIR,FUND,F,,PARDA,8
57,VILA SONIA,DIR,FUND,F,,PRETA,2
58,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1
...,...,...,...,...,...,...,...
462528,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1
462529,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2
462530,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1
462531,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1


In [40]:
alunos_24['Qtde'].sum()

np.int64(1027308)

O total de alunos está exatamente igual ao total esperado, que é de 1.027.308.

## Número de alunos estrangeiros

O sétimo indicador é o número de alunos estrangeiros da rede municipal, segmentado por País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/educandos-estrangeiros-por-nacionalidade. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados.

In [41]:
pkg_name = 'educandos-estrangeiros-por-nacionalidade'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '75357667-9bf6-463b-9ecc-609dfecafb25',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/75357667-9bf6-463b-9ecc-609dfecafb25/download/estudantes_estrangeiros_dez24.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': 'bae3bf9f-43e6-4616-827e-d50ff5f19552',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/bae3bf9f-43e6-4616-827e-d50ff5f19552/download/estudantes_estrangeiros_dez2024.csv'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '22f9daba-fb61-439b-984b-ab5d99733ad2',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/22f9daba-fb61-439b-984b-ab5d99733ad2/download/estudantes_estrangeiros_dez24.ods'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '1920e20b-181f-43bf-b390-d45fbaa272d4',
  'url': 'https://d

In [42]:
resource_id = resources[0]['id']
alunos_est_2024 = da.load_resource(resource_id)
alunos_est_2024

Unnamed: 0,DRE,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,SERIE,QTDE,REDE,DATABASE
0,BT,ALTO DE PINHEIROS,42,CHINA,CRECHE,MINI GRUPO I,1,CON,2024-12-31
1,BT,ALTO DE PINHEIROS,226,SERRA LEOA,CRECHE,BERCARIO I,1,CON,2024-12-31
2,BT,BUTANTA,26,COLÔMBIA,FUND,C.II 4.ANO F9,1,DIR,2024-12-31
3,BT,BUTANTA,31,BÉLGICA,FUND,C.I 3.ANO F9,1,DIR,2024-12-31
4,BT,BUTANTA,36,ESTADOS UNIDOS DA AMÉRICA (EUA),CRECHE,BERCARIO II,2,CON,2024-12-31
...,...,...,...,...,...,...,...,...,...
3854,SM,SAPOPEMBA,185,CONGO,FUND,C.II 6.ANO F9,1,DIR,2024-12-31
3855,SM,SAPOPEMBA,213,NIGÉRIA,FUND,C.II 4.ANO F9,1,DIR,2024-12-31
3856,SM,SAPOPEMBA,277,SÍRIA,EJA,MI CIEJA,1,DIR,2024-12-31
3857,SM,SAPOPEMBA,281,TURQUIA,CRECHE,BERCARIO II,1,CON,2024-12-31


In [43]:
# Recortes: País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.)
alunos_est_cols = ['DISTRITO',
                   'COD_PAIS',
                   'NOME_PAIS',
                   'ETAPA',
                   'REDE',
                   'QTDE']

alunos_est_2024 = alunos_est_2024[alunos_est_cols]

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE
0,ALTO DE PINHEIROS,42,CHINA,CRECHE,CON,1
1,ALTO DE PINHEIROS,226,SERRA LEOA,CRECHE,CON,1
2,BUTANTA,26,COLÔMBIA,FUND,DIR,1
3,BUTANTA,31,BÉLGICA,FUND,DIR,1
4,BUTANTA,36,ESTADOS UNIDOS DA AMÉRICA (EUA),CRECHE,CON,2
...,...,...,...,...,...,...
3854,SAPOPEMBA,185,CONGO,FUND,DIR,1
3855,SAPOPEMBA,213,NIGÉRIA,FUND,DIR,1
3856,SAPOPEMBA,277,SÍRIA,EJA,DIR,1
3857,SAPOPEMBA,281,TURQUIA,CRECHE,CON,1


## Número de alunos beneficiários do Bolsa Família

O oitavo indicador é o número de alunos beneficiários do Bolsa Família da rede municipal, segmentado por Distrito e nível de ensino.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

As notas (que podem ser vistas na saída abaixo) desse conjunto de dados incluem a informação de que a estrutura do conjunto mudou a partir de 2024 e, por isso, foi criado um novo conjunto de dados com a estrutura mais recente, disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao. Vamos utilizar essa versão mais recente e os dados de julho de 2024, assim como o número de alunos estrangeiros.

In [44]:
pkg_name = 'beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas'
pkg = da.package_show(pkg_name)
print(pkg['notes'])

***Atualizado em: 23/09/2023***

Esta base de dados traz a série histórica de 10 anos com a quantidade de crianças beneficiárias pelo Programa Bolsa Família e matriculadas em creches municipais ou conveniadas entre os anos de 2013 e 2023.

As informações foram compiladas pela Secretaria Municipal de Educação, a partir de cruzamento do Sistema EOL com dados da Secretaria Municipal de Assistência Social utilizando a chave NIS do Aluno ou Nome do Aluno, mãe e nascimento, o que pode ocasionar variações de números por divergências cadastrais.

Nota técnica: A partir do mês de dezembro de 2021, o Programa Bolsa Família foi substituído pela Programa Auxílio Brasil, conforme Lei Federal nº 14.284/2021. Dessa forma, o conjunto de dados referente ao ano de 2022 encontra-se denominado como "Beneficiários do Programa Auxílio Brasil (Creche)". No entanto, em 19 junho de 2023, o Programa Auxílio Brasil volta a se chamar Programa Bolsa Família, conforme Lei Federal nº 14.601/2023 e por esse motivo a 

In [45]:
pkg_name = 'beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'c36429c0-b9da-478d-b32e-c9ffd31adfce',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/c36429c0-b9da-478d-b32e-c9ffd31adfce/download/dicionarariovariaveis_novabolsafamilia_jul2024.csv'},
 {'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c/download/dicionarariovariaveis_novabolsafamilia_jul2024.xlsx'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '8999e4a8-9cbc-4fd6-b7ce-cef505e55f34',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/8999e4a8-9cbc-4fd6-b7ce-cef505e55f34/download/novabolsafamilia_julho2024.csv'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '29f089e7-2de2-4295-9d

A última data disponível permanece sendo a de julho de 2024, então vamos utilizar essa data para extrair os dados.

In [46]:
resource_id = resources[2]['id']
alunos_bf_2024 = da.load_resource(resource_id)
alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL,TOTAL MATRICULAS,DATABASE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0,140,31/07/2024
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0,145,31/07/2024
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0,324,31/07/2024
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0,193,31/07/2024
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8,8,31/07/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0,21,31/07/2024
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0,121,31/07/2024
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0,35,31/07/2024
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0,46,31/07/2024


In [47]:
# Recortes: Alunos Beneficiários do Bolsa-Família por distrito, por nível de Ensino
alunos_bf_cols = ['CODEOL',
                   'TIPO',
                   'UNIDADE',
                   'DIRETORIA',
                   'DISTRITO',
                   'CRECHE',
                   'PRE ESCOLA',
                   'ENSINO FUNDAMENTAL',
                   'EDUCAÇÃO PROFISSIONAL',
                   'ENSINO MEDIO',
                   'EDUCAÇÃO ESPECIAL']

alunos_bf_2024 = alunos_bf_2024[alunos_bf_cols]

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8
...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0


In [48]:
alunos_bf_id_vars = alunos_bf_cols[0:5]

alunos_bf_2024 = alunos_bf_2024.melt(id_vars=alunos_bf_id_vars,
                    var_name='NIVEL',
                    value_name='QTDE')

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0
...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0


## Distritos e Subprefeituras

Para agregarmos os dados em Subprefeituras, precisamos de uma lista de distritos e subprefeituras. A lista de distritos e subprefeituras pode ser obtida no GeoSampa, que é o portal de dados geográficos da Prefeitura de São Paulo.

In [49]:
gs.get_capabilities('distrito')

[{'name': 'geoportal:central_triagem_cooperativa',
  'title': 'Cooperativas Habilitadas',
  'abstract': 'Atualmente 93 distritos são contemplados pela Coleta de Materiais Recicláveis realizada pelas Centrais e pelas Concessionárias, ficando a sua coordenação sob a responsabilidade da Secretaria Municipal de Serviços, por intermédio da Autoridade Municipal de Limpeza Urbana – AMLURB, estabelecendo normas e procedimentos para sua implementação, gerenciamento, fiscalização e controle. Das 22 organizações que mantêm uma relação formal com a Prefeitura de São Paulo, 21 cooperativas ou associações que desenvolvem atividades de coleta, triagem e comercialização de RSD Secos, e uma desenvolve atividades de recuperação de resíduos eletroeletrônicos (REE).'},
 {'name': 'geoportal:distrito_municipal',
  'title': 'Distrito',
  'abstract': 'Os distritos foram criados mediante a Lei nº 11.220/1992. Seus limites foram estabelecidos a partir de estudos elaborados por diversos órgãos do Executivo munic

In [50]:
df_dist = gs.get_features('geoportal:distrito_municipal')
df_dist

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
0,distrito_municipal.8583394,8583394,5,51,MANDAQUI,MAN,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.086000+00:00,,199299399,13.249,1.324946e+07,"POLYGON ((333079.583 7408102.398, 333077.161 7..."
1,distrito_municipal.8583395,8583395,20,52,MARSILAC,MAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.153000+00:00,,199299399,208.165,2.081650e+08,"POLYGON ((335849.365 7355252.191, 335849.717 7..."
2,distrito_municipal.8583396,8583396,12,32,MOEMA,MOE,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.869000+00:00,,199299399,9.080,9.079516e+06,"POLYGON ((331290.13 7392111.284, 331324.217 73..."
3,distrito_municipal.8583397,8583397,25,53,MOOCA,MOO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.901000+00:00,,199299399,7.949,7.948972e+06,"POLYGON ((338347.253 7394233.253, 338278.495 7..."
4,distrito_municipal.8583398,8583398,10,54,MORUMBI,MOR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.788000+00:00,,199299399,11.489,1.148932e+07,"POLYGON ((326801.504 7391704.628, 326850.417 7..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,distrito_municipal.8583485,8583485,27,47,JOSE BONIFACIO,JBO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.952000+00:00,,199299399,14.570,1.456975e+07,"POLYGON ((354096.84 7396684.812, 354098.811 73..."
92,distrito_municipal.8583486,8583486,28,96,LAJEADO,LAJ,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.935000+00:00,,199299399,8.827,8.826983e+06,"POLYGON ((357804.739 7394627.262, 357743.916 7..."
93,distrito_municipal.8583487,8583487,8,48,LAPA,LAP,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.002000+00:00,,199299399,10.283,1.028273e+07,"POLYGON ((323778.718 7398464.929, 323863.562 7..."
94,distrito_municipal.8583488,8583488,9,49,LIBERDADE,LIB,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.758000+00:00,,199299399,3.651,3.651130e+06,"POLYGON ((332504.515 7392094.984, 332505.952 7..."


In [51]:
gs.get_capabilities('subprefeitura')

[{'name': 'geoportal:GEOSAMPA_v_praca_largo',
  'title': 'Cadastro de Praças e Largos',
  'abstract': 'Localização das praças e largos no território do município de São Paulo, com base nas informações repassadas por subprefeituras, SF e SEGES/CGPATRI.'},
 {'name': 'geoportal:perimetro_zoneamento_revogado_lei13885',
  'title': 'Perímetro Zona de Uso - Revogado - Lei 13.885/04',
  'abstract': 'A Lei de Zoneamento estabelece normas complementares ao Plano Diretor Estratégico, institui os Planos Regionais Estratégicos das Subprefeituras, dispõe sobre o parcelamento, disciplina e ordena o Uso e Ocupação do Solo do Município de São Paulo. Os perímetros de zona de uso foram vetorizados perante o estabelecido na Lei nº 13.885/2004, tendo como base cartográfica o Mapa Digital da Cidade (MDC).'},
 {'name': 'geoportal:sede_subprefeitura',
  'title': 'Subprefeituras',
  'abstract': 'Localização das sedes físicas das Subprefeituras da Cidade de São Paulo.'},
 {'name': 'geoportal:subprefeitura',
  '

In [52]:
df_subs = gs.get_features('geoportal:subprefeitura')
df_subs

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021020.0,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980200.0,"POLYGON ((327340.628 7399133.313, 327331.514 7..."
2,subprefeitura.3,3,4,CASA VERDE-CACHOEIRINHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.956000+00:00,,CV,27,27232340.0,"POLYGON ((329084.795 7402363.669, 329086.123 7..."
3,subprefeitura.4,4,5,SANTANA-TUCURUVI,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.068000+00:00,,ST,36,35782520.0,"POLYGON ((334076.366 7398045.594, 334074.986 7..."
4,subprefeitura.5,5,6,JACANA-TREMEMBE,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.950000+00:00,,JT,65,65115660.0,"POLYGON ((335167.648 7404409.048, 335167.247 7..."
5,subprefeitura.6,6,7,VILA MARIA-VILA GUILHERME,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.073000+00:00,,MG,27,26899220.0,"POLYGON ((336762.078 7401144.267, 336794.867 7..."
6,subprefeitura.7,7,21,PENHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.055000+00:00,,PE,40,40429240.0,"POLYGON ((346801.065 7402842.892, 346800.103 7..."
7,subprefeitura.8,8,22,ERMELINO MATARAZZO,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.081000+00:00,,EM,16,15966390.0,"POLYGON ((349116.316 7399473.221, 349133.905 7..."
8,subprefeitura.9,9,23,SAO MIGUEL,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.944000+00:00,,MP,26,26159230.0,"POLYGON ((352480.323 7397515.871, 352477.052 7..."
9,subprefeitura.10,10,24,ITAIM PAULISTA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.967000+00:00,,IT,22,21603820.0,"POLYGON ((356423.064 7397223.44, 356418.471 73..."


## CSV de Subprefeituras do Qlik

In [53]:
url_subs = os.environ.get('CSV_SUBPREFEITURAS_QLIK')
df_subs_qlik = pd.read_csv(url_subs)
df_subs_qlik

Unnamed: 0,sub.CODIGO,sub.NOME,sub.POLIGONO,total_de_pessoas
0,1,PERUS,"[[[[-46.7082012617476,-23.4165818252815],[-46....",163076
1,2,PIRITUBA-JARAGUA,"[[[[-46.7753669019781,-23.4628032705496],[-46....",480225
2,3,FREGUESIA-BRASILANDIA,"[[[[-46.6910223492151,-23.5088410763715],[-46....",380513
3,4,CASA VERDE-CACHOEIRINHA,"[[[[-46.673577305455,-23.479858692024],[-46.67...",306275
4,5,SANTANA-TUCURUVI,"[[[[-46.6251942372966,-23.5193645522374],[-46....",318913
5,6,JACANA-TREMEMBE,"[[[[-46.6138088697146,-23.4620183373337],[-46....",283892
6,7,VILA MARIA-VILA GUILHERME,"[[[[-46.5985584306269,-23.4916579527685],[-46....",276069
7,8,LAPA,"[[[[-46.7475634318888,-23.5587659797062],[-46....",338347
8,9,SE,"[[[[-46.6634017492882,-23.5366395157441],[-46....",423536
9,10,BUTANTA,"[[[[-46.7579053376809,-23.5510466758162],[-46....",468522


In [54]:
df_subs_qlik = df_subs_qlik[['sub.CODIGO', 'sub.NOME']]
df_subs_qlik

Unnamed: 0,sub.CODIGO,sub.NOME
0,1,PERUS
1,2,PIRITUBA-JARAGUA
2,3,FREGUESIA-BRASILANDIA
3,4,CASA VERDE-CACHOEIRINHA
4,5,SANTANA-TUCURUVI
5,6,JACANA-TREMEMBE
6,7,VILA MARIA-VILA GUILHERME
7,8,LAPA
8,9,SE
9,10,BUTANTA


## Orçamento previsto/liquidado na função Educação

Vamos começar coletando os dados orçamentários do site de execução orçamentária da Secretaria da Fazenda.

In [55]:
url_orcamento = 'https://orcamento.sf.prefeitura.sp.gov.br/orcamento/uploads/2024/basedadosexecucao_1224.csv'
df_orcamento = pd.read_csv(url_orcamento,
                           sep=';',
                           decimal=',',
                           encoding='latin1',
                           dtype=str)
df_orcamento

Unnamed: 0,DataInicial,DataFinal,Cd_AnoExecucao,Cd_Exercicio,Cd_Dotacao_Id,Administracao,Cd_Orgao,Sigla_Orgao,Ds_Orgao,Cd_Unidade,...,Vl_Congelado,Vl_Descongelado,Vl_CongeladoLiquido,Disponivel,Vl_ReservadoLiquido,Vl_EmpenhadoLiquido,Vl_Liquidado,Vl_Pago,Saldo_Dotacao,DataExtracao
0,01/01/2024,31/12/2024,2024,2024,169108,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0,0,0,1000,0,0,0,0,1000,18/01/2025
1,01/01/2024,31/12/2024,2024,2024,173723,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0,0,0,13179786,1314177,1314177,1314177,1314177,38016,18/01/2025
2,01/01/2024,31/12/2024,2024,2024,171046,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0,0,0,31313244,31313244,31313244,29408799,279126685,0,18/01/2025
3,01/01/2024,31/12/2024,2024,2024,173862,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0,0,0,3725893915,3722255212,3722255212,3099967271,3029172536,3638703,18/01/2025
4,01/01/2024,31/12/2024,2024,2024,180471,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0,0,0,2000000,2000000,2000000,2000000,2000000,0,18/01/2025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9339,01/01/2024,31/12/2024,2024,2024,164854,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0,0,0,24000,0,0,0,0,24000,18/01/2025
9340,01/01/2024,31/12/2024,2024,2024,182836,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0,0,0,20000,1856,1856,1856,1856,18144,18/01/2025
9341,01/01/2024,31/12/2024,2024,2024,173543,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0,0,0,400000,20154567,20154567,20154567,20154567,19845433,18/01/2025
9342,01/01/2024,31/12/2024,2024,2024,164855,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0,0,0,6252,0,0,0,0,6252,18/01/2025


In [56]:
for col in [col for col in df_orcamento.columns if 'Vl' in col]:
    df_orcamento[col] = df_orcamento[col].str.replace(',', '.').astype(float)
df_orcamento['DataExtracao'] = pd.to_datetime(df_orcamento['DataExtracao'], format='%d/%m/%Y')
df_orcamento

Unnamed: 0,DataInicial,DataFinal,Cd_AnoExecucao,Cd_Exercicio,Cd_Dotacao_Id,Administracao,Cd_Orgao,Sigla_Orgao,Ds_Orgao,Cd_Unidade,...,Vl_Congelado,Vl_Descongelado,Vl_CongeladoLiquido,Disponivel,Vl_ReservadoLiquido,Vl_EmpenhadoLiquido,Vl_Liquidado,Vl_Pago,Saldo_Dotacao,DataExtracao
0,01/01/2024,31/12/2024,2024,2024,169108,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0.0,0.0,0.0,1000,0.00,0.00,0.00,0.00,1000,2025-01-18
1,01/01/2024,31/12/2024,2024,2024,173723,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0.0,0.0,0.0,13179786,1314177.00,1314177.00,1314177.00,1314177.00,38016,2025-01-18
2,01/01/2024,31/12/2024,2024,2024,171046,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0.0,0.0,0.0,31313244,3131324.40,3131324.40,2940879.90,2791266.85,0,2025-01-18
3,01/01/2024,31/12/2024,2024,2024,173862,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0.0,0.0,0.0,3725893915,37222552.12,37222552.12,30999672.71,30291725.36,3638703,2025-01-18
4,01/01/2024,31/12/2024,2024,2024,180471,Direta,07,FMD,Fundo Municipal de Desenvolvimento Social,10,...,0.0,0.0,0.0,2000000,2000000.00,2000000.00,2000000.00,2000000.00,0,2025-01-18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9339,01/01/2024,31/12/2024,2024,2024,164854,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0.0,0.0,0.0,24000,0.00,0.00,0.00,0.00,24000,2025-01-18
9340,01/01/2024,31/12/2024,2024,2024,182836,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0.0,0.0,0.0,20000,1856.00,1856.00,1856.00,1856.00,18144,2025-01-18
9341,01/01/2024,31/12/2024,2024,2024,173543,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0.0,0.0,0.0,400000,201545.67,201545.67,201545.67,201545.67,19845433,2025-01-18
9342,01/01/2024,31/12/2024,2024,2024,164855,Legislativo,77,FTCMSP,Fundo Especial de Despesas do Tribunal de Contas,10,...,0.0,0.0,0.0,6252,0.00,0.00,0.00,0.00,6252,2025-01-18


In [57]:
df_orcamento = df_orcamento.loc[df_orcamento['Cd_Funcao']=='12']
df_orcamento

Unnamed: 0,DataInicial,DataFinal,Cd_AnoExecucao,Cd_Exercicio,Cd_Dotacao_Id,Administracao,Cd_Orgao,Sigla_Orgao,Ds_Orgao,Cd_Unidade,...,Vl_Congelado,Vl_Descongelado,Vl_CongeladoLiquido,Disponivel,Vl_ReservadoLiquido,Vl_EmpenhadoLiquido,Vl_Liquidado,Vl_Pago,Saldo_Dotacao,DataExtracao
589,01/01/2024,31/12/2024,2024,2024,174256,Direta,16,SME,Secretaria Municipal de Educação,10,...,0.0,0.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18
590,01/01/2024,31/12/2024,2024,2024,174471,Direta,16,SME,Secretaria Municipal de Educação,10,...,0.0,0.00,0.00,100000,100000.00,100000.00,100000.00,100000.00,0,2025-01-18
591,01/01/2024,31/12/2024,2024,2024,174505,Direta,16,SME,Secretaria Municipal de Educação,10,...,0.0,0.00,0.00,3953503,39535.03,39535.03,657.91,657.91,0,2025-01-18
592,01/01/2024,31/12/2024,2024,2024,174450,Direta,16,SME,Secretaria Municipal de Educação,10,...,0.0,0.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18
593,01/01/2024,31/12/2024,2024,2024,166524,Direta,16,SME,Secretaria Municipal de Educação,10,...,1000.0,1000.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8946,01/01/2024,31/12/2024,2024,2024,181463,Indireta,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,0.0,0.00,0.00,149782,1497.82,1497.82,1497.82,1497.82,0,2025-01-18
8947,01/01/2024,31/12/2024,2024,2024,164952,Indireta,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,10000.0,10000.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18
8948,01/01/2024,31/12/2024,2024,2024,180889,Indireta,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,0.0,0.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18
8949,01/01/2024,31/12/2024,2024,2024,173088,Indireta,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,30000.0,30000.00,0.00,0,0.00,0.00,0.00,0.00,0,2025-01-18


## Orçamento regionalizado na função Educação

O orçamento é regionalizado apenas na liquidação, então não é possível obter o orçamento previsto por subprefeitura, mas é possível obter o orçamento liquidado.

In [58]:
url_orcamento_r = 'https://orcamento.sf.prefeitura.sp.gov.br/orcamento/uploads/2024/basedadosDA_1224.csv'
df_orcamento_r = pd.read_csv(url_orcamento_r,
                           sep=';',
                           decimal=',',
                           encoding='latin1',
                           dtype=str)
df_orcamento_r

Unnamed: 0,COD_EMPRESA_PMSP,COD_EMPENHO,ANO_EMPENHO,CÓDIGO_NLP,ANO_LIQUIDAÇÃO,DATA_LIQUIDAÇÃO,CÓDIGO_ÓRGÃO,SIGLA_ÓRGÃO,DESCRIÇÃO_ÓRGÃO,CÓDIGO_UNIDADE,...,DESCRIÇÃO_FONTE,CÓDIGO_EXERCÍCIO_FONTE,CÓDIGO_DESTINAÇÃO_RECURSO,CÓDIGO_VÍNCULO_PMSP,CÓDIGO_TIPO_CRÉDITO_ORÇAMENTÁRIO,REGIÃO,SUBPREFEITURA,DISTRITO,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
0,01,1,2024,5695,2025,2025-01-16 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,795616
1,01,1,2024,5878,2025,2025-01-16 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,,,,,
2,01,1,2024,7627,2025,2025-01-20 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,12772
3,01,1,2024,43181,2025,2025-02-21 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,298065
4,01,1,2024,43192,2025,2025-02-21 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,610299
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
531053,91,148,2024,110,2025,2025-02-25 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,90928
531054,91,149,2024,85,2025,2025-02-21 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Leste,Subprefeitura Mooca,Supra-Distrital,Despesa Regionalizável,653804
531055,91,150,2024,111,2025,2025-02-25 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,90868
531056,91,151,2024,80,2025,2025-02-20 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,1042891


In [59]:
df_orcamento_r['VALOR_DETALHAMENTO_AÇÃO'] = df_orcamento_r['VALOR_DETALHAMENTO_AÇÃO'].str.replace(',', '.').astype(float)
# df_orcamento_r['DATA_EXTRAÇÃO'] = pd.to_datetime(df_orcamento_r['DATA_EXTRAÇÃO'], format='%d/%m/%Y')
df_orcamento_r

Unnamed: 0,COD_EMPRESA_PMSP,COD_EMPENHO,ANO_EMPENHO,CÓDIGO_NLP,ANO_LIQUIDAÇÃO,DATA_LIQUIDAÇÃO,CÓDIGO_ÓRGÃO,SIGLA_ÓRGÃO,DESCRIÇÃO_ÓRGÃO,CÓDIGO_UNIDADE,...,DESCRIÇÃO_FONTE,CÓDIGO_EXERCÍCIO_FONTE,CÓDIGO_DESTINAÇÃO_RECURSO,CÓDIGO_VÍNCULO_PMSP,CÓDIGO_TIPO_CRÉDITO_ORÇAMENTÁRIO,REGIÃO,SUBPREFEITURA,DISTRITO,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
0,01,1,2024,5695,2025,2025-01-16 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,79561.60
1,01,1,2024,5878,2025,2025-01-16 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,,,,,
2,01,1,2024,7627,2025,2025-01-20 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,127.72
3,01,1,2024,43181,2025,2025-02-21 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,2980.65
4,01,1,2024,43192,2025,2025-02-21 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,6102.99
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
531053,91,148,2024,110,2025,2025-02-25 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,909.28
531054,91,149,2024,85,2025,2025-02-21 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Leste,Subprefeitura Mooca,Supra-Distrital,Despesa Regionalizável,6538.04
531055,91,150,2024,111,2025,2025-02-25 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,908.68
531056,91,151,2024,80,2025,2025-02-20 00:00:00.0000000,91,FMH,Fundo Municipal de Habitação,10,...,Fundo Municipal de Habitação,1,759,8011,0,Centro,Subprefeitura Sé,Supra-Distrital,Despesa Regionalizável,10428.91


In [60]:
df_orcamento_r = df_orcamento_r.loc[df_orcamento_r['CÓDIGO_FUNÇÃO']=='12']
df_orcamento_r = df_orcamento_r.loc[df_orcamento_r['ANO_LIQUIDAÇÃO']=='2024']
df_orcamento_r

Unnamed: 0,COD_EMPRESA_PMSP,COD_EMPENHO,ANO_EMPENHO,CÓDIGO_NLP,ANO_LIQUIDAÇÃO,DATA_LIQUIDAÇÃO,CÓDIGO_ÓRGÃO,SIGLA_ÓRGÃO,DESCRIÇÃO_ÓRGÃO,CÓDIGO_UNIDADE,...,DESCRIÇÃO_FONTE,CÓDIGO_EXERCÍCIO_FONTE,CÓDIGO_DESTINAÇÃO_RECURSO,CÓDIGO_VÍNCULO_PMSP,CÓDIGO_TIPO_CRÉDITO_ORÇAMENTÁRIO,REGIÃO,SUBPREFEITURA,DISTRITO,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
11,01,1,2024,72189,2024,2024-03-18 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,84181.62
12,01,1,2024,72326,2024,2024-03-18 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,926.39
13,01,1,2024,99706,2024,2024-04-15 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,91415.48
14,01,1,2024,99864,2024,2024-04-15 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,964.51
15,01,1,2024,131213,2024,2024-05-17 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,88176.28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
493950,16,298,2024,2175,2024,2024-12-10 00:00:00.0000000,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,Recursos não vinculados de Impostos,1,500,9001,0,,,,,
493951,16,299,2024,2160,2024,2024-12-10 00:00:00.0000000,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,Recursos não vinculados de Impostos,1,500,9001,1,Centro,Supra Subprefeitura Centro,Supra-Distrital Centro,Despesa Regionalizável,11467.36
493952,16,299,2024,2173,2024,2024-12-10 00:00:00.0000000,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,Recursos não vinculados de Impostos,1,500,9001,1,Centro,Supra Subprefeitura Centro,Supra-Distrital Centro,Despesa Regionalizável,8665.06
493953,16,299,2024,2176,2024,2024-12-10 00:00:00.0000000,80,FPETC,Fundação Paulistana de Educação Tecnologia e C...,10,...,Recursos não vinculados de Impostos,1,500,9001,1,Centro,Supra Subprefeitura Centro,Supra-Distrital Centro,Despesa Regionalizável,397.05


Vamos conferir qual o percentual do orçamento está presente na tabela de detalhamento e regionalizado a nível de subprefeitura.

In [61]:
df_orcamento_r['VALOR_DETALHAMENTO_AÇÃO'].sum()/df_orcamento['Vl_Liquidado'].sum()

np.float64(0.5387537644095716)

53,9% de detalhamento não é um percentual tão bom, mas vamos checar a regionalização.

In [62]:
(
    df_orcamento_r
    .assign(regionalizado=df_orcamento_r['SUBPREFEITURA'].str.contains('Supra')==False)
    .groupby('regionalizado')
    ['VALOR_DETALHAMENTO_AÇÃO'].sum()/df_orcamento['Vl_Liquidado'].sum()
)

regionalizado
False    0.263278
True     0.275476
Name: VALOR_DETALHAMENTO_AÇÃO, dtype: float64

O percentual de regionalização é de 27,5%, o que é bem baixo. Apesar de não parecer tão satisfatório, não perdemos nada ao mantê-los, então vamos manter as informações de regionalização também.

## IDEB do município

Durante a evolução do projeto, também foi sugerida a inclusão do IDEB do município como indicador educacional ao dashboard de visão geral. Os dados são divulgados de maneira agregada para o município separados por anos iniciais, anos finais e ensino médio. Vamos obtê-los diretamente do site do INEP.

In [63]:
def get_ideb(ciclo: str) -> pd.DataFrame:
    """
    Baixa e processa dados do IDEB para o município de São Paulo.
    
    Parâmetros:
    -----------
    ciclo : str
        O ciclo educacional desejado. Deve ser um dos valores:
        - 'anos_iniciais': Anos iniciais do ensino fundamental
        - 'anos_finais': Anos finais do ensino fundamental  
        - 'ensino_medio': Ensino médio
    
    Retorna:
    --------
    pd.DataFrame
        DataFrame com os dados do IDEB filtrados para o município de São Paulo
        (código 3550308).
    
    Levanta:
    --------
    ValueError
        Se o parâmetro 'ciclo' não for um dos valores válidos.
    
    Exemplo:
    --------
    >>> df_ideb = get_ideb('anos_iniciais')
    >>> print(df_ideb.head())
    """
    if ciclo not in ['anos_iniciais', 'anos_finais', 'ensino_medio']:
        raise ValueError("Ciclo deve ser 'anos_iniciais', 'anos_finais' ou 'ensino_medio'")
    
    url = f'https://download.inep.gov.br/ideb/resultados/divulgacao_{ciclo}_municipios_2023.zip'
    r = requests.get(url)
    z = zipfile.ZipFile(BytesIO(r.content))
    file_path = f'divulgacao_{ciclo}_municipios_2023/divulgacao_{ciclo}_municipios_2023.xlsx'
    df = pd.read_excel(z.open(file_path), skiprows=9)

    df = df[df['CO_MUNICIPIO'] == 3550308]
    return df

In [65]:
df_ideb_iniciais = get_ideb('anos_iniciais')
df_ideb_iniciais

Unnamed: 0,SG_UF,CO_MUNICIPIO,NO_MUNICIPIO,REDE,VL_APROVACAO_2005_SI_4,VL_APROVACAO_2005_SI,VL_APROVACAO_2005_1,VL_APROVACAO_2005_2,VL_APROVACAO_2005_3,VL_APROVACAO_2005_4,...,VL_OBSERVADO_2021,VL_OBSERVADO_2023,VL_PROJECAO_2007,VL_PROJECAO_2009,VL_PROJECAO_2011,VL_PROJECAO_2013,VL_PROJECAO_2015,VL_PROJECAO_2017,VL_PROJECAO_2019,VL_PROJECAO_2021
9940,SP,3550308.0,São Paulo,Federal,-,-,-,-,-,-,...,-,6.5,-,-,5.7,6.0,6.2,6.5,6.7,6.9
9941,SP,3550308.0,São Paulo,Estadual,95.1,-,95.2,97.1,97.2,91,...,6,6.1,4.7,5,5.4,5.7,5.9,6.2,6.4,6.6
9942,SP,3550308.0,São Paulo,Municipal,94.7,-,96.5,98.1,98.3,87.6,...,5.7,5.6,4.1,4.5,4.9,5.2,5.4,5.7,6.0,6.2
9943,SP,3550308.0,São Paulo,Pública,94.9,-,95.8,97.5,97.7,89.3,...,5.9,5.9,4.4,4.7,5.1,5.4,5.7,5.9,6.2,6.4


In [66]:
df_ideb_finais = get_ideb('anos_finais')
df_ideb_finais

Unnamed: 0,SG_UF,CO_MUNICIPIO,NO_MUNICIPIO,REDE,VL_APROVACAO_2005_SI_4,VL_APROVACAO_2005_1,VL_APROVACAO_2005_2,VL_APROVACAO_2005_3,VL_APROVACAO_2005_4,VL_INDICADOR_REND_2005,...,VL_OBSERVADO_2021,VL_OBSERVADO_2023,VL_PROJECAO_2007,VL_PROJECAO_2009,VL_PROJECAO_2011,VL_PROJECAO_2013,VL_PROJECAO_2015,VL_PROJECAO_2017,VL_PROJECAO_2019,VL_PROJECAO_2021
10053,SP,3550308.0,São Paulo,Estadual,85.5,88.9,88.6,87.4,76.9,0.851411,...,5.1,4.9,3.8,4.0,4.3,4.7,5.0,5.3,5.5,5.8
10054,SP,3550308.0,São Paulo,Municipal,93.6,96.5,95.7,95.0,86.0,0.930964,...,5.1,4.8,4.1,4.3,4.6,5.0,5.3,5.6,5.8,6.0
10055,SP,3550308.0,São Paulo,Pública,88.8,92.2,91.6,90.5,80.3,0.883665,...,5.1,4.8,4.0,4.1,4.4,4.8,5.2,5.4,5.6,5.9


In [67]:
df_ideb_medio = get_ideb('ensino_medio')
df_ideb_medio

Unnamed: 0,SG_UF,CO_MUNICIPIO,NO_MUNICIPIO,REDE,VL_APROVACAO_2017_SI_4,VL_APROVACAO_2017_1,VL_APROVACAO_2017_2,VL_APROVACAO_2017_3,VL_APROVACAO_2017_4,VL_INDICADOR_REND_2017,...,VL_NOTA_MEDIA_2021,VL_NOTA_MATEMATICA_2023,VL_NOTA_PORTUGUES_2023,VL_NOTA_MEDIA_2023,VL_OBSERVADO_2017,VL_OBSERVADO_2019,VL_OBSERVADO_2021,VL_OBSERVADO_2023,VL_PROJECAO_2019,VL_PROJECAO_2021
8058,SP,3550308.0,São Paulo,Estadual,81.6,74.2,82.2,90.5,-,0.817611,...,4.713662,265.35,277.16,4.565442,3.5,3.9,4.3,4.1,3.7,3.9
8059,SP,3550308.0,São Paulo,Federal,88.4,85.2,86.8,96.8,-,0.893165,...,6.597057,327.41,330.84,6.240664,6.3,6.7,6.0,6.0,6.5,6.7
8060,SP,3550308.0,São Paulo,Municipal,85.3,79.3,84.8,92.1,93.3,0.869969,...,4.711535,266.21,273.1,4.516742,3.5,3.7,4.5,4.3,3.7,4.0
8061,SP,3550308.0,São Paulo,Pública,81.7,74.3,82.3,90.5,93.3,0.844283,...,4.727806,265.86,277.57,4.578743,3.6,4.1,4.4,4.2,3.8,4.0


# Transformação e mesclagem de dados

Para facilitar o trabalho dos dados no Qlik Sense, vamos avaliar como é a melhor forma de retrabalhar os dados de acordo com o paradigma fato-dimensão.

## Nível Escolar

A primeira dimensão que parece fazer sentido é o Nível escolar. Vamos avaliar como aparece em cada tabela.

In [68]:
mat_24['Nível Educacional'].value_counts()

Nível Educacional
Creche          96
Pré Escola      96
Ens. Fund.I     96
Ens. Fund.II    96
EJA I           96
EJA II          96
Ens. Médio      96
Ed. Prof.       96
Name: count, dtype: int64

In [69]:
perf_24[['CD_AREA_ATUACAO_BASE', 'DC_AREA_ATUACAO_BASE']].value_counts()

CD_AREA_ATUACAO_BASE  DC_AREA_ATUACAO_BASE           
301521917             ENSINO FUNDAMENTAL I E INFANTIL    33516
93911221827           ENSINO FUNDAMENTAL II              23228
1311820840            EDUCACAO INFANTIL                  15512
83811221917           ENSINO MEDIO                          76
73711221947           EDUCACAO ESPECIAL                     11
Name: count, dtype: int64

In [70]:
alunos_24['MODAL'].value_counts()

MODAL
CRECHE    102313
FUND      101168
PRE        36396
EJA        15042
MOVA        8215
CONVEE      1141
EDPROF       884
MEDIO        667
ESPEC        521
Name: count, dtype: int64

In [71]:
alunos_est_2024['ETAPA'].value_counts()

ETAPA
FUND      1736
CRECHE    1184
PRE        616
EJA        259
MOVA        32
MEDIO       19
EDPROF       6
ESPEC        6
CONVEE       1
Name: count, dtype: int64

In [72]:
alunos_bf_2024['NIVEL'].value_counts()

NIVEL
CRECHE                   3763
PRE ESCOLA               3763
ENSINO FUNDAMENTAL       3763
EDUCAÇÃO PROFISSIONAL    3763
ENSINO MEDIO             3763
EDUCAÇÃO ESPECIAL        3763
Name: count, dtype: int64

Existe uma tabela de correspondência relacionada a essas categorias fornecida no último relatório de Gestão da Função Educação. A tabela é a seguinte:

| Nível Educacional | Tipo de escola |
| --- | --- |
| Educação Infantil | Creches |
| Educação Infantil | Pré-escola |
| Ensino Fundamental | EMEF |
| Ensino Médio | EMEFM |
| Educação de Jovens e Adultos | EJA/CIEJA |
| Educação de Jovens e Adultos | MOVA (Parceria) |
| Educação de Jovens e Adultos | Educação Profissional |
| Educação Especial | EMEBS |
| Educação Especial | Educação Especial (Parceira) |


Essa tabela permite a padronização de quase todas as tabelas, exceto a de perfil dos professores. Para as outras, vamos utilizar a tabela como base para a criação de um dicionário que será utilizado como *mapper* em cada uma das tabelas.

In [73]:
mat_23_nivel = {
    'Creche': 'Educação Infantil',
    'Pré Escola': 'Educação Infantil',
    'Ens. Fund.I': 'Ensino Fundamental',
    'Ens. Fund.II': 'Ensino Fundamental',
    'EJA I': 'Educação de Jovens e Adultos',
    'EJA II': 'Educação de Jovens e Adultos',
    'Ens. Médio': 'Ensino Médio',
    'Ed. Prof.': 'Educação de Jovens e Adultos'
}

mat_24['Nível padronizado'] = mat_24['Nível Educacional'].map(mat_23_nivel)
mat_24['Nível padronizado'].value_counts()

Nível padronizado
Educação de Jovens e Adultos    288
Educação Infantil               192
Ensino Fundamental              192
Ensino Médio                     96
Name: count, dtype: int64

In [74]:
alunos_23_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial',
    'ATCOMP': '?',
    'REC': '?',
    'SAAI': '?'
}

alunos_24['Nível padronizado'] = alunos_24['MODAL'].map(alunos_23_nivel)
alunos_24['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_24['Nível padronizado'] = alunos_24['MODAL'].map(alunos_23_nivel)


Nível padronizado
Educação Infantil               138709
Ensino Fundamental              101168
Educação de Jovens e Adultos     24141
Educação Especial                 1662
Ensino Médio                       667
Name: count, dtype: int64

In [75]:
alunos_est_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial'
}

alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)
alunos_est_2024['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)


Nível padronizado
Educação Infantil               1800
Ensino Fundamental              1736
Educação de Jovens e Adultos     297
Ensino Médio                      19
Educação Especial                  7
Name: count, dtype: int64

In [76]:
alunos_bf_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE ESCOLA': 'Educação Infantil',
    'ENSINO FUNDAMENTAL': 'Ensino Fundamental',
    'ENSINO MEDIO': 'Ensino Médio',
    'EDUCAÇÃO PROFISSIONAL': 'Educação de Jovens e Adultos',
    'EDUCAÇÃO ESPECIAL': 'Educação Especial'
}

alunos_bf_2024['Nível padronizado'] = alunos_bf_2024['NIVEL'].map(alunos_bf_2024_nivel)
alunos_bf_2024['Nível padronizado'].value_counts()

Nível padronizado
Educação Infantil               7526
Ensino Fundamental              3763
Educação de Jovens e Adultos    3763
Ensino Médio                    3763
Educação Especial               3763
Name: count, dtype: int64

## Padronização dos nomes de Distritos

Os dados de matrículas, escolas, educandos, educandos estrangeiros e educandos beneficiários do Bolsa Família possuem uma coluna chamada "Distrito" que contém o nome do distrito onde a escola está localizada.

Já os dados de servidores não possuem dados de distrito, mas possuem o nome da escola, que pode ser utilizada para buscar o distrito correspondente. Antes de unir as tabelas para fazer isso, vamos padronizar os nomes dos distritos de acordo com os dados do geosampa.

### Número de Unidades Escolares

In [77]:
(
    escolas_24
    .loc[~escolas_24['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Perfil dos alunos

In [78]:
(
    alunos_24
    .loc[~alunos_24['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos estrangeiros

In [79]:
(
    alunos_est_2024
    .loc[~alunos_est_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos beneficiários do Bolsa Família

In [80]:
(
    alunos_bf_2024
    .loc[~alunos_bf_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

Nenhum dos conjuntos de dados possui distritos que não estejam na lista do GeoSampa.

Agora, vamos unir os dados de servidores com os dados de escolas para adicionar a coluna de distrito aos dados de servidores.

### Número de professores da Rede Municipal de Ensino

Primeiro, vamos criar uma coluna com o tipo de escola e o nome da escola nos dois dataframes, para que possamos unir os dados de servidores com os dados de escolas.

In [81]:
escolas_24['NOMES_COMPLETO'] = (
    escolas_24['TIPOESC'].str.strip().str.upper()
    + ' ' + escolas_24['NOMES'].str.strip().str.upper()
)
escolas_24['NOMES_COMPLETO']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  escolas_24['NOMES_COMPLETO'] = (


0                         EMEI PAULO CAMILHIER FLORENCANO
1                             EMEI VICENTE PAULO DA SILVA
2                       EMEF JOSE ERMIRIO DE MORAES, SEN.
3                          EMEF ALIPIO CORREA NETO, PROF.
4              EMEBS VERA LUCIA APARECIDA RIBEIRO, PROFA.
                              ...                        
4962    ESP CONV ASSOCIACAO CASA DOS DEFICIENTES DE ER...
4963    ESP CONV AACD - ASS DE ASS A CRIANCA DEFICIENT...
4964             ESP CONV APAE - NUCLEO CAPELA DO SOCORRO
4965                   ESP CONV APAE - NUCLEO CAMPO LIMPO
4966                      ESP CONV APAE - NUCLEO PIRITUBA
Name: NOMES_COMPLETO, Length: 4173, dtype: object

In [82]:
perf_24['DC_UNIDADE_ATUAL_COMPLETA'] = (
    perf_24['TP_UNIDADE_ATUAL'].str.strip().str.upper()
    + ' ' + perf_24['DC_UNIDADE_ATUAL'].str.strip().str.upper()
)
perf_24['DC_UNIDADE_ATUAL_COMPLETA']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  perf_24['DC_UNIDADE_ATUAL_COMPLETA'] = (


0             EMEI THEREZINHA BATISTA PETTAN, PROFA.
2                           CEI DIRET JARDIM MONJOLO
3          FORA DE SME CAMARA MUNICIPAL DE SAO PAULO
4                                  CEU EMEF JAMBEIRO
5           EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA
                            ...                     
90908                       CEU CEMEI FREGUESIA DO O
90909                           EMEF FAZENDA DA JUTA
90910                           CEU EMEF ALTO ALEGRE
90911                     CEI DIRET GENOVEVA DASCOLI
90912    CEU CEI ANA LUCIA DE HOLANDA GAMBOA, PROFA.
Name: DC_UNIDADE_ATUAL_COMPLETA, Length: 72343, dtype: object

In [83]:
perf_24 = (
    perf_24
    .merge(escolas_24[['NOMES_COMPLETO', 'DISTRITO']],
           left_on=['DC_UNIDADE_ATUAL_COMPLETA'],
           right_on=['NOMES_COMPLETO'],
           how='left')
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_BASE,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE


Vamos avaliar se todas as unidades escolares foram encontradas no dataframe de unidades.

In [84]:
(
    perf_24
    .query('DISTRITO.isnull()')
)

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_BASE,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,
9,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,34589,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO IPIRANGA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO IPIRANGA,,
11,M,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,39106,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.246530e+14,FORA DE SME,APROFEM,FORA DE SME APROFEM,,
36,M,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,31450,2.245870e+11,ASSISTENTE TECNICO DE EDUCACAO I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,,
41,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,26764,2.245870e+11,ASSISTENTE TECNICO DE EDUCACAO I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72213,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40710,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PIRITUBA/JARAGUA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PIRITU...,,
72214,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,41180,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PIRITUBA/JARAGUA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PIRITU...,,
72281,F,83811221917,AMARELA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40722,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.256340e+14,DIR EDUC,NUCLEO DE APOIO E ACOMP PARA APREND - DRE IP/D...,DIR EDUC NUCLEO DE APOIO E ACOMP PARA APREND -...,,
72316,M,93911221827,PARDA,12727970840,EFETIVO,9.274960e+12,PROF.ENS.FUND.II E MED.-CIENCIAS,43270,9.274960e+12,PROF.ENS.FUND.II E MED.-CIENCIAS,93911221827,ENSINO FUNDAMENTAL II,1.226440e+14,COORD,COORDENADORIA DOS CENTROS EDUCACIONAIS UNIFICA...,COORD COORDENADORIA DOS CENTROS EDUCACIONAIS U...,,


In [85]:
(
    perf_24
    .query('DISTRITO.isna()')
    .shape[0]
    /perf_24.shape[0]
)

0.03533168378419474

Cerca de 3,6% dos professores não tiveram as unidades escolares encontradas. Vamos avaliar quais são essas unidades.

In [86]:
(
    perf_24
    .query('DISTRITO.isna()')
    [['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL']]
    .sort_values(['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL'])
    .drop_duplicates()
)

Unnamed: 0,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
39089,CEU AT COMPL,"AGUA AZUL - PAULO RENATO COSTA SOUZA, PROF"
63221,CEU AT COMPL,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF."
32216,CEU AT COMPL,ALVARENGA
20118,CEU AT COMPL,"ARICANDUVA - IRENE GALVAO DE SOUZA, PROFA."
59749,CEU AT COMPL,AZUL DA COR DO MAR
...,...,...
854,OUT-PMSP,ASSESSORIA PARLAMENTAR - SME-ASPAR
13844,OUT-PMSP,COMISSAO DE AVAL. DE ACUMULO DE CARGOS - CAAC
2149,OUT-PMSP,NUCLEO ADMINISTRATIVO - SME-NA
27506,OUT-PMSP,NUCLEO DE PLANEJAMENTO CENTRAL - SME-ATP-NPC


Por ora, vamos manter dessa forma e, caso seja necessário, podemos avaliar como tratar esses casos numa atualização futura.

## Adicionando as Subprefeituras

Agora, vamos adicionar a coluna de subprefeitura a todos os dataframes.

### Associando distritos e subprefeituras

In [87]:
df_dist.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7..."
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7..."


In [88]:
df_subs.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980202.74,"POLYGON ((327340.628 7399133.313, 327331.514 7..."


In [89]:
df_subs.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
30,subprefeitura.31,31,1,PERUS,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.999000+00:00,,PR,57,56889310.75,"POLYGON ((325464.932 7409329.344, 325464.513 7..."
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."


Os dados de distritos e subprefeituras não estão completamente compatíveis, então precisamos de um tratamento adicional.

O dataframe de distritos possui uma coluna chamada `cd_identificador_subprefeitura`, mas não corresponde exatamente à coluna `cd_identificador_subprefeitura` do dataframe de subprefeituras. Ele corresponde parcialmente à coluna `cd_subprefeitura` do dataframe de subprefeituras, mas não é exatamente a mesma, porque esta última possui um zero à esquerda que não está presente no dataframe de distritos. Portanto, vamos criar uma coluna com o código de subprefeitura no dataframe de distritos, que será o código de subprefeitura com o zero à esquerda.

In [90]:
df_dist['cd_subprefeitura'] = (
    df_dist['cd_identificador_subprefeitura'].astype(str)
    .str.zfill(2)
)

df_dist.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",1
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",1


Agora, vamos associar os distritos e subprefeituras.

In [91]:
df_dist_sub = df_dist.merge(
    df_subs[['cd_subprefeitura', 'nm_subprefeitura']],
    on='cd_subprefeitura',
    how='left'
)
df_dist_sub.sort_values('cd_subprefeitura')

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura,nm_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",01,PERUS
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",01,PERUS
87,distrito_municipal.8583481,8583481,2,42,JARAGUA,JAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.797000+00:00,,199299399,28.111,28111480.23,"POLYGON ((319331.738 7402448.876, 319278.779 7...",02,PIRITUBA-JARAGUA
21,distrito_municipal.8583415,8583415,2,95,SAO DOMINGOS,SDO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.137000+00:00,,199299399,9.693,9693355.95,"POLYGON ((319878.693 7402906.129, 319884.382 7...",02,PIRITUBA-JARAGUA
12,distrito_municipal.8583406,8583406,2,63,PIRITUBA,PIR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.886000+00:00,,199299399,17.216,17216180.68,"POLYGON ((325098.097 7405104.04, 325094.984 74...",02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78,distrito_municipal.8583472,8583472,30,33,IGUATEMI,IGU,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.895000+00:00,,199299399,19.435,19434636.54,"POLYGON ((350874.784 7389641.837, 350875.63 73...",30,SAO MATEUS
25,distrito_municipal.8583419,8583419,30,75,SAO RAFAEL,SRA,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.912000+00:00,,199299399,13.076,13076288.46,"POLYGON ((348922.57 7386626.427, 348923.784 73...",30,SAO MATEUS
23,distrito_municipal.8583417,8583417,30,73,SAO MATEUS,SMT,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.117000+00:00,,199299399,12.800,12800219.28,"POLYGON ((348623.992 7386632.011, 348628.153 7...",30,SAO MATEUS
71,distrito_municipal.8583465,8583465,31,25,CIDADE TIRADENTES,CTI,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.745000+00:00,,199299399,14.939,14939046.96,"POLYGON ((357428.688 7387653.528, 357433.497 7...",31,CIDADE TIRADENTES


Aparentemente, os dados de distritos e subprefeituras estão compatíveis, então vamos adicionar a coluna de subprefeitura aos outros dataframes.

### Número de Unidades Escolares

In [92]:
escolas_24 = escolas_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

escolas_24

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE,NOMES_COMPLETO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,35098711.0,1678110.0,,DIR,EMEI PAULO CAMILHIER FLORENCANO,GUAIANASES,28,GUAIANASES
1,94,EMEI,VICENTE PAULO DA SILVA,CASA VERDE/CACHOEIRINHA,LIMAO,35098361.0,1670158.0,,DIR,EMEI VICENTE PAULO DA SILVA,LIMAO,04,CASA VERDE-CACHOEIRINHA
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,1677116.0,VILA NITRO OPERARIA,DIR,"EMEF JOSE ERMIRIO DE MORAES, SEN.",JARDIM HELENA,23,SAO MIGUEL
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,1679154.0,,DIR,"EMEF ALIPIO CORREA NETO, PROF.",VILA SONIA,10,BUTANTA
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,1671138.0,,DIR,"EMEBS VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4168,600047,ESP CONV,ASSOCIACAO CASA DOS DEFICIENTES DE ERMELINO MA...,SAO MIGUEL,SAO MIGUEL,,,ASSOCIACAO CASA DOS DEFICIENTES DE ERMELINO M,CON,ESP CONV ASSOCIACAO CASA DOS DEFICIENTES DE ER...,SAO MIGUEL,23,SAO MIGUEL
4169,600050,ESP CONV,AACD - ASS DE ASS A CRIANCA DEFICIENTE - UNID ...,MOOCA,MOOCA,,,AACD - ASS DE ASS A CRIANCA DEFICIENTE - UNID,CON,ESP CONV AACD - ASS DE ASS A CRIANCA DEFICIENT...,MOOCA,25,MOOCA
4170,600051,ESP CONV,APAE - NUCLEO CAPELA DO SOCORRO,CAPELA DO SOCORRO,CIDADE DUTRA,,,APAE,CON,ESP CONV APAE - NUCLEO CAPELA DO SOCORRO,CIDADE DUTRA,19,CAPELA DO SOCORRO
4171,600052,ESP CONV,APAE - NUCLEO CAMPO LIMPO,CAMPO LIMPO,CAMPO LIMPO,,,APAE,CON,ESP CONV APAE - NUCLEO CAMPO LIMPO,CAMPO LIMPO,17,CAMPO LIMPO


In [93]:
escolas_24[escolas_24['nm_subprefeitura'].isna()]

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE,NOMES_COMPLETO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Perfil dos alunos

In [94]:
alunos_24 = alunos_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,VILA SONIA,DIR,FUND,F,,PARDA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA
1,VILA SONIA,DIR,FUND,F,,BRANCA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA
2,VILA SONIA,DIR,FUND,F,,PARDA,8,Ensino Fundamental,VILA SONIA,10,BUTANTA
3,VILA SONIA,DIR,FUND,F,,PRETA,2,Ensino Fundamental,VILA SONIA,10,BUTANTA
4,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1,Ensino Fundamental,VILA SONIA,10,BUTANTA
...,...,...,...,...,...,...,...,...,...,...,...
266342,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS
266343,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2,Educação Especial,SAO MATEUS,30,SAO MATEUS
266344,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS
266345,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS


In [95]:
alunos_24[alunos_24['nm_subprefeitura'].isna()]

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de alunos estrangeiros

In [96]:
alunos_est_2024 = alunos_est_2024.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,ALTO DE PINHEIROS,42,CHINA,CRECHE,CON,1,Educação Infantil,ALTO DE PINHEIROS,11,PINHEIROS
1,ALTO DE PINHEIROS,226,SERRA LEOA,CRECHE,CON,1,Educação Infantil,ALTO DE PINHEIROS,11,PINHEIROS
2,BUTANTA,26,COLÔMBIA,FUND,DIR,1,Ensino Fundamental,BUTANTA,10,BUTANTA
3,BUTANTA,31,BÉLGICA,FUND,DIR,1,Ensino Fundamental,BUTANTA,10,BUTANTA
4,BUTANTA,36,ESTADOS UNIDOS DA AMÉRICA (EUA),CRECHE,CON,2,Educação Infantil,BUTANTA,10,BUTANTA
...,...,...,...,...,...,...,...,...,...,...
3854,SAPOPEMBA,185,CONGO,FUND,DIR,1,Ensino Fundamental,SAPOPEMBA,32,SAPOPEMBA
3855,SAPOPEMBA,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,SAPOPEMBA,32,SAPOPEMBA
3856,SAPOPEMBA,277,SÍRIA,EJA,DIR,1,Educação de Jovens e Adultos,SAPOPEMBA,32,SAPOPEMBA
3857,SAPOPEMBA,281,TURQUIA,CRECHE,CON,1,Educação Infantil,SAPOPEMBA,32,SAPOPEMBA


In [97]:
alunos_est_2024[alunos_est_2024['nm_subprefeitura'].isna()]

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de alunos beneficiários do Bolsa Família

In [98]:
alunos_bf_2024 = alunos_bf_2024.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0,Educação Infantil,GUAIANASES,28,GUAIANASES
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0,Educação Infantil,LIMAO,04,CASA VERDE-CACHOEIRINHA
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0,Educação Infantil,JARDIM HELENA,23,SAO MIGUEL
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0,Educação Infantil,VILA SONIA,10,BUTANTA
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0,Educação Infantil,PIRITUBA,02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0,Educação Especial,SAO LUCAS,29,VILA PRUDENTE
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0,Educação Especial,TREMEMBE,06,JACANA-TREMEMBE
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0,Educação Especial,PONTE RASA,22,ERMELINO MATARAZZO
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0,Educação Especial,BRASILANDIA,03,FREGUESIA-BRASILANDIA


In [99]:
alunos_bf_2024[alunos_bf_2024['nm_subprefeitura'].isna()]

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de professores da Rede Municipal de Ensino

In [100]:
perf_24 = perf_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE


In [101]:
perf_24[perf_24['nm_subprefeitura'].isna() & ~perf_24['DISTRITO'].isna()]

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


## Adicionando tempo de atuação dos educadores na SME

In [102]:
ref_date = pd.to_datetime('2023-12-31')
ref_date

Timestamp('2023-12-31 00:00:00')

No ano de 2024, a coluna de data de início de atuação dos educadores foi disponibilizada com o formato numérico usado pelo Excel, que é o número de dias desde 30/12/1899. Vamos converter essa coluna para o formato de data.

In [103]:
perf_24['DT_INICIO_CARGO_BASE'] = perf_24['DT_INICIO_CARGO_BASE'].apply(
    lambda x: pd.to_datetime(xldate.xldate_as_datetime(x, 0))
    if isinstance(x, (int, float)) else pd.NaT
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,DC_AREA_ATUACAO_BASE,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,...,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE


In [104]:
perf_24['TEMPO_ATUACAO_SME'] =  ref_date - perf_24['DT_INICIO_CARGO_BASE']

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,...,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI,5702 days
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,...,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,...,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days


In [105]:
perf_24['DIAS_ATUACAO_SME'] =  perf_24['TEMPO_ATUACAO_SME'].dt.days

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME,DIAS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days,3631
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,...,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days,5703
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days,11048
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days,11686
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI,5702 days,5702
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,...,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days,3575
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days,4566
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days,4563
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,...,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days,1909


In [106]:
perf_24['ANOS_ATUACAO_SME'] =  perf_24['TEMPO_ATUACAO_SME'].dt.days / 365.25
perf_24['ANOS_ATUACAO_SME'] = round(perf_24['ANOS_ATUACAO_SME'], 2)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME,DIAS_ATUACAO_SME,ANOS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days,3631,9.94
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,...,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days,5703,15.61
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days,11048,30.25
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days,11686,31.99
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI,5702 days,5702,15.61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,...,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days,3575,9.79
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days,4566,12.50
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days,4563,12.49
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,...,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days,1909,5.23


In [107]:
perf_24 = perf_24.drop(columns='TEMPO_ATUACAO_SME')
perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,DC_SIT_FUNC,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,...,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,DIAS_ATUACAO_SME,ANOS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631,9.94
1,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,...,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703,15.61
2,F,1311820840,BRANCA,12727970840,EFETIVO,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,...,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048,30.25
3,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,...,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686,31.99
4,F,1311820840,BRANCA,12727970840,EFETIVO,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,...,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,TUCURUVI,TUCURUVI,05,SANTANA-TUCURUVI,5702,15.61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,...,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575,9.79
72339,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,...,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566,12.50
72340,F,6361921931,NAO INFORMADA,12727970840,EFETIVO,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,...,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563,12.49
72341,F,93911221827,PARDA,12727970840,EFETIVO,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,...,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909,5.23


## Adicionando chave composta nível padronizado e Subprefeitura

### Criando tabela de níveis padronizados e subprefeituras

In [108]:
nivel_padronizado = pd.DataFrame(
    data=['Educação Infantil',
          'Ensino Fundamental',
          'Ensino Médio',
          'Educação de Jovens e Adultos',
          'Educação Especial'],
    columns=['Nível padronizado']
)

nivel_padronizado

Unnamed: 0,Nível padronizado
0,Educação Infantil
1,Ensino Fundamental
2,Ensino Médio
3,Educação de Jovens e Adultos
4,Educação Especial


In [109]:
nivel_padronizado = (
    nivel_padronizado
    .merge(df_subs['nm_subprefeitura'], how='cross')
)

nivel_padronizado

Unnamed: 0,Nível padronizado,nm_subprefeitura
0,Educação Infantil,PIRITUBA-JARAGUA
1,Educação Infantil,FREGUESIA-BRASILANDIA
2,Educação Infantil,CASA VERDE-CACHOEIRINHA
3,Educação Infantil,SANTANA-TUCURUVI
4,Educação Infantil,JACANA-TREMEMBE
...,...,...
155,Educação Especial,JABAQUARA
156,Educação Especial,SANTO AMARO
157,Educação Especial,CIDADE TIRADENTES
158,Educação Especial,PERUS


In [110]:
nivel_padronizado['nivel_subprefeitura'] = (
    nivel_padronizado['Nível padronizado']
    + '|'
    + nivel_padronizado['nm_subprefeitura']
)

nivel_padronizado

Unnamed: 0,Nível padronizado,nm_subprefeitura,nivel_subprefeitura
0,Educação Infantil,PIRITUBA-JARAGUA,Educação Infantil|PIRITUBA-JARAGUA
1,Educação Infantil,FREGUESIA-BRASILANDIA,Educação Infantil|FREGUESIA-BRASILANDIA
2,Educação Infantil,CASA VERDE-CACHOEIRINHA,Educação Infantil|CASA VERDE-CACHOEIRINHA
3,Educação Infantil,SANTANA-TUCURUVI,Educação Infantil|SANTANA-TUCURUVI
4,Educação Infantil,JACANA-TREMEMBE,Educação Infantil|JACANA-TREMEMBE
...,...,...,...
155,Educação Especial,JABAQUARA,Educação Especial|JABAQUARA
156,Educação Especial,SANTO AMARO,Educação Especial|SANTO AMARO
157,Educação Especial,CIDADE TIRADENTES,Educação Especial|CIDADE TIRADENTES
158,Educação Especial,PERUS,Educação Especial|PERUS


### Adicionando a coluna de nível padronizado e subprefeitura aos outros dataframes

In [111]:
alunos_24 = alunos_24.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,VILA SONIA,DIR,FUND,F,,PARDA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
1,VILA SONIA,DIR,FUND,F,,BRANCA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
2,VILA SONIA,DIR,FUND,F,,PARDA,8,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
3,VILA SONIA,DIR,FUND,F,,PRETA,2,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
4,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
...,...,...,...,...,...,...,...,...,...,...,...,...
266342,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
266343,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
266344,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
266345,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS


In [112]:
alunos_est_2024 = alunos_est_2024.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,ALTO DE PINHEIROS,42,CHINA,CRECHE,CON,1,Educação Infantil,ALTO DE PINHEIROS,11,PINHEIROS,Educação Infantil|PINHEIROS
1,ALTO DE PINHEIROS,226,SERRA LEOA,CRECHE,CON,1,Educação Infantil,ALTO DE PINHEIROS,11,PINHEIROS,Educação Infantil|PINHEIROS
2,BUTANTA,26,COLÔMBIA,FUND,DIR,1,Ensino Fundamental,BUTANTA,10,BUTANTA,Ensino Fundamental|BUTANTA
3,BUTANTA,31,BÉLGICA,FUND,DIR,1,Ensino Fundamental,BUTANTA,10,BUTANTA,Ensino Fundamental|BUTANTA
4,BUTANTA,36,ESTADOS UNIDOS DA AMÉRICA (EUA),CRECHE,CON,2,Educação Infantil,BUTANTA,10,BUTANTA,Educação Infantil|BUTANTA
...,...,...,...,...,...,...,...,...,...,...,...
3854,SAPOPEMBA,185,CONGO,FUND,DIR,1,Ensino Fundamental,SAPOPEMBA,32,SAPOPEMBA,Ensino Fundamental|SAPOPEMBA
3855,SAPOPEMBA,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,SAPOPEMBA,32,SAPOPEMBA,Ensino Fundamental|SAPOPEMBA
3856,SAPOPEMBA,277,SÍRIA,EJA,DIR,1,Educação de Jovens e Adultos,SAPOPEMBA,32,SAPOPEMBA,Educação de Jovens e Adultos|SAPOPEMBA
3857,SAPOPEMBA,281,TURQUIA,CRECHE,CON,1,Educação Infantil,SAPOPEMBA,32,SAPOPEMBA,Educação Infantil|SAPOPEMBA


In [113]:
alunos_bf_2024 = alunos_bf_2024.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0,Educação Infantil,GUAIANASES,28,GUAIANASES,Educação Infantil|GUAIANASES
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0,Educação Infantil,LIMAO,04,CASA VERDE-CACHOEIRINHA,Educação Infantil|CASA VERDE-CACHOEIRINHA
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0,Educação Infantil,JARDIM HELENA,23,SAO MIGUEL,Educação Infantil|SAO MIGUEL
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0,Educação Infantil,VILA SONIA,10,BUTANTA,Educação Infantil|BUTANTA
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0,Educação Infantil,PIRITUBA,02,PIRITUBA-JARAGUA,Educação Infantil|PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0,Educação Especial,SAO LUCAS,29,VILA PRUDENTE,Educação Especial|VILA PRUDENTE
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0,Educação Especial,TREMEMBE,06,JACANA-TREMEMBE,Educação Especial|JACANA-TREMEMBE
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0,Educação Especial,PONTE RASA,22,ERMELINO MATARAZZO,Educação Especial|ERMELINO MATARAZZO
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0,Educação Especial,BRASILANDIA,03,FREGUESIA-BRASILANDIA,Educação Especial|FREGUESIA-BRASILANDIA


## Orçamento da função Educação

Para o orçamento, além de padronizar os nomes de subprefeituras e tipos de dados das métricas, precisaremos também adaptar os dados para compatibilizar o orçamento regionalizado e não realizado. Para isso, vamos fazer o seguinte:

1. Classificar o orçamento detalhado por nível de regionalização nas seguintes categorias: subprefeitura, região e não regionalizável;
1. Agrupar o restante do orçamento não detalhado e manter apenas o orçamento inicial, atualizado e liquidado;
1. Subtrair o total do orçamento detalhado do orçamento não detalhado e classificar o nível de regionalização como não regionalizado;
1. Unir os dois dataframes de orçamento de acordo com as dimensões mantidas.

### Orçamento regionalizado

In [114]:
df_orcamento_r.head(1)

Unnamed: 0,COD_EMPRESA_PMSP,COD_EMPENHO,ANO_EMPENHO,CÓDIGO_NLP,ANO_LIQUIDAÇÃO,DATA_LIQUIDAÇÃO,CÓDIGO_ÓRGÃO,SIGLA_ÓRGÃO,DESCRIÇÃO_ÓRGÃO,CÓDIGO_UNIDADE,...,DESCRIÇÃO_FONTE,CÓDIGO_EXERCÍCIO_FONTE,CÓDIGO_DESTINAÇÃO_RECURSO,CÓDIGO_VÍNCULO_PMSP,CÓDIGO_TIPO_CRÉDITO_ORÇAMENTÁRIO,REGIÃO,SUBPREFEITURA,DISTRITO,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
11,1,1,2024,72189,2024,2024-03-18 00:00:00.0000000,16,SME,Secretaria Municipal de Educação,10,...,Recursos não vinculados de Impostos,1,500,9001,0,Supra-Regional,Supra Subprefeitura,Supra-Distrital,Despesa Não-Regionalizável,84181.62


In [115]:
cols_orcamento_r = ['CÓDIGO_SUBFUNÇÃO', 'DESCRIÇÃO_SUBFUNÇÃO',
                    'CÓDIGO_FONTE', 'REGIÃO',
                    'SUBPREFEITURA', 'TIPO_REGIONALIZAÇÃO']

cols_orcamento_r_vl = ['VALOR_DETALHAMENTO_AÇÃO']

df_orcamento_r = df_orcamento_r[cols_orcamento_r + cols_orcamento_r_vl]
df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
11,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,84181.62
12,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,926.39
13,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,91415.48
14,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,964.51
15,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,88176.28
...,...,...,...,...,...,...,...
493950,363,Ensino Profissional,00,,,,
493951,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,11467.36
493952,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,8665.06
493953,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,397.05


In [116]:
df_orcamento_r['TIPO_REGIONALIZAÇÃO'].value_counts()

TIPO_REGIONALIZAÇÃO
Despesa Regionalizável        88092
Despesa Não-Regionalizável    18241
Name: count, dtype: int64

In [117]:
df_orcamento_r.loc[df_orcamento_r['TIPO_REGIONALIZAÇÃO'].isna(), 'TIPO_REGIONALIZAÇÃO'] = 'Despesa Não-Regionalizável'
df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
11,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,84181.62
12,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,926.39
13,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,91415.48
14,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,964.51
15,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,88176.28
...,...,...,...,...,...,...,...
493950,363,Ensino Profissional,00,,,Despesa Não-Regionalizável,
493951,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,11467.36
493952,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,8665.06
493953,363,Ensino Profissional,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,397.05


In [118]:
df_orcamento_r['TIPO_REGIONALIZAÇÃO'].value_counts()

TIPO_REGIONALIZAÇÃO
Despesa Regionalizável        88092
Despesa Não-Regionalizável    52538
Name: count, dtype: int64

In [119]:
df_orcamento_r = df_orcamento_r.groupby(cols_orcamento_r).sum().round(2).reset_index()

df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08
...,...,...,...,...,...,...,...
278,368,Educação Básica,00,Sul,Subprefeitura Santo Amaro,Despesa Regionalizável,7.164826e+05
279,368,Educação Básica,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.676908e+06
280,368,Educação Básica,00,Sul,Supra Subprefeitura Sul,Despesa Regionalizável,3.167627e+07
281,368,Educação Básica,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,2.151326e+08


In [120]:
df_orcamento_r.loc[
    ~df_orcamento_r['REGIÃO'].str.contains('Supra', na=False),
    'NIVEL_REGIONALIZAÇÃO'] = 'Região'

df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO,NIVEL_REGIONALIZAÇÃO
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Região
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Região
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Região
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,
...,...,...,...,...,...,...,...,...
278,368,Educação Básica,00,Sul,Subprefeitura Santo Amaro,Despesa Regionalizável,7.164826e+05,Região
279,368,Educação Básica,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.676908e+06,Região
280,368,Educação Básica,00,Sul,Supra Subprefeitura Sul,Despesa Regionalizável,3.167627e+07,Região
281,368,Educação Básica,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,2.151326e+08,


In [121]:
df_orcamento_r.loc[
    ~df_orcamento_r['SUBPREFEITURA'].str.contains('Supra', na=False),
    'NIVEL_REGIONALIZAÇÃO'] = 'Subprefeitura'

df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO,NIVEL_REGIONALIZAÇÃO
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Subprefeitura
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Subprefeitura
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Subprefeitura
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,
...,...,...,...,...,...,...,...,...
278,368,Educação Básica,00,Sul,Subprefeitura Santo Amaro,Despesa Regionalizável,7.164826e+05,Subprefeitura
279,368,Educação Básica,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.676908e+06,Subprefeitura
280,368,Educação Básica,00,Sul,Supra Subprefeitura Sul,Despesa Regionalizável,3.167627e+07,Região
281,368,Educação Básica,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,2.151326e+08,


In [122]:
df_orcamento_r.loc[df_orcamento_r['NIVEL_REGIONALIZAÇÃO'].isna(), 'NIVEL_REGIONALIZAÇÃO'] = 'Não regionalizável'
df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,VALOR_DETALHAMENTO_AÇÃO,NIVEL_REGIONALIZAÇÃO
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Subprefeitura
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Subprefeitura
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Subprefeitura
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,Não regionalizável
...,...,...,...,...,...,...,...,...
278,368,Educação Básica,00,Sul,Subprefeitura Santo Amaro,Despesa Regionalizável,7.164826e+05,Subprefeitura
279,368,Educação Básica,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.676908e+06,Subprefeitura
280,368,Educação Básica,00,Sul,Supra Subprefeitura Sul,Despesa Regionalizável,3.167627e+07,Região
281,368,Educação Básica,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,2.151326e+08,Não regionalizável


### Orçamento não regionalizado

In [123]:
df_orcamento.head(1)

Unnamed: 0,DataInicial,DataFinal,Cd_AnoExecucao,Cd_Exercicio,Cd_Dotacao_Id,Administracao,Cd_Orgao,Sigla_Orgao,Ds_Orgao,Cd_Unidade,...,Vl_Congelado,Vl_Descongelado,Vl_CongeladoLiquido,Disponivel,Vl_ReservadoLiquido,Vl_EmpenhadoLiquido,Vl_Liquidado,Vl_Pago,Saldo_Dotacao,DataExtracao
589,01/01/2024,31/12/2024,2024,2024,174256,Direta,16,SME,Secretaria Municipal de Educação,10,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0,2025-01-18


In [124]:
cols_orcamento = ['Cd_SubFuncao', 'Ds_SubFuncao', 'Cd_Fonte']

cols_orcamento_vl = ['Vl_Orcado_Ano', 'Vl_Orcado_Atualizado', 'Vl_Liquidado']

df_orcamento_original = df_orcamento.copy()
df_orcamento = df_orcamento[cols_orcamento + cols_orcamento_vl]
df_orcamento

Unnamed: 0,Cd_SubFuncao,Ds_SubFuncao,Cd_Fonte,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado
589,122,Administração Geral,00,0.0,0.00,0.00
590,122,Administração Geral,00,0.0,100000.00,100000.00
591,122,Administração Geral,00,0.0,39535.03,657.91
592,122,Administração Geral,00,0.0,0.00,0.00
593,122,Administração Geral,00,1000.0,0.00,0.00
...,...,...,...,...,...,...
8946,363,Ensino Profissional,00,0.0,1497.82,1497.82
8947,363,Ensino Profissional,00,10000.0,0.00,0.00
8948,363,Ensino Profissional,00,0.0,0.00,0.00
8949,363,Ensino Profissional,00,30000.0,0.00,0.00


In [125]:
df_orcamento = df_orcamento.groupby(cols_orcamento).sum().reset_index()
df_orcamento

Unnamed: 0,Cd_SubFuncao,Ds_SubFuncao,Cd_Fonte,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado
0,122,Administração Geral,0,870876600.0,951817000.0,887533500.0
1,122,Administração Geral,8,1040.0,1040.0,0.0
2,126,Tecnologia da Informação,0,319260100.0,277911300.0,222836300.0
3,126,Tecnologia da Informação,2,0.0,0.0,0.0
4,128,Formação de Recursos Humanos,0,55594750.0,17538870.0,13010200.0
5,131,Comunicação Social,0,600000.0,0.0,0.0
6,271,Previdência Básica,0,3852806000.0,3770576000.0,3763374000.0
7,306,Alimentação e Nutrição,0,781571000.0,881144100.0,692081600.0
8,306,Alimentação e Nutrição,2,693777200.0,785747000.0,667271800.0
9,306,Alimentação e Nutrição,7,100000000.0,0.0,0.0


In [126]:
r_agg_cols = ['CÓDIGO_SUBFUNÇÃO', 'CÓDIGO_FONTE']

agg_cols = ['Cd_SubFuncao', 'Cd_Fonte']

df_orcamento_r_agg = (
    df_orcamento_r[r_agg_cols + ['VALOR_DETALHAMENTO_AÇÃO']]
    .groupby(r_agg_cols)
    .sum()
    .reset_index()
)

df_orcamento_r_agg.loc[:, 'VALOR_DETALHAMENTO_AÇÃO'] = (
    df_orcamento_r_agg
    .loc[:, 'VALOR_DETALHAMENTO_AÇÃO']
    .round(2)
)

df_orcamento_ajustado = df_orcamento.merge(
    df_orcamento_r_agg,
    left_on=agg_cols,
    right_on=r_agg_cols,
    how='left'
).drop(columns=r_agg_cols)

df_orcamento_ajustado

Unnamed: 0,Cd_SubFuncao,Ds_SubFuncao,Cd_Fonte,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado,VALOR_DETALHAMENTO_AÇÃO
0,122,Administração Geral,0,870876600.0,951817000.0,887533500.0,126685800.0
1,122,Administração Geral,8,1040.0,1040.0,0.0,
2,126,Tecnologia da Informação,0,319260100.0,277911300.0,222836300.0,222730200.0
3,126,Tecnologia da Informação,2,0.0,0.0,0.0,
4,128,Formação de Recursos Humanos,0,55594750.0,17538870.0,13010200.0,12992940.0
5,131,Comunicação Social,0,600000.0,0.0,0.0,
6,271,Previdência Básica,0,3852806000.0,3770576000.0,3763374000.0,3763374000.0
7,306,Alimentação e Nutrição,0,781571000.0,881144100.0,692081600.0,687352900.0
8,306,Alimentação e Nutrição,2,693777200.0,785747000.0,667271800.0,663359500.0
9,306,Alimentação e Nutrição,7,100000000.0,0.0,0.0,


In [127]:
df_orcamento_ajustado.loc[df_orcamento_ajustado['VALOR_DETALHAMENTO_AÇÃO'].isna(), 'VALOR_DETALHAMENTO_AÇÃO'] = 0

df_orcamento_ajustado.loc[:, 'Vl_Liquidado_N_Detalhado'] = (
    df_orcamento_ajustado.loc[:, 'Vl_Liquidado']
    - df_orcamento_ajustado.loc[:, 'VALOR_DETALHAMENTO_AÇÃO']).round(2)

df_orcamento_ajustado

Unnamed: 0,Cd_SubFuncao,Ds_SubFuncao,Cd_Fonte,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado,VALOR_DETALHAMENTO_AÇÃO,Vl_Liquidado_N_Detalhado
0,122,Administração Geral,0,870876600.0,951817000.0,887533500.0,126685800.0,760847700.0
1,122,Administração Geral,8,1040.0,1040.0,0.0,0.0,0.0
2,126,Tecnologia da Informação,0,319260100.0,277911300.0,222836300.0,222730200.0,106155.4
3,126,Tecnologia da Informação,2,0.0,0.0,0.0,0.0,0.0
4,128,Formação de Recursos Humanos,0,55594750.0,17538870.0,13010200.0,12992940.0,17257.3
5,131,Comunicação Social,0,600000.0,0.0,0.0,0.0,0.0
6,271,Previdência Básica,0,3852806000.0,3770576000.0,3763374000.0,3763374000.0,359.84
7,306,Alimentação e Nutrição,0,781571000.0,881144100.0,692081600.0,687352900.0,4728664.0
8,306,Alimentação e Nutrição,2,693777200.0,785747000.0,667271800.0,663359500.0,3912249.0
9,306,Alimentação e Nutrição,7,100000000.0,0.0,0.0,0.0,0.0


In [128]:
df_orcamento_ajustado[df_orcamento_ajustado['Vl_Liquidado_N_Detalhado']<0]

Unnamed: 0,Cd_SubFuncao,Ds_SubFuncao,Cd_Fonte,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado,VALOR_DETALHAMENTO_AÇÃO,Vl_Liquidado_N_Detalhado


In [129]:
df_orcamento_ajustado[['Vl_Liquidado', 'VALOR_DETALHAMENTO_AÇÃO']].sum()

Vl_Liquidado               2.611063e+10
VALOR_DETALHAMENTO_AÇÃO    1.406720e+10
dtype: float64

### Unindo os dados de orçamento

Agora, vamos adicionar os dados não detalhados ao dataframe que contém o orçamento detalhado.

In [130]:
orcamento_cols_map = {'Cd_SubFuncao': 'CÓDIGO_SUBFUNÇÃO',
                      'Ds_SubFuncao': 'DESCRIÇÃO_SUBFUNÇÃO',
                      'Cd_Fonte': 'CÓDIGO_FONTE',
                    #   'Ds_Fonte': 'DESCRIÇÃO_FONTE',
                      'Vl_Liquidado_N_Detalhado': 'Vl_Liquidado'}

df_orcamento_ajustado = (
    df_orcamento_ajustado
    .drop(columns=['VALOR_DETALHAMENTO_AÇÃO', 'Vl_Liquidado'])
    .rename(columns=orcamento_cols_map)
    )

df_orcamento_ajustado

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Vl_Liquidado
0,122,Administração Geral,0,870876600.0,951817000.0,760847700.0
1,122,Administração Geral,8,1040.0,1040.0,0.0
2,126,Tecnologia da Informação,0,319260100.0,277911300.0,106155.4
3,126,Tecnologia da Informação,2,0.0,0.0,0.0
4,128,Formação de Recursos Humanos,0,55594750.0,17538870.0,17257.3
5,131,Comunicação Social,0,600000.0,0.0,0.0
6,271,Previdência Básica,0,3852806000.0,3770576000.0,359.84
7,306,Alimentação e Nutrição,0,781571000.0,881144100.0,4728664.0
8,306,Alimentação e Nutrição,2,693777200.0,785747000.0,3912249.0
9,306,Alimentação e Nutrição,7,100000000.0,0.0,0.0


In [131]:
df_orcamento_r = (df_orcamento_r
                  .rename(columns={'VALOR_DETALHAMENTO_AÇÃO': 'Vl_Liquidado'}))

df_orcamento_r

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,NIVEL_REGIONALIZAÇÃO
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Subprefeitura
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Subprefeitura
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Subprefeitura
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,Não regionalizável
...,...,...,...,...,...,...,...,...
278,368,Educação Básica,00,Sul,Subprefeitura Santo Amaro,Despesa Regionalizável,7.164826e+05,Subprefeitura
279,368,Educação Básica,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.676908e+06,Subprefeitura
280,368,Educação Básica,00,Sul,Supra Subprefeitura Sul,Despesa Regionalizável,3.167627e+07,Região
281,368,Educação Básica,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,2.151326e+08,Não regionalizável


In [132]:
df_orcamento_final = pd.concat([df_orcamento_r, df_orcamento_ajustado])

df_orcamento_final

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região,,
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Subprefeitura,,
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Subprefeitura,,
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Subprefeitura,,
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,Não regionalizável,,
...,...,...,...,...,...,...,...,...,...,...
30,368,Educação Básica,09,,,,0.000000e+00,,2000.0,2000.0
31,422,"Direitos Individuais, Coletivos e Difusos",00,,,,0.000000e+00,,900000.0,0.0
32,422,"Direitos Individuais, Coletivos e Difusos",08,,,,0.000000e+00,,23000000.0,20150000.0
33,451,Infra-Estrutura Urbana,00,,,,0.000000e+00,,1000.0,0.0


In [133]:
df_orcamento_final.loc[df_orcamento_final['Vl_Orcado_Ano'].isna(),
                       'Vl_Orcado_Ano'] = 0
df_orcamento_final.loc[df_orcamento_final['Vl_Orcado_Atualizado'].isna(),
                       'Vl_Orcado_Atualizado'] = 0
df_orcamento_final.loc[df_orcamento_final['NIVEL_REGIONALIZAÇÃO'].isna(),
                       'NIVEL_REGIONALIZAÇÃO'] = 'Não detalhado'

df_orcamento_final

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,Região,0.0,0.0
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,Subprefeitura,0.0,0.0
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,Subprefeitura,0.0,0.0
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,Subprefeitura,0.0,0.0
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,Não regionalizável,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
30,368,Educação Básica,09,,,,0.000000e+00,Não detalhado,2000.0,2000.0
31,422,"Direitos Individuais, Coletivos e Difusos",00,,,,0.000000e+00,Não detalhado,900000.0,0.0
32,422,"Direitos Individuais, Coletivos e Difusos",08,,,,0.000000e+00,Não detalhado,23000000.0,20150000.0
33,451,Infra-Estrutura Urbana,00,,,,0.000000e+00,Não detalhado,1000.0,0.0


### Padronizando os nomes de subprefeituras

In [134]:
subs_orcamento = (
    df_orcamento_final.loc[~df_orcamento_final['SUBPREFEITURA'].isna(), 'SUBPREFEITURA']
    .apply(unidecode)
    .unique()
    .tolist()
)

subs_orcamento.sort()

subs_orcamento

['Subprefeitura Aricanduva/Formosa/Carrao',
 'Subprefeitura Butanta',
 'Subprefeitura Campo Limpo',
 'Subprefeitura Capela do Socorro',
 'Subprefeitura Casa Verde/Cachoeirinha',
 'Subprefeitura Cidade Ademar',
 'Subprefeitura Cidade Tiradentes',
 'Subprefeitura Ermelino Matarazzo',
 'Subprefeitura Freguesia/Brasilandia',
 'Subprefeitura Ipiranga',
 'Subprefeitura Itaim Paulista',
 'Subprefeitura Itaquera',
 'Subprefeitura Jabaquara',
 'Subprefeitura Jacana/Tremembe',
 'Subprefeitura Lapa',
 "Subprefeitura M'Boi Mirim",
 'Subprefeitura Mooca',
 'Subprefeitura Parelheiros',
 'Subprefeitura Penha',
 'Subprefeitura Perus/Anhanguera',
 'Subprefeitura Pinheiros',
 'Subprefeitura Pirituba/Jaragua',
 'Subprefeitura Santana/Tucuruvi',
 'Subprefeitura Santo Amaro',
 'Subprefeitura Sao Mateus',
 'Subprefeitura Sao Miguel Paulista',
 'Subprefeitura Sapopemba',
 'Subprefeitura Se',
 'Subprefeitura Vila Maria/Vila Guilherme',
 'Subprefeitura Vila Mariana',
 'Subprefeitura de Guaianases',
 'Subprefei

In [135]:
subs_orcamento[:-6]

['Subprefeitura Aricanduva/Formosa/Carrao',
 'Subprefeitura Butanta',
 'Subprefeitura Campo Limpo',
 'Subprefeitura Capela do Socorro',
 'Subprefeitura Casa Verde/Cachoeirinha',
 'Subprefeitura Cidade Ademar',
 'Subprefeitura Cidade Tiradentes',
 'Subprefeitura Ermelino Matarazzo',
 'Subprefeitura Freguesia/Brasilandia',
 'Subprefeitura Ipiranga',
 'Subprefeitura Itaim Paulista',
 'Subprefeitura Itaquera',
 'Subprefeitura Jabaquara',
 'Subprefeitura Jacana/Tremembe',
 'Subprefeitura Lapa',
 "Subprefeitura M'Boi Mirim",
 'Subprefeitura Mooca',
 'Subprefeitura Parelheiros',
 'Subprefeitura Penha',
 'Subprefeitura Perus/Anhanguera',
 'Subprefeitura Pinheiros',
 'Subprefeitura Pirituba/Jaragua',
 'Subprefeitura Santana/Tucuruvi',
 'Subprefeitura Santo Amaro',
 'Subprefeitura Sao Mateus',
 'Subprefeitura Sao Miguel Paulista',
 'Subprefeitura Sapopemba',
 'Subprefeitura Se',
 'Subprefeitura Vila Maria/Vila Guilherme',
 'Subprefeitura Vila Mariana',
 'Subprefeitura de Guaianases',
 'Subprefei

In [136]:
len(subs_orcamento[:-6])

32

In [137]:
subs_qlik = df_subs_qlik['sub.NOME'].unique().tolist()
subs_qlik.sort()
subs_qlik

['ARICANDUVA-FORMOSA-CARRAO',
 'BUTANTA',
 'CAMPO LIMPO',
 'CAPELA DO SOCORRO',
 'CASA VERDE-CACHOEIRINHA',
 'CIDADE ADEMAR',
 'CIDADE TIRADENTES',
 'ERMELINO MATARAZZO',
 'FREGUESIA-BRASILANDIA',
 'GUAIANASES',
 'IPIRANGA',
 'ITAIM PAULISTA',
 'ITAQUERA',
 'JABAQUARA',
 'JACANA-TREMEMBE',
 'LAPA',
 'M BOI MIRIM',
 'MOOCA',
 'PARELHEIROS',
 'PENHA',
 'PERUS',
 'PINHEIROS',
 'PIRITUBA-JARAGUA',
 'SANTANA-TUCURUVI',
 'SANTO AMARO',
 'SAO MATEUS',
 'SAO MIGUEL',
 'SAPOPEMBA',
 'SE',
 'VILA MARIA-VILA GUILHERME',
 'VILA MARIANA',
 'VILA PRUDENTE']

In [138]:
subs_qlik_orcamento = subs_qlik.copy()
# Guainases e Vila Prudente aparecem em uma ordenação diferente, por isso serão
# removidas e adicionadas novamente ao final da lista
subs_qlik_orcamento.remove('GUAIANASES')
subs_qlik_orcamento.remove('VILA PRUDENTE')
subs_qlik_orcamento.append('GUAIANASES')
subs_qlik_orcamento.append('VILA PRUDENTE')

In [139]:
mapper_orcamento = {
    so: sq
    for so, sq in zip(subs_orcamento, subs_qlik_orcamento)
}

mapper_orcamento

{'Subprefeitura Aricanduva/Formosa/Carrao': 'ARICANDUVA-FORMOSA-CARRAO',
 'Subprefeitura Butanta': 'BUTANTA',
 'Subprefeitura Campo Limpo': 'CAMPO LIMPO',
 'Subprefeitura Capela do Socorro': 'CAPELA DO SOCORRO',
 'Subprefeitura Casa Verde/Cachoeirinha': 'CASA VERDE-CACHOEIRINHA',
 'Subprefeitura Cidade Ademar': 'CIDADE ADEMAR',
 'Subprefeitura Cidade Tiradentes': 'CIDADE TIRADENTES',
 'Subprefeitura Ermelino Matarazzo': 'ERMELINO MATARAZZO',
 'Subprefeitura Freguesia/Brasilandia': 'FREGUESIA-BRASILANDIA',
 'Subprefeitura Ipiranga': 'IPIRANGA',
 'Subprefeitura Itaim Paulista': 'ITAIM PAULISTA',
 'Subprefeitura Itaquera': 'ITAQUERA',
 'Subprefeitura Jabaquara': 'JABAQUARA',
 'Subprefeitura Jacana/Tremembe': 'JACANA-TREMEMBE',
 'Subprefeitura Lapa': 'LAPA',
 "Subprefeitura M'Boi Mirim": 'M BOI MIRIM',
 'Subprefeitura Mooca': 'MOOCA',
 'Subprefeitura Parelheiros': 'PARELHEIROS',
 'Subprefeitura Penha': 'PENHA',
 'Subprefeitura Perus/Anhanguera': 'PERUS',
 'Subprefeitura Pinheiros': 'PINHEI

In [140]:
df_orcamento_final.insert(
    7,
    'sub.NOME',
    df_orcamento_final.loc[:,'SUBPREFEITURA'].apply(lambda s: unidecode(s) if isinstance(s, str) else None).map(mapper_orcamento)
)

df_orcamento_final

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,sub.NOME,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado
0,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,,Região,0.0,0.0
1,122,Administração Geral,00,Oeste,Subprefeitura Lapa,Despesa Regionalizável,8.227545e+05,LAPA,Subprefeitura,0.0,0.0
2,122,Administração Geral,00,Sul,Subprefeitura Ipiranga,Despesa Regionalizável,6.646144e+04,IPIRANGA,Subprefeitura,0.0,0.0
3,122,Administração Geral,00,Sul,Subprefeitura Vila Mariana,Despesa Regionalizável,2.680670e+04,VILA MARIANA,Subprefeitura,0.0,0.0
4,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,,Não regionalizável,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
30,368,Educação Básica,09,,,,0.000000e+00,,Não detalhado,2000.0,2000.0
31,422,"Direitos Individuais, Coletivos e Difusos",00,,,,0.000000e+00,,Não detalhado,900000.0,0.0
32,422,"Direitos Individuais, Coletivos e Difusos",08,,,,0.000000e+00,,Não detalhado,23000000.0,20150000.0
33,451,Infra-Estrutura Urbana,00,,,,0.000000e+00,,Não detalhado,1000.0,0.0


### Adicionando as subprefeituras faltantes

In [141]:
orcamento_subs_cols = ['CÓDIGO_SUBFUNÇÃO', 'DESCRIÇÃO_SUBFUNÇÃO',
                       'CÓDIGO_FONTE']

df_orcamento_subs = df_orcamento_final[orcamento_subs_cols].copy()
df_orcamento_subs = df_orcamento_subs.drop_duplicates().reset_index(drop=True)
df_orcamento_subs

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE
0,122,Administração Geral,0
1,126,Tecnologia da Informação,0
2,128,Formação de Recursos Humanos,0
3,271,Previdência Básica,0
4,306,Alimentação e Nutrição,0
5,306,Alimentação e Nutrição,2
6,361,Ensino Fundamental,0
7,361,Ensino Fundamental,2
8,362,Ensino Médio,0
9,363,Ensino Profissional,0


In [142]:
df_orcamento_subs['TIPO_REGIONALIZAÇÃO'] = 'Despesa Regionalizável'
df_orcamento_subs['NIVEL_REGIONALIZAÇÃO'] = 'Subprefeitura'

df_orcamento_subs

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,TIPO_REGIONALIZAÇÃO,NIVEL_REGIONALIZAÇÃO
0,122,Administração Geral,0,Despesa Regionalizável,Subprefeitura
1,126,Tecnologia da Informação,0,Despesa Regionalizável,Subprefeitura
2,128,Formação de Recursos Humanos,0,Despesa Regionalizável,Subprefeitura
3,271,Previdência Básica,0,Despesa Regionalizável,Subprefeitura
4,306,Alimentação e Nutrição,0,Despesa Regionalizável,Subprefeitura
5,306,Alimentação e Nutrição,2,Despesa Regionalizável,Subprefeitura
6,361,Ensino Fundamental,0,Despesa Regionalizável,Subprefeitura
7,361,Ensino Fundamental,2,Despesa Regionalizável,Subprefeitura
8,362,Ensino Médio,0,Despesa Regionalizável,Subprefeitura
9,363,Ensino Profissional,0,Despesa Regionalizável,Subprefeitura


In [143]:
df_orcamento_subs = (
    df_orcamento_subs
    .merge(pd.DataFrame(columns=['sub.NOME'], data=subs_qlik),
           how='cross')
)

df_orcamento_subs

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,TIPO_REGIONALIZAÇÃO,NIVEL_REGIONALIZAÇÃO,sub.NOME
0,122,Administração Geral,00,Despesa Regionalizável,Subprefeitura,ARICANDUVA-FORMOSA-CARRAO
1,122,Administração Geral,00,Despesa Regionalizável,Subprefeitura,BUTANTA
2,122,Administração Geral,00,Despesa Regionalizável,Subprefeitura,CAMPO LIMPO
3,122,Administração Geral,00,Despesa Regionalizável,Subprefeitura,CAPELA DO SOCORRO
4,122,Administração Geral,00,Despesa Regionalizável,Subprefeitura,CASA VERDE-CACHOEIRINHA
...,...,...,...,...,...,...
1115,605,Abastecimento,00,Despesa Regionalizável,Subprefeitura,SAPOPEMBA
1116,605,Abastecimento,00,Despesa Regionalizável,Subprefeitura,SE
1117,605,Abastecimento,00,Despesa Regionalizável,Subprefeitura,VILA MARIA-VILA GUILHERME
1118,605,Abastecimento,00,Despesa Regionalizável,Subprefeitura,VILA MARIANA


In [144]:
df_orcamento_completo = (
    df_orcamento_final
    .merge(df_orcamento_subs,
           how='outer',
           on=df_orcamento_subs.columns.tolist())
)

df_orcamento_completo

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,sub.NOME,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado
0,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,,Não regionalizável,0.0,0.0
1,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,,Região,0.0,0.0
2,122,Administração Geral,00,,,Despesa Regionalizável,,ARICANDUVA-FORMOSA-CARRAO,Subprefeitura,,
3,122,Administração Geral,00,,,Despesa Regionalizável,,BUTANTA,Subprefeitura,,
4,122,Administração Geral,00,,,Despesa Regionalizável,,CAMPO LIMPO,Subprefeitura,,
...,...,...,...,...,...,...,...,...,...,...,...
1212,605,Abastecimento,00,,,Despesa Regionalizável,,SE,Subprefeitura,,
1213,605,Abastecimento,00,,,Despesa Regionalizável,,VILA MARIA-VILA GUILHERME,Subprefeitura,,
1214,605,Abastecimento,00,,,Despesa Regionalizável,,VILA MARIANA,Subprefeitura,,
1215,605,Abastecimento,00,,,Despesa Regionalizável,,VILA PRUDENTE,Subprefeitura,,


In [145]:
df_orcamento_completo.loc[df_orcamento_completo['Vl_Liquidado'].isna(), 'Vl_Liquidado'] = 0
df_orcamento_completo.loc[df_orcamento_completo['Vl_Orcado_Ano'].isna(), 'Vl_Orcado_Ano'] = 0
df_orcamento_completo.loc[df_orcamento_completo['Vl_Orcado_Atualizado'].isna(), 'Vl_Orcado_Atualizado'] = 0

df_orcamento_completo

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,sub.NOME,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado
0,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,,Não regionalizável,0.0,0.0
1,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,,Região,0.0,0.0
2,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,ARICANDUVA-FORMOSA-CARRAO,Subprefeitura,0.0,0.0
3,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,BUTANTA,Subprefeitura,0.0,0.0
4,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,CAMPO LIMPO,Subprefeitura,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
1212,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,SE,Subprefeitura,0.0,0.0
1213,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA MARIA-VILA GUILHERME,Subprefeitura,0.0,0.0
1214,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA MARIANA,Subprefeitura,0.0,0.0
1215,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA PRUDENTE,Subprefeitura,0.0,0.0


### Adicionando descrição das vinculações

In [146]:
df_orcamento_completo = (
    df_orcamento_completo
    .merge(df_orcamento_original[['Cd_Fonte', 'Ds_Fonte']].drop_duplicates(),
            how='left',
            left_on='CÓDIGO_FONTE',
            right_on='Cd_Fonte')
    .drop(columns='Cd_Fonte')
)

df_orcamento_completo

Unnamed: 0,CÓDIGO_SUBFUNÇÃO,DESCRIÇÃO_SUBFUNÇÃO,CÓDIGO_FONTE,REGIÃO,SUBPREFEITURA,TIPO_REGIONALIZAÇÃO,Vl_Liquidado,sub.NOME,NIVEL_REGIONALIZAÇÃO,Vl_Orcado_Ano,Vl_Orcado_Atualizado,Ds_Fonte
0,122,Administração Geral,00,Supra-Regional,Supra Subprefeitura,Despesa Não-Regionalizável,1.239509e+08,,Não regionalizável,0.0,0.0,Tesouro Municipal
1,122,Administração Geral,00,Centro,Supra Subprefeitura Centro,Despesa Regionalizável,1.818885e+06,,Região,0.0,0.0,Tesouro Municipal
2,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,ARICANDUVA-FORMOSA-CARRAO,Subprefeitura,0.0,0.0,Tesouro Municipal
3,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,BUTANTA,Subprefeitura,0.0,0.0,Tesouro Municipal
4,122,Administração Geral,00,,,Despesa Regionalizável,0.000000e+00,CAMPO LIMPO,Subprefeitura,0.0,0.0,Tesouro Municipal
...,...,...,...,...,...,...,...,...,...,...,...,...
1212,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,SE,Subprefeitura,0.0,0.0,Tesouro Municipal
1213,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA MARIA-VILA GUILHERME,Subprefeitura,0.0,0.0,Tesouro Municipal
1214,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA MARIANA,Subprefeitura,0.0,0.0,Tesouro Municipal
1215,605,Abastecimento,00,,,Despesa Regionalizável,0.000000e+00,VILA PRUDENTE,Subprefeitura,0.0,0.0,Tesouro Municipal


# Armazenamento dos dados

Finalmente, salvamos os arquivos como csv para utilizarmos no Qlik Sense.

In [147]:
base_path = os.path.join('data_output', 'educacao')

if not os.path.exists(base_path):
    os.makedirs(base_path)

for name, df in [('demanda e matriculas', mat_24),
                 ('servidores-perfil', perf_24),
                 ('escolas-municipais', escolas_24),
                 ('perfil-dos-educandos', alunos_24),
                 ('educandos-estrangeiros', alunos_est_2024),
                 ('beneficiarios-pbf', alunos_bf_2024),
                 ('nivel-padronizado', nivel_padronizado),
                 ('orcamento', df_orcamento_completo)]:
    
    filepath = os.path.join(base_path, f'{name}.csv')

    df.to_csv(filepath,
              index=False,
              sep=';',
              decimal=',',
              encoding='utf-8')