# GT Educação

O GT Educação enviou uma série de formulários com indicadores desejados para o painel. A maioria desses indicadores estão disponíveis no Portal de Dados Abertos da Prefeitura de São Paulo (http://dados.prefeitura.sp.gov.br/).

Portanto, vamos carregar o módulo de downloads do portal de dados abertos.

In [1]:
import os


from core.downloads import dadosabertos as da
from core.downloads import geosampa as gs

# Extração e transformação inicial

## Número de alunos da Rede Municipal de Ensino

O primeiro indicador é o número de alunos da rede municipal, segmentado por nível educacional (Creche, Pré Escola, Ensino Fundamental I, Ensino Fundamental II, EJA I, EJA II, Ensino Médio, Ed. Prof.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/demanda-e-matriculas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [2]:
pkg_name = 'demanda-e-matriculas'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Demanda e Matrículas - Dezembro/2023',
  'id': 'a63afccb-1a19-4438-96b1-7a13c4ccb586',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/a63afccb-1a19-4438-96b1-7a13c4ccb586/download/publicacao-bimestral-dezembro-2023.xls'},
 {'name': 'Demanda e Matrículas - Outubro/2023',
  'id': 'f217087c-b2b8-4e76-a282-567075afe30c',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/f217087c-b2b8-4e76-a282-567075afe30c/download/publicacao-bimestral-outubro-2023.xls'},
 {'name': 'Demanda e Matrículas - Agosto/2023',
  'id': 'ecb51533-e2dc-4298-8d66-878be3bab9d8',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/ecb51533-e2dc-4298-8d66-878be3bab9d8/download/publicacao-bimestral-agosto-2023.xls'},
 {'name': 'Demanda e Matrículas - Junho/2023',
  'id': 'e67654b3-d1cd-455b-a97a-7df12627c9d0',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/456

Sabendo o id do arquivo de dezembro de 2023, vamos carregar o recurso como um dataframe.

In [3]:
resource_id = 'a63afccb-1a19-4438-96b1-7a13c4ccb586'
mat_23 = da.load_resource(resource_id, pandas_kwargs=dict(header=[0,1]))
mat_23

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrícula em Processo,...,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.,Creche,...,Creche (3),Creche Total,Pré Escola (1),Pré Escola (2),Pré Escola (3),Pré Escola Total,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0,1.0,...,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0,4.0,...,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0,4.0,...,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0,356.0,...,555.0,555.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,,,...,,,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,,,...,,,,,,,,,,


O dataframe contem dados de matrículas, matrículas em processo e demanda não atendida. Como desejamos apenas matrículas, vamos remover as outras colunas.

In [4]:
mat_23 = mat_23[['Distrito', 'Matrículas']]
mat_23

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


Agora, sabendo que temos apenas dados sobre matrículas, vamos ajustar as colunas.

In [5]:
mat_23 = (mat_23
 .droplevel(0, axis='columns')
 .rename(columns={'Unnamed: 0_level_1': 'Distrito'}))

mat_23

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


As últimas linhas do dataframe são apenas dados de totalização e notas, então vamos excluí-las também.

In [6]:
mat_23 = mat_23.loc[mat_23['Distrito'].str.lower()!='total']
mat_23 = mat_23.loc[~mat_23.iloc[:,1].isna()]
mat_23

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
91,VILA MARIANA,714.0,548.0,250.0,229.0,0.0,0.0,0.0,0.0
92,VILA MATILDE,1795.0,846.0,2061.0,1857.0,21.0,121.0,0.0,0.0
93,VILA MEDEIROS,3922.0,2412.0,1700.0,1457.0,50.0,356.0,0.0,0.0
94,VILA PRUDENTE,2481.0,1207.0,989.0,871.0,27.0,74.0,0.0,0.0


Finalmente, vamos "despivotar" a tabela, transformando o nome das colunas em uma nova coluna chamada "Nível educacional" e unificando as colunas de valor sob uma coluna chamada matrículas.

In [7]:
mat_23 = mat_23.melt(
    id_vars='Distrito',
    var_name='Nível Educacional',
    value_name='Matrículas'
)
mat_23

Unnamed: 0,Distrito,Nível Educacional,Matrículas
0,AGUA RASA,Creche,1250.0
1,ALTO DE PINHEIROS,Creche,312.0
2,ANHANGUERA,Creche,2914.0
3,ARICANDUVA,Creche,1560.0
4,ARTUR ALVIM,Creche,2733.0
...,...,...,...
763,VILA MARIANA,Ed. Prof.,0.0
764,VILA MATILDE,Ed. Prof.,0.0
765,VILA MEDEIROS,Ed. Prof.,0.0
766,VILA PRUDENTE,Ed. Prof.,0.0


## Número de professores da Rede Municipal de Ensino

O segundo indicador solicitado é o número de professores da Rede Municipal de Ensino, com recortes por Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/microdados-servidores-perfil, porém os arquivos possuem informação sobre todos os servidores da SME, o que inclui os servidores administrativos, que precisarão ser excluídos.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [8]:
pkg_name = 'microdados-servidores-perfil'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Microdados - Perfil dos Servidores 2023',
  'id': '9231789a-3a0d-4109-a8ba-25d31a099095',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/12a101f0-622b-43ad-946c-95c430ae6cab/resource/9231789a-3a0d-4109-a8ba-25d31a099095/download/perfilservidor23.csv'}]

Aparentemente, os dados de perfil dos servidores possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [9]:
resource_id = resources[0]['id']
perf_23 = da.load_resource(resource_id,
                           pandas_kwargs={'encoding': 'utf-8'})
perf_23

Unnamed: 0,DATA_BASE_EOL,ANO_REFERENCIA,CD_CAR_SERV_SME,MES_NASC,ANO_NASC,IDADE,CD_SEXO,CD_MUNICIPIO_NASC,DC_MUNICIPIO_NASC,UF_MUNICIPIO_NASC,...,CD_UNIDADE_FUNCAO,CD_FUNCAO,DC_FUNCAO,DT_INICIO_FUNCAO,CD_UNIDADE_SOBREPOSTO,CD_SOBREPOSTO,DC_SOBREPOSTO,DT_INICIO_SOBREPOSTO,ACUMULO_AMBITO,ACUMULO_SITUACAO_SEGUNDO_VINCULO
0,Dez de 2023,2023,3.007270e+14,10,1990,33,F,,,,...,,,,,,,,,,
1,Dez de 2023,2023,3.717310e+14,1,1972,51,F,9.362740e+15,GUARULHOS,SP,...,,,,,,,,,,
2,Dez de 2023,2023,3.717310e+14,2,1975,48,F,9.354740e+15,SAO PAULO,SP,...,,,,,,,,,,
3,Dez de 2023,2023,3.717310e+14,5,1991,32,F,9.354740e+15,SAO PAULO,SP,...,,,,,,,,,,Efetivo
4,Dez de 2023,2023,3.717310e+14,3,1984,39,F,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
86570,Dez de 2023,2023,9.371740e+15,2,1979,44,F,9.354740e+15,SAO PAULO,SP,...,,,,,,,,,,
86571,Dez de 2023,2023,8.371750e+15,7,1978,45,F,3.187370e+14,XIQUE-XIQUE,BA,...,,,,,,,,,,
86572,Dez de 2023,2023,9.371740e+15,2,1979,44,F,9.354740e+15,SAO PAULO,SP,...,,,,,,,,,,
86573,Dez de 2023,2023,3.717360e+14,10,1988,35,F,9.354740e+15,SAO PAULO,SP,...,,,,,,,,,,


Com os dados baixados, vamos selecionar as colunas para atender às segmentações propostas no formulário.

In [10]:
# Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

perf_cols = [
    'CD_SEXO',
    'CD_RACA_COR',
    'DC_RACA_COR',
    'CD_DEF',
    'CD_CARGO_BASE',
    'DC_CARGO_BASE',
    'CD_CARGO_ATUAL',
    'DC_CARGO_ATUAL',
    'CD_AREA_ATUACAO_ATUAL',
    'DC_AREA_ATUACAO_ATUAL',
    'CD_UNIDADE_ATUAL',
    'TP_UNIDADE_ATUAL',
    'DC_UNIDADE_ATUAL',
]

perf_23 = perf_23.loc[:, perf_cols]
perf_23

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.375150e+14,CEU EMEI,"JOSE GASPAR, D."
1,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.345130e+14,EMEFM,"DERVILLE ALLEGRETTI, PROF."
2,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,EMEI,PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JANUARIO
3,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"ENIO CORREA, PROF."
4,F,6361983595,NAO INFORMADA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.246790e+14,CEI DIRET,"JOSE DE MOURA, VER."
...,...,...,...,...,...,...,...,...,...,...,...,...,...
86570,F,301583581,PRETA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.395100e+14,EMEBS,"MARIO PEREIRA BICUDO, PROF."
86571,F,93911283491,PARDA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.266620e+14,CEI DIRET,"VICENTINA VELASCO, AS. SOCIAL"
86572,F,1311882504,BRANCA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.218610e+15,CEI DIRET,JARDIM CLIMAX II
86573,F,5352082473,RECUSOU INFORMAR,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA


O formulário solicita também a exclusão de professores aposentados e servidores administrativos do conjunto de dados. Apesar de existir uma coluna com um valor "aposentado", a `ACUMULO_SITUACAO_SEGUNDO_VINCULO`, essa coluna parece se referir à situação do segundo vínculo, e não do vínculo com a PMSP. Além disso, a lista de servidores aposentados da Secretaria Municipal de Educação tem mais de 94 mil registros, então esses registros provavelmente não estão nos dados de perfil dos servidores.

Para excluir os servidores administrativos, vamos primeiro avaliar quais cargos estão presentes na base.

In [11]:
df_cargos = perf_23[['CD_CARGO_BASE', 'DC_CARGO_BASE']].copy()
df_cargos = df_cargos.drop_duplicates().reset_index(drop=True)

df_cargos

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9.234430e+12,PROF.ED.INF.E ENS.FUND.I
1,9.274100e+13,PROF.DE ED.INFANTIL
2,9.234450e+12,COORDENADOR PEDAGOGICO
3,8.264710e+12,AUXILIAR TECNICO DE EDUCACAO
4,5.202100e+11,ASSESSOR II
...,...,...
89,5.234850e+12,AUX.SERV.DE SAUDE-RADIOLOGIA
90,2.045660e+11,ASSISTENTE DE SAUDE - NIVEL I
91,9.224670e+12,PROF.ADJ.ENS.FUND.II-GEOGRAFIA
92,9.274970e+12,PROF.ADJ.DE ENS.FUND. I


Dado a quantidade de cargos, vamos fitrar a lista com base em uma regra geral, mantendo apenas os cargos que possual a string "PROF" em sua descrição.

In [12]:
filtro_prof = df_cargos['DC_CARGO_BASE'].str.lower().str.contains('prof.', regex=False)
df_cargos_prof = df_cargos.loc[filtro_prof]

df_cargos_prof

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9234430000000.0,PROF.ED.INF.E ENS.FUND.I
1,92741000000000.0,PROF.DE ED.INFANTIL
5,9214970000000.0,PROF.ENS.FUND.II E MED.-MATEMATICA
6,9244720000000.0,PROF.ENS.FUND.II E MED.-PORTUGUES
7,9214970000000.0,PROF.ENS.FUND.II E MED.-GEOGRAFIA
8,9274960000000.0,PROF.ENS.FUND.II E MED.-CIENCIAS
9,9224650000000.0,PROF.ENS.FUND.II E MED.-HISTORIA
11,92941100000000.0,PROF.ENS.FUND.II E MED.-ED.FISICA
12,92841100000000.0,PROF.ENS.FUND.II E MED.-INGLES
14,9264550000000.0,PROF.ENS.FUND.II E MED.-ARTES


Por último, filtramos a base geral com base nessa lista de cargos.

In [13]:
perf_23 = (
    perf_23
    .loc[
        perf_23['DC_CARGO_BASE'].isin(df_cargos_prof['DC_CARGO_BASE'].tolist())
    ]
)

perf_23

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.375150e+14,CEU EMEI,"JOSE GASPAR, D."
1,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.345130e+14,EMEFM,"DERVILLE ALLEGRETTI, PROF."
2,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,EMEI,PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JANUARIO
3,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"ENIO CORREA, PROF."
4,F,6361983595,NAO INFORMADA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.246790e+14,CEI DIRET,"JOSE DE MOURA, VER."
...,...,...,...,...,...,...,...,...,...,...,...,...,...
86570,F,301583581,PRETA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.395100e+14,EMEBS,"MARIO PEREIRA BICUDO, PROF."
86571,F,93911283491,PARDA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.266620e+14,CEI DIRET,"VICENTINA VELASCO, AS. SOCIAL"
86572,F,1311882504,BRANCA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.218610e+15,CEI DIRET,JARDIM CLIMAX II
86573,F,5352082473,RECUSOU INFORMAR,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA


## Número de Unidades Escolares

O terceiro indicador solicitado é o número de Unidades Escolares da Rede Municipal de Ensino, com recortes por Tipo de Escola (EMEI, EMEF etc.) e Distrito.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/cadastro-de-escolas-municipais-conveniadas-e-privadas.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [14]:
pkg_name = 'cadastro-de-escolas-municipais-conveniadas-e-privadas'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Cadastro de escolas da cidade de São Paulo 2023',
  'id': 'accb16da-f2d7-44f5-8d91-bccdec78f3ce',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/accb16da-f2d7-44f5-8d91-bccdec78f3ce/download/escolas122023.csv'}]

Aparentemente, os dados de unidades escolares possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [15]:
resource_id = resources[0]['id']
escolas_23 = da.load_resource(resource_id)
escolas_23

Unnamed: 0,DRE,CODESC,TIPOESC,NOMES,DESLOC,CEU,DIRETORIA,SUBPREF,ENDERECO,NUMERO,...,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,FX_ETARIA.1,NOME_ANT,REDE,LATITUDE,LONGITUDE,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502,...,32307.0,,33313.0,,,,DIR,-23553905,-46398452,45285
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295,...,32328.0,,33313.0,,,,DIR,-23489728,-46670198,45285
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.","JOSE ERMIRIO DE MORAES, SEN.",,SAO MIGUEL,SAO MIGUEL,RUA SAO BRAS DO SUACUI,159,...,32329.0,,36963.0,,,VILA NITRO OPERARIA,DIR,-23478312,-46427344,45285
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.","ALIPIO CORREA NETO, PROF.",,BUTANTA,BUTANTA,AVENIDA JOAO CAIAFFA,140,...,32290.0,,33313.0,,,,DIR,-23612237,-46749888,45285
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.","VERA LUCIA APARECIDA RIBEIRO, PROFA.",,PIRITUBA,PIRITUBA,RUA BENEDITO PEREIRA,206,...,32316.0,,33313.0,,,,DIR,-23486142,-46733901,45285
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4926,SM,700041,CEU AT COM,SAO RAFAEL,SAO RAFAEL,SAO RAFAEL,SAO MATEUS,SAO MATEUS,RUA CINIRA POLÔNIO,100,...,40681.0,,,,,,DIR,-23620144,-46456550,45285
4927,SM,700042,CEU AT COM,ROSA DA CHINA,ROSA DA CHINA,ROSA DA CHINA,SAO MATEUS,SAPOPEMBA,RUA CLARA PETRELA,113,...,40681.0,,,,,,DIR,-23621567,-46500775,45285
4928,SM,700043,CEU AT COM,SAPOPEMBA,SAPOPEMBA,SAPOPEMBA,SAO MATEUS,SAPOPEMBA,RUA MANUEL QUIRINO DE MATTOS,S/N,...,40681.0,,,,,,DIR,-23609804,-46494006,45285
4929,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.","ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",ALTO ALEGRE,SAO MATEUS,SAO MATEUS,AVENIDA BENTO GUELFI,S/N,...,40681.0,,,,,ALTO ALEGRE,DIR,-23609738,-46426886,45285


Os dados das escolas também serão usados com outros conjuntos de dados para regionalizá-los, então vamos manter também algumas colunas de identificação das escolas para facilitar esse uso o posterior. Vamos também filtrar apenas as escolas ativas.

In [16]:
escolas_cols = ['CODESC',
                'TIPOESC',
                'NOMES',
                'SUBPREF',
                'DISTRITO',
                'CODINEP',
                'CD_CIE',
                'NOME_ANT',
                'REDE']

escolas_filtro = escolas_23['SITUACAO'].str.lower().str.contains('ativa')
escolas_23 = escolas_23.loc[escolas_filtro, escolas_cols]

escolas_23

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,35098711.0,35098711.0,,DIR
1,94,EMEI,VICENTE PAULO DA SILVA,CASA VERDE/CACHOEIRINHA,LIMAO,35098361.0,35098361.0,,DIR
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,35098760.0,VILA NITRO OPERARIA,DIR
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,35098462.0,,DIR
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,35079029.0,,DIR
...,...,...,...,...,...,...,...,...,...
4926,700041,CEU AT COM,SAO RAFAEL,SAO MATEUS,SAO RAFAEL,35455702.0,35455702.0,,DIR
4927,700042,CEU AT COM,ROSA DA CHINA,SAPOPEMBA,SAPOPEMBA,35455672.0,35455672.0,,DIR
4928,700043,CEU AT COM,SAPOPEMBA,SAPOPEMBA,SAPOPEMBA,35455933.0,35455933.0,,DIR
4929,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",SAO MATEUS,IGUATEMI,35455611.0,35455611.0,ALTO ALEGRE,DIR


## Perfil dos alunos

O quinto indicador solicitado é o número de alunos da Rede Municipal de Ensino, com recortes por Raça, Sexo, existência de Necessidades Especiais, Distrito, Rede de Ensino (Administração Direta ou Rede Conveniada/Parceira).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [17]:
pkg_name = 'perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Perfil dos educandos - Dez/2023',
  'id': '43d65892-caba-411e-aed3-3e0490822d3a',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/b9c5faef-1a61-4814-b89e-bd7a73154ebc/resource/43d65892-caba-411e-aed3-3e0490822d3a/download/idadeserieneeracadez23.csv'}]

Aparentemente, os dados de perfil dos educandos possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [18]:
resource_id = resources[0]['id']
alunos_23 = da.load_resource(resource_id)
alunos_23

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2023,DIR,FUND,C.I 1.ANO F9,Diurno,3,Tarde,F,6,,BRANCA,6,25/12/2023
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2023,DIR,FUND,C.I 1.ANO F9,Diurno,3,Tarde,F,6,,PARDA,3,25/12/2023
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2023,DIR,FUND,C.I 1.ANO F9,Diurno,3,Tarde,F,6,AUTISMO,PARDA,1,25/12/2023
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2023,DIR,FUND,C.I 1.ANO F9,Diurno,3,Tarde,F,7,,BRANCA,8,25/12/2023
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2023,DIR,FUND,C.I 1.ANO F9,Diurno,3,Tarde,F,7,,PARDA,12,25/12/2023
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
356578,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2023,DIR,ATCOMP,CELP,Diurno,4,Vespertino,F,9,,PARDA,1,25/12/2023
356579,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2023,DIR,ATCOMP,CELP,Diurno,4,Vespertino,F,10,,BRANCA,2,25/12/2023
356580,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2023,DIR,ATCOMP,CELP,Diurno,4,Vespertino,F,13,,PARDA,1,25/12/2023
356581,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2023,DIR,ATCOMP,CELP,Diurno,4,Vespertino,F,13,,RECUSOU INFORMA,1,25/12/2023


In [19]:
alunos_cols = ['DISTRITO',
               'REDE',
               'MODAL',
               'SEXO',
               'NEE',
               'RACA',
               'Qtde']

alunos_23 = alunos_23[alunos_cols]

alunos_23

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde
0,VILA SONIA,DIR,FUND,F,,BRANCA,6
1,VILA SONIA,DIR,FUND,F,,PARDA,3
2,VILA SONIA,DIR,FUND,F,AUTISMO,PARDA,1
3,VILA SONIA,DIR,FUND,F,,BRANCA,8
4,VILA SONIA,DIR,FUND,F,,PARDA,12
...,...,...,...,...,...,...,...
356578,IGUATEMI,DIR,ATCOMP,F,,PARDA,1
356579,IGUATEMI,DIR,ATCOMP,F,,BRANCA,2
356580,IGUATEMI,DIR,ATCOMP,F,,PARDA,1
356581,IGUATEMI,DIR,ATCOMP,F,,RECUSOU INFORMA,1


## Número de alunos estrangeiros

O sétimo indicador é o número de alunos estrangeiros da rede municipal, segmentado por País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/educandos-estrangeiros-por-nacionalidade. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados.

In [20]:
pkg_name = 'educandos-estrangeiros-por-nacionalidade'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '002f8395-0faf-4ec8-ab63-a92e3ee8b232',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/002f8395-0faf-4ec8-ab63-a92e3ee8b232/download/estrangeirosjunho2023.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '855394c4-d95f-4387-880d-3a288bb31cff',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/855394c4-d95f-4387-880d-3a288bb31cff/download/estrangeirosjunho2023.ods'}]

Os dados de alunos estrangeiros parecem estar disponíveis anualmente, mas no mês de junho. Como não existe arquivo para dezembro de 2023, vamos utilizar o arquivo de junho de 2024.

In [21]:
pkg_name = 'educandos-estrangeiros-por-nacionalidade'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '75357667-9bf6-463b-9ecc-609dfecafb25',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/75357667-9bf6-463b-9ecc-609dfecafb25/download/estudantes_estrangeiros_dez24.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '22f9daba-fb61-439b-984b-ab5d99733ad2',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/22f9daba-fb61-439b-984b-ab5d99733ad2/download/estudantes_estrangeiros_dez24.ods'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '1920e20b-181f-43bf-b390-d45fbaa272d4',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/1920e20b-181f-43bf-b390-d45fbaa272d4/download/estudantes_estrangeiros_jun24.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '6f2adbce-af06-45c1-8946-b4659cabe228',
  'url': 'http://dados.

In [22]:
resource_id = resources[2]['id']
alunos_est_2024 = da.load_resource(resource_id)
alunos_est_2024

Unnamed: 0,DRE,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,SERIE,QTDE,REDE,DATABASE
0,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,FUND,C.II 4.ANO F9,1,DIR,2024-06-30
1,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,FUND,C.II 6.ANO F9,3,DIR,2024-06-30
2,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,PRE,INFANTIL UNIF,2,DIR,2024-06-30
3,FREGUESIA/BRASILANDIA,FREGUESIA DO O,175,ANGOLA,FUND,C.I 1.ANO F9,1,DIR,2024-06-30
4,FREGUESIA/BRASILANDIA,FREGUESIA DO O,175,ANGOLA,FUND,C.II 4.ANO F9,1,DIR,2024-06-30
...,...,...,...,...,...,...,...,...,...
3694,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.I 2.ANO F9,1,DIR,2024-06-30
3695,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.I 3.ANO F9,1,DIR,2024-06-30
3696,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.III 7.ANO F9,1,DIR,2024-06-30
3697,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.III 9.ANO F9,1,DIR,2024-06-30


In [23]:
# Recortes: País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.)
alunos_bf_cols = ['DISTRITO',
                   'COD_PAIS',
                   'NOME_PAIS',
                   'ETAPA',
                   'REDE',
                   'QTDE']

alunos_est_2024 = alunos_est_2024[alunos_bf_cols]

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE
0,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,1
1,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,3
2,FREGUESIA DO O,92,VENEZUELA,PRE,DIR,2
3,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1
4,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1
...,...,...,...,...,...,...
3694,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3695,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3696,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3697,VILA JACUI,213,NIGÉRIA,FUND,DIR,1


## Número de alunos beneficiários do Bolsa Família

O oitavo indicador é o número de alunos beneficiários do Bolsa Família da rede municipal, segmentado por Distrito e nível de ensino.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

As notas (que podem ser vistas na saída abaixo) desse conjunto de dados incluem a informação de que a estrutura do conjunto mudou a partir de 2024 e, por isso, foi criado um novo conjunto de dados com a estrutura mais recente, disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao. Vamos utilizar essa versão mais recente e os dados de julho de 2024, assim como o número de alunos estrangeiros.

In [24]:
pkg_name = 'beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas'
pkg = da.package_show(pkg_name)
print(pkg['notes'])

Esta base de dados traz a série histórica de 10 anos com a quantidade de crianças beneficiárias pelo Programa Bolsa Família e matriculadas em creches municipais ou conveniadas entre os anos de 2013 e 2023.

As informações foram compiladas pela Secretaria Municipal de Educação, a partir de cruzamento do Sistema EOL com dados da Secretaria Municipal de Assistência Social utilizando a chave NIS do Aluno ou Nome do Aluno, mãe e nascimento, o que pode ocasionar variações de números por divergências cadastrais.

Nota técnica: A partir do mês de dezembro de 2021, o Programa Bolsa Família foi substituído pela Programa Auxílio Brasil, conforme Lei Federal nº 14.284/2021. Dessa forma, o conjunto de dados referente ao ano de 2022 encontra-se denominado como "Beneficiários do Programa Auxílio Brasil (Creche)". No entanto, em 19 junho de 2023 o Programa Auxílio Brasil volta a se chamar Programa Bolsa Família, conforme Lei Federal nº 14.601/2023 e por esse motivo a base retoma a sua nomenclatura ini

In [25]:
pkg_name = 'beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'c36429c0-b9da-478d-b32e-c9ffd31adfce',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/c36429c0-b9da-478d-b32e-c9ffd31adfce/download/dicionarariovariaveis_novabolsafamilia_jul2024.csv'},
 {'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c/download/dicionarariovariaveis_novabolsafamilia_jul2024.xlsx'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '8999e4a8-9cbc-4fd6-b7ce-cef505e55f34',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/8999e4a8-9cbc-4fd6-b7ce-cef505e55f34/download/novabolsafamilia_julho2024.csv'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '29f089e7-2de2-4295-9d4c-

In [26]:
resource_id = resources[2]['id']
alunos_bf_2024 = da.load_resource(resource_id)
alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL,TOTAL MATRICULAS,DATABASE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0,140,31/07/2024
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0,145,31/07/2024
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0,324,31/07/2024
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0,193,31/07/2024
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8,8,31/07/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0,0,31/07/2024
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0,40,31/07/2024
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0,16,31/07/2024
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0,31,31/07/2024


In [27]:
# Recortes: Alunos Beneficiários do Bolsa-Família por distrito, por nível de Ensino
alunos_bf_cols = ['CODEOL',
                   'TIPO',
                   'UNIDADE',
                   'DIRETORIA',
                   'DISTRITO',
                   'CRECHE',
                   'PRE ESCOLA',
                   'ENSINO FUNDAMENTAL',
                   'EDUCAÇÃO PROFISSIONAL',
                   'ENSINO MEDIO',
                   'EDUCAÇÃO ESPECIAL']

alunos_bf_2024 = alunos_bf_2024[alunos_bf_cols]

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8
...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0


In [28]:
alunos_bf_id_vars = alunos_bf_cols[0:5]

alunos_bf_2024 = alunos_bf_2024.melt(id_vars=alunos_bf_id_vars,
                    var_name='NIVEL',
                    value_name='QTDE')

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0
...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0


## Distritos e Subprefeituras

Para agregarmos os dados em Subprefeituras, precisamos de uma lista de distritos e subprefeituras. A lista de distritos e subprefeituras pode ser obtida no GeoSampa, que é o portal de dados geográficos da Prefeitura de São Paulo.

In [29]:
gs.get_capabilities('distrito')

[{'name': 'geoportal:central_triagem_cooperativa',
  'title': 'Cooperativas Habilitadas',
  'abstract': 'Atualmente 93 distritos são contemplados pela Coleta de Materiais Recicláveis realizada pelas Centrais e pelas Concessionárias, ficando a sua coordenação sob a responsabilidade da Secretaria Municipal de Serviços, por intermédio da Autoridade Municipal de Limpeza Urbana – AMLURB, estabelecendo normas e procedimentos para sua implementação, gerenciamento, fiscalização e controle. Das 22 organizações que mantêm uma relação formal com a Prefeitura de São Paulo, 21 cooperativas ou associações que desenvolvem atividades de coleta, triagem e comercialização de RSD Secos, e uma desenvolve atividades de recuperação de resíduos eletroeletrônicos (REE).'},
 {'name': 'geoportal:distrito_municipal',
  'title': 'Distrito',
  'abstract': 'Os distritos foram criados mediante a Lei nº 11.220/1992. Seus limites foram estabelecidos a partir de estudos elaborados por diversos órgãos do Executivo munic

In [30]:
df_dist = gs.get_features('geoportal:distrito_municipal')
df_dist

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
0,distrito_municipal.8583394,8583394,5,51,MANDAQUI,MAN,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.086000+00:00,,199299399,13.249,1.324946e+07,"POLYGON ((333079.583 7408102.398, 333077.161 7..."
1,distrito_municipal.8583395,8583395,20,52,MARSILAC,MAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.153000+00:00,,199299399,208.165,2.081650e+08,"POLYGON ((335849.365 7355252.191, 335849.717 7..."
2,distrito_municipal.8583396,8583396,12,32,MOEMA,MOE,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.869000+00:00,,199299399,9.080,9.079516e+06,"POLYGON ((331290.13 7392111.284, 331324.217 73..."
3,distrito_municipal.8583397,8583397,25,53,MOOCA,MOO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.901000+00:00,,199299399,7.949,7.948972e+06,"POLYGON ((338347.253 7394233.253, 338278.495 7..."
4,distrito_municipal.8583398,8583398,10,54,MORUMBI,MOR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.788000+00:00,,199299399,11.489,1.148932e+07,"POLYGON ((326801.504 7391704.628, 326850.417 7..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,distrito_municipal.8583485,8583485,27,47,JOSE BONIFACIO,JBO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.952000+00:00,,199299399,14.570,1.456975e+07,"POLYGON ((354096.84 7396684.812, 354098.811 73..."
92,distrito_municipal.8583486,8583486,28,96,LAJEADO,LAJ,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.935000+00:00,,199299399,8.827,8.826983e+06,"POLYGON ((357804.739 7394627.262, 357743.916 7..."
93,distrito_municipal.8583487,8583487,8,48,LAPA,LAP,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.002000+00:00,,199299399,10.283,1.028273e+07,"POLYGON ((323778.718 7398464.929, 323863.562 7..."
94,distrito_municipal.8583488,8583488,9,49,LIBERDADE,LIB,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.758000+00:00,,199299399,3.651,3.651130e+06,"POLYGON ((332504.515 7392094.984, 332505.952 7..."


In [31]:
gs.get_capabilities('subprefeitura')

[{'name': 'geoportal:GEOSAMPA_v_praca_largo',
  'title': 'Cadastro de Praças e Largos',
  'abstract': 'Localização das praças e largos no território do município de São Paulo, com base nas informações repassadas por subprefeituras, SF e SEGES/CGPATRI.'},
 {'name': 'geoportal:perimetro_zoneamento_revogado_lei13885',
  'title': 'Perímetro Zona de Uso - Revogado - Lei 13.885/04',
  'abstract': 'A Lei de Zoneamento estabelece normas complementares ao Plano Diretor Estratégico, institui os Planos Regionais Estratégicos das Subprefeituras, dispõe sobre o parcelamento, disciplina e ordena o Uso e Ocupação do Solo do Município de São Paulo. Os perímetros de zona de uso foram vetorizados perante o estabelecido na Lei nº 13.885/2004, tendo como base cartográfica o Mapa Digital da Cidade (MDC).'},
 {'name': 'geoportal:sede_subprefeitura',
  'title': 'Subprefeituras',
  'abstract': 'Localização das sedes físicas das Subprefeituras da Cidade de São Paulo.'},
 {'name': 'geoportal:subprefeitura',
  '

In [32]:
df_subs = gs.get_features('geoportal:subprefeitura')
df_subs

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021020.0,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980200.0,"POLYGON ((327340.628 7399133.313, 327331.514 7..."
2,subprefeitura.3,3,4,CASA VERDE-CACHOEIRINHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.956000+00:00,,CV,27,27232340.0,"POLYGON ((329084.795 7402363.669, 329086.123 7..."
3,subprefeitura.4,4,5,SANTANA-TUCURUVI,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.068000+00:00,,ST,36,35782520.0,"POLYGON ((334076.366 7398045.594, 334074.986 7..."
4,subprefeitura.5,5,6,JACANA-TREMEMBE,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.950000+00:00,,JT,65,65115660.0,"POLYGON ((335167.648 7404409.048, 335167.247 7..."
5,subprefeitura.6,6,7,VILA MARIA-VILA GUILHERME,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.073000+00:00,,MG,27,26899220.0,"POLYGON ((336762.078 7401144.267, 336794.867 7..."
6,subprefeitura.7,7,21,PENHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.055000+00:00,,PE,40,40429240.0,"POLYGON ((346801.065 7402842.892, 346800.103 7..."
7,subprefeitura.8,8,22,ERMELINO MATARAZZO,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.081000+00:00,,EM,16,15966390.0,"POLYGON ((349116.316 7399473.221, 349133.905 7..."
8,subprefeitura.9,9,23,SAO MIGUEL,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.944000+00:00,,MP,26,26159230.0,"POLYGON ((352480.323 7397515.871, 352477.052 7..."
9,subprefeitura.10,10,24,ITAIM PAULISTA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.967000+00:00,,IT,22,21603820.0,"POLYGON ((356423.064 7397223.44, 356418.471 73..."


# Transformação e mesclagem de dados

Para facilitar o trabalho dos dados no Qlik Sense, vamos avaliar como é a melhor forma de retrabalhar os dados de acordo com o paradigma fato-dimensão.

## Nível Escolar

A primeira dimensão que parece fazer sentido é o Nível escolar. Vamos avaliar como aparece em cada tabela.

In [33]:
mat_23['Nível Educacional'].value_counts()

Nível Educacional
Creche          96
Pré Escola      96
Ens. Fund.I     96
Ens. Fund.II    96
EJA I           96
EJA II          96
Ens. Médio      96
Ed. Prof.       96
Name: count, dtype: int64

In [34]:
perf_23[['CD_AREA_ATUACAO_ATUAL', 'DC_AREA_ATUACAO_ATUAL']].value_counts()

CD_AREA_ATUACAO_ATUAL  DC_AREA_ATUACAO_ATUAL          
301583581              ENSINO FUNDAMENTAL I E INFANTIL    29048
93911283491            ENSINO FUNDAMENTAL II              19883
1311882504             EDUCACAO INFANTIL                  15083
43411282875            TECNICA PEDAGOGICA                  3393
33311182502            ADMINISTRATIVA                       105
12728032504            APOIO TECNICO                         69
83811283581            ENSINO MEDIO                          62
Name: count, dtype: int64

In [35]:
alunos_23['MODAL'].value_counts()

MODAL
CRECHE    103210
FUND       99051
ATCOMP     78462
PRE        35272
EJA        18240
MOVA        8547
REC         6699
SAAI        2422
EDPROF      2346
CONVEE      1148
MEDIO        597
ESPEC        589
Name: count, dtype: int64

In [36]:
alunos_est_2024['ETAPA'].value_counts()

ETAPA
FUND      1730
CRECHE    1069
PRE        602
EJA        229
MOVA        34
MEDIO       20
EDPROF       8
ESPEC        6
CONVEE       1
Name: count, dtype: int64

In [37]:
alunos_bf_2024['NIVEL'].value_counts()

NIVEL
CRECHE                   3763
PRE ESCOLA               3763
ENSINO FUNDAMENTAL       3763
EDUCAÇÃO PROFISSIONAL    3763
ENSINO MEDIO             3763
EDUCAÇÃO ESPECIAL        3763
Name: count, dtype: int64

Existe uma tabela de correspondência relacionada a essas categorias fornecida no último relatório de Gestão da Função Educação. A tabela é a seguinte:

| Nível Educacional | Tipo de escola |
| --- | --- |
| Educação Infantil | Creches |
| Educação Infantil | Pré-escola |
| Ensino Fundamental | EMEF |
| Ensino Médio | EMEFM |
| Educação de Jovens e Adultos | EJA/CIEJA |
| Educação de Jovens e Adultos | MOVA (Parceria) |
| Educação de Jovens e Adultos | Educação Profissional |
| Educação Especial | EMEBS |
| Educação Especial | Educação Especial (Parceira) |


Essa tabela permite a padronização de quase todas as tabelas, exceto a de perfil dos professores. Para as outras, vamos utilizar a tabela como base para a criação de um dicionário que será utilizado como *mapper* em cada uma das tabelas.

In [38]:
mat_23_nivel = {
    'Creche': 'Educação Infantil',
    'Pré Escola': 'Educação Infantil',
    'Ens. Fund.I': 'Ensino Fundamental',
    'Ens. Fund.II': 'Ensino Fundamental',
    'EJA I': 'Educação de Jovens e Adultos',
    'EJA II': 'Educação de Jovens e Adultos',
    'Ens. Médio': 'Ensino Médio',
    'Ed. Prof.': 'Educação de Jovens e Adultos'
}

mat_23['Nível padronizado'] = mat_23['Nível Educacional'].map(mat_23_nivel)
mat_23['Nível padronizado'].value_counts()

Nível padronizado
Educação de Jovens e Adultos    288
Educação Infantil               192
Ensino Fundamental              192
Ensino Médio                     96
Name: count, dtype: int64

In [39]:
alunos_23_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial',
    'ATCOMP': '?',
    'REC': '?',
    'SAAI': '?'
}

alunos_23['Nível padronizado'] = alunos_23['MODAL'].map(alunos_23_nivel)
alunos_23['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_23['Nível padronizado'] = alunos_23['MODAL'].map(alunos_23_nivel)


Nível padronizado
Educação Infantil               138482
Ensino Fundamental               99051
?                                87583
Educação de Jovens e Adultos     29133
Educação Especial                 1737
Ensino Médio                       597
Name: count, dtype: int64

In [40]:
alunos_est_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial'
}

alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)
alunos_est_2024['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)


Nível padronizado
Ensino Fundamental              1730
Educação Infantil               1671
Educação de Jovens e Adultos     271
Ensino Médio                      20
Educação Especial                  7
Name: count, dtype: int64

In [41]:
alunos_bf_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE ESCOLA': 'Educação Infantil',
    'ENSINO FUNDAMENTAL': 'Ensino Fundamental',
    'ENSINO MEDIO': 'Ensino Médio',
    'EDUCAÇÃO PROFISSIONAL': 'Educação de Jovens e Adultos',
    'EDUCAÇÃO ESPECIAL': 'Educação Especial'
}

alunos_bf_2024['Nível padronizado'] = alunos_bf_2024['NIVEL'].map(alunos_bf_2024_nivel)
alunos_bf_2024['Nível padronizado'].value_counts()

Nível padronizado
Educação Infantil               7526
Ensino Fundamental              3763
Educação de Jovens e Adultos    3763
Ensino Médio                    3763
Educação Especial               3763
Name: count, dtype: int64

## Padronização dos nomes de Distritos

Os dados de matrículas, escolas, educandos, educandos estrangeiros e educandos beneficiários do Bolsa Família possuem uma coluna chamada "Distrito" que contém o nome do distrito onde a escola está localizada.

Já os dados de servidores não possuem dados de distrito, mas possuem o nome da escola, que pode ser utilizada para buscar o distrito correspondente. Antes de unir as tabelas para fazer isso, vamos padronizar os nomes dos distritos de acordo com os dados do geosampa.

### Número de Unidades Escolares

In [42]:
(
    escolas_23
    .loc[~escolas_23['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Perfil dos alunos

In [43]:
(
    alunos_23
    .loc[~alunos_23['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos estrangeiros

In [44]:
(
    alunos_est_2024
    .loc[~alunos_est_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos beneficiários do Bolsa Família

In [45]:
(
    alunos_bf_2024
    .loc[~alunos_bf_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

Nenhum dos conjuntos de dados possui distritos que não estejam na lista do GeoSampa.

Agora, vamos unir os dados de servidores com os dados de escolas para adicionar a coluna de distrito aos dados de servidores.

### Número de professores da Rede Municipal de Ensino

Primeiro, vamos criar uma coluna com o tipo de escola e o nome da escola nos dois dataframes, para que possamos unir os dados de servidores com os dados de escolas.

In [46]:
escolas_23['NOMES_COMPLETO'] = (
    escolas_23['TIPOESC'].str.strip().str.upper()
    + ' ' + escolas_23['NOMES'].str.strip().str.upper()
)
escolas_23['NOMES_COMPLETO']

0                         EMEI PAULO CAMILHIER FLORENCANO
1                             EMEI VICENTE PAULO DA SILVA
2                       EMEF JOSE ERMIRIO DE MORAES, SEN.
3                          EMEF ALIPIO CORREA NETO, PROF.
4              EMEBS VERA LUCIA APARECIDA RIBEIRO, PROFA.
                              ...                        
4926                                CEU AT COM SAO RAFAEL
4927                             CEU AT COM ROSA DA CHINA
4928                                 CEU AT COM SAPOPEMBA
4929    CEU AT COM ALTO ALEGRE - PAULO SUYOSH MINAMI, ...
4930        CEU AT COM HELIOPOLIS - ARLETE PERSOLI, PROFA
Name: NOMES_COMPLETO, Length: 4931, dtype: object

In [47]:
perf_23['DC_UNIDADE_ATUAL_COMPLETA'] = (
    perf_23['TP_UNIDADE_ATUAL'].str.strip().str.upper()
    + ' ' + perf_23['DC_UNIDADE_ATUAL'].str.strip().str.upper()
)
perf_23['DC_UNIDADE_ATUAL_COMPLETA']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  perf_23['DC_UNIDADE_ATUAL_COMPLETA'] = (


0                                 CEU EMEI JOSE GASPAR, D.
1                         EMEFM DERVILLE ALLEGRETTI, PROF.
2        EMEI PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JAN...
3                                  EMEI ENIO CORREA, PROF.
4                            CEI DIRET JOSE DE MOURA, VER.
                               ...                        
86570                    EMEBS MARIO PEREIRA BICUDO, PROF.
86571              CEI DIRET VICENTINA VELASCO, AS. SOCIAL
86572                           CEI DIRET JARDIM CLIMAX II
86573        DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PENHA
86574                                 CEI DIRET ICAMI TIBA
Name: DC_UNIDADE_ATUAL_COMPLETA, Length: 67643, dtype: object

In [48]:
perf_23 = (
    perf_23
    .merge(escolas_23[['NOMES_COMPLETO', 'DISTRITO']],
           left_on=['DC_UNIDADE_ATUAL_COMPLETA'],
           right_on=['NOMES_COMPLETO'],
           how='left')
)

perf_23

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
0,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.375150e+14,CEU EMEI,"JOSE GASPAR, D.","CEU EMEI JOSE GASPAR, D.","CEU EMEI JOSE GASPAR, D.",CIDADE LIDER
1,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.345130e+14,EMEFM,"DERVILLE ALLEGRETTI, PROF.","EMEFM DERVILLE ALLEGRETTI, PROF.","EMEFM DERVILLE ALLEGRETTI, PROF.",SANTANA
2,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.315840e+13,EMEI,PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JANUARIO,EMEI PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JAN...,EMEI PARQUE FIGUEIRA GRANDE I - ANDRE LUIZ JAN...,JARDIM SAO LUIS
3,F,1311882504,BRANCA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"ENIO CORREA, PROF.","EMEI ENIO CORREA, PROF.","EMEI ENIO CORREA, PROF.",MANDAQUI
4,F,6361983595,NAO INFORMADA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.246790e+14,CEI DIRET,"JOSE DE MOURA, VER.","CEI DIRET JOSE DE MOURA, VER.","CEI DIRET JOSE DE MOURA, VER.",CAMBUCI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67638,F,301583581,PRETA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.395100e+14,EMEBS,"MARIO PEREIRA BICUDO, PROF.","EMEBS MARIO PEREIRA BICUDO, PROF.","EMEBS MARIO PEREIRA BICUDO, PROF.",CACHOEIRINHA
67639,F,93911283491,PARDA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.266620e+14,CEI DIRET,"VICENTINA VELASCO, AS. SOCIAL","CEI DIRET VICENTINA VELASCO, AS. SOCIAL","CEI DIRET VICENTINA VELASCO, AS. SOCIAL",SACOMA
67640,F,1311882504,BRANCA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,8.218610e+15,CEI DIRET,JARDIM CLIMAX II,CEI DIRET JARDIM CLIMAX II,CEI DIRET JARDIM CLIMAX II,SACOMA
67641,F,5352082473,RECUSOU INFORMAR,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PENHA,,


Vamos avaliar se todas as unidades escolares foram encontradas no dataframe de unidades.

In [49]:
(
    perf_23
    .query('DISTRITO.isnull()')
)

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
26,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PIRITUBA/JARAGUA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PIRITU...,,
27,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PIRITUBA/JARAGUA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PIRITU...,,
47,F,6361983595,NAO INFORMADA,12728032504,9.274100e+13,PROF.DE ED.INFANTIL,9.274100e+13,PROF.DE ED.INFANTIL,1311882504,EDUCACAO INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PIRITUBA/JARAGUA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PIRITU...,,
159,F,93911283491,PARDA,12728032504,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911283491,ENSINO FUNDAMENTAL II,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO GUAIANASES,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO GUAIAN...,,
167,F,1311882504,BRANCA,12728032504,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911283491,ENSINO FUNDAMENTAL II,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PENHA,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67517,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PENHA,,
67518,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2.245870e+11,ASSISTENTE TECNICO DE EDUCACAO I,43411282875,TECNICA PEDAGOGICA,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO PENHA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO PENHA,,
67540,F,6361983595,NAO INFORMADA,12728032504,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301583581,ENSINO FUNDAMENTAL I E INFANTIL,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO ITAQUERA,,
67587,F,1311882504,BRANCA,12728032504,9.284110e+13,PROF.ENS.FUND.II E MED.-INGLES,9.284110e+13,PROF.ENS.FUND.II E MED.-INGLES,93911283491,ENSINO FUNDAMENTAL II,1.226440e+14,COORD,COORDENADORIA PEDAGOGICA - COPED,COORD COORDENADORIA PEDAGOGICA - COPED,,


In [50]:
(
    perf_23
    .query('DISTRITO.isnull()')
    .shape[0]
    /perf_23.shape[0]
)

0.036249131469627306

Cerca de 3,6% dos professores não tiveram as unidades escolares encontradas. Vamos avaliar quais são essas unidades.

In [51]:
(
    perf_23
    .query('DISTRITO.isnull()')
    [['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL']]
    .sort_values(['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL'])
    .drop_duplicates()
)

Unnamed: 0,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
7681,CEI DIRET,JARDIM SAO MANOEL
17491,CEU AT COMPL,"AGUA AZUL - PAULO RENATO COSTA SOUZA, PROF"
58039,CEU AT COMPL,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF."
10349,CEU AT COMPL,"ARICANDUVA - IRENE GALVAO DE SOUZA, PROFA."
17425,CEU AT COMPL,"BUTANTA - ELIZABETH GASPAR TUNALA, PROFA."
...,...,...
7470,OUT-PMSP,CONSELHO MUNICIPAL DE EDUCACAO - CME
5916,OUT-PMSP,NUCLEO ADMINISTRATIVO - SME-NA
26236,OUT-PMSP,NUCLEO DE PLANEJAMENTO CENTRAL - SME-ATP-NPC
9967,SME,GABINETE DO SECRETARIO - SME G


Por ora, vamos manter dessa forma e, caso seja necessário, podemos avaliar como tratar esses casos numa atualização futura.

## Adicionando as Subprefeituras

Agora, vamos adicionar a coluna de subprefeitura a todos os dataframes.

### Associando distritos e subprefeituras

In [52]:
df_dist.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7..."
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7..."


In [53]:
df_subs.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980202.74,"POLYGON ((327340.628 7399133.313, 327331.514 7..."


In [54]:
df_subs.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
30,subprefeitura.31,31,1,PERUS,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.999000+00:00,,PR,57,56889310.75,"POLYGON ((325464.932 7409329.344, 325464.513 7..."
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."


Os dados de distritos e subprefeituras não estão completamente compatíveis, então precisamos de um tratamento adicional.

O dataframe de distritos possui uma coluna chamada `cd_identificador_subprefeitura`, mas não corresponde exatamente à coluna `cd_identificador_subprefeitura` do dataframe de subprefeituras. Ele corresponde parcialmente à coluna `cd_subprefeitura` do dataframe de subprefeituras, mas não é exatamente a mesma, porque esta última possui um zero à esquerda que não está presente no dataframe de distritos. Portanto, vamos criar uma coluna com o código de subprefeitura no dataframe de distritos, que será o código de subprefeitura com o zero à esquerda.

In [55]:
df_dist['cd_subprefeitura'] = (
    df_dist['cd_identificador_subprefeitura'].astype(str)
    .str.zfill(2)
)

df_dist.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",1
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",1


Agora, vamos associar os distritos e subprefeituras.

In [56]:
df_dist_sub = df_dist.merge(
    df_subs[['cd_subprefeitura', 'nm_subprefeitura']],
    on='cd_subprefeitura',
    how='left'
)
df_dist_sub.sort_values('cd_subprefeitura')

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura,nm_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",01,PERUS
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",01,PERUS
87,distrito_municipal.8583481,8583481,2,42,JARAGUA,JAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.797000+00:00,,199299399,28.111,28111480.23,"POLYGON ((319331.738 7402448.876, 319278.779 7...",02,PIRITUBA-JARAGUA
21,distrito_municipal.8583415,8583415,2,95,SAO DOMINGOS,SDO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.137000+00:00,,199299399,9.693,9693355.95,"POLYGON ((319878.693 7402906.129, 319884.382 7...",02,PIRITUBA-JARAGUA
12,distrito_municipal.8583406,8583406,2,63,PIRITUBA,PIR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.886000+00:00,,199299399,17.216,17216180.68,"POLYGON ((325098.097 7405104.04, 325094.984 74...",02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78,distrito_municipal.8583472,8583472,30,33,IGUATEMI,IGU,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.895000+00:00,,199299399,19.435,19434636.54,"POLYGON ((350874.784 7389641.837, 350875.63 73...",30,SAO MATEUS
25,distrito_municipal.8583419,8583419,30,75,SAO RAFAEL,SRA,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.912000+00:00,,199299399,13.076,13076288.46,"POLYGON ((348922.57 7386626.427, 348923.784 73...",30,SAO MATEUS
23,distrito_municipal.8583417,8583417,30,73,SAO MATEUS,SMT,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.117000+00:00,,199299399,12.800,12800219.28,"POLYGON ((348623.992 7386632.011, 348628.153 7...",30,SAO MATEUS
71,distrito_municipal.8583465,8583465,31,25,CIDADE TIRADENTES,CTI,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.745000+00:00,,199299399,14.939,14939046.96,"POLYGON ((357428.688 7387653.528, 357433.497 7...",31,CIDADE TIRADENTES


Aparentemente, os dados de distritos e subprefeituras estão compatíveis, então vamos adicionar a coluna de subprefeitura aos outros dataframes.

# Armazenamento dos dados

Finalmente, salvamos os arquivos como csv para utilizarmos no Qlik Sense.

In [57]:
base_path = os.path.join('data_output', 'educacao')

if not os.path.exists(base_path):
    os.makedirs(base_path)

for name, df in [('demanda e matriculas', mat_23),
                 ('servidores-perfil', perf_23),
                 ('escolas-municipais', escolas_23),
                 ('perfil-dos-educandos', alunos_23),
                 ('educandos-estrangeiros', alunos_est_2024),
                 ('beneficiarios-pbf', alunos_bf_2024)]:
    
    filepath = os.path.join(base_path, f'{name}.csv')

    df.to_csv(filepath, index=False)