# GT Educação

O GT Educação enviou uma série de formulários com indicadores desejados para o painel. A maioria desses indicadores estão disponíveis no Portal de Dados Abertos da Prefeitura de São Paulo (http://dados.prefeitura.sp.gov.br/).

Portanto, vamos carregar o módulo de downloads do portal de dados abertos.

In [1]:
import os
import pandas as pd
from xlrd import xldate

from core.downloads import dadosabertos as da
from core.downloads import geosampa as gs

# Extração e transformação inicial

## Número de alunos da Rede Municipal de Ensino

O primeiro indicador é o número de alunos da rede municipal, segmentado por nível educacional (Creche, Pré Escola, Ensino Fundamental I, Ensino Fundamental II, EJA I, EJA II, Ensino Médio, Ed. Prof.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/demanda-e-matriculas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [2]:
pkg_name = 'demanda-e-matriculas'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Demanda e Matrículas - Dezembro/2023',
  'id': 'a63afccb-1a19-4438-96b1-7a13c4ccb586',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/a63afccb-1a19-4438-96b1-7a13c4ccb586/download/publicacao-bimestral-dezembro-2023.xls'},
 {'name': 'Demanda e Matrículas - Outubro/2023',
  'id': 'f217087c-b2b8-4e76-a282-567075afe30c',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/f217087c-b2b8-4e76-a282-567075afe30c/download/publicacao-bimestral-outubro-2023.xls'},
 {'name': 'Demanda e Matrículas - Agosto/2023',
  'id': 'ecb51533-e2dc-4298-8d66-878be3bab9d8',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/45612acc-edd3-4134-ac7f-9a0026f60c97/resource/ecb51533-e2dc-4298-8d66-878be3bab9d8/download/publicacao-bimestral-agosto-2023.xls'},
 {'name': 'Demanda e Matrículas - Junho/2023',
  'id': 'e67654b3-d1cd-455b-a97a-7df12627c9d0',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/456

Sabendo o id do arquivo de dezembro de 2023, vamos carregar o recurso como um dataframe.

In [3]:
resource_id = 'a63afccb-1a19-4438-96b1-7a13c4ccb586'
mat_23 = da.load_resource(resource_id, pandas_kwargs=dict(header=[0,1]))
mat_23

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrícula em Processo,...,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda,Demanda
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.,Creche,...,Creche (3),Creche Total,Pré Escola (1),Pré Escola (2),Pré Escola (3),Pré Escola Total,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0,1.0,...,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0,4.0,...,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0,4.0,...,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0,356.0,...,555.0,555.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,,,...,,,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,,,...,,,,,,,,,,


O dataframe contem dados de matrículas, matrículas em processo e demanda não atendida. Como desejamos apenas matrículas, vamos remover as outras colunas.

In [4]:
mat_23 = mat_23[['Distrito', 'Matrículas']]
mat_23

Unnamed: 0_level_0,Distrito,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas,Matrículas
Unnamed: 0_level_1,Unnamed: 0_level_1,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


Agora, sabendo que temos apenas dados sobre matrículas, vamos ajustar as colunas.

In [5]:
mat_23 = (mat_23
 .droplevel(0, axis='columns')
 .rename(columns={'Unnamed: 0_level_1': 'Distrito'}))

mat_23

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
95,VILA SONIA,3807.0,1811.0,1991.0,1554.0,0.0,24.0,0.0,0.0
96,TOTAL,354093.0,224501.0,229976.0,186033.0,4347.0,16287.0,2031.0,1516.0
97,(1) - Demanda sem opção por unidade específica...,,,,,,,,
98,(2) - Demanda sem opção por unidade específica...,,,,,,,,


As últimas linhas do dataframe são apenas dados de totalização e notas, então vamos excluí-las também.

In [6]:
mat_23 = mat_23.loc[mat_23['Distrito'].str.lower()!='total']
mat_23 = mat_23.loc[~mat_23.iloc[:,1].isna()]
mat_23

Unnamed: 0,Distrito,Creche,Pré Escola,Ens. Fund.I,Ens. Fund.II,EJA I,EJA II,Ens. Médio,Ed. Prof.
0,AGUA RASA,1250.0,754.0,976.0,949.0,0.0,46.0,0.0,0.0
1,ALTO DE PINHEIROS,312.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,ANHANGUERA,2914.0,1730.0,3018.0,2363.0,51.0,226.0,0.0,0.0
3,ARICANDUVA,1560.0,732.0,1205.0,1113.0,13.0,59.0,0.0,0.0
4,ARTUR ALVIM,2733.0,2144.0,2316.0,2130.0,0.0,15.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
91,VILA MARIANA,714.0,548.0,250.0,229.0,0.0,0.0,0.0,0.0
92,VILA MATILDE,1795.0,846.0,2061.0,1857.0,21.0,121.0,0.0,0.0
93,VILA MEDEIROS,3922.0,2412.0,1700.0,1457.0,50.0,356.0,0.0,0.0
94,VILA PRUDENTE,2481.0,1207.0,989.0,871.0,27.0,74.0,0.0,0.0


Finalmente, vamos "despivotar" a tabela, transformando o nome das colunas em uma nova coluna chamada "Nível educacional" e unificando as colunas de valor sob uma coluna chamada matrículas.

In [7]:
mat_23 = mat_23.melt(
    id_vars='Distrito',
    var_name='Nível Educacional',
    value_name='Matrículas'
)
mat_23

Unnamed: 0,Distrito,Nível Educacional,Matrículas
0,AGUA RASA,Creche,1250.0
1,ALTO DE PINHEIROS,Creche,312.0
2,ANHANGUERA,Creche,2914.0
3,ARICANDUVA,Creche,1560.0
4,ARTUR ALVIM,Creche,2733.0
...,...,...,...
763,VILA MARIANA,Ed. Prof.,0.0
764,VILA MATILDE,Ed. Prof.,0.0
765,VILA MEDEIROS,Ed. Prof.,0.0
766,VILA PRUDENTE,Ed. Prof.,0.0


## Número de professores da Rede Municipal de Ensino

O segundo indicador solicitado é o número de professores da Rede Municipal de Ensino, com recortes por Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/microdados-servidores-perfil, porém os arquivos possuem informação sobre todos os servidores da SME, o que inclui os servidores administrativos, que precisarão ser excluídos.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [8]:
pkg_name = 'microdados-servidores-perfil'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Microdados - Perfil dos Servidores 2024',
  'id': 'f2d39e22-d919-4324-b92d-616adc5feb41',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/12a101f0-622b-43ad-946c-95c430ae6cab/resource/f2d39e22-d919-4324-b92d-616adc5feb41/download/perfilservidor24.csv'}]

Aparentemente, os dados de perfil dos servidores possuem periodicidade anual, já que temos apenas um arquivo disponível para 2024.

In [9]:
resource_id = resources[0]['id']
perf_24 = da.load_resource(resource_id)
perf_24

Unnamed: 0,DATA_BASE_EOL,ANO_REFERENCIA,CD_CAR_SERV_SME,MES_NASC,ANO_NASC,IDADE,CD_SEXO,CD_MUNICIPIO_NASC,DC_MUNICIPIO_NASC,UF_MUNICIPIO_NASC,...,CD_UNIDADE_FUNCAO,CD_FUNCAO,DC_FUNCAO,DT_INICIO_FUNCAO,CD_UNIDADE_SOBREPOSTO,CD_SOBREPOSTO,DC_SOBREPOSTO,DT_INICIO_SOBREPOSTO,ACUMULO_AMBITO,ACUMULO_SITUACAO_SEGUNDO_VINCULO
0,"dezembro, 2024",2024,13959569213340,5,1958,66,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Aposentado
1,"dezembro, 2024",2024,13757719212040,11,1954,70,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,,
2,"dezembro, 2024",2024,13054398219040,5,1952,72,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Aposentado
3,"dezembro, 2024",2024,13959668217340,5,1958,66,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,,
4,"dezembro, 2024",2024,13858808214640,4,1954,70,F,3.187364e+14,IRECE,BA,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,"dezembro, 2024",2024,300726592392517,6,1987,37,F,9.354739e+15,SAO PAULO,SP,...,,,,,,,,,PMSP,Efetivo
90909,"dezembro, 2024",2024,371730092342317,2,1969,55,F,9.343737e+15,SANTO ANDRE,SP,...,,,,,,,,,Outros,Aposentado
90910,"dezembro, 2024",2024,371730092342217,4,1985,39,F,9.354739e+15,SAO PAULO,SP,...,,,,,1.315840e+13,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43864.0,,
90911,"dezembro, 2024",2024,309728622328717,10,1975,49,F,9.354739e+15,SAO BERNARDO DO CAMPO,SP,...,,,,,,,,,,


Com os dados baixados, vamos selecionar as colunas para atender às segmentações propostas no formulário.

In [10]:
# Raça, Sexo, Nível de Ensino (Educação Infantil, Ensino Fundamental etc.), Tipo de Unidade de atuação (EMEF, EMEI etc.).

perf_cols = [
    'CD_SEXO',
    'CD_RACA_COR',
    'DC_RACA_COR',
    'CD_DEF',
    'CD_CARGO_BASE',
    'DC_CARGO_BASE',
    'DT_INICIO_CARGO_BASE',
    'CD_CARGO_ATUAL',
    'DC_CARGO_ATUAL',
    'CD_AREA_ATUACAO_ATUAL',
    'DC_AREA_ATUACAO_ATUAL',
    'CD_UNIDADE_ATUAL',
    'TP_UNIDADE_ATUAL',
    'DC_UNIDADE_ATUAL',
]

perf_24 = perf_24.loc[:, perf_cols]
perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA."
1,F,6361921931,NAO INFORMADA,12727970840,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL,42495,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL,43411221211,TECNICA PEDAGOGICA,1.226440e+14,COORD,COORDENADORIA DE GESTAO DE PESSOAS - COGEP
2,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO
3,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO
4,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O
90909,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA
90910,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,TECNICA PEDAGOGICA,1.315840e+13,CEU EMEF,ALTO ALEGRE
90911,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI


O formulário solicita também a exclusão de professores aposentados e servidores administrativos do conjunto de dados. Apesar de existir uma coluna com um valor "aposentado", a `ACUMULO_SITUACAO_SEGUNDO_VINCULO`, essa coluna parece se referir à situação do segundo vínculo, e não do vínculo com a PMSP. Além disso, a lista de servidores aposentados da Secretaria Municipal de Educação tem mais de 94 mil registros, então esses registros provavelmente não estão nos dados de perfil dos servidores.

Para excluir os servidores administrativos, vamos primeiro avaliar quais cargos estão presentes na base.

In [11]:
df_cargos = perf_24[['CD_CARGO_BASE', 'DC_CARGO_BASE']].copy()
df_cargos = df_cargos.drop_duplicates().reset_index(drop=True)

df_cargos

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9.234430e+12,PROF.ED.INF.E ENS.FUND.I
1,9.204600e+12,ASSISTENTE TECNICO EDUCACIONAL
2,9.274100e+13,PROF.DE ED.INFANTIL
3,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES
4,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES
...,...,...
92,1.232303e+10,SECRETARIO MUNICIPAL
93,4.292170e+11,CHEFE DE ASSESSORIA I
94,3.244140e+13,COORDENADOR II - ENS MED
95,8.234600e+12,ASSIST.ADM. DE GESTAO


Dado a quantidade de cargos, vamos fitrar a lista com base em uma regra geral, mantendo apenas os cargos que possual a string "PROF" em sua descrição.

In [12]:
filtro_prof = df_cargos['DC_CARGO_BASE'].str.lower().str.contains('prof.', regex=False)
df_cargos_prof = df_cargos.loc[filtro_prof]

df_cargos_prof

Unnamed: 0,CD_CARGO_BASE,DC_CARGO_BASE
0,9234430000000.0,PROF.ED.INF.E ENS.FUND.I
2,92741000000000.0,PROF.DE ED.INFANTIL
3,9264550000000.0,PROF.ENS.FUND.II E MED.-ARTES
4,9244720000000.0,PROF.ENS.FUND.II E MED.-PORTUGUES
5,9214970000000.0,PROF.ENS.FUND.II E MED.-MATEMATICA
6,9274960000000.0,PROF.ENS.FUND.II E MED.-CIENCIAS
7,92841100000000.0,PROF.ENS.FUND.II E MED.-INGLES
9,9214970000000.0,PROF.ENS.FUND.II E MED.-GEOGRAFIA
12,9224650000000.0,PROF.ENS.FUND.II E MED.-HISTORIA
19,9224640000000.0,PROF.SUBST.DE EDUCACAO INFANTIL


Por último, filtramos a base geral com base nessa lista de cargos.

In [13]:
perf_24 = (
    perf_24
    .loc[
        perf_24['DC_CARGO_BASE'].isin(df_cargos_prof['DC_CARGO_BASE'].tolist())
    ]
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA."
2,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO
3,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO
4,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO
5,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90908,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O
90909,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA
90910,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,TECNICA PEDAGOGICA,1.315840e+13,CEU EMEF,ALTO ALEGRE
90911,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI


## Número de Unidades Escolares

O terceiro indicador solicitado é o número de Unidades Escolares da Rede Municipal de Ensino, com recortes por Tipo de Escola (EMEI, EMEF etc.) e Distrito.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/cadastro-de-escolas-municipais-conveniadas-e-privadas.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Nesse momento, podemos pegar todos os conjuntos em dezembro de 2024.

In [14]:
pkg_name = 'cadastro-de-escolas-municipais-conveniadas-e-privadas'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Cadastro de escolas da cidade de São Paulo 2024',
  'id': '533188c6-1949-4976-ac4e-acd313415cd1',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/533188c6-1949-4976-ac4e-acd313415cd1/download/escolas122024.csv'}]

Aparentemente, os dados de unidades escolares possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [15]:
resource_id = resources[0]['id']
escolas_24 = da.load_resource(resource_id)
escolas_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMES,DESLOC,CEU,DIRETORIA,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,LATITUDE,LONGITUDE,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502.0,...,26134,13/06/1988,,16/03/1991,,,DIR,-23553905,-46398452,31/12/2024
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295.0,...,26314,04/07/1988,,16/03/1991,,,DIR,-23489728,-46670198,31/12/2024
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.","JOSE ERMIRIO DE MORAES, SEN.",,SAO MIGUEL,SAO MIGUEL,RUA SAO BRAS DO SUACUI,159.0,...,26312,05/07/1988,,13/03/2001,,VILA NITRO OPERARIA,DIR,-23478312,-46427344,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.","ALIPIO CORREA NETO, PROF.",,BUTANTA,BUTANTA,AVENIDA JOAO CAIAFFA,140.0,...,26003,27/05/1988,,16/03/1991,,,DIR,-23612237,-46749888,31/12/2024
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.","VERA LUCIA APARECIDA RIBEIRO, PROFA.",,PIRITUBA,PIRITUBA,RUA BENEDITO PEREIRA,206.0,...,26229,22/06/1988,,16/03/1991,,,DIR,-23486142,-46733901,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5021,PJ,700053,CEU AT COM,PINHEIRINHO DAGUA,PINHEIRINHO DAGUA,PINHEIRINHO D'AGUA,PIRITUBA,PIRITUBA,RUA CAMILLO ZANOTTI,92.0,...,59933,01/12/2020,,,,,CON,-23438098,-46732201,31/12/2024
5022,PE,700054,CEU AT COM,MONTE SERRAT,MONTE SERRAT,MONTE SERRAT,PENHA,MOOCA,RUA MONTE SERRAT,230.0,...,59931,01/12/2020,,,,,CON,-23539898,-46562294,31/12/2024
5023,PJ,700055,CEU AT COM,CORETO DE TAIPAS,CORETO DE TAIPAS,CORETO DE TAIPAS,PIRITUBA,PIRITUBA,RUA JOÃO AMADO COUTINHO,240.0,...,59932,01/12/2020,,,,,CON,-23447574,-46714798,31/12/2024
5024,PE,700056,CEU AT COM,HORIZONTE AZUL,HORIZONTE AZUL,HORIZONTE AZUL,PENHA,PENHA,AVENIDA SYLVIO TORRES,295.0,...,59930,01/12/2020,,,,,CON,-23552513,-46487631,31/12/2024


Os dados das escolas também serão usados com outros conjuntos de dados para regionalizá-los, então vamos manter também algumas colunas de identificação das escolas para facilitar esse uso o posterior. Vamos também filtrar apenas as escolas ativas.

In [16]:
escolas_cols = ['CODESC',
                'TIPOESC',
                'NOMES',
                'SUBPREF',
                'DISTRITO',
                'CODINEP',
                'CD_CIE',
                'NOME_ANT',
                'REDE']

escolas_filtro = escolas_24['SITUACAO'].str.lower().str.contains('ativa')
escolas_24 = escolas_24.loc[escolas_filtro, escolas_cols]

escolas_24

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,1677116.0,VILA NITRO OPERARIA,DIR
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,1679154.0,,DIR
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,1671138.0,,DIR
5,213,EMEI,"ANTONIO CARLOS PACHECO E SILVA, PROF.",BUTANTA,VILA SONIA,35098504.0,1679153.0,,DIR
6,221,EMEI,NAIR CORREA BUARQUE,FREGUESIA/BRASILANDIA,FREGUESIA DO O,35098425.0,1670140.0,INSTALADA JUNTO A EMPG ELIAS S. CAVALCANTI,DIR
...,...,...,...,...,...,...,...,...,...
5009,700041,CEU AT COM,SAO RAFAEL,SAO MATEUS,SAO RAFAEL,35455702.0,,,DIR
5010,700042,CEU AT COM,ROSA DA CHINA,SAPOPEMBA,SAPOPEMBA,35455672.0,,,DIR
5011,700043,CEU AT COM,SAPOPEMBA,SAPOPEMBA,SAPOPEMBA,35455933.0,,,DIR
5012,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",SAO MATEUS,IGUATEMI,35455611.0,,ALTO ALEGRE,DIR


## Perfil dos alunos

O quinto indicador solicitado é o número de alunos da Rede Municipal de Ensino, com recortes por Raça, Sexo, existência de Necessidades Especiais, Distrito, Rede de Ensino (Administração Direta ou Rede Conveniada/Parceira).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados. Para padronizar o período de todos os conjuntos, vamos focar em dezembro de 2023.

In [17]:
pkg_name = 'perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Perfil dos educandos - Dez/2024',
  'id': '5ef5187b-9d3d-4c68-8da2-de441f7bff30',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/b9c5faef-1a61-4814-b89e-bd7a73154ebc/resource/5ef5187b-9d3d-4c68-8da2-de441f7bff30/download/perfil_dos_educandos_122024.csv'}]

Aparentemente, os dados de perfil dos educandos possuem periodicidade anual, já que temos apenas um arquivo disponível para 2023.

In [18]:
resource_id = resources[0]['id']
alunos_24 = da.load_resource(resource_id)
alunos_24

Unnamed: 0,DRE,CODESC,TIPOESC,NOMESC,DISTRITO,SETOR,ANO,REDE,MODAL,DESCSERIE,PERIODO,TURNO,DESCTURNO,SEXO,IDADE,NEE,RACA,Qtde,DATABASE
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,6,AUTISMO,PARDA,1,31/12/2024
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,F,7,AUTISMO,PARDA,1,31/12/2024
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,10,,PARDA,1,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,2,Intermediário,M,11,,BRANCA,1,31/12/2024
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",VILA SONIA,9404,2024,DIR,ATCOMP,ATCOMP,Diurno,3,Tarde,F,8,,PARDA,1,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
467257,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,PRETA,2,31/12/2024
467258,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,13,,RECUSOU INFORMA,4,31/12/2024
467259,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,,PARDA,5,31/12/2024
467260,SM,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",IGUATEMI,3304,2024,DIR,CELP,CELP,Diurno,4,Vespertino,M,14,BAIXA VISAO/VISAO SUBNORMAL,RECUSOU INFORMA,2,31/12/2024


In [19]:
alunos_cols = ['DISTRITO',
               'REDE',
               'MODAL',
               'SEXO',
               'NEE',
               'RACA',
               'Qtde']

alunos_24 = alunos_24[alunos_cols]

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde
0,VILA SONIA,DIR,ATCOMP,F,AUTISMO,PARDA,1
1,VILA SONIA,DIR,ATCOMP,F,AUTISMO,PARDA,1
2,VILA SONIA,DIR,ATCOMP,M,,PARDA,1
3,VILA SONIA,DIR,ATCOMP,M,,BRANCA,1
4,VILA SONIA,DIR,ATCOMP,F,,PARDA,1
...,...,...,...,...,...,...,...
467257,IGUATEMI,DIR,CELP,M,,PRETA,2
467258,IGUATEMI,DIR,CELP,M,,RECUSOU INFORMA,4
467259,IGUATEMI,DIR,CELP,M,,PARDA,5
467260,IGUATEMI,DIR,CELP,M,BAIXA VISAO/VISAO SUBNORMAL,RECUSOU INFORMA,2


Para manter a quantidade de matrículas compatível com o relatório de função, vamos manter apenas algumas modalidades de ensino, de modo que não sejam consideradas matrículas de atividades em contraturno e similares.

In [20]:
alunos_24['MODAL'].unique()

array(['ATCOMP', 'FUND', 'PAEE COLAB', 'PAP', 'PAP COLAB', 'PRE', 'SAAI',
       'EJA', 'REC', 'CRECHE', 'MOVA', 'CELP', 'ESPEC', 'CONVEE',
       'EDPROF', 'MEDIO'], dtype=object)

In [21]:
modalidades = ['CRECHE', 'ESPEC', 'PRE',
               'CONVEE','EDPROF', 'EJA', 'FUND', 'MEDIO', 'MOVA']

alunos_24 = alunos_24[alunos_24['MODAL'].isin(modalidades)]
alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde
54,VILA SONIA,DIR,FUND,F,,PARDA,3
55,VILA SONIA,DIR,FUND,F,,BRANCA,3
56,VILA SONIA,DIR,FUND,F,,PARDA,8
57,VILA SONIA,DIR,FUND,F,,PRETA,2
58,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1
...,...,...,...,...,...,...,...
462528,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1
462529,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2
462530,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1
462531,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1


## Número de alunos estrangeiros

O sétimo indicador é o número de alunos estrangeiros da rede municipal, segmentado por País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.).

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/educandos-estrangeiros-por-nacionalidade. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

Primeiro, precisamos visualizar todos os recursos relativos a esse conjunto de dados.

In [22]:
pkg_name = 'educandos-estrangeiros-por-nacionalidade'
resources = da.package_resources(pkg_name, '23')
resources

[{'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '002f8395-0faf-4ec8-ab63-a92e3ee8b232',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/002f8395-0faf-4ec8-ab63-a92e3ee8b232/download/estrangeirosjunho2023.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '855394c4-d95f-4387-880d-3a288bb31cff',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/855394c4-d95f-4387-880d-3a288bb31cff/download/estrangeirosjunho2023.ods'}]

Os dados de alunos estrangeiros parecem estar disponíveis anualmente, mas no mês de junho. Como não existe arquivo para dezembro de 2023, vamos utilizar o arquivo de junho de 2024.

In [23]:
pkg_name = 'educandos-estrangeiros-por-nacionalidade'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '75357667-9bf6-463b-9ecc-609dfecafb25',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/75357667-9bf6-463b-9ecc-609dfecafb25/download/estudantes_estrangeiros_dez24.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '22f9daba-fb61-439b-984b-ab5d99733ad2',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/22f9daba-fb61-439b-984b-ab5d99733ad2/download/estudantes_estrangeiros_dez24.ods'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '1920e20b-181f-43bf-b390-d45fbaa272d4',
  'url': 'https://dados.prefeitura.sp.gov.br/dataset/f66a2317-0b67-4e14-b6c5-1a7340d6e30f/resource/1920e20b-181f-43bf-b390-d45fbaa272d4/download/estudantes_estrangeiros_jun24.xlsx'},
 {'name': 'Educandos estrangeiros por nacionalidade e DRE',
  'id': '6f2adbce-af06-45c1-8946-b4659cabe228',
  'url': 'https://da

In [24]:
resource_id = resources[2]['id']
alunos_est_2024 = da.load_resource(resource_id)
alunos_est_2024

Unnamed: 0,DRE,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,SERIE,QTDE,REDE,DATABASE
0,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,FUND,C.II 4.ANO F9,1,DIR,2024-06-30
1,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,FUND,C.II 6.ANO F9,3,DIR,2024-06-30
2,FREGUESIA/BRASILANDIA,FREGUESIA DO O,92,VENEZUELA,PRE,INFANTIL UNIF,2,DIR,2024-06-30
3,FREGUESIA/BRASILANDIA,FREGUESIA DO O,175,ANGOLA,FUND,C.I 1.ANO F9,1,DIR,2024-06-30
4,FREGUESIA/BRASILANDIA,FREGUESIA DO O,175,ANGOLA,FUND,C.II 4.ANO F9,1,DIR,2024-06-30
...,...,...,...,...,...,...,...,...,...
3694,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.I 2.ANO F9,1,DIR,2024-06-30
3695,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.I 3.ANO F9,1,DIR,2024-06-30
3696,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.III 7.ANO F9,1,DIR,2024-06-30
3697,SAO MIGUEL,VILA JACUI,213,NIGÉRIA,FUND,C.III 9.ANO F9,1,DIR,2024-06-30


In [25]:
# Recortes: País de Procedência, Distrito, Tipo de Rede (Direta ou Conveniada/Parceira), Etapa (Creche, fundamental, EJA etc.)
alunos_bf_cols = ['DISTRITO',
                   'COD_PAIS',
                   'NOME_PAIS',
                   'ETAPA',
                   'REDE',
                   'QTDE']

alunos_est_2024 = alunos_est_2024[alunos_bf_cols]

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE
0,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,1
1,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,3
2,FREGUESIA DO O,92,VENEZUELA,PRE,DIR,2
3,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1
4,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1
...,...,...,...,...,...,...
3694,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3695,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3696,VILA JACUI,213,NIGÉRIA,FUND,DIR,1
3697,VILA JACUI,213,NIGÉRIA,FUND,DIR,1


## Número de alunos beneficiários do Bolsa Família

O oitavo indicador é o número de alunos beneficiários do Bolsa Família da rede municipal, segmentado por Distrito e nível de ensino.

O conjunto de dados que contém esse indicador está disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas. Sabendo que o último trecho da url representa a id do conjunto de dados, vamos utilizá-la para fazer a extração dos dados do portal.

As notas (que podem ser vistas na saída abaixo) desse conjunto de dados incluem a informação de que a estrutura do conjunto mudou a partir de 2024 e, por isso, foi criado um novo conjunto de dados com a estrutura mais recente, disponível em http://dados.prefeitura.sp.gov.br/dataset/beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao. Vamos utilizar essa versão mais recente e os dados de julho de 2024, assim como o número de alunos estrangeiros.

In [26]:
pkg_name = 'beneficiarios-programa-bolsa-familia-creches-municipais-e-conveniadas'
pkg = da.package_show(pkg_name)
print(pkg['notes'])

Esta base de dados traz a série histórica de 10 anos com a quantidade de crianças beneficiárias pelo Programa Bolsa Família e matriculadas em creches municipais ou conveniadas entre os anos de 2013 e 2023.

As informações foram compiladas pela Secretaria Municipal de Educação, a partir de cruzamento do Sistema EOL com dados da Secretaria Municipal de Assistência Social utilizando a chave NIS do Aluno ou Nome do Aluno, mãe e nascimento, o que pode ocasionar variações de números por divergências cadastrais.

Nota técnica: A partir do mês de dezembro de 2021, o Programa Bolsa Família foi substituído pela Programa Auxílio Brasil, conforme Lei Federal nº 14.284/2021. Dessa forma, o conjunto de dados referente ao ano de 2022 encontra-se denominado como "Beneficiários do Programa Auxílio Brasil (Creche)". No entanto, em 19 junho de 2023 o Programa Auxílio Brasil volta a se chamar Programa Bolsa Família, conforme Lei Federal nº 14.601/2023 e por esse motivo a base retoma a sua nomenclatura ini

In [27]:
pkg_name = 'beneficiarios-do-programa-bolsa-familia-por-etapa-de-ensino-da-rede-municipal-de-educacao'
resources = da.package_resources(pkg_name, '24')
resources

[{'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'c36429c0-b9da-478d-b32e-c9ffd31adfce',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/c36429c0-b9da-478d-b32e-c9ffd31adfce/download/dicionarariovariaveis_novabolsafamilia_jul2024.csv'},
 {'name': 'Dicionário de Variáveis Programa Bolsa Família por Etapa',
  'id': 'f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/f1cf5dd5-c248-4c34-b1b0-dfb3d6f7ec1c/download/dicionarariovariaveis_novabolsafamilia_jul2024.xlsx'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '8999e4a8-9cbc-4fd6-b7ce-cef505e55f34',
  'url': 'http://dados.prefeitura.sp.gov.br/dataset/2e1a7fe7-284f-445a-8566-031f689f1b54/resource/8999e4a8-9cbc-4fd6-b7ce-cef505e55f34/download/novabolsafamilia_julho2024.csv'},
 {'name': 'Programa Bolsa Família por Etapa - Jul24',
  'id': '29f089e7-2de2-4295-9d4c-

In [28]:
resource_id = resources[2]['id']
alunos_bf_2024 = da.load_resource(resource_id)
alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL,TOTAL MATRICULAS,DATABASE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0,140,31/07/2024
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0,145,31/07/2024
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0,324,31/07/2024
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0,193,31/07/2024
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8,8,31/07/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0,0,31/07/2024
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0,40,31/07/2024
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0,16,31/07/2024
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0,31,31/07/2024


In [29]:
# Recortes: Alunos Beneficiários do Bolsa-Família por distrito, por nível de Ensino
alunos_bf_cols = ['CODEOL',
                   'TIPO',
                   'UNIDADE',
                   'DIRETORIA',
                   'DISTRITO',
                   'CRECHE',
                   'PRE ESCOLA',
                   'ENSINO FUNDAMENTAL',
                   'EDUCAÇÃO PROFISSIONAL',
                   'ENSINO MEDIO',
                   'EDUCAÇÃO ESPECIAL']

alunos_bf_2024 = alunos_bf_2024[alunos_bf_cols]

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,CRECHE,PRE ESCOLA,ENSINO FUNDAMENTAL,EDUCAÇÃO PROFISSIONAL,ENSINO MEDIO,EDUCAÇÃO ESPECIAL
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,0,140,0,0,0,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,0,145,0,0,0,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,0,0,324,0,0,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,0,0,193,0,0,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,0,0,0,0,0,8
...,...,...,...,...,...,...,...,...,...,...,...
3758,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,21,0,0,0,0,0
3759,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,81,40,0,0,0,0
3760,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,19,16,0,0,0,0
3761,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,15,31,0,0,0,0


In [30]:
alunos_bf_id_vars = alunos_bf_cols[0:5]

alunos_bf_2024 = alunos_bf_2024.melt(id_vars=alunos_bf_id_vars,
                    var_name='NIVEL',
                    value_name='QTDE')

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0
...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0


## Distritos e Subprefeituras

Para agregarmos os dados em Subprefeituras, precisamos de uma lista de distritos e subprefeituras. A lista de distritos e subprefeituras pode ser obtida no GeoSampa, que é o portal de dados geográficos da Prefeitura de São Paulo.

In [31]:
gs.get_capabilities('distrito')

[{'name': 'geoportal:central_triagem_cooperativa',
  'title': 'Cooperativas Habilitadas',
  'abstract': 'Atualmente 93 distritos são contemplados pela Coleta de Materiais Recicláveis realizada pelas Centrais e pelas Concessionárias, ficando a sua coordenação sob a responsabilidade da Secretaria Municipal de Serviços, por intermédio da Autoridade Municipal de Limpeza Urbana – AMLURB, estabelecendo normas e procedimentos para sua implementação, gerenciamento, fiscalização e controle. Das 22 organizações que mantêm uma relação formal com a Prefeitura de São Paulo, 21 cooperativas ou associações que desenvolvem atividades de coleta, triagem e comercialização de RSD Secos, e uma desenvolve atividades de recuperação de resíduos eletroeletrônicos (REE).'},
 {'name': 'geoportal:distrito_municipal',
  'title': 'Distrito',
  'abstract': 'Os distritos foram criados mediante a Lei nº 11.220/1992. Seus limites foram estabelecidos a partir de estudos elaborados por diversos órgãos do Executivo munic

In [32]:
df_dist = gs.get_features('geoportal:distrito_municipal')
df_dist

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
0,distrito_municipal.8583394,8583394,5,51,MANDAQUI,MAN,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.086000+00:00,,199299399,13.249,1.324946e+07,"POLYGON ((333079.583 7408102.398, 333077.161 7..."
1,distrito_municipal.8583395,8583395,20,52,MARSILAC,MAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.153000+00:00,,199299399,208.165,2.081650e+08,"POLYGON ((335849.365 7355252.191, 335849.717 7..."
2,distrito_municipal.8583396,8583396,12,32,MOEMA,MOE,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.869000+00:00,,199299399,9.080,9.079516e+06,"POLYGON ((331290.13 7392111.284, 331324.217 73..."
3,distrito_municipal.8583397,8583397,25,53,MOOCA,MOO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.901000+00:00,,199299399,7.949,7.948972e+06,"POLYGON ((338347.253 7394233.253, 338278.495 7..."
4,distrito_municipal.8583398,8583398,10,54,MORUMBI,MOR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.788000+00:00,,199299399,11.489,1.148932e+07,"POLYGON ((326801.504 7391704.628, 326850.417 7..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,distrito_municipal.8583485,8583485,27,47,JOSE BONIFACIO,JBO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.952000+00:00,,199299399,14.570,1.456975e+07,"POLYGON ((354096.84 7396684.812, 354098.811 73..."
92,distrito_municipal.8583486,8583486,28,96,LAJEADO,LAJ,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.935000+00:00,,199299399,8.827,8.826983e+06,"POLYGON ((357804.739 7394627.262, 357743.916 7..."
93,distrito_municipal.8583487,8583487,8,48,LAPA,LAP,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.002000+00:00,,199299399,10.283,1.028273e+07,"POLYGON ((323778.718 7398464.929, 323863.562 7..."
94,distrito_municipal.8583488,8583488,9,49,LIBERDADE,LIB,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.758000+00:00,,199299399,3.651,3.651130e+06,"POLYGON ((332504.515 7392094.984, 332505.952 7..."


In [33]:
gs.get_capabilities('subprefeitura')

[{'name': 'geoportal:GEOSAMPA_v_praca_largo',
  'title': 'Cadastro de Praças e Largos',
  'abstract': 'Localização das praças e largos no território do município de São Paulo, com base nas informações repassadas por subprefeituras, SF e SEGES/CGPATRI.'},
 {'name': 'geoportal:perimetro_zoneamento_revogado_lei13885',
  'title': 'Perímetro Zona de Uso - Revogado - Lei 13.885/04',
  'abstract': 'A Lei de Zoneamento estabelece normas complementares ao Plano Diretor Estratégico, institui os Planos Regionais Estratégicos das Subprefeituras, dispõe sobre o parcelamento, disciplina e ordena o Uso e Ocupação do Solo do Município de São Paulo. Os perímetros de zona de uso foram vetorizados perante o estabelecido na Lei nº 13.885/2004, tendo como base cartográfica o Mapa Digital da Cidade (MDC).'},
 {'name': 'geoportal:sede_subprefeitura',
  'title': 'Subprefeituras',
  'abstract': 'Localização das sedes físicas das Subprefeituras da Cidade de São Paulo.'},
 {'name': 'geoportal:subprefeitura',
  '

In [34]:
df_subs = gs.get_features('geoportal:subprefeitura')
df_subs

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021020.0,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980200.0,"POLYGON ((327340.628 7399133.313, 327331.514 7..."
2,subprefeitura.3,3,4,CASA VERDE-CACHOEIRINHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.956000+00:00,,CV,27,27232340.0,"POLYGON ((329084.795 7402363.669, 329086.123 7..."
3,subprefeitura.4,4,5,SANTANA-TUCURUVI,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.068000+00:00,,ST,36,35782520.0,"POLYGON ((334076.366 7398045.594, 334074.986 7..."
4,subprefeitura.5,5,6,JACANA-TREMEMBE,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.950000+00:00,,JT,65,65115660.0,"POLYGON ((335167.648 7404409.048, 335167.247 7..."
5,subprefeitura.6,6,7,VILA MARIA-VILA GUILHERME,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.073000+00:00,,MG,27,26899220.0,"POLYGON ((336762.078 7401144.267, 336794.867 7..."
6,subprefeitura.7,7,21,PENHA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.055000+00:00,,PE,40,40429240.0,"POLYGON ((346801.065 7402842.892, 346800.103 7..."
7,subprefeitura.8,8,22,ERMELINO MATARAZZO,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.081000+00:00,,EM,16,15966390.0,"POLYGON ((349116.316 7399473.221, 349133.905 7..."
8,subprefeitura.9,9,23,SAO MIGUEL,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.944000+00:00,,MP,26,26159230.0,"POLYGON ((352480.323 7397515.871, 352477.052 7..."
9,subprefeitura.10,10,24,ITAIM PAULISTA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.967000+00:00,,IT,22,21603820.0,"POLYGON ((356423.064 7397223.44, 356418.471 73..."


# Transformação e mesclagem de dados

Para facilitar o trabalho dos dados no Qlik Sense, vamos avaliar como é a melhor forma de retrabalhar os dados de acordo com o paradigma fato-dimensão.

## Nível Escolar

A primeira dimensão que parece fazer sentido é o Nível escolar. Vamos avaliar como aparece em cada tabela.

In [35]:
mat_23['Nível Educacional'].value_counts()

Nível Educacional
Creche          96
Pré Escola      96
Ens. Fund.I     96
Ens. Fund.II    96
EJA I           96
EJA II          96
Ens. Médio      96
Ed. Prof.       96
Name: count, dtype: int64

In [36]:
perf_24[['CD_AREA_ATUACAO_ATUAL', 'DC_AREA_ATUACAO_ATUAL']].value_counts()

CD_AREA_ATUACAO_ATUAL  DC_AREA_ATUACAO_ATUAL          
301521917              ENSINO FUNDAMENTAL I E INFANTIL    31692
93911221827            ENSINO FUNDAMENTAL II              21921
1311820840             EDUCACAO INFANTIL                  14895
43411221211            TECNICA PEDAGOGICA                  3567
33311120838            ADMINISTRATIVA                       106
12727970840            APOIO TECNICO                         76
83811221917            ENSINO MEDIO                          75
73711221947            EDUCACAO ESPECIAL                     11
Name: count, dtype: int64

In [37]:
alunos_24['MODAL'].value_counts()

MODAL
CRECHE    102313
FUND      101168
PRE        36396
EJA        15042
MOVA        8215
EDPROF      2307
CONVEE      1141
MEDIO        667
ESPEC        581
Name: count, dtype: int64

In [38]:
alunos_est_2024['ETAPA'].value_counts()

ETAPA
FUND      1730
CRECHE    1069
PRE        602
EJA        229
MOVA        34
MEDIO       20
EDPROF       8
ESPEC        6
CONVEE       1
Name: count, dtype: int64

In [39]:
alunos_bf_2024['NIVEL'].value_counts()

NIVEL
CRECHE                   3763
PRE ESCOLA               3763
ENSINO FUNDAMENTAL       3763
EDUCAÇÃO PROFISSIONAL    3763
ENSINO MEDIO             3763
EDUCAÇÃO ESPECIAL        3763
Name: count, dtype: int64

Existe uma tabela de correspondência relacionada a essas categorias fornecida no último relatório de Gestão da Função Educação. A tabela é a seguinte:

| Nível Educacional | Tipo de escola |
| --- | --- |
| Educação Infantil | Creches |
| Educação Infantil | Pré-escola |
| Ensino Fundamental | EMEF |
| Ensino Médio | EMEFM |
| Educação de Jovens e Adultos | EJA/CIEJA |
| Educação de Jovens e Adultos | MOVA (Parceria) |
| Educação de Jovens e Adultos | Educação Profissional |
| Educação Especial | EMEBS |
| Educação Especial | Educação Especial (Parceira) |


Essa tabela permite a padronização de quase todas as tabelas, exceto a de perfil dos professores. Para as outras, vamos utilizar a tabela como base para a criação de um dicionário que será utilizado como *mapper* em cada uma das tabelas.

In [40]:
mat_23_nivel = {
    'Creche': 'Educação Infantil',
    'Pré Escola': 'Educação Infantil',
    'Ens. Fund.I': 'Ensino Fundamental',
    'Ens. Fund.II': 'Ensino Fundamental',
    'EJA I': 'Educação de Jovens e Adultos',
    'EJA II': 'Educação de Jovens e Adultos',
    'Ens. Médio': 'Ensino Médio',
    'Ed. Prof.': 'Educação de Jovens e Adultos'
}

mat_23['Nível padronizado'] = mat_23['Nível Educacional'].map(mat_23_nivel)
mat_23['Nível padronizado'].value_counts()

Nível padronizado
Educação de Jovens e Adultos    288
Educação Infantil               192
Ensino Fundamental              192
Ensino Médio                     96
Name: count, dtype: int64

In [41]:
alunos_23_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial',
    'ATCOMP': '?',
    'REC': '?',
    'SAAI': '?'
}

alunos_24['Nível padronizado'] = alunos_24['MODAL'].map(alunos_23_nivel)
alunos_24['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_24['Nível padronizado'] = alunos_24['MODAL'].map(alunos_23_nivel)


Nível padronizado
Educação Infantil               138709
Ensino Fundamental              101168
Educação de Jovens e Adultos     25564
Educação Especial                 1722
Ensino Médio                       667
Name: count, dtype: int64

In [42]:
alunos_est_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE': 'Educação Infantil',
    'FUND': 'Ensino Fundamental',
    'EJA': 'Educação de Jovens e Adultos',
    'MOVA': 'Educação de Jovens e Adultos',
    'MEDIO': 'Ensino Médio',
    'EDPROF': 'Educação de Jovens e Adultos',
    'ESPEC': 'Educação Especial',
    'CONVEE': 'Educação Especial'
}

alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)
alunos_est_2024['Nível padronizado'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alunos_est_2024['Nível padronizado'] = alunos_est_2024['ETAPA'].map(alunos_est_2024_nivel)


Nível padronizado
Ensino Fundamental              1730
Educação Infantil               1671
Educação de Jovens e Adultos     271
Ensino Médio                      20
Educação Especial                  7
Name: count, dtype: int64

In [43]:
alunos_bf_2024_nivel = {
    'CRECHE': 'Educação Infantil',
    'PRE ESCOLA': 'Educação Infantil',
    'ENSINO FUNDAMENTAL': 'Ensino Fundamental',
    'ENSINO MEDIO': 'Ensino Médio',
    'EDUCAÇÃO PROFISSIONAL': 'Educação de Jovens e Adultos',
    'EDUCAÇÃO ESPECIAL': 'Educação Especial'
}

alunos_bf_2024['Nível padronizado'] = alunos_bf_2024['NIVEL'].map(alunos_bf_2024_nivel)
alunos_bf_2024['Nível padronizado'].value_counts()

Nível padronizado
Educação Infantil               7526
Ensino Fundamental              3763
Educação de Jovens e Adultos    3763
Ensino Médio                    3763
Educação Especial               3763
Name: count, dtype: int64

## Padronização dos nomes de Distritos

Os dados de matrículas, escolas, educandos, educandos estrangeiros e educandos beneficiários do Bolsa Família possuem uma coluna chamada "Distrito" que contém o nome do distrito onde a escola está localizada.

Já os dados de servidores não possuem dados de distrito, mas possuem o nome da escola, que pode ser utilizada para buscar o distrito correspondente. Antes de unir as tabelas para fazer isso, vamos padronizar os nomes dos distritos de acordo com os dados do geosampa.

### Número de Unidades Escolares

In [44]:
(
    escolas_24
    .loc[~escolas_24['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Perfil dos alunos

In [45]:
(
    alunos_24
    .loc[~alunos_24['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos estrangeiros

In [46]:
(
    alunos_est_2024
    .loc[~alunos_est_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

### Número de alunos beneficiários do Bolsa Família

In [47]:
(
    alunos_bf_2024
    .loc[~alunos_bf_2024['DISTRITO'].isin(df_dist['nm_distrito_municipal'])]
    ['DISTRITO']
    .unique().tolist()
)

[]

Nenhum dos conjuntos de dados possui distritos que não estejam na lista do GeoSampa.

Agora, vamos unir os dados de servidores com os dados de escolas para adicionar a coluna de distrito aos dados de servidores.

### Número de professores da Rede Municipal de Ensino

Primeiro, vamos criar uma coluna com o tipo de escola e o nome da escola nos dois dataframes, para que possamos unir os dados de servidores com os dados de escolas.

In [48]:
escolas_24['NOMES_COMPLETO'] = (
    escolas_24['TIPOESC'].str.strip().str.upper()
    + ' ' + escolas_24['NOMES'].str.strip().str.upper()
)
escolas_24['NOMES_COMPLETO']

2                       EMEF JOSE ERMIRIO DE MORAES, SEN.
3                          EMEF ALIPIO CORREA NETO, PROF.
4              EMEBS VERA LUCIA APARECIDA RIBEIRO, PROFA.
5              EMEI ANTONIO CARLOS PACHECO E SILVA, PROF.
6                                EMEI NAIR CORREA BUARQUE
                              ...                        
5009                                CEU AT COM SAO RAFAEL
5010                             CEU AT COM ROSA DA CHINA
5011                                 CEU AT COM SAPOPEMBA
5012    CEU AT COM ALTO ALEGRE - PAULO SUYOSH MINAMI, ...
5013        CEU AT COM HELIOPOLIS - ARLETE PERSOLI, PROFA
Name: NOMES_COMPLETO, Length: 3275, dtype: object

In [49]:
perf_24['DC_UNIDADE_ATUAL_COMPLETA'] = (
    perf_24['TP_UNIDADE_ATUAL'].str.strip().str.upper()
    + ' ' + perf_24['DC_UNIDADE_ATUAL'].str.strip().str.upper()
)
perf_24['DC_UNIDADE_ATUAL_COMPLETA']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  perf_24['DC_UNIDADE_ATUAL_COMPLETA'] = (


0             EMEI THEREZINHA BATISTA PETTAN, PROFA.
2                           CEI DIRET JARDIM MONJOLO
3          FORA DE SME CAMARA MUNICIPAL DE SAO PAULO
4                                  CEU EMEF JAMBEIRO
5           EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA
                            ...                     
90908                       CEU CEMEI FREGUESIA DO O
90909                           EMEF FAZENDA DA JUTA
90910                           CEU EMEF ALTO ALEGRE
90911                     CEI DIRET GENOVEVA DASCOLI
90912    CEU CEI ANA LUCIA DE HOLANDA GAMBOA, PROFA.
Name: DC_UNIDADE_ATUAL_COMPLETA, Length: 72343, dtype: object

In [50]:
perf_24 = (
    perf_24
    .merge(escolas_24[['NOMES_COMPLETO', 'DISTRITO']],
           left_on=['DC_UNIDADE_ATUAL_COMPLETA'],
           right_on=['NOMES_COMPLETO'],
           how='left')
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,TECNICA PEDAGOGICA,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE


Vamos avaliar se todas as unidades escolares foram encontradas no dataframe de unidades.

In [51]:
(
    perf_24
    .query('DISTRITO.isnull()')
)

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,
9,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,34589,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.226430e+14,DIR EDUC,DIRETORIA REGIONAL DE EDUCACAO IPIRANGA,DIR EDUC DIRETORIA REGIONAL DE EDUCACAO IPIRANGA,,
11,M,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,39106,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.246530e+14,FORA DE SME,APROFEM,FORA DE SME APROFEM,,
13,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,35500,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.315160e+14,EMEF,RUY BARBOSA,EMEF RUY BARBOSA,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72285,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40715,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.224120e+13,EMEI,OLGA BENARIO PRESTES,EMEI OLGA BENARIO PRESTES,,
72316,M,93911221827,PARDA,12727970840,9.274960e+12,PROF.ENS.FUND.II E MED.-CIENCIAS,43270,9.274960e+12,PROF.ENS.FUND.II E MED.-CIENCIAS,93911221827,ENSINO FUNDAMENTAL II,1.226440e+14,COORD,COORDENADORIA DOS CENTROS EDUCACIONAIS UNIFICA...,COORD COORDENADORIA DOS CENTROS EDUCACIONAIS U...,,
72323,F,6361921931,NAO INFORMADA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,40724,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.218610e+15,CEI DIRET,"LUCIANO MENDES DE ALMEIDA, DOM","CEI DIRET LUCIANO MENDES DE ALMEIDA, DOM",,
72325,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.266330e+14,DIR EDUC,CENTRO DE FORMACAO E ACOMP A INCLUSAO - DRE PE...,DIR EDUC CENTRO DE FORMACAO E ACOMP A INCLUSAO...,,


In [52]:
(
    perf_24
    .query('DISTRITO.isna()')
    .shape[0]
    /perf_24.shape[0]
)

0.13494049182367335

Cerca de 3,6% dos professores não tiveram as unidades escolares encontradas. Vamos avaliar quais são essas unidades.

In [53]:
(
    perf_24
    .query('DISTRITO.isna()')
    [['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL']]
    .sort_values(['TP_UNIDADE_ATUAL', 'DC_UNIDADE_ATUAL'])
    .drop_duplicates()
)

Unnamed: 0,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL
5563,CCI/CIPS,NOSSA SENHORA DO O
566,CEI DIRET,ADELAIDE LOPES RODRIGUES
947,CEI DIRET,ADHEMAR FERREIRA DA SILVA
9232,CEI DIRET,"ALICE APARECIDA DE SOUZA , PROFA"
374,CEI DIRET,"ANITA CASTALDI ZAMPIROLLO, PROFA."
...,...,...
854,OUT-PMSP,ASSESSORIA PARLAMENTAR - SME-ASPAR
13844,OUT-PMSP,COMISSAO DE AVAL. DE ACUMULO DE CARGOS - CAAC
2149,OUT-PMSP,NUCLEO ADMINISTRATIVO - SME-NA
27506,OUT-PMSP,NUCLEO DE PLANEJAMENTO CENTRAL - SME-ATP-NPC


Por ora, vamos manter dessa forma e, caso seja necessário, podemos avaliar como tratar esses casos numa atualização futura.

## Adicionando as Subprefeituras

Agora, vamos adicionar a coluna de subprefeitura a todos os dataframes.

### Associando distritos e subprefeituras

In [54]:
df_dist.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7..."
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7..."


In [55]:
df_subs.sort_values('cd_identificador_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."
1,subprefeitura.2,2,3,FREGUESIA-BRASILANDIA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.050000+00:00,,FO,32,31980202.74,"POLYGON ((327340.628 7399133.313, 327331.514 7..."


In [56]:
df_subs.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_subprefeitura,cd_subprefeitura,nm_subprefeitura,tx_escala,sg_fonte_original,dt_criacao,cd_tipo_discrepancia,dt_atualizacao,cd_usuario_atualizacao,sg_subprefeitura,qt_area_quilometro,qt_area_metro,geometry
30,subprefeitura.31,31,1,PERUS,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:41.999000+00:00,,PR,57,56889310.75,"POLYGON ((325464.932 7409329.344, 325464.513 7..."
0,subprefeitura.1,1,2,PIRITUBA-JARAGUA,1:5000,GEOGSG,2023-11-30,100200300,2025-07-05 04:29:42.042000+00:00,,PJ,55,55021021.42,"POLYGON ((318663.925 7404127.712, 318663.251 7..."


Os dados de distritos e subprefeituras não estão completamente compatíveis, então precisamos de um tratamento adicional.

O dataframe de distritos possui uma coluna chamada `cd_identificador_subprefeitura`, mas não corresponde exatamente à coluna `cd_identificador_subprefeitura` do dataframe de subprefeituras. Ele corresponde parcialmente à coluna `cd_subprefeitura` do dataframe de subprefeituras, mas não é exatamente a mesma, porque esta última possui um zero à esquerda que não está presente no dataframe de distritos. Portanto, vamos criar uma coluna com o código de subprefeitura no dataframe de distritos, que será o código de subprefeitura com o zero à esquerda.

In [57]:
df_dist['cd_subprefeitura'] = (
    df_dist['cd_identificador_subprefeitura'].astype(str)
    .str.zfill(2)
)

df_dist.sort_values('cd_subprefeitura').head(2)

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",1
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",1


Agora, vamos associar os distritos e subprefeituras.

In [58]:
df_dist_sub = df_dist.merge(
    df_subs[['cd_subprefeitura', 'nm_subprefeitura']],
    on='cd_subprefeitura',
    how='left'
)
df_dist_sub.sort_values('cd_subprefeitura')

Unnamed: 0,id,cd_identificador_distrito,cd_identificador_subprefeitura,cd_distrito_municipal,nm_distrito_municipal,sg_distrito_municipal,tx_escala,sg_fonte_original,dt_criacao,dt_atualizacao,cd_usuario_atualizacao,cd_tipo_discrepancia,qt_area_quilometro,qt_area_metro,geometry,cd_subprefeitura,nm_subprefeitura
49,distrito_municipal.8583443,8583443,1,3,ANHANGUERA,ANH,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.103000+00:00,,199299399,33.245,33244961.18,"POLYGON ((317503.566 7410509.962, 317523.506 7...",01,PERUS
10,distrito_municipal.8583404,8583404,1,61,PERUS,PRS,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.019000+00:00,,199299399,23.644,23644355.41,"POLYGON ((325464.931 7409329.344, 325464.512 7...",01,PERUS
87,distrito_municipal.8583481,8583481,2,42,JARAGUA,JAR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.797000+00:00,,199299399,28.111,28111480.23,"POLYGON ((319331.738 7402448.876, 319278.779 7...",02,PIRITUBA-JARAGUA
21,distrito_municipal.8583415,8583415,2,95,SAO DOMINGOS,SDO,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.137000+00:00,,199299399,9.693,9693355.95,"POLYGON ((319878.693 7402906.129, 319884.382 7...",02,PIRITUBA-JARAGUA
12,distrito_municipal.8583406,8583406,2,63,PIRITUBA,PIR,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.886000+00:00,,199299399,17.216,17216180.68,"POLYGON ((325098.097 7405104.04, 325094.984 74...",02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78,distrito_municipal.8583472,8583472,30,33,IGUATEMI,IGU,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.895000+00:00,,199299399,19.435,19434636.54,"POLYGON ((350874.784 7389641.837, 350875.63 73...",30,SAO MATEUS
25,distrito_municipal.8583419,8583419,30,75,SAO RAFAEL,SRA,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.912000+00:00,,199299399,13.076,13076288.46,"POLYGON ((348922.57 7386626.427, 348923.784 73...",30,SAO MATEUS
23,distrito_municipal.8583417,8583417,30,73,SAO MATEUS,SMT,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:17.117000+00:00,,199299399,12.800,12800219.28,"POLYGON ((348623.992 7386632.011, 348628.153 7...",30,SAO MATEUS
71,distrito_municipal.8583465,8583465,31,25,CIDADE TIRADENTES,CTI,1:5000,GEOGSG,2004-01-01,2025-07-05 03:54:16.745000+00:00,,199299399,14.939,14939046.96,"POLYGON ((357428.688 7387653.528, 357433.497 7...",31,CIDADE TIRADENTES


Aparentemente, os dados de distritos e subprefeituras estão compatíveis, então vamos adicionar a coluna de subprefeitura aos outros dataframes.

### Número de Unidades Escolares

In [59]:
escolas_24 = escolas_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

escolas_24

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE,NOMES_COMPLETO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,35098760.0,1677116.0,VILA NITRO OPERARIA,DIR,"EMEF JOSE ERMIRIO DE MORAES, SEN.",JARDIM HELENA,23,SAO MIGUEL
1,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,35098462.0,1679154.0,,DIR,"EMEF ALIPIO CORREA NETO, PROF.",VILA SONIA,10,BUTANTA
2,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,35079029.0,1671138.0,,DIR,"EMEBS VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,02,PIRITUBA-JARAGUA
3,213,EMEI,"ANTONIO CARLOS PACHECO E SILVA, PROF.",BUTANTA,VILA SONIA,35098504.0,1679153.0,,DIR,"EMEI ANTONIO CARLOS PACHECO E SILVA, PROF.",VILA SONIA,10,BUTANTA
4,221,EMEI,NAIR CORREA BUARQUE,FREGUESIA/BRASILANDIA,FREGUESIA DO O,35098425.0,1670140.0,INSTALADA JUNTO A EMPG ELIAS S. CAVALCANTI,DIR,EMEI NAIR CORREA BUARQUE,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3270,700041,CEU AT COM,SAO RAFAEL,SAO MATEUS,SAO RAFAEL,35455702.0,,,DIR,CEU AT COM SAO RAFAEL,SAO RAFAEL,30,SAO MATEUS
3271,700042,CEU AT COM,ROSA DA CHINA,SAPOPEMBA,SAPOPEMBA,35455672.0,,,DIR,CEU AT COM ROSA DA CHINA,SAPOPEMBA,32,SAPOPEMBA
3272,700043,CEU AT COM,SAPOPEMBA,SAPOPEMBA,SAPOPEMBA,35455933.0,,,DIR,CEU AT COM SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA
3273,700044,CEU AT COM,"ALTO ALEGRE - PAULO SUYOSH MINAMI, PROF.",SAO MATEUS,IGUATEMI,35455611.0,,ALTO ALEGRE,DIR,"CEU AT COM ALTO ALEGRE - PAULO SUYOSH MINAMI, ...",IGUATEMI,30,SAO MATEUS


In [60]:
escolas_24[escolas_24['nm_subprefeitura'].isna()]

Unnamed: 0,CODESC,TIPOESC,NOMES,SUBPREF,DISTRITO,CODINEP,CD_CIE,NOME_ANT,REDE,NOMES_COMPLETO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Perfil dos alunos

In [61]:
alunos_24 = alunos_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,VILA SONIA,DIR,FUND,F,,PARDA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA
1,VILA SONIA,DIR,FUND,F,,BRANCA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA
2,VILA SONIA,DIR,FUND,F,,PARDA,8,Ensino Fundamental,VILA SONIA,10,BUTANTA
3,VILA SONIA,DIR,FUND,F,,PRETA,2,Ensino Fundamental,VILA SONIA,10,BUTANTA
4,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1,Ensino Fundamental,VILA SONIA,10,BUTANTA
...,...,...,...,...,...,...,...,...,...,...,...
267825,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS
267826,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2,Educação Especial,SAO MATEUS,30,SAO MATEUS
267827,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS
267828,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS


In [62]:
alunos_24[alunos_24['nm_subprefeitura'].isna()]

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de alunos estrangeiros

In [63]:
alunos_est_2024 = alunos_est_2024.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
1,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,3,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
2,FREGUESIA DO O,92,VENEZUELA,PRE,DIR,2,Educação Infantil,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
3,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
4,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
...,...,...,...,...,...,...,...,...,...,...
3694,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL
3695,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL
3696,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL
3697,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL


In [64]:
alunos_est_2024[alunos_est_2024['nm_subprefeitura'].isna()]

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de alunos beneficiários do Bolsa Família

In [65]:
alunos_bf_2024 = alunos_bf_2024.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0,Educação Infantil,GUAIANASES,28,GUAIANASES
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0,Educação Infantil,LIMAO,04,CASA VERDE-CACHOEIRINHA
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0,Educação Infantil,JARDIM HELENA,23,SAO MIGUEL
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0,Educação Infantil,VILA SONIA,10,BUTANTA
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0,Educação Infantil,PIRITUBA,02,PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0,Educação Especial,SAO LUCAS,29,VILA PRUDENTE
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0,Educação Especial,TREMEMBE,06,JACANA-TREMEMBE
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0,Educação Especial,PONTE RASA,22,ERMELINO MATARAZZO
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0,Educação Especial,BRASILANDIA,03,FREGUESIA-BRASILANDIA


In [66]:
alunos_bf_2024[alunos_bf_2024['nm_subprefeitura'].isna()]

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


### Número de professores da Rede Municipal de Ensino

In [67]:
perf_24 = perf_24.merge(
    df_dist_sub[['nm_distrito_municipal', 'cd_subprefeitura', 'nm_subprefeitura']],
    left_on='DISTRITO',
    right_on='nm_distrito_municipal',
    how='left'
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,41660,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,39588,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,34243,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,33605,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,39589,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,41716,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40725,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,40728,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,TECNICA PEDAGOGICA,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,43382,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE


In [68]:
perf_24[perf_24['nm_subprefeitura'].isna() & ~perf_24['DISTRITO'].isna()]

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura


## Adicionando tempo de atuação dos educadores na SME

In [69]:
ref_date = pd.to_datetime('2023-12-31')
ref_date

Timestamp('2023-12-31 00:00:00')

No ano de 2024, a coluna de data de início de atuação dos educadores foi disponibilizada com o formato numérico usado pelo Excel, que é o número de dias desde 30/12/1899. Vamos converter essa coluna para o formato de data.

In [70]:
perf_24['DT_INICIO_CARGO_BASE'] = perf_24['DT_INICIO_CARGO_BASE'].apply(
    lambda x: pd.to_datetime(xldate.xldate_as_datetime(x, 0))
    if isinstance(x, (int, float)) else pd.NaT
)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,DC_AREA_ATUACAO_ATUAL,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,ENSINO FUNDAMENTAL II,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,ENSINO FUNDAMENTAL II,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,ENSINO FUNDAMENTAL II,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,ENSINO FUNDAMENTAL I E INFANTIL,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,TECNICA PEDAGOGICA,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,EDUCACAO INFANTIL,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE


In [71]:
perf_24['TEMPO_ATUACAO_SME'] =  ref_date - perf_24['DT_INICIO_CARGO_BASE']

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,...,CD_UNIDADE_ATUAL,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,3.385170e+14,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,8.271610e+15,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,...,1.236240e+14,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,...,1.375830e+13,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,...,3.335110e+14,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,,5702 days
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,1.315840e+13,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,1.305490e+13,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,...,1.315840e+13,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,8.271610e+15,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days


In [72]:
perf_24['DIAS_ATUACAO_SME'] =  perf_24['TEMPO_ATUACAO_SME'].dt.days

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,...,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME,DIAS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days,3631
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days,5703
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,...,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days,11048
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,...,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days,11686
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,...,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,,5702 days,5702
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days,3575
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days,4566
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,...,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days,4563
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days,1909


In [73]:
perf_24['ANOS_ATUACAO_SME'] =  perf_24['TEMPO_ATUACAO_SME'].dt.days / 365.25
perf_24['ANOS_ATUACAO_SME'] = round(perf_24['ANOS_ATUACAO_SME'], 2)

perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,...,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,TEMPO_ATUACAO_SME,DIAS_ATUACAO_SME,ANOS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631 days,3631,9.94
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703 days,5703,15.61
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,...,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048 days,11048,30.25
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,...,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686 days,11686,31.99
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,...,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,,5702 days,5702,15.61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575 days,3575,9.79
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566 days,4566,12.50
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,...,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563 days,4563,12.49
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909 days,1909,5.23


In [74]:
perf_24 = perf_24.drop(columns='TEMPO_ATUACAO_SME')
perf_24

Unnamed: 0,CD_SEXO,CD_RACA_COR,DC_RACA_COR,CD_DEF,CD_CARGO_BASE,DC_CARGO_BASE,DT_INICIO_CARGO_BASE,CD_CARGO_ATUAL,DC_CARGO_ATUAL,CD_AREA_ATUACAO_ATUAL,...,TP_UNIDADE_ATUAL,DC_UNIDADE_ATUAL,DC_UNIDADE_ATUAL_COMPLETA,NOMES_COMPLETO,DISTRITO,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,DIAS_ATUACAO_SME,ANOS_ATUACAO_SME
0,F,1311820840,BRANCA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2014-01-21,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,EMEI,"THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.","EMEI THEREZINHA BATISTA PETTAN, PROFA.",CURSINO,CURSINO,13,IPIRANGA,3631,9.94
1,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2008-05-20,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEI DIRET,JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,CEI DIRET JARDIM MONJOLO,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,5703,15.61
2,F,1311820840,BRANCA,12727970840,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,1993-10-01,9.264550e+12,PROF.ENS.FUND.II E MED.-ARTES,93911221827,...,FORA DE SME,CAMARA MUNICIPAL DE SAO PAULO,FORA DE SME CAMARA MUNICIPAL DE SAO PAULO,,,,,,11048,30.25
3,F,6361921931,NAO INFORMADA,12727970840,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,1992-01-02,9.244720e+12,PROF.ENS.FUND.II E MED.-PORTUGUES,93911221827,...,CEU EMEF,JAMBEIRO,CEU EMEF JAMBEIRO,CEU EMEF JAMBEIRO,LAJEADO,LAJEADO,28,GUAIANASES,11686,31.99
4,F,1311820840,BRANCA,12727970840,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,2008-05-21,9.214970e+12,PROF.ENS.FUND.II E MED.-MATEMATICA,93911221827,...,EMEF,MARTIN FRANCISCO RIBEIRO DE ANDRADA,EMEF MARTIN FRANCISCO RIBEIRO DE ANDRADA,,,,,,5702,15.61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72338,F,1311820840,BRANCA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2014-03-18,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEU CEMEI,FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,CEU CEMEI FREGUESIA DO O,FREGUESIA DO O,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,3575,9.79
72339,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-01,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,301521917,...,EMEF,FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,EMEF FAZENDA DA JUTA,SAPOPEMBA,SAPOPEMBA,32,SAPOPEMBA,4566,12.50
72340,F,6361921931,NAO INFORMADA,12727970840,9.234430e+12,PROF.ED.INF.E ENS.FUND.I,2011-07-04,9.274940e+12,ASSISTENTE DE DIRETOR DE ESCOLA,43411221211,...,CEU EMEF,ALTO ALEGRE,CEU EMEF ALTO ALEGRE,CEU EMEF ALTO ALEGRE,IGUATEMI,IGUATEMI,30,SAO MATEUS,4563,12.49
72341,F,93911221827,PARDA,12727970840,9.274100e+13,PROF.DE ED.INFANTIL,2018-10-09,9.274100e+13,PROF.DE ED.INFANTIL,1311820840,...,CEI DIRET,GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,CEI DIRET GENOVEVA DASCOLI,VILA PRUDENTE,VILA PRUDENTE,29,VILA PRUDENTE,1909,5.23


## Adicionando chave composta nível padronizado e Subprefeitura

### Criando tabela de níveis padronizados e subprefeituras

In [75]:
nivel_padronizado = pd.DataFrame(
    data=['Educação Infantil',
          'Ensino Fundamental',
          'Ensino Médio',
          'Educação de Jovens e Adultos',
          'Educação Especial'],
    columns=['Nível padronizado']
)

nivel_padronizado

Unnamed: 0,Nível padronizado
0,Educação Infantil
1,Ensino Fundamental
2,Ensino Médio
3,Educação de Jovens e Adultos
4,Educação Especial


In [76]:
nivel_padronizado = (
    nivel_padronizado
    .merge(df_subs['nm_subprefeitura'], how='cross')
)

nivel_padronizado

Unnamed: 0,Nível padronizado,nm_subprefeitura
0,Educação Infantil,PIRITUBA-JARAGUA
1,Educação Infantil,FREGUESIA-BRASILANDIA
2,Educação Infantil,CASA VERDE-CACHOEIRINHA
3,Educação Infantil,SANTANA-TUCURUVI
4,Educação Infantil,JACANA-TREMEMBE
...,...,...
155,Educação Especial,JABAQUARA
156,Educação Especial,SANTO AMARO
157,Educação Especial,CIDADE TIRADENTES
158,Educação Especial,PERUS


In [77]:
nivel_padronizado['nivel_subprefeitura'] = (
    nivel_padronizado['Nível padronizado']
    + '|'
    + nivel_padronizado['nm_subprefeitura']
)

nivel_padronizado

Unnamed: 0,Nível padronizado,nm_subprefeitura,nivel_subprefeitura
0,Educação Infantil,PIRITUBA-JARAGUA,Educação Infantil|PIRITUBA-JARAGUA
1,Educação Infantil,FREGUESIA-BRASILANDIA,Educação Infantil|FREGUESIA-BRASILANDIA
2,Educação Infantil,CASA VERDE-CACHOEIRINHA,Educação Infantil|CASA VERDE-CACHOEIRINHA
3,Educação Infantil,SANTANA-TUCURUVI,Educação Infantil|SANTANA-TUCURUVI
4,Educação Infantil,JACANA-TREMEMBE,Educação Infantil|JACANA-TREMEMBE
...,...,...,...
155,Educação Especial,JABAQUARA,Educação Especial|JABAQUARA
156,Educação Especial,SANTO AMARO,Educação Especial|SANTO AMARO
157,Educação Especial,CIDADE TIRADENTES,Educação Especial|CIDADE TIRADENTES
158,Educação Especial,PERUS,Educação Especial|PERUS


### Adicionando a coluna de nível padronizado e subprefeitura aos outros dataframes

In [78]:
alunos_24 = alunos_24.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_24

Unnamed: 0,DISTRITO,REDE,MODAL,SEXO,NEE,RACA,Qtde,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,VILA SONIA,DIR,FUND,F,,PARDA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
1,VILA SONIA,DIR,FUND,F,,BRANCA,3,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
2,VILA SONIA,DIR,FUND,F,,PARDA,8,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
3,VILA SONIA,DIR,FUND,F,,PRETA,2,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
4,VILA SONIA,DIR,FUND,F,DEFICIENCIA INTELECTUAL,BRANCA,1,Ensino Fundamental,VILA SONIA,10,BUTANTA,Ensino Fundamental|BUTANTA
...,...,...,...,...,...,...,...,...,...,...,...,...
267825,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
267826,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,2,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
267827,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,PARDA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS
267828,SAO MATEUS,CON,CONVEE,M,DEFICIENCIA INTELECTUAL,BRANCA,1,Educação Especial,SAO MATEUS,30,SAO MATEUS,Educação Especial|SAO MATEUS


In [79]:
alunos_est_2024 = alunos_est_2024.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_est_2024

Unnamed: 0,DISTRITO,COD_PAIS,NOME_PAIS,ETAPA,REDE,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,Ensino Fundamental|FREGUESIA-BRASILANDIA
1,FREGUESIA DO O,92,VENEZUELA,FUND,DIR,3,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,Ensino Fundamental|FREGUESIA-BRASILANDIA
2,FREGUESIA DO O,92,VENEZUELA,PRE,DIR,2,Educação Infantil,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,Educação Infantil|FREGUESIA-BRASILANDIA
3,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,Ensino Fundamental|FREGUESIA-BRASILANDIA
4,FREGUESIA DO O,175,ANGOLA,FUND,DIR,1,Ensino Fundamental,FREGUESIA DO O,03,FREGUESIA-BRASILANDIA,Ensino Fundamental|FREGUESIA-BRASILANDIA
...,...,...,...,...,...,...,...,...,...,...,...
3694,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL,Ensino Fundamental|SAO MIGUEL
3695,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL,Ensino Fundamental|SAO MIGUEL
3696,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL,Ensino Fundamental|SAO MIGUEL
3697,VILA JACUI,213,NIGÉRIA,FUND,DIR,1,Ensino Fundamental,VILA JACUI,23,SAO MIGUEL,Ensino Fundamental|SAO MIGUEL


In [80]:
alunos_bf_2024 = alunos_bf_2024.merge(
    nivel_padronizado,
    left_on=['Nível padronizado', 'nm_subprefeitura'],
    right_on=['Nível padronizado', 'nm_subprefeitura'],
    how='left'
)

alunos_bf_2024

Unnamed: 0,CODEOL,TIPO,UNIDADE,DIRETORIA,DISTRITO,NIVEL,QTDE,Nível padronizado,nm_distrito_municipal,cd_subprefeitura,nm_subprefeitura,nivel_subprefeitura
0,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,GUAIANASES,CRECHE,0,Educação Infantil,GUAIANASES,28,GUAIANASES,Educação Infantil|GUAIANASES
1,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,LIMAO,CRECHE,0,Educação Infantil,LIMAO,04,CASA VERDE-CACHOEIRINHA,Educação Infantil|CASA VERDE-CACHOEIRINHA
2,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,JARDIM HELENA,CRECHE,0,Educação Infantil,JARDIM HELENA,23,SAO MIGUEL,Educação Infantil|SAO MIGUEL
3,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,VILA SONIA,CRECHE,0,Educação Infantil,VILA SONIA,10,BUTANTA,Educação Infantil|BUTANTA
4,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,PIRITUBA,CRECHE,0,Educação Infantil,PIRITUBA,02,PIRITUBA-JARAGUA,Educação Infantil|PIRITUBA-JARAGUA
...,...,...,...,...,...,...,...,...,...,...,...,...
22573,400902,CEI INDIR,ISMAEL IVO,IPIRANGA,SAO LUCAS,EDUCAÇÃO ESPECIAL,0,Educação Especial,SAO LUCAS,29,VILA PRUDENTE,Educação Especial|VILA PRUDENTE
22574,400903,CEI INDIR,JOSE DIAS SOBRINHO,JACANA/TREMEMBE,TREMEMBE,EDUCAÇÃO ESPECIAL,0,Educação Especial,TREMEMBE,06,JACANA-TREMEMBE,Educação Especial|JACANA-TREMEMBE
22575,400904,CEI INDIR,RUBEM FONSECA,PENHA,PONTE RASA,EDUCAÇÃO ESPECIAL,0,Educação Especial,PONTE RASA,22,ERMELINO MATARAZZO,Educação Especial|ERMELINO MATARAZZO
22576,400906,CEI INDIR,ZIRALDO ALVES PINTO,FREGUESIA/BRASILANDIA,BRASILANDIA,EDUCAÇÃO ESPECIAL,0,Educação Especial,BRASILANDIA,03,FREGUESIA-BRASILANDIA,Educação Especial|FREGUESIA-BRASILANDIA


# Armazenamento dos dados

Finalmente, salvamos os arquivos como csv para utilizarmos no Qlik Sense.

In [81]:
base_path = os.path.join('data_output', 'educacao')

if not os.path.exists(base_path):
    os.makedirs(base_path)

for name, df in [('demanda e matriculas', mat_23),
                 ('servidores-perfil', perf_24),
                 ('escolas-municipais', escolas_24),
                 ('perfil-dos-educandos', alunos_24),
                 ('educandos-estrangeiros', alunos_est_2024),
                 ('beneficiarios-pbf', alunos_bf_2024),
                 ('nivel-padronizado', nivel_padronizado)]:
    
    filepath = os.path.join(base_path, f'{name}.csv')

    df.to_csv(filepath,
              index=False,
              sep=';',
              decimal=',',
              encoding='utf-8')