## Join data

Esse notebook faz o join entre os dados do portal da transparência do Estado, que identificam as escolas participantes do PEI - Programa de Ensino Integral - e os microdados do censo escolar.

In [1]:
import pandas as pd

from utils.load_csv import load_csv
from utils.save_csv import save_csv

In [2]:
df_pei = load_csv('pei_escolas_original.csv')
df_censo = load_csv('microdados_censo_limpo.csv')

In [3]:
df_pei.columns

Index(['Escola', 'Diretoria de Ensino', 'Município', 'Coordenadas',
       'ID Escola'],
      dtype='object')

In [4]:
df_pei.head()

Unnamed: 0,Escola,Diretoria de Ensino,Município,Coordenadas,ID Escola
0,bairro da bocaina,guaratingueta,cunha,"['-23.0361', '-44.9253']",926085
1,aldeia karugwa,itarare,barao de antonina,"['-23.6028', '-49.5874']",268574
2,india maria rosa,penapolis,brauna,"['-21.5656', '-50.3173']",395365
3,joao alfredo da silva,presidente prudente,presidente prudente,"['-21.9093', '-51.3003']",31756
4,bairro pe da serra,miracatu,iguape,"['-24.3801', '-47.5179']",918052


In [5]:
mapper_pei = {
    'Escola': 'nome_escola',
    'Diretoria de Ensino': 'nome_dre',
    'Município': 'nome_municipio',
    'Coordenadas': 'coordenadas',
    'ID Escola': 'id_escola'
}

df_pei = df_pei.rename(columns=mapper_pei)

In [6]:
df_pei.head()

Unnamed: 0,nome_escola,nome_dre,nome_municipio,coordenadas,id_escola
0,bairro da bocaina,guaratingueta,cunha,"['-23.0361', '-44.9253']",926085
1,aldeia karugwa,itarare,barao de antonina,"['-23.6028', '-49.5874']",268574
2,india maria rosa,penapolis,brauna,"['-21.5656', '-50.3173']",395365
3,joao alfredo da silva,presidente prudente,presidente prudente,"['-21.9093', '-51.3003']",31756
4,bairro pe da serra,miracatu,iguape,"['-24.3801', '-47.5179']",918052


In [7]:
df_censo.columns

Index(['ano_censo', 'sigla_uf', 'nome_municipio', 'codigo_municipio',
       'codigo_escola', 'nome_escola', 'qtd_turmas_ed_basica',
       'qtd_matr_ed_basica', 'qtd_matr_ed_basica_nao_declarada',
       'qtd_matr_ed_basica_branca', 'qtd_matr_ed_basica_preta',
       'qtd_matr_ed_basica_parda', 'qtd_matr_ed_basica_amarela',
       'qtd_matr_ed_basica_indigena', 'qtd_matriculas_infantil_integral',
       'qtd_matriculas_infantil_creche_integral',
       'qtd_matriculas_infantil_pre_escolar_integral',
       'qtd_matriculas_fundamental_integral',
       'qtd_matriculas_fundamental_anos_iniciais_integral',
       'qtd_matriculas_fundamental_anos_finais_integral',
       'qtd_matriculas_medio_integral'],
      dtype='object')

In [8]:
df_censo.head()

Unnamed: 0,ano_censo,sigla_uf,nome_municipio,codigo_municipio,codigo_escola,nome_escola,qtd_turmas_ed_basica,qtd_matr_ed_basica,qtd_matr_ed_basica_nao_declarada,qtd_matr_ed_basica_branca,...,qtd_matr_ed_basica_parda,qtd_matr_ed_basica_amarela,qtd_matr_ed_basica_indigena,qtd_matriculas_infantil_integral,qtd_matriculas_infantil_creche_integral,qtd_matriculas_infantil_pre_escolar_integral,qtd_matriculas_fundamental_integral,qtd_matriculas_fundamental_anos_iniciais_integral,qtd_matriculas_fundamental_anos_finais_integral,qtd_matriculas_medio_integral
0,2011,SP,Adamantina,3500105,35030806,HELEN KELLER,25,830,133,455,...,225,2,2,0,0,0,303,0,303,0
1,2011,SP,Adamantina,3500105,35031045,DURVALINO GRION PROF,22,771,94,446,...,210,6,2,0,0,0,0,0,0,0
2,2011,SP,Adamantina,3500105,35031082,EUDECIO LUIZ VICENTE PROF ETE,22,762,111,498,...,133,18,1,0,0,0,0,0,0,0
3,2011,SP,Adamantina,3500105,35031100,HERVAL BELLUSCI ENGENHEIRO ETE,10,267,73,135,...,54,1,0,0,0,0,0,0,0,78
4,2011,SP,Adamantina,3500105,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,32,1102,61,829,...,193,11,3,0,0,0,0,0,0,1


#### Checando se os IDs das escolas da base do PEI batem com a base do Censo

In [9]:
df_pei['id_escola'].sample(3)

2319    37618
1642    23541
1687    15957
Name: id_escola, dtype: int64

In [10]:
df_censo['codigo_escola'].sample(3)

32947    35008655
40019    35284324
42416    35479329
Name: codigo_escola, dtype: int64

In [11]:
df_censo['codigo_escola'].astype(str).str.len().unique()

array([8])

In [12]:
df_censo['codigo_escola'] = df_censo['codigo_escola'].astype(str)

In [13]:
df_pei['id_escola'].dtype

dtype('int64')

In [14]:
#note que se somar os dois caracteres do estado, o id no final fica no tamanho de 8 caracteres do codigo do censo
#vou tentar fazer isso para ver se da match
df_pei['id_escola'].astype(str).str.len().unique()

array([6, 5, 4, 3, 2])

In [15]:
#primeiro vamos dar um zfill para todos ficarem com 6 caracteres. Depois adicionamos o 35 do estado de SP
df_pei['id_escola_treated'] = df_pei['id_escola'].astype(str).str.zfill(6)
df_pei['id_escola_treated'].str.len().unique

<bound method Series.unique of 0       6
1       6
2       6
3       6
4       6
       ..
2326    6
2327    6
2328    6
2329    6
2330    6
Name: id_escola_treated, Length: 2331, dtype: int64>

In [16]:
df_pei['id_escola_treated'] = '35'  + df_pei['id_escola_treated']
df_pei['id_escola_treated'].str.len().unique()

array([8])

In [17]:
# Uhul bateu!
set(df_pei['id_escola_treated'].unique()) - set(df_censo['codigo_escola'].unique())

{'35004633', '35005898', '35005929', '35006792', '35006867', '35006900'}

#### Escolas não encontradas no PEI

Como agora estamos trabalhando com os dados até 2018, então existem escolas que foram abertas nesse período que estão nos dados do PEI (que são de 2025) mas não estão nos dados do Censo. Anteriormente, quando trabalhamos em outra versão com os dados do censo até 2024, todas as escolas do PEI foram encontradas.

Marcar com uma coluna as escolas que fazem parte do PEI antes do merge

In [18]:
df_pei['is_PEI'] = True

In [19]:
# ao fazer o left join, estamos descartando as poucas escolas que estão no PEI mas não estão no Censo -- pois elas foram criadas depois do período de estudo
df = pd.merge(df_censo, df_pei, left_on='codigo_escola', right_on='id_escola_treated', how='left', indicator=True)
df['_merge'].value_counts()

_merge
left_only     28560
both          18287
right_only        0
Name: count, dtype: int64

In [20]:
df['is_PEI'].fillna(False, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['is_PEI'].fillna(False, inplace=True)
  df['is_PEI'].fillna(False, inplace=True)


In [21]:
del df_pei
del df_censo

In [22]:
df.head()

Unnamed: 0,ano_censo,sigla_uf,nome_municipio_x,codigo_municipio,codigo_escola,nome_escola_x,qtd_turmas_ed_basica,qtd_matr_ed_basica,qtd_matr_ed_basica_nao_declarada,qtd_matr_ed_basica_branca,...,qtd_matriculas_fundamental_anos_finais_integral,qtd_matriculas_medio_integral,nome_escola_y,nome_dre,nome_municipio_y,coordenadas,id_escola,id_escola_treated,is_PEI,_merge
0,2011,SP,Adamantina,3500105,35030806,HELEN KELLER,25,830,133,455,...,303,0,helen keller,adamantina,adamantina,"['-21.693', '-51.0689']",30806.0,35030806.0,True,both
1,2011,SP,Adamantina,3500105,35031045,DURVALINO GRION PROF,22,771,94,446,...,0,0,durvalino grion prof,adamantina,adamantina,"['-21.6786', '-51.0769']",31045.0,35031045.0,True,both
2,2011,SP,Adamantina,3500105,35031082,EUDECIO LUIZ VICENTE PROF ETE,22,762,111,498,...,0,0,,,,,,,False,left_only
3,2011,SP,Adamantina,3500105,35031100,HERVAL BELLUSCI ENGENHEIRO ETE,10,267,73,135,...,0,78,,,,,,,False,left_only
4,2011,SP,Adamantina,3500105,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,32,1102,61,829,...,0,1,fleurides cavallini menechino profa,adamantina,adamantina,"['-21.6928', '-51.0703']",31112.0,35031112.0,True,both


#### Testes de consistência do join

Agora vamos testar se o join deu certo comparando os nomes dos municipios e das escolas.

#### Nomes municipios

In [23]:
df['nome_municipio_bate'] = (df['nome_municipio_x'].str.lower() == df['nome_municipio_y'].str.lower())
df['nome_municipio_bate'].value_counts(normalize=True)

nome_municipio_bate
False    0.794885
True     0.205115
Name: proportion, dtype: float64

In [24]:
df[~df['nome_municipio_bate']][['nome_municipio_x', 'nome_municipio_y']].sample(10)

Unnamed: 0,nome_municipio_x,nome_municipio_y
36019,Carapicuíba,
23156,Ubatuba,
20107,Mongaguá,
3915,São José dos Campos,
26094,Olímpia,
5001,São Paulo,
33803,São Paulo,sao paulo
16464,São Paulo,
26785,Rio Claro,
5005,São Paulo,sao paulo


In [25]:
import unicodedata

def remover_acentos(texto: str) -> str:
    return ''.join(
        c for c in unicodedata.normalize('NFKD', texto)
        if not unicodedata.combining(c)
    )


In [26]:
df['nome_municipio_x'] = df['nome_municipio_x'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)
df['nome_municipio_y'] = df['nome_municipio_y'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)

In [27]:
df['nome_municipio_bate2'] = (df['nome_municipio_x'].str.lower() == df['nome_municipio_y'].str.lower())
df['nome_municipio_bate2'].value_counts(normalize=True)

nome_municipio_bate2
False    0.609644
True     0.390356
Name: proportion, dtype: float64

In [28]:
df[~df['nome_municipio_bate2']][['nome_municipio_x', 'nome_municipio_y']].sample(10)

Unnamed: 0,nome_municipio_x,nome_municipio_y
23215,vera cruz,
36790,guarulhos,
10301,sao paulo,
14080,maua,
3752,sao bernardo do campo,
12196,campinas,
23378,apiai,
3576,santo andre,
2563,mogi das cruzes,
33576,sao paulo,


In [29]:
(df[~df['nome_municipio_bate2']]['nome_municipio_y']=='').value_counts()

nome_municipio_y
True    28560
Name: count, dtype: int64

In [30]:
df_mun_nao_bate = df[~df['nome_municipio_bate2']].copy()
df_mun_nao_bate['nome_municipio_y'].value_counts()


nome_municipio_y
    28560
Name: count, dtype: int64

In [31]:
df_mun_nao_bate[df_mun_nao_bate['nome_municipio_y'] != ''][['nome_municipio_x', 'nome_municipio_y']]

Unnamed: 0,nome_municipio_x,nome_municipio_y


In [32]:
#vamos ficar com a coluna do censo escolar que é mais completa
df.drop(columns=['nome_municipio_bate', 'nome_municipio_bate2', 'nome_municipio_y'], inplace=True)
df.rename(columns={'nome_municipio_x': 'nome_municipio'}, inplace=True)

In [33]:
df['nome_municipio'].isnull().any()

np.False_

#### Conclusão:

Verificamos que todos os municipios batem, com exceção daqueles que estão com o nome do municipio vazio na base do PEI e de apenas 2 que estão registrados como são sebastião na base do Censo Escolar mas que no PEI entraram como Bertiogo -- que sao municipios vizinhos. Pode ser efeito de uma mudança de limites entre os municipios ao longo dos anos ou um erro simples de cadastro.

#### Nomes das escolas

In [34]:
(df['nome_escola_x'] == df['nome_escola_y']).value_counts(normalize=True)

False    1.0
Name: proportion, dtype: float64

In [35]:
df['nome_escola_x'].sample(3)

3973     ANA HERONDINA SOARES SCHYCHOF PROFA
5681                 EVILAZIO DE GOES VIEIRA
20258               JOSE AMBROSIO DOS SANTOS
Name: nome_escola_x, dtype: object

In [36]:
df['nome_escola_y'].sample(3)

14220                     NaN
25727    geraldo zancope prof
37227                     NaN
Name: nome_escola_y, dtype: object

In [37]:
df['nome_escola_y'] = df['nome_escola_y'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)
df['nome_escola_x'] = df['nome_escola_x'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)

In [38]:
df['nome_escola_bate'] = (df['nome_escola_x'] == df['nome_escola_y'])
df['nome_escola_bate'].value_counts(normalize=True)

nome_escola_bate
False    0.638013
True     0.361987
Name: proportion, dtype: float64

In [39]:
df_nome_escola_nao_bate = df[~df['nome_escola_bate']].copy()
df_nome_escola_nao_bate[['nome_escola_x', 'nome_escola_y']].sample(10)

Unnamed: 0,nome_escola_x,nome_escola_y
33896,francisco joao de azevedo padre,
43071,cel jto a ee henrique lespinasse prof,
45183,toledo barbosa,
11631,joao carreira,
45194,herois da feb,
7219,maria angelica soave professora,
27169,sao pedro,
10530,frederico mariano,
11100,acacio de vasconcellos camargo professor,accacio de vasconcellos camargo professor
3636,paulo emilio salles gomes,


In [40]:
df_nome_escola_nao_bate['escola_y_vazia'] = df_nome_escola_nao_bate['nome_escola_y']==''
df_nome_escola_nao_bate['escola_y_vazia'].value_counts(normalize=True)

escola_y_vazia
True     0.955535
False    0.044465
Name: proportion, dtype: float64

In [41]:
df_nome_escola_nao_bate[df_nome_escola_nao_bate['escola_y_vazia']==False][['nome_escola_x', 'nome_escola_y']].sample(20)

Unnamed: 0,nome_escola_x,nome_escola_y
554,ruth sa profa,ruth sa professora
43890,recanto dos passaros,professor norival vieira da silva
6445,jardim santa clara,benito juarez de souza
1953,octavio de almeida bueno prof,octavio de almeida bueno professor
156,maria angelica baillot profa,maria angelica baillot professora
17684,aldeia pyhau,aldeia karugwa
938,benedito dutra teixeira prof,benedito dutra teixeira professor
5508,jose aparecido castelucci prof,jose aparecido castelucci professor
18284,vila santa luzia,alice maria da silva ferreira
290,paulo araujo novaes dr,paulo araujo novaes doutor


#### Conclusão:

Há algumas diferenças nos nomes das escolas que não são motivadas apenas pelo nome estar vazio na base do PEI. Como se pode ver pela amostra acima, isso ocorre por pequenas diferenças na grafia (p. ex., "Professora Fulana" e "Prof. Fulana") ou então provavelmente por que a escola mudou de nome ao longo do tempo. Note-se no entanto que é pouco mais de 1% dos casos de não-match. 

In [42]:
#vamos novamente manter os dados do censo escolar que sao mais completos

df.drop(columns=['nome_escola_bate', 'nome_escola_y'], inplace=True)
df.rename(columns={'nome_escola_x': 'nome_escola'}, inplace=True)
df['nome_escola'].isnull().any()

np.False_

In [43]:
df.columns

Index(['ano_censo', 'sigla_uf', 'nome_municipio', 'codigo_municipio',
       'codigo_escola', 'nome_escola', 'qtd_turmas_ed_basica',
       'qtd_matr_ed_basica', 'qtd_matr_ed_basica_nao_declarada',
       'qtd_matr_ed_basica_branca', 'qtd_matr_ed_basica_preta',
       'qtd_matr_ed_basica_parda', 'qtd_matr_ed_basica_amarela',
       'qtd_matr_ed_basica_indigena', 'qtd_matriculas_infantil_integral',
       'qtd_matriculas_infantil_creche_integral',
       'qtd_matriculas_infantil_pre_escolar_integral',
       'qtd_matriculas_fundamental_integral',
       'qtd_matriculas_fundamental_anos_iniciais_integral',
       'qtd_matriculas_fundamental_anos_finais_integral',
       'qtd_matriculas_medio_integral', 'nome_dre', 'coordenadas', 'id_escola',
       'id_escola_treated', 'is_PEI', '_merge'],
      dtype='object')

In [44]:
df.drop(['id_escola', 'id_escola_treated', 'nome_dre'], axis=1, inplace=True)

In [45]:
save_csv(df, 'dados_merged.csv')

Data saved to data/dados_merged.csv
