## Join data

Esse notebook faz o join entre os dados do portal da transparência do Estado, que identificam as escolas participantes do PEI - Programa de Ensino Integral - e os microdados do censo escolar.

In [1]:
import pandas as pd

from utils.load_csv import load_csv
from utils.save_csv import save_csv

In [2]:
df_pei = load_csv('pei_escolas_original.csv')
df_censo = load_csv('microdados_censo_limpo.csv')

In [3]:
df_pei.columns

Index(['Escola', 'Diretoria de Ensino', 'Município', 'Coordenadas',
       'ID Escola'],
      dtype='object')

In [4]:
df_pei.head()

Unnamed: 0,Escola,Diretoria de Ensino,Município,Coordenadas,ID Escola
0,bairro da bocaina,guaratingueta,cunha,"['-23.0361', '-44.9253']",926085
1,aldeia karugwa,itarare,barao de antonina,"['-23.6028', '-49.5874']",268574
2,india maria rosa,penapolis,brauna,"['-21.5656', '-50.3173']",395365
3,joao alfredo da silva,presidente prudente,presidente prudente,"['-21.9093', '-51.3003']",31756
4,bairro pe da serra,miracatu,iguape,"['-24.3801', '-47.5179']",918052


In [5]:
mapper_pei = {
    'Escola': 'nome_escola',
    'Diretoria de Ensino': 'nome_dre',
    'Município': 'nome_municipio',
    'Coordenadas': 'coordenadas',
    'ID Escola': 'id_escola'
}

df_pei = df_pei.rename(columns=mapper_pei)

In [6]:
df_pei.head()

Unnamed: 0,nome_escola,nome_dre,nome_municipio,coordenadas,id_escola
0,bairro da bocaina,guaratingueta,cunha,"['-23.0361', '-44.9253']",926085
1,aldeia karugwa,itarare,barao de antonina,"['-23.6028', '-49.5874']",268574
2,india maria rosa,penapolis,brauna,"['-21.5656', '-50.3173']",395365
3,joao alfredo da silva,presidente prudente,presidente prudente,"['-21.9093', '-51.3003']",31756
4,bairro pe da serra,miracatu,iguape,"['-24.3801', '-47.5179']",918052


In [7]:
df_censo.columns

Index(['ano_censo', 'sigla_uf', 'nome_municipio', 'codigo_municipio',
       'codigo_escola', 'nome_escola', 'qtd_turmas_ed_basica',
       'qtd_matr_ed_basica', 'qtd_matr_ed_basica_nao_declarada',
       'qtd_matr_ed_basica_branca', 'qtd_matr_ed_basica_preta',
       'qtd_matr_ed_basica_parda', 'qtd_matr_ed_basica_amarela',
       'qtd_matr_ed_basica_indigena', 'qtd_matriculas_infantil_integral',
       'qtd_matriculas_infantil_creche_integral',
       'qtd_matriculas_infantil_pre_escolar_integral',
       'qtd_matriculas_fundamental_integral',
       'qtd_matriculas_fundamental_anos_iniciais_integral',
       'qtd_matriculas_fundamental_anos_finais_integral',
       'qtd_matriculas_medio_integral'],
      dtype='object')

In [8]:
df_censo.head()

Unnamed: 0,ano_censo,sigla_uf,nome_municipio,codigo_municipio,codigo_escola,nome_escola,qtd_turmas_ed_basica,qtd_matr_ed_basica,qtd_matr_ed_basica_nao_declarada,qtd_matr_ed_basica_branca,...,qtd_matr_ed_basica_parda,qtd_matr_ed_basica_amarela,qtd_matr_ed_basica_indigena,qtd_matriculas_infantil_integral,qtd_matriculas_infantil_creche_integral,qtd_matriculas_infantil_pre_escolar_integral,qtd_matriculas_fundamental_integral,qtd_matriculas_fundamental_anos_iniciais_integral,qtd_matriculas_fundamental_anos_finais_integral,qtd_matriculas_medio_integral
0,2012,SP,Adamantina,3500105,35030806,HELEN KELLER,22.0,654.0,87.0,355.0,...,199.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2012,SP,Adamantina,3500105,35031045,DURVALINO GRION PROF,24.0,827.0,146.0,439.0,...,224.0,5.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2012,SP,Adamantina,3500105,35031082,EUDECIO LUIZ VICENTE PROF ETE,26.0,883.0,163.0,563.0,...,130.0,21.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2012,SP,Adamantina,3500105,35031100,HERVAL BELLUSCI ENGENHEIRO ETE,12.0,275.0,68.0,140.0,...,62.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,68.0
4,2012,SP,Adamantina,3500105,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,34.0,1041.0,84.0,758.0,...,180.0,11.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Checando se os IDs das escolas da base do PEI batem com a base do Censo

In [9]:
df_pei['id_escola'].sample(3)

2071     21532
2022    914459
1193      2045
Name: id_escola, dtype: int64

In [10]:
df_censo['codigo_escola'].sample(3)

27374    35042043
26151    35006836
3533     35045366
Name: codigo_escola, dtype: int64

In [11]:
df_censo['codigo_escola'].astype(str).str.len().unique()

array([8])

In [12]:
df_censo['codigo_escola'] = df_censo['codigo_escola'].astype(str)

In [13]:
df_pei['id_escola'].dtype

dtype('int64')

In [14]:
#note que se somar os dois caracteres do estado, o id no final fica no tamanho de 8 caracteres do codigo do censo
#vou tentar fazer isso para ver se da match
df_pei['id_escola'].astype(str).str.len().unique()

array([6, 5, 4, 3, 2])

In [15]:
#primeiro vamos dar um zfill para todos ficarem com 6 caracteres. Depois adicionamos o 35 do estado de SP
df_pei['id_escola_treated'] = df_pei['id_escola'].astype(str).str.zfill(6)
df_pei['id_escola_treated'].str.len().unique

<bound method Series.unique of 0       6
1       6
2       6
3       6
4       6
       ..
2326    6
2327    6
2328    6
2329    6
2330    6
Name: id_escola_treated, Length: 2331, dtype: int64>

In [16]:
df_pei['id_escola_treated'] = '35'  + df_pei['id_escola_treated']
df_pei['id_escola_treated'].str.len().unique()

array([8])

In [17]:
# Uhul bateu!
set(df_pei['id_escola_treated'].unique()) - set(df_censo['codigo_escola'].unique())

set()

In [18]:
df = pd.merge(df_censo, df_pei, left_on='codigo_escola', right_on='id_escola_treated', how='left', indicator=True)
df['_merge'].value_counts()

_merge
left_only     45904
both          30024
right_only        0
Name: count, dtype: int64

In [19]:
del df_pei
del df_censo

In [20]:
df.head()

Unnamed: 0,ano_censo,sigla_uf,nome_municipio_x,codigo_municipio,codigo_escola,nome_escola_x,qtd_turmas_ed_basica,qtd_matr_ed_basica,qtd_matr_ed_basica_nao_declarada,qtd_matr_ed_basica_branca,...,qtd_matriculas_fundamental_anos_iniciais_integral,qtd_matriculas_fundamental_anos_finais_integral,qtd_matriculas_medio_integral,nome_escola_y,nome_dre,nome_municipio_y,coordenadas,id_escola,id_escola_treated,_merge
0,2012,SP,Adamantina,3500105,35030806,HELEN KELLER,22.0,654.0,87.0,355.0,...,0.0,0.0,0.0,helen keller,adamantina,adamantina,"['-21.693', '-51.0689']",30806.0,35030806.0,both
1,2012,SP,Adamantina,3500105,35031045,DURVALINO GRION PROF,24.0,827.0,146.0,439.0,...,0.0,0.0,0.0,durvalino grion prof,adamantina,adamantina,"['-21.6786', '-51.0769']",31045.0,35031045.0,both
2,2012,SP,Adamantina,3500105,35031082,EUDECIO LUIZ VICENTE PROF ETE,26.0,883.0,163.0,563.0,...,0.0,0.0,0.0,,,,,,,left_only
3,2012,SP,Adamantina,3500105,35031100,HERVAL BELLUSCI ENGENHEIRO ETE,12.0,275.0,68.0,140.0,...,0.0,0.0,68.0,,,,,,,left_only
4,2012,SP,Adamantina,3500105,35031112,FLEURIDES CAVALLINI MENECHINO PROFA,34.0,1041.0,84.0,758.0,...,0.0,0.0,0.0,fleurides cavallini menechino profa,adamantina,adamantina,"['-21.6928', '-51.0703']",31112.0,35031112.0,both


#### Testes de consistência do join

Agora vamos testar se o join deu certo comparando os nomes dos municipios e das escolas.

#### Nomes municipios

In [21]:
df['nome_municipio_bate'] = (df['nome_municipio_x'].str.lower() == df['nome_municipio_y'].str.lower())
df['nome_municipio_bate'].value_counts(normalize=True)

nome_municipio_bate
False    0.791987
True     0.208013
Name: proportion, dtype: float64

In [22]:
df[~df['nome_municipio_bate']][['nome_municipio_x', 'nome_municipio_y']].sample(10)

Unnamed: 0,nome_municipio_x,nome_municipio_y
13510,Indiana,
24485,Cotia,
64973,São Paulo,
7441,Guarulhos,
27498,São José do Rio Preto,sao jose do rio preto
16497,São Paulo,sao paulo
8610,Nova Odessa,
11845,Araraquara,
18739,Elias Fausto,
65305,São Bernardo do Campo,sao bernardo do campo


In [23]:
import unicodedata

def remover_acentos(texto: str) -> str:
    return ''.join(
        c for c in unicodedata.normalize('NFKD', texto)
        if not unicodedata.combining(c)
    )


In [24]:
df['nome_municipio_x'] = df['nome_municipio_x'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)
df['nome_municipio_y'] = df['nome_municipio_y'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)

In [25]:
df['nome_municipio_bate2'] = (df['nome_municipio_x'].str.lower() == df['nome_municipio_y'].str.lower())
df['nome_municipio_bate2'].value_counts(normalize=True)

nome_municipio_bate2
False    0.604599
True     0.395401
Name: proportion, dtype: float64

In [26]:
df[~df['nome_municipio_bate2']][['nome_municipio_x', 'nome_municipio_y']].sample(10)

Unnamed: 0,nome_municipio_x,nome_municipio_y
37855,maua,
65767,salto,
3457,ribeirao preto,
45313,sao paulo,
27786,sao paulo,
33484,sao jose dos campos,
45887,sao paulo,
72118,itapetininga,
72898,mombuca,
20126,maua,


In [27]:
(df[~df['nome_municipio_bate2']]['nome_municipio_y']=='').value_counts()

nome_municipio_y
True     45904
False        2
Name: count, dtype: int64

In [28]:
df_mun_nao_bate = df[~df['nome_municipio_bate2']].copy()
df_mun_nao_bate['nome_municipio_y'].value_counts()


nome_municipio_y
            45904
bertioga        2
Name: count, dtype: int64

In [29]:
df_mun_nao_bate[df_mun_nao_bate['nome_municipio_y'] != ''][['nome_municipio_x', 'nome_municipio_y']]

Unnamed: 0,nome_municipio_x,nome_municipio_y
63957,sao sebastiao,bertioga
68256,sao sebastiao,bertioga


In [30]:
#vamos ficar com a coluna do censo escolar que é mais completa
df.drop(columns=['nome_municipio_bate', 'nome_municipio_bate2', 'nome_municipio_y'], inplace=True)
df.rename(columns={'nome_municipio_x': 'nome_municipio'}, inplace=True)

In [31]:
df['nome_municipio'].isnull().any()

np.False_

#### Conclusão:

Verificamos que todos os municipios batem, com exceção daqueles que estão com o nome do municipio vazio na base do PEI e de apenas 2 que estão registrados como são sebastião na base do Censo Escolar mas que no PEI entraram como Bertiogo -- que sao municipios vizinhos. Pode ser efeito de uma mudança de limites entre os municipios ao longo dos anos ou um erro simples de cadastro.

#### Nomes das escolas

In [32]:
(df['nome_escola_x'] == df['nome_escola_y']).value_counts(normalize=True)

False    1.0
Name: proportion, dtype: float64

In [33]:
df['nome_escola_x'].sample(3)

34451    JOSE CAVALCANTI SILVA DESEMBARGADOR
8870              JOSE WADIE MILAD PROFESSOR
19282               PASCHOAL THOMEU DEPUTADO
Name: nome_escola_x, dtype: object

In [34]:
df['nome_escola_y'].sample(3)

27438    NaN
46273    NaN
62092    NaN
Name: nome_escola_y, dtype: object

In [35]:
df['nome_escola_y'] = df['nome_escola_y'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)
df['nome_escola_x'] = df['nome_escola_x'].apply(lambda x: x if not pd.isnull(x) else '').str.lower().str.strip().apply(remover_acentos)

In [36]:
df['nome_escola_bate'] = (df['nome_escola_x'] == df['nome_escola_y'])
df['nome_escola_bate'].value_counts(normalize=True)

nome_escola_bate
False    0.611988
True     0.388012
Name: proportion, dtype: float64

In [37]:
df_nome_escola_nao_bate = df[~df['nome_escola_bate']].copy()
df_nome_escola_nao_bate[['nome_escola_x', 'nome_escola_y']].sample(10)

Unnamed: 0,nome_escola_x,nome_escola_y
15856,paulo setubal,
14288,matheus leite de abreu prof etec,
8697,jose edson martins gomes professor,
3739,francisca helena furia professora,
56605,visconde de taunay,
53541,anibal de freitas professor,
46040,cicero canuto de lima pastor,
56797,gabriel felix do amaral professor,
46053,thayane luzimara costa valcacer professora,
34075,miguel oliva feitosa professor,


In [38]:
df_nome_escola_nao_bate['escola_y_vazia'] = df_nome_escola_nao_bate['nome_escola_y']==''
df_nome_escola_nao_bate['escola_y_vazia'].value_counts(normalize=True)

escola_y_vazia
True     0.987884
False    0.012116
Name: proportion, dtype: float64

In [39]:
df_nome_escola_nao_bate[df_nome_escola_nao_bate['escola_y_vazia']==False][['nome_escola_x', 'nome_escola_y']].sample(20)

Unnamed: 0,nome_escola_x,nome_escola_y
35763,txeru ba e kua - i,txeru ba e kua i
21398,escola estadual jardim dos cisnes,professor jose maria priante
12899,bairro dos penteados,levi pereira martins professor
49057,jardim santa rita ii,prof maria da conceicao sanches do nascimento
42210,paulo virginio,paulo virginio cunha
53349,txeru ba e kua i,txeru ba e kua i
44236,escola estadual professor elias de mello ayres,elias de mello ayres professor
23075,bairro do eden,elzide celestina souza pacheco tunuchi profa
9136,jardim bela vista,moacyr miranda pinto professor doutor
53632,jardim santa clara,benito juarez de souza


#### Conclusão:

Há algumas diferenças nos nomes das escolas que não são motivadas apenas pelo nome estar vazio na base do PEI. Como se pode ver pela amostra acima, isso ocorre por pequenas diferenças na grafia (p. ex., "Professora Fulana" e "Prof. Fulana") ou então provavelmente por que a escola mudou de nome ao longo do tempo. Note-se no entanto que é pouco mais de 1% dos casos de não-match. 

In [40]:
#vamos novamente manter os dados do censo escolar que sao mais completos

df.drop(columns=['nome_escola_bate', 'nome_escola_y'], inplace=True)
df.rename(columns={'nome_escola_x': 'nome_escola'}, inplace=True)
df['nome_escola'].isnull().any()

np.False_

In [41]:
df.columns

Index(['ano_censo', 'sigla_uf', 'nome_municipio', 'codigo_municipio',
       'codigo_escola', 'nome_escola', 'qtd_turmas_ed_basica',
       'qtd_matr_ed_basica', 'qtd_matr_ed_basica_nao_declarada',
       'qtd_matr_ed_basica_branca', 'qtd_matr_ed_basica_preta',
       'qtd_matr_ed_basica_parda', 'qtd_matr_ed_basica_amarela',
       'qtd_matr_ed_basica_indigena', 'qtd_matriculas_infantil_integral',
       'qtd_matriculas_infantil_creche_integral',
       'qtd_matriculas_infantil_pre_escolar_integral',
       'qtd_matriculas_fundamental_integral',
       'qtd_matriculas_fundamental_anos_iniciais_integral',
       'qtd_matriculas_fundamental_anos_finais_integral',
       'qtd_matriculas_medio_integral', 'nome_dre', 'coordenadas', 'id_escola',
       'id_escola_treated', '_merge'],
      dtype='object')

In [42]:
df.drop(['id_escola', 'id_escola_treated', 'nome_dre'], axis=1, inplace=True)

In [43]:
save_csv(df, 'dados_merged.csv')

Data saved to data/dados_merged.csv
