# Desempenho das Escolas do Estado de São Paulo e Nível Socioeconômico
---

Foi publicado recentemento um Índice de Nível Socioeconômico (INSE) das escolas do Estado de São Paulo. 

O INSE leva em conta as seguintes variáveis:

- Grau de Escolaridade dos Pais
- Posse de bens de consumo duráveis da residência
- Renda Familiar

Onde 10 é o nível socioeconomico mais baixo e 0 o mais alto.

O Estado de São Paulo também divulga anualmente o IDESP, Índice de Desenvolvimento da Educação do Estado de São Paulo, que avalia a qualidade da escola a partir de dois critérios:

- desempenho dos alunos nos exames de proficiência do SARESP (o quanto aprenderam)
- fluco escolar (em quanto tempo aprenderam)

Essa análise explora as correlações entre o nível socioeconômico e o desempenho escolar

*Code made by [You](https://github.com/JoaoCarabetta) - João Carabetta

### Import required libraries

In [2]:
# IMPORT CONFIGs
import os
import sys
sys.path.insert(0, '../')
sys.path.insert(0, '../scripts')
from config import RAW_PATH, TREAT_PATH, OUTPUT_PATH


# DATA ANALYSIS & VIZ TOOLS
from copy import deepcopy

import pandas as pd
pd.options.display.max_columns = 999

import plotly
import plotly.graph_objs as go
import plotly.offline as offline
offline.init_notebook_mode(connected=True)

%pylab inline
pylab.rcParams['figure.figsize'] = (12, 12)


# For changes in .py
%reload_ext autoreload
%autoreload 2

import warnings
warnings.filterwarnings('ignore')

Populating the interactive namespace from numpy and matplotlib


### Import data

In [3]:
inse = pd.read_csv(RAW_PATH / 'INSE_Geral 2018_1.csv', sep=';')
inse['NIVEL SOCIOECONOMICO DOS ALUNOS'] = inse['NIVEL SOCIOECONOMICO DOS ALUNOS'].apply(lambda x: float(x.replace(',', '.')))
inse['CODESC'] = inse['CODESC'].apply(int)

In [150]:
inse['NIVEL SOCIOECONOMICO DOS ALUNOS'] = inse['NIVEL SOCIOECONOMICO DOS ALUNOS'].apply(lambda x: 10 - x)

In [151]:
inse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5127 entries, 0 to 5126
Data columns (total 5 columns):
CODESC                             5127 non-null int64
NOMESC                             5127 non-null object
Dir                                5127 non-null object
MUN                                5127 non-null object
NIVEL SOCIOECONOMICO DOS ALUNOS    5127 non-null float64
dtypes: float64(1), int64(1), object(3)
memory usage: 200.4+ KB


In [152]:
inse.head(1)

Unnamed: 0,CODESC,NOMESC,Dir,MUN,NIVEL SOCIOECONOMICO DOS ALUNOS
0,12,AYRES DE MOURA PROFESSOR,NORTE 1,SAO PAULO,7.29


In [153]:
idesp_2018 = pd.read_csv(RAW_PATH / 'IDESP por Escola - 2018.csv', sep=';')

In [154]:
idesp_2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5051 entries, 0 to 5050
Data columns (total 10 columns):
ANO_LETIVO          5051 non-null int64
CODIGO_CIE          5051 non-null int64
CODIGO_INEP         5051 non-null int64
CODIGO_DIRETORIA    5051 non-null int64
NOME_DIRETORIA      5051 non-null object
NOME_ESCOLA         5051 non-null object
NOME_MUNICIPIO      5051 non-null object
ANOS_INICIAIS       1460 non-null float64
ANOS_FINAIS         3654 non-null float64
ENSINO_MEDIO        3668 non-null float64
dtypes: float64(3), int64(4), object(3)
memory usage: 394.7+ KB


In [155]:
idesp_2018.head(1)

Unnamed: 0,ANO_LETIVO,CODIGO_CIE,CODIGO_INEP,CODIGO_DIRETORIA,NOME_DIRETORIA,NOME_ESCOLA,NOME_MUNICIPIO,ANOS_INICIAIS,ANOS_FINAIS,ENSINO_MEDIO
0,2018,909075,35909075,10208,LESTE 4,WILFREDO PINHEIRO PROF,SAO PAULO,4.97,2.92,2.45


In [156]:
idesp_hist =  pd.read_csv(RAW_PATH / 'DBOIdespEscSerHist_2_2011_2017.csv')

In [157]:
idesp_hist.head()

Unnamed: 0,CodigoCIE,CodigoINEP,CodigoDiretoria,NomeDiretoria,NomeEscola,NomeMunicipio,NivelEnsino,Ano2011,Ano2012,Ano2013,Ano2014,Ano2015,Ano2016,Ano2017
0,206,35000206,10101,NORTE 1,ALIPIO DE BARROS PROFESSOR ...,SAO PAULO,AI,3.85,4.53,4.27,5.49,4.94,5.18,5.2
1,2082,35002082,10205,LESTE 5,BLANCA ZWICKER SIMOES PROFESSORA ...,SAO PAULO,AI,6.42,5.95,6.83,6.64,6.62,7.13,7.41
2,3165,35003165,10208,LESTE 4,JANDYRA VIEIRA CUNHA BARRA PROFA ...,SAO PAULO,AI,4.23,4.5,3.59,4.92,4.57,4.91,5.43
3,681,35000681,10102,CENTRO,TOLEDO BARBOSA ...,SAO PAULO,AI,4.72,4.13,4.7,4.58,4.54,5.35,5.53
4,449,35000449,10102,CENTRO,TAUNAY VISCONDE DE ...,SAO PAULO,AI,4.69,5.93,7.11,8.03,6.25,5.97,6.9


In [158]:
enderecos = pd.read_csv(RAW_PATH / 'escolas_enderecos_0.csv', error_bad_lines=False)

b'Skipping line 25881: expected 19 fields, saw 20\n'


In [159]:
enderecos.head()

Unnamed: 0,nomedep,depadm,mun,codmun,de,CD_ESCOLA,CD_DIRETORIA,CD_DIRETORIA_ESTADUAL,CD_DIRETORIA_SUPVS_PROPR,NM_COMPLETO_ESCOLA,CD_UNIDADE,DS_ENDERECO,COMPLEMENTO,NUMERO,CD_ORIGEM_UNIDADE,CD_ORIGEM_ESCOLA,CD_ORIGEM_ENDERECO,LATITUDE,LONGITUDE
0,ESTADUAL - SE,1,SAO PAULO,100,NORTE 1,36444,10101,10101,10101,GENESIO DE ALMEIDA MOURA DOUTOR,37806,DOMINGOS AREVALO,RUA,862,37806,36444,37866,-23.447,-46.6967
1,ESTADUAL - SE,1,SAO PAULO,100,LESTE 5,1582,10205,10205,10205,DOMINGOS FAUSTINO SARMIENTO,24902,21 DE ABRIL,RUA,970,24902,1582,24962,-23.542232,-46.605793
2,ESTADUAL - SE,1,SAO PAULO,100,LESTE 5,2173,10205,10205,10205,JOAO BORGES PROFESSOR,24901,ITAPURA,RUA,976,24901,2173,24961,-23.5473,-46.566
3,ESTADUAL - SE,1,SAO PAULO,100,LESTE 1,3086,10207,10207,10207,HELENA LOMBARDI BRAGA PROFESSORA,24918,VIRGINIA DE MIRANDA,RUA,138,24918,3086,24978,-23.526587,-46.452888
4,ESTADUAL - SE,1,SAO PAULO,100,LESTE 1,2884,10207,10207,10207,RAUL PILLA DEPUTADO,24923,RUA SAO BERTOLDO,RUA,449,24923,2884,24983,-23.494297,-46.457064


# Análises

1. Distribuição do INSE por escola
2. Correlação do INSE e IDESP por escola por nível de ensino em 2018
3. Variação da correlação no tempo
4. INSE por escola geograficamente
5. Variação IDESP geograficamente
6. Identificação das áreas mais críticas

## 1. Distribuição do INSE por escola

In [160]:
data = [go.Histogram(x=inse['NIVEL SOCIOECONOMICO DOS ALUNOS'])]

layout = go.Layout(title='Distribuição do Nível Socioeconômico dos Alunos',
                  xaxis=dict(title='INSE'),
                  yaxis=dict(title='Número de Escolas'))

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure)



In [266]:
inse['NIVEL SOCIOECONOMICO DOS ALUNOS'].describe()

count    5127.000000
mean        5.423513
std         1.358798
min         0.270000
25%         4.540000
50%         5.320000
75%         6.295000
max         9.970000
Name: NIVEL SOCIOECONOMICO DOS ALUNOS, dtype: float64

## 2. Correlação do INSE e IDESP por escola por nível de ensino em 2018

In [231]:
from sklearn import  linear_model
from sklearn.metrics import mean_squared_error, r2_score

coefs = []

In [162]:
inse.head(1)

Unnamed: 0,CODESC,NOMESC,Dir,MUN,NIVEL SOCIOECONOMICO DOS ALUNOS
0,12,AYRES DE MOURA PROFESSOR,NORTE 1,SAO PAULO,7.29


In [163]:
idesp_2018.head(1)

Unnamed: 0,ANO_LETIVO,CODIGO_CIE,CODIGO_INEP,CODIGO_DIRETORIA,NOME_DIRETORIA,NOME_ESCOLA,NOME_MUNICIPIO,ANOS_INICIAIS,ANOS_FINAIS,ENSINO_MEDIO
0,2018,909075,35909075,10208,LESTE 4,WILFREDO PINHEIRO PROF,SAO PAULO,4.97,2.92,2.45


In [164]:
inse_idesp_2018 = inse.merge(idesp_2018, left_on='CODESC', right_on='CODIGO_CIE')
print('Número de escolas que não estão nas duas bases: ', len(inse) - len(inse_idesp_2018))

Número de escolas que não estão nas duas bases:  63


In [248]:
def plot_regression(periodo_escolar):

    regr = linear_model.LinearRegression()
    fit_data = inse_idesp_2018.dropna(subset=[periodo_escolar])
    regr.fit(fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1), 
             fit_data[periodo_escolar].values.reshape(-1, 1))

    data = []

    data.append(go.Scatter(x=fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'],
                       y=fit_data[periodo_escolar],
                       mode = 'markers'))

    data.append(go.Scatter(x=fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'], 
                    y=regr.predict(fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1)).reshape(1, -1).tolist()[0],
                    mode='lines',
                    line=dict(color='black', width=3),

                    ))

    layout = go.Layout(title=f'INSE x IDESP para {periodo_escolar}',
                      xaxis=dict(title='INSE'),
                      yaxis=go.YAxis(title='IDESP', range=[0, 10]))

    figure = go.Figure(data=data, layout=layout)

    offline.iplot(figure)

    # The coefficients
    print('Linear Model:')
    print('y = Ax + b')
    print(f'y = {round(regr.coef_[0][0], 2)}x + {round(regr.intercept_[0], 2)}')
    # The mean squared error
     # Explained variance score: 1 is perfect prediction
    print('R^2: %.2f' % r2_score(fit_data[periodo_escolar].values.reshape(-1, 1),
                                 regr.predict(fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1))))
    
    return {'coef': regr.coef_[0][0], 'categoria_escolar': periodo_escolar, 'ano': 2018}

In [252]:
coefs.append(plot_regression('ANOS_INICIAIS'))

Linear Model:
y = Ax + b
y = 0.24x + 4.36
R^2: 0.09


In [253]:
coefs.append(plot_regression('ANOS_FINAIS'))

Linear Model:
y = Ax + b
y = 0.17x + 2.48
R^2: 0.08


In [254]:
coefs.append(plot_regression('ENSINO_MEDIO'))

Linear Model:
y = Ax + b
y = 0.15x + 1.77
R^2: 0.07


In [169]:
df_coefs = pd.DataFrame(coefs)

In [170]:
data = [go.Bar(x=df_coefs['categoria_escolar'],
      y=df_coefs['coef'])]

layout = go.Layout(title=f'Comparação dos Coeficientes Angulares por Categoria Escolar',
                  xaxis=dict(title='INSE'),
                  yaxis=go.YAxis(title='IDESP'))

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure)

## 3. Variação da correlação no tempo

### Une série histórica com 2018

In [171]:
idesp_melted = idesp_hist.melt(id_vars=['CodigoCIE', 'NivelEnsino'], value_vars=['Ano2011', 'Ano2012',
   'Ano2013', 'Ano2014', 'Ano2015', 'Ano2016', 'Ano2017'],)
idesp_melted['NivelEnsino'] = idesp_melted['NivelEnsino'].replace({'AI': 'ANOS_INICIAIS', 'AF': 'ANOS_FINAIS', 'EM':'ENSINO_MEDIO'})
idesp_temp = idesp_2018.melt(id_vars='CODIGO_CIE', value_vars=['ANOS_INICIAIS', 'ANOS_FINAIS', 'ENSINO_MEDIO'], 
                            var_name='NivelEnsino')
idesp_temp['variable'] = 'Ano2018'
idesp_temp = idesp_temp.rename(columns={'CODIGO_CIE': 'CodigoCIE'})
idesp_melted = pd.concat([idesp_melted, idesp_temp]).rename(columns={'value': 'IDESP', 'variable': 'Ano'})
idesp_melted['Ano'] = idesp_melted['Ano'].apply(lambda x: int(x.replace('Ano', '')))

In [172]:
inse.head()

Unnamed: 0,CODESC,NOMESC,Dir,MUN,NIVEL SOCIOECONOMICO DOS ALUNOS
0,12,AYRES DE MOURA PROFESSOR,NORTE 1,SAO PAULO,7.29
1,24,GAVIAO PEIXOTO BRIGADEIRO,NORTE 1,SAO PAULO,6.07
2,36,JOAO SOLIMEO,NORTE 1,SAO PAULO,5.98
3,48,WALFREDO ARANTES CALDAS PROFESSOR,NORTE 1,SAO PAULO,5.73
4,59,SEBASTIAO DE OLIVEIRA GUSMAO PROFESSOR,NORTE 1,SAO PAULO,5.96


In [173]:
inse_idesp = idesp_melted.merge(inse, right_on='CODESC', left_on='CodigoCIE')

In [174]:

def get_regression_coef(ano, nivel_ensino):

    regr = linear_model.LinearRegression()

    df = inse_idesp.query(f'Ano == {ano}').query(f"NivelEnsino == '{nivel_ensino}'")
    
    df = df.dropna(subset=['IDESP'])
    
    regr.fit(df['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1), 
         df['IDESP'].values.reshape(-1, 1))
    
    return {'coef': regr.coef_[0][0], 'nivel_ensino': nivel_ensino, 'ano': ano}

In [175]:
coefs = []
for ano in inse_idesp['Ano'].unique():
    for nivel_ensino in inse_idesp['NivelEnsino'].unique():
        coefs.append(get_regression_coef(ano, nivel_ensino))

In [176]:
df_coefs = pd.DataFrame(coefs)
df_coefs = df_coefs.sort_values(by='ano')

In [177]:
df_coefs.query(f"nivel_ensino == '{nivel_ensino}'")

Unnamed: 0,ano,coef,nivel_ensino
2,2011,0.123468,ENSINO_MEDIO
5,2012,0.121588,ENSINO_MEDIO
8,2013,0.129164,ENSINO_MEDIO
11,2014,0.131467,ENSINO_MEDIO
14,2015,0.107574,ENSINO_MEDIO
17,2016,0.130394,ENSINO_MEDIO
20,2017,0.138752,ENSINO_MEDIO
23,2018,0.14504,ENSINO_MEDIO


In [206]:
data = []

for nivel_ensino in inse_idesp['NivelEnsino'].unique():
    
    data.append(go.Scatter(x=df_coefs.query(f"nivel_ensino == '{nivel_ensino}'")['ano'],
                  y=df_coefs.query(f"nivel_ensino == '{nivel_ensino}'")['coef'],
                          name=nivel_ensino)),
               

layout = go.Layout(title='Variação da Desigualdade por Nível de Ensino',
                  xaxis=dict(title='Anos'),
                  yaxis=go.YAxis(title='Desigualdade\n(Coeficiente Angular)'),
                    autosize=False,
                    width=600,
                    height=600,
                   legend=go.Legend(xanchor='rigth'))

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure)

## 4. Variação IDESP x INSE

In [179]:
variacoes = []
for nivel_ensino in inse_idesp['NivelEnsino'].unique():
    
    variacao = (((inse_idesp.query(f'Ano == 2018').query(f"NivelEnsino == '{nivel_ensino}'").set_index('CodigoCIE')['IDESP'] - 
inse_idesp.query(f'Ano == 2011').query(f"NivelEnsino == '{nivel_ensino}'").set_index('CodigoCIE')['IDESP']) / 
inse_idesp.query(f'Ano == 2011').query(f"NivelEnsino == '{nivel_ensino}'").set_index('CodigoCIE')['IDESP']) * 100).to_frame()
    
    variacao['nivel_ensino'] = nivel_ensino
    
    variacoes.append(variacao)
variacoes = pd.concat(variacoes)    

In [180]:
nivel_ensino='ENSINO_MEDIO'

In [181]:
variacoes = variacoes.merge(inse[['CODESC', 'NIVEL SOCIOECONOMICO DOS ALUNOS']], left_index=True, right_on='CODESC')

In [182]:
variacoes.head()

Unnamed: 0,IDESP,nivel_ensino,CODESC,NIVEL SOCIOECONOMICO DOS ALUNOS
0,,ANOS_INICIAIS,12,7.29
0,74.793388,ANOS_FINAIS,12,7.29
0,,ENSINO_MEDIO,12,7.29
1,,ANOS_INICIAIS,24,6.07
1,0.414938,ANOS_FINAIS,24,6.07


In [263]:
data = [go.Histogram(x = variacoes[(variacoes['nivel_ensino'] == 'ANOS_INICIAIS') &
          (variacoes['IDESP'] < 200)
         ].drop_duplicates(subset=['CODESC'])['IDESP'])]
layout = go.Layout(title=f'Variação do IDESP de 2011 a 2018 para Anos Iniciais',
                  xaxis=dict(title='Variação em %'),
                  yaxis=go.YAxis(title='Número de Escolas'),
                    autosize=False,
                    width=600,
                    height=600,)

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure)

variacoes[(variacoes['nivel_ensino'] == 'ANOS_INICIAIS') ].drop_duplicates(subset=['CODESC']).describe()

Unnamed: 0,IDESP,CODESC,NIVEL SOCIOECONOMICO DOS ALUNOS
count,1411.0,5090.0,5090.0
mean,34.140473,280728.224754,5.42522
std,32.874417,392555.585467,1.36082
min,-37.277354,12.0,0.27
25%,13.948422,16062.25,4.54
50%,29.455446,35683.0,5.32
75%,49.409081,901483.0,6.3
max,381.818182,926103.0,9.97


In [264]:
data = [go.Histogram(x = variacoes[(variacoes['nivel_ensino'] == 'ANOS_FINAIS') &
          (variacoes['IDESP'] < 200)].drop_duplicates(subset=['CODESC'])['IDESP'])]
layout = go.Layout(title=f'Variação do IDESP de 2011 a 2018 para Anos Finais',
                  xaxis=dict(title='Variação em %'),
                  yaxis=go.YAxis(title='Número de Escolas'))

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure)

variacoes[(variacoes['nivel_ensino'] == 'ANOS_FINAIS') ].drop_duplicates(subset=['CODESC']).describe()

Unnamed: 0,IDESP,CODESC,NIVEL SOCIOECONOMICO DOS ALUNOS
count,3466.0,5072.0,5072.0
mean,32.732255,280372.098778,5.429405
std,32.276673,392300.378291,1.360822
min,-69.449715,12.0,0.27
25%,11.819392,16016.75,4.55
50%,28.571429,35659.5,5.33
75%,49.387755,901493.5,6.3
max,353.164557,926103.0,9.97


In [265]:
data = [go.Histogram(x = variacoes[(variacoes['nivel_ensino'] == 'ENSINO_MEDIO') &
          (variacoes['IDESP'] < 200)
         ].drop_duplicates(subset=['CODESC'])['IDESP'])]
layout = go.Layout(title=f'Variação do IDESP de 2011 a 2018 para Ensino Médio',
                  xaxis=dict(title='Variação em %'),
                  yaxis=go.YAxis(title='Número de Escolas'))

figure = go.Figure(data=data, layout=layout)

offline.iplot(figure, image_width=800, image_height=800)

variacoes[(variacoes['nivel_ensino'] == 'ENSINO_MEDIO') ].drop_duplicates(subset=['CODESC']).describe()

Unnamed: 0,IDESP,CODESC,NIVEL SOCIOECONOMICO DOS ALUNOS
count,3428.0,5067.0,5067.0
mean,50.640333,279811.308072,5.430892
std,49.965085,392065.0437,1.359558
min,-77.595628,12.0,0.27
25%,19.413853,15994.5,4.55
50%,42.206448,35634.0,5.33
75%,71.852245,901401.0,6.3
max,812.121212,926103.0,9.97


In [228]:
def plot_regression_a(nivel_ensino):

    regr = linear_model.LinearRegression()
    df = variacoes[variacoes['nivel_ensino'] == nivel_ensino]
    fit_data = df.dropna(subset=['IDESP']).drop_duplicates(subset=['CODESC'])
    regr.fit(fit_data['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1), 
             fit_data['IDESP'].values.reshape(-1, 1))

    data = []

    data.append(go.Scatter(x=df['NIVEL SOCIOECONOMICO DOS ALUNOS'],
                       y=df['IDESP'],
                       mode = 'markers'))

    data.append(go.Scatter(x=df['NIVEL SOCIOECONOMICO DOS ALUNOS'], 
                    y=regr.predict(df['NIVEL SOCIOECONOMICO DOS ALUNOS'].values.reshape(-1, 1)).reshape(1, -1).tolist()[0],
                    mode='lines',
                    line=dict(color='black', width=3),

                    ))

    layout = go.Layout(title=f'INSE x IDESP para {nivel_ensino}',
                      xaxis=dict(title='INSE'),
                      yaxis=go.YAxis(title='IDESP'))

    figure = go.Figure(data=data, layout=layout)

    offline.iplot(figure)

    # The coefficients
    print('Linear Model:')
    print('y = Ax + b')
    print(f'y = {round(regr.coef_[0][0], 2)}x + {round(regr.intercept_[0], 2)}')
    return regr

In [229]:
regr = plot_regression_a('ANOS_INICIAIS')

Linear Model:
y = Ax + b
y = -3.5x + 52.26


In [255]:
plot_regression_a('ANOS_FINAIS')

Linear Model:
y = Ax + b
y = -2.11x + 44.14


LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [256]:
plot_regression_a('ENSINO_MEDIO')

Linear Model:
y = Ax + b
y = -2.3x + 63.28


LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

## 5. INSE por escola geograficamente

In [187]:
enderecos_inse = enderecos.merge(inse, left_on='CD_ESCOLA', right_on='CODESC')
enderecos_inse = enderecos_inse[['CD_ESCOLA', 'MUN', 'NM_COMPLETO_ESCOLA', 'DS_ENDERECO', 'LATITUDE', 'LONGITUDE', 'NIVEL SOCIOECONOMICO DOS ALUNOS']]



In [188]:
enderecos_inse = enderecos_inse.merge(variacoes.drop_duplicates().pivot(index='CODESC', columns='nivel_ensino', values='IDESP').reset_index(),
                     left_on='CD_ESCOLA', right_on='CODESC')

In [189]:
enderecos_inse = enderecos_inse.rename(columns={x: x + '_var' for x in ['ANOS_FINAIS', 'ANOS_INICIAIS', 'ENSINO_MEDIO']})

In [190]:
idesp_2018.columns

Index(['ANO_LETIVO', 'CODIGO_CIE', 'CODIGO_INEP', 'CODIGO_DIRETORIA',
       'NOME_DIRETORIA', 'NOME_ESCOLA', 'NOME_MUNICIPIO', 'ANOS_INICIAIS',
       'ANOS_FINAIS', 'ENSINO_MEDIO'],
      dtype='object')

In [191]:
enderecos_inse = enderecos_inse.merge(idesp_2018[['CODIGO_CIE','ANOS_INICIAIS', 'ANOS_FINAIS', 'ENSINO_MEDIO' ]], right_on='CODIGO_CIE', left_on='CD_ESCOLA')

In [192]:
enderecos_inse.head()

Unnamed: 0,CD_ESCOLA,MUN,NM_COMPLETO_ESCOLA,DS_ENDERECO,LATITUDE,LONGITUDE,NIVEL SOCIOECONOMICO DOS ALUNOS,CODESC,ANOS_FINAIS_var,ANOS_INICIAIS_var,ENSINO_MEDIO_var,CODIGO_CIE,ANOS_INICIAIS,ANOS_FINAIS,ENSINO_MEDIO
0,36444,SAO PAULO,GENESIO DE ALMEIDA MOURA DOUTOR,DOMINGOS AREVALO,-23.447,-46.6967,4.61,36444,8.092486,8.366534,125.396825,36444,2.72,1.87,1.42
1,1582,SAO PAULO,DOMINGOS FAUSTINO SARMIENTO,21 DE ABRIL,-23.542232,-46.605793,4.56,1582,,38.483965,,1582,4.75,,
2,2173,SAO PAULO,JOAO BORGES PROFESSOR,ITAPURA,-23.5473,-46.566,9.72,2173,17.444717,,15.217391,2173,,4.78,3.71
3,3086,SAO PAULO,HELENA LOMBARDI BRAGA PROFESSORA,VIRGINIA DE MIRANDA,-23.526587,-46.452888,6.3,3086,54.945055,,41.614907,3086,,2.82,2.28
4,2884,SAO PAULO,RAUL PILLA DEPUTADO,RUA SAO BERTOLDO,-23.494297,-46.457064,5.27,2884,106.074766,,,2884,,4.41,


In [193]:
enderecos_inse.to_csv(OUTPUT_PATH / 'enderecos_indices.csv')

In [194]:
enderecos_inse

Unnamed: 0,CD_ESCOLA,MUN,NM_COMPLETO_ESCOLA,DS_ENDERECO,LATITUDE,LONGITUDE,NIVEL SOCIOECONOMICO DOS ALUNOS,CODESC,ANOS_FINAIS_var,ANOS_INICIAIS_var,ENSINO_MEDIO_var,CODIGO_CIE,ANOS_INICIAIS,ANOS_FINAIS,ENSINO_MEDIO
0,36444,SAO PAULO,GENESIO DE ALMEIDA MOURA DOUTOR,DOMINGOS AREVALO,-23.447000,-46.696700,4.61,36444,8.092486,8.366534,125.396825,36444,2.72,1.87,1.42
1,1582,SAO PAULO,DOMINGOS FAUSTINO SARMIENTO,21 DE ABRIL,-23.542232,-46.605793,4.56,1582,,38.483965,,1582,4.75,,
2,2173,SAO PAULO,JOAO BORGES PROFESSOR,ITAPURA,-23.547300,-46.566000,9.72,2173,17.444717,,15.217391,2173,,4.78,3.71
3,3086,SAO PAULO,HELENA LOMBARDI BRAGA PROFESSORA,VIRGINIA DE MIRANDA,-23.526587,-46.452888,6.30,3086,54.945055,,41.614907,3086,,2.82,2.28
4,2884,SAO PAULO,RAUL PILLA DEPUTADO,RUA SAO BERTOLDO,-23.494297,-46.457064,5.27,2884,106.074766,,,2884,,4.41,
5,35610,SAO PAULO,RENATA GRAZIANO DE OLIVEIRA PRADO PROFESSORA,ARNALDO DANIEL,-23.694091,-46.788534,4.42,35610,43.750000,,97.894737,35610,,2.76,1.88
6,4388,SAO PAULO,SEMINARIO NOSSA SENHORA DA GLORIA,RUA MOREIRA DE GODOI,-23.591604,-46.609698,8.41,4388,14.138817,7.185629,,4388,5.37,4.44,
7,4424,SAO PAULO,FRANCISCO DE ASSIS REYS,RUA BOM PASTOR,-23.590326,-46.607238,6.94,4424,,53.103448,,4424,6.66,,
8,1739,SAO PAULO,ANDRE DREYFUS PROFESSOR,RUA PEDRO DE GODOI,-23.587969,-46.582752,5.76,1739,,-7.046980,,1739,5.54,,
9,4947,SAO PAULO,NEYDE APPARECIDA SOLLITTO PROFESSORA,JOSE MARIA PINTO ZILLI,-23.620957,-46.746473,5.46,4947,99.363057,,151.162791,4947,4.25,3.13,2.16
