# Taxa de rendimento no ensino básico brasileiro
Este notebook será usado para fazer análises baseadas no dataframe disponibilizado pelo governo federal sobre o rendimentos dos alunos de diversas escolas espalhadas pelo país e que pode ser verificado através do link http://dados.gov.br/dataset/taxas-de-rendimento-escolar-na-educacao-basica?fbclid=IwAR1k-zIfTDd7K6rWWhIYY9JPyfkjYI8Pm83tY7_K29ZWntVCx5vMGoPCpMM 

O dataset usado é "Taxas - município 2010"
Serão apresentados os dados recolhidos, as hipóteses criadas, bem como se foram validadas ou não e algumas visualizações e inferências importantes. 

In [5]:
import pandas as pd

In [6]:
file = r'data/TX RENDIMENTO MUNICIPIOS 2010.xls'
column_labels = [
    'ano', 'regiao', 'uf', 'codigo_municipio', 'nome_municipio', 'localizacao', 'rede',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',
]
df_municipios = pd.read_excel(file, skiprows=8, nrows=65460, names=column_labels, na_values='--')

df_municipios.head()

Unnamed: 0,ano,regiao,uf,codigo_municipio,nome_municipio,localizacao,rede,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
0,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Estadual,100.0,35.1,70.6,...,,3.4,6.0,4.2,,,,,,
1,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Municipal,97.9,88.3,88.6,...,11.0,1.2,10.3,6.1,,,,,,
2,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Publico,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
3,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Total,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
4,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Total,Estadual,98.2,83.3,82.0,...,8.2,2.0,9.2,6.1,18.3,12.1,8.4,,,14.1


In [17]:
df_municipios['localizacao'] = df_municipios.localizacao.astype('category')
df_localizacao = df_municipios[[
    'localizacao',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',
]]
df_localizacao = df_localizacao.groupby('localizacao'). mean()
df_localizacao.head()

Unnamed: 0_level_0,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,aprovacao_fundamental_4,aprovacao_fundamental_5,aprovacao_fundamental_6,aprovacao_fundamental_7,aprovacao_fundamental_8,aprovacao_fundamental_9,aprovacao_fundamental_1:5,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
localizacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Rural,94.846063,86.915056,85.554859,88.415854,88.56155,79.073508,83.394576,85.985918,89.519375,88.332337,...,5.23615,2.130268,5.676474,3.004601,12.228783,9.24771,6.02715,6.72551,12.073684,9.719079
Total,96.242314,89.57799,88.257113,90.602716,90.545561,80.7351,83.063811,85.195183,87.078913,90.646913,...,4.941224,1.568586,5.003313,3.10104,12.269891,9.283736,6.516254,5.710033,13.901822,9.838139
Urbana,96.605978,90.042026,88.434791,90.746788,90.597839,80.641993,82.699107,84.856685,86.527746,90.899661,...,4.969642,1.509545,4.967374,3.217923,12.329423,9.353851,6.622767,5.767959,14.344348,9.916634


In [None]:
df_localizacao_tipo = df_municipios[[
    'localizacao', 'tipo',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',
]]
df_localizacao_tipo = df_localizacao_tipo.groupby('localizacao', 'tipo').mean()