# Taxa de rendimento no ensino básico brasileiro
Este notebook será usado para fazer análises baseadas no dataframe disponibilizado pelo governo federal sobre o rendimentos dos alunos de diversas escolas espalhadas pelo país e que pode ser verificado através do link http://dados.gov.br/dataset/taxas-de-rendimento-escolar-na-educacao-basica?fbclid=IwAR1k-zIfTDd7K6rWWhIYY9JPyfkjYI8Pm83tY7_K29ZWntVCx5vMGoPCpMM 

O dataset usado é "Taxas - município 2010"
Serão apresentados os dados recolhidos, as hipóteses criadas, bem como se foram validadas ou não e algumas visualizações e inferências importantes. 

In [1]:
import pandas as pd

In [15]:
file = r'data/TX RENDIMENTO MUNICIPIOS 2010.xls'
column_labels = [
    'ano', 'regiao', 'uf', 'codigo_municipio', 'nome_municipio', 'localizacao', 'rede',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',
]
df_municipios = pd.read_excel(file, skiprows=8, nrows=65460, names=column_labels, na_values='--')

df_municipios.head()
#df_municipios.dtypes

Unnamed: 0,ano,regiao,uf,codigo_municipio,nome_municipio,localizacao,rede,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
0,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Estadual,100.0,35.1,70.6,...,,3.4,6.0,4.2,,,,,,
1,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Municipal,97.9,88.3,88.6,...,11.0,1.2,10.3,6.1,,,,,,
2,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Publico,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
3,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Total,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
4,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Total,Estadual,98.2,83.3,82.0,...,8.2,2.0,9.2,6.1,18.3,12.1,8.4,,,14.1


In [28]:
df_municipios['rede'] = df_municipios.rede.astype('category')
df_rede = df_municipios[[ 'rede', 'regiao',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',]]
df_rede = df_rede.groupby('rede', as_index=True)
df_rede.mean()


Unnamed: 0_level_0,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,aprovacao_fundamental_4,aprovacao_fundamental_5,aprovacao_fundamental_6,aprovacao_fundamental_7,aprovacao_fundamental_8,aprovacao_fundamental_9,aprovacao_fundamental_1:5,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
rede,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Estadual,96.533235,90.259234,89.579253,90.837876,89.845971,81.612306,83.166515,84.45941,85.536461,90.70727,...,5.194176,1.93722,5.085346,4.260111,13.453861,10.188916,7.170227,6.256993,15.669558,10.851138
Federal,98.3,97.007143,96.692308,94.833333,91.721429,87.481818,88.140909,91.504545,89.772727,95.1875,...,0.340909,0.375,0.222727,0.312,3.337867,1.534304,1.043929,1.370455,2.05,2.44
Municipal,95.643252,87.523533,85.688743,88.700341,88.872637,75.602482,79.84946,83.703668,87.59663,88.869416,...,5.756876,1.86071,6.198239,2.866793,15.62528,12.218534,6.821053,6.107732,16.85,11.189116
Particular,97.840466,97.454024,97.837125,98.044119,97.844552,95.620373,95.578686,95.800873,96.159216,97.82757,...,0.296531,0.260752,0.304648,0.307211,0.949093,0.729698,0.568828,2.113131,1.285366,0.774399
Publico,95.776611,88.067463,86.337431,89.223003,89.307796,79.206077,82.072703,84.405729,86.596823,89.241397,...,5.384995,1.812236,5.528295,3.359593,13.388914,10.142765,7.100937,6.025889,14.943857,10.779875
Total,95.872143,88.419772,86.756902,89.549034,89.637801,79.625022,82.450544,84.752078,86.927995,89.571293,...,5.235655,1.745753,5.391338,3.252712,13.055989,9.837757,6.861858,5.706576,13.625786,10.475472


In [39]:
df_escolaridade = df_municipios[[ 'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4']]
df_escolaridade.mean().sort_values()

abandono_fundamental_3         1.524120
abandono_fundamental_1         1.541904
abandono_fundamental_2         1.609408
abandono_fundamental_1:5       1.688419
abandono_fundamental_4         1.752707
abandono_fundamental_5         1.989004
reprovacao_fundamental_1       2.435419
reprovacao_medio_4             2.816373
abandono_fundamental_1:9       3.121477
reprovacao_medio_3             4.413767
abandono_fundamental_7         4.872490
abandono_fundamental_9         5.010458
abandono_fundamental_8         5.113211
abandono_fundamental_6:9       5.124926
abandono_fundamental_6         5.210262
abandono_medio_4               5.773264
abandono_medio_3               6.522173
reprovacao_medio_0             6.856365
reprovacao_fundamental_9       7.649288
reprovacao_medio_2             7.652264
reprovacao_fundamental_5       7.941823
reprovacao_fundamental_4       8.140979
reprovacao_fundamental_1:5     8.154980
reprovacao_medio_0:4           8.760409
abandono_medio_2               9.312268


In [38]:
df_escolaridade_rep_ab =  df_municipios[[
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4']]
df_escolaridade_rep_ab.mean().sort_values()

abandono_fundamental_3         1.524120
abandono_fundamental_1         1.541904
abandono_fundamental_2         1.609408
abandono_fundamental_1:5       1.688419
abandono_fundamental_4         1.752707
abandono_fundamental_5         1.989004
reprovacao_fundamental_1       2.435419
reprovacao_medio_4             2.816373
abandono_fundamental_1:9       3.121477
reprovacao_medio_3             4.413767
abandono_fundamental_7         4.872490
abandono_fundamental_9         5.010458
abandono_fundamental_8         5.113211
abandono_fundamental_6:9       5.124926
abandono_fundamental_6         5.210262
abandono_medio_4               5.773264
abandono_medio_3               6.522173
reprovacao_medio_0             6.856365
reprovacao_fundamental_9       7.649288
reprovacao_medio_2             7.652264
reprovacao_fundamental_5       7.941823
reprovacao_fundamental_4       8.140979
reprovacao_fundamental_1:5     8.154980
reprovacao_medio_0:4           8.760409
abandono_medio_2               9.312268
