# Taxa de rendimento no ensino básico brasileiro
Este notebook será usado para fazer análises baseadas no dataframe disponibilizado pelo governo federal sobre o rendimentos dos alunos de diversas escolas espalhadas pelo país e que pode ser verificado através do link http://dados.gov.br/dataset/taxas-de-rendimento-escolar-na-educacao-basica?fbclid=IwAR1k-zIfTDd7K6rWWhIYY9JPyfkjYI8Pm83tY7_K29ZWntVCx5vMGoPCpMM 

O dataset usado é "Taxas - município 2010"
Serão apresentados os dados recolhidos, as hipóteses criadas, bem como se foram validadas ou não e algumas visualizações e inferências importantes. 

In [93]:
import pandas as pd
from unicodedata import normalize 

In [94]:
file = r'data/TX RENDIMENTO MUNICIPIOS 2010.xls'
column_labels = [
    'ano', 'regiao', 'uf', 'codigo_municipio', 'nome_municipio', 'localizacao', 'rede',
    'aprovacao_fundamental_1', 'aprovacao_fundamental_2', 'aprovacao_fundamental_3',
    'aprovacao_fundamental_4', 'aprovacao_fundamental_5', 'aprovacao_fundamental_6',
    'aprovacao_fundamental_7', 'aprovacao_fundamental_8', 'aprovacao_fundamental_9',
    'aprovacao_fundamental_1:5', 'aprovacao_fundamental_6:9', 'aprovacao_fundamental_1:9',
    'aprovacao_medio_1', 'aprovacao_medio_2', 'aprovacao_medio_3', 'aprovacao_medio_4',
    'aprovacao_medio_0', 'aprovacao_medio_0:4',
    'reprovacao_fundamental_1', 'reprovacao_fundamental_2', 'reprovacao_fundamental_3',
    'reprovacao_fundamental_4', 'reprovacao_fundamental_5', 'reprovacao_fundamental_6',
    'reprovacao_fundamental_7', 'reprovacao_fundamental_8', 'reprovacao_fundamental_9',
    'reprovacao_fundamental_1:5', 'reprovacao_fundamental_6:9', 'reprovacao_fundamental_1:9',
    'reprovacao_medio_1', 'reprovacao_medio_2', 'reprovacao_medio_3', 'reprovacao_medio_4',
    'reprovacao_medio_0', 'reprovacao_medio_0:4',
    'abandono_fundamental_1', 'abandono_fundamental_2', 'abandono_fundamental_3',
    'abandono_fundamental_4', 'abandono_fundamental_5', 'abandono_fundamental_6',
    'abandono_fundamental_7', 'abandono_fundamental_8', 'abandono_fundamental_9',
    'abandono_fundamental_1:5', 'abandono_fundamental_6:9', 'abandono_fundamental_1:9',
    'abandono_medio_1', 'abandono_medio_2', 'abandono_medio_3', 'abandono_medio_4',
    'abandono_medio_0', 'abandono_medio_0:4',
]
df_municipios = pd.read_excel(file, skiprows=8, nrows=65460, names=column_labels, na_values='--')

df_municipios.head()

Unnamed: 0,ano,regiao,uf,codigo_municipio,nome_municipio,localizacao,rede,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
0,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Estadual,100.0,35.1,70.6,...,,3.4,6.0,4.2,,,,,,
1,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Municipal,97.9,88.3,88.6,...,11.0,1.2,10.3,6.1,,,,,,
2,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Publico,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
3,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,Total,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
4,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Total,Estadual,98.2,83.3,82.0,...,8.2,2.0,9.2,6.1,18.3,12.1,8.4,,,14.1


In [95]:
normalize_string = lambda x: normalize('NFKD', x.upper()).encode('ASCII','ignore').decode("utf-8")

file = r'data/pib_municipios.xls'
df_pib_municipios = pd.read_excel(file, usecols=[0,5], skiprows=8, names=['local', 'pib'], nrows=5601).dropna()
df_pib_municipios['local'] = df_pib_municipios['local'].apply(normalize_string)

df_pib_municipios.head()

Unnamed: 0,local,pib
0,NORTE,201510700.0
1,RONDONIA,23560640.0
2,ALTA FLORESTA D'OESTE,335643.7
3,ALTO ALEGRE DOS PARECIS,159025.2
4,ALTO PARAISO,201590.4


In [96]:
municipio_to_pib = {
    'AROEIRA DO ITAIM': 'AROEIRAS DO ITAIM',
    'BARRA D ALCANTARA': 'BARRA D\'ALCANTARA',
    'BATAIPORA': 'BATAYPORA',
    'BELA VISTA DO CAROBA': 'BELA VISTA DA CAROBA',
    'BELEM DE SAO FRANCISCO': 'BELEM DO SAO FRANCISCO',
    'CHIAPETA': 'CHIAPETTA',
    'COUTO DE MAGALHAES': 'COUTO MAGALHAES',
    'CUVERLANDIA': 'CURVELANDIA',
    'GOIO-ERE': 'GOIOERE',
    'GOVERNADOR LOMANTO JUNIOR': 'BARRO PRETO',
    'ITAMARACA': 'ILHA DE ITAMARACA',
    'LAGOA DO ITAENGA': 'LAGOA DE ITAENGA',
    'OLHO D AGUA DO PIAUI': 'OLHO D\'AGUA DO PIAUI',
    'OLHOS-D AGUA': 'OLHOS-D\'AGUA',
    'PARATI': 'PARATY',
    'PASSA VINTE': 'PASSA-VINTE',
    'PICARRAS': 'BALNEARIO PICARRAS',
    'PINDARE MIRIM': 'PINDARE-MIRIM',
    'PINGO D AGUA': 'PINGO-D\'AGUA',
    'SANTANA DO LIVRAMENTO': 'SANT\'ANA DO LIVRAMENTO',
    'SAO DOMINGOS DE POMBAL': 'POMBAL',
    'SAO FELIPE D OESTE': 'SAO FELIPE D\'OESTE',
    'SAO VALERIO DA NATIVIDADE': 'SAO VALERIO',
    'SAO VICENTE DO SERIDO': 'SERIDO',
    'SEM PEIXE': 'SEM-PEIXE',
    'TOCOS DO MOGI': 'TOCOS DO MOJI',
    'TRAJANO DE MORAIS': 'TRAJANO DE MORAES'
}

pib_to_municipio = {
    'MOJI MIRIM': 'MOGI MIRIM',
}

df_municipios.replace(municipio_to_pib, inplace=True)
df_pib_municipios.replace(pib_to_municipio, inplace=True)

df_municipios = df_municipios[df_municipios.nome_municipio != 'CAMPO DE SANTANA']

pass

In [97]:
df_municipios = pd.merge(df_municipios, df_pib_municipios, left_on='nome_municipio', right_on='local', how='left')
df_municipios.drop(['local'], axis=1, inplace=True)

cols = df_municipios.columns.tolist()
cols = cols[:6] + cols[-1:] + cols[7:-1]
df_municipios = df_municipios[cols]

df_municipios.head()

Unnamed: 0,ano,regiao,uf,codigo_municipio,nome_municipio,localizacao,pib,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
0,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,335643.702,100.0,35.1,70.6,...,,3.4,6.0,4.2,,,,,,
1,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,335643.702,97.9,88.3,88.6,...,11.0,1.2,10.3,6.1,,,,,,
2,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,335643.702,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
3,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Rural,335643.702,98.1,79.3,86.0,...,11.0,1.6,10.0,6.0,,,,,,
4,2010,Norte,RO,1100015,ALTA FLORESTA D'OESTE,Total,335643.702,98.2,83.3,82.0,...,8.2,2.0,9.2,6.1,18.3,12.1,8.4,,,14.1


In [119]:
mean_func = lambda col: col.mean()
sum_func = lambda col: col.sum()

agg_map = {
    'pib': sum_func,
}
agg_map.update({
    k: mean_func for k in df_municipios.columns.tolist()[7:]
})

df = df_municipios.dropna().groupby('uf').agg(agg_map)
df

Unnamed: 0_level_0,pib,aprovacao_fundamental_1,aprovacao_fundamental_2,aprovacao_fundamental_3,aprovacao_fundamental_4,aprovacao_fundamental_5,aprovacao_fundamental_6,aprovacao_fundamental_7,aprovacao_fundamental_8,aprovacao_fundamental_9,...,abandono_fundamental_9,abandono_fundamental_1:5,abandono_fundamental_6:9,abandono_fundamental_1:9,abandono_medio_1,abandono_medio_2,abandono_medio_3,abandono_medio_4,abandono_medio_0,abandono_medio_0:4
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AL,72684540.0,90.1,87.983333,73.683333,84.883333,82.666667,54.633333,63.5,68.066667,72.0,...,16.3,5.616667,17.833333,12.6,25.633333,19.5,14.9,9.8,3.133333,20.733333
BA,77343740.0,95.5,87.85,72.375,87.25,82.525,64.2,70.375,76.3,76.1,...,7.9,3.7,8.45,6.0,24.1,19.725,16.225,13.15,0.0,20.425
CE,7839876.0,95.05,98.3,82.275,87.1,88.275,77.725,82.525,86.625,90.0,...,5.075,2.4,5.45,3.825,14.5,11.1,8.05,0.0,0.4,11.3
ES,99877180.0,99.6,99.1,89.5,88.9,91.65,78.15,83.15,85.0,89.35,...,2.75,0.8,3.15,1.9,10.3,7.65,5.65,0.0,0.9,7.8
GO,53175690.0,98.3,91.1,92.175,95.025,96.275,87.7,84.525,85.25,85.975,...,7.0,0.95,6.325,3.625,10.3,7.95,8.4,1.65,4.2,9.05
MA,124523600.0,96.259574,94.17234,90.289362,89.312766,90.178723,81.72766,83.634043,85.965957,86.093617,...,6.753191,1.86383,5.087234,3.444681,15.46383,14.448936,10.442553,5.910638,32.702128,13.887234
MG,12305110.0,98.625,90.8,88.1,92.1,94.7,77.6,82.95,85.025,80.3,...,5.8,0.8,5.3,2.85,13.55,12.225,12.025,18.15,7.85,13.075
MT,96494360.0,99.373333,95.463333,93.46,95.333333,96.076667,93.65,97.71,97.68,93.4,...,2.253333,0.353333,1.1,0.723333,13.37,9.86,9.71,0.22,15.18,11.506667
PA,36183720.0,91.8,91.35,77.4,86.35,85.6,71.3,73.5,77.6,74.2,...,6.15,4.75,6.8,5.65,19.9,18.7,18.9,7.0,1.8,19.15
PB,19611170.0,93.1,78.8,85.8,87.0,89.0,72.2,77.1,82.8,84.9,...,5.5,4.1,6.7,5.3,20.5,13.7,11.8,11.1,1.7,15.9
