# Estudo retrospectivo de desempenho acadêmico no Ensino Superior Nacional 
## Sob ponto de vista de sexo do participante considerando aspectos socioeconômicos

In [20]:
## Import libraries
import scipy.stats
import statsmodels.stats.power as smp
import matplotlib.pyplot as plt
import os 
import warnings
warnings.filterwarnings('ignore')

In [3]:
power_analysis = smp.TTestIndPower()
sample_size = power_analysis.solve_power(effect_size=0.75, power=0.7, alpha=0.1)
sample_size

17.44423637160863

## Importação dos dados
Os dados utilizados são dos ENADEs feitos de 2010 a 2019 no Brasil.

In [9]:
## Get list of files in "Dados/ENADE" directory
files = os.listdir("Dados/ENADE")

## Get list of csv or txt data, excluding year 2009
enade_list = [enade for enade in files 
              if ((".csv" in enade) or (".txt" in enade)) 
              and ("2009" not in enade)]

# enade_list

In [10]:
## Get list of years
anos = [ano.split("_")[2].split(".")[0] for ano in enade_list]
# anos

In [16]:
## Get dictionary of ENADE data, indexed by year (data not yet included)
dados_enade_completo = {ano: None for ano in anos}
colunas = {ano: None for ano in anos}

## Segmentação e filtragem

In [21]:
import pandas as pd

## List of columns
colunas['2010'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I13', 'QE_I14', 'QE_I03', 'QE_I05', 'QE_I06', 'QE_I07', 'QE_I12', 'QE_I18', 'QE_I01', 'QE_I20', 'ANO_FIM_2G']
colunas['2011'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I13', 'QE_I14', 'QE_I03', 'QE_I05', 'QE_I06', 'QE_I07', 'QE_I12', 'QE_I18', 'QE_I01', 'QE_I20', 'ANO_FIM_2G']
colunas['2012'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I13', 'QE_I14', 'QE_I03', 'QE_I05', 'QE_I06', 'QE_I07', 'QE_I12', 'QE_I18', 'QE_I01', 'QE_I20', 'ANO_FIM_2G']
colunas['2013'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I07', 'QE_I08', 'QE_I09', 'QE_I14', 'QE_I16', 'QE_I01', 'QE_I22', 'ANO_FIM_2G']
colunas['2014'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I21', 'QE_I23', 'ANO_FIM_2G']
colunas['2015'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I21', 'QE_I23', 'ANO_FIM_2G']
colunas['2016'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I21', 'QE_I23', 'ANO_FIM_2G']
colunas['2017'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I21', 'QE_I23', 'ANO_FIM_EM']
colunas['2018'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I21', 'QE_I23', 'ANO_FIM_EM']
colunas['2019'] = ['CO_MODALIDADE', 'TP_SEXO', 'NT_GER', 'QE_I02', 'QE_I04', 'QE_I05', 'QE_I06', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I15', 'QE_I17', 'QE_I01', 'QE_I23', 'ANO_FIM_EM']

for enade in enade_list:
  ## Get year
  ano = enade.split("_")[2].split(".")[0]
  ## Store data in dictionary indexed by year
  if ano == '2010' or ano == '2011' or ano == '2012' or ano == '2013' or ano == '2014' or ano == '2015' or ano == '2016':
    dados_enade_completo[ano] = pd.read_csv("Dados/ENADE/" + enade, encoding= 'unicode_escape', delimiter=';', decimal = '.', usecols=colunas[ano], low_memory=False)
  else:
    dados_enade_completo[ano] = pd.read_csv("Dados/ENADE/" + enade, encoding= 'unicode_escape', delimiter=';', decimal = ',', usecols=colunas[ano], low_memory=False)
  # print(len(dados_enade_completo[ano]))
  
novos_nomes = ['MODALIDADE', 'SEXO', 'NOTA', 'Q01', 'Q02', 'Q03', 'Q04', 'Q05', 'Q06', 'Q07', 'Q08', 'Q09', 'Q10', 'Q11', 'Q12']

for ano in anos:
    for item in range(0, len(novos_nomes)):
        dados_enade_completo[ano].rename(columns={colunas[ano][item]: novos_nomes[item]}, inplace=True)

dados_enade = {ano: dados_enade_completo[ano].dropna() for ano in anos}

# Corrigir labels de modalidade do ano de 2018 (0: EAD, 1: Presencial)
dados_enade['2018']["MODALIDADE"].replace({2: 0}, inplace=True)
print('Finalizado!')

Finalizado!
