### **Seleção de características**

* [**Parte 1**](#parte_1)
    * Definição dos atributos da edição alvo
* [**Parte 2**](#parte_2)
    * Seleção dos dados de cursos desejados em cada arquivo desejado
    * Seleção dos atributos desejados
    * Concatenação dos atributos
    * Ordenação por código do curso
* [**Testes**](#parte_3)
    * Instrospeção das características do conjunto obtido
* [**Download dos microdados**](#download_micro)
    * Função para download dos microdados

In [1]:
import pandas as pd
import os, shutil

### <a name="parte_1"></a> **Parte 1**

#### Edição de 2021

In [4]:
# Edição alvo
edicao_enade = 2021

# Número total de arquivos presentes nos microdados
numero_total_arquivos = 43

# Lista de números de arquivos desejados dessa edição
# Esses são os arquivos que contém as questões do questionário socioeconômico desejadas
# Para conferir, no zip baixado do site do Inep, na pasta LEIA-ME, há uma planilha com a localização de cada questão pelos arquivos
lista_numeros_arquivos = [1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 28, 29]

# Lista de questões do questionário socioeconômico desejadas dessa edição 
lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", "CO_ORGACAD", 
                   "CO_TURNO_GRADUACAO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", "QE_I17", "QE_I18", "NU_IDADE", 
                   "TP_SEXO", "QE_I02", "QE_I01", "QE_I04", "QE_I05", "QE_I08", "QE_I09", "QE_I06", "QE_I07", "QE_I15", "QE_I16", 
                   "QE_I10", "QE_I11", "QE_I22", "QE_I23", "QE_I56", "QE_I57", "QE_I61", "QE_I62", "QE_I38", "QE_I27"]

# Lista de códigos de áreas da computação dessa edição
# 72: ADS
# 4004: BCC
# 6409: GTI
# 4005: LCC
# 79: RC
# 4006: SI
codigo_area_computacao = [72, 4004, 6409, 4005, 79, 4006]

########################################################################
#### Seleção de atributos em comum entre as edições de 2014, 2017 e 2021

In [2]:
for i in range(27, 69):
    print(f'"QE_I{i}", ', end="")

"QE_I27", "QE_I28", "QE_I29", "QE_I30", "QE_I31", "QE_I32", "QE_I33", "QE_I34", "QE_I35", "QE_I36", "QE_I37", "QE_I38", "QE_I39", "QE_I40", "QE_I41", "QE_I42", "QE_I43", "QE_I44", "QE_I45", "QE_I46", "QE_I47", "QE_I48", "QE_I49", "QE_I50", "QE_I51", "QE_I52", "QE_I53", "QE_I54", "QE_I55", "QE_I56", "QE_I57", "QE_I58", "QE_I59", "QE_I60", "QE_I61", "QE_I62", "QE_I63", "QE_I64", "QE_I65", "QE_I66", "QE_I67", "QE_I68", 

In [12]:
lista_numeros_arquivos = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 
                                20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32]

lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", "CO_ORGACAD", 
                   "CO_TURNO_GRADUACAO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", "NU_IDADE", "TP_SEXO",
                   "QE_I01", "QE_I02", "QE_I03", "QE_I04", "QE_I05", "QE_I06", "QE_I07", "QE_I08", "QE_I09", "QE_I10", "QE_I11", 
                   "QE_I12", "QE_I13", "QE_I14", "QE_I15", "QE_I16", "QE_I17", "QE_I18", "QE_I19", "QE_I20", "QE_I21", "QE_I22", 
                   "QE_I23", "QE_I24", "QE_I25", "QE_I26", "QE_I27", "QE_I28", "QE_I29", "QE_I30", "QE_I31", "QE_I32", "QE_I33", 
                   "QE_I34", "QE_I35", "QE_I36", "QE_I37", "QE_I38", "QE_I39", "QE_I40", "QE_I41", "QE_I42", "QE_I43", "QE_I44", 
                   "QE_I45", "QE_I46", "QE_I47", "QE_I48", "QE_I49", "QE_I50", "QE_I51", "QE_I52", "QE_I53", "QE_I54", "QE_I55", 
                   "QE_I56", "QE_I57", "QE_I58", "QE_I59", "QE_I60", "QE_I61", "QE_I62","QE_I63", "QE_I64", "QE_I65", "QE_I66", 
                   "QE_I67", "QE_I68"]

In [13]:
# Para 2014 por causa do atributo CO_TURNO_GRADUACAO: IN_MATUT, IN_VESPER, IN_NOTURNO
lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", "CO_ORGACAD", 
                   "IN_MATUT", "IN_VESPER", "IN_NOTURNO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", "NU_IDADE", "TP_SEXO",
                   "QE_I01", "QE_I02", "QE_I03", "QE_I04", "QE_I05", "QE_I06", "QE_I07", "QE_I08", "QE_I09", "QE_I10", "QE_I11", 
                   "QE_I12", "QE_I13", "QE_I14", "QE_I15", "QE_I16", "QE_I17", "QE_I18", "QE_I19", "QE_I20", "QE_I21", "QE_I22", 
                   "QE_I23", "QE_I24", "QE_I25", "QE_I26", "QE_I27", "QE_I28", "QE_I29", "QE_I30", "QE_I31", "QE_I32", "QE_I33", 
                   "QE_I34", "QE_I35", "QE_I36", "QE_I37", "QE_I38", "QE_I39", "QE_I40", "QE_I41", "QE_I42", "QE_I43", "QE_I44", 
                   "QE_I45", "QE_I46", "QE_I47", "QE_I48", "QE_I49", "QE_I50", "QE_I51", "QE_I52", "QE_I53", "QE_I54", "QE_I55", 
                   "QE_I56", "QE_I57", "QE_I58", "QE_I59", "QE_I60", "QE_I61", "QE_I62","QE_I63", "QE_I64", "QE_I65", "QE_I66", 
                   "QE_I67", "QE_I68"]

########################################################################

#### Edição de 2017

In [6]:
edicao_enade = 2017

numero_total_arquivos = 42

lista_numeros_arquivos = [1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 28, 29]

lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", "CO_ORGACAD", 
                   "CO_TURNO_GRADUACAO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", "QE_I17", "QE_I18", "NU_IDADE", 
                   "TP_SEXO", "QE_I02", "QE_I01", "QE_I04", "QE_I05", "QE_I08", "QE_I09", "QE_I06", "QE_I07", "QE_I15", "QE_I16", 
                   "QE_I10", "QE_I11", "QE_I22", "QE_I23", "QE_I56", "QE_I57", "QE_I61", "QE_I62", "QE_I38", "QE_I27"]

# Lista de códigos de áreas da computação dessa edição
# 72: ADS
# 4004: BCC
# 6409: GTI
# 4003: EC
# 4005: LCC
# 79: RC
# 4006: SI
codigo_area_computacao = [72, 4004, 6409, 4003, 4005, 79, 4006]

#### Edição de 2014

In [8]:
edicao_enade = 2014
    
numero_total_arquivos = 42

lista_numeros_arquivos = [1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 28, 29]

lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_IES", "CO_MUNIC_CURSO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", 
                   "CO_ORGACAD", "IN_MATUT", "IN_VESPER", "IN_NOTURNO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", 
                   "QE_I17", "QE_I18", "NU_IDADE", "TP_SEXO", "QE_I02", "QE_I01", "QE_I04", "QE_I05", "QE_I08", "QE_I09", "QE_I06", 
                   "QE_I07", "QE_I15", "QE_I16", "QE_I10", "QE_I11", "QE_I22", "QE_I23", "QE_I56", "QE_I57", "QE_I61", "QE_I62", 
                   "QE_I38", "QE_I27"]

# Lista de códigos de áreas da computação dessa edição
# 72: ADS
# 4004: BCC
# 5809: EC
# 4005: LCC
# 79: RC
# 4006: SI
codigo_area_computacao = [72, 4004, 5809, 4005, 79, 4006]

#### Edição de 2011

In [10]:
edicao_enade = 2011

numero_total_arquivos = 27

lista_numeros_arquivos = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 15, 16, 18, 19, 20, 21, 23, 24, 25, 26]

lista_atributos = ["NU_ANO", "CO_CURSO", "CO_GRUPO", "CO_UF_CURSO", "CO_REGIAO_CURSO", "CO_CATEGAD", "CO_ORGACAD", "IN_MATUT", 
                   "IN_VESPER", "IN_NOTURNO", "TP_PRES", "NT_FG", "NT_CE", "ANO_FIM_EM", "ANO_IN_GRAD", "QE_I17", "QE_I18", 
                   "NU_IDADE", "TP_SEXO", "QE_I02", "QE_I01", "QE_I09", "QE_I10", "QE_I13", "QE_I14", "QE_I15", "QE_I05", "QE_I06", 
                   "QE_I03", "QE_I04", "QE_I12", "QE_I07", "QE_I19", "QE_I20", "QE_I22", "QE_I26", "QE_I41", "QE_I42", "QE_I52", 
                   "QE_I54"]

# Lista de códigos de áreas da computação dessa edição
# 72: ADS
# 4004: BCC
# 5809: EC
# 4005: LCC
# 79: RC
# 4006: SI
codigo_area_computacao = [72, 4004, 5809, 4005, 79, 4006]

### <a name="parte_2"></a> **Parte 2**

In [11]:
lista_df_arquivos = []

# Percorre cada arquivo
for numero_arquivo in lista_numeros_arquivos:
    
    caminho_arquivo_txt = f'microdados_Enade_{edicao_enade}_LGPD/2.DADOS/microdados{edicao_enade}_arq{numero_arquivo}.txt'
    df_arquivo = pd.read_csv(caminho_arquivo_txt, sep=';')
    
    # Tratamento de erros
    df_arquivo = df_arquivo[df_arquivo["CO_CURSO"] != "DJ1"]
    
    # Ordena arquivo por código de curso
    df_arquivo = df_arquivo.astype({'CO_CURSO':'int'})
    df_arquivo.sort_values("CO_CURSO", inplace = True)
    df_arquivo.reset_index(drop=True, inplace = True)
    
    lista_df_arquivos.append(df_arquivo)
    
# Concatenação dos arquivos
df_arquivos_concatenados = pd.concat(lista_df_arquivos, axis=1)

# Remoção de atributos duplicados
df_arquivos_concatenados = df_arquivos_concatenados.loc[:,~df_arquivos_concatenados.columns.duplicated()]

# Seleção das instâncias de áreas de computação
df_arquivos_concatenados = df_arquivos_concatenados[df_arquivos_concatenados["CO_GRUPO"].isin(codigo_area_computacao)]

# Seleção dos atributos desejados
df_arquivos_concatenados = df_arquivos_concatenados[lista_atributos]

df_arquivos_concatenados.to_csv('./{}.csv'.format(f'computacao_enade_{edicao_enade}'),index=False)

  df_arquivo = pd.read_csv(caminho_arquivo_txt, sep=';')
  df_arquivo = pd.read_csv(caminho_arquivo_txt, sep=';')
  df_arquivo = pd.read_csv(caminho_arquivo_txt, sep=';')


### <a name="parte_3"></a> **Testes**

### <a name="download_micro"></a> **Download dos microdados**

In [None]:
import requests
from zipfile import ZipFile

In [None]:
def baixar_microdados(self, ano_prova_enade):
    url = ""
    arquivo_zip = ""

    if ano_prova_enade == 2021 or ano_prova_enade == 2011:
        url = f"https://download.inep.gov.br/microdados/microdados_enade_{ano_prova_enade}.zip"
        arquivo_zip = f"microdados_enade_{ano_prova_enade}.zip"
    else:
        url = f"https://download.inep.gov.br/microdados/microdados_enade_{ano_prova_enade}_LGPD.zip"
        arquivo_zip = f"microdados_enade_{ano_prova_enade}_LGPD.zip"

    if os.path.exists(arquivo_zip):
        with ZipFile(arquivo_zip, 'r') as zObject:
            zObject.extractall()
        return

    zip_microdados = requests.get(url, verify=False)

    with open(arquivo_zip, 'wb') as arquivo:
        arquivo.write(zip_microdados.content)

    with ZipFile(arquivo_zip, 'r') as zObject:
        zObject.extractall()

In [None]:
def limpar_pasta(self, caminho_pasta):
        for nome_arquivo in os.listdir(caminho_pasta):
            caminho_arquivo = os.path.join(caminho_pasta, nome_arquivo)
            try:
                if os.path.isfile(caminho_arquivo) or os.path.islink(caminho_arquivo):
                    os.unlink(caminho_arquivo)
                elif os.path.isdir(caminho_arquivo):
                    shutil.rmtree(caminho_arquivo)
            except Exception as e:
                print('Failed to delete %s. Reason: %s' % (caminho_arquivo, e))