# ORIENTAÇÕES PARA O IMPORTAÇÃO DOS DADOS
Para importar corretamente a base de dados dos Microdados do Enade é necessário considerar os seguintes requisitos:

• a importação deve considerar o separador ponto e vírgula (;);

• a primeira linha sendo considerada o cabeçalho;

• os decimais devem ser importados em formato de ponto (.);

• considerar os valores faltantes como aspas duplas (“);

• é necessário importar as colunas “DS_VT_ACE_OFG” e “DS_VT_ACE_OCE” como caractere (string).

## Formatacao de CO_CURSO

In [29]:
import pandas as pd

dados = pd.read_csv("microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq1.txt", sep=";", decimal=".", na_values='"', dtype={"DS_VT_ACE_OFG": str, "DS_VT_ACE_OCE": str})

elementos_unicos = dados.groupby("CO_GRUPO")["CO_CURSO"].unique()

curso_mapping = {
    26: "Design",
    72: "Tecnologia em Análise e Desenvolvimento de Sistemas",
    79: "Tecnologia em Redes de Computadores",
    702: "Matemática (Licenciatura)",
    904: "Letras-Português (Licenciatura)",
    905: "Letras-Português e Inglês (Licenciatura)",
    906: "Letras-Português e Espanhol (Licenciatura)",
    1402: "Física (Licenciatura)",
    1501: "Química (Bacharelado)",
    1502: "Química (Licenciatura)",
    1601: "Ciências Biológicas (Bacharelado)",
    1602: "Ciências Biológicas (Licenciatura)",
    2001: "Pedagogia (Licenciatura)",
    2401: "História (Bacharelado)",
    2402: "História (Licenciatura)",
    2501: "Artes Visuais (Licenciatura)",
    3001: "Geografia (Bacharelado)",
    3002: "Geografia (Licenciatura)",
    3201: "Filosofia (Bacharelado)",
    3202: "Filosofia (Licenciatura)",
    3501: "Educação Física (Bacharelado)",
    3502: "Educação Física (Licenciatura)",
    4004: "Ciência Da Computação (Bacharelado)",
    4005: "Ciência Da Computação (Licenciatura)",
    4006: "Sistemas de Informação",
    4301: "Música (Licenciatura)",
    5401: "Ciências Sociais (Bacharelado)",
    5402: "Ciências Sociais (Licenciatura)",
    6407: "Letras-Inglês (Licenciatura)",
    6409: "Tecnologia em Gestão da Tecnologia da Informação"
}

dados_formatados = []

for grupo, cursos in elementos_unicos.items():
    nome_curso = curso_mapping.get(grupo, f"Desconhecido (CO_GRUPO: {grupo})")
    cursos_str = ", ".join(map(str, cursos))
    dados_formatados.append({"CO_GRUPO": grupo, "NOME_CURSO": nome_curso, "CO_CURSO": cursos_str})

df = pd.DataFrame(dados_formatados)

df.to_csv("CO_GRUPO_CO_CURSO.csv", sep=';', index=False, decimal='.', na_rep='"')
print("Dados formatados\nCO_GRUPO->CO_CURSO")


Dados formatados
CO_GRUPO->CO_CURSO


## microdados2021_arq1 
Edição, código de curso e caracterização do curso.

## microdados2021_arq7 - 1 Qual o seu estado civil?

In [37]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i01 = {
        "A": "Solteiro(a)",
        "B": "Casado(a)",
        "C": "Separado(a) judicialmente/divorciado(a)",
        "D": "Viúvo(a)",
        "E": "Outro"
    }

    dados["QE_I01"] = dados["QE_I01"].map(mapeamento_qe_i01)

    contagem_qe_i01 = dados["QE_I01"].value_counts()

    print("\nContagem dos itens em QE_I01:")
    print(contagem_qe_i01)

    dados.to_csv(arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')
   


nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq7.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq7.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)



Contagem dos itens em QE_I01:
Solteiro(a)                                250548
Casado(a)                                  122006
Outro                                       17841
Separado(a) judicialmente/divorciado(a)     16721
Viúvo(a)                                     1870
Name: QE_I01, dtype: int64


## microdados2021_arq8 - 2)Qual é a sua cor ou raça?

In [38]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)
    
    mapeamento_qe_i02 = {
        "A": "Branca",
        "B": "Preta",
        "C": "Amarela",
        "D": "Parda",
        "E": "Indígena",
        "F": "Não quero declarar"
    }

    dados["QE_I02"] = dados["QE_I02"].map(mapeamento_qe_i02)


    contagem_qe_i02 = dados["QE_I02"].value_counts()

    print("\nContagem dos itens em QE_I02:")
    print(contagem_qe_i02)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq8.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq8.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)



Contagem dos itens em QE_I02:
Branca                188287
Parda                 154297
Preta                  47997
Não quero declarar      8682
Amarela                 7846
Indígena                1877
Name: QE_I02, dtype: int64


## microdados2021_arq9 
QE3: Qual a sua nacionalidade?

In [51]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i03 = {
        "A": "Brasileira",
        "B": "Brasileira naturalizada",
        "C": "Estrangeira"
    }

    dados["QE_I03"] = dados["QE_I03"].map(mapeamento_qe_i03)

    contagem_qe_i03 = dados["QE_I03"].value_counts()

    print("\nContagem dos itens em QE_I03:")
    print(contagem_qe_i03)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq9.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq9.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)



Contagem dos itens em QE_I03:
Brasileira                 403872
Brasileira naturalizada      4278
Estrangeira                   830
Name: QE_I03, dtype: int64


## microdados2021_arq10
QE4: Até que etapa de escolarização seu pai concluiu?

In [57]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)


    mapeamento_qe_i04 = {
        "A": "Nenhuma",
        "B": "Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)",
        "C": "Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)",
        "D": "Ensino Médio",
        "E": "Ensino Superior - Graduação",
        "F": "Pós-graduação"
    }

    dados["QE_I04"] = dados["QE_I04"].map(mapeamento_qe_i04)

    contagem_qe_i04 = dados["QE_I04"].value_counts()

    print("\nContagem dos itens em QE_I04:")
    print(contagem_qe_i04)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq10.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq10.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print("----" * 30,"\nArquivo gerado com sucesso")


Contagem dos itens em QE_I04:
Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)    140130
Ensino Médio                                        109307
Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)     60256
Nenhuma                                              43801
Ensino Superior - Graduação                          41201
Pós-graduação                                        14288
Name: QE_I04, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso


## microdados2021_arq11
QE5: Até que etapa de escolarização sua mãe concluiu?

In [58]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i05 = {
        "A": "Nenhuma",
        "B": "Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)",
        "C": "Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)",
        "D": "Ensino Médio",
        "E": "Ensino Superior - Graduação",
        "F": "Pós-graduação"
    }

    dados["QE_I05"] = dados["QE_I05"].map(mapeamento_qe_i05)

    contagem_qe_i05 = dados["QE_I05"].value_counts()

    print("\nContagem dos itens em QE_I05:")
    print(contagem_qe_i05)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')
nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq11.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq11.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print("----" * 30,"\nArquivo gerado com sucesso")


Contagem dos itens em QE_I05:
Ensino Médio                                        123145
Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)    122538
Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)     62290
Ensino Superior - Graduação                          45990
Nenhuma                                              28056
Pós-graduação                                        26965
Name: QE_I05, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso


## microdados2021_arq12
QE6: Onde e com quem você mora atualmente?

In [61]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)


    mapeamento_qe_i06 = {
        "A": "Em casa ou apartamento, sozinho",
        "B": "Em casa ou apartamento, com pais e/ou parentes",
        "C": "Em casa ou apartamento, com cônjuge e/ou filhos",
        "D": "Em casa ou apartamento, com outras pessoas (incluindo república)",
        "E": "Em alojamento universitário da própria instituição",
        "F": "Em outros tipos de habitação individual ou coletiva (hotel, hospedaria, pensão ou outro)"
    }

    dados["QE_I06"] = dados["QE_I06"].map(mapeamento_qe_i06)

    contagem_qe_i06 = dados["QE_I06"].value_counts()

    print("\nContagem dos itens em QE_I06:")
    print(contagem_qe_i06)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq12.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq12.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I06:
Em casa ou apartamento, com pais e/ou parentes                                              184530
Em casa ou apartamento, com cônjuge e/ou filhos                                             175113
Em casa ou apartamento, sozinho                                                              33120
Em casa ou apartamento, com outras pessoas (incluindo república)                             12871
Em outros tipos de habitação individual ou coletiva (hotel, hospedaria, pensão ou outro)      2624
Em alojamento universitário da própria instituição                                             726
Name: QE_I06, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq12.csv


## microdados2021_arq13
QE7: Quantas pessoas da sua família moram com você? Considere seus pais, irmãos, cônjuge, filhos e outros parentes que moram na mesma casa com você.

In [62]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)


    mapeamento_qe_i07 = {
        "A": "Nenhuma",
        "B": "Uma",
        "C": "Duas",
        "D": "Três",
        "E": "Quatro",
        "F": "Cinco",
        "G": "Seis",
        "H": "Sete ou mais"
    }

    dados["QE_I07"] = dados["QE_I07"].map(mapeamento_qe_i07)

    contagem_qe_i07 = dados["QE_I07"].value_counts()

    print("\nContagem dos itens em QE_I07:")
    print(contagem_qe_i07)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq13.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq13.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I07:
Três            102304
Duas            101013
Uma              70005
Quatro           59397
Nenhuma          36419
Cinco            24506
Seis              8909
Sete ou mais      6433
Name: QE_I07, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq13.csv


## microdados2021_arq14
QE8: Qual a renda total de sua família, incluindo seus rendimentos?

In [63]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i08 = {
        "A": "Até 1,5 salário mínimo (até R$ 1.650,00)",
        "B": "De 1,5 a 3 salários mínimos (R$ 1.650,01 a R$ 3.300,00)",
        "C": "De 3 a 4,5 salários mínimos (R$ 3.300,01 a R$ 4.950,00)",
        "D": "De 4,5 a 6 salários mínimos (R$ 4.950,01 a R$ 6.600,00)",
        "E": "De 6 a 10 salários mínimos (R$ 6.600,01 a R$ 11.000,00)",
        "F": "De 10 a 30 salários mínimos (R$ 11.000,01 a R$ 33.000,00)",
        "G": "Acima de 30 salários mínimos (mais de R$ 33.000,00)"
    }

    dados["QE_I08"] = dados["QE_I08"].map(mapeamento_qe_i08)

    contagem_qe_i08 = dados["QE_I08"].value_counts()

    print("\nContagem dos itens em QE_I08:")
    print(contagem_qe_i08)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq14.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq14.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I08:
De 1,5 a 3 salários mínimos (R$ 1.650,01 a R$ 3.300,00)      145965
Até 1,5 salário mínimo (até R$ 1.650,00)                     119435
De 3 a 4,5 salários mínimos (R$ 3.300,01 a R$ 4.950,00)       64285
De 4,5 a 6 salários mínimos (R$ 4.950,01 a R$ 6.600,00)       36710
De 6 a 10 salários mínimos (R$ 6.600,01 a R$ 11.000,00)       29167
De 10 a 30 salários mínimos (R$ 11.000,01 a R$ 33.000,00)     12200
Acima de 30 salários mínimos (mais de R$ 33.000,00)            1224
Name: QE_I08, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq14.csv


## microdados2021_arq15
QE9: Qual alternativa a seguir melhor descreve sua situação financeira (incluindo bolsas)?

In [65]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)
    mapeamento_qe_i09 = {
        "A": "Não tenho renda e meus gastos são financiados por programas governamentais",
        "B": "Não tenho renda e meus gastos são financiados pela minha família ou por outras pessoas",
        "C": "Tenho renda, mas recebo ajuda da família ou de outras pessoas para financiar meus gastos",
        "D": "Tenho renda e não preciso de ajuda para financiar meus gastos",
        "E": "Tenho renda e contribuo com o sustento da família",
        "F": "Sou o principal responsável pelo sustento da família"
    }

    dados["QE_I09"] = dados["QE_I09"].map(mapeamento_qe_i09)

    contagem_qe_i09 = dados["QE_I09"].value_counts()

    print("\nContagem dos itens em QE_I09:")
    print(contagem_qe_i09)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')
nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq15.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq15.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I09:
Tenho renda e contribuo com o sustento da família                                           106830
Tenho renda, mas recebo ajuda da família ou de outras pessoas para financiar meus gastos     95743
Não tenho renda e meus gastos são financiados pela minha família ou por outras pessoas       87602
Tenho renda e não preciso de ajuda para financiar meus gastos                                53573
Sou o principal responsável pelo sustento da família                                         43216
Não tenho renda e meus gastos são financiados por programas governamentais                   22019
Name: QE_I09, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq15.csv


## microdados2021_arq16
QE10: Qual alternativa a seguir melhor descreve sua situação de trabalho (exceto estágio ou bolsas)?

In [66]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i10 = {
        "A": "Não estou trabalhando",
        "B": "Trabalho eventualmente",
        "C": "Trabalho até 20 horas semanais",
        "D": "Trabalho de 21 a 39 horas semanais",
        "E": "Trabalho 40 horas semanais ou mais"
    }

    dados["QE_I10"] = dados["QE_I10"].map(mapeamento_qe_i10)

    contagem_qe_i10 = dados["QE_I10"].value_counts()

    print("\nContagem dos itens em QE_I10:")
    print(contagem_qe_i10)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq16.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq16.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I10:
Trabalho 40 horas semanais ou mais    159415
Não estou trabalhando                 120808
Trabalho de 21 a 39 horas semanais     53434
Trabalho eventualmente                 39016
Trabalho até 20 horas semanais         36312
Name: QE_I10, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq16.csv


## microdados2021_arq17
QE11: Que tipo de bolsa de estudos ou financiamento do curso você recebeu para custear todas ou a maior parte das mensalidades? No caso de haver mais de uma opção, marcar apenas a bolsa de maior duração.

In [68]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i11 = {
        "A": "Nenhum, pois meu curso é gratuito",
        "B": "Nenhum, embora meu curso não seja gratuito",
        "C": "ProUni integral",
        "D": "ProUni parcial, apenas",
        "E": "FIES, apenas",
        "F": "ProUni Parcial e FIES",
        "G": "Bolsa oferecida por governo estadual, distrital ou municipal",
        "H": "Bolsa oferecida pela própria instituição",
        "I": "Bolsa oferecida por outra entidade (empresa, ONG, outra)",
        "J": "Financiamento oferecido pela própria instituição",
        "K": "Financiamento bancário"
    }

    dados["QE_I11"] = dados["QE_I11"].map(mapeamento_qe_i11)

    contagem_qe_i11 = dados["QE_I11"].value_counts()

    print("\nContagem dos itens em QE_I11:")
    print(contagem_qe_i11)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq17.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq17.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I11:
Nenhum, embora meu curso não seja gratuito                      158765
Nenhum, pois meu curso é gratuito                               128043
Bolsa oferecida pela própria instituição                         51640
ProUni integral                                                  25120
Bolsa oferecida por outra entidade (empresa, ONG, outra)         11620
Financiamento oferecido pela própria instituição                  9755
Bolsa oferecida por governo estadual, distrital ou municipal      9471
ProUni parcial, apenas                                            6184
FIES, apenas                                                      5019
Financiamento bancário                                            2465
ProUni Parcial e FIES                                              904
Name: QE_I11, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio

## microdados2021_arq18
QE12: Ao longo da sua trajetória acadêmica, você recebeu algum tipo de auxílio permanência? No caso de haver mais de uma opção, marcar apenas a bolsa de maior duração.

In [70]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i12 = {
        "A": "Nenhum",
        "B": "Auxílio moradia",
        "C": "Auxílio alimentação",
        "D": "Auxílio moradia e alimentação",
        "E": "Auxílio Permanência",
        "F": "Outro tipo de auxílio"
    }

    dados["QE_I12"] = dados["QE_I12"].map(mapeamento_qe_i12)

    contagem_qe_i12 = dados["QE_I12"].value_counts()

    print("\nContagem dos itens em QE_I12:")
    print(contagem_qe_i12)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq18.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq18.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I12:
Nenhum                           365819
Outro tipo de auxílio             16798
Auxílio Permanência               11693
Auxílio alimentação                7825
Auxílio moradia e alimentação      3975
Auxílio moradia                    2872
Name: QE_I12, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq18.csv


## microdados2021_arq19
QE 13: Ao longo da sua trajetória acadêmica, você recebeu algum tipo de bolsa acadêmica? No caso de haver mais de uma opção, marcar apenas a bolsa de maior duração.

In [72]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)
    mapeamento_qe_i13 = {
        "A": "Nenhum",
        "B": "Bolsa de iniciação científica",
        "C": "Bolsa de extensão",
        "D": "Bolsa de monitoria/tutoria",
        "E": "Bolsa PET",
        "F": "Outro tipo de bolsa acadêmica"
    }

    dados["QE_I13"] = dados["QE_I13"].map(mapeamento_qe_i13)

    contagem_qe_i13 = dados["QE_I13"].value_counts()

    print("\nContagem dos itens em QE_I13:")
    print(contagem_qe_i13)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq19.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq19.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)



Contagem dos itens em QE_I13:
Nenhum                           316719
Outro tipo de bolsa acadêmica     40646
Bolsa de iniciação científica     25692
Bolsa de extensão                 14018
Bolsa de monitoria/tutoria         9455
Bolsa PET                          2452
Name: QE_I13, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq19.csv


## microdados2021_arq20
QE14: Durante o curso de graduação você participou de programas e/ou atividades curriculares no exterior?

In [73]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i14 = {
        "A": "Não participei",
        "B": "Sim, Programa Ciência sem Fronteiras",
        "C": "Sim, programa de intercâmbio financiado pelo Governo Federal (Marca; Brafitec; PLI; outro)",
        "D": "Sim, programa de intercâmbio financiado pelo Governo Estadual",
        "E": "Sim, programa de intercâmbio da minha instituição",
        "F": "Sim, outro intercâmbio não institucional"
    }

    dados["QE_I14"] = dados["QE_I14"].map(mapeamento_qe_i14)

    contagem_qe_i14 = dados["QE_I14"].value_counts()

    print("\nContagem dos itens em QE_I14:")
    print(contagem_qe_i14)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq20.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq20.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I14:
Não participei                                                                                404525
Sim, programa de intercâmbio da minha instituição                                               1832
Sim, outro intercâmbio não institucional                                                        1586
Sim, Programa Ciência sem Fronteiras                                                             571
Sim, programa de intercâmbio financiado pelo Governo Federal (Marca; Brafitec; PLI; outro)       277
Sim, programa de intercâmbio financiado pelo Governo Estadual                                    192
Name: QE_I14, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq20.csv


## microdados2021_arq21
QE15: Seu ingresso no curso de graduação se deu por meio de políticas de ação afirmativa ou inclusão social?

In [74]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i15 = {
        "A": "Não",
        "B": "Sim, por critério étnico-racial",
        "C": "Sim, por critério de renda",
        "D": "Sim, por ter estudado em escola pública ou particular com bolsa de estudos",
        "E": "Sim, por sistema que combina dois ou mais critérios anteriores",
        "F": "Sim, por sistema diferente dos anteriores"
    }

    dados["QE_I15"] = dados["QE_I15"].map(mapeamento_qe_i15)

    contagem_qe_i15 = dados["QE_I15"].value_counts()

    print("\nContagem dos itens em QE_I15:")
    print(contagem_qe_i15)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq21.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq21.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I15:
Não                                                                           316680
Sim, por ter estudado em escola pública ou particular com bolsa de estudos     31883
Sim, por critério de renda                                                     21356
Sim, por sistema que combina dois ou mais critérios anteriores                 20217
Sim, por critério étnico-racial                                                11227
Sim, por sistema diferente dos anteriores                                       7616
Name: QE_I15, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq21.csv


## microdados2021_arq22
QE16: Em que unidade da Federação você concluiu o ensino médio?

In [75]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i16 = {
        11: "Rondônia (RO)",
        12: "Acre (AC)",
        13: "Amazonas (AM)",
        14: "Roraima (RR)",
        15: "Pará (PA)",
        16: "Amapá (AP)",
        17: "Tocantins (TO)",
        21: "Maranhão (MA)",
        22: "Piauí (PI)",
        23: "Ceará (CE)",
        24: "Rio Grande do Norte (RN)",
        25: "Paraíba (PB)",
        26: "Pernambuco (PE)",
        27: "Alagoas (AL)",
        28: "Sergipe (SE)",
        29: "Bahia (BA)",
        31: "Minas Gerais (MG)",
        32: "Espírito Santo (ES)",
        33: "Rio de Janeiro (RJ)",
        35: "São Paulo (SP)",
        41: "Paraná (PR)",
        42: "Santa Catarina (SC)",
        43: "Rio Grande do Sul (RS)",
        50: "Mato Grosso do Sul (MS)",
        51: "Mato Grosso (MT)",
        52: "Goiás (GO)",
        53: "Distrito Federal (DF)",
        99: "Não se aplica"
    }

    dados["QE_I16"] = dados["QE_I16"].map(mapeamento_qe_i16)

    contagem_qe_i16 = dados["QE_I16"].value_counts()

    print("\nContagem dos itens em QE_I16:")
    print(contagem_qe_i16)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq22.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq22.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I16:
São Paulo (SP)              92058
Minas Gerais (MG)           41442
Rio de Janeiro (RJ)         32452
Paraná (PR)                 29095
Rio Grande do Sul (RS)      24764
Bahia (BA)                  21706
Pará (PA)                   17791
Pernambuco (PE)             15823
Santa Catarina (SC)         14925
Ceará (CE)                  14382
Goiás (GO)                  12549
Maranhão (MA)               11477
Distrito Federal (DF)        8379
Espírito Santo (ES)          7778
Paraíba (PB)                 7513
Alagoas (AL)                 7250
Piauí (PI)                   6856
Mato Grosso (MT)             6504
Amazonas (AM)                6500
Mato Grosso do Sul (MS)      6224
Rio Grande do Norte (RN)     5685
Rondônia (RO)                3803
Sergipe (SE)                 3674
Tocantins (TO)               2984
Acre (AC)                    2359
Amapá (AP)                   2029
Não se aplica                1688
Roraima (RR)                 1293
Name: QE_I16, dty

## microdados2021_arq23
QE17: Em que tipo de escola você cursou o ensino médio?

In [77]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i17 = {
        "A": "Todo em escola pública",
        "B": "Todo em escola privada (particular)",
        "C": "Todo no exterior",
        "D": "A maior parte em escola pública",
        "E": "A maior parte em escola privada (particular)",
        "F": "Parte no Brasil e parte no exterior"
    }

    dados["QE_I17"] = dados["QE_I17"].map(mapeamento_qe_i17)
    contagem_qe_i17 = dados["QE_I17"].value_counts()


    print("\nContagem dos itens em QE_I17:")
    print(contagem_qe_i17)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq23.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq23.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I17:
Todo em escola pública                          320897
Todo em escola privada (particular)              59656
A maior parte em escola pública                  16192
A maior parte em escola privada (particular)     11479
Parte no Brasil e parte no exterior                441
Todo no exterior                                   316
Name: QE_I17, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq23.csv


## microdados2021_arq24
QE18: Qual modalidade de ensino médio você concluiu?

In [78]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)


    mapeamento_qe_i18 = {
        "A": "Ensino médio tradicional",
        "B": "Profissionalizante técnico (eletrônica, contabilidade, agrícola, outro)",
        "C": "Profissionalizante magistério (Curso Normal)",
        "D": "Educação de Jovens e Adultos (EJA) e/ou Supletivo",
        "E": "Outra modalidade"
    }

    dados["QE_I18"] = dados["QE_I18"].map(mapeamento_qe_i18)

    contagem_qe_i18 = dados["QE_I18"].value_counts()

    print("\nContagem dos itens em QE_I18:")
    print(contagem_qe_i18)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq24.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq24.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I18:
Ensino médio tradicional                                                   314090
Educação de Jovens e Adultos (EJA) e/ou Supletivo                           34004
Profissionalizante técnico (eletrônica, contabilidade, agrícola, outro)     31516
Profissionalizante magistério (Curso Normal)                                23706
Outra modalidade                                                             5662
Name: QE_I18, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq24.csv


## microdados2021_arq25
QE19: Quem lhe deu maior incentivo para cursar a graduação?

In [79]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i19 = {
        "A": "Ninguém",
        "B": "Pais",
        "C": "Outros membros da família que não os pais",
        "D": "Professores",
        "E": "Líder ou representante religioso",
        "F": "Colegas/Amigos",
        "G": "Outras pessoas"
    }

    dados["QE_I19"] = dados["QE_I19"].map(mapeamento_qe_i19)

    contagem_qe_i19 = dados["QE_I19"].value_counts()

    print("\nContagem dos itens em QE_I19:")
    print(contagem_qe_i19)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq25.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq25.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I19:
Pais                                         209219
Ninguém                                       80786
Outros membros da família que não os pais     51249
Colegas/Amigos                                29001
Professores                                   18932
Outras pessoas                                17879
Líder ou representante religioso               1914
Name: QE_I19, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq25.csv


## microdados2021_arq26
QE20: Algum dos grupos abaixo foi determinante para você enfrentar dificuldades durante seu curso superior e concluí-lo?

In [80]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i20 = {
        "A": "Não tive dificuldade",
        "B": "Não recebi apoio para enfrentar dificuldades",
        "C": "Pais",
        "D": "Avós",
        "E": "Irmãos, primos ou tios",
        "F": "Líder ou representante religioso",
        "G": "Colegas de curso ou amigos",
        "H": "Professores do curso",
        "I": "Profissionais do serviço de apoio ao estudante da IES",
        "J": "Colegas de trabalho",
        "K": "Outro grupo"
    }

    dados["QE_I20"] = dados["QE_I20"].map(mapeamento_qe_i20)

    contagem_qe_i20 = dados["QE_I20"].value_counts()

    print("\nContagem dos itens em QE_I20:")
    print(contagem_qe_i20)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq26.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq26.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I20:
Não tive dificuldade                                     125361
Pais                                                     116024
Colegas de curso ou amigos                                46028
Outro grupo                                               40520
Não recebi apoio para enfrentar dificuldades              36095
Professores do curso                                      18134
Irmãos, primos ou tios                                    11380
Colegas de trabalho                                        6928
Avós                                                       5200
Líder ou representante religioso                           1673
Profissionais do serviço de apoio ao estudante da IES      1637
Name: QE_I20, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq26.csv


## microdados2021_arq27
QE21: Alguém em sua família concluiu um curso superior?

In [81]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i21 = {
        "A": "Sim",
        "B": "Não"
    }

    dados["QE_I21"] = dados["QE_I21"].map(mapeamento_qe_i21)

    contagem_qe_i21 = dados["QE_I21"].value_counts()

    print("\nContagem dos itens em QE_I21:")
    print(contagem_qe_i21)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq27.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq27.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I21:
Sim    257775
Não    151205
Name: QE_I21, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq27.csv


## microdados2021_arq28
QE22: Excetuando-se os livros indicados na bibliografia do seu curso, quantos livros você leu neste ano?

In [82]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i22 = {
        "A": "Nenhum",
        "B": "Um ou dois",
        "C": "De três a cinco",
        "D": "De seis a oito",
        "E": "Mais de oito"
    }

    dados["QE_I22"] = dados["QE_I22"].map(mapeamento_qe_i22)

    contagem_qe_i22 = dados["QE_I22"].value_counts()

    print("\nContagem dos itens em QE_I22:")
    print(contagem_qe_i22)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq28.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq28.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I22:
Um ou dois         151812
De três a cinco    116892
Nenhum              58313
Mais de oito        46324
De seis a oito      35637
Name: QE_I22, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq28.csv


## microdados2021_arq29
QE23: Quantas horas por semana, aproximadamente, você dedicou aos estudos, excetuando as horas de aula?

In [83]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i23 = {
        "A": "Nenhuma, apenas assisto às aulas",
        "B": "De uma a três",
        "C": "De quatro a sete",
        "D": "De oito a doze",
        "E": "Mais de doze"
    }

    dados["QE_I23"] = dados["QE_I23"].map(mapeamento_qe_i23)

    contagem_qe_i23 = dados["QE_I23"].value_counts()

    print("\nContagem dos itens em QE_I23:")
    print(contagem_qe_i23)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq29.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq29.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I23:
De uma a três                       188802
De quatro a sete                    119991
De oito a doze                       45401
Mais de doze                         32454
Nenhuma, apenas assisto às aulas     22329
Name: QE_I23, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq29.csv


## microdados2021_arq30
QE24: Você teve oportunidade de aprendizado de idioma estrangeiro na Instituição?

In [84]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i24 = {
        "A": "Sim, somente na modalidade presencial",
        "B": "Sim, somente na modalidade semipresencial",
        "C": "Sim, parte na modalidade presencial e parte na modalidade semipresencial",
        "D": "Sim, na modalidade a distância",
        "E": "Não"
    }

    dados["QE_I24"] = dados["QE_I24"].map(mapeamento_qe_i24)

    contagem_qe_i24 = dados["QE_I24"].value_counts()

    print("\nContagem dos itens em QE_I24:")
    print(contagem_qe_i24)

    dados.to_csv(nome_arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq30.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq30.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"----" * 30,"\nArquivo gerado com sucesso no diretorio",nome_arquivo_saida)


Contagem dos itens em QE_I24:
Não                                                                         297354
Sim, na modalidade a distância                                               50322
Sim, somente na modalidade presencial                                        41315
Sim, parte na modalidade presencial e parte na modalidade semipresencial     15912
Sim, somente na modalidade semipresencial                                     4071
Name: QE_I24, dtype: int64
------------------------------------------------------------------------------------------------------------------------ 
Arquivo gerado com sucesso no diretorio dados_form/saida_microdados2021_arq30.csv


## microdados2021_arq31
QE25: Qual o principal motivo para você ter escolhido este curso?

In [85]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i25 = {
        "A": "Inserção no mercado de trabalho",
        "B": "Influência familiar",
        "C": "Valorização profissional",
        "D": "Prestígio Social",
        "E": "Vocação",
        "F": "Oferecido na modalidade a distância",
        "G": "Baixa concorrência para ingresso",
        "H": "Outro motivo"
    }

    dados["QE_I25"] = dados["QE_I25"].map(mapeamento_qe_i25)

    contagem_qe_i25 = dados["QE_I25"].value_counts()

    print("\nContagem dos itens em QE_I25:")
    print(contagem_qe_i25)

    dados.to_csv(arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq31.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq31.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"{'----' * 30}\nArquivo gerado com sucesso no diretório {nome_arquivo_saida}")



Contagem dos itens em QE_I25:
Vocação                                148751
Inserção no mercado de trabalho         92504
Outro motivo                            72128
Valorização profissional                44697
Influência familiar                     27163
Oferecido na modalidade a distância     14444
Baixa concorrência para ingresso         6200
Prestígio Social                         3089
Name: QE_I25, dtype: int64
------------------------------------------------------------------------------------------------------------------------
Arquivo gerado com sucesso no diretório dados_form/saida_microdados2021_arq31.csv


## microdados2021_arq32
QE26: Qual a principal razão para você ter escolhido a sua instituição de educação superior?

In [88]:
import pandas as pd

def formatar_dados(arquivo_entrada, arquivo_cursos, arquivo_saida):
    cursos_df = pd.read_csv(arquivo_cursos, sep=';', dtype={"CO_GRUPO": int, "NOME_CURSO": str, "CO_CURSO": str})
    cursos_mapping = {}

    for index, row in cursos_df.iterrows():
        grupo = row["CO_GRUPO"]
        nome_curso = row["NOME_CURSO"]
        cursos = row["CO_CURSO"].split(', ')
        for curso in cursos:
            cursos_mapping[curso] = nome_curso

    dados = pd.read_csv(arquivo_entrada, sep=';', decimal='.', na_values='"')

    dados["CO_CURSO"] = dados["CO_CURSO"].astype(str)
    dados["CO_CURSO"] = dados["CO_CURSO"].map(cursos_mapping)

    mapeamento_qe_i26 = {
        "A": "Gratuidade",
        "B": "Preço da mensalidade",
        "C": "Proximidade da minha residência",
        "D": "Proximidade do meu trabalho",
        "E": "Facilidade de acesso",
        "F": "Qualidade/reputação",
        "G": "Foi a única onde tive aprovação",
        "H": "Possibilidade de ter bolsa de estudo",
        "I": "Outro motivo"
    }

    dados["QE_I26"] = dados["QE_I26"].map(mapeamento_qe_i26)

    contagem_qe_i26 = dados["QE_I26"].value_counts()

    print("\nContagem dos itens em QE_I26:")
    print(contagem_qe_i26)

    dados.to_csv(arquivo_saida, sep=';', index=False, decimal='.', na_rep='"')

nome_arquivo_entrada = "microdados_Enade_2021_LGPD/2.DADOS/microdados2021_arq32.txt"
nome_arquivo_cursos = "CO_GRUPO_CO_CURSO.csv"
nome_arquivo_saida = "dados_form/saida_microdados2021_arq32.csv"

formatar_dados(nome_arquivo_entrada, nome_arquivo_cursos, nome_arquivo_saida)

print(f"{'----' * 30}\nArquivo gerado com sucesso no diretório {nome_arquivo_saida}")



Contagem dos itens em QE_I26:
Qualidade/reputação                     114240
Preço da mensalidade                     72890
Gratuidade                               71538
Proximidade da minha residência          51244
Outro motivo                             35788
Facilidade de acesso                     33663
Possibilidade de ter bolsa de estudo     20036
Foi a única onde tive aprovação           5248
Proximidade do meu trabalho               4329
Name: QE_I26, dtype: int64
------------------------------------------------------------------------------------------------------------------------
Arquivo gerado com sucesso no diretório dados_form/saida_microdados2021_arq32.csv
