##Extração de Respostas e Cursos do ENADE

Neste colab, o intuito é extrair as respostas dos usuários com base nos cursos de TI.

Com base nas extrações no CENSO que foram feitas.

In [20]:
import pandas as pd
import glob
import os

# Caminhos manuais para cada ano
microdados_2014 = '/content/drive/MyDrive/EDM 2025.1/DATASETS/ENADE/2014/microdados2014_arq1.txt'
microdados_2017 = '/content/drive/MyDrive/EDM 2025.1/DATASETS/ENADE/2017/microdados2017_arq1.txt'
microdados_2021 = '/content/drive/MyDrive/EDM 2025.1/DATASETS/ENADE/2021/microdados2021_arq1.txt'

In [22]:
df2014 = pd.read_csv(microdados_2014, sep=';', encoding='latin1', low_memory=False)
df2017 = pd.read_csv(microdados_2017, sep=';', encoding='latin1', low_memory=False)
df2021 = pd.read_csv(microdados_2021, sep=';', encoding='latin1', low_memory=False)

### Averiguada em 2014

In [3]:
df2014

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
0,2014,10,1,1,10028,6405,1,5103403,51,5
1,2014,10,1,1,10028,6405,1,5103403,51,5
2,2014,10,1,1,10028,6405,1,5103403,51,5
3,2014,10,1,1,10028,6405,1,5103403,51,5
4,2014,10,1,1,10028,6405,1,5103403,51,5
...,...,...,...,...,...,...,...,...,...,...
481713,2014,DJ1,DJ1,4,10022,904,1,DJ1,41,4
481714,2014,DJ1,DJ1,4,10022,904,1,DJ1,41,4
481715,2014,DJ1,DJ1,4,10022,904,1,DJ1,41,4
481716,2014,DJ1,DJ1,4,10022,904,1,DJ1,41,4


Ocorrências de DJ1 (?), que não sei de onde vem.

In [4]:
ocorrencias_dj1 = {}

for col in df2014.columns:
    count = df2014[col].value_counts().get('DJ1', 0)
    if count > 0:
        ocorrencias_dj1[col] = count

print("📊 Contagem de 'DJ1' por coluna:")
for coluna, qtde in sorted(ocorrencias_dj1.items(), key=lambda x: -x[1]):
    print(f"- {coluna}: {qtde} ocorrência(s)")

📊 Contagem de 'DJ1' por coluna:
- CO_CURSO: 23 ocorrência(s)
- CO_IES: 23 ocorrência(s)
- CO_MUNIC_CURSO: 23 ocorrência(s)


In [5]:
print(f"🔍 Tamanho total do DataFrame: {df2014.shape[0]} linhas, {df2014.shape[1]} colunas")

duplicadas = df2014.duplicated().sum()
print(f"📌 Linhas duplicadas (todas as colunas idênticas): {duplicadas}")

cursos_unicos = df2014['CO_CURSO'].nunique()
print(f"🎓 Quantidade de CO_CURSO únicos: {cursos_unicos}")

cursos_nordeste_unicos = df2014[df2014['CO_REGIAO_CURSO'] == 2]['CO_CURSO'].nunique()
print(f"🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): {cursos_nordeste_unicos}")

🔍 Tamanho total do DataFrame: 481718 linhas, 10 colunas
📌 Linhas duplicadas (todas as colunas idênticas): 471755
🎓 Quantidade de CO_CURSO únicos: 9963
🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): 2005


In [7]:
df_nordeste = df2014[df2014['CO_REGIAO_CURSO'] == 2]
cursos_nordeste_unicos = df_nordeste[['CO_CURSO', 'CO_REGIAO_CURSO']].drop_duplicates()
print(f"📋 Total de cursos únicos na Região Nordeste: {len(cursos_nordeste_unicos)}")
cursos_nordeste_unicos

📋 Total de cursos únicos na Região Nordeste: 2005


Unnamed: 0,CO_CURSO,CO_REGIAO_CURSO
301,100021,2
403,100075,2
495,1001031,2
523,100105,2
1219,100244,2
...,...,...
477292,99831,2
477479,99860,2
477860,99892,2
477895,99896,2


In [8]:
codigo_alvo = '118420' #Sistemas de Informação na UFRPE

if codigo_alvo in cursos_nordeste_unicos['CO_CURSO'].values:
    print(f"✅ O curso {codigo_alvo} está presente na lista de cursos do Nordeste.")
    display(cursos_nordeste_unicos[cursos_nordeste_unicos['CO_CURSO'] == codigo_alvo])
else:
    print(f"❌ O curso {codigo_alvo} NÃO está presente na lista de cursos do Nordeste.")

✅ O curso 118420 está presente na lista de cursos do Nordeste.


Unnamed: 0,CO_CURSO,CO_REGIAO_CURSO
148164,118420,2


### Averiguada 2017

In [9]:
df2017

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
0,2017,3,1,1,10028,5710,1,5103403,51,5
1,2017,3,1,1,10028,5710,1,5103403,51,5
2,2017,3,1,1,10028,5710,1,5103403,51,5
3,2017,3,1,1,10028,5710,1,5103403,51,5
4,2017,3,1,1,10028,5710,1,5103403,51,5
...,...,...,...,...,...,...,...,...,...,...
537353,2017,5001385,21,5,10028,6407,1,4314902,43,4
537354,2017,5001385,21,5,10028,6407,1,4314902,43,4
537355,2017,5001385,21,5,10028,6407,1,4314902,43,4
537356,2017,5001385,21,5,10028,6407,1,4314902,43,4


In [31]:
print(f"🔍 Tamanho total do DataFrame: {df2017.shape[0]} linhas, {df2017.shape[1]} colunas")

duplicadas = df2017.duplicated().sum()
print(f"📌 Linhas duplicadas (todas as colunas idênticas): {duplicadas}")

cursos_unicos = df2017['CO_CURSO'].nunique()
print(f"🎓 Quantidade de CO_CURSO únicos: {cursos_unicos}")

cursos_nordeste_unicos = df2017[df2017['CO_REGIAO_CURSO'] == 2]['CO_CURSO'].nunique()
print(f"🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): {cursos_nordeste_unicos}")

🔍 Tamanho total do DataFrame: 537358 linhas, 10 colunas
📌 Linhas duplicadas (todas as colunas idênticas): 526787
🎓 Quantidade de CO_CURSO únicos: 10571
🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): 1997


### Averiguada 2021

In [33]:
df2021

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
0,2021,6,1,1,10028,2001,1,5103403,51,5
1,2021,6,1,1,10028,2001,1,5103403,51,5
2,2021,6,1,1,10028,2001,1,5103403,51,5
3,2021,6,1,1,10028,2001,1,5103403,51,5
4,2021,6,1,1,10028,2001,1,5103403,51,5
...,...,...,...,...,...,...,...,...,...,...
489861,2021,5001459,3996,5,10022,72,1,2611606,26,2
489862,2021,5001459,3996,5,10022,72,1,2611606,26,2
489863,2021,5001459,3996,5,10022,72,1,2611606,26,2
489864,2021,5001459,3996,5,10022,72,1,2611606,26,2


In [34]:
print(f"🔍 Tamanho total do DataFrame: {df2021.shape[0]} linhas, {df2021.shape[1]} colunas")

duplicadas = df2021.duplicated().sum()
print(f"📌 Linhas duplicadas (todas as colunas idênticas): {duplicadas}")

cursos_unicos = df2021['CO_CURSO'].nunique()
print(f"🎓 Quantidade de CO_CURSO únicos: {cursos_unicos}")

cursos_nordeste_unicos = df2021[df2021['CO_REGIAO_CURSO'] == 2]['CO_CURSO'].nunique()
print(f"🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): {cursos_nordeste_unicos}")

🔍 Tamanho total do DataFrame: 489866 linhas, 10 colunas
📌 Linhas duplicadas (todas as colunas idênticas): 481869
🎓 Quantidade de CO_CURSO únicos: 7997
🌎 Quantidade de CO_CURSO únicos na Região Nordeste (CO_REGIAO_CURSO == 2): 1797


## Carregamento do arq1 do ENADE de todos os anos + Extração do Nordeste

In [10]:
def extrair_cursos_nordeste(caminho, ano):
    try:
        df = pd.read_csv(caminho, sep=';', encoding='latin1', low_memory=False)

        colunas = ['NU_ANO', 'CO_CURSO', 'CO_IES', 'CO_CATEGAD', 'CO_ORGACAD',
                   'CO_GRUPO', 'CO_MODALIDADE', 'CO_MUNIC_CURSO', 'CO_UF_CURSO', 'CO_REGIAO_CURSO']

        df_filtrado = df[colunas].copy()
        df_nordeste = df_filtrado[df_filtrado['CO_REGIAO_CURSO'] == 2]
        df_unico = df_nordeste.drop_duplicates()

        caminho_saida = f'/content/cursos_nordeste_{ano}.csv'
        df_unico.to_csv(caminho_saida, index=False, sep=';')

        print(f'✅ Salvo: {caminho_saida} ({len(df_unico)} cursos únicos)')

    except Exception as e:
        print(f'❌ Erro no ano {ano}: {e}')


In [11]:
extrair_cursos_nordeste(microdados_2014, 2014)
extrair_cursos_nordeste(microdados_2017, 2017)
extrair_cursos_nordeste(microdados_2021, 2021)

✅ Salvo: /content/cursos_nordeste_2014.csv (2005 cursos únicos)
✅ Salvo: /content/cursos_nordeste_2017.csv (1997 cursos únicos)
✅ Salvo: /content/cursos_nordeste_2021.csv (1797 cursos únicos)


## Leitura do Nordeste 2014

In [12]:
extracao_nordeste2014 = '/content/cursos_nordeste_2014.csv'
extract2014 = pd.read_csv(extracao_nordeste2014, sep=';', encoding='latin1', low_memory=False)

In [13]:
extract2014

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
0,2014,100021,583,1,10028,4301,1,2304400,23,2
1,2014,100075,71,2,10028,4004,1,2411205,24,2
2,2014,1001031,10588,5,10022,2402,1,2613701,26,2
3,2014,100105,71,2,10028,4004,1,2408300,24,2
4,2014,100244,1082,1,10026,72,1,2408102,24,2
...,...,...,...,...,...,...,...,...,...,...
2000,2014,99831,2402,4,10022,2001,1,2927408,29,2
2001,2014,99860,5,1,10028,1602,1,2208007,22,2
2002,2014,99892,570,1,10028,1402,0,2408102,24,2
2003,2014,99896,570,1,10028,1502,0,2408102,24,2


## Filtragem de Cursos de Computação no Nordeste

In [19]:
codigos_filtrar = [72, 79, 4004, 4005, 4006, 4609, 5809]
#72 - Tecnologia em Análise e Desenvolvimento de Sistemas
#79 - Tecnologia em Redes de Computadores
#4004 - Ciência da Computação
#4005 - Ciência da Computação (Licenciatura)
#4006 - Sistemas de Informação
#6409 - Tecnologia em Gestão da Tecnologia da Informação
#5809 - Engenharia de Computação

🔢 Total de registros filtrados: 239
📌 Códigos únicos presentes no DataFrame filtrado:
[4004   72   79 4006 5809 4005]


Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
1,2014,100075,71,2,10028,4004,1,2411205,24,2
3,2014,100105,71,2,10028,4004,1,2408300,24,2
4,2014,100244,1082,1,10026,72,1,2408102,24,2
5,2014,100246,1082,1,10026,79,1,2408102,24,2
30,2014,101830,587,1,10028,4006,1,2613909,26,2


In [23]:
def filtrar_por_curso(path_arquivo, ano):
    df = pd.read_csv(path_arquivo, sep=';', encoding='latin1', dtype=str, low_memory=False)
    df['CO_GRUPO'] = df['CO_GRUPO'].astype(int)
    df_filtrado = df[df['CO_GRUPO'].isin(codigos_filtrar)]

    print(f"✅ Total de registros filtrados: {len(df_filtrado)}")
    print("📌 Códigos únicos encontrados:")
    print(df_filtrado['CO_GRUPO'].unique())

    # Visualiza as primeiras linhas
    display(df_filtrado.head())

    # Exporta o DataFrame
    nome_saida = f"enade_{ano}_filtrado.csv"
    df_filtrado.to_csv(nome_saida, index=False, sep=';', encoding='utf-8')
    print(f"💾 Arquivo salvo como: {nome_saida}")

    return df_filtrado

In [24]:
cursos_2014 = '/content/cursos_nordeste_2014.csv'
cursos_2017 = '/content/cursos_nordeste_2017.csv'
cursos_2021 = '/content/cursos_nordeste_2021.csv'

In [25]:
enade2014 = pd.read_csv(cursos_2014, sep=';', encoding='latin1', low_memory=False)
enade2017 = pd.read_csv(cursos_2017, sep=';', encoding='latin1', low_memory=False)
enade2021 = pd.read_csv(cursos_2021, sep=';', encoding='latin1', low_memory=False)

In [27]:
df2014 = filtrar_por_curso(cursos_2014, 2014)
df2017 = filtrar_por_curso(cursos_2017, 2017)
df2021 = filtrar_por_curso(cursos_2021, 2021)

✅ Total de registros filtrados: 239
📌 Códigos únicos encontrados:
[4004   72   79 4006 5809 4005]


Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
1,2014,100075,71,2,10028,4004,1,2411205,24,2
3,2014,100105,71,2,10028,4004,1,2408300,24,2
4,2014,100244,1082,1,10026,72,1,2408102,24,2
5,2014,100246,1082,1,10026,79,1,2408102,24,2
30,2014,101830,587,1,10028,4006,1,2613909,26,2


💾 Arquivo salvo como: enade_2014_filtrado.csv
✅ Total de registros filtrados: 238
📌 Códigos únicos encontrados:
[4004 4006   72 4005   79]


Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
7,2017,317,3,1,10028,4004,1,2806701,28,2
20,2017,513,5,1,10028,4004,1,2211001,22,2
32,2017,968,11,5,10028,4004,1,2611606,26,2
46,2017,2209,29,2,10028,4004,1,2304400,23,2
107,2017,10515,519,5,10028,4006,1,2927408,29,2


💾 Arquivo salvo como: enade_2017_filtrado.csv
✅ Total de registros filtrados: 272
📌 Códigos únicos encontrados:
[4004 4006   72 4005   79]


Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
4,2021,317,3,1,10028,4004,1,2806701,28,2
15,2021,513,5,1,10028,4004,1,2211001,22,2
23,2021,968,11,5,10028,4004,1,2611606,26,2
35,2021,2209,29,2,10028,4004,1,2304400,23,2
85,2021,10515,519,5,10028,4006,1,2927408,29,2


💾 Arquivo salvo como: enade_2021_filtrado.csv


Como não tinha encontrado alguns códigos em uns anos, usei uma função para verificar o porque de não encontrar em outros anos (provavel que não exista na região Nordeste).



*   6409 não foi encontrado em 2014;
*   6409 e 5809 não foram encontrados em 2017/2021;

Isso se dá pelo motivo que Engenharia da Computação ter sido reformulado e retirando do ENADE nos ciclos de computação desde 2014. Cursos de GTI não foram encontrados em todos os 3 anos.



In [40]:
df2014['CO_GRUPO'] = df2014['CO_GRUPO'].astype(int)
df2014['CO_REGIAO_CURSO'] = df2014['CO_REGIAO_CURSO'].astype(int)
df_nordeste = df2014[(df2014['CO_REGIAO_CURSO'] == 2) & (df2014['CO_GRUPO'] == 6409)]
print(f"🔎 Total encontrado: {len(df_nordeste)}")
display(df_nordeste.head())

🔎 Total encontrado: 0


Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO
