# Enade - Transformação de Dados - 01 

In [2]:
# Importar bibliotecas necessárias
import pandas as pd 
import numpy as np
import os 

In [3]:
# Função para limpar o DataFrame
def clean_dataset(df):
    # Substituir valores infinitos por NaN
    df.replace([np.inf, -np.inf], np.nan, inplace=True)
    
    # Remover valores NaN
    df.dropna(inplace=True)
    
    # Resetar o índice
    df = df.reset_index(drop=True)
    
    return df

In [4]:
# Caminho para o diretório extraído
data_dir = "./enade2019/microdados_Enade_2019_LGPD/2. DADOS/"

# Lista para armazenar os DataFrames
dataframes = []

In [5]:
# Listar todos os arquivos .txt no diretório de dados
txt_files = [f for f in os.listdir(data_dir) if f.endswith('.txt')]

# Ler todos os arquivos .txt e armazenar os DataFrames na lista
for txt_file in txt_files:
    # Obter o caminho completo do arquivo
    file_path = os.path.join(data_dir, txt_file)
    # Ler o arquivo como um DataFrame do Pandas, separando por ';' e usando ',' como decimal
    df = pd.read_csv(file_path, sep=";", decimal=",", low_memory=False)
    # Limpar o DataFrame
    df = clean_dataset(df)
    # Adicionar o DataFrame à lista
    dataframes.append(df)
    
# Combinar todos os DataFrames em um único DataFrame
enade = pd.concat(dataframes, ignore_index=True)

In [6]:
enade.head()

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68,TP_SEXO,NU_IDADE,QE_I01,QE_I02,QE_I03
0,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
1,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
2,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
3,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
4,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,


In [7]:
#Verificando o schema da tabela
dict(enade.dtypes)

{'NU_ANO': dtype('int64'),
 'CO_CURSO': dtype('int64'),
 'CO_IES': dtype('float64'),
 'CO_CATEGAD': dtype('float64'),
 'CO_ORGACAD': dtype('float64'),
 'CO_GRUPO': dtype('float64'),
 'CO_MODALIDADE': dtype('float64'),
 'CO_MUNIC_CURSO': dtype('float64'),
 'CO_UF_CURSO': dtype('float64'),
 'CO_REGIAO_CURSO': dtype('float64'),
 'QE_I04': dtype('O'),
 'QE_I05': dtype('O'),
 'QE_I06': dtype('O'),
 'QE_I07': dtype('O'),
 'QE_I08': dtype('O'),
 'QE_I09': dtype('O'),
 'QE_I10': dtype('O'),
 'QE_I11': dtype('O'),
 'QE_I12': dtype('O'),
 'QE_I13': dtype('O'),
 'ANO_FIM_EM': dtype('float64'),
 'ANO_IN_GRAD': dtype('float64'),
 'CO_TURNO_GRADUACAO': dtype('float64'),
 'QE_I14': dtype('O'),
 'QE_I15': dtype('O'),
 'QE_I16': dtype('float64'),
 'QE_I17': dtype('O'),
 'QE_I18': dtype('O'),
 'QE_I19': dtype('O'),
 'QE_I20': dtype('O'),
 'QE_I21': dtype('O'),
 'QE_I22': dtype('O'),
 'QE_I23': dtype('O'),
 'NU_ITEM_OFG': dtype('float64'),
 'NU_ITEM_OFG_Z': dtype('float64'),
 'NU_ITEM_OFG_X': dtype('floa

Váriaveis que vamos utilizar: 

- CO_IES

- CO_CATEGAD

- CO_GRUPO

- CO_MODALIDADE

- CO_UF_CURSO

- CO_REGIAO_CURSO

- NU_IDADE

- TP_SEXO

- NT_GER

- NT_FG

- NT_CE

Mais alguns itens do questionário do estudante: 

01: Estado Civil

02: Cor ou raça

04: Escolaridade do pai

05: Escolaridade da mãe

08: Renda Familiar

10: Situação de trabalho

11: Situação de bolsa

14: Intercâmbio

15: Cotas

23: Horas de Estudo / semana

25: Motivo de escolha do curso

26: Motivo de escolha da IES

In [8]:
# Converter as colunas para o tipo correto, se necessário
# Tratar NaN antes de converter para int e preencher com 0
if 'CO_REGIAO_CURSO' in enade.columns:
    # Tratar NaN antes de converter
    enade['CO_REGIAO_CURSO'] = pd.to_numeric(enade['CO_REGIAO_CURSO'], errors='coerce').fillna(0).astype(int)
    
# Converter para float e tratar NaN
if 'NT_GER' in enade.columns:
    enade['NT_GER'] = pd.to_numeric(enade['NT_GER'], errors='coerce')

In [9]:
# Analisar a coluna NT_GER
enade.NT_GER.describe()

count    378812.000000
mean         44.272119
std          14.457398
min           0.000000
25%          33.400000
50%          44.000000
75%          54.900000
max          93.000000
Name: NT_GER, dtype: float64

In [10]:
# Contar o numero de nulos
enade.NT_GER.isnull().sum()

12721096

In [11]:
enade.shape

(13099908, 133)

In [12]:
# Quantidade Relativa De Nulos
enade.NT_GER.isnull().sum() / enade.shape[0]

0.9710828503528421

In [13]:
#Verificando valores da variavel
enade['CO_REGIAO_CURSO'].unique()

array([5, 2, 1, 3, 4, 0])

In [14]:
# Verificar quantos registros existem para cada valor de CO_REGIAO_CURSO
enade['CO_REGIAO_CURSO'].value_counts()

CO_REGIAO_CURSO
0    12665978
3      202505
2       91742
4       76788
5       34192
1       28703
Name: count, dtype: int64

In [15]:
# Filtrando a nota geral por região 
enade.loc[
    enade.CO_REGIAO_CURSO == 2 
].NT_GER.describe()

count    0.0
mean     NaN
std      NaN
min      NaN
25%      NaN
50%      NaN
75%      NaN
max      NaN
Name: NT_GER, dtype: float64

In [16]:
# Filtrando a nota geral por região 2 e contando NaNs
filtro_regiao = enade[enade['CO_REGIAO_CURSO'] == 2]
total_registros = len(filtro_regiao)
nulos_nt_ger = filtro_regiao['NT_GER'].isna().sum()
total_nt_ger = filtro_regiao['NT_GER'].notna().sum()
soma_nt_ger = filtro_regiao['NT_GER'].sum()
media_nt_ger = soma_nt_ger / total_nt_ger if total_nt_ger > 0 else 0

print(f"Total de registros na região 2: {total_registros}")
print(f"Número de NaNs em NT_GER para CO_REGIAO_CURSO == 2: {nulos_nt_ger}")
print(f"Total de registros com NT_GER para CO_REGIAO_CURSO == 2: {total_nt_ger}")
print(f"Média de NT_GER para CO_REGIAO_CURSO == 2: {media_nt_ger}")

Total de registros na região 2: 91742
Número de NaNs em NT_GER para CO_REGIAO_CURSO == 2: 91742
Total de registros com NT_GER para CO_REGIAO_CURSO == 2: 0
Média de NT_GER para CO_REGIAO_CURSO == 2: 0


In [17]:
# Exibir algumas linhas do DataFrame filtrado para a região 2
print(filtro_regiao[['CO_REGIAO_CURSO', 'NT_GER']].head(10))

      CO_REGIAO_CURSO  NT_GER
1294                2     NaN
1295                2     NaN
1296                2     NaN
1297                2     NaN
1298                2     NaN
1299                2     NaN
1300                2     NaN
1301                2     NaN
1302                2     NaN
1303                2     NaN


In [18]:
# Verificar alguns valores originais de NT_GER para a região 2 antes da conversão
original_nt_ger = enade.loc[enade['CO_REGIAO_CURSO'] == 2, 'NT_GER']
print(original_nt_ger.head(10))
print(original_nt_ger.isna().sum())
print(original_nt_ger.notna().sum())

1294   NaN
1295   NaN
1296   NaN
1297   NaN
1298   NaN
1299   NaN
1300   NaN
1301   NaN
1302   NaN
1303   NaN
Name: NT_GER, dtype: float64
91742
0


In [19]:
# Exibir algumas linhas do DataFrame filtrado para a região 2
print(filtro_regiao[['CO_REGIAO_CURSO', 'NT_GER']].head(10))

# Verificar alguns valores originais de NT_GER para a região 2 antes da conversão
original_nt_ger = enade.loc[enade['CO_REGIAO_CURSO'] == 2, 'NT_GER']
print(original_nt_ger.head(10))
print(f"Total de valores originais de NT_GER para a região 2: {len(original_nt_ger)}")
print(f"Total de NaNs em valores originais de NT_GER para a região 2: {original_nt_ger.isna().sum()}")
print(f"Total de valores não nulos de NT_GER para a região 2: {original_nt_ger.notna().sum()}")

      CO_REGIAO_CURSO  NT_GER
1294                2     NaN
1295                2     NaN
1296                2     NaN
1297                2     NaN
1298                2     NaN
1299                2     NaN
1300                2     NaN
1301                2     NaN
1302                2     NaN
1303                2     NaN
1294   NaN
1295   NaN
1296   NaN
1297   NaN
1298   NaN
1299   NaN
1300   NaN
1301   NaN
1302   NaN
1303   NaN
Name: NT_GER, dtype: float64
Total de valores originais de NT_GER para a região 2: 91742
Total de NaNs em valores originais de NT_GER para a região 2: 91742
Total de valores não nulos de NT_GER para a região 2: 0


In [20]:
# Verificar a distribuição de NaNs em NT_GER para todas as regiões
nulos_por_regiao = enade.groupby('CO_REGIAO_CURSO')['NT_GER'].apply(lambda x: x.isna().sum())
total_por_regiao = enade['CO_REGIAO_CURSO'].value_counts()
percentual_nulos_por_regiao = (nulos_por_regiao / total_por_regiao) * 100

print("Distribuição de NaNs em NT_GER por região:")
print(nulos_por_regiao)
print("\nTotal de registros por região:")
print(total_por_regiao)
print("\nPercentual de NaNs em NT_GER por região:")
print(percentual_nulos_por_regiao)

Distribuição de NaNs em NT_GER por região:
CO_REGIAO_CURSO
0    12287166
1       28703
2       91742
3      202505
4       76788
5       34192
Name: NT_GER, dtype: int64

Total de registros por região:
CO_REGIAO_CURSO
0    12665978
3      202505
2       91742
4       76788
5       34192
1       28703
Name: count, dtype: int64

Percentual de NaNs em NT_GER por região:
CO_REGIAO_CURSO
0     97.009216
1    100.000000
2    100.000000
3    100.000000
4    100.000000
5    100.000000
dtype: float64


In [21]:
# Verificar as colunas presentes em cada arquivo antes de concatenar
for txt_file in txt_files:
    file_path = os.path.join(data_dir, txt_file)
    df = pd.read_csv(file_path, sep=";", decimal=",", nrows=0)
    print(f"Arquivo {txt_file}:")
    print(df.columns)
    print("\n")

# Combinar todos os DataFrames em um único DataFrame novamente
enade = pd.concat(dataframes, ignore_index=True)

Arquivo microdados2019_arq1.txt:
Index(['NU_ANO', 'CO_CURSO', 'CO_IES', 'CO_CATEGAD', 'CO_ORGACAD', 'CO_GRUPO',
       'CO_MODALIDADE', 'CO_MUNIC_CURSO', 'CO_UF_CURSO', 'CO_REGIAO_CURSO'],
      dtype='object')


Arquivo microdados2019_arq10.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I04'], dtype='object')


Arquivo microdados2019_arq11.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I05'], dtype='object')


Arquivo microdados2019_arq12.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I06'], dtype='object')


Arquivo microdados2019_arq13.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I07'], dtype='object')


Arquivo microdados2019_arq14.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I08'], dtype='object')


Arquivo microdados2019_arq15.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I09'], dtype='object')


Arquivo microdados2019_arq16.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I10'], dtype='object')


Arquivo microdados2019_arq17.txt:
Index(['NU_ANO', 'CO_CURSO', 'QE_I11'], dtype='object')


Arquivo microdados2019_arq18.txt:
Index(['NU_ANO', 

In [22]:
# Verificar o número de registros em cada arquivo antes da concatenação
total_registros_antes = 0
for txt_file in txt_files:
    file_path = os.path.join(data_dir, txt_file)
    df = pd.read_csv(file_path, sep=";", decimal=",")
    total_registros_antes += len(df)
    print(f"Arquivo {txt_file} lido com {len(df)} registros.")

# Verificar o número total de registros após a concatenação
print(f"\nTotal de registros em todos os arquivos antes da concatenação: {total_registros_antes}")
print(f"Total de registros após a concatenação: {len(enade)}")

Arquivo microdados2019_arq1.txt lido com 433930 registros.
Arquivo microdados2019_arq10.txt lido com 433930 registros.
Arquivo microdados2019_arq11.txt lido com 433930 registros.
Arquivo microdados2019_arq12.txt lido com 433930 registros.
Arquivo microdados2019_arq13.txt lido com 433930 registros.
Arquivo microdados2019_arq14.txt lido com 433930 registros.
Arquivo microdados2019_arq15.txt lido com 433930 registros.
Arquivo microdados2019_arq16.txt lido com 433930 registros.
Arquivo microdados2019_arq17.txt lido com 433930 registros.
Arquivo microdados2019_arq18.txt lido com 433930 registros.
Arquivo microdados2019_arq19.txt lido com 433930 registros.
Arquivo microdados2019_arq2.txt lido com 433930 registros.
Arquivo microdados2019_arq20.txt lido com 433930 registros.
Arquivo microdados2019_arq21.txt lido com 433930 registros.
Arquivo microdados2019_arq22.txt lido com 433930 registros.
Arquivo microdados2019_arq23.txt lido com 433930 registros.
Arquivo microdados2019_arq24.txt lido com 

  df = pd.read_csv(file_path, sep=";", decimal=",")


Arquivo microdados2019_arq3.txt lido com 433930 registros.
Arquivo microdados2019_arq30.txt lido com 433930 registros.
Arquivo microdados2019_arq31.txt lido com 433930 registros.
Arquivo microdados2019_arq32.txt lido com 433930 registros.
Arquivo microdados2019_arq4.txt lido com 433930 registros.
Arquivo microdados2019_arq5.txt lido com 433930 registros.
Arquivo microdados2019_arq6.txt lido com 433930 registros.
Arquivo microdados2019_arq7.txt lido com 433930 registros.
Arquivo microdados2019_arq8.txt lido com 433930 registros.
Arquivo microdados2019_arq9.txt lido com 433930 registros.

Total de registros em todos os arquivos antes da concatenação: 13885760
Total de registros após a concatenação: 13099908
