<a href="https://colab.research.google.com/github/Nkanga-Pedro/ExplorandoDados/blob/main/AnalisePrivatENADE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **PROJETO ENADE**



```
Microdados ENADE-2019
```

# IMPORTAÇÃO DE BIBLIOTECAS E MICRODADOS

In [69]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import warnings
warnings.filterwarnings("ignore")

In [70]:
# importando a base de dados - microdados_enade_2019
data = pd.read_csv('/content/drive/MyDrive/dataset/microdados_enade_2019.txt',sep=";", encoding="utf-8")
data.head(3)

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0


In [71]:
data.shape

(433930, 137)

# ANÁLISE DE OPINIÕES DE ESPECIALISTAS

Análise de opinião de especialistas é um método que utiliza as opiniões e julgamentos de especialistas em um determinado assunto para prever resultados ou chegar a uma conclusão.

Sendo uma técnica quantitativa que permite avaliar as características ou atributos de um determinado objeto ou evento. Depois de coletar as avaliações dos especialistas, utilisamos a técnica estatística para chegar a uma conclusão sobre os resultados.

    Calcular a média ou o desvio padrão das pontuações. Estas medidas são úteis para avaliar a tendência geral das avaliações.
    Análise de cluster: Agrupar as características com pontuações similares. Isso permitirá identificar padrões e tendências nas avaliações dos especialistas.
    Análise de correlação: Calcule a correlação entre as pontuações para cada característica.

Fonte de ideia:
- Livro "Análise de opinião de especialistas: teoria e prática" de N. Marchetti e S. Greco.
- Artigo "Uma revisão da literatura sobre análise de opinião de especialistas" publicado na revista Expert Systems with Applications.

In [None]:
# Importar os dados das opiniões dos especialistas
avaliacao=pd.read_excel('/content/drive/MyDrive/microdadosENADE/FeaturesSelects.xlsx',engine='openpyxl',sheet_name='AvFeaturesSelects')

In [None]:
avaliacao.head()

Unnamed: 0,Nº,NOME,TIPO,DESCRIÇÃO,IMPORTÂNCIA
0,1.0,NU_ANO,N,Ano de realização do exame,1.0
1,2.0,CO_IES,N,Código da IES (e-MEC),3.0
2,3.0,CO_CATEGAD,N,Código da categoria administrativa da IES,1.0
3,4.0,CO_ORGACAD,N,Código da organização acadêmica da IES,1.0
4,5.0,CO_GRUPO,N,Código da Área de enquadramento do curso no Enade,1.0


In [None]:
# Calcular a média das pontuações de cada feature, a média indica a tendência geral das avaliações
media=avaliacao['IMPORTÂNCIA'].mean()
media

1.364963503649635

A conclusão é que a média das pontuações dos features indicou que a tendência geral da avaliação desses features por especialistas, ou seja, avaliações tendem a ser alta ou positivos a partir de 2.

In [None]:
# Calcular o desvio padrão das pontuações de cada feature( mostra a variação das pontuações em relação à média) 
# Quanto maior o desvio padrão, maior a dispersão das pontuações.
std = avaliacao['IMPORTÂNCIA'].std()
std

1.049340916457726

A conclusão que podemos tirar ao calcular o desvio padrão das pontuações das features é a quantidade de variação em relação à média. Quanto maior o desvio padrão, maior é a dispersão das pontuações, indicando que há uma grande variação nas avaliações. Se o desvio padrão é pequeno, isso indica que as avaliações tendem a ser consistentes em torno da média.

No nosso caso a variação tendem a ser em torno da media. Isso mostra a confiabilidade das avaliações e para tomar decisões baseadas em dados.

In [None]:
# Análise de componentes principais (PCA): Aplique a PCA nas pontuações de cada feature. 
# A PCA permite visualizar a relação entre as avaliações dos especialistas, identificando padrões e tendências.
from sklearn.decomposition import PCA
# Instanciar o PCA e ajustar o modelo aos dados
pca = PCA()
pca.fit(avaliacao['IMPORTÂNCIA'].values.reshape(-1, 1))
# Imprimir os componentes principais
print(pca.components_)

# Imprimir a variância explicada pelos componentes principais
print(pca.explained_variance_ratio_)

# Cálculo da correlação entre as features
corr = avaliacao.corr()

# Imprimir a matriz de correlação
print(corr)

[[1.]]
[1.]
                   Nº  IMPORTÂNCIA
Nº           1.000000    -0.284754
IMPORTÂNCIA -0.284754     1.000000


Os componentes principais são vetores que descrevem as direções de maior variação nos dados. A variância explicada pelos componentes principais indica quanto da variância total dos dados é explicado por cada componente.

A partir dos resultados, podemos visualizar a relação entre as avaliações dos especialistas e identificar padrões e tendências. No nosso caso as avaliações dos especialistas tendem a ser similares entre as features [1,],[1,].

Ao aplicar PCA nas pontuações de cada feature, é possível visualizar a relação entre as avaliações dos especialistas e identificar padrões e tendências. Isso ajuda a entender como as diferentes características estão relacionadas e quais são as mais importantes. A conclusão pode ser utilizada para guiar decisões futuras e para entender melhor as preferências e as prioridades dos especialistas.

CONCLUSÃO GERAL SOBRE OS FEATURES

A conclusão final dos 4 pontos de análise que fornecemos

- Média;
- Desvio padrão;
- PCA.

Cada técnica fornece informações valiosas que ajudam a identificar padrões e tendências nas avaliações dos especialistas.

Não é possível identificar os features relevantes apenas a partir dos códigos de cálculo de média, desvio padrão, PCA e análise de cluster. Isso requer uma análise mais detalhada dos dados e resultados obtidos a partir desses códigos, bem como uma interpretação criteriosa desses resultados. Além disso, pode ser necessário levar em consideração outros fatores e informações além das pontuações dos especialistas para determinar quais features são mais relevantes.

Razão pela qual optamos por acrescentar outros feauteres além dos features que nos foi fornecido pelas medidad estatisticas.

A conclusão que podemos tirar é que a análise de cluster identificou 3 grupos de features com pontuações semelhantes, ou seja, agrupou as features de acordo com as suas pontuações. Este tipo de análise pode ser útil para identificar padrões e tendências na relação entre as avaliações dos especialistas e as features avaliadas.

In [None]:
# Para listar os features que forma melhor pontuado e que fica em torno da media e desvio padrão
avaliacao[avaliacao['IMPORTÂNCIA']>2]

Unnamed: 0,Nº,NOME,TIPO,DESCRIÇÃO,IMPORTÂNCIA
1,2.0,CO_IES,N,Código da IES (e-MEC),3.0
5,6.0,CO_CURSO,N,Código do curso no Enade,4.0
8,9.0,CO_UF_CURSO,N,Código da UF de funcionamento do curso,3.0
9,10.0,CO_REGIÃO_CURSO,N,Código da região de funcionamento do curso,4.0
10,11.0,NU_IDADE,N,Idade do inscrito em 24/11/2019,5.0
11,12.0,TP_SEXO,C,Sexo,5.0
12,13.0,ANO_FIM_EM,N,Ano de conclusão do Ensino Médio,5.0
13,14.0,ANO_IN_GRAD,N,Ano de início da graduação,5.0
44,45.0,NT_GER,N,Nota bruta da prova - Média ponderada da forma...,5.0
45,46.0,NT_FG,N,Nota bruta na formação geral - Média ponderada...,5.0


In [None]:
# Contar o numero de features que a medição de avaliação que nos forneceu
avaliacao[avaliacao['IMPORTÂNCIA'] >= 2].count().unique()

array([16])

Com esses (16) features podemos fazer nosso analise e predir o que poderia acontecer nos proximo ano.

# PRÉ-PROCESSAMENTO DE DADOS

In [72]:
data_selected=data[['CO_IES','CO_CURSO','CO_REGIAO_CURSO','NU_IDADE','TP_SEXO','ANO_FIM_EM','ANO_IN_GRAD','NT_GER','NT_FG','QE_I02',
                 'QE_I04','QE_I05','QE_I08','QE_I10','QE_I12','QE_I13']]

In [73]:
data_selected.head(10)

Unnamed: 0,CO_IES,CO_CURSO,CO_REGIAO_CURSO,NU_IDADE,TP_SEXO,ANO_FIM_EM,ANO_IN_GRAD,NT_GER,NT_FG,QE_I02,QE_I04,QE_I05,QE_I08,QE_I10,QE_I12,QE_I13
0,1,3,5,27,M,2010,2012.0,519.0,365.0,C,D,E,B,A,A,A
1,1,3,5,26,M,2009,2015.0,542.0,443.0,A,E,D,E,A,A,A
2,1,3,5,23,M,2012,2016.0,,,A,E,E,E,B,A,A
3,1,3,5,24,M,2013,2014.0,421.0,499.0,D,F,F,E,A,A,A
4,1,3,5,41,M,2012,2013.0,,,,,,,,,
5,1,3,5,26,M,2011,2013.0,493.0,403.0,A,E,E,C,D,A,A
6,1,3,5,24,M,2012,2014.0,496.0,596.0,A,E,E,E,A,A,A
7,1,3,5,28,F,2009,2013.0,436.0,452.0,A,D,E,D,A,A,A
8,1,3,5,23,F,2014,2015.0,553.0,455.0,A,E,F,E,A,A,A
9,1,3,5,24,M,2015,2015.0,616.0,59.0,B,E,F,D,A,C,A


In [76]:
data_selected.shape

(433930, 16)

In [77]:
data_selected.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 433930 entries, 0 to 433929
Data columns (total 16 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   CO_IES           433930 non-null  int64  
 1   CO_CURSO         433930 non-null  int64  
 2   CO_REGIAO_CURSO  433930 non-null  int64  
 3   NU_IDADE         433930 non-null  int64  
 4   TP_SEXO          433930 non-null  object 
 5   ANO_FIM_EM       433930 non-null  int64  
 6   ANO_IN_GRAD      433562 non-null  float64
 7   NT_GER           390138 non-null  object 
 8   NT_FG            390138 non-null  object 
 9   QE_I02           433930 non-null  object 
 10  QE_I04           433930 non-null  object 
 11  QE_I05           433930 non-null  object 
 12  QE_I08           433930 non-null  object 
 13  QE_I10           433930 non-null  object 
 14  QE_I12           433930 non-null  object 
 15  QE_I13           433930 non-null  object 
dtypes: float64(1), int64(5), object(10)
me

In [78]:
data_selected.describe()

Unnamed: 0,CO_IES,CO_CURSO,CO_REGIAO_CURSO,NU_IDADE,ANO_FIM_EM,ANO_IN_GRAD
count,433930.0,433930.0,433930.0,433930.0,433930.0,433562.0
mean,1626.420351,562510.8,2.990837,27.621868,2010.30413,2014.62142
std,2737.010677,852255.6,0.983905,6.474523,6.350031,21.667268
min,1.0,3.0,1.0,10.0,1014.0,3.0
25%,349.0,39235.0,2.0,23.0,2009.0,2014.0
50%,621.0,105922.0,3.0,25.0,2012.0,2015.0
75%,1753.0,1159084.0,4.0,30.0,2014.0,2016.0
max,23410.0,5001378.0,5.0,86.0,2612.0,2092.0


In [79]:
# Verificar os dados que contem valor null
data_selected.isnull().sum()

CO_IES                 0
CO_CURSO               0
CO_REGIAO_CURSO        0
NU_IDADE               0
TP_SEXO                0
ANO_FIM_EM             0
ANO_IN_GRAD          368
NT_GER             43792
NT_FG              43792
QE_I02                 0
QE_I04                 0
QE_I05                 0
QE_I08                 0
QE_I10                 0
QE_I12                 0
QE_I13                 0
dtype: int64

In [80]:
# Checando NAs
pd.DataFrame({"Type":data_selected.dtypes, "Missing":data_selected.isna().sum()})

Unnamed: 0,Type,Missing
CO_IES,int64,0
CO_CURSO,int64,0
CO_REGIAO_CURSO,int64,0
NU_IDADE,int64,0
TP_SEXO,object,0
ANO_FIM_EM,int64,0
ANO_IN_GRAD,float64,368
NT_GER,object,43792
NT_FG,object,43792
QE_I02,object,0


In [81]:
# Verificar se há valores nulos ou ausentes
print(f'valores null: {data_selected.isnull().sum().sum()} e valores duplicado: {data_selected.duplicated().sum()}')

valores null: 87952 e valores duplicado: 2095


In [82]:
# Transformar a nota que era tipo string para float
data_selected['NT_FG'] = data_selected['NT_FG'].astype(str)
data_selected['NT_FG'] = data_selected['NT_FG'].str.replace(',', '.')
data_selected['NT_FG'] = pd.to_numeric(data_selected['NT_FG'], errors='coerce')

data_selected['NT_GER'] = data_selected['NT_GER'].astype(str)
data_selected['NT_GER'] = data_selected['NT_GER'].str.replace(',', '.')
data_selected['NT_GER'] = pd.to_numeric(data_selected['NT_GER'], errors='coerce')

In [83]:
# Transformar a renda mensal da familia que era tipo string para number
data_selected["QE_I08"]= data_selected["QE_I08"].map({"A":0.0,"B":0.2,
                                            "C":0.4,"D":0.6,
                                            "E":0.8,"F":1.0,"G":1.2})
#data_selected['QE_I08'] = pd.to_numeric(data_selected['QE_I08'], downcast='float')

In [84]:
# transformação da coluna CO_REGIAO_CURSO em tipo object
data_selected['CO_REGIAO_CURSO'] = data_selected['CO_REGIAO_CURSO'].astype(object)

In [85]:
# preenchendo valores faltantes com a média entre o anterior e o posterior
data_selected['NT_GER'].fillna((data_selected['NT_GER'].shift() + data_selected['NT_GER'].shift(-1)) / 2, inplace=True)
data_selected['NT_FG'].fillna((data_selected['NT_FG'].shift() + data_selected['NT_FG'].shift(-1)) / 2, inplace=True)

# dropando linhas com valores ainda faltantes
# Solução da valores null e duplicado
data_selected.dropna(inplace=True)
df_selected = data_selected.drop_duplicates()
print(f'valores null: {data_selected.isnull().sum().sum()} e valores duplicado: {data_selected.duplicated().sum()}')

valores null: 0 e valores duplicado: 0


In [86]:
data_selected.shape

(402438, 16)

Após a remoção de dados ausentes, a base de dados original, que tinha 433930 linhas, foi reduzida para 88.64% da base original, ou seja, 389827 linhas. Achamos que a remoção de dados ausentes foi excessiva e pode ter prejudicado a qualidade dos dados, por isso passamos para a técnica de cálculo da média entre valor anterior e posterior. Com esta técnica, conseguimos manter um percentual ainda mais baixo de dados ausentes, chegando a 90.66% da base original, ou seja, 419222 linhas. É importante sempre avaliar se a técnica utilizada para preenchimento de dados ausentes é adequada para o caso de estudo específico, a fim de garantir a qualidade e precisão das análises subsequentes.

In [87]:
data_selected.select_dtypes(include='object').head(3)

Unnamed: 0,CO_REGIAO_CURSO,TP_SEXO,QE_I02,QE_I04,QE_I05,QE_I10,QE_I12,QE_I13
0,5,M,C,D,E,A,A,A
1,5,M,A,E,D,A,A,A
2,5,M,A,E,E,B,A,A


In [88]:
data_selected.select_dtypes(include='number').head(3)

Unnamed: 0,CO_IES,CO_CURSO,NU_IDADE,ANO_FIM_EM,ANO_IN_GRAD,NT_GER,NT_FG,QE_I08
0,1,3,27,2010,2012.0,51.9,36.5,0.2
1,1,3,26,2009,2015.0,54.2,44.3,0.8
2,1,3,23,2012,2016.0,48.15,47.1,0.8


TRANSFORMAÇÃO DE DADOS PARA MELHOR VISUALIZAÇÃO

Iremos realizar algumas transformações nas variáveis, como também colocar seus rótulos.

In [89]:
data_selected['CO_REGIAO_CURSO']= data_selected["CO_REGIAO_CURSO"].map({1:'N',2:'NE',3:'SE',5:'S',5:'C-W'})
data_selected["TP_SEXO"]= data_selected["TP_SEXO"].map({"M":"Male","F":"Female"})
data_selected["QE_I02"]= data_selected["QE_I02"].map({"A":"White","B":"Black","C":"Yellow","D":"Pardo","E":"Indigenous","F":"Not declared"})
data_selected["QE_I05"]= data_selected["QE_I05"].map({'A':"None", 'B':'1st – 5th grade', 'C':'6th – 9th grade',
                                'D':'Secondary school', 'E':'Graduation', 'F':'Post-graduation'})
data_selected["QE_I04"]= data_selected["QE_I04"].map({'A':"None", 'B':'1st – 5th grade', 'C':'6th – 9th grade',
                                'D':'Secondary school', 'E':'Graduation', 'F':'Post-graduation'})

Escalar os Features com as condições :
- CO_IES : Between 1 and 23410
- CO_CURSO : Between 3 and 5001378
- NU_IDADE : Between 16 and 86
- ANO_FIM_EM : AAAA = Between 0 and 2686
- ANO_IN_GRAD : AAAA = Between 1973 and 2099
- NT_GER : Minimum = 0; Maximum= 93.7
- NT_FG : Minimum = 0; Maximum= 93.7

In [91]:
# restringir o valor de CO_IES ao intervalo [1, 23410]
data_selected['CO_IES'] = data_selected['CO_IES'].clip(lower=1, upper=23410)

# restringir o valor de CO_CURSO ao intervalo [3, 5001378]
data_selected['CO_CURSO'] = data_selected['CO_CURSO'].clip(lower=3, upper=5001378)

# restringir o valor de NU_IDADE ao intervalo [16, 86]
data_selected['NU_IDADE'] = data_selected['NU_IDADE'].clip(lower=16, upper=86)

# restringir o valor de ANO_FIM_EM ao intervalo [0, 2686]
data_selected['ANO_FIM_EM'] = data_selected['ANO_FIM_EM'].clip(lower=0, upper=2686)

# restringir o valor de ANO_IN_GRAD ao intervalo [1973, 2099]
data_selected['ANO_IN_GRAD'] = data_selected['ANO_IN_GRAD'].clip(lower=1973, upper=2099)

# restringir o valor de NT_GER ao intervalo [0, 93.7]
data_selected['NT_GER'] = data_selected['NT_GER'].clip(lower=0, upper=93.7)

# restringir o valor de NT_GER ao intervalo [0, 93.7]
data_selected['NT_GER'] = data_selected['NT_GER'].clip(lower=0, upper=93.7)

In [92]:
data_selected.head(3)

Unnamed: 0,CO_IES,CO_CURSO,CO_REGIAO_CURSO,NU_IDADE,TP_SEXO,ANO_FIM_EM,ANO_IN_GRAD,NT_GER,NT_FG,QE_I02,QE_I04,QE_I05,QE_I08,QE_I10,QE_I12,QE_I13
0,1,3,C-W,27,Male,2010,2012.0,51.9,36.5,Yellow,Secondary school,Graduation,0.2,A,A,A
1,1,3,C-W,26,Male,2009,2015.0,54.2,44.3,White,Graduation,Secondary school,0.8,A,A,A
2,1,3,C-W,23,Male,2012,2016.0,48.15,47.1,White,Graduation,Graduation,0.8,B,A,A


Adicionar um feature para n-year que é número de anos necessários para terminar os estudos de pós-graduação a partir da diferença entre o ano corrente (2019) e o "Ano de início da licenciatura", mais um. 


In [93]:
data_selected['n_year'] = 2019 - data_selected['ANO_IN_GRAD'] + 1

In [94]:
data_selected.head(3)

Unnamed: 0,CO_IES,CO_CURSO,CO_REGIAO_CURSO,NU_IDADE,TP_SEXO,ANO_FIM_EM,ANO_IN_GRAD,NT_GER,NT_FG,QE_I02,QE_I04,QE_I05,QE_I08,QE_I10,QE_I12,QE_I13,n_year
0,1,3,C-W,27,Male,2010,2012.0,51.9,36.5,Yellow,Secondary school,Graduation,0.2,A,A,A,8.0
1,1,3,C-W,26,Male,2009,2015.0,54.2,44.3,White,Graduation,Secondary school,0.8,A,A,A,5.0
2,1,3,C-W,23,Male,2012,2016.0,48.15,47.1,White,Graduation,Graduation,0.8,B,A,A,4.0


In [95]:
new_features = ['uni_id', 'prog_id', 'reg','Age','gen','year_hs','year_in','gpa1','gpa2','race','edu_f','edu_m',
                'inco','work','schol','ac_schol','n_year' ]
data_selected.columns = new_features
data_selected.dropna(inplace=True)
df_selected = data_selected.drop_duplicates()
data_selected.head(5)

Unnamed: 0,uni_id,prog_id,reg,Age,gen,year_hs,year_in,gpa1,gpa2,race,edu_f,edu_m,inco,work,schol,ac_schol,n_year
0,1,3,C-W,27,Male,2010,2012.0,51.9,36.5,Yellow,Secondary school,Graduation,0.2,A,A,A,8.0
1,1,3,C-W,26,Male,2009,2015.0,54.2,44.3,White,Graduation,Secondary school,0.8,A,A,A,5.0
2,1,3,C-W,23,Male,2012,2016.0,48.15,47.1,White,Graduation,Graduation,0.8,B,A,A,4.0
3,1,3,C-W,24,Male,2013,2014.0,42.1,49.9,Pardo,Post-graduation,Post-graduation,0.8,A,A,A,6.0
5,1,3,C-W,26,Male,2011,2013.0,49.3,40.3,White,Graduation,Graduation,0.4,D,A,A,7.0


In [96]:
data_selected.shape

(330124, 17)

In [97]:
# Ordenando o dataframe com base na coluna inco que é a renda 
data_selected.sort_values(by='inco', inplace=True)
data_selected.head(5)

Unnamed: 0,uni_id,prog_id,reg,Age,gen,year_hs,year_in,gpa1,gpa2,race,edu_f,edu_m,inco,work,schol,ac_schol,n_year
119776,1591,50104,N,22,Female,2014,2016.0,32.8,19.0,Black,6th – 9th grade,Secondary school,0.0,A,A,A,4.0
125981,1836,53409,SE,23,Female,2014,2015.0,30.8,20.0,White,6th – 9th grade,1st – 5th grade,0.0,E,A,A,5.0
125978,1836,53409,SE,31,Female,2006,2016.0,31.0,44.9,Pardo,1st – 5th grade,1st – 5th grade,0.0,A,A,A,4.0
298216,1185,1111526,NE,30,Male,2008,2014.0,64.75,45.85,Not declared,Secondary school,Secondary school,0.0,C,A,A,6.0
298218,1185,1111526,NE,21,Female,2015,2016.0,36.7,36.1,Pardo,1st – 5th grade,Secondary school,0.0,C,A,A,4.0


Fazendo o ultimo teste para dados limpo

In [98]:
# Verificar se há valores nulos ou ausentes
print(f'valores null: {data_selected.isnull().sum().sum()} e valores duplicado: {data_selected.duplicated().sum()}')

valores null: 0 e valores duplicado: 0


Guardar o ficheiro em formato csv pré-formatado

In [99]:
# Salvar a base de dados pré-processada
data_selected.to_csv("/content/drive/MyDrive/dataset/data_preprocessado.csv", index=False)

CONCLUSÃO

Após o processo de pré-processamento dos microdados do ENADE, foram realizadas diversas técnicas para garantir a qualidade e consistência dos dados. O processo começou com a identificação e tratamento dos dados ausentes, optando-se pela técnica de cálculo da média entre o valor anterior e posterior. Com isso, conseguiu-se manter 90,66% da base original, ou seja, 419222 linhas, garantindo a qualidade dos dados.

Foi adicionado também um novo feature, o n-year, que representa o número de anos necessários para terminar os estudos de pós-graduação. Além disso, todos os features foram escalados para garantir a consistência dos dados.

Em resumo, o pré-processamento dos microdados do ENADE permitiu ajustar e preparar a base de dados para análises futuras, aumentando a qualidade e precisão dos resultados. É fundamental avaliar continuamente as técnicas utilizadas para garantir a qualidade e consistência dos dados e, consequentemente, obter análises confiáveis e precisas.

# PRIVATIZAÇÃO DE DADOS