In [3]:
import pandas as pd
import warnings

# Consertando a exibição do describe
pd.set_option('display.float_format', lambda x: '%.2f' % x)
# Ignorando avisos de depreciação
warnings.filterwarnings('ignore')

In [4]:
# Carregando os dados do ENEM 2023
enemData = pd.read_csv('MICRODADOS_ENEM_2023.csv', encoding='latin1', sep=';')

In [5]:
# Exibindo o formato dos dados
enemData.shape

(3933955, 76)

In [6]:
# Exibindo informações básicas dos dados
enemData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 76 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_INSCRICAO            int64  
 1   NU_ANO                  int64  
 2   TP_FAIXA_ETARIA         int64  
 3   TP_SEXO                 object 
 4   TP_ESTADO_CIVIL         int64  
 5   TP_COR_RACA             int64  
 6   TP_NACIONALIDADE        int64  
 7   TP_ST_CONCLUSAO         int64  
 8   TP_ANO_CONCLUIU         int64  
 9   TP_ESCOLA               int64  
 10  TP_ENSINO               float64
 11  IN_TREINEIRO            int64  
 12  CO_MUNICIPIO_ESC        float64
 13  NO_MUNICIPIO_ESC        object 
 14  CO_UF_ESC               float64
 15  SG_UF_ESC               object 
 16  TP_DEPENDENCIA_ADM_ESC  float64
 17  TP_LOCALIZACAO_ESC      float64
 18  TP_SIT_FUNC_ESC         float64
 19  CO_MUNICIPIO_PROVA      int64  
 20  NO_MUNICIPIO_PROVA      object 
 21  CO_UF_PROVA             int64  

In [7]:
# Criando a coluna 'PRESENCA_COMPLETA' com base na presença em todas as provas
enemData['PRESENCA_COMPLETA'] = enemData.apply(
    lambda row: 1 if (
        row['TP_PRESENCA_CN'] == 1 and
        row['TP_PRESENCA_CH'] == 1 and
        row['TP_PRESENCA_LC'] == 1 and
        row['TP_PRESENCA_MT'] == 1
    ) else 0,
    axis=1
)

In [8]:
# Contagem de valores na nova coluna 'PRESENCA_COMPLETA'
enemData.PRESENCA_COMPLETA.value_counts()

PRESENCA_COMPLETA
1    2678264
0    1255691
Name: count, dtype: int64

In [9]:
# Criando função usada para agrupar faixas etária
def agrupar_faixa_etaria(faixa):
    if faixa <= 5:
        return 1 # Jovens (17-20)
    elif faixa <= 10:
        return 2 # Jovens Adultos (21-25)
    elif faixa <= 16:
        return 3 # Adultos (26-55)
    else:
        return 4 # Idosos (56 Acima)

In [10]:
# Aplicando a função para criar a nova coluna
enemData['GRUPO_ETARIO'] = enemData['TP_FAIXA_ETARIA'].apply(agrupar_faixa_etaria)

In [11]:
# Contagem dos valores únicos na coluna 'GRUPO_ETARIO'
enemData.GRUPO_ETARIO.value_counts()

GRUPO_ETARIO
1    2705256
3     609145
2     597584
4      21970
Name: count, dtype: int64

In [12]:
# Exibindo informações atualizadas dos dados
enemData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 78 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_INSCRICAO            int64  
 1   NU_ANO                  int64  
 2   TP_FAIXA_ETARIA         int64  
 3   TP_SEXO                 object 
 4   TP_ESTADO_CIVIL         int64  
 5   TP_COR_RACA             int64  
 6   TP_NACIONALIDADE        int64  
 7   TP_ST_CONCLUSAO         int64  
 8   TP_ANO_CONCLUIU         int64  
 9   TP_ESCOLA               int64  
 10  TP_ENSINO               float64
 11  IN_TREINEIRO            int64  
 12  CO_MUNICIPIO_ESC        float64
 13  NO_MUNICIPIO_ESC        object 
 14  CO_UF_ESC               float64
 15  SG_UF_ESC               object 
 16  TP_DEPENDENCIA_ADM_ESC  float64
 17  TP_LOCALIZACAO_ESC      float64
 18  TP_SIT_FUNC_ESC         float64
 19  CO_MUNICIPIO_PROVA      int64  
 20  NO_MUNICIPIO_PROVA      object 
 21  CO_UF_PROVA             int64  

In [13]:
# Mapeando valores categóricos para numéricos na coluna Q006 (Renda mensal da família)
enemData['Q006'] = enemData['Q006'].map({
    'A': 0,
    'B': 1,
    'C': 2,
    'D': 3,
    'E': 4,
    'F': 5,
    'G': 6,
    'H': 7,
    'I': 8,
    'J': 9,
    'K': 10,
    'L': 11,
    'M': 12,
    'N': 13,
    'O': 14,
    'P': 15,
    'Q': 16
})

In [14]:
# Contagem dos valores únicos na coluna Q006 (Renda mensal da família)
enemData.Q006.value_counts()

Q006
1     1245271
2      650942
3      437366
4      293994
0      268053
6      261327
5      171344
7      139279
8       85970
9       75179
10      59631
16      51489
13      41565
14      41218
11      39596
15      38105
12      33626
Name: count, dtype: int64

In [15]:
# Mapeando valores categóricos para numéricos na coluna Q010 (Presença de carro na residência)
enemData['Q010'] = enemData['Q010'].map({
    'A': 0,
    'B': 1,
    'C': 2,
    'D': 3,
    'E': 4
})

In [16]:
# Contagem dos valores únicos na coluna Q010 (Presença de carro na residência)
enemData.Q010.value_counts()

Q010
0    2167356
1    1392596
2     323334
3      41185
4       9484
Name: count, dtype: int64

In [17]:
# Mapeando valores categóricos para numéricos na coluna Q011 (Presença de motocicleta na residência)
enemData['Q011'] = enemData['Q011'].map({
    'A': 0,
    'B': 1,
    'C': 2,
    'D': 3,
    'E': 4
})

In [18]:
# Contagem dos valores únicos na coluna Q010 (Presença de motocicleta na residência)
enemData.Q011.value_counts()

Q011
0    2983690
1     842923
2      95329
3      10022
4       1991
Name: count, dtype: int64

In [19]:
# Contagem dos valores na coluna 'SG_UF_PROVA'
enemData['SG_UF_PROVA'].value_counts()

SG_UF_PROVA
SP    590767
MG    358575
BA    324268
RJ    282296
CE    241960
PA    229162
PE    218859
PR    166506
MA    165756
RS    159919
GO    149110
PB    124511
RN    100706
PI     99639
AM     92916
SC     91263
AL     82760
ES     73724
DF     72975
SE     65540
MT     63912
MS     47455
RO     36038
TO     32618
AP     28807
AC     24274
RR      9639
Name: count, dtype: int64

In [20]:
# Ordenando e mapeando estados para números
estados = sorted(enemData['SG_UF_PROVA'].unique())
estadosParaNumeros = {estado: idx + 1 for idx, estado in enumerate(estados)}
enemData['SG_UF_PROVA_NUM'] = enemData['SG_UF_PROVA'].map(estadosParaNumeros)

In [22]:
#Motrando que os estados foram sortidos em ordem alfabética
estados

['AC',
 'AL',
 'AM',
 'AP',
 'BA',
 'CE',
 'DF',
 'ES',
 'GO',
 'MA',
 'MG',
 'MS',
 'MT',
 'PA',
 'PB',
 'PE',
 'PI',
 'PR',
 'RJ',
 'RN',
 'RO',
 'RR',
 'RS',
 'SC',
 'SE',
 'SP',
 'TO']

In [23]:
# Contagem dos valores na coluna 'SG_UF_PROVA_NUM'
enemData['SG_UF_PROVA_NUM'].value_counts()

SG_UF_PROVA_NUM
26    590767
11    358575
5     324268
19    282296
6     241960
14    229162
16    218859
18    166506
10    165756
23    159919
9     149110
15    124511
20    100706
17     99639
3      92916
24     91263
2      82760
8      73724
7      72975
25     65540
13     63912
12     47455
21     36038
27     32618
4      28807
1      24274
22      9639
Name: count, dtype: int64

In [25]:
enemData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 79 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_INSCRICAO            int64  
 1   NU_ANO                  int64  
 2   TP_FAIXA_ETARIA         int64  
 3   TP_SEXO                 object 
 4   TP_ESTADO_CIVIL         int64  
 5   TP_COR_RACA             int64  
 6   TP_NACIONALIDADE        int64  
 7   TP_ST_CONCLUSAO         int64  
 8   TP_ANO_CONCLUIU         int64  
 9   TP_ESCOLA               int64  
 10  TP_ENSINO               float64
 11  IN_TREINEIRO            int64  
 12  CO_MUNICIPIO_ESC        float64
 13  NO_MUNICIPIO_ESC        object 
 14  CO_UF_ESC               float64
 15  SG_UF_ESC               object 
 16  TP_DEPENDENCIA_ADM_ESC  float64
 17  TP_LOCALIZACAO_ESC      float64
 18  TP_SIT_FUNC_ESC         float64
 19  CO_MUNICIPIO_PROVA      int64  
 20  NO_MUNICIPIO_PROVA      object 
 21  CO_UF_PROVA             int64  

In [26]:
# Selecionando colunas para a criação do dataset preprocessado
enemPreprocessedData = enemData.iloc[:,[7,78,56,60,61,76,77]]

In [27]:
# Exibindo colunas escolhidas
enemPreprocessedData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 7 columns):
 #   Column             Dtype
---  ------             -----
 0   TP_ST_CONCLUSAO    int64
 1   SG_UF_PROVA_NUM    int64
 2   Q006               int64
 3   Q010               int64
 4   Q011               int64
 5   PRESENCA_COMPLETA  int64
 6   GRUPO_ETARIO       int64
dtypes: int64(7)
memory usage: 210.1 MB


In [28]:
# Exportando dataset preprocessado
enemPreprocessedData.to_csv('PreprocessedDataframe.csv', index=False, encoding='utf-8', sep=';')