In [1]:
"""
Esse código é responsavel por tratar os dados, assim tratando os seguintes cenarios:
- Remover colunas que não serão utilizadas
- tratar linhas que possuem valores nulos
    - Colunas nulas numericas serão preenchidas com a -1
    - Colunas nulas String serão preenchidas com a string 'Desconhecido'
- tratar linhas que possuem valores duplicados
- tratar linhas que possuem valores fora do padrão
    - Colunas serão tratadas de acordo com o tipo de dado
    - float pode ser convertido para int
    - float 64 pode ser convertido para float 32 ou float 16
    - string pode ser convertida para categoria
    - int pode ser convertido para int8, int16, int32, int64
- Otimizar tipos de dados
- Salvar os tipos de dados otimizados em um arquivo externo
- Salvar os dados tratados em um novo arquivo
"""

"\nEsse código é responsavel por tratar os dados, assim tratando os seguintes cenarios:\n- Remover colunas que não serão utilizadas\n- tratar linhas que possuem valores nulos\n    - Colunas nulas numericas serão preenchidas com a -1\n    - Colunas nulas String serão preenchidas com a string 'Desconhecido'\n- tratar linhas que possuem valores duplicados\n- tratar linhas que possuem valores fora do padrão\n    - Colunas serão tratadas de acordo com o tipo de dado\n    - float pode ser convertido para int\n    - float 64 pode ser convertido para float 32 ou float 16\n    - string pode ser convertida para categoria\n    - int pode ser convertido para int8, int16, int32, int64\n- Otimizar tipos de dados\n- Salvar os tipos de dados otimizados em um arquivo externo\n- Salvar os dados tratados em um novo arquivo\n"

In [2]:
# Criando um dicionário para mapear os valores das colunas Q007 a Q025
pontuacao = {
    'Q007': {'A': 0, 'B': 1, 'C': 2, 'D': 3},            # Empregados domésticos
    'Q008': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Banheiros
    'Q009': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Quartos
    'Q010': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Carro
    'Q011': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Moto
    'Q012': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Geladeira
    'Q013': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Freezer
    'Q014': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Máquina de lavar
    'Q015': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Máquina de secar
    'Q016': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Forno micro-ondas
    'Q017': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Máquina de lavar louça
    'Q018': {'A': 0, 'B': 1},                            # Aspirador de pó
    'Q019': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Televisor
    'Q020': {'A': 0, 'B': 1},                            # Aparelho de DVD
    'Q021': {'A': 0, 'B': 1},                            # Televisão por assinatura
    'Q022': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Celular
    'Q023': {'A': 0, 'B': 1},                            # Telefone fixo
    'Q024': {'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4},    # Computador
    'Q025': {'A': 0, 'B': 1},                            # Internet
}

In [3]:
import seaborn as sns
import pandas as pd
import chardet
import json
import gc
import matplotlib.pyplot as plt

In [4]:
input_file = '../microdados_enem_2023/DADOS/MICRODADOS_ENEM_2023.csv'
output_file = 'microdados_tratado.csv'

# Verifica o encoding original do arquivo do arquivo (ISO-8859-1)
with open(input_file, 'rb') as f:
    resultado = chardet.detect(f.read(10000))
    encoding_original = resultado['encoding']

microdados_V1 = pd.read_csv(input_file, sep=';', encoding=encoding_original, low_memory=False)

In [5]:
# Verifica a quantidade de linhas total do arquivo
total_linhas = microdados_V1.shape[0]
print(f'Total de linhas: {total_linhas}')

# Verifica a quantidade de linhas que possuem qualquer valor nulo
linhas_com_nulos = microdados_V1.isnull().any(axis=1).sum()
print(f'Total de linhas com algum valor nulo: {linhas_com_nulos}')

# Verifica a quantidade de linhas sem valores nulos
total_linhas_sem_nulos = total_linhas - linhas_com_nulos
print(f'Total de linhas sem valores nulos: {total_linhas_sem_nulos}')

Total de linhas: 3933955
Total de linhas com algum valor nulo: 3225341
Total de linhas sem valores nulos: 708614


In [6]:
#Remover colunas que não sera usadas
microdados_V1.drop(columns=[
'NU_INSCRICAO',
'NU_ANO',
'IN_TREINEIRO',
'CO_MUNICIPIO_ESC',
'CO_UF_ESC',
'TP_SIT_FUNC_ESC',
'CO_MUNICIPIO_PROVA',
'CO_UF_PROVA',
'CO_PROVA_CN',
'CO_PROVA_CH',
'CO_PROVA_LC',
'CO_PROVA_MT',
'TP_ESCOLA',
], inplace=True)
# microdados_V1.reset_index(drop=True, inplace=True)

In [7]:
#==================== DADOS NULOS ====================#

In [8]:
# Verifica a quantidade de linhas total do arquivo
total_linhas = microdados_V1.shape[0]
print(f'Total de linhas: {total_linhas}')

# Verifica a quantidade de linhas que possuem qualquer valor nulo
linhas_com_nulos = microdados_V1.isnull().any(axis=1).sum()
print(f'Total de linhas com algum valor nulo: {linhas_com_nulos}')

# Verifica a quantidade de linhas restantes
total_linhas_restantes = total_linhas - linhas_com_nulos
print(f'Total de linhas restantes: {total_linhas_restantes}')

Total de linhas: 3933955
Total de linhas com algum valor nulo: 3225341
Total de linhas restantes: 708614


In [9]:
# Verificar informações sobre os dados
microdados_V1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   TP_FAIXA_ETARIA         int64  
 1   TP_SEXO                 object 
 2   TP_ESTADO_CIVIL         int64  
 3   TP_COR_RACA             int64  
 4   TP_NACIONALIDADE        int64  
 5   TP_ST_CONCLUSAO         int64  
 6   TP_ANO_CONCLUIU         int64  
 7   TP_ENSINO               float64
 8   NO_MUNICIPIO_ESC        object 
 9   SG_UF_ESC               object 
 10  TP_DEPENDENCIA_ADM_ESC  float64
 11  TP_LOCALIZACAO_ESC      float64
 12  NO_MUNICIPIO_PROVA      object 
 13  SG_UF_PROVA             object 
 14  TP_PRESENCA_CN          int64  
 15  TP_PRESENCA_CH          int64  
 16  TP_PRESENCA_LC          int64  
 17  TP_PRESENCA_MT          int64  
 18  NU_NOTA_CN              float64
 19  NU_NOTA_CH              float64
 20  NU_NOTA_LC              float64
 21  NU_NOTA_MT              float64

In [10]:
# Localizando colunas nulas
nulos = microdados_V1.columns[microdados_V1.isnull().any()]
nulos

Index(['TP_ENSINO', 'NO_MUNICIPIO_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2',
       'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5', 'NU_NOTA_REDACAO'],
      dtype='object')

In [11]:
# # Localizando colunas nulas de cada tipo
# nulos_number = microdados_V1[nulos].select_dtypes(include='number').columns
# nulos_string = microdados_V1[nulos].select_dtypes(include='object').columns
# nulos_number, nulos_string

In [12]:
"""
Selecionar colunas nulas relacionadas as notas do candidato
Verificar existencia de candidatos tiraram nota 0
Verificar existencia de valores igual a -1
"""
colunas_notas = [
    'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
    'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
    'NU_NOTA_COMP5', 'NU_NOTA_REDACAO',
]

microdados_V1[colunas_notas].min() == 0

NU_NOTA_CN         True
NU_NOTA_CH         True
NU_NOTA_LC         True
NU_NOTA_MT         True
NU_NOTA_COMP1      True
NU_NOTA_COMP2      True
NU_NOTA_COMP3      True
NU_NOTA_COMP4      True
NU_NOTA_COMP5      True
NU_NOTA_REDACAO    True
dtype: bool

In [13]:
microdados_V1[colunas_notas].min() == -1

NU_NOTA_CN         False
NU_NOTA_CH         False
NU_NOTA_LC         False
NU_NOTA_MT         False
NU_NOTA_COMP1      False
NU_NOTA_COMP2      False
NU_NOTA_COMP3      False
NU_NOTA_COMP4      False
NU_NOTA_COMP5      False
NU_NOTA_REDACAO    False
dtype: bool

In [14]:
"""
Exitem candidatos que tiraram nota 0 na provas
Analisado que não existem valores -1 nas notas dos candidatos	
"""
microdados_V1[colunas_notas] = microdados_V1[colunas_notas].fillna(-1)
microdados_V1[colunas_notas].head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO
0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
1,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
2,502.0,498.9,475.6,363.2,140.0,200.0,100.0,120.0,140.0,700.0
3,459.0,508.5,507.2,466.7,140.0,200.0,160.0,180.0,200.0,880.0
4,402.5,379.2,446.9,338.3,120.0,120.0,120.0,120.0,80.0,560.0


In [15]:
# """
# Tratar colunas de dtype string nulas
# Sendo valores do tipo string, preencher com a string 'Desconhecido'
# """
# colunas_gabarito = [
#     'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT',
#     'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT',
# ]

# microdados_V1[colunas_gabarito] = microdados_V1[colunas_gabarito].fillna('Desconhecido')
# microdados_V1[colunas_gabarito].head()

In [16]:
# Verfica a quantidade de linhas nulas restantes nas colunas tratadas
# microdados_V1[colunas_gabarito].isna().sum().sum()
microdados_V1[colunas_notas].isna().sum().sum()

np.int64(0)

In [17]:
# Verifica a quantidade de colunas nulas restantes
colunas_com_nulos = microdados_V1.columns[microdados_V1.isnull().any()]
colunas_com_nulos

Index(['TP_ENSINO', 'NO_MUNICIPIO_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TX_GABARITO_CN',
       'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT',
       'TP_STATUS_REDACAO'],
      dtype='object')

In [18]:
# Extraindo colunas com valores nulos do tipo number e aplicando valores -1
colunas_com_nulos_numericos = microdados_V1[colunas_com_nulos].select_dtypes(include='number').columns
# Colunas que possuem valores nulos do tipo string, continuaram sem alteração
microdados_V1[colunas_com_nulos].head()

Unnamed: 0,TP_ENSINO,NO_MUNICIPIO_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TX_RESPOSTAS_CN,TX_RESPOSTAS_CH,TX_RESPOSTAS_LC,TX_RESPOSTAS_MT,TX_GABARITO_CN,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO
0,,,,,,,,,,,,,,
1,,,,,,,,,,,,,,
2,,,,,,DBEBDCECCBCEBBBBDBABDDBBAABCBACDBACECCBAADEBB,ABDEADAADCDABDCADAEABCDDCBAADCCBEBCEBEBDBEAED,ACEBDCABAACAEBAECEBBBAAECBBDEADCAECCCEDDABEED,CEAEACCCDABCDAACEDDBAAEBABDDEEBDAECABDBCBCADE,DBEABDABDCACDBECDDDBCAAABBACCCADEBECCCEDAEEED,ACEEABAADCDAADEABCDABCDCABCBDADEBAECABADBCDAE,DBABBAEBAAAACDACDEDAACADBADBCCEACCCEAAECBBEBCA...,BCCDEEABCBEDCEABBEBDABDDADDADECAADDCCBEBEABCC,1.0
3,1.0,Fortaleza,CE,2.0,1.0,DEEBEACCCEBDDBDCCCAEEDCBAAADBCBEEEDCDAAECBEEC,DDAAEEBCCDEADBCDDCBAECABEBDEBDABECECEDCDDAEED,ADBDADAEEEACAABBACADCAEBBAAEBBCDEBBDDADDCADAA,EECBAEDEEDDDBBAADEECDBBBECEAACEAEECDBEDDBCDCB,CDDDABBABDBEABDECCEEEDCEDAEBABDCCAACCCADACDBE,DBAADEADCDCABABCDDEBAEABAECABAACECDAECBDAABCD,BBBDAABAEACCEEEDEACBCACAACAACAAAECBBEDBCCADBDE...,EBDADDAEBEACBEDCECCBEABCADEBCCBCCDEBDDAABBADD,1.0
4,1.0,Quixadá,CE,2.0,1.0,AECCEAACDEABEEECDBAEEAAADDEABCBCEBACEEDCBEABD,CADEBCEDDEBCBAEBADDCECACADBDEBABDBDBEEDBBEADC,AABBACBCAEDABDADEDAACCAEEEECAACDCADBAEACDEAAE,CDBABEDCEEBBBDECDEBACCAABDEDCBECDECABBDBDEECC,CAAADCCCCDDDABDCACDBEEEDCEDAEECCDBEABDBABBAEB,CDAEECABAACEAADECBDAABCDCABADCDEABAABCDDEBADB,BBDABAAEBADACEEDCCDBADBDEDCCEBCACEACAACAACACBB...,DCECACCBDECBEEABEABDDAADDABBBCCBCCDDAEBDADEEB,1.0


In [19]:
microdados_V1[colunas_com_nulos_numericos] = microdados_V1[colunas_com_nulos_numericos].fillna(-1)
microdados_V1[colunas_com_nulos_numericos].head()

Unnamed: 0,TP_ENSINO,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_STATUS_REDACAO
0,-1.0,-1.0,-1.0,-1.0
1,-1.0,-1.0,-1.0,-1.0
2,-1.0,-1.0,-1.0,1.0
3,1.0,2.0,1.0,1.0
4,1.0,2.0,1.0,1.0


In [20]:
# Verifica a quantidade de colunas nulas restantes
# Tratar colunas nulas do tipo string com a string 'Desconhecido'
colunas_com_nulos_string = microdados_V1.columns[microdados_V1.isnull().any()]
colunas_com_nulos_string

Index(['NO_MUNICIPIO_ESC', 'SG_UF_ESC', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TX_GABARITO_CN',
       'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT'],
      dtype='object')

In [21]:
microdados_V1[colunas_com_nulos_string] = microdados_V1[colunas_com_nulos_string].fillna('Desconhecido')
print(microdados_V1[colunas_com_nulos_string].head())

  NO_MUNICIPIO_ESC     SG_UF_ESC  \
0     Desconhecido  Desconhecido   
1     Desconhecido  Desconhecido   
2     Desconhecido  Desconhecido   
3        Fortaleza            CE   
4          Quixadá            CE   

                                 TX_RESPOSTAS_CN  \
0                                   Desconhecido   
1                                   Desconhecido   
2  DBEBDCECCBCEBBBBDBABDDBBAABCBACDBACECCBAADEBB   
3  DEEBEACCCEBDDBDCCCAEEDCBAAADBCBEEEDCDAAECBEEC   
4  AECCEAACDEABEEECDBAEEAAADDEABCBCEBACEEDCBEABD   

                                 TX_RESPOSTAS_CH  \
0                                   Desconhecido   
1                                   Desconhecido   
2  ABDEADAADCDABDCADAEABCDDCBAADCCBEBCEBEBDBEAED   
3  DDAAEEBCCDEADBCDDCBAECABEBDEBDABECECEDCDDAEED   
4  CADEBCEDDEBCBAEBADDCECACADBDEBABDBDBEEDBBEADC   

                                 TX_RESPOSTAS_LC  \
0                                   Desconhecido   
1                                   Desconhecido   
2

In [22]:
microdados_V1.columns[microdados_V1.isnull().any()]

Index([], dtype='object')

In [23]:
#==================== OTIMIZAÇÂO DE DTYPES ====================#

In [24]:
microdados_V2 = microdados_V1.copy()
del microdados_V1
gc.collect()

0

In [25]:
microdados_V2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   TP_FAIXA_ETARIA         int64  
 1   TP_SEXO                 object 
 2   TP_ESTADO_CIVIL         int64  
 3   TP_COR_RACA             int64  
 4   TP_NACIONALIDADE        int64  
 5   TP_ST_CONCLUSAO         int64  
 6   TP_ANO_CONCLUIU         int64  
 7   TP_ENSINO               float64
 8   NO_MUNICIPIO_ESC        object 
 9   SG_UF_ESC               object 
 10  TP_DEPENDENCIA_ADM_ESC  float64
 11  TP_LOCALIZACAO_ESC      float64
 12  NO_MUNICIPIO_PROVA      object 
 13  SG_UF_PROVA             object 
 14  TP_PRESENCA_CN          int64  
 15  TP_PRESENCA_CH          int64  
 16  TP_PRESENCA_LC          int64  
 17  TP_PRESENCA_MT          int64  
 18  NU_NOTA_CN              float64
 19  NU_NOTA_CH              float64
 20  NU_NOTA_LC              float64
 21  NU_NOTA_MT              float64

In [26]:
#Selecionar as colunas que podem ser convertidas para category
colunas_categoria = [
    "TP_FAIXA_ETARIA", "TP_SEXO", "TP_ESTADO_CIVIL", "TP_COR_RACA", "TP_NACIONALIDADE",
    "TP_ST_CONCLUSAO", "TP_ANO_CONCLUIU", "TP_DEPENDENCIA_ADM_ESC", "TP_ENSINO", "NO_MUNICIPIO_ESC",
    "SG_UF_ESC", "TP_LOCALIZACAO_ESC", "NO_MUNICIPIO_PROVA", "SG_UF_PROVA", "TP_PRESENCA_CN",
    "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "TP_LINGUA", "TP_STATUS_REDACAO",
    "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012",
    "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023",
    "Q024", "Q025"
]
microdados_V2[colunas_categoria] = microdados_V2[colunas_categoria].astype('category')

In [27]:
# Separar colunas por tipo de dado
print('Colunas do tipo int64:')
colunas_int64 = microdados_V2.select_dtypes(include='int64').columns
print(colunas_int64)

print('\nColunas do tipo float64:')
colunas_float64 = microdados_V2.select_dtypes(include='float64').columns
print(colunas_float64)

Colunas do tipo int64:
Index([], dtype='object')

Colunas do tipo float64:
Index(['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO'],
      dtype='object')


In [28]:
"""
Verificar se é possivel converter os valores do tipo float64 para int64
Verificar se todas as colunas do tipo float64 possuem valores inteiros
"""

resultados = {}
for coluna in colunas_float64:
    resultados[coluna] = microdados_V2[coluna].apply(lambda x: x.is_integer()).all()

for coluna, resultado in resultados.items():
    print(f'Colunas: {coluna} - Possui apenas valores inteiros: {resultado}')

Colunas: NU_NOTA_CN - Possui apenas valores inteiros: False
Colunas: NU_NOTA_CH - Possui apenas valores inteiros: False
Colunas: NU_NOTA_LC - Possui apenas valores inteiros: False
Colunas: NU_NOTA_MT - Possui apenas valores inteiros: False
Colunas: NU_NOTA_COMP1 - Possui apenas valores inteiros: True
Colunas: NU_NOTA_COMP2 - Possui apenas valores inteiros: True
Colunas: NU_NOTA_COMP3 - Possui apenas valores inteiros: True
Colunas: NU_NOTA_COMP4 - Possui apenas valores inteiros: True
Colunas: NU_NOTA_COMP5 - Possui apenas valores inteiros: True
Colunas: NU_NOTA_REDACAO - Possui apenas valores inteiros: True


In [29]:
"""
Selecionar colunas que possuem apenas valores float
Analizar valor maximo para verificar se é possivel converter para float16
Converter colunas float64 para float16
"""
colunas_float16 = [
    'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT'
]

print(f'Valor máximo encontrado: {microdados_V2[colunas_float16].max().max()}')
microdados_V2[colunas_float16] = microdados_V2[colunas_float16].astype('float16')
microdados_V2.info()

Valor máximo encontrado: 958.6
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   TP_FAIXA_ETARIA         category
 1   TP_SEXO                 category
 2   TP_ESTADO_CIVIL         category
 3   TP_COR_RACA             category
 4   TP_NACIONALIDADE        category
 5   TP_ST_CONCLUSAO         category
 6   TP_ANO_CONCLUIU         category
 7   TP_ENSINO               category
 8   NO_MUNICIPIO_ESC        category
 9   SG_UF_ESC               category
 10  TP_DEPENDENCIA_ADM_ESC  category
 11  TP_LOCALIZACAO_ESC      category
 12  NO_MUNICIPIO_PROVA      category
 13  SG_UF_PROVA             category
 14  TP_PRESENCA_CN          category
 15  TP_PRESENCA_CH          category
 16  TP_PRESENCA_LC          category
 17  TP_PRESENCA_MT          category
 18  NU_NOTA_CN              float16 
 19  NU_NOTA_CH              float16 
 20  NU_NOTA_LC     

In [30]:
"""
Restante das colunas podem ser convertidas para int64 inicialmente e depois tratada conforme a necessidade
"""

colunas_float64=microdados_V2.select_dtypes(include='float64').columns
microdados_V2[colunas_float64] = microdados_V2[colunas_float64].astype('int64')
microdados_V2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   TP_FAIXA_ETARIA         category
 1   TP_SEXO                 category
 2   TP_ESTADO_CIVIL         category
 3   TP_COR_RACA             category
 4   TP_NACIONALIDADE        category
 5   TP_ST_CONCLUSAO         category
 6   TP_ANO_CONCLUIU         category
 7   TP_ENSINO               category
 8   NO_MUNICIPIO_ESC        category
 9   SG_UF_ESC               category
 10  TP_DEPENDENCIA_ADM_ESC  category
 11  TP_LOCALIZACAO_ESC      category
 12  NO_MUNICIPIO_PROVA      category
 13  SG_UF_PROVA             category
 14  TP_PRESENCA_CN          category
 15  TP_PRESENCA_CH          category
 16  TP_PRESENCA_LC          category
 17  TP_PRESENCA_MT          category
 18  NU_NOTA_CN              float16 
 19  NU_NOTA_CH              float16 
 20  NU_NOTA_LC              float16 
 21  NU_NOTA_

In [31]:
"""
Seleciona as colunas que possuem valores int64
"""
colunas_int64 = microdados_V2.select_dtypes(include='int64').columns
colunas_int64

Index(['NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO'],
      dtype='object')

In [32]:
"""
Converter colunas do tipo string seu respectivo tipo de acordo com seu tamanho 
"""
colunas_int64 = microdados_V2.select_dtypes(include='int64').columns

for col in colunas_int64:
  if microdados_V2[col].max() <= 127:
    microdados_V2[col] = microdados_V2[col].astype('int8')
  elif microdados_V2[col].max() <= 32767:
    microdados_V2[col] = microdados_V2[col].astype('int16')
  elif microdados_V2[col].max() <= 2147483647:
    microdados_V2[col] = microdados_V2[col].astype('int32')
  else:
    microdados_V2[col] = microdados_V2[col].astype('int64')

microdados_V2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   TP_FAIXA_ETARIA         category
 1   TP_SEXO                 category
 2   TP_ESTADO_CIVIL         category
 3   TP_COR_RACA             category
 4   TP_NACIONALIDADE        category
 5   TP_ST_CONCLUSAO         category
 6   TP_ANO_CONCLUIU         category
 7   TP_ENSINO               category
 8   NO_MUNICIPIO_ESC        category
 9   SG_UF_ESC               category
 10  TP_DEPENDENCIA_ADM_ESC  category
 11  TP_LOCALIZACAO_ESC      category
 12  NO_MUNICIPIO_PROVA      category
 13  SG_UF_PROVA             category
 14  TP_PRESENCA_CN          category
 15  TP_PRESENCA_CH          category
 16  TP_PRESENCA_LC          category
 17  TP_PRESENCA_MT          category
 18  NU_NOTA_CN              float16 
 19  NU_NOTA_CH              float16 
 20  NU_NOTA_LC              float16 
 21  NU_NOTA_

In [33]:
# Extrair colunas do tipo object
colunas_object =  microdados_V2.select_dtypes(include=['object']).columns
print(colunas_object)

Index(['TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT'],
      dtype='object')


In [34]:
# # Analisar quais colunas tem a possibilidade de serem convertidas para categoria

# resultados = {}

# for col in colunas_object:
#     # Verificar se a quantidade de valores unicos é menor que 50% do total de linhas
#     if microdados_V2[col].nunique()/microdados_V2[col].shape[0] < 0.01:
#         resultados[col] = True
#     else:
#         resultados[col] = False

# for col, resultado in resultados.items():
#     print(f'Coluna: {col} - Pode ser convertida para categoria: {resultado}')



In [35]:
colunas_object = microdados_V2.select_dtypes(include=['object']).columns
colunas_object

Index(['TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT'],
      dtype='object')

In [36]:
# Converter colunas restantes do tipo object para string
colunas_object = microdados_V2.select_dtypes(include=['object']).columns
microdados_V2[colunas_object] = microdados_V2[colunas_object].astype('string')
microdados_V2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 63 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   TP_FAIXA_ETARIA         category
 1   TP_SEXO                 category
 2   TP_ESTADO_CIVIL         category
 3   TP_COR_RACA             category
 4   TP_NACIONALIDADE        category
 5   TP_ST_CONCLUSAO         category
 6   TP_ANO_CONCLUIU         category
 7   TP_ENSINO               category
 8   NO_MUNICIPIO_ESC        category
 9   SG_UF_ESC               category
 10  TP_DEPENDENCIA_ADM_ESC  category
 11  TP_LOCALIZACAO_ESC      category
 12  NO_MUNICIPIO_PROVA      category
 13  SG_UF_PROVA             category
 14  TP_PRESENCA_CN          category
 15  TP_PRESENCA_CH          category
 16  TP_PRESENCA_LC          category
 17  TP_PRESENCA_MT          category
 18  NU_NOTA_CN              float16 
 19  NU_NOTA_CH              float16 
 20  NU_NOTA_LC              float16 
 21  NU_NOTA_

In [37]:
#==================== CRIAÇÃO DE NOVAS COLUNAS ====================#

In [38]:
microdados_V3 = microdados_V2.copy()
del microdados_V2
gc.collect()

0

In [39]:
""" 
Criação de uma nova colunas para identificar se o candidato esteve presente em todos os dias de prova
Extrair colunas relacionadas a presença do candidato e somar o valor de cada coluna
Onde será preenchido com 1 se o candidato esteve presente em todos os dias de prova e 0 caso contrário
Transformar o tipo de dado para category
"""
# Definindo as condições para cada categoria de presença geral
condicao_presenca_completa = (
    (microdados_V3['TP_PRESENCA_CN'] == 1) & 
    (microdados_V3['TP_PRESENCA_CH'] == 1) & 
    (microdados_V3['TP_PRESENCA_LC'] == 1) & 
    (microdados_V3['TP_PRESENCA_MT'] == 1)
)

condicao_presenca_primeiro_dia = (
    (microdados_V3['TP_PRESENCA_LC'] == 1) & 
    (microdados_V3['TP_PRESENCA_CH'] == 1) & 
    ((microdados_V3['TP_PRESENCA_MT'] != 1) | (microdados_V3['TP_PRESENCA_CN'] != 1))
)

condicao_presenca_segundo_dia = (
    (microdados_V3['TP_PRESENCA_MT'] == 1) & 
    (microdados_V3['TP_PRESENCA_CN'] == 1) & 
    ((microdados_V3['TP_PRESENCA_LC'] != 1) | (microdados_V3['TP_PRESENCA_CH'] != 1))
)

# Criando a coluna com valores padrão (0)
microdados_V3['TP_PRESENCA_GERAL'] = 0

# Aplicando as condições na ordem correta
microdados_V3.loc[condicao_presenca_segundo_dia, 'TP_PRESENCA_GERAL'] = 3
microdados_V3.loc[condicao_presenca_primeiro_dia, 'TP_PRESENCA_GERAL'] = 2
microdados_V3.loc[condicao_presenca_completa, 'TP_PRESENCA_GERAL'] = 1

# Convertendo para category
microdados_V3['TP_PRESENCA_GERAL'] = microdados_V3['TP_PRESENCA_GERAL'].astype('category')

In [40]:
microdados_V3['TP_PRESENCA_MT'].unique()

[0, 1, 2]
Categories (3, int64): [0, 1, 2]

In [41]:
# Verificação da distribuição de valores
print("Distribuição de TP_PRESENCA_GERAL:")
print(microdados_V3['TP_PRESENCA_GERAL'].value_counts())

# Verificação com amostra de dados
verificacao = pd.DataFrame({
    'TP_PRESENCA_CN': microdados_V3['TP_PRESENCA_CN'],
    'TP_PRESENCA_CH': microdados_V3['TP_PRESENCA_CH'],
    'TP_PRESENCA_LC': microdados_V3['TP_PRESENCA_LC'],
    'TP_PRESENCA_MT': microdados_V3['TP_PRESENCA_MT'],
    'TP_PRESENCA_GERAL': microdados_V3['TP_PRESENCA_GERAL']
})

# Mostrar exemplos de cada categoria
for categoria in range(4):
    print(f"\nExemplos da categoria {categoria}:")
    print(verificacao[verificacao['TP_PRESENCA_GERAL'] == categoria].sample(3))

Distribuição de TP_PRESENCA_GERAL:
TP_PRESENCA_GERAL
1    2678264
0    1097149
2     144379
3      14163
Name: count, dtype: int64

Exemplos da categoria 0:
        TP_PRESENCA_CN TP_PRESENCA_CH TP_PRESENCA_LC TP_PRESENCA_MT  \
975193               0              0              0              0   
3002053              0              0              0              0   
899563               0              0              0              0   

        TP_PRESENCA_GERAL  
975193                  0  
3002053                 0  
899563                  0  

Exemplos da categoria 1:
        TP_PRESENCA_CN TP_PRESENCA_CH TP_PRESENCA_LC TP_PRESENCA_MT  \
2282850              1              1              1              1   
2587955              1              1              1              1   
1451943              1              1              1              1   

        TP_PRESENCA_GERAL  
2282850                 1  
2587955                 1  
1451943                 1  

Exemplos da categoria 

In [42]:
# Criação da coluna TP_PRESENCA_REDACAO
# Um candidato é considerado presente na redação se estiver presente em
# Linguagens e Códigos (LC) E Ciências Humanas (CH)
condicao_presente_redacao = (
    (microdados_V3['TP_PRESENCA_LC'] == 1) & 
    (microdados_V3['TP_PRESENCA_CH'] == 1) 
)

# Criando a coluna com valores 1 (presente) ou 0 (ausente)
microdados_V3['TP_PRESENCA_REDACAO'] = condicao_presente_redacao.astype(int).astype('category')

# Verificação rápida
print("Distribuição de presença na redação:")
print(microdados_V3['TP_PRESENCA_REDACAO'].value_counts())

Distribuição de presença na redação:
TP_PRESENCA_REDACAO
1    2822643
0    1111312
Name: count, dtype: int64


In [43]:
"""
Para calcular o desempenho, sera feito a média das notas das colunas:
NU_NOTA_COMP1
NU_NOTA_COMP2
NU_NOTA_COMP3
NU_NOTA_COMP4
NU_NOTA_COMP5
NU_NOTA_REDACAO

logo apos isso classificando em 4 categorias e criação de um dicionário para mapear as categorias:
desempenho{
    1: 'Alto',
    2: 'Médio',
    3: 'Baixo'
}
"""

# Calculando a média das notas de redação e competências
microdados_V3['NU_DESEMPENHO'] = microdados_V3[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
                                            'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean(axis=1)

# Função para mapear os valores
def map_desempenho(valor):
    if valor >= 600:    # ~20-25% dos estudantes
        return 1        # Alto
    elif valor >= 400:  # ~30-35% dos estudantes
        return 2        # Médio
    else:               # ~40-45% dos estudantes
        return 3        # Baixo

# # Aplicando a função à coluna 'NU_DESEMPENHO'
microdados_V3['NU_DESEMPENHO'] = microdados_V3['NU_DESEMPENHO'].apply(map_desempenho).astype('category')

In [44]:
microdados_V3['NU_MEDIA_GERAL'] = microdados_V3[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
                                            'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean(axis=1).astype('float16')


In [45]:
microdados_V3['NU_MEDIA_GERAL'].unique()

array([ -1. , 508. , 564.5, ...,  71.4,  72.7,  99. ], dtype=float16)

In [46]:
# Definindo as colunas de Q007 a Q025
colunas_infra = [f"Q{str(i).zfill(3)}" for i in range(7, 26)]

# Dicionário de pontuações para cada questão.

# Aplicar o mapeamento e criar colunas com "_score"
# criar colunas de score para cada Q0XX.
for col in colunas_infra:
    microdados_V3[col + "_score"] = microdados_V3[col].map(pontuacao[col])

# Criar a coluna total (infrastructure_score)
colunas_pontuacao = [col + "_score" for col in colunas_infra]
microdados_V3["NU_INFRAESTRUTURA"] = microdados_V3[colunas_pontuacao].sum(axis=1)

# Dividir em 3 faixas (Baixa, Média, Alta) usando os tercis
# Calculando os tercis (33% e 66%)
q1 = microdados_V3["NU_INFRAESTRUTURA"].quantile(0.33)
q2 = microdados_V3["NU_INFRAESTRUTURA"].quantile(0.66)

def categorizar_infra(score):
    if score >= q2:
        return 1
    elif score >= q1:
        return 2
    else:
        return 3

microdados_V3["NU_INFRAESTRUTURA"] = microdados_V3["NU_INFRAESTRUTURA"].apply(categorizar_infra).astype('category')

# Remove as colunas score de Q007 a Q025 
microdados_V3.drop(columns=colunas_pontuacao, inplace=True)

In [47]:
#==================== SALVAR DADOS TRATADOS ====================#

In [48]:
# Mapeia os tipos de dados otimizados
dtypes_dict = microdados_V3.dtypes.apply(str).to_dict()


# Salva o mapeamento em um arquivo JSON
with open('dtypes.json', 'w') as f:
    json.dump(dtypes_dict, f)

In [49]:
# Salva o conjunto de dados tratado em um novo arquivo CSV
microdados_V3.to_csv(output_file, sep=';', index=False, encoding='ISO-8859-1')