# Tratamento de Dados do Dataset de Hábitos de Estudos

O objetivo dessa análise é tratar o dataset de hábitos de estudo dos participantes, de forma a usar esses parâmetros no modelo de previsão

## Baixando dados

In [56]:
# Bibliotecas importantes
import pandas as pd
import numpy as np

In [57]:
df = pd.read_csv("microdados_enem_2022/DADOS/QUEST_HAB_ESTUDO.csv", delimiter=";")
df.head()

Unnamed: 0,NU_INSCRICAO,TP_RESPOSTA,Q001,Q002,Q003,Q004,Q005,Q006,Q007,Q008,...,Q033B,Q033C,Q033D,Q033E,Q033F,Q033G,Q033H,Q033I,Q033J,Q034
0,210054478229,2,,,,,,,,,...,,,,,,,,,,
1,210054478230,1,D,,D,C,A,B,B,A,...,B,B,B,B,B,A,B,B,B,A
2,210054478234,1,D,,E,E,C,C,C,B,...,,,,,,,,,,B
3,210054478235,0,,,,,,,,,...,,,,,,,,,,
4,210054478236,1,A,A,B,D,B,B,B,B,...,B,B,B,B,B,A,B,B,A,B


In [58]:
# Tamanho original
original = len(df)
original

2467086

In [59]:
# Vários alunos não respondem a pesquisa. Já vamos deletar aqueles que não responderam para ter noção de quantos dados temos
df.dropna(inplace=True)
apos_remocao = len(df)
apos_remocao

78241

In [60]:
# Porcentagem
100 * apos_remocao / original

3.171393295572185

Como podemos ver, temos apenas 3% dos dados originais. Isso dificulta bastante a análise, não só pelo tamanho pequeno do dataset, como também é provável que essa amostra não seja muito representativa.
<br><br>
De qualquer forma, esses dados serão tratados e guardados, e uma análise será feita a parte para avaliar a representatividade dessa amostra.

## Algumas análises

Analisando o dicionário de dados, não fica muito claro se algumas perguntas são de múltipla escolha ou não. Isso será avaliado aqui.

In [61]:
# Q025 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q025"+letra for letra in "ABCDEF"]
df[colunas]

Unnamed: 0,Q025A,Q025B,Q025C,Q025D,Q025E,Q025F
20,B,A,B,A,B,B
44,B,B,B,A,B,B
70,B,B,A,B,A,B
85,B,A,B,B,B,B
111,B,A,A,B,B,B
...,...,...,...,...,...,...
2466795,B,B,B,B,A,A
2466804,B,A,B,B,A,B
2466885,B,B,B,B,A,B
2466981,B,A,A,B,B,B


In [62]:
# Q026 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q026"+letra for letra in "ABCDEFGH"]
df[colunas]

Unnamed: 0,Q026A,Q026B,Q026C,Q026D,Q026E,Q026F,Q026G,Q026H
20,B,B,A,A,B,B,B,B
44,B,B,A,B,B,B,B,B
70,B,B,A,A,B,B,B,B
85,B,A,B,B,B,B,B,B
111,B,B,B,A,B,B,A,B
...,...,...,...,...,...,...,...,...
2466795,B,B,B,B,B,B,A,B
2466804,B,B,A,B,B,B,A,B
2466885,A,B,B,B,B,B,B,B
2466981,B,B,B,A,B,B,B,B


In [63]:
# Q028 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q028"+letra for letra in "ABCDEFGHIJLMNOPQR"]
df[colunas]

Unnamed: 0,Q028A,Q028B,Q028C,Q028D,Q028E,Q028F,Q028G,Q028H,Q028I,Q028J,Q028L,Q028M,Q028N,Q028O,Q028P,Q028Q,Q028R
20,A,A,A,A,B,B,B,B,B,B,B,B,B,B,B,B,B
44,B,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B
70,A,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B
85,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B
111,B,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2466795,B,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,A
2466804,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,A
2466885,B,A,B,B,B,B,B,B,A,B,B,B,B,B,B,B,B
2466981,B,A,A,B,B,A,A,A,A,A,B,B,B,B,B,B,B


In [64]:
# Q030 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q030"+letra for letra in "ABCDEFG"]
df[colunas]

Unnamed: 0,Q030A,Q030B,Q030C,Q030D,Q030E,Q030F,Q030G
20,A,A,B,B,B,B,B
44,A,B,B,B,B,B,B
70,A,A,B,B,B,B,B
85,A,B,A,B,B,B,B
111,B,A,B,B,B,B,B
...,...,...,...,...,...,...,...
2466795,A,B,B,A,B,B,B
2466804,B,B,B,A,B,B,B
2466885,B,A,B,B,B,B,B
2466981,B,A,A,B,B,B,B


In [65]:
# Q032 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q032"+letra for letra in "ABCDEFG"]
df[colunas]

Unnamed: 0,Q032A,Q032B,Q032C,Q032D,Q032E,Q032F,Q032G
20,A,B,A,B,B,B,B
44,A,B,B,B,B,B,B
70,A,B,B,B,A,B,B
85,A,B,B,B,B,B,B
111,B,B,B,B,A,B,B
...,...,...,...,...,...,...,...
2466795,A,B,B,B,B,A,B
2466804,B,B,B,B,B,A,B
2466885,A,B,B,B,B,B,B
2466981,A,B,B,A,B,B,B


In [66]:
# Q033 (A = Sim, B = Não); note que há linhas com mais de um A, então é múltipla escolha
colunas = ["Q033"+letra for letra in "ABCDEFGHIJ"]
df[colunas]

Unnamed: 0,Q033A,Q033B,Q033C,Q033D,Q033E,Q033F,Q033G,Q033H,Q033I,Q033J
20,B,A,A,B,B,B,B,B,B,B
44,B,B,A,B,B,B,B,B,B,B
70,B,B,A,B,B,B,B,B,B,A
85,A,B,B,B,B,B,B,B,B,B
111,B,A,B,B,B,B,B,B,B,B
...,...,...,...,...,...,...,...,...,...,...
2466795,A,B,B,B,B,B,B,B,B,B
2466804,B,B,B,B,B,A,B,B,B,B
2466885,B,B,B,B,B,B,B,B,B,A
2466981,B,A,A,B,B,B,B,B,B,B


In [67]:
# Analisando uso da pergunta auxiliar
colunas = ["Q032"+letra for letra in "ABCDEFG"]
df[colunas][df["Q031"] == "B"]

Unnamed: 0,Q032A,Q032B,Q032C,Q032D,Q032E,Q032F,Q032G
146923,B,B,B,B,A,B,B
264168,B,B,A,B,B,B,B
280591,A,B,B,B,B,B,B
922445,A,B,B,B,B,A,B
1048777,B,B,A,B,A,B,B
1103088,B,B,B,B,A,B,B
1524574,A,B,B,B,B,B,B
2207136,A,B,B,B,A,B,B
2315520,B,B,B,B,A,B,B
2454317,A,B,B,B,A,B,B


Note que todas as perguntas analisando eram de fato de múltipla escolha. Assim, elas serão condensadas em apenas uma coluna por pergunta, que será a soma de respostas "Sim".
<br><br>
A pergunta auxiliar (que vem antes da múltipla escolha só para saber se o participante precisou ou não daquilo) não parece afetar a pergunta de múltipla escolha correspondente, então ela será removida.

## Limpando os dados

### Removendo colunas desnecessárias

Aqui serão removidos os parâmetros desnecessários (a maioria são as perguntas auxiliares mencionadas anteriormente).

In [68]:
# Analisando o tipo de resposta ao questionário
df["TP_RESPOSTA"].unique()

array([1, 2])

In [69]:
# Esse valor apenas diz se a pessoa respondeu o questionário ou não (Não = 0). Como já removemos as que não responderam, pode ser eliminada
df.drop("TP_RESPOSTA", axis=1, inplace=True)

In [70]:
# Removendo as perguntas auxiliares julgadas desnecessárias
colunas = ["Q027", "Q029", "Q031"]
df.drop(colunas, axis=1, inplace=True)

### Perguntas com múltiplas respostas

Aqui serão tratadas as perguntas que possuem uma resposta não binária (ou seja, não é simplesmente sim ou não). Elas apresentam uma certa ordem (por exemplo, de nenhum estudo para muito estudo), então serão tratadas usando ordinal encoding (0, 1, 2, ...).
<br><br>
Elas serão englobadas conforme sessões.
<br><br>
Elas são as questões 1-4, 5-8, 9-20, 21-22, 23-24, 34.

In [71]:
# No caso das questões 1-4 e 34, por serem bem diferentes, será feito um ordinal enconding para cada uma.
questoes = ["Q001", "Q002", "Q003", "Q004", "Q034"]
conversao = {"A": 0, "B": 1, "C": 2, "D": 3, "E": 4, "F": 5}
for questao in questoes:
    df[questao].replace(conversao, inplace=True)

In [72]:
# Para as outras sessões, serão calculadas fazendo uma média (A = 0, B = 1, C = 2, D = 3)
# Será criado um novo parametro com o nome da sessao
def media_respostas (df, questoes, sessao, conversao={"A": 0, "B": 1, "C": 2, "D": 3}):
    df[sessao] = 0
    # somatorio
    for questao in questoes:
        df[questao].replace(conversao, inplace=True)
        df[sessao] = df[sessao] + df[questao]
    df[sessao] = df[sessao] / len(questoes)
    df.drop(questoes, axis=1, inplace=True)

In [73]:
# Fazendo media das sessoes de interesse
sessoes = {
    "PANDEMIA_GESTAO": [f"Q{numero:03d}" for numero in range(5,9)],
    "PANDEMIA_PRATICAS": [f"Q{numero:03d}" for numero in range(9,21)],
    "GESTAO": [f"Q{numero:03d}" for numero in range(21,23)],
    "PRATICAS": [f"Q{numero:03d}" for numero in range(23,25)]
}
for sessao, questoes in sessoes.items():
    media_respostas(df, questoes, sessao)

In [74]:
df

Unnamed: 0,NU_INSCRICAO,Q001,Q002,Q003,Q004,Q025A,Q025B,Q025C,Q025D,Q025E,...,Q033F,Q033G,Q033H,Q033I,Q033J,Q034,PANDEMIA_GESTAO,PANDEMIA_PRATICAS,GESTAO,PRATICAS
20,210054478262,0,0,1,2,B,A,B,A,B,...,B,B,B,B,B,1,0.00,0.833333,0.0,0.0
44,210054478303,1,0,0,2,B,B,B,A,B,...,B,B,B,B,B,1,1.25,1.000000,1.0,1.0
70,210054478359,1,1,1,2,B,B,A,B,A,...,B,B,B,B,A,0,0.25,0.416667,1.0,0.5
85,210054478399,1,0,1,2,B,A,B,B,B,...,B,B,B,B,B,1,0.75,1.083333,1.0,1.0
111,210054478443,0,0,1,2,B,A,A,B,B,...,B,B,B,B,B,2,2.25,2.333333,2.5,2.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2466795,210058025661,2,2,0,2,B,B,B,B,A,...,B,B,B,B,B,2,1.50,1.500000,1.0,1.5
2466804,210058025675,1,0,1,4,B,A,B,B,A,...,A,B,B,B,B,2,1.75,1.583333,2.0,1.5
2466885,210058025787,0,0,0,2,B,B,B,B,A,...,B,B,B,B,A,1,0.75,1.083333,0.5,2.0
2466981,210058025920,0,0,1,2,B,A,A,B,B,...,B,B,B,B,B,1,2.00,1.416667,2.5,1.0


### Pergunta de múltipla escolha

Essas perguntas possuem resposta binária (sim ou não), só que são divididas em várias colunas. Elas serão condensadas em apenas uma, que será a soma das respostas escolhidas para aquela pergunta.
<br><br>
Elas são as questões 25, 26, 28, 30, 32 e 33.

In [75]:
# função que faz a soma dos valores na coluna da questão dada
# precisa saber quais letras tem de opção
def soma_respostas (df, questao, letras):
    # Essas questões usam A como sim e B como não. Esse dicionário faz essa conversão
    conversao = {"A": 1, "B": 0}
    colunas = [questao+letra for letra in letras]
    df[questao] = 0
    for col in colunas:
        df[col].replace(conversao, inplace=True)
        df[questao] = df[questao] + df[col]
    df.drop(colunas, axis=1, inplace=True)

In [76]:
# questões e suas alternativas
perguntas = {
    "Q025": "ABCDEF",
    "Q026": "ABCDEFGH",
    "Q028": "ABCDEFGHIJKLMNOPQR",
    "Q030": "ABCDEFG",
    "Q032": "ABCDEFG",
    "Q033": "ABCDEFGHIJ"
}

for questao, letras in perguntas.items():
    soma_respostas(df, questao, letras)

In [77]:
df

Unnamed: 0,NU_INSCRICAO,Q001,Q002,Q003,Q004,Q034,PANDEMIA_GESTAO,PANDEMIA_PRATICAS,GESTAO,PRATICAS,Q025,Q026,Q028,Q030,Q032,Q033
20,210054478262,0,0,1,2,1,0.00,0.833333,0.0,0.0,2,2,4,2,2,2
44,210054478303,1,0,0,2,1,1.25,1.000000,1.0,1.0,1,1,1,1,1,1
70,210054478359,1,1,1,2,0,0.25,0.416667,1.0,0.5,2,2,2,2,2,2
85,210054478399,1,0,1,2,1,0.75,1.083333,1.0,1.0,1,1,1,2,1,1
111,210054478443,0,0,1,2,2,2.25,2.333333,2.5,2.5,2,2,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2466795,210058025661,2,2,0,2,2,1.50,1.500000,1.0,1.5,2,1,2,2,2,1
2466804,210058025675,1,0,1,4,2,1.75,1.583333,2.0,1.5,2,2,1,1,1,1
2466885,210058025787,0,0,0,2,1,0.75,1.083333,0.5,2.0,1,1,2,1,1,1
2466981,210058025920,0,0,1,2,1,2.00,1.416667,2.5,1.0,2,1,8,2,2,2


In [78]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 78241 entries, 20 to 2467051
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   NU_INSCRICAO       78241 non-null  int64  
 1   Q001               78241 non-null  int64  
 2   Q002               78241 non-null  int64  
 3   Q003               78241 non-null  int64  
 4   Q004               78241 non-null  int64  
 5   Q034               78241 non-null  int64  
 6   PANDEMIA_GESTAO    78241 non-null  float64
 7   PANDEMIA_PRATICAS  78241 non-null  float64
 8   GESTAO             78241 non-null  float64
 9   PRATICAS           78241 non-null  float64
 10  Q025               78241 non-null  int64  
 11  Q026               78241 non-null  int64  
 12  Q028               78241 non-null  int64  
 13  Q030               78241 non-null  int64  
 14  Q032               78241 non-null  int64  
 15  Q033               78241 non-null  int64  
dtypes: float64(4), int64(12)

In [79]:
df.dtypes

NU_INSCRICAO           int64
Q001                   int64
Q002                   int64
Q003                   int64
Q004                   int64
Q034                   int64
PANDEMIA_GESTAO      float64
PANDEMIA_PRATICAS    float64
GESTAO               float64
PRATICAS             float64
Q025                   int64
Q026                   int64
Q028                   int64
Q030                   int64
Q032                   int64
Q033                   int64
dtype: object

## Conclusão

Agora todas as colunas são do tipo numérica (a única que ainda é categórica é o número de inscrição, que será usado para combinar com outro dataset) e sem valores nulos, o que é conveniente para o uso do modelo de previsão.
<br><br>
É importante ficar atento ao tamanho atual do dataset, que é apenas 3% do original. Embora ainda seja um dataset de tamanho considerável (78 mil observações), exite o perigo do dataset ter perdido a representatividade ao fazer isso.

In [80]:
# Salvando dataset
df.to_csv("habitos_estudo_tratado.csv", index=False)