# Semana de Estatística 2023 - Universidade Federal Fluminense

Minicurso: Introdução à Teoria da Resposta ao Item

Ministrante: Profª Mariana Cúri - ICMC/USP

Notebook desenvolvido por Thiago F. Miranda - Mestrando em Estatística USP/UFSCar

---



## Notebook de download e tratamento dos dados do ENEM

Ao longo deste notebook será apresentado:

1. Como baixar os microdados do site do INEP automaticamente
2. Como ler os microdados
3. Como gerar uma amostra simples
4. Como dicotomizar as respostas
5. Como ordenar os itens a partir de múltiplos cadernos
6. Como salvar os dados amostrais
---




## 0 -  Configurações Iniciais


In [1]:
# Instalação e carga de Pacotes
if(!require(tidyverse)){install.packages("tidyverse")}; library(tidyverse)
if(!require(data.table)){install.packages("data.table")}; library(data.table)
if(!require(dtplyr)){install.packages("dtplyr")}; library(dtplyr)
if(!require(archive)){install.packages("archive")}; library(archive)
if(!require(kableExtra)){install.packages("kableExtra")}; library(kableExtra)
if(!require(IRdisplay)){install.packages("IRdisplay")}; library(IRdisplay)

Carregando pacotes exigidos: tidyverse

"package 'tidyverse' was built under R version 4.2.3"
"package 'ggplot2' was built under R version 4.2.3"
"package 'tibble' was built under R version 4.2.3"
"package 'tidyr' was built under R version 4.2.3"
"package 'readr' was built under R version 4.2.3"
"package 'purrr' was built under R version 4.2.3"
"package 'stringr' was built under R version 4.2.3"
"package 'forcats' was built under R version 4.2.3"
"package 'lubridate' was built under R version 4.2.3"
── [1mAttaching core tidyverse packages[22m ──────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.0.10     [32m✔[39m [34mreadr    [39m 2.1.4 
[32m✔[39m [34mforcats  [39m 1.0.0      [32m✔[39m [34mstringr  [39m 1.5.0 
[32m✔[39m [34mggplot2  [39m 3.4.1      [32m✔[39m [34mtibble   [39m 3.2.1 
[32m✔[39m [34mlubridate[39m 1.9.2      [32m✔[39m [34mtidyr    [39m 1.3.0 
[32m✔[39m [34mpurrr    [39m 1.0.1

In [2]:
# Definições necessárias para download, leitura, amostragem e organização dos dados
pasta <- "TRI ENEM/"
ano <- "2022"
area <- "MT"
provas <- c(1075,1076,1077,1078)
tamanho_amostral <- 1000
min_respostas_validas <- 8

## 1 -  Download dos Dados

Os microdados do ENEM são disponibilizados em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

In [3]:
# Função de download e descompactação dos microdados
# Caso os dados zip já estejam presentes no diretório definido na variável pasta esta função apenas realizará o unzip dos dados 
# O tempo de download pode variar de acordo com a sua internet
download_enem <- function(ano,dir){
  options(timeout = max(90000, getOption("timeout")))

  link <- paste0("https://download.inep.gov.br/microdados/microdados_enem_",ano,".zip")

  file <- paste0(dir,"ENEM/",ano,"/microdados_enem_",ano,".zip")

  path <- paste0(dir,"ENEM/",ano)
  if(!dir.exists(path)){dir.create(path,recursive = T)}

  if(!file.exists(file)){download.file(url = link, destfile = file)}

  archive_extract(file,dir = path)

}

download_enem(ano,pasta)

⠙ 116 extracted | 861 MB (392 MB/s) | 2.2s
⠹ 116 extracted | 948 MB (395 MB/s) | 2.4s
⠸ 116 extracted | 1.0 GB (398 MB/s) | 2.6s
⠼ 116 extracted | 1.1 GB (400 MB/s) | 2.8s
⠴ 116 extracted | 1.2 GB (402 MB/s) | 3s  
⠦ 116 extracted | 1.3 GB (403 MB/s) | 3.2s
⠧ 116 extracted | 1.4 GB (405 MB/s) | 3.4s
⠇ 116 extracted | 1.5 GB (406 MB/s) | 3.6s
⠏ 116 extracted | 1.6 GB (407 MB/s) | 3.8s
⠋ 116 extracted | 1.6 GB (408 MB/s) | 4s  
⠙ 116 extracted | 1.7 GB (410 MB/s) | 4.2s
⠹ 116 extracted | 1.8 GB (411 MB/s) | 4.4s
⠸ 117 extracted | 2.0 GB (423 MB/s) | 4.6s
                                          



## 2 - Lendo dados


In [4]:
# Lendo Itens
arquivo_itens <- paste0(pasta,"ENEM/",ano,"/DADOS/ITENS_PROVA_",ano,".csv")

itens <- fread(input=arquivo_itens,integer64='character',encoding = "Latin-1")

In [5]:
# Organizando dados de itens
itens <- itens  |>
  mutate(area_prova = area) |>
  mutate(CO_POSICAO = case_when(    # A posição original é de 1 a 180, precisa ser de 1 a 45
    area_prova == "LC" ~ CO_POSICAO - 0,   # Primeiro grupo de itens
    area_prova == "CH" ~ CO_POSICAO - 45,  # Segundo grupo de itens
    area_prova == "CN" ~ CO_POSICAO - 90,  # Terceiro grupo de itens
    area_prova == "MT" ~ CO_POSICAO - 135  # Quarto grupo de itens
    )) |>
  filter(CO_PROVA %in% provas) |>
  dplyr::select(CO_POSICAO, CO_ITEM, CO_HABILIDADE,TX_COR,CO_PROVA,TX_GABARITO) |>
  mutate(CO_ITEM = paste0("I_",str_pad(CO_ITEM,width = 6,side = "left",pad = "0"))) |>
  arrange(CO_ITEM) |>
  as.data.frame()

In [6]:
head(itens)

Unnamed: 0_level_0,CO_POSICAO,CO_ITEM,CO_HABILIDADE,TX_COR,CO_PROVA,TX_GABARITO
Unnamed: 0_level_1,<dbl>,<chr>,<int>,<chr>,<int>,<chr>
1,8,I_005961,7,AZUL,1075,D
2,23,I_005961,7,AMARELA,1076,D
3,26,I_005961,7,ROSA,1077,D
4,38,I_005961,7,CINZA,1078,D
5,25,I_008364,6,AZUL,1075,A
6,43,I_008364,6,AMARELA,1076,A


In [7]:
# Lendo Respostas
arquivo_respostas <- paste0(pasta,"ENEM/",ano,"/DADOS/MICRODADOS_ENEM_",ano,".csv")

respostas <- fread(
  arquivo_respostas,
  integer64='character',
  skip=0,  #Ler do inicio
  nrow=-1, #Ler todos os registros
  na.strings = "",
  showProgress = TRUE,
  encoding = "Latin-1")

In [8]:
head(respostas)

NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,⋯,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
<chr>,<int>,<int>,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,⋯,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
210057943671,2022,14,M,2,2,1,1,2,1,⋯,B,A,A,A,A,A,A,A,A,A
210057516120,2022,14,M,2,1,1,1,16,1,⋯,E,E,B,E,B,B,E,B,E,B
210057280536,2022,5,F,1,2,1,1,2,1,⋯,A,A,A,A,A,A,C,A,A,B
210055724397,2022,6,M,1,3,1,1,2,1,⋯,B,A,A,C,A,A,C,B,B,B
210055097896,2022,4,M,0,3,1,1,1,1,⋯,A,A,A,A,A,A,B,A,A,A
210057850231,2022,5,F,1,3,1,1,2,1,⋯,B,A,A,C,A,B,D,A,A,B



## 3 - Gerando amostra


In [9]:
# Filtrando Presença e Gerando Amostra
set.seed(12345)
amostra <- respostas |>
  lazy_dt() |>
  mutate(respostas_validas = str_count(!!sym(paste0("TX_RESPOSTAS_",area)),"A|B|C|D|E")) |>
  filter(respostas_validas >= min_respostas_validas) |>
  filter(!!sym(paste0("TP_PRESENCA_",area)) == 1) |>
  filter(!!sym(paste0("CO_PROVA_",area)) %in% provas) |>
  sample_n(tamanho_amostral, replace = FALSE) |>       # Gerando amostra
  dplyr::select(NU_INSCRICAO, !!sym(paste0("CO_PROVA_",area)), !!sym(paste0("TX_RESPOSTAS_",area)), !!sym(paste0("TX_GABARITO_",area))) |>
  as.data.frame()

# Removendo base original por questões de memória RAM
rm(respostas)
gc()

Unnamed: 0,used,(Mb),gc trigger,(Mb).1,max used,(Mb).2
Ncells,1157508,61.9,18626836,994.8,14864466,793.9
Vcells,212471692,1621.1,852549758,6504.5,934875873,7132.6


In [10]:
head(amostra)

Unnamed: 0_level_0,NU_INSCRICAO,CO_PROVA_MT,TX_RESPOSTAS_MT,TX_GABARITO_MT
Unnamed: 0_level_1,<chr>,<int>,<chr>,<chr>
1,210058008518,1077,AECCCAECACEAAEDDBBABBACDDBDABEDEBCCEDAEADBDCD,CCCCBXCBABECBEABDDDBDECDBDCAACEECCEBDBAAAEDAE
2,210055443843,1076,AAACDCEEECACABCCCDEBCDABEBABBEDBBCDDAEBDECCCC,DBAAACEBEDAECCBECDEECBDCABECBEABDDCCDBDXCBAAC
3,210057034159,1078,BAACCCBEECBBECACCDEBEDBACBBEDBAEADEEDCABEBCBE,BEEDAEABDDCEBDBAAAAACXCBCCCBCCDBDEECBDCABEECD
4,210055364900,1075,CBDBEDECACDBEDBCBDAEDBBDCADBCCAECDBDCADCBDDAC,ECDABEBDCEECDBDCCCCBCXCBAACDBAAACEBABDDEDAEBE
5,210056080871,1077,DEBBAAECACDEBCABDCABDCBBBDBEDDECEBBEDCEDAEEAC,CCCCBXCBABECBEABDDDBDECDBDCAACEECCEBDBAAAEDAE
6,210056879478,1076,BBDAEABAEAACDABBAEDACACEDCBBBEABADCACEADBAEDC,DBAAACEBEDAECCBECDEECBDCABECBEABDDCCDBDXCBAAC


## 4 - Dicotomizando amostra

In [11]:
# Função para dicotomizar respostas
dicotomizar <- function(responses,corrections){
  dic_matrix <- (str_split(responses,pattern = "",simplify = T)==str_split(corrections,pattern = "",simplify = T))*1

  apply(dic_matrix, 1, str_flatten)
}

# Dicotomizando repostas
amostra_dicotomizada <- amostra |>
  lazy_dt() |>
  mutate(!!sym(paste0("TX_CORRECAO_",area)) := dicotomizar(!!sym(paste0("TX_RESPOSTAS_",area)),!!sym(paste0("TX_GABARITO_",area)))) |>
  # mutate(TX_CORRECAO_MT = dicotomizar(TX_RESPOSTAS_MT,TX_GABARITO_MT)) |> # <- similar 
  as.data.frame()

# Além da dicotomização é necessário separar o vetor de respostas originais em colunas
amostra_respostas_split <- str_split(amostra_dicotomizada[,paste0("TX_RESPOSTAS_",area)],pattern = "",simplify = T) |> 
  data.frame() |>
  setNames(paste0("r_item_",str_pad( 1:45,2,"left","0")))

# e também separar em colunas o vetor de respostas dicotomizadas
amostra_correcao_split <- str_split(amostra_dicotomizada[,paste0("TX_CORRECAO_",area)],pattern = "",simplify = T) |> 
  data.frame() |>
  setNames(paste0("c_item_",str_pad( 1:45,2,"left","0")))

# Juntando em um mesmo data.frame
amostra_dicotomizada <- bind_cols(amostra_dicotomizada,amostra_respostas_split,amostra_correcao_split)

In [12]:
head(amostra_dicotomizada)

Unnamed: 0_level_0,NU_INSCRICAO,CO_PROVA_MT,TX_RESPOSTAS_MT,TX_GABARITO_MT,TX_CORRECAO_MT,r_item_01,r_item_02,r_item_03,r_item_04,r_item_05,⋯,c_item_36,c_item_37,c_item_38,c_item_39,c_item_40,c_item_41,c_item_42,c_item_43,c_item_44,c_item_45
Unnamed: 0_level_1,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,⋯,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,210058008518,1077,AECCCAECACEAAEDDBBABBACDDBDABEDEBCCEDAEADBDCD,CCCCBXCBABECBEABDDDBDECDBDCAACEECCEBDBAAAEDAE,001100001010010000010011000100010100100100100,A,E,C,C,C,⋯,0,1,0,0,1,0,0,1,0,0
2,210055443843,1076,AAACDCEEECACABCCCDEBCDABEBABBEDBBCDDAEBDECCCC,DBAAACEBEDAECCBECDEECBDCABECBEABDDCCDBDXCBAAC,001001101010000011101000010011010000000000001,A,A,A,C,D,⋯,0,0,0,0,0,0,0,0,0,1
3,210057034159,1078,BAACCCBEECBBECACCDEBEDBACBBEDBAEADEEDCABEBCBE,BEEDAEABDDCEBDBAAAAACXCBCCCBCCDBDEECBDCABEECD,100000000000000000000000100000000010000000000,B,A,A,C,C,⋯,0,0,0,0,0,0,0,0,0,0
4,210055364900,1075,CBDBEDECACDBEDBCBDAEDBBDCADBCCAECDBDCADCBDDAC,ECDABEBDCEECDBDCCCCBCXCBAACDBAAACEBABDDEDAEBE,001000000000000100000000010000101010001000000,C,B,D,B,E,⋯,0,0,0,1,0,0,0,0,0,0
5,210056080871,1077,DEBBAAECACDEBCABDCABDCBBBDBEDDECEBBEDCEDAEEAC,CCCCBXCBABECBEABDDDBDECDBDCAACEECCEBDBAAAEDAE,000000001000101110011000110000100000100011010,D,E,B,B,A,⋯,0,1,0,0,0,1,1,0,1,0
6,210056879478,1076,BBDAEABAEAACDABBAEDACACEDCBBBEABADCACEADBAEDC,DBAAACEBEDAECCBECDEECBDCABECBEABDDCCDBDXCBAAC,010100001010001000001000000011110110000000001,B,B,D,A,E,⋯,0,0,0,0,0,0,0,0,0,1


## 5 - Ordenando itens da amostra

In [13]:
# Os itens do ENEM são ordenados de acordo com cada caderno
# Se a análise estiver interessada em múltiplos cadernos, é necessário reordenar os itens
# Fazemos isso apenas pivotando os dados e adicionando a informação dos itens com um join

# Faremos isso em duas etapas, primeiro para as respostas originais
amostra_resposta_ordenada <- amostra_dicotomizada |> 
  rename(CO_PROVA = !!sym(paste0("CO_PROVA_",area))) |>
  dplyr::select(NU_INSCRICAO,CO_PROVA, r_item_01:r_item_45) |>
  pivot_longer(r_item_01:r_item_45,names_to = "CO_POSICAO",values_to = "RESPOSTA") |>
  lazy_dt() |>
  mutate(CO_POSICAO  = as.numeric(str_remove(CO_POSICAO ,"r_item_"))) |>
  left_join(dplyr::select(itens, CO_PROVA, CO_POSICAO, CO_ITEM), by = c("CO_PROVA","CO_POSICAO")) |>
  dplyr::select(NU_INSCRICAO,CO_ITEM,RESPOSTA) |>
  arrange(NU_INSCRICAO,CO_ITEM)|>
  as.data.frame() |>
  pivot_wider(names_from = "CO_ITEM",values_from = "RESPOSTA")

In [14]:
head(amostra_resposta_ordenada)

NU_INSCRICAO,I_005961,I_008364,I_010322,I_010409,I_010500,I_014797,I_019807,I_028683,I_030053,⋯,I_096315,I_097590,I_111516,I_111738,I_117651,I_117742,I_117820,I_117877,I_117886,I_117973
<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,⋯,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
210054479192,E,B,C,D,A,A,A,B,A,⋯,C,E,A,B,B,C,E,C,C,A
210054483969,B,A,A,E,D,A,D,A,C,⋯,A,C,C,.,.,.,.,B,.,A
210054484198,B,E,C,D,D,C,B,A,C,⋯,A,B,B,C,C,B,B,A,D,C
210054484386,D,C,C,B,C,B,C,A,D,⋯,A,C,E,A,D,C,B,D,D,B
210054491071,B,D,A,B,D,B,C,B,D,⋯,C,B,D,D,D,B,D,D,D,C
210054491537,C,B,B,D,A,D,E,C,B,⋯,C,C,B,D,B,B,A,C,D,B


In [15]:
# Agora fazendo o mesmo para as repostas dicotomizadas
amostra_correcao_ordenada <- amostra_dicotomizada |> 
  rename(CO_PROVA = !!sym(paste0("CO_PROVA_",area))) |>
  dplyr::select(NU_INSCRICAO,CO_PROVA, c_item_01:c_item_45) |>
  pivot_longer(c_item_01:c_item_45,names_to = "CO_POSICAO",values_to = "RESPOSTA") |>
  lazy_dt() |>
  mutate(CO_POSICAO  = as.numeric(str_remove(CO_POSICAO ,"c_item_"))) |>
  left_join(dplyr::select(itens, CO_PROVA, CO_POSICAO, CO_ITEM), by = c("CO_PROVA","CO_POSICAO")) |>
  mutate(RESPOSTA = as.numeric(RESPOSTA)) |>
  dplyr::select(NU_INSCRICAO,CO_ITEM,RESPOSTA) |>
  arrange(NU_INSCRICAO,CO_ITEM)|>
  as.data.frame() |>
  pivot_wider(names_from = "CO_ITEM",values_from = "RESPOSTA")

In [16]:
head(amostra_correcao_ordenada)

NU_INSCRICAO,I_005961,I_008364,I_010322,I_010409,I_010500,I_014797,I_019807,I_028683,I_030053,⋯,I_096315,I_097590,I_111516,I_111738,I_117651,I_117742,I_117820,I_117877,I_117886,I_117973
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
210054479192,0,0,1,0,0,0,0,0,0,⋯,0,1,0,1,0,0,0,0,0,1
210054483969,0,1,0,1,0,0,0,1,1,⋯,1,0,1,0,0,0,0,1,0,1
210054484198,0,0,1,0,0,0,0,1,1,⋯,1,0,0,0,0,1,0,0,1,0
210054484386,1,0,1,0,0,0,0,1,0,⋯,1,0,0,0,0,0,0,0,1,0
210054491071,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,1,0,0,1,0
210054491537,0,0,0,0,0,1,1,0,0,⋯,0,0,0,0,0,1,0,0,1,0


## 6 - Salvando amostra

In [17]:
# Por fim, salvaremos os nossos dados para análises TCT e TRI em uma pasta chamada AMOSTRA
if(!dir.exists(paste0(pasta,"AMOSTRA/",ano))){dir.create(paste0(pasta,"AMOSTRA/",ano),recursive = T)}

fwrite(x = amostra,file = paste0(pasta,"AMOSTRA/",ano,"/amostra.csv"))
fwrite(x = amostra_resposta_ordenada,file = paste0(pasta,"AMOSTRA/",ano,"/amostra_resposta_ordenada.csv"))
fwrite(x = amostra_correcao_ordenada,file = paste0(pasta,"AMOSTRA/",ano,"/amostra_correcao_ordenada.csv"))

fwrite(x = itens,file = paste0(pasta,"AMOSTRA/",ano,"/itens.csv"))