## Trabalho de Conclusão de Curso - Análise Exploratória e Modelagem Preditiva do Desempenho em Matemática do 9º ano em escolas públicas com base nos dados do SAEB (2019–2023)
Para a análise exploratória e aplicação de métodos de aprendizado de máquina as seguintes bibliotecas e módulos foram utilizados: 

In [1]:
import os
import pandas as pd
import numpy as np
import sys
import gc

!pip install openpyxl



### REPRESENTAÇÃO DO CONJUNTO DE DADOS
<!-- O dataset primário analisado neste notebook é o Questionário Escolar do Programa de Avaliação Internacional de Estudantes (PISA) 2018 da Organização para Cooperação e Desenvolvimento Econômico (OCDE) (daqui em diante referido como o "Dataset Escolar PISA 2018"), publicado no site da comunidade de ciência de dados Kaggle em 9 de julho de 2021. Ele contém as respostas dos países que responderam ao Questionário Escolar PISA 2018, que abrange áreas relacionadas ao contexto das escolas, sua gestão, seu corpo docente, o desempenho de seus alunos nas avaliações e seus climas, bem como informações sobre grupos específicos, como aprendizes multiculturais (OCDE, 2017). --> 

### 1. Coleta de dados 
Esta seção descreve o processo de coleta de dados realizado para construir os conjuntos de dados, juntamente com as implicações dos métodos de coleta de dados sobre as conclusões e insights gerados ao final da análise de dados.

### 1.1 Estrutura do conjunto de dados
Esta seção descreve as estruturas e conteúdos dos conjuntos de dados utilizados, incluindo o número de linhas e colunas e descrições das observações e variáveis. Eles foram carregados em um pandas.DataFrame, e como já estão fornecidos como um arquivo CSV, podem ser carregados facilmente usando a função read_csv().

#### SAEB 2019

In [2]:
gc.collect
df_saeb_2019 = pd.read_csv("2019/TS_ALUNO_9EF.csv",  encoding='latin-1', sep=";", dtype='category')
#df_saeb_2019

Informações gerais sobre o conjunto de dados:
Como ele contém mais de 100 colunas (o valor padrão de display.max_info_columns), o parâmetro verbose de info() foi definido como True para exibir todas as colunas de dados. Pelo mesmo motivo, o parâmetro null_counts também foi explicitamente definido como True.

In [3]:
df_saeb_2019.info(verbose=True, show_counts = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2388931 entries, 0 to 2388930
Data columns (total 129 columns):
 #    Column                         Non-Null Count    Dtype 
---   ------                         --------------    ----- 
 0    ID_SAEB                        2388931 non-null  object
 1    ID_REGIAO                      2388931 non-null  object
 2    ID_UF                          2388931 non-null  object
 3    ID_MUNICIPIO                   2388931 non-null  object
 4    ID_AREA                        2388931 non-null  object
 5    ID_ESCOLA                      2388931 non-null  object
 6    IN_PUBLICA                     2388931 non-null  object
 7    ID_LOCALIZACAO                 2388931 non-null  object
 8    ID_TURMA                       2388931 non-null  object
 9    ID_SERIE                       2388931 non-null  object
 10   ID_ALUNO                       2388931 non-null  object
 11   IN_SITUACAO_CENSO              2388931 non-null  object
 12   IN_PREENCHIM

O conjunto de dados contém 2388931 observações (linhas) em 129 variáveis (colunas). Cada observação corresponde a um aluno do 9° ano participante na 
avaliação em 2019, e as variáveis correspondem a coleta de informações que possam avaliar os eixos do SAEB como equidade (nível socioeconômico dos estudantes, perfil individual e familiar) e atendimento escolar (acesso e trajetória escolar) e desempenho nas provas.
As variáveis e esquemas de codificação para respostas categóricas selecionadas são os seguintes:

In [4]:
dicionario_2019 = pd.read_excel(r"2019/Dicionario_Saeb_2019.xlsx", sheet_name="TS_ALUNO_9EF")
dicionario_2019 = dicionario_2019[["TS_ALUNO_9EF", "Unnamed: 3"]]
dicionario_2019 = dicionario_2019.dropna(how="all")

from IPython.display import display
display(dicionario_2019.style.hide(axis="index"))

TS_ALUNO_9EF,Unnamed: 3
Variável,Descrição
ID_SAEB,Ano de aplicação do Saeb
ID_REGIAO,Código da Região
ID_UF,Código da Unidade da Federação
ID_MUNICIPIO,Máscaras dos Códigos de Municípios (são códigos fictícios)
ID_AREA,Área
ID_ESCOLA,Máscaras dos Códigos de Escola (são códigos fictícios)
IN_PUBLICA,Indica se a escola é pública ou não
ID_LOCALIZACAO,Localização
ID_TURMA,Código da turma no Saeb


Abaixo está uma listagem literal das perguntas do Questionário de Estudante(TX_RESP_Q001 a TX_RESP_Q019). Os esquemas de codificação para as respostas categóricas também estão enumerados:
#### ID_SAEB
- 2019
#### ID_REGIAO	
- 1: Norte
- 2: Nordeste
- 3: Sudeste
- 4: Sul
- 5: Centro-Oeste
#### ID_UF	
- 11: RO
- 12: AC
- 13: AM
- 14: RR
- 15: PA
- 16: AP
- 17: TO
- 21: MA
- 22: PI
- 23: CE
- 24: RN
- 25: PB
- 26: PE
- 27: AL
- 28: SE
- 29: BA
- 31: MG
- 32: ES
- 33: RJ
- 35: SP
- 41: PR
- 42: SC 
- 43: RS
- 50: MS
- 51: MT
- 52: GO
- 53: DF
#### ID_AREA	
- 1: Capital
- 2: Interior
#### IN_PUBLICA	
- 0: Não pública
- 1: Pública
#### ID_LOCALIZACAO	
- 1: Urbana
- 2: Rural
#### ID_SERIE	
- 9: 9° ano do Ensino Fundamental
#### IN_SITUACAO_CENSO
- 0: Não consistente
- 1: Consistente
#### IN_PREENCHIMENTO_LP	
- 0: Prova não prenchida
- 1: Prova preenchida
#### IN_PREENCHIMENTO_MT
- 0: Prova não prenchida
- 1: Prova preenchida
#### IN_PREENCHIMENTO_CH	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CH
#### IN_PREENCHIMENTO_CN	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CN
#### IN_PRESENCA_LP	
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_MT
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CH
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CN
- 0: Ausente
- 1: Presente
#### ID_CADERNO_LP
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_LP	
- De 1 a 7 (8 no macrotipo 18 - caderno 22)
#### ID_BLOCO_2_LP	
- De 1 a 7 (9 no macrotipo 18 - caderno 22)
#### ID_CADERNO_MT
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_MT	
- De 1 a 7 (8 no macrotipo 18 - caderno 22)
#### ID_BLOCO_2_MT
- De 1 a 7 (9 no macrotipo 18 - caderno 22)
#### ID_CADERNO_CH
- Prova Regular (Cadernos 1 a 26)
- Macrotipo 18 (Caderno 27)
#### ID_BLOCO_1_CH	
- De 1 a 13
#### ID_BLOCO_2_CH	
- De 1 a 13
#### ID_BLOCO_3_CH	
- De 1 a 13
#### NU_BLOCO_1_ABERTA_CH	
- De 1 a 6
#### NU_BLOCO_2_ABERTA_CH
- De 1 a 6
#### ID_CADERNO_CN	
- Prova Regular (Cadernos 1 a 14)
- Macrotipo 18 (Caderno 15)
#### ID_BLOCO_1_CN	
- De 1 a 7
#### ID_BLOCO_2_CN	
- De 1 a 7
#### ID_BLOCO_3_CN	
- De 1 a 7
#### NU_BLOCO_1_ABERTA_CN	
- De 1 a 3
#### NU_BLOCO_2_ABERTA_CN
- De 1 a 3
#### TX_RESP_BLOCO_1_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_CH
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_CH	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_3_CH	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### TX_RESP_BLOCO1_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO2_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO3_CN	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### IN_PROFICIENCIA_LP	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_MT	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CH
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CN	
- 0: Não
- 1: Sim
#### IN_AMOSTRA
- 0: Não
- 1: Sim
#### ESTRATO	
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Língua Portuguesa e Matemática. 
#### ESTRATO_CIENCIAS
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Ciências Humanas e Ciências da Natureza. 
#### PESO_ALUNO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_MT
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT	
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT_SAEB
- Valor com 7 casas decimais 
#### PESO_ALUNO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN_SAEB
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN_SAEB
- Valor com 7 casas decimais
#### IN_PREENCHIMENTO_QUESTIONARIO
- 0: Não preenchido
- 1: Preenchido parcial ou totalmente
#### TX_RESP_Q001	- Qual língua você fala com mais frequência em sua casa?
- A: Português
- B: Espanhol
- C: Outra língua
#### TX_RESP_Q002 - Qual é a sua cor ou raça?
- A: Branca
- B: Preta
- C: Parda
- D: Amarela
- E: Indígena
- F: Não quero declarar
#### TX_RESP_Q003a - Normalmente, quem mora na sua casa? - Mãe (mães ou madrasta)
- A: Não
- B: Sim
#### TX_RESP_Q003b - Normalmente, quem mora na sua casa? - Pai (pais ou padrasto)
- A: Não
- B: Sim
#### TX_RESP_Q003c -  Normalmente, quem mora na sua casa? - Irmão(s) ou irmã(s)
- A: Não
- B: Sim
#### TX_RESP_Q003d - Normalmente, quem mora na sua casa? - Avô ou avó
- A: Não
- B: Sim
#### TX_RESP_Q003e -  Normalmente, quem mora na sua casa? - Outros (tios, primos, etc.)
- A: Não
- B: Sim
#### TX_RESP_Q004 - Qual é a maior escolaridade da sua mãe (ou mulher responsável por você)?
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
#### TX_RESP_Q005 - Qual é a maior escolaridade do seu pai (ou homem responsável por você)?
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
#### TX_RESP_Q006a - Com que frequência seus pais ou responsáveis costumam: - Conversar com você sobre o que acontece na escola
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q006b -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a estudar
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q006c -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a fazer a tarefa de casa
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q006d -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a comparecer às aulas
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q006e -  Com que frequência seus pais ou responsáveis costumam: - Ir às reuniões de pais na escola
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q007 - Com que frequência sua família paga alguém para auxiliar nos trabalhos domésticos (faxina ou limpeza)?
- A: Nunca ou quase nunca
- B: De vez em quando (uma vez por semana, a cada quinze dias, etc.)
- C: Sempre ou quase sempre (ex.:três ou mais dias por semana)
#### TX_RESP_Q008a - Na região que você mora tem: Rua pavimentada (asfalto ou calçamento)
- A: Não
- B: Sim
#### TX_RESP_Q008b - Na região que você mora tem: Água tratada da rua
- A: Não
- B: Sim
#### TX_RESP_Q008c - Na rua que você mora tem: Iluminação na rua
- A: Não
- B: Sim
#### TX_RESP_Q009a - Dos itens relacionados abaixo, quantos existem na sua casa? - Geladeira
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009b - Dos itens relacionados abaixo, quantos existem na sua casa? - Tablet
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009c - Dos itens relacionados abaixo, quantos existem na sua casa? - Computador (ou notebook)
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009d - Dos itens relacionados abaixo, quantos existem na sua casa? - Quartos para dormir
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009e - Dos itens relacionados abaixo, quantos existem na sua casa? - Televisão
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009f - Dos itens relacionados abaixo, quantos existem na sua casa? - Banheiro
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q009g - Dos itens relacionados abaixo, quantos existem na sua casa? - Carro
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q010a - Na sua casa tem: - Tv a cabo (Ex.:Net, Sky, etc.)
- A: Não
- B: Sim
#### TX_RESP_Q010b - Na sua casa tem: - Rede Wi-Fi
- A: Não
- B: Sim
#### TX_RESP_Q010c - Na sua casa tem: - Um quarto só seu
- A: Não
- B: Sim
#### TX_RESP_Q010d - Na sua casa tem: - Mesa para estudar (ou escrivaninha)
- A: Não
- B: Sim
#### TX_RESP_Q010e - Na sua casa tem: - Garagem
- A: Não
- B: Sim
#### TX_RESP_Q010f - Na sua casa tem: - Forno de microondas
- A: Não
- B: Sim
#### TX_RESP_Q010g - Na sua casa tem: - Aspirador de pó
- A: Não
- B: Sim
#### TX_RESP_Q010h - Na sua casa tem: - Máquina de lavar roupa 
- A: Não
- B: Sim
#### TX_RESP_Q010i - Na sua casa tem: - Freezer (independente ou segunda porta da geladeira)
- A: Não
- B: Sim
#### TX_RESP_Q011 - Quanto tempo você demora para chegar à sua escola?
- A: Menos de 30 minutos
- B: Entre 30 minutos e uma hora
- C: Mais de uma hora
#### TX_RESP_Q012 - Considerando a maior distãncia percorrida, normalmente de que forma você chega à sua escola?
- A: À pé
- B: De De ônibus urbano 
- C: De transporte escolar
- D: De barco
- E: De bicicleta
- F: De carro
- G: Outros meios de transporte
#### TX_RESP_Q013 - Com que idade você entrou na escola?
- A: 3 anos ou menos
- B: 4 ou 5 anos 
- C: 6 ou 7 anos
- D: 8 anos ou mais
#### TX_RESP_Q014 - A partir do primeiro ano do ensino fundamental, em que tipo de escola você estudou?
- A: Somente em escola pública
- B: Somente em escola particular
- C: Em escola pública e em escola particular
#### TX_RESP_Q015 - Você já foi reprovado(a)?
- A: Não
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q016 - Alguma vez você abandonou a escola deixando de frequentá-la até o final do ano escolar?
- A: Nunca
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q017a - Fora da escola em dias de aula, quanto tempo você usa para: - Lazer (TV, internet, jogar bola, música, etc.)
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q017b - Fora da escola em dias de aula, quanto tempo você usa para: - Fazer cursos
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q017c - Fora da escola em dias de aula, quanto tempo você usa para: - Fazer trabalhos domésticos (lavar louça, limpar quintal, cuidar dos irmãos)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q017d - Fora da escola em dias de aula, quanto tempo você usa para: - Estudar (lição de casa, trabalhos escolares, etc.)
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q017e - Fora da escola em dias de aula, quanto tempo você usa para: - Trabalhar fora de casa (recebendo ou não um salário)
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q018a - Com que frequência você costuma: - Ler notícias (jornais, revistas, internet, etc.) 
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q018b - Com que frequência você costuma: - Ler livros que não sejam das matérias escolares
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q018c - Com que frequência você costuma: - Ler histórias em quadrinhos (mangás, gibis, etc.)
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q019 - Quando terminar o Ensino Fundamental você pretende
- A: Somente continuar estudando
- B: Somente trabalhar
- C: Continuar estudando e trabalhar
- D: Ainda não sei

#### SAEB 2021

In [5]:
gc.collect()
df_saeb_2021 = pd.read_csv("2021/TS_ALUNO_9EF.csv", encoding='latin-1', sep=";", dtype='category')
#df_saeb_2021

Informações gerais sobre o conjunto de dados:
Como ele contém mais de 100 colunas (o valor padrão de display.max_info_columns), o parâmetro verbose de info() foi definido como True para exibir todas as colunas de dados. Pelo mesmo motivo, o parâmetro null_counts também foi explicitamente definido como True.

In [6]:
df_saeb_2021.info(verbose=True, show_counts = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2591937 entries, 0 to 2591936
Data columns (total 144 columns):
 #    Column                         Non-Null Count    Dtype 
---   ------                         --------------    ----- 
 0    ID_SAEB                        2591937 non-null  object
 1    ID_REGIAO                      2591937 non-null  object
 2    ID_UF                          2591937 non-null  object
 3    ID_MUNICIPIO                   2591937 non-null  object
 4    ID_AREA                        2591937 non-null  object
 5    ID_ESCOLA                      2591937 non-null  object
 6    IN_PUBLICA                     2591937 non-null  object
 7    ID_LOCALIZACAO                 2591937 non-null  object
 8    ID_TURMA                       2591937 non-null  object
 9    ID_SERIE                       2591937 non-null  object
 10   ID_ALUNO                       2591937 non-null  object
 11   IN_SITUACAO_CENSO              2591937 non-null  object
 12   IN_PREENCHIM

O conjunto de dados contém 2591937 observações (linhas) em 144 variáveis (colunas). Cada observação corresponde a um aluno do 9° ano participante na avaliação em 2021, e as variáveis correspondem a coleta de informações que possam avaliar os eixos do SAEB como equidade (nível socioeconômico dos estudantes, perfil individual e familiar) e atendimento escolar (acesso e trajetória escolar) e desempenho nas provas.
As variáveis e esquemas de codificação para respostas categóricas selecionadas são os seguintes:

In [7]:
dicionario_2021 = pd.read_excel(r"2021/Dicionario_Saeb_2021.xlsx", sheet_name="TS_ALUNO_9EF")
dicionario_2021 = dicionario_2021[["TS_ALUNO_9EF", "Unnamed: 3"]]
dicionario_2021 = dicionario_2021.dropna(how="all")

from IPython.display import display
display(dicionario_2021.style.hide(axis="index"))

TS_ALUNO_9EF,Unnamed: 3
Variável,Descrição
ID_SAEB,Ano de aplicação do Saeb
ID_REGIAO,Código da Região
ID_UF,Código da Unidade da Federação
ID_MUNICIPIO,Máscaras dos Códigos de Municípios (são códigos fictícios)
ID_AREA,Área
ID_ESCOLA,Máscaras dos Códigos de Escola (são códigos fictícios)
IN_PUBLICA,Indica se a escola é pública ou não
ID_LOCALIZACAO,Localização
ID_TURMA,Código da turma no Saeb


Abaixo está uma listagem literal das perguntas do Questionário de Estudante. Os esquemas de codificação para as respostas categóricas também estão enumerados (para ambos os casos é mostrado apenas o que se diferencia em relação ao ano de 2019):
#### ID_SAEB
- 2021
<!--
#### ID_REGIAO	
- 1: Norte
- 2: Nordeste
- 3: Sudeste
- 4: Sul
- 5: Centro-Oeste
#### ID_UF	
- 11: RO
- 12: AC
- 13: AM
- 14: RR
- 15: PA
- 16: AP
- 17: TO
- 21: MA
- 22: PI
- 23: CE
- 24: RN
- 25: PB
- 26: PE
- 27: AL
- 28: SE
- 29: BA
- 31: MG
- 32: ES
- 33: RJ
- 35: SP
- 41: PR
- 42: SC 
- 43: RS
- 50: MS
- 51: MT
- 52: GO
- 53: DF
#### ID_AREA	
- 1: Capital
- 2: Interior
#### IN_PUBLICA	
- 0: Privada
- 1: Pública
#### ID_LOCALIZACAO	
- 1: Urbana
- 2: Rural
#### ID_SERIE	
- 9: 9° ano do Ensino Fundamental
#### IN_SITUACAO_CENSO
- 0: Não consistente
- 1: Consistente
#### IN_PREENCHIMENTO_LP	
- 0: Prova não prenchida
- 1: Prova preenchida
#### IN_PREENCHIMENTO_MT
- 0: Prova não prenchida
- 1: Prova preenchida
- #### IN_PREENCHIMENTO_CH	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CH
- #### IN_PREENCHIMENTO_CN	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CN
#### IN_PRESENCA_LP	
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_MT
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CH
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CN
- 0: Ausente
- 1: Presente
#### ID_CADERNO_LP
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_LP	
- De 1 a 7 (8 no macrotipo 18 - caderno 22)
#### ID_BLOCO_2_LP	
- De 1 a 7 (9 no macrotipo 18 - caderno 22)
#### ID_CADERNO_MT
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_MT	
- De 1 a 7 (8 no macrotipo 18 - caderno 22)
#### ID_BLOCO_2_MT
- De 1 a 7 (9 no macrotipo 18 - caderno 22)
#### ID_CADERNO_CH
- Prova Regular (Cadernos 1 a 26)
- Macrotipo 18 (Caderno 27)
#### ID_BLOCO_1_CH	
- De 1 a 13
#### ID_BLOCO_2_CH	
- De 1 a 13
#### ID_BLOCO_3_CH	
- De 1 a 13
#### NU_BLOCO_1_ABERTA_CH	
- De 1 a 6
#### NU_BLOCO_2_ABERTA_CH
- De 1 a 6
#### ID_CADERNO_CN	
- Prova Regular (Cadernos 1 a 14)
- Macrotipo 18 (Caderno 15)
#### ID_BLOCO_1_CN	
- De 1 a 7
#### ID_BLOCO_2_CN	
- De 1 a 7
#### ID_BLOCO_3_CN	
- De 1 a 7
#### NU_BLOCO_1_ABERTA_CN	
- De 1 a 3
#### NU_BLOCO_2_ABERTA_CN
- De 1 a 3
#### TX_RESP_BLOCO_1_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_CH
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_CH	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_3_CH	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### TX_RESP_BLOCO1_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO2_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO3_CN	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### IN_PROFICIENCIA_LP	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_MT	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CH
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CN	
- 0: Não
- 1: Sim
#### IN_AMOSTRA
- 0: Não
- 1: Sim
#### ESTRATO	
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Língua Portuguesa e Matemática. 
#### ESTRATO_CIENCIAS
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Ciências Humanas e Ciências da Natureza. 
#### PESO_ALUNO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_MT
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT	
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT_SAEB
- Valor com 7 casas decimais 
#### PESO_ALUNO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN_SAEB
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN_SAEB
- Valor com 7 casas decimais
#### IN_PREENCHIMENTO_QUESTIONARIO
- 0: Não preenchido
- 1: Preenchido parcial ou totalmente
-->
#### IN_INSE	
- 0: Não
- 1: Sim
#### NU_TIPO_NIVEL_INSE	
- 1: Nível I
- 2: Nível II
- 3: Nível III
- 4: Nível IV
- 5: Nível V
- 6: Nível VI
- 7: Nível VII
- 8: Nível VIII
#### PESO_ALUNO_INSE
- Valor com 7 casas decimais
#### TX_RESP_Q01 - Qual é o seu sexo?
- *: Nulo
- .: Branco
- A: Masculino
- B: Feminino
#### TX_RESP_Q02 - Qual é a sua idade?
- *: Nulo
- .: Branco
- A: 13 anos ou menos
- B: 14 anos
- C: 15 anos
- D: 16 anos
- E: 17 anos
- F: 18 anos ou mais
<!--
#### TX_RESP_Q03 - Qual língua seus pais falam com mais frequência em casa?
- *: Nulo
- .: Branco
- A: Português
- B: Espanhol
- C: Outra língua
#### TX_RESP_Q04 - Qual é a sua cor ou raça?
- *: Nulo
- .: Branco
- A: Branca
- B: Preta
- C: Parda
- D: Amarela
- E: Indígena
- F: Não quero declarar
-->
#### TX_RESP_Q05 - Você possui algum tipo de necessidade especial?
- *: Nulo
- .: Branco
- A: Sim
- B: Não
<!--
#### TX_RESP_Q06a - Normalmente, quem mora na sua casa? - Mãe ou madrasta
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q06b - Normalmente, quem mora na sua casa? - Pai ou padrasto
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q06c - Normalmente, quem mora na sua casa? - Irmão(s) ou irmã(s)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q06d - Normalmente, quem mora na sua casa? - Avô ou avó
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q06e - Normalmente, quem mora na sua casa? - Outros (tios, primos, etc.)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q07 - Qual é a maior escolaridade da sua mãe (ou mulher responsável por você)?
- *: Nulo
- .: Branco
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
#### TX_RESP_Q08 - Qual é a maior escolaridade do seu pai (ou homem responsável por você)?
- *: Nulo
- .: Branco
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
-->
#### TX_RESP_Q09a - Com que frequência seus pais ou responsáveis costumam: - Ler em casa
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
<!--
#### TX_RESP_Q09b -  Com que frequência seus pais ou responsáveis costumam: - Conversar com você sobre o que acontece na escola
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q09c -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a estudar
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q09d -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a fazer a tarefa de casa
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q09e -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a comparecer às aulas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q09f -  Com que frequência seus pais ou responsáveis costumam: - Ir às reuniões de pais na escola
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q10a - Na rua que você mora tem: Asfalto ou calçamento
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q10b - Na rua que você mora tem: Água tratada
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q10c - Na rua que você mora tem: Iluminação
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q11a - Dos itens relacionados abaixo, quantos existem na sua casa? - Geladeira
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11b - Dos itens relacionados abaixo, quantos existem na sua casa? - Tablet
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11c - Dos itens relacionados abaixo, quantos existem na sua casa? - Computador (ou notebook)
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11d - Dos itens relacionados abaixo, quantos existem na sua casa? - Quartos para dormir
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11e - Dos itens relacionados abaixo, quantos existem na sua casa? - Televisão
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11f - Dos itens relacionados abaixo, quantos existem na sua casa? - Banheiro
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q11g - Dos itens relacionados abaixo, quantos existem na sua casa? - Carro
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
-->
#### TX_RESP_Q11h - Dos itens relacionados abaixo, quantos existem na sua casa? - Celular com internet (smartphone)
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
<!--
#### TX_RESP_Q12a - Na sua casa tem: - Tv por internet (Netflix, GloboPlay, etc.)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12b - Na sua casa tem: - Rede Wi-Fi
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12c - Na sua casa tem: - Um quarto só seu
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12d - Na sua casa tem: - Mesa para estudar
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12e - Na sua casa tem: - Forno de microondas
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12f - Na sua casa tem: - Aspirador de pó
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12g - Na sua casa tem: - Máquina de lavar roupa 
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12h - Na sua casa tem: - Freezer (independente ou segunda porta da geladeira)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12i - Na sua casa tem: - Garagem
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13 - Quanto tempo você demora para chegar à sua escola?
- *: Nulo
- .: Branco
- A: Menos de 30 minutos
- B: Entre 30 minutos e uma hora
- C: Mais de uma hora
#### TX_RESP_Q14 - Considerando a maior distãncia percorrida, normalmente de que forma você chega à sua escola?
- *: Nulo
- .: Branco
- A: À pé
- B: De bicicleta 
- C: De Van (ou Kombi)
- D: De ônibus
- E: De metrô (ou trem urbano)
- F: De carro
- G: Outros meios de transporte (barco, motocicleta, etc.)
-->
#### TX_RESP_Q15 - Você se utiliza de transporte escolar, ou passe escolar, para ir à escola?
- *: Nulo
- .: Branco
- A: Não
- B: Sim
<!--
#### TX_RESP_Q16 - Com que idade você entrou na escola?
- *: Nulo
- .: Branco
- A: 3 anos ou menos
- B: 4 ou 5 anos 
- C: 6 ou 7 anos
- D: 8 anos ou mais
#### TX_RESP_Q17 - A partir do primeiro ano do ensino fundamental, em que tipo de escola você estudou?
- *: Nulo
- .: Branco
- A: Somente em escola pública
- B: Somente em escola particular
- C: Em escola pública e em escola particular
#### TX_RESP_Q18 - Você já foi reprovado(a)?
- *: Nulo
- .: Branco
- A: Não
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q19 - Alguma vez você abandonou a escola deixando de frequentá-la até o final do ano escolar?
- *: Nulo
- .: Branco
- A: Nunca
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q20a - Fora da escola em dias de aula, quanto tempo você usa para: - Estudar (lição de casa, trabalhos escolares, etc.)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q20b - Fora da escola em dias de aula, quanto tempo você usa para: - Fazer cursos
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q20c - Fora da escola em dias de aula, quanto tempo você usa para: - Trabalhar em casa (lavar louça, limpar quintal, cuidar dos irmãos)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q20d - Fora da escola em dias de aula, quanto tempo você usa para: - Trabalhar fora de casa (recebendo ou não um salário)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q20e - Fora da escola em dias de aula, quanto tempo você usa para: - Lazer (TV, internet, brincar, música, etc.)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q21 - Quando terminar o Ensino Fundamental você pretende
- *: Nulo
- .: Branco
- A: Somente continuar estudando
- B: Somente trabalhar
- C: Continuar estudando e trabalhar
- D: Ainda não sei
-->
#### TX_RESP_Q22a - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Eu possuía equipamento adequado para acompanhar o ensino remoto
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22b - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Eu tive conexão de internet adequada para acesso às aulas remotas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22c - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Tive facilidade em usar os programas de comunicação nas aulas remotas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22d - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Recebi material impresso da escola (livros, apostilas, atividades em folha, etc.) 
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22e - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Os professores me auxiliaram a entender o conteúdo
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22f - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Eu compreendi o conteúdo das aulas remotas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22g - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Em casa havia um lugar tranquilo para eu assistir às aulas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22h - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Meus familiares apoiaram o meu estudo
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre
#### TX_RESP_Q22i - Durante a pandemia, indique a frequência com que os seguintes fatos ocorreram: - Meus colegas me apoiaram durante o ensino remoto
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Várias vezes
- D: Sempre

#### SAEB 2023

In [11]:
gc.collect()
df_saeb_2023 = pd.read_csv("2023/TS_ALUNO_9EF.csv",  encoding='latin-1', sep=";", dtype='category')
#df_saeb_2023

Informações gerais sobre o conjunto de dados:
Como ele contém mais de 100 colunas (o valor padrão de display.max_info_columns), o parâmetro verbose de info() foi definido como True para exibir todas as colunas de dados. Pelo mesmo motivo, o parâmetro null_counts também foi explicitamente definido como True.

In [12]:
df_saeb_2023.info(verbose=True, show_counts = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2502907 entries, 0 to 2502906
Data columns (total 153 columns):
 #    Column                         Non-Null Count    Dtype   
---   ------                         --------------    -----   
 0    ID_SAEB                        2502907 non-null  category
 1    ID_REGIAO                      2502907 non-null  category
 2    ID_UF                          2502907 non-null  category
 3    ID_MUNICIPIO                   2502907 non-null  category
 4    ID_AREA                        2502907 non-null  category
 5    ID_ESCOLA                      2502907 non-null  category
 6    IN_PUBLICA                     2502907 non-null  category
 7    ID_LOCALIZACAO                 2502907 non-null  category
 8    ID_TURMA                       2502907 non-null  category
 9    ID_SERIE                       2502907 non-null  category
 10   ID_ALUNO                       2502907 non-null  category
 11   IN_SITUACAO_CENSO              2502907 non-null 

O conjunto de dados contém 2502907 observações (linhas) em 153 variáveis (colunas). Cada observação corresponde a um aluno do 9° ano participante na avaliação em 2023, e as variáveis correspondem a coleta de informações que possam avaliar os eixos do SAEB como equidade (nível socioeconômico dos estudantes, perfil individual e familiar) e atendimento escolar (acesso e trajetória escolar) e desempenho nas provas.
As variáveis e esquemas de codificação para respostas categóricas selecionadas são os seguintes:

In [13]:
dicionario_2023 = pd.read_excel(r"2023/Dicionario_Saeb_2023.xlsx", sheet_name="TS_ALUNO_9EF")
dicionario_2023 = dicionario_2023[["TS_ALUNO_9EF", "Unnamed: 3"]]
dicionario_2023 = dicionario_2023.dropna(how="all")

from IPython.display import display
display(dicionario_2023.style.hide(axis="index"))

TS_ALUNO_9EF,Unnamed: 3
Variável,Descrição
ID_SAEB,Ano de aplicação do Saeb
ID_REGIAO,Código da Região
ID_UF,Código da Unidade da Federação
ID_MUNICIPIO,Máscaras dos Códigos de Municípios (são códigos fictícios)
ID_AREA,Área
ID_ESCOLA,Máscaras dos Códigos de Escola (são códigos fictícios)
IN_PUBLICA,Indica se a escola é pública ou não
ID_LOCALIZACAO,Localização
ID_TURMA,Código da turma no Saeb


Abaixo está uma listagem literal das perguntas do Questionário de Estudante. Os esquemas de codificação para as respostas categóricas também estão enumerados (para ambos os casos é mostrado apenas o que se diferencia em relação ao ano de 2019):
#### ID_SAEB
- 2023
<!--
#### ID_REGIAO	
- 1: Norte
- 2: Nordeste
- 3: Sudeste
- 4: Sul
- 5: Centro-Oeste
#### ID_UF	
- 11: RO
- 12: AC
- 13: AM
- 14: RR
- 15: PA
- 16: AP
- 17: TO
- 21: MA
- 22: PI
- 23: CE
- 24: RN
- 25: PB
- 26: PE
- 27: AL
- 28: SE
- 29: BA
- 31: MG
- 32: ES
- 33: RJ
- 35: SP
- 41: PR
- 42: SC 
- 43: RS
- 50: MS
- 51: MT
- 52: GO
- 53: DF
#### ID_AREA	
- 1: Capital
- 2: Interior
#### IN_PUBLICA	
- 0: Privada
- 1: Pública
#### ID_LOCALIZACAO	
- 1: Urbana
- 2: Rural
#### ID_SERIE	
- 9: 9° ano do Ensino Fundamental
#### IN_SITUACAO_CENSO
- 0: Não consistente
- 1: Consistente
#### IN_PREENCHIMENTO_LP	
- 0: Prova não prenchida
- 1: Prova preenchida
#### IN_PREENCHIMENTO_MT
- 0: Prova não prenchida
- 1: Prova preenchida
- #### IN_PREENCHIMENTO_CH	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CH
- #### IN_PREENCHIMENTO_CN	
- 0: Prova não prenchida
- 1: Prova preenchida
- Vazio: Não selecionado para a amostra de CN
#### IN_PRESENCA_LP	
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_MT
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CH
- 0: Ausente
- 1: Presente
#### IN_PRESENCA_CN
- 0: Ausente
- 1: Presente
#### ID_CADERNO_LP
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_LP	
- De 1 a 7 
#### ID_BLOCO_2_LP	
- De 1 a 7 
#### ID_CADERNO_MT
- Prova Regular (Cadernos 1 a 21)
- Macrotipo 18 (Caderno 22)
#### ID_BLOCO_1_MT	
- De 1 a 7 
#### ID_BLOCO_2_MT
- De 1 a 7 
#### ID_CADERNO_CH
- Prova Regular (Cadernos 1 a 15)
- Macrotipo 18 (Caderno 16)
#### ID_BLOCO_1_CH	
- De 1 a 6
- Macrotipo 18 (Bloco 7)
#### ID_BLOCO_2_CH	
- De 1 a 6
- Macrotipo 18 (Bloco 8)
#### NU_BLOCO_1_ABERTA_CH	
- De 1 a 6
#### NU_BLOCO_2_ABERTA_CH
- De 1 a 6
#### ID_CADERNO_CN	
- Prova Regular (Cadernos 1 a 14)
- Macrotipo 18 (Caderno 15)
#### ID_BLOCO_1_CN	
- De 1 a 7
- Macrotipo 18 (Bloco 8)
#### ID_BLOCO_2_CN	
- De 1 a 7
- Macrotipo 18 (Bloco 9)
#### ID_BLOCO_3_CN	
- De 1 a 7
- Macrotipo 18 (Bloco 10)
#### NU_BLOCO_1_ABERTA_CN	
- De 1 a 3
#### NU_BLOCO_2_ABERTA_CN
- De 1 a 3
#### TX_RESP_BLOCO_1_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_LP	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_MT	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_1_CH
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO_2_CH	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 11: Crédito parcial
- 12: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CH	
- 0: Nenhum crédito
- 1: Crédito parcial
- 11: Crédito parcial
- 12: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### TX_RESP_BLOCO1_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO2_CN	
- A, B, C, D, . (branco), * (nulo)
#### TX_RESP_BLOCO3_CN	
- A, B, C, D, . (branco), * (nulo)
#### CO_CONCEITO_Q1_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 11: Crédito parcial
- 12: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### CO_CONCEITO_Q2_CN	
- 0: Nenhum crédito
- 1: Crédito parcial
- 11: Crédito parcial
- 12: Crédito parcial
- 2: Crédito total
- 7: Erros de impressão ou digitalização
- .: Branco
#### IN_PROFICIENCIA_LP	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_MT	
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CH
- 0: Não
- 1: Sim
#### IN_PROFICIENCIA_CN	
- 0: Não
- 1: Sim
#### IN_AMOSTRA
- 0: Não
- 1: Sim
#### ESTRATO	
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Língua Portuguesa e Matemática. 
#### ESTRATO_CIENCIAS
- Os estratos são compostos por características da participação da escola na avaliação e representam agrupamentos para os quais a avaliação fornece resultados confiáveis para Ciências Humanas e Ciências da Natureza. 
#### PESO_ALUNO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP
- Valor com 7 casas decimais 
#### PROFICIENCIA_LP_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_LP_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_MT
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT	
- Valor com 7 casas decimais 
#### PROFICIENCIA_MT_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_MT_SAEB
- Valor com 7 casas decimais 
#### PESO_ALUNO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH	
- Valor com 7 casas decimais 
#### PROFICIENCIA_CH_SAEB	
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CH_SAEB	
- Valor com 7 casas decimais 
#### PESO_ALUNO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN
- Valor com 7 casas decimais 
#### PROFICIENCIA_CN_SAEB
- Valor com 7 casas decimais 
#### ERRO_PADRAO_CN_SAEB
- Valor com 7 casas decimais
#### IN_PREENCHIMENTO_QUESTIONARIO
- 0: Não preenchido
- 1: Preenchido parcial ou totalmente
-->
#### IN_INSE	
- 0: Não
- 1: Sim
#### NU_TIPO_NIVEL_INSE	
- 1: Nível I
- 2: Nível II
- 3: Nível III
- 4: Nível IV
- 5: Nível V
- 6: Nível VI
- 7: Nível VII
- 8: Nível VIII
#### PESO_ALUNO_INSE
- Valor com 7 casas decimais
#### TX_RESP_Q01 - Qual é o seu sexo?
- *: Nulo
- .: Branco
- A: Masculino
- B: Feminino
- C: Não quero declarar
#### TX_RESP_Q02 - Qual é a sua idade?
- *: Nulo
- .: Branco
- A: 13 anos ou menos
- B: 14 anos
- C: 15 anos
- D: 16 anos
- E: 17 anos
- F: 18 anos ou mais
<!--
#### TX_RESP_Q03 - Qual língua seus pais falam com mais frequência em casa?
- *: Nulo
- .: Branco
- A: Português
- B: Espanhol
- C: Língua de Sinais (Libras, Língua de Sinais Argentina, Língua de Sinais Boliviana, etc.)
- D: Outra língua
#### TX_RESP_Q04 - Qual é a sua cor ou raça?
- *: Nulo
- .: Branco
- A: Branca
- B: Preta
- C: Parda
- D: Amarela
- E: Indígena
- F: Não quero declarar
-->
#### TX_RESP_Q05a - Você possui deficiência, transtorno do espectro autista ou superdotação? - Deficiência
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q05b - Você possui deficiência, transtorno do espectro autista ou superdotação? - Transtorno do espectro autista
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q05c - Você possui deficiência, transtorno do espectro autista ou superdotação? - Altas habilidades ou superdotação
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q06 - Quantas pessoas moram na sua casa, contando com você?
- *: Nulo
- .: Branco
- A: 2 pessoas
- B: 3 pessoas
- C: 4 pessoas
- D: 5 pessoas
- E: 6 pessoas ou mais
<!--
#### TX_RESP_Q07a - Normalmente, quem mora na sua casa? - Mãe(s) ou madrasta(s)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q07b - Normalmente, quem mora na sua casa? - Pai(s) ou padrasto(s)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q07c - Normalmente, quem mora na sua casa? - Avó(s)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q07d - Normalmente, quem mora na sua casa? - Avô(s)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q07e -  Normalmente, quem mora na sua casa? - Outros familiares, irmãos(ãs), tios(as), primos(as), etc.
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q08 - Qual é a maior escolaridade da sua mãe (ou madrasta ou mulher responsável por você)?
- *: Nulo
- .: Branco
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
#### TX_RESP_Q09 - Qual é a maior escolaridade do seu pai (ou padrasto ou homem responsável por você)?
- *: Nulo
- .: Branco
- A: Não completou o 5° ano do Ensino Fundamental
- B: Ensino Fundamental, até o 5° ano
- C: Ensino Fundamental completo
- D: Ensino Médio completo
- E: Ensino Superior completo (faculdade ou graduação)
- F: Não sei
-->
#### TX_RESP_Q10a - Com que frequência seus pais ou responsáveis costumam: - Ler em casa
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
<!--
#### TX_RESP_Q10b -  Com que frequência seus pais ou responsáveis costumam: - Conversar com você sobre o que acontece na escola
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q10c -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a estudar
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q10d -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a fazer a tarefa de casa
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q10e -  Com que frequência seus pais ou responsáveis costumam: - Incentivar você a comparecer às aulas
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q10f -  Com que frequência seus pais ou responsáveis costumam: - Ir às reuniões de pais na escola
- *: Nulo
- .: Branco
- A: Nunca ou quase nunca
- B: De vez em quando
- C: Sempre ou quase sempre
#### TX_RESP_Q11a - Na rua que você mora tem: Asfalto ou calçamento
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q11b - Na rua que você mora tem: Água tratada
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q11c - Na rua que você mora tem: Iluminação
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q12a - Dos itens relacionados abaixo, quantos existem na sua casa? - Geladeira
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q12b - Dos itens relacionados abaixo, quantos existem na sua casa? - Computador (ou notebook)
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q12c - Dos itens relacionados abaixo, quantos existem na sua casa? - Quartos para dormir
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q12d - Dos itens relacionados abaixo, quantos existem na sua casa? - Televisão
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q12e - Dos itens relacionados abaixo, quantos existem na sua casa? - Banheiro
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
#### TX_RESP_Q12f - Dos itens relacionados abaixo, quantos existem na sua casa? - Carro
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
-->
#### TX_RESP_Q12g - Dos itens relacionados abaixo, quantos existem na sua casa? - Celular com internet (smartphone)
- *: Nulo
- .: Branco
- A: Nenhum
- B: 1
- C: 2
- D: 3 ou mais
<!--
#### TX_RESP_Q13a - Na sua casa tem: - Tv por internet (Netflix, GloboPlay, etc.)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13b - Na sua casa tem: - Rede Wi-Fi
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13c - Na sua casa tem: - Um quarto só seu
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13d - Na sua casa tem: - Mesa para estudar
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13e - Na sua casa tem: - Forno de microondas
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13f - Na sua casa tem: - Aspirador de pó
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13g - Na sua casa tem: - Máquina de lavar roupa 
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13h - Na sua casa tem: - Freezer (independente ou segunda porta da geladeira)
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q13i - Na sua casa tem: - Garagem
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q14 - Quanto tempo você demora para chegar à sua escola?
- *: Nulo
- .: Branco
- A: Menos de 30 minutos
- B: Entre 30 minutos e uma hora
- C: Mais de uma hora
-->
#### TX_RESP_Q15a - Você utiliza para ir à escola: - Transporte gratuito escolar
- *: Nulo
- .: Branco
- A: Não
- B: Sim
#### TX_RESP_Q15b - Você utiliza para ir à escola: - Passe escolar
- *: Nulo
- .: Branco
- A: Não
- B: Sim
<!--
#### TX_RESP_Q16 - Considerando a maior distãncia percorrida, normalmente de que forma você chega à sua escola?
- *: Nulo
- .: Branco
- A: À pé
- B: De bicicleta 
- C: De Van (ou Kombi)
- D: De ônibus
- E: De metrô (ou trem urbano)
- F: De carro
- G: De barco
- H: De motocicleta
- I: Outro meios de transporte
#### TX_RESP_Q17 - Com que idade você entrou na escola?
- *: Nulo
- .: Branco
- A: 3 anos ou menos
- B: 4 ou 5 anos 
- C: 6 ou 7 anos
- D: 8 anos ou mais
#### TX_RESP_Q18 - A partir do primeiro ano do ensino fundamental, em que tipo de escola você estudou?
- *: Nulo
- .: Branco
- A: Somente em escola pública
- B: Somente em escola particular
- C: Em escola pública e em escola particular
#### TX_RESP_Q19 - Você já foi reprovado(a)?
- *: Nulo
- .: Branco
- A: Não
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q20 - Alguma vez você abandonou a escola deixando de frequentá-la até o final do ano escolar?
- *: Nulo
- .: Branco
- A: Nunca
- B: Sim, uma vez
- C: Sim, duas vezes ou mais
#### TX_RESP_Q21a - Fora da escola em dias de aula, quanto tempo você usa para: - Estudar (lição de casa, trabalhos escolares, etc.)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q21b - Fora da escola em dias de aula, quanto tempo você usa para: - Fazer cursos ou atividades extracurriculares (idioma, artes, informática, etc.)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q21c - Fora da escola em dias de aula, quanto tempo você usa para: - Trabalhar em casa (lavar louça, limpar quintal, cuidar dos irmãos)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q21d - Fora da escola em dias de aula, quanto tempo você usa para: - Trabalhar fora de casa (recebendo ou não um salário)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
#### TX_RESP_Q21e - Fora da escola em dias de aula, quanto tempo você usa para: - Lazer (TV, brincar, internet, música, etc.)
- *: Nulo
- .: Branco
- A: Não uso meu tempo pra isso
- B: Menos de 1 hora
- C: Entre 1 e 2 horas
- D: Mais de 2 horas
-->
#### TX_RESP_Q22a - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - No início do ano, eles(as) informaram sobre o que seria ensinado e aprendido?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22b - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Antes de iniciar um novo conteúdo, eles(as) perguntam o que vocês sabem sobre o conteúdo?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22c - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) trazem temas do cotidiano para serem debatidos em sala de aula?
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22d - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) abordam temas sobre desigualdade racial?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22e - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) abordam temas sobre desigualdade de gênero?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22f - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) abordam temas como bullying e outras formas de violência?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22g - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) desenvolvem trabalhos em grupos?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q22h - Para os próximos itens, indique qual é a proporção de professores(as) da sua turma que abordam os seguintes temas em sala de aula: - Eles(as) abordam questões relacionadas ao futuro profissional dos(as) estudantes?
- *: Nulo
- .: Branco
- A: Todos eles
- B: A maior parte deles
- C: Poucos deles
- D: Nenhum deles
#### TX_RESP_Q23a - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Eu me interesso sobre o que foi ensinado na escola neste ano
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23b - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Eu me sinto motivado(a), no dia a dia, a usar o que foi ensinado
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23c - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Há espaço para diferentes opiniões na minha sala de aula
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23d - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Eu me sinto seguro(a) quando estou na escola
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23e - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Eu me sinto à vontade para discordar dos(das) meus(minhas) professores(as)
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23f - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Eu consigo argumentar sobre conteúdos difíceis
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23g - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Os resultados das avaliações representam o quanto eu aprendi
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23h - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Meus(Minhas) professores(as) acreditam que eu sou capaz de aprender
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
#### TX_RESP_Q23i - Sobre sua escola, indique o quanto você concorda ou discorda das afirmações abaixo: - Meus(Minhas) professores(as) me motivam a continuar meus estudos
- *: Nulo
- .: Branco
- A: Concordo totalmente 
- B: Concordo
- C: Discordo
- D: Discordo totalmente
<!--
#### TX_RESP_Q24 - Quando terminar o Ensino Fundamental, você pretende
- *: Nulo
- .: Branco
- A: Somente continuar estudando
- B: Somente trabalhar
- C: Continuar estudando e trabalhar
- D: Ainda não sei
-->

### 2. Pré-processamento dos dados
Esta seção descreve o pré-processamento realizado nos dados antes de submetê-los à análise. Em particular, as motivações e os processos relacionados à fusão de conjuntos de dados e à limpeza de dados são discutidos.
#### 1. Filtro das colunas
<!--
Embora o banco de dados original disponibilizado pelo INEP contenha um conjunto extenso de informações, optou-se por manter apenas as variáveis relevantes aos objetivos deste estudo. Assim, algumas colunas foram desconsideradas:
Variáveis de identificação do candidato:
df_combinado["TP_ANO_CONCLUIU"].value_counts().sort_index()
TP_ANO_CONCLUIU
0    72624
Name: count, dtype: int64
df_combinado["IN_TREINEIRO"].value_counts().sort_index()
IN_TREINEIRO
0    72624
Name: count, dtype: int64
Em TP_ANO_CONCLUIU e IN_TREINEIRO não foi observada nenhuma variação, já que todos os registros apresentaram a mesma categoria. Esse padrão evidencia que essas informações não agregariam valor relevante às análises, justificando sua exclusão. Da mesma forma, a variável NU_INSCRICAO foi retirada, por se tratar apenas de um identificador único do participante, sem oferecer informações de caráter sociodemográfico, acadêmico ou contextual.
Variáveis do local de aplicação da prova:
CO_MUNICIPIO_ESC, CO_UF_ESC, CO_MUNICIPIO_PROVA, NO_MUNICIPIO_PROVA, CO_UF_PROVA e SG_UF_PROVA. Essas variáveis possuem caráter meramente logístico e não contribuem diretamente para os objetivos da pesquisa. Como o foco está no desempenho dos candidatos em municípios específicos previamente filtrados, a manutenção desses identificadores se torna redundante.
Variáveis referentes à prova objetiva:
CO_PROVA_CN, CO_PROVA_CH, CO_PROVA_LC, CO_PROVA_MT, TX_RESPOSTAS_CN, TX_RESPOSTAS_CH, TX_RESPOSTAS_LC, TX_RESPOSTAS_MT, TX_GABARITO_CN, TX_GABARITO_CH, TX_GABARITO_LC, TX_GABARITO_MT. Essas informações descrevem a estrutura e a aplicação do exame (códigos, respostas e gabaritos), mas não são essenciais para os objetivos deste trabalho, que não envolvem análise de padrão de respostas ou comparação com gabaritos. Assim, optou-se por sua exclusão.
Questionário As variáveis Q026 e Q027 foram descartadas por estarem presentes apenas na base de dados do ano de 2018, o que comprometeria a consistência das análises multianuais.
Em resumo, a retirada dessas variáveis se justifica pela ausência de variação, pela concentração excessiva em poucas categorias ou pelo baixo potencial de contribuição às análises propostas. Dessa forma, garante-se um banco de dados mais enxuto, consistente e direcionado às questões centrais do trabalho. Além disso, é válido ressaltar que muitas linhas referentes ao município apresentam valores zerados, o que faz com que algumas informações não apresentem mudanças significativas quando relacionadas ao ano de conclusão ou à condição de treineiro.
-->

In [14]:
colunas_2019 = ['ID_SAEB','IN_PUBLICA','IN_PREENCHIMENTO_MT','IN_PRESENCA_MT','PROFICIENCIA_MT_SAEB','TX_RESP_Q002','TX_RESP_Q003A','TX_RESP_Q003B',
                'TX_RESP_Q003C','TX_RESP_Q003D','TX_RESP_Q003E','TX_RESP_Q004','TX_RESP_Q005','TX_RESP_Q006A','TX_RESP_Q006B','TX_RESP_Q006C',
                'TX_RESP_Q006D','TX_RESP_Q006E','TX_RESP_Q008A','TX_RESP_Q008B','TX_RESP_Q008C','TX_RESP_Q009A','TX_RESP_Q009B','TX_RESP_Q009C',
                'TX_RESP_Q009D','TX_RESP_Q009E','TX_RESP_Q009F','TX_RESP_Q009G','TX_RESP_Q010A','TX_RESP_Q010B', 'TX_RESP_Q010C','TX_RESP_Q010D',
                'TX_RESP_Q010E','TX_RESP_Q010F','TX_RESP_Q010G','TX_RESP_Q010H','TX_RESP_Q010I', 'TX_RESP_Q011','TX_RESP_Q012','TX_RESP_Q013',
                'TX_RESP_Q014','TX_RESP_Q015','TX_RESP_Q016','TX_RESP_Q017A','TX_RESP_Q017B','TX_RESP_Q017C','TX_RESP_Q017D','TX_RESP_Q017E',
                'TX_RESP_Q019']
saeb_mt_2019 = df_saeb_2019.filter(items=colunas_2019)
#saeb_mt_2019

In [16]:
colunas_2021 = ['ID_SAEB','IN_PUBLICA','IN_PREENCHIMENTO_MT','IN_PRESENCA_MT','PROFICIENCIA_MT_SAEB','TX_RESP_Q01','TX_RESP_Q02','TX_RESP_Q04',
                'TX_RESP_Q05','TX_RESP_Q06A','TX_RESP_Q06B','TX_RESP_Q06C','TX_RESP_Q06D','TX_RESP_Q06E','TX_RESP_Q07','TX_RESP_Q08','TX_RESP_Q09A',
                'TX_RESP_Q09B','TX_RESP_Q09C','TX_RESP_Q09D','TX_RESP_Q09E','TX_RESP_Q09F','TX_RESP_Q10A','TX_RESP_Q10B','TX_RESP_Q10C',
                'TX_RESP_Q11A','TX_RESP_Q11B','TX_RESP_Q11C','TX_RESP_Q11D','TX_RESP_Q11E','TX_RESP_Q11F','TX_RESP_Q11G','TX_RESP_Q11H', 
                'TX_RESP_Q12A','TX_RESP_Q12B', 'TX_RESP_Q12C','TX_RESP_Q12D','TX_RESP_Q12E','TX_RESP_Q12F','TX_RESP_Q12G','TX_RESP_Q12H',
                'TX_RESP_Q12I','TX_RESP_Q13','TX_RESP_Q14','TX_RESP_Q15','TX_RESP_Q16','TX_RESP_Q17','TX_RESP_Q18','TX_RESP_Q19','TX_RESP_Q20A',
                'TX_RESP_Q20B','TX_RESP_Q20C','TX_RESP_Q20D','TX_RESP_Q20E','TX_RESP_Q21','TX_RESP_Q22A','TX_RESP_Q22B','TX_RESP_Q22C','TX_RESP_Q22D',
                'TX_RESP_Q22E','TX_RESP_Q22F','TX_RESP_Q22G','TX_RESP_Q22H','TX_RESP_Q22I']
saeb_mt_2021 = df_saeb_2021.filter(items=colunas_2021)
#saeb_mt_2021

In [18]:
colunas_2023 = ['ID_SAEB','IN_PUBLICA','IN_PREENCHIMENTO_MT','IN_PRESENCA_MT','PROFICIENCIA_MT_SAEB','TX_RESP_Q01','TX_RESP_Q02','TX_RESP_Q04',
                'TX_RESP_Q06','TX_RESP_Q07a','TX_RESP_Q07b','TX_RESP_Q07c','TX_RESP_Q07d','TX_RESP_Q07e','TX_RESP_Q08','TX_RESP_Q09','TX_RESP_Q10a',
                'TX_RESP_Q10b','TX_RESP_Q10c','TX_RESP_Q10d','TX_RESP_Q10e','TX_RESP_Q10f','TX_RESP_Q11a','TX_RESP_Q11b','TX_RESP_Q11c', 
                'TX_RESP_Q12a','TX_RESP_Q12b', 'TX_RESP_Q12c','TX_RESP_Q12d','TX_RESP_Q12e','TX_RESP_Q12f','TX_RESP_Q12g','TX_RESP_Q13a','TX_RESP_Q13b',
                'TX_RESP_Q13c','TX_RESP_Q13d','TX_RESP_Q13e','TX_RESP_Q13f','TX_RESP_Q13g','TX_RESP_Q13h','TX_RESP_Q13i','TX_RESP_Q14','TX_RESP_Q15a',
                'TX_RESP_Q15b','TX_RESP_Q16','TX_RESP_Q17','TX_RESP_Q18','TX_RESP_Q19','TX_RESP_Q20','TX_RESP_Q21a','TX_RESP_Q21b','TX_RESP_Q21c','TX_RESP_Q21d',
                'TX_RESP_Q21e','TX_RESP_Q24']
saeb_mt_2023 = df_saeb_2023.filter(items=colunas_2023)
#saeb_mt_2023

#### 2. Unificação das bases dos diferentes anos

In [20]:
gc.collect()

df_unif = pd.concat([saeb_mt_2019, saeb_mt_2021, saeb_mt_2023], ignore_index=True)
processed_dir = r"C:\Users\Admin\TCC\processed"
os.makedirs(processed_dir, exist_ok=True)

out_path = os.path.join(processed_dir, "BASE_UNIF.parquet")

df_unif.to_parquet(out_path, index=False, engine="fastparquet", compression="gzip")

df_unif

MemoryError: Unable to allocate 840. MiB for an array with shape (44, 2502907) and data type object