# Análise do Dataset

O dataset utilizado foram os Microdados do ENEM de 2023, disponíveis no endereço https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem. O arquivo é disponibilizado no formato ``.csv`` e contém os dados dos 3,9 milhões de participantes do Exame Nacional do Ensino Médio nesse ano. 

Cada registro no dataset diz respeito a um candidato inscrito, e os dados disponíveis são 
  1. Dados do participante (escolaridade, faixa etária, raça etc.)
  2. Dados da escola onde o participante estudou
  3. Dados do local de aplicação de prova
  4. Dados da prova objetiva (presença e notas)
  5. Dados da redação (presença e notas)
  6. Dados do questionário socioeconômico

Devido à formatação do banco, cada participante pode ser modelado como uma transação. 
  - As características binárias podem ser modeladas diretamente como itens. Ex.: Sexo, Presença
  - As características categóricas devem ser codificadas em binárias, usando one-hot encoding, por exemplo. Ex.: Escolaridade, Estado
  - As características numéricas devem ser agrupadas em faixas (como categorias) e depois codificadas em binárias. Ex.: Nota da redação > 900  ->  Nota alta na redação

_Obs.: Os critérios para o agrupamento de variáveis numéricas e categóricas serão melhor abordados a partir da fase 2, e levarão em conta a distribuição dos valores da variável._

A descrição dos dados é apresentada a seguir



| Coluna               | Descrição                                  | Tipo       |
|----------------------|--------------------------------------------|----------  |
|**1. Dados do Participante**|    | |
| `NU_INSCRICAO`       | Número de inscrição                        | Numérico   |
| `TP_FAIXA_ETARIA`    | Faixa etária                               | Categórico |
| `TP_SEXO`            | Sexo                                       | Categórico |
| `TP_ESTADO_CIVIL`    | Estado Civil                               | Categórico |
| `TP_COR_RACA`        | Cor/raça                                   | Categórico |
| `TP_NACIONALIDADE`   | Nacionalidade                              | Categórico |
| `TP_ST_CONCLUSAO`    | Situação de conclusão do Ensino Médio      | Categórico |
| `TP_ANO_CONCLUIU`    | Ano de Conclusão do Ensino Médio           | Categórico |
|**2. Dados da escola**|    | |
| `CO_MUNICIPIO_ESC`        | Código do município da escola | Numérico   |
| `SG_UF_ESC`               | Sigla da Unidade da Federação da escola   | Categórico |
| `TP_DEPENDENCIA_ADM_ESC`  | Dependência administrativa da escola      | Categórico |
| `TP_LOCALIZACAO_ESC`      | Localização da escola                      | Categórico |
| `TP_SIT_FUNC_ESC`         | Situação de funcionamento da escola        | Categórico |
|**3. Dados do local de aplicação**|    | |
| `CO_MUNICIPIO_PROVA`        | Código do município de aplicação da prova | Numérico   |
| `SG_UF_PROVA`               | Sigla da Unidade da Federação de aplicação da prova  | Categórico |
|**4. Dados da prova objetiva**|    | |
| `TP_PRESENCA_CN`  | Presença na prova objetiva de Ciências da Natureza                    | Categórico |
| `TP_PRESENCA_CH`  | Presença na prova objetiva de Ciências Humanas                        | Categórico |
| `TP_PRESENCA_LC`  | Presença na prova objetiva de Linguagens e Códigos                    | Categórico |
| `TP_PRESENCA_MT`  | Presença na prova objetiva de Matemática                              | Categórico |
| `NU_NOTA_CN`      | Nota da prova de Ciências da Natureza                                 | Numérico   |
| `NU_NOTA_CH`      | Nota da prova de Ciências Humanas                                     | Numérico   |
| `NU_NOTA_LC`      | Nota da prova de Linguagens e Códigos                                 | Numérico   |
| `NU_NOTA_MT`      | Nota da prova de Matemática                                           | Numérico   |
| `TP_LINGUA`       | Língua Estrangeira                                                    | Categórico |
|**5. Dados da redação**|    | |
| `TP_STATUS_REDACAO`| Situação da redação do participante                                                                                          | Categórico |
| `NU_NOTA_COMP1`    | Nota da competência 1 - Domínio da modalidade escrita formal da Língua Portuguesa                                            | Numérico   |
| `NU_NOTA_COMP2`    | Nota da competência 2 - Compreensão da proposta e desenvolvimento do tema                                                    | Numérico   |
| `NU_NOTA_COMP3`    | Nota da competência 3 - Seleção e organização de argumentos                                                                  | Numérico   |
| `NU_NOTA_COMP4`    | Nota da competência 4 - Uso de mecanismos linguísticos                                                                       | Numérico   |
| `NU_NOTA_COMP5`    | Nota da competência 5 - Proposta de intervenção com respeito aos direitos humanos                                            | Numérico   |
| `NU_NOTA_REDACAO`  | Nota total da prova de redação                                                                                               | Numérico   |
|**6. Dados do questionário socioeconômico**|    | |
| `Q002` | Escolaridade da mãe (ou mulher responsável)                                                                                              | Categórico |
| `Q003` | Ocupação do pai (ou homem responsável)                                                                                                   | Categórico |
| `Q006` | Renda familiar mensal                                                                                                                    | Categórico |
| `Q025` | Acesso à Internet na residência                                                                                                          | Categórico |

In [None]:
import pathlib
import pandas as pd

# Directory definitions
RAW_DATA_PATH = pathlib.Path('~/data_projects/microdados_enem_2023/DADOS') 
PROCESSED_DATA_PATH = pathlib.Path.cwd() / 'processed'  

# Read the column names from the CSV file
cols = pd.read_csv(RAW_DATA_PATH / 'MICRODADOS_ENEM_2023.csv', encoding='latin1', sep=';', nrows=0).columns.tolist()

In [None]:
len(cols)

In [None]:
cols_description = dict(
    {"dados_participante": cols[0:12],
    "dados_escola": [cols[12]] + cols[15:20],
    "dados_local_aplicacao": [cols[19]] + [cols[22]],
    "dados_prova_objetiva": cols[23:27] + cols[31:35] + [cols[39]],
    "dados_redacao": cols[44:51],
    "dados_socioeconomicos": cols[52:54] + [cols[56]] + [cols[75]]
    })

cols_description

## Dados demográficos

In [None]:
# Columns to be used in the analysis
columns = ['NU_INSCRICAO', 'TP_SEXO', 'TP_FAIXA_ETARIA', 'TP_COR_RACA', 'TP_ESTADO_CIVIL',                               # Dados demográficos
            'TP_ESCOLA', 'TP_ST_CONCLUSAO', 'IN_TREINEIRO', 'TP_LINGUA', ]
data = pd.read_csv(RAW_DATA_PATH / 'MICRODADOS_ENEM_2023.csv', encoding='latin1', usecols=columns, sep=';')
data.info()

Algum número de inscrição repetido?

In [None]:
data.isnull().mean() * 100

Quantidade de treineiros

In [None]:
data['IN_TREINEIRO'].value_counts(dropna=False)

In [None]:
data['TP_ESCOLA'].value_counts(normalize=True, dropna=False)

## Dados Presença

In [None]:
data = pd.read_csv(RAW_DATA_PATH / 'MICRODADOS_ENEM_2023.csv', encoding='latin1', usecols=['NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC'], sep=';')# nrows=1_000_000)
data.info()

In [None]:
data.isnull().mean() * 100

In [None]:
data.SG_UF_ESC.value_counts(dropna=False, normalize=True)

In [None]:
data.TP_DEPENDENCIA_ADM_ESC.value_counts(dropna=False, normalize=True)

In [None]:
data.TP_LOCALIZACAO_ESC.value_counts(dropna=False, normalize=True)

In [None]:
data.TP_SIT_FUNC_ESC.value_counts(dropna=False, normalize=True)

## Apenas Minas Gerais

In [None]:
import pandas as pd

chunks = pd.read_csv('arquivo.csv', chunksize=100_000)

dfs_filtrados = []

for chunk in chunks:
    filtrado = chunk[chunk['coluna1'] > 10]
    dfs_filtrados.append(filtrado)

df_final = pd.concat(dfs_filtrados, ignore_index=True)