# **Projeto: Como a situação socioeconômica pode influenciar no desempenho de um estudante no ENEM?**

**Integrantes:** Hellen Cristine Silva Rosa (RA00319076), João Victor Porto (RA00311353), Laura Gabriel Murayama (RA00319321), Maria Eduarda Bonel Iribarnegaray (RA00318891), Vinícius Ferreira de Mendonça (RA00319760), Vitória de Fátima Teixeira (RA00320578)

## **Banco de Dados**

### **Importando bibliotecas e definindo funções importantes**

In [1]:
# importing libraries
import os
import psycopg2
import pandas as pd
import numpy as np

# loading environment variables
from dotenv import load_dotenv
load_dotenv()

True

In [2]:
# establishing connection with DB
class db_connection():
    '''
    Instantiates a connection with the database.
    '''
    def __init__(self):
        self.DB_URI = os.environ.get('DB_URI')
         
    def __enter__(self):
        self.connection = psycopg2.connect(self.DB_URI)
        return self.connection
    
    def __exit__(self, *args):
        self.connection.close()

### **REQ#02: Identificar um dataset sobre a temática do projeto**

Utilizaremos os microdados do ENEM 2022, [disponibilizados pelo INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem).

### **REQ#03: Modelo conceitual**

xxxxx

### **REQ#04: Modelo lógico**

xxxxx

### **REQ#05: Modelo físico**

#### **Microdados**

```sql
CREATE TABLE projeto_enem.microdados (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"NU_ANO" INTEGER,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_ESTADO_CIVIL" INTEGER,
	"TP_COR_RACA" INTEGER,
	"TP_NACIONALIDADE" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"TP_ENSINO" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"CO_MUNICIPIO_ESC" INTEGER,
	"NO_MUNICIPIO_ESC" VARCHAR(150),
	"CO_UF_ESC" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_DEPENDENCIA_ADM_ESC" INTEGER,
	"TP_LOCALIZACAO_ESC" INTEGER,
	"TP_SIT_FUNC_ESC" INTEGER,
	"CO_MUNICIPIO_PROVA" INTEGER,
	"NO_MUNICIPIO_PROVA" VARCHAR(150),
	"CO_UF_PROVA" INTEGER,
	"SG_UF_PROVA" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"CO_PROVA_CN" INTEGER,
	"CO_PROVA_CH" INTEGER,
	"CO_PROVA_LC" INTEGER,
	"CO_PROVA_MT" INTEGER,
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TP_LINGUA" INTEGER,
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45),
	"TP_STATUS_REDACAO" INTEGER,
	"NU_NOTA_COMP1" INTEGER,
	"NU_NOTA_COMP2" INTEGER,
	"NU_NOTA_COMP3" INTEGER,
	"NU_NOTA_COMP4" INTEGER,
	"NU_NOTA_COMP5" INTEGER,
	"NU_NOTA_REDACAO" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" INTEGER,
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025" VARCHAR(1)
);
```

#### **hab_estudo**

```sql
CREATE TABLE projeto_enem.hab_estudo (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"TP_RESPOSTA" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
```

### **REQ#06: Popular o Banco de Dados a partir do dataset**

#### Criando tabelas

In [None]:
microdados_creation_query = '''
CREATE TABLE projeto_enem.microdados (
    "ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"NU_ANO" INTEGER,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_ESTADO_CIVIL" INTEGER,
	"TP_COR_RACA" INTEGER,
	"TP_NACIONALIDADE" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"TP_ENSINO" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"CO_MUNICIPIO_ESC" INTEGER,
	"NO_MUNICIPIO_ESC" VARCHAR(150),
	"CO_UF_ESC" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_DEPENDENCIA_ADM_ESC" INTEGER,
	"TP_LOCALIZACAO_ESC" INTEGER,
	"TP_SIT_FUNC_ESC" INTEGER,
	"CO_MUNICIPIO_PROVA" INTEGER,
	"NO_MUNICIPIO_PROVA" VARCHAR(150),
	"CO_UF_PROVA" INTEGER,
	"SG_UF_PROVA" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"CO_PROVA_CN" INTEGER,
	"CO_PROVA_CH" INTEGER,
	"CO_PROVA_LC" INTEGER,
	"CO_PROVA_MT" INTEGER,
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TP_LINGUA" INTEGER,
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45),
	"TP_STATUS_REDACAO" INTEGER,
	"NU_NOTA_COMP1" INTEGER,
	"NU_NOTA_COMP2" INTEGER,
	"NU_NOTA_COMP3" INTEGER,
	"NU_NOTA_COMP4" INTEGER,
	"NU_NOTA_COMP5" INTEGER,
	"NU_NOTA_REDACAO" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" INTEGER,
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025" VARCHAR(1)
);
'''

hab_estudo_creation_query = '''
CREATE TABLE projeto_enem.hab_estudo (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"TP_RESPOSTA" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
'''


with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute(microdados_creation_query)
    cursor.execute(hab_estudo_creation_query)
    conn.commit()

#### Populando tabelas

In [None]:
microdados_csv_query = '''
COPY projeto_enem.microdados("NU_INSCRICAO", "NU_ANO", "TP_FAIXA_ETARIA", "TP_SEXO", "TP_ESTADO_CIVIL", "TP_COR_RACA", "TP_NACIONALIDADE", "TP_ST_CONCLUSAO", "TP_ANO_CONCLUIU", "TP_ESCOLA", "TP_ENSINO", "IN_TREINEIRO", "CO_MUNICIPIO_ESC", "NO_MUNICIPIO_ESC", "CO_UF_ESC", "SG_UF_ESC", "TP_DEPENDENCIA_ADM_ESC", "TP_LOCALIZACAO_ESC", "TP_SIT_FUNC_ESC", "CO_MUNICIPIO_PROVA", "NO_MUNICIPIO_PROVA", "CO_UF_PROVA", "SG_UF_PROVA", "TP_PRESENCA_CN", "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "CO_PROVA_CN", "CO_PROVA_CH", "CO_PROVA_LC", "CO_PROVA_MT", "NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT", "TX_RESPOSTAS_CN", "TX_RESPOSTAS_CH", "TX_RESPOSTAS_LC", "TX_RESPOSTAS_MT", "TP_LINGUA", "TX_GABARITO_CN", "TX_GABARITO_CH", "TX_GABARITO_LC", "TX_GABARITO_MT", "TP_STATUS_REDACAO", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5", "NU_NOTA_REDACAO", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025")
FROM STDIN
WITH (DELIMITER ';',
ENCODING 'latin1',
FORMAT CSV,
HEADER);
'''

hab_estudo_csv_query = '''
COPY projeto_enem.hab_estudo("NU_INSCRICAO", "TP_RESPOSTA", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025A", "Q025B", "Q025C", "Q025D", "Q025E", "Q025F", "Q026A", "Q026B", "Q026C", "Q026D", "Q026E", "Q026F", "Q026G", "Q026H", "Q027", "Q028A", "Q028B", "Q028C", "Q028D", "Q028E", "Q028F", "Q028G", "Q028H", "Q028I", "Q028J", "Q028K", "Q028L", "Q028M", "Q028N", "Q028O", "Q028P", "Q028Q", "Q028R", "Q029", "Q030A", "Q030B", "Q030C", "Q030D", "Q030E", "Q030F", "Q030G", "Q031", "Q032A", "Q032B", "Q032C", "Q032D", "Q032E", "Q032F", "Q032G", "Q033A", "Q033B", "Q033C", "Q033D", "Q033E", "Q033F", "Q033G", "Q033H", "Q033I", "Q033J", "Q034")
FROM STDIN
WITH (DELIMITER ';',
ENCODING 'latin1',
FORMAT CSV,
HEADER);
'''


with db_connection() as conn, conn.cursor() as cursor:
    with open('microdados_enem_2022/DADOS/MICRODADOS_ENEM_2022.csv', encoding='latin1') as microdados_file:
        with open('microdados_enem_2022/DADOS/QUEST_HAB_ESTUDO.csv', encoding='latin1') as hab_estudo_file:
            cursor.copy_expert(microdados_csv_query, microdados_file)
            cursor.copy_expert(hab_estudo_csv_query, hab_estudo_file)
            conn.commit()

### **REQ#01: Função para unir as duas tabelas**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query_columns = 'projeto_enem.microdados."NU_INSCRICAO" as "NU_INSCRICAO",  projeto_enem.microdados."NU_ANO" AS "MICRODADOS_NU_ANO",  projeto_enem.microdados."TP_FAIXA_ETARIA" AS "MICRODADOS_TP_FAIXA_ETARIA",  projeto_enem.microdados."TP_SEXO" AS "MICRODADOS_TP_SEXO",  projeto_enem.microdados."TP_ESTADO_CIVIL" AS "MICRODADOS_TP_ESTADO_CIVIL",  projeto_enem.microdados."TP_COR_RACA" AS "MICRODADOS_TP_COR_RACA",  projeto_enem.microdados."TP_NACIONALIDADE" AS "MICRODADOS_TP_NACIONALIDADE",  projeto_enem.microdados."TP_ST_CONCLUSAO" AS "MICRODADOS_TP_ST_CONCLUSAO",  projeto_enem.microdados."TP_ANO_CONCLUIU" AS "MICRODADOS_TP_ANO_CONCLUIU",  projeto_enem.microdados."TP_ESCOLA" AS "MICRODADOS_TP_ESCOLA",  projeto_enem.microdados."TP_ENSINO" AS "MICRODADOS_TP_ENSINO",  projeto_enem.microdados."IN_TREINEIRO" AS "MICRODADOS_IN_TREINEIRO",  projeto_enem.microdados."CO_MUNICIPIO_ESC" AS "MICRODADOS_CO_MUNICIPIO_ESC",  projeto_enem.microdados."NO_MUNICIPIO_ESC" AS "MICRODADOS_NO_MUNICIPIO_ESC",  projeto_enem.microdados."CO_UF_ESC" AS "MICRODADOS_CO_UF_ESC",  projeto_enem.microdados."SG_UF_ESC" AS "MICRODADOS_SG_UF_ESC",  projeto_enem.microdados."TP_DEPENDENCIA_ADM_ESC" AS "MICRODADOS_TP_DEPENDENCIA_ADM_ESC",  projeto_enem.microdados."TP_LOCALIZACAO_ESC" AS "MICRODADOS_TP_LOCALIZACAO_ESC",  projeto_enem.microdados."TP_SIT_FUNC_ESC" AS "MICRODADOS_TP_SIT_FUNC_ESC",  projeto_enem.microdados."CO_MUNICIPIO_PROVA" AS "MICRODADOS_CO_MUNICIPIO_PROVA",  projeto_enem.microdados."NO_MUNICIPIO_PROVA" AS "MICRODADOS_NO_MUNICIPIO_PROVA",  projeto_enem.microdados."CO_UF_PROVA" AS "MICRODADOS_CO_UF_PROVA",  projeto_enem.microdados."SG_UF_PROVA" AS "MICRODADOS_SG_UF_PROVA",  projeto_enem.microdados."TP_PRESENCA_CN" AS "MICRODADOS_TP_PRESENCA_CN",  projeto_enem.microdados."TP_PRESENCA_CH" AS "MICRODADOS_TP_PRESENCA_CH",  projeto_enem.microdados."TP_PRESENCA_LC" AS "MICRODADOS_TP_PRESENCA_LC",  projeto_enem.microdados."TP_PRESENCA_MT" AS "MICRODADOS_TP_PRESENCA_MT",  projeto_enem.microdados."CO_PROVA_CN" AS "MICRODADOS_CO_PROVA_CN",  projeto_enem.microdados."CO_PROVA_CH" AS "MICRODADOS_CO_PROVA_CH",  projeto_enem.microdados."CO_PROVA_LC" AS "MICRODADOS_CO_PROVA_LC",  projeto_enem.microdados."CO_PROVA_MT" AS "MICRODADOS_CO_PROVA_MT",  projeto_enem.microdados."NU_NOTA_CN" AS "MICRODADOS_NU_NOTA_CN",  projeto_enem.microdados."NU_NOTA_CH" AS "MICRODADOS_NU_NOTA_CH",  projeto_enem.microdados."NU_NOTA_LC" AS "MICRODADOS_NU_NOTA_LC",  projeto_enem.microdados."NU_NOTA_MT" AS "MICRODADOS_NU_NOTA_MT",  projeto_enem.microdados."TX_RESPOSTAS_CN" AS "MICRODADOS_TX_RESPOSTAS_CN",  projeto_enem.microdados."TX_RESPOSTAS_CH" AS "MICRODADOS_TX_RESPOSTAS_CH",  projeto_enem.microdados."TX_RESPOSTAS_LC" AS "MICRODADOS_TX_RESPOSTAS_LC",  projeto_enem.microdados."TX_RESPOSTAS_MT" AS "MICRODADOS_TX_RESPOSTAS_MT",  projeto_enem.microdados."TP_LINGUA" AS "MICRODADOS_TP_LINGUA",  projeto_enem.microdados."TX_GABARITO_CN" AS "MICRODADOS_TX_GABARITO_CN",  projeto_enem.microdados."TX_GABARITO_CH" AS "MICRODADOS_TX_GABARITO_CH",  projeto_enem.microdados."TX_GABARITO_LC" AS "MICRODADOS_TX_GABARITO_LC",  projeto_enem.microdados."TX_GABARITO_MT" AS "MICRODADOS_TX_GABARITO_MT",  projeto_enem.microdados."TP_STATUS_REDACAO" AS "MICRODADOS_TP_STATUS_REDACAO",  projeto_enem.microdados."NU_NOTA_COMP1" AS "MICRODADOS_NU_NOTA_COMP1",  projeto_enem.microdados."NU_NOTA_COMP2" AS "MICRODADOS_NU_NOTA_COMP2",  projeto_enem.microdados."NU_NOTA_COMP3" AS "MICRODADOS_NU_NOTA_COMP3",  projeto_enem.microdados."NU_NOTA_COMP4" AS "MICRODADOS_NU_NOTA_COMP4",  projeto_enem.microdados."NU_NOTA_COMP5" AS "MICRODADOS_NU_NOTA_COMP5",  projeto_enem.microdados."NU_NOTA_REDACAO" AS "MICRODADOS_NU_NOTA_REDACAO",  projeto_enem.microdados."Q001" AS "MICRODADOS_Q001",  projeto_enem.microdados."Q002" AS "MICRODADOS_Q002",  projeto_enem.microdados."Q003" AS "MICRODADOS_Q003",  projeto_enem.microdados."Q004" AS "MICRODADOS_Q004",  projeto_enem.microdados."Q005" AS "MICRODADOS_Q005",  projeto_enem.microdados."Q006" AS "MICRODADOS_Q006",  projeto_enem.microdados."Q007" AS "MICRODADOS_Q007",  projeto_enem.microdados."Q008" AS "MICRODADOS_Q008",  projeto_enem.microdados."Q009" AS "MICRODADOS_Q009",  projeto_enem.microdados."Q010" AS "MICRODADOS_Q010",  projeto_enem.microdados."Q011" AS "MICRODADOS_Q011",  projeto_enem.microdados."Q012" AS "MICRODADOS_Q012",  projeto_enem.microdados."Q013" AS "MICRODADOS_Q013",  projeto_enem.microdados."Q014" AS "MICRODADOS_Q014",  projeto_enem.microdados."Q015" AS "MICRODADOS_Q015",  projeto_enem.microdados."Q016" AS "MICRODADOS_Q016",  projeto_enem.microdados."Q017" AS "MICRODADOS_Q017",  projeto_enem.microdados."Q018" AS "MICRODADOS_Q018",  projeto_enem.microdados."Q019" AS "MICRODADOS_Q019",  projeto_enem.microdados."Q020" AS "MICRODADOS_Q020",  projeto_enem.microdados."Q021" AS "MICRODADOS_Q021",  projeto_enem.microdados."Q022" AS "MICRODADOS_Q022",  projeto_enem.microdados."Q023" AS "MICRODADOS_Q023",  projeto_enem.microdados."Q024" AS "MICRODADOS_Q024",  projeto_enem.microdados."Q025" AS "MICRODADOS_Q025",  projeto_enem.hab_estudo."TP_RESPOSTA" AS "HABESTUDO_TP_RESPOSTA",  projeto_enem.hab_estudo."Q001" AS "HABESTUDO_Q001",  projeto_enem.hab_estudo."Q002" AS "HABESTUDO_Q002",  projeto_enem.hab_estudo."Q003" AS "HABESTUDO_Q003",  projeto_enem.hab_estudo."Q004" AS "HABESTUDO_Q004",  projeto_enem.hab_estudo."Q005" AS "HABESTUDO_Q005",  projeto_enem.hab_estudo."Q006" AS "HABESTUDO_Q006",  projeto_enem.hab_estudo."Q007" AS "HABESTUDO_Q007",  projeto_enem.hab_estudo."Q008" AS "HABESTUDO_Q008",  projeto_enem.hab_estudo."Q009" AS "HABESTUDO_Q009",  projeto_enem.hab_estudo."Q010" AS "HABESTUDO_Q010",  projeto_enem.hab_estudo."Q011" AS "HABESTUDO_Q011",  projeto_enem.hab_estudo."Q012" AS "HABESTUDO_Q012",  projeto_enem.hab_estudo."Q013" AS "HABESTUDO_Q013",  projeto_enem.hab_estudo."Q014" AS "HABESTUDO_Q014",  projeto_enem.hab_estudo."Q015" AS "HABESTUDO_Q015",  projeto_enem.hab_estudo."Q016" AS "HABESTUDO_Q016",  projeto_enem.hab_estudo."Q017" AS "HABESTUDO_Q017",  projeto_enem.hab_estudo."Q018" AS "HABESTUDO_Q018",  projeto_enem.hab_estudo."Q019" AS "HABESTUDO_Q019",  projeto_enem.hab_estudo."Q020" AS "HABESTUDO_Q020",  projeto_enem.hab_estudo."Q021" AS "HABESTUDO_Q021",  projeto_enem.hab_estudo."Q022" AS "HABESTUDO_Q022",  projeto_enem.hab_estudo."Q023" AS "HABESTUDO_Q023",  projeto_enem.hab_estudo."Q024" AS "HABESTUDO_Q024",  projeto_enem.hab_estudo."Q025A" AS "HABESTUDO_Q025A",  projeto_enem.hab_estudo."Q025B" AS "HABESTUDO_Q025B",  projeto_enem.hab_estudo."Q025C" AS "HABESTUDO_Q025C",  projeto_enem.hab_estudo."Q025D" AS "HABESTUDO_Q025D",  projeto_enem.hab_estudo."Q025E" AS "HABESTUDO_Q025E",  projeto_enem.hab_estudo."Q025F" AS "HABESTUDO_Q025F",  projeto_enem.hab_estudo."Q026A" AS "HABESTUDO_Q026A",  projeto_enem.hab_estudo."Q026B" AS "HABESTUDO_Q026B",  projeto_enem.hab_estudo."Q026C" AS "HABESTUDO_Q026C",  projeto_enem.hab_estudo."Q026D" AS "HABESTUDO_Q026D",  projeto_enem.hab_estudo."Q026E" AS "HABESTUDO_Q026E",  projeto_enem.hab_estudo."Q026F" AS "HABESTUDO_Q026F",  projeto_enem.hab_estudo."Q026G" AS "HABESTUDO_Q026G",  projeto_enem.hab_estudo."Q026H" AS "HABESTUDO_Q026H",  projeto_enem.hab_estudo."Q027" AS "HABESTUDO_Q027",  projeto_enem.hab_estudo."Q028A" AS "HABESTUDO_Q028A",  projeto_enem.hab_estudo."Q028B" AS "HABESTUDO_Q028B",  projeto_enem.hab_estudo."Q028C" AS "HABESTUDO_Q028C",  projeto_enem.hab_estudo."Q028D" AS "HABESTUDO_Q028D",  projeto_enem.hab_estudo."Q028E" AS "HABESTUDO_Q028E",  projeto_enem.hab_estudo."Q028F" AS "HABESTUDO_Q028F",  projeto_enem.hab_estudo."Q028G" AS "HABESTUDO_Q028G",  projeto_enem.hab_estudo."Q028H" AS "HABESTUDO_Q028H",  projeto_enem.hab_estudo."Q028I" AS "HABESTUDO_Q028I",  projeto_enem.hab_estudo."Q028J" AS "HABESTUDO_Q028J",  projeto_enem.hab_estudo."Q028K" AS "HABESTUDO_Q028K",  projeto_enem.hab_estudo."Q028L" AS "HABESTUDO_Q028L",  projeto_enem.hab_estudo."Q028M" AS "HABESTUDO_Q028M",  projeto_enem.hab_estudo."Q028N" AS "HABESTUDO_Q028N",  projeto_enem.hab_estudo."Q028O" AS "HABESTUDO_Q028O",  projeto_enem.hab_estudo."Q028P" AS "HABESTUDO_Q028P",  projeto_enem.hab_estudo."Q028Q" AS "HABESTUDO_Q028Q",  projeto_enem.hab_estudo."Q028R" AS "HABESTUDO_Q028R",  projeto_enem.hab_estudo."Q029" AS "HABESTUDO_Q029",  projeto_enem.hab_estudo."Q030A" AS "HABESTUDO_Q030A",  projeto_enem.hab_estudo."Q030B" AS "HABESTUDO_Q030B",  projeto_enem.hab_estudo."Q030C" AS "HABESTUDO_Q030C",  projeto_enem.hab_estudo."Q030D" AS "HABESTUDO_Q030D",  projeto_enem.hab_estudo."Q030E" AS "HABESTUDO_Q030E",  projeto_enem.hab_estudo."Q030F" AS "HABESTUDO_Q030F",  projeto_enem.hab_estudo."Q030G" AS "HABESTUDO_Q030G",  projeto_enem.hab_estudo."Q031" AS "HABESTUDO_Q031",  projeto_enem.hab_estudo."Q032A" AS "HABESTUDO_Q032A",  projeto_enem.hab_estudo."Q032B" AS "HABESTUDO_Q032B",  projeto_enem.hab_estudo."Q032C" AS "HABESTUDO_Q032C",  projeto_enem.hab_estudo."Q032D" AS "HABESTUDO_Q032D",  projeto_enem.hab_estudo."Q032E" AS "HABESTUDO_Q032E",  projeto_enem.hab_estudo."Q032F" AS "HABESTUDO_Q032F",  projeto_enem.hab_estudo."Q032G" AS "HABESTUDO_Q032G",  projeto_enem.hab_estudo."Q033A" AS "HABESTUDO_Q033A",  projeto_enem.hab_estudo."Q033B" AS "HABESTUDO_Q033B",  projeto_enem.hab_estudo."Q033C" AS "HABESTUDO_Q033C",  projeto_enem.hab_estudo."Q033D" AS "HABESTUDO_Q033D",  projeto_enem.hab_estudo."Q033E" AS "HABESTUDO_Q033E",  projeto_enem.hab_estudo."Q033F" AS "HABESTUDO_Q033F",  projeto_enem.hab_estudo."Q033G" AS "HABESTUDO_Q033G",  projeto_enem.hab_estudo."Q033H" AS "HABESTUDO_Q033H",  projeto_enem.hab_estudo."Q033I" AS "HABESTUDO_Q033I",  projeto_enem.hab_estudo."Q033J" AS "HABESTUDO_Q033J",  projeto_enem.hab_estudo."Q034" AS "HABESTUDO_Q034"'

    query = f'''
        CREATE TABLE projeto_enem.aggregated_data
        AS
        SELECT {query_columns}
        FROM projeto_enem.microdados
        FULL JOIN projeto_enem.hab_estudo ON projeto_enem.microdados."NU_INSCRICAO" = projeto_enem.hab_estudo."NU_INSCRICAO";
    '''
    cursor.execute(query)
    conn.commit()

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
        SELECT *
        FROM projeto_enem.aggregated_data;
    '''
    cursor.execute(query)
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]

In [None]:
aggregated_data = pd.DataFrame(data, columns=columns)
aggregated_data

### **REQ#07: Questões**

#### **Questão 1: xxxxx**

#### **Questão 2: xxxxx**

#### **Questão 3: xxxxx**

#### **Questão 4: xxxxx**

#### **Questão 5: xxxxx**

#### **Questão 6: xxxxx**

#### **Questão 7: xxxxx**

#### **Questão 8: xxxxx**

#### **Questão 9: xxxxx**

#### **Questão 10: xxxxx**

## **Machine Learning**

### **Importando bibliotecas e definindo funções importantes**

In [None]:
SEED = 3

from sklearnex import patch_sklearn
patch_sklearn()

import joblib
import skops.io as sio

from sklearn.compose import ColumnTransformer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, KFold

from typing import Union

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute('SELECT * FROM projeto_enem.microdados;')
    microdados_data = cursor.fetchall()
    microdados_columns = tuple(desc[0] for desc in cursor.description)

microdados_df = pd.DataFrame(microdados_data, columns=microdados_columns).set_index('ID', drop=True)
microdados_df

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute('SELECT * FROM projeto_enem.hab_estudo;')
    hab_estudo_data = cursor.fetchall()
    hab_estudo_columns = tuple(desc[0] for desc in cursor.description)

hab_estudo_df = pd.DataFrame(hab_estudo_data, columns=hab_estudo_columns).set_index('ID', drop=True)
hab_estudo_df

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute('SELECT * FROM projeto_enem.aggregated_data;')
    aggregated_data = cursor.fetchall()
    aggregated_columns = tuple(desc[0] for desc in cursor.description)

aggregated_df = pd.DataFrame(aggregated_data, columns=aggregated_columns)
aggregated_df

In [None]:
aggregated_df = pd.read_csv('aggregated_df.csv')
aggregated_df = aggregated_df.replace(np.nan, None)
aggregated_df

### **REQ#01: Utilizar um ou mais datasets para o treinamento dos classificadores**

Utilizaremos os microdados do ENEM 2022, [disponibilizados pelo INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem).

### **REQ#02: Análise Exploratória**

#### Verificando nulos

In [None]:
updated_aggregated_df = aggregated_df.copy()

In [None]:
updated_aggregated_df = updated_aggregated_df.dropna(
    subset=['NU_INSCRICAO', 'MICRODADOS_TP_FAIXA_ETARIA', 'MICRODADOS_TP_SEXO', 'MICRODADOS_TP_COR_RACA', 'MICRODADOS_TP_ST_CONCLUSAO', 'MICRODADOS_TP_ANO_CONCLUIU', 'MICRODADOS_TP_ESCOLA', 'MICRODADOS_TP_ENSINO', 'MICRODADOS_IN_TREINEIRO', 'MICRODADOS_SG_UF_ESC', 'MICRODADOS_TP_PRESENCA_CN', 'MICRODADOS_TP_PRESENCA_CH', 'MICRODADOS_TP_PRESENCA_LC', 'MICRODADOS_TP_PRESENCA_MT', 'MICRODADOS_NU_NOTA_CN', 'MICRODADOS_NU_NOTA_CH', 'MICRODADOS_NU_NOTA_LC', 'MICRODADOS_NU_NOTA_MT', 'MICRODADOS_NU_NOTA_REDACAO', 'MICRODADOS_TP_STATUS_REDACAO', 'MICRODADOS_NU_NOTA_COMP1', 'MICRODADOS_NU_NOTA_COMP2', 'MICRODADOS_NU_NOTA_COMP3', 'MICRODADOS_NU_NOTA_COMP4', 'MICRODADOS_NU_NOTA_COMP5', 'MICRODADOS_TP_LINGUA', 'MICRODADOS_Q005', 'MICRODADOS_Q006', 'HABESTUDO_Q001', 'HABESTUDO_Q002', 'HABESTUDO_Q003', 'HABESTUDO_Q004', 'HABESTUDO_Q005', 'HABESTUDO_Q006', 'HABESTUDO_Q007', 'HABESTUDO_Q008', 'HABESTUDO_Q009', 'HABESTUDO_Q010', 'HABESTUDO_Q011', 'HABESTUDO_Q012', 'HABESTUDO_Q013', 'HABESTUDO_Q014', 'HABESTUDO_Q015', 'HABESTUDO_Q016', 'HABESTUDO_Q017', 'HABESTUDO_Q018', 'HABESTUDO_Q019', 'HABESTUDO_Q020', 'HABESTUDO_Q021', 'HABESTUDO_Q022', 'HABESTUDO_Q023', 'HABESTUDO_Q024', 'HABESTUDO_Q025A', 'HABESTUDO_Q025B', 'HABESTUDO_Q025C', 'HABESTUDO_Q025D', 'HABESTUDO_Q025E', 'HABESTUDO_Q025F', 'HABESTUDO_Q026A', 'HABESTUDO_Q026B', 'HABESTUDO_Q026C', 'HABESTUDO_Q026D', 'HABESTUDO_Q026E', 'HABESTUDO_Q026F', 'HABESTUDO_Q026G', 'HABESTUDO_Q026H', 'HABESTUDO_Q027', 'HABESTUDO_Q028A', 'HABESTUDO_Q028B', 'HABESTUDO_Q028C', 'HABESTUDO_Q028D', 'HABESTUDO_Q028E', 'HABESTUDO_Q028F', 'HABESTUDO_Q028G', 'HABESTUDO_Q028H', 'HABESTUDO_Q028I', 'HABESTUDO_Q028J', 'HABESTUDO_Q028K', 'HABESTUDO_Q028L', 'HABESTUDO_Q028M', 'HABESTUDO_Q028N', 'HABESTUDO_Q028O', 'HABESTUDO_Q028P', 'HABESTUDO_Q028Q', 'HABESTUDO_Q028R', 'HABESTUDO_Q029', 'HABESTUDO_Q030A', 'HABESTUDO_Q030B', 'HABESTUDO_Q030C', 'HABESTUDO_Q030D', 'HABESTUDO_Q030E', 'HABESTUDO_Q030F', 'HABESTUDO_Q030G', 'HABESTUDO_Q031', 'HABESTUDO_Q032A', 'HABESTUDO_Q032B', 'HABESTUDO_Q032C', 'HABESTUDO_Q032D', 'HABESTUDO_Q032E', 'HABESTUDO_Q032F', 'HABESTUDO_Q032G', 'HABESTUDO_Q033A', 'HABESTUDO_Q033B', 'HABESTUDO_Q033C', 'HABESTUDO_Q033D', 'HABESTUDO_Q033E', 'HABESTUDO_Q033F', 'HABESTUDO_Q033G', 'HABESTUDO_Q033H', 'HABESTUDO_Q033I', 'HABESTUDO_Q033J', 'HABESTUDO_Q034']
).reset_index(drop=True)

updated_aggregated_df

In [None]:
updated_aggregated_df_isna = updated_aggregated_df.isna().sum()
updated_aggregated_df_isna[updated_aggregated_df_isna != 0]

#### Criando novas variáveis

In [None]:
def get_regiao_uf(vetor_uf: pd.Series) -> pd.Series:
    '''
    Informa a região correspondente ao estado a partir de sua sigla.

    :params:
    - vetor_uf: UF do candidato (MICRODADOS_SG_UF_ESC).

    Returns a Series.
    '''

    regioes_list = []

    for uf in vetor_uf:
        regiao_uf_dict = {
            'AM': 'Norte',
            'RR': 'Norte',
            'AP': 'Norte',
            'PA': 'Norte',
            'TO': 'Norte',
            'RO': 'Norte',
            'AC': 'Norte',
            'MA': 'Nordeste',
            'PI': 'Nordeste',
            'CE': 'Nordeste',
            'RN': 'Nordeste',
            'PE': 'Nordeste',
            'PB': 'Nordeste',
            'SE': 'Nordeste',
            'AL': 'Nordeste',
            'BA': 'Nordeste',
            'MT': 'Centro-Oeste',
            'MS': 'Centro-Oeste',
            'GO': 'Centro-Oeste',
            'DF': 'Centro-Oeste',
            'SP': 'Sudeste',
            'RJ': 'Sudeste',
            'ES': 'Sudeste',
            'MG': 'Sudeste',
            'PR': 'Sul',
            'RS': 'Sul',
            'SC': 'Sul',
        }

        regiao = regiao_uf_dict[uf]
        regioes_list.append(regiao)

    return pd.Series(regioes_list)

In [None]:
def count_acertos(area_prova: str, vetor_respostas: pd.Series, vetor_gabaritos: pd.Series, vetor_linguas: Union[pd.Series, None] = None) -> pd.Series:
    '''
    Conta os acertos de determinada prova.

    :params:
    - area_prova: a qual área corresponde a prova.
    - vetor_respostas: vetor de respostas do candidato.
    - vetor_gabaritos: vetor de gabaritos dada a prova do candidato.
    - vetor_linguas: caso 'area_prova' seja 'LC', a lingua deve ser indicada, sendo 0 para 'inglês' e 1 para 'espanhol'.

    Returns a Series.
    '''

    if (area_prova == 'LC') and (isinstance(vetor_linguas, type(None))):
        raise ValueError('vetor_linguas must be defined for a \'LC\' area_prova.')


    def update_gabarito_with_language(lingua: int, gabarito: str):
        if not isinstance(lingua, int):
            raise ValueError('\'lingua\' is not defined')
        elif lingua == 0:
            updated_gabarito = gabarito[:5] + gabarito[10:]
        elif lingua == 1:
            updated_gabarito = gabarito[5:]
        return updated_gabarito
    

    def check_answers_on_gabarito(acertos_list: list, respostas: str, gabarito: str, lingua: Union[int, None] = None):
        if not isinstance(respostas, str):
            acertos_list.append(None)
        else:
            if area_prova == 'LC':
                gabarito = update_gabarito_with_language(lingua, gabarito)

            acertos = 0
            for r, g in zip(respostas, gabarito):
                if r == g:
                    acertos += 1
            acertos_list.append(acertos)
    
    
    acertos_list = []
    if area_prova == 'LC':
        for respostas, gabarito, lingua in zip(vetor_respostas, vetor_gabaritos, vetor_linguas):
            check_answers_on_gabarito(acertos_list, respostas, gabarito, lingua)
    else:
        for respostas, gabarito in zip(vetor_respostas, vetor_gabaritos):
            check_answers_on_gabarito(acertos_list, respostas, gabarito)
    

    return pd.Series(acertos_list)

In [None]:
def get_mediana_renda_per_capita(vetor_renda_total: pd.Series, vetor_tamanho_grupo_familiar: pd.Series) -> pd.Series:
    '''
    Calcula a renda per capita do grupo familiar.

    :params:
    - vetor_renda_total: item de resposta da renda total (MICRODADOS_Q006).
    - vetor_tamanho_grupo_familiar: item de resposta do tamanho do grupo_familiar (MICRODADOS_Q005).

    Returns a Series.
    '''

    renda_per_capita_list = []

    for renda, tamanho_grupo_familiar in zip(vetor_renda_total, vetor_tamanho_grupo_familiar):
        renda_correspondence_dict = {
            'A': (0.00, 0.00),
            'B': (0.00, 1212.00),
            'C': (1212.01, 1818.00),
            'D': (1818.01, 2424.00),
            'E': (2424.01, 3030.00),
            'F': (3030.01, 3636.00),
            'G': (3636.01, 4848.00),
            'H': (4848.01, 6060.00),
            'I': (6060.01, 7272.00),
            'J': (7272.01, 8484.00),
            'K': (8484.01, 9696.00),
            'L': (9696.01, 10908.00),
            'M': (10908.01, 12120.00),
            'N': (12120.01, 14544.00),
            'O': (14544.01, 18180.00),
            'P': (18180.01, 24240.00),
            'Q': (24240.01, float('inf')),
        }
        intervalo_renda = renda_correspondence_dict[renda]

        if intervalo_renda:
            intervalo_renda_per_capita = tuple([amount/tamanho_grupo_familiar for amount in intervalo_renda])
            mediana_renda_per_capita = np.median(intervalo_renda_per_capita)
            renda_per_capita_list.append(mediana_renda_per_capita)
        else:
            renda_per_capita_list.append(None)

    return pd.Series(renda_per_capita_list)

In [None]:
updated_aggregated_df.loc[:, 'MICRODADOS_REGIAO_ESCOLA'] = get_regiao_uf(updated_aggregated_df['MICRODADOS_SG_UF_ESC'])

updated_aggregated_df.loc[:, 'MICRODADOS_NU_NOTA_MEDIA'] = (updated_aggregated_df['MICRODADOS_NU_NOTA_CN'] + updated_aggregated_df['MICRODADOS_NU_NOTA_CH'] + updated_aggregated_df['MICRODADOS_NU_NOTA_LC'] + updated_aggregated_df['MICRODADOS_NU_NOTA_MT'] + updated_aggregated_df['MICRODADOS_NU_NOTA_REDACAO']) / 5

updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_CN'] = count_acertos('CN', updated_aggregated_df['MICRODADOS_TX_RESPOSTAS_CN'], updated_aggregated_df['MICRODADOS_TX_GABARITO_CN'])
updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_CH'] = count_acertos('CH', updated_aggregated_df['MICRODADOS_TX_RESPOSTAS_CH'], updated_aggregated_df['MICRODADOS_TX_GABARITO_CH'])
updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_LC'] = count_acertos('LC', updated_aggregated_df['MICRODADOS_TX_RESPOSTAS_LC'], updated_aggregated_df['MICRODADOS_TX_GABARITO_LC'], updated_aggregated_df['MICRODADOS_TP_LINGUA'])
updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_MT'] = count_acertos('MT', updated_aggregated_df['MICRODADOS_TX_RESPOSTAS_MT'], updated_aggregated_df['MICRODADOS_TX_GABARITO_MT'])

updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_TOTAL'] = updated_aggregated_df['MICRODADOS_NU_ACERTOS_CN'] + updated_aggregated_df['MICRODADOS_NU_ACERTOS_CH'] + updated_aggregated_df['MICRODADOS_NU_ACERTOS_LC'] + updated_aggregated_df['MICRODADOS_NU_ACERTOS_MT']
updated_aggregated_df.loc[:, 'MICRODADOS_NU_ACERTOS_MEDIO'] = updated_aggregated_df['MICRODADOS_NU_ACERTOS_TOTAL'] / 4

updated_aggregated_df.loc[:, 'MICRODADOS_RENDA_PER_CAPITA'] = get_mediana_renda_per_capita(updated_aggregated_df['MICRODADOS_Q006'], updated_aggregated_df['MICRODADOS_Q005'])


updated_aggregated_df

In [None]:
def get_hab_estudo_category_values(df: pd.DataFrame) -> pd.DataFrame:
    '''
    Une as colunas de respostas dos hábitos de estudo por categoria, normalizando as respostas.

    :params:
    - df: DataFrame com todos os dados para substituição.

    Returns a DataFrame.
    '''

    # colocar variáveis em ordem crescente de dificuldade/falta de estudo (positividade)
    # em caso de sim/não, utilizar 'sim' como maior
    hab_estudo_correspondence_dict = {
        'HABESTUDO_ST_MAT_PERC_APR': {
            'HABESTUDO_Q001': ('E', 'D', 'C', 'B', 'A'),
            'HABESTUDO_Q002': ('C', 'B', 'A'),
            'HABESTUDO_Q003': ('E', 'D', 'C', 'B', 'A'),
            'HABESTUDO_Q004': ('F', 'E', 'D', 'C', 'B', 'A'),
            },
        'HABESTUDO_GES_TEMP_PLAN_EST': {
            'HABESTUDO_Q005': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q006': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q007': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q008': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q021': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q022': ('A', 'B', 'C', 'D'),
            },
        'HABESTUDO_PRAT_EST_PES': {
            'HABESTUDO_Q009': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q010': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q011': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q012': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q013': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q014': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q015': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q016': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q017': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q018': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q019': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q020': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q023': ('A', 'B', 'C', 'D'),
            'HABESTUDO_Q024': ('A', 'B', 'C', 'D'),
            },
        'HABESTUDO_TECN_TP_ACES': {
            'HABESTUDO_Q025A': ('B', 'A'),
            'HABESTUDO_Q025B': ('B', 'A'),
            'HABESTUDO_Q025C': ('B', 'A'),
            'HABESTUDO_Q025D': ('B', 'A'),
            'HABESTUDO_Q025E': ('B', 'A'),
            'HABESTUDO_Q025F': ('B', 'A'),
            'HABESTUDO_Q026A': ('B', 'A'),
            'HABESTUDO_Q026B': ('B', 'A'),
            'HABESTUDO_Q026C': ('B', 'A'),
            'HABESTUDO_Q026D': ('B', 'A'),
            'HABESTUDO_Q026E': ('B', 'A'),
            'HABESTUDO_Q026F': ('B', 'A'),
            'HABESTUDO_Q026G': ('B', 'A'),
            'HABESTUDO_Q026H': ('B', 'A'),
            },
        'HABESTUDO_PROB_ROT_EST': {
            'HABESTUDO_Q027': ('B', 'A'),
            'HABESTUDO_Q028A': ('B', 'A'),
            'HABESTUDO_Q028B': ('B', 'A'),
            'HABESTUDO_Q028C': ('B', 'A'),
            'HABESTUDO_Q028D': ('B', 'A'),
            'HABESTUDO_Q028E': ('B', 'A'),
            'HABESTUDO_Q028F': ('B', 'A'),
            'HABESTUDO_Q028G': ('B', 'A'),
            'HABESTUDO_Q028H': ('B', 'A'),
            'HABESTUDO_Q028I': ('B', 'A'),
            'HABESTUDO_Q028J': ('B', 'A'),
            'HABESTUDO_Q028K': ('B', 'A'),
            'HABESTUDO_Q028L': ('B', 'A'),
            'HABESTUDO_Q028M': ('B', 'A'),
            'HABESTUDO_Q028N': ('B', 'A'),
            'HABESTUDO_Q028O': ('B', 'A'),
            'HABESTUDO_Q028P': ('B', 'A'),
            'HABESTUDO_Q028Q': ('B', 'A'),
            'HABESTUDO_Q028R': ('B', 'A'),
            },
        'HABESTUDO_DIF_INFR': {
            'HABESTUDO_Q029': ('B', 'A'),
            'HABESTUDO_Q030A': ('B', 'A'),
            'HABESTUDO_Q030B': ('B', 'A'),
            'HABESTUDO_Q030C': ('B', 'A'),
            'HABESTUDO_Q030D': ('B', 'A'),
            'HABESTUDO_Q030E': ('B', 'A'),
            'HABESTUDO_Q030F': ('B', 'A'),
            'HABESTUDO_Q030G': ('B', 'A'),
            },
        'HABESTUDO_AJUD_TERC': {
            'HABESTUDO_Q031': ('C', 'A', 'B'),
            'HABESTUDO_Q032A': ('B', 'A'),
            'HABESTUDO_Q032B': ('B', 'A'),
            'HABESTUDO_Q032C': ('B', 'A'),
            'HABESTUDO_Q032D': ('B', 'A'),
            'HABESTUDO_Q032E': ('B', 'A'),
            'HABESTUDO_Q032F': ('B', 'A'),
            'HABESTUDO_Q032G': ('B', 'A'),
            'HABESTUDO_Q033A': ('B', 'A'),
            'HABESTUDO_Q033B': ('B', 'A'),
            'HABESTUDO_Q033C': ('B', 'A'),
            'HABESTUDO_Q033D': ('B', 'A'),
            'HABESTUDO_Q033E': ('B', 'A'),
            'HABESTUDO_Q033F': ('B', 'A'),
            'HABESTUDO_Q033G': ('B', 'A'),
            'HABESTUDO_Q033H': ('B', 'A'),
            'HABESTUDO_Q033I': ('B', 'A'),
            'HABESTUDO_Q033J': ('B', 'A'),
            },
        'HABESTUDO_AVAL_PROP_EXP': {
            'HABESTUDO_Q034': ('A', 'B', 'C', 'D', 'E'),
            },
    }


    for column_name, column_questions_dict in hab_estudo_correspondence_dict.items():
        column_series_dict = {}

        for question_name, question_value_list in column_questions_dict.items():
            question_series = []
            
            for student_answer in df[question_name]:
                row_value = question_value_list.index(student_answer) / (len(question_value_list) - 1)
                question_series.append(row_value)
            
            column_series_dict[question_name] = question_series

        column_series = pd.Series(zip(*column_series_dict.values()))
        column_series = column_series.apply(lambda values_tuple: sum(values_tuple))

        df.loc[:, column_name] = column_series


    return df

In [None]:
updated_aggregated_df = get_hab_estudo_category_values(updated_aggregated_df)
updated_aggregated_df

#### Filtrando variáveis

In [None]:
interest_variables = ['NU_INSCRICAO', 'MICRODADOS_TP_FAIXA_ETARIA', 'MICRODADOS_TP_SEXO', 'MICRODADOS_TP_COR_RACA', 'MICRODADOS_TP_ST_CONCLUSAO', 'MICRODADOS_TP_ANO_CONCLUIU', 'MICRODADOS_TP_ESCOLA', 'MICRODADOS_TP_ENSINO', 'MICRODADOS_IN_TREINEIRO', 'MICRODADOS_REGIAO_ESCOLA', 'MICRODADOS_TP_PRESENCA_CN', 'MICRODADOS_TP_PRESENCA_CH', 'MICRODADOS_TP_PRESENCA_LC', 'MICRODADOS_TP_PRESENCA_MT', 'MICRODADOS_NU_NOTA_CN', 'MICRODADOS_NU_NOTA_CH', 'MICRODADOS_NU_NOTA_LC', 'MICRODADOS_NU_NOTA_MT', 'MICRODADOS_NU_NOTA_REDACAO', 'MICRODADOS_TP_STATUS_REDACAO', 'MICRODADOS_NU_NOTA_COMP1', 'MICRODADOS_NU_NOTA_COMP2', 'MICRODADOS_NU_NOTA_COMP3', 'MICRODADOS_NU_NOTA_COMP4', 'MICRODADOS_NU_NOTA_COMP5', 'MICRODADOS_NU_NOTA_MEDIA', 'MICRODADOS_NU_ACERTOS_CN', 'MICRODADOS_NU_ACERTOS_CH', 'MICRODADOS_NU_ACERTOS_LC', 'MICRODADOS_NU_ACERTOS_MT', 'MICRODADOS_NU_ACERTOS_TOTAL', 'MICRODADOS_NU_ACERTOS_MEDIO', 'MICRODADOS_TP_LINGUA', 'MICRODADOS_RENDA_PER_CAPITA', 'HABESTUDO_ST_MAT_PERC_APR', 'HABESTUDO_GES_TEMP_PLAN_EST', 'HABESTUDO_PRAT_EST_PES', 'HABESTUDO_TECN_TP_ACES', 'HABESTUDO_PROB_ROT_EST', 'HABESTUDO_DIF_INFR', 'HABESTUDO_AJUD_TERC', 'HABESTUDO_AVAL_PROP_EXP']

filtered_aggregated_df = updated_aggregated_df.loc[:, interest_variables]
filtered_aggregated_df

#### Exportando dados localmente e para o DB

In [None]:
filtered_aggregated_df.to_csv('filtered_aggregated_df.csv', index=False)

In [None]:
filtered_aggregated_data_creation_query = '''
CREATE TABLE projeto_enem.filtered_aggregated_data (
	"NU_INSCRICAO" BIGINT PRIMARY KEY,
	"MICRODADOS_TP_FAIXA_ETARIA" INTEGER,
	"MICRODADOS_TP_SEXO" VARCHAR(1),
	"MICRODADOS_TP_COR_RACA" INTEGER,
	"MICRODADOS_TP_ST_CONCLUSAO" INTEGER,
	"MICRODADOS_TP_ANO_CONCLUIU" INTEGER,
	"MICRODADOS_TP_ESCOLA" INTEGER,
	"MICRODADOS_TP_ENSINO" FLOAT,
	"MICRODADOS_IN_TREINEIRO" INTEGER,
	"MICRODADOS_REGIAO_ESCOLA" VARCHAR(12),
	"MICRODADOS_TP_PRESENCA_CN" INTEGER,
	"MICRODADOS_TP_PRESENCA_CH" INTEGER,
	"MICRODADOS_TP_PRESENCA_LC" INTEGER,
	"MICRODADOS_TP_PRESENCA_MT" INTEGER,
	"MICRODADOS_NU_NOTA_CN" FLOAT,
	"MICRODADOS_NU_NOTA_CH" FLOAT,
	"MICRODADOS_NU_NOTA_LC" FLOAT,
	"MICRODADOS_NU_NOTA_MT" FLOAT,
	"MICRODADOS_NU_NOTA_REDACAO" FLOAT,
	"MICRODADOS_TP_STATUS_REDACAO" FLOAT,
	"MICRODADOS_NU_NOTA_COMP1" FLOAT,
	"MICRODADOS_NU_NOTA_COMP2" FLOAT,
	"MICRODADOS_NU_NOTA_COMP3" FLOAT,
	"MICRODADOS_NU_NOTA_COMP4" FLOAT,
	"MICRODADOS_NU_NOTA_COMP5" FLOAT,
	"MICRODADOS_NU_NOTA_MEDIA" FLOAT,
	"MICRODADOS_NU_ACERTOS_CN" INTEGER,
	"MICRODADOS_NU_ACERTOS_CH" INTEGER,
	"MICRODADOS_NU_ACERTOS_LC" INTEGER,
	"MICRODADOS_NU_ACERTOS_MT" INTEGER,
	"MICRODADOS_NU_ACERTOS_TOTAL" INTEGER,
	"MICRODADOS_NU_ACERTOS_MEDIO" FLOAT,
	"MICRODADOS_TP_LINGUA" INTEGER,
	"MICRODADOS_RENDA_PER_CAPITA" FLOAT,
	"HABESTUDO_ST_MAT_PERC_APR" FLOAT,
	"HABESTUDO_GES_TEMP_PLAN_EST" FLOAT,
	"HABESTUDO_PRAT_EST_PES" FLOAT,
	"HABESTUDO_TECN_TP_ACES" FLOAT,
	"HABESTUDO_PROB_ROT_EST" FLOAT,
	"HABESTUDO_DIF_INFR" FLOAT,
	"HABESTUDO_AJUD_TERC" FLOAT,
	"HABESTUDO_AVAL_PROP_EXP" FLOAT
);
'''

filtered_aggregated_csv_query = '''
COPY projeto_enem.filtered_aggregated_data("NU_INSCRICAO", "MICRODADOS_TP_FAIXA_ETARIA", "MICRODADOS_TP_SEXO", "MICRODADOS_TP_COR_RACA", "MICRODADOS_TP_ST_CONCLUSAO", "MICRODADOS_TP_ANO_CONCLUIU", "MICRODADOS_TP_ESCOLA", "MICRODADOS_TP_ENSINO", "MICRODADOS_IN_TREINEIRO", "MICRODADOS_REGIAO_ESCOLA", "MICRODADOS_TP_PRESENCA_CN", "MICRODADOS_TP_PRESENCA_CH", "MICRODADOS_TP_PRESENCA_LC", "MICRODADOS_TP_PRESENCA_MT", "MICRODADOS_NU_NOTA_CN", "MICRODADOS_NU_NOTA_CH", "MICRODADOS_NU_NOTA_LC", "MICRODADOS_NU_NOTA_MT", "MICRODADOS_NU_NOTA_REDACAO", "MICRODADOS_TP_STATUS_REDACAO", "MICRODADOS_NU_NOTA_COMP1", "MICRODADOS_NU_NOTA_COMP2", "MICRODADOS_NU_NOTA_COMP3", "MICRODADOS_NU_NOTA_COMP4", "MICRODADOS_NU_NOTA_COMP5", "MICRODADOS_NU_NOTA_MEDIA", "MICRODADOS_NU_ACERTOS_CN", "MICRODADOS_NU_ACERTOS_CH", "MICRODADOS_NU_ACERTOS_LC", "MICRODADOS_NU_ACERTOS_MT", "MICRODADOS_NU_ACERTOS_TOTAL", "MICRODADOS_NU_ACERTOS_MEDIO", "MICRODADOS_TP_LINGUA", "MICRODADOS_RENDA_PER_CAPITA", "HABESTUDO_ST_MAT_PERC_APR", "HABESTUDO_GES_TEMP_PLAN_EST", "HABESTUDO_PRAT_EST_PES", "HABESTUDO_TECN_TP_ACES", "HABESTUDO_PROB_ROT_EST", "HABESTUDO_DIF_INFR", "HABESTUDO_AJUD_TERC", "HABESTUDO_AVAL_PROP_EXP")
FROM STDIN
WITH (DELIMITER ',',
ENCODING 'utf8',
FORMAT CSV,
HEADER);
'''


with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute(filtered_aggregated_data_creation_query)
    conn.commit()
    
    with open('filtered_aggregated_df.csv', encoding='utf8') as filtered_aggregated_csv_file:
        cursor.copy_expert(filtered_aggregated_csv_query, filtered_aggregated_csv_file)
        conn.commit()

### **REQ#03-11: Treinamento de modelos**

Todos os modelos serão testados com 30% dos dados. A avaliação será feita a partir das métricas acurácia, precision, recall, F1 e matriz de confusão. Eles serão persistidos.

In [3]:
with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute('SELECT * FROM projeto_enem.filtered_aggregated_data;')
    filtered_aggregated_data = cursor.fetchall()
    filtered_aggregated_columns = tuple(desc[0] for desc in cursor.description)

filtered_aggregated_df = pd.DataFrame(filtered_aggregated_data, columns=filtered_aggregated_columns)
filtered_aggregated_df

Unnamed: 0,NU_INSCRICAO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,MICRODADOS_TP_ENSINO,MICRODADOS_IN_TREINEIRO,MICRODADOS_REGIAO_ESCOLA,...,MICRODADOS_TP_LINGUA,MICRODADOS_RENDA_PER_CAPITA,HABESTUDO_ST_MAT_PERC_APR,HABESTUDO_GES_TEMP_PLAN_EST,HABESTUDO_PRAT_EST_PES,HABESTUDO_TECN_TP_ACES,HABESTUDO_PROB_ROT_EST,HABESTUDO_DIF_INFR,HABESTUDO_AJUD_TERC,HABESTUDO_AVAL_PROP_EXP
0,210054479101,2,F,3,2,0,2,1.0,0,Centro-Oeste,...,1,303.000000,3.50,2.666667,4.666667,2.0,2.0,3.0,2.5,0.00
1,210054480429,3,M,1,2,0,3,1.0,0,Norte,...,0,707.001667,4.00,0.000000,0.333333,3.0,2.0,2.0,2.5,0.00
2,210054480874,3,F,3,2,0,2,1.0,0,Norte,...,1,909.000833,3.35,2.666667,7.000000,4.0,7.0,3.0,4.5,0.25
3,210054481135,3,F,1,2,0,3,1.0,0,Norte,...,0,1818.001000,3.10,5.000000,7.666667,4.0,8.0,2.0,4.5,0.25
4,210054481966,3,F,3,2,0,2,1.0,0,Norte,...,1,0.000000,3.75,4.000000,7.666667,2.0,2.0,2.0,3.5,0.25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22279,210058025162,3,M,1,2,0,2,1.0,0,Nordeste,...,1,2727.002500,3.50,2.333333,4.666667,4.0,2.0,3.0,3.5,0.50
22280,210058025171,3,M,2,2,0,2,1.0,0,Nordeste,...,0,151.500000,3.35,0.000000,5.333333,4.0,3.0,3.0,4.5,0.25
22281,210058025427,3,M,1,2,0,3,1.0,0,Sudeste,...,1,3333.001250,3.10,3.333333,8.000000,4.0,3.0,3.0,3.5,0.50
22282,210058025530,2,F,3,2,0,2,1.0,0,Nordeste,...,1,378.751250,3.10,3.666667,10.666667,4.0,4.0,3.0,4.5,0.25


#### **Pré-processamento**

boolean: 'MICRODADOS_Q018', 'MICRODADOS_Q020', 'MICRODADOS_Q021', 'MICRODADOS_Q023', 'MICRODADOS_Q025', 'HABESTUDO_Q025A', 'HABESTUDO_Q025B', 'HABESTUDO_Q025C', 'HABESTUDO_Q025D', 'HABESTUDO_Q025E', 'HABESTUDO_Q025F', 'HABESTUDO_Q026A', 'HABESTUDO_Q026B', 'HABESTUDO_Q026C', 'HABESTUDO_Q026D', 'HABESTUDO_Q026E', 'HABESTUDO_Q026F', 'HABESTUDO_Q026G', 'HABESTUDO_Q026H', 'HABESTUDO_Q027', 'HABESTUDO_Q028A', 'HABESTUDO_Q028B', 'HABESTUDO_Q028C', 'HABESTUDO_Q028D', 'HABESTUDO_Q028E', 'HABESTUDO_Q028F', 'HABESTUDO_Q028G', 'HABESTUDO_Q028H', 'HABESTUDO_Q028I', 'HABESTUDO_Q028J', 'HABESTUDO_Q028K', 'HABESTUDO_Q028L', 'HABESTUDO_Q028M', 'HABESTUDO_Q028N', 'HABESTUDO_Q028O', 'HABESTUDO_Q028P', 'HABESTUDO_Q028Q', 'HABESTUDO_Q028R', 'HABESTUDO_Q029', 'HABESTUDO_Q030A', 'HABESTUDO_Q030B', 'HABESTUDO_Q030C', 'HABESTUDO_Q030D', 'HABESTUDO_Q030E', 'HABESTUDO_Q030F', 'HABESTUDO_Q030G', 'HABESTUDO_Q032A', 'HABESTUDO_Q032B', 'HABESTUDO_Q032C', 'HABESTUDO_Q032D', 'HABESTUDO_Q032E', 'HABESTUDO_Q032F', 'HABESTUDO_Q032G', 'HABESTUDO_Q033A', 'HABESTUDO_Q033B', 'HABESTUDO_Q033C', 'HABESTUDO_Q033D', 'HABESTUDO_Q033E', 'HABESTUDO_Q033F', 'HABESTUDO_Q033G', 'HABESTUDO_Q033H', 'HABESTUDO_Q033I', 'HABESTUDO_Q033J'

ordinal: 'MICRODADOS_TP_FAIXA_ETARIA', 'MICRODADOS_TP_ANO_CONCLUIU', 'MICRODADOS_Q001', 'MICRODADOS_Q002', 'MICRODADOS_Q005', 'MICRODADOS_Q006', 'MICRODADOS_Q007', 'MICRODADOS_Q008', 'MICRODADOS_Q009', 'MICRODADOS_Q010', 'MICRODADOS_Q011', 'MICRODADOS_Q012', 'MICRODADOS_Q013', 'MICRODADOS_Q014', 'MICRODADOS_Q015', 'MICRODADOS_Q016', 'MICRODADOS_Q017', 'MICRODADOS_Q019', 'MICRODADOS_Q022', 'MICRODADOS_Q024', 'HABESTUDO_Q005', 'HABESTUDO_Q006', 'HABESTUDO_Q007', 'HABESTUDO_Q008', 'HABESTUDO_Q009', 'HABESTUDO_Q010', 'HABESTUDO_Q011', 'HABESTUDO_Q012', 'HABESTUDO_Q013', 'HABESTUDO_Q014', 'HABESTUDO_Q015', 'HABESTUDO_Q016', 'HABESTUDO_Q017', 'HABESTUDO_Q018', 'HABESTUDO_Q019', 'HABESTUDO_Q020', 'HABESTUDO_Q021', 'HABESTUDO_Q022', 'HABESTUDO_Q023', 'HABESTUDO_Q024', 'HABESTUDO_Q034'

nominal: 'MICRODADOS_TP_SEXO', 'MICRODADOS_NO_MUNICIPIO_ESC', 'MICRODADOS_SG_UF_ESC',  'MICRODADOS_NO_MUNICIPIO_PROVA', 'MICRODADOS_SG_UF_PROVA', 'MICRODADOS_TX_RESPOSTAS_CN', 'MICRODADOS_TX_RESPOSTAS_CH', 'MICRODADOS_TX_RESPOSTAS_LC', 'MICRODADOS_TX_RESPOSTAS_MT', 'MICRODADOS_TX_GABARITO_CN', 'MICRODADOS_TX_GABARITO_CH', 'MICRODADOS_TX_GABARITO_LC', 'MICRODADOS_TX_GABARITO_MT', 'MICRODADOS_Q003', 'MICRODADOS_Q004', 'HABESTUDO_Q001', 'HABESTUDO_Q002', 'HABESTUDO_Q003', 'HABESTUDO_Q004', 'HABESTUDO_Q031'

numerical: 'NU_INSCRICAO', 'MICRODADOS_NU_ANO', 'MICRODADOS_TP_ESTADO_CIVIL', 'MICRODADOS_TP_COR_RACA', 'MICRODADOS_TP_NACIONALIDADE', 'MICRODADOS_TP_ST_CONCLUSAO', 'MICRODADOS_TP_ESCOLA', 'MICRODADOS_TP_ENSINO', 'MICRODADOS_IN_TREINEIRO', 'MICRODADOS_CO_MUNICIPIO_ESC', 'MICRODADOS_CO_UF_ESC', 'MICRODADOS_TP_DEPENDENCIA_ADM_ESC', 'MICRODADOS_TP_LOCALIZACAO_ESC', 'MICRODADOS_TP_SIT_FUNC_ESC', 'MICRODADOS_CO_MUNICIPIO_PROVA', 'MICRODADOS_CO_UF_PROVA', 'MICRODADOS_TP_PRESENCA_CN', 'MICRODADOS_TP_PRESENCA_CH', 'MICRODADOS_TP_PRESENCA_LC', 'MICRODADOS_TP_PRESENCA_MT', 'MICRODADOS_CO_PROVA_CN', 'MICRODADOS_CO_PROVA_CH', 'MICRODADOS_CO_PROVA_LC', 'MICRODADOS_CO_PROVA_MT', 'MICRODADOS_NU_NOTA_CN', 'MICRODADOS_NU_NOTA_CH', 'MICRODADOS_NU_NOTA_LC', 'MICRODADOS_NU_NOTA_MT', 'MICRODADOS_TP_LINGUA', 'MICRODADOS_TP_STATUS_REDACAO', 'MICRODADOS_NU_NOTA_COMP1', 'MICRODADOS_NU_NOTA_COMP2', 'MICRODADOS_NU_NOTA_COMP3', 'MICRODADOS_NU_NOTA_COMP4', 'MICRODADOS_NU_NOTA_COMP5', 'MICRODADOS_NU_NOTA_REDACAO', 'HABESTUDO_TP_RESPOSTA'

In [None]:
boolean_features_1 = ['MICRODADOS_Q018', 'MICRODADOS_Q020', 'MICRODADOS_Q021', 'MICRODADOS_Q023', 'MICRODADOS_Q025']
boolean_features_2 = ['HABESTUDO_Q025A', 'HABESTUDO_Q025B', 'HABESTUDO_Q025C', 'HABESTUDO_Q025D', 'HABESTUDO_Q025E', 'HABESTUDO_Q025F', 'HABESTUDO_Q026A', 'HABESTUDO_Q026B', 'HABESTUDO_Q026C', 'HABESTUDO_Q026D', 'HABESTUDO_Q026E', 'HABESTUDO_Q026F', 'HABESTUDO_Q026G', 'HABESTUDO_Q026H', 'HABESTUDO_Q027', 'HABESTUDO_Q028A', 'HABESTUDO_Q028B', 'HABESTUDO_Q028C', 'HABESTUDO_Q028D', 'HABESTUDO_Q028E', 'HABESTUDO_Q028F', 'HABESTUDO_Q028G', 'HABESTUDO_Q028H', 'HABESTUDO_Q028I', 'HABESTUDO_Q028J', 'HABESTUDO_Q028K', 'HABESTUDO_Q028L', 'HABESTUDO_Q028M', 'HABESTUDO_Q028N', 'HABESTUDO_Q028O', 'HABESTUDO_Q028P', 'HABESTUDO_Q028Q', 'HABESTUDO_Q028R', 'HABESTUDO_Q029', 'HABESTUDO_Q030A', 'HABESTUDO_Q030B', 'HABESTUDO_Q030C', 'HABESTUDO_Q030D', 'HABESTUDO_Q030E', 'HABESTUDO_Q030F', 'HABESTUDO_Q030G', 'HABESTUDO_Q032A', 'HABESTUDO_Q032B', 'HABESTUDO_Q032C', 'HABESTUDO_Q032D', 'HABESTUDO_Q032E', 'HABESTUDO_Q032F', 'HABESTUDO_Q032G', 'HABESTUDO_Q033A', 'HABESTUDO_Q033B', 'HABESTUDO_Q033C', 'HABESTUDO_Q033D', 'HABESTUDO_Q033E', 'HABESTUDO_Q033F', 'HABESTUDO_Q033G', 'HABESTUDO_Q033H', 'HABESTUDO_Q033I', 'HABESTUDO_Q033J']
boolean_features = boolean_features_1 + boolean_features_2
ordinal_features = ['MICRODADOS_Q001', 'MICRODADOS_Q002', 'MICRODADOS_Q006', 'MICRODADOS_Q007', 'MICRODADOS_Q008', 'MICRODADOS_Q009', 'MICRODADOS_Q010', 'MICRODADOS_Q011', 'MICRODADOS_Q012', 'MICRODADOS_Q013', 'MICRODADOS_Q014', 'MICRODADOS_Q015', 'MICRODADOS_Q016', 'MICRODADOS_Q017', 'MICRODADOS_Q019', 'MICRODADOS_Q022', 'MICRODADOS_Q024', 'HABESTUDO_Q005', 'HABESTUDO_Q006', 'HABESTUDO_Q007', 'HABESTUDO_Q008', 'HABESTUDO_Q009', 'HABESTUDO_Q010', 'HABESTUDO_Q011', 'HABESTUDO_Q012', 'HABESTUDO_Q013', 'HABESTUDO_Q014', 'HABESTUDO_Q015', 'HABESTUDO_Q016', 'HABESTUDO_Q017', 'HABESTUDO_Q018', 'HABESTUDO_Q019', 'HABESTUDO_Q020', 'HABESTUDO_Q021', 'HABESTUDO_Q022', 'HABESTUDO_Q023', 'HABESTUDO_Q024', 'HABESTUDO_Q034']
nominal_features = list(set(complete_aggregated_df.select_dtypes(include='object').columns.values) - set(boolean_features + ordinal_features))
numerical_features = list(set(complete_aggregated_df.select_dtypes(exclude='object').columns.values) - set(boolean_features + ordinal_features))

In [None]:
class BooleanEncoder(BaseEstimator, TransformerMixin):
    '''
    Processa os valores booleanos.
    Ao instanciar o transformador, é necessário colocar como parâmetros o valor correspondente à `True` como `true_value`
    e o à `False` como `false_value`.
    Exemplo:
    LabelEncoder(true_value='', false_value='')
    '''
    def __init__(self, true_value, false_value):
        super().__init__()

        if true_value == false_value:
            raise ValueError('Os valores verdadeiro e falso são iguais.')
        
        self.true_value = true_value
        self.false_value = false_value

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        X = X.replace(self.true_value, 1)
        X = X.replace(self.false_value, 0)
        
        X = X.astype(int)
        
        return X

In [None]:
boolean_transformer_1 = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', BooleanEncoder(true_value='B', false_value='A')),
])

boolean_transformer_2 = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', BooleanEncoder(true_value='A', false_value='B')),
])

ordinal_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OrdinalEncoder(categories=[
        ['H', 'A', 'B', 'C', 'D', 'E', 'F', 'G'],   # MICRODADOS_Q001
        ['H', 'A', 'B', 'C', 'D', 'E', 'F', 'G'],   # MICRODADOS_Q002
        ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q'],   # MICRODADOS_Q006
        ['A', 'B', 'C', 'D'],    # MICRODADOS_Q007
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q008
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q009
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q010
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q011
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q012
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q013
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q014
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q015
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q016
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q017
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q019
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q022
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q024
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q005
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q006
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q007
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q008
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q009
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q010
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q011
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q012
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q013
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q014
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q015
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q016
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q017
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q018
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q019
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q020
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q021
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q022
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q023
        ['A', 'B', 'C', 'D'],   # HABESTUDO_Q024
        ['A', 'B', 'C', 'D', 'E'],   # HABESTUDO_Q034
    ])),
])

nominal_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder()),
])

numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
])

preprocessor = ColumnTransformer(transformers=[
    ('boolean_1', boolean_transformer_1, boolean_features_1),
    ('boolean_2', boolean_transformer_2, boolean_features_2),
    ('ordinal', ordinal_transformer, ordinal_features),
    ('nominal', nominal_transformer, nominal_features),
    ('numerical', numerical_transformer, numerical_features),
])

scaler_processing = Pipeline(steps=[
    ('minmaxscaler', MinMaxScaler()),
    ('stdscaler',  StandardScaler()),
])

In [None]:
X = 0
y = 0

X_transformed = 0
y_transformed = 0

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X_transformed, y_transformed, train_size=0.3, random_state=SEED)

#### **kNN**

#### **Regressão Linear**

#### **Regressão Logística**

#### **Naive Bayes**

#### **SVM**

#### **Árvore de Decisão/Random Forest**