# **Projeto: Como a situação socioeconômica pode influenciar no desempenho de um estudante no ENEM?**

**Integrantes:** Hellen Cristine Silva Rosa (RA00319076), João Victor Porto (RA00311353), Laura Gabriel Murayama (RA00319321), Maria Eduarda Bonel Iribarnegaray (RA00318891), Vinícius Ferreira de Mendonça (RA00319760), Vitória de Fátima Teixeira (RA00320578)

## **Banco de Dados**

### **Importando bibliotecas e definindo funções importantes**

In [1]:
# importing libraries
import os
import psycopg2
import pandas as pd

# loading environment variables
from dotenv import load_dotenv
load_dotenv()

False

In [2]:
# establishing connection with DB
class db_connection():
    '''
    Instantiates a connection with the database.
    '''
    def __init__(self):
        self.DB_URI = os.environ.get('DB_URI')
         
    def __enter__(self):
        self.connection = psycopg2.connect(self.DB_URI)
        return self.connection
    
    def __exit__(self, *args):
        self.connection.close()

class db_cursor():
    '''
    Instantiates a cursor for the database connection.

    :params:
    - connection: a psycopg2 connection
    '''
    def __init__(self, connection):
        self.connection = connection
         
    def __enter__(self):
        self.cursor = self.connection.cursor()
        return self.cursor
    
    def __exit__(self, *args):
        self.cursor.close()

### **REQ#01: Função para unir as duas tabelas**

In [3]:
with db_connection() as conn, db_cursor(conn) as cursor:
    query_columns = 'projeto_enem.microdados."NU_INSCRICAO" as "NU_INSCRICAO",  projeto_enem.microdados."NU_ANO" AS "MICRODADOS_NU_ANO",  projeto_enem.microdados."TP_FAIXA_ETARIA" AS "MICRODADOS_TP_FAIXA_ETARIA",  projeto_enem.microdados."TP_SEXO" AS "MICRODADOS_TP_SEXO",  projeto_enem.microdados."TP_ESTADO_CIVIL" AS "MICRODADOS_TP_ESTADO_CIVIL",  projeto_enem.microdados."TP_COR_RACA" AS "MICRODADOS_TP_COR_RACA",  projeto_enem.microdados."TP_NACIONALIDADE" AS "MICRODADOS_TP_NACIONALIDADE",  projeto_enem.microdados."TP_ST_CONCLUSAO" AS "MICRODADOS_TP_ST_CONCLUSAO",  projeto_enem.microdados."TP_ANO_CONCLUIU" AS "MICRODADOS_TP_ANO_CONCLUIU",  projeto_enem.microdados."TP_ESCOLA" AS "MICRODADOS_TP_ESCOLA",  projeto_enem.microdados."TP_ENSINO" AS "MICRODADOS_TP_ENSINO",  projeto_enem.microdados."IN_TREINEIRO" AS "MICRODADOS_IN_TREINEIRO",  projeto_enem.microdados."CO_MUNICIPIO_ESC" AS "MICRODADOS_CO_MUNICIPIO_ESC",  projeto_enem.microdados."NO_MUNICIPIO_ESC" AS "MICRODADOS_NO_MUNICIPIO_ESC",  projeto_enem.microdados."CO_UF_ESC" AS "MICRODADOS_CO_UF_ESC",  projeto_enem.microdados."SG_UF_ESC" AS "MICRODADOS_SG_UF_ESC",  projeto_enem.microdados."TP_DEPENDENCIA_ADM_ESC" AS "MICRODADOS_TP_DEPENDENCIA_ADM_ESC",  projeto_enem.microdados."TP_LOCALIZACAO_ESC" AS "MICRODADOS_TP_LOCALIZACAO_ESC",  projeto_enem.microdados."TP_SIT_FUNC_ESC" AS "MICRODADOS_TP_SIT_FUNC_ESC",  projeto_enem.microdados."CO_MUNICIPIO_PROVA" AS "MICRODADOS_CO_MUNICIPIO_PROVA",  projeto_enem.microdados."NO_MUNICIPIO_PROVA" AS "MICRODADOS_NO_MUNICIPIO_PROVA",  projeto_enem.microdados."CO_UF_PROVA" AS "MICRODADOS_CO_UF_PROVA",  projeto_enem.microdados."SG_UF_PROVA" AS "MICRODADOS_SG_UF_PROVA",  projeto_enem.microdados."TP_PRESENCA_CN" AS "MICRODADOS_TP_PRESENCA_CN",  projeto_enem.microdados."TP_PRESENCA_CH" AS "MICRODADOS_TP_PRESENCA_CH",  projeto_enem.microdados."TP_PRESENCA_LC" AS "MICRODADOS_TP_PRESENCA_LC",  projeto_enem.microdados."TP_PRESENCA_MT" AS "MICRODADOS_TP_PRESENCA_MT",  projeto_enem.microdados."CO_PROVA_CN" AS "MICRODADOS_CO_PROVA_CN",  projeto_enem.microdados."CO_PROVA_CH" AS "MICRODADOS_CO_PROVA_CH",  projeto_enem.microdados."CO_PROVA_LC" AS "MICRODADOS_CO_PROVA_LC",  projeto_enem.microdados."CO_PROVA_MT" AS "MICRODADOS_CO_PROVA_MT",  projeto_enem.microdados."NU_NOTA_CN" AS "MICRODADOS_NU_NOTA_CN",  projeto_enem.microdados."NU_NOTA_CH" AS "MICRODADOS_NU_NOTA_CH",  projeto_enem.microdados."NU_NOTA_LC" AS "MICRODADOS_NU_NOTA_LC",  projeto_enem.microdados."NU_NOTA_MT" AS "MICRODADOS_NU_NOTA_MT",  projeto_enem.microdados."TX_RESPOSTAS_CN" AS "MICRODADOS_TX_RESPOSTAS_CN",  projeto_enem.microdados."TX_RESPOSTAS_CH" AS "MICRODADOS_TX_RESPOSTAS_CH",  projeto_enem.microdados."TX_RESPOSTAS_LC" AS "MICRODADOS_TX_RESPOSTAS_LC",  projeto_enem.microdados."TX_RESPOSTAS_MT" AS "MICRODADOS_TX_RESPOSTAS_MT",  projeto_enem.microdados."TP_LINGUA" AS "MICRODADOS_TP_LINGUA",  projeto_enem.microdados."TX_GABARITO_CN" AS "MICRODADOS_TX_GABARITO_CN",  projeto_enem.microdados."TX_GABARITO_CH" AS "MICRODADOS_TX_GABARITO_CH",  projeto_enem.microdados."TX_GABARITO_LC" AS "MICRODADOS_TX_GABARITO_LC",  projeto_enem.microdados."TX_GABARITO_MT" AS "MICRODADOS_TX_GABARITO_MT",  projeto_enem.microdados."TP_STATUS_REDACAO" AS "MICRODADOS_TP_STATUS_REDACAO",  projeto_enem.microdados."NU_NOTA_COMP1" AS "MICRODADOS_NU_NOTA_COMP1",  projeto_enem.microdados."NU_NOTA_COMP2" AS "MICRODADOS_NU_NOTA_COMP2",  projeto_enem.microdados."NU_NOTA_COMP3" AS "MICRODADOS_NU_NOTA_COMP3",  projeto_enem.microdados."NU_NOTA_COMP4" AS "MICRODADOS_NU_NOTA_COMP4",  projeto_enem.microdados."NU_NOTA_COMP5" AS "MICRODADOS_NU_NOTA_COMP5",  projeto_enem.microdados."NU_NOTA_REDACAO" AS "MICRODADOS_NU_NOTA_REDACAO",  projeto_enem.microdados."Q001" AS "MICRODADOS_Q001",  projeto_enem.microdados."Q002" AS "MICRODADOS_Q002",  projeto_enem.microdados."Q003" AS "MICRODADOS_Q003",  projeto_enem.microdados."Q004" AS "MICRODADOS_Q004",  projeto_enem.microdados."Q005" AS "MICRODADOS_Q005",  projeto_enem.microdados."Q006" AS "MICRODADOS_Q006",  projeto_enem.microdados."Q007" AS "MICRODADOS_Q007",  projeto_enem.microdados."Q008" AS "MICRODADOS_Q008",  projeto_enem.microdados."Q009" AS "MICRODADOS_Q009",  projeto_enem.microdados."Q010" AS "MICRODADOS_Q010",  projeto_enem.microdados."Q011" AS "MICRODADOS_Q011",  projeto_enem.microdados."Q012" AS "MICRODADOS_Q012",  projeto_enem.microdados."Q013" AS "MICRODADOS_Q013",  projeto_enem.microdados."Q014" AS "MICRODADOS_Q014",  projeto_enem.microdados."Q015" AS "MICRODADOS_Q015",  projeto_enem.microdados."Q016" AS "MICRODADOS_Q016",  projeto_enem.microdados."Q017" AS "MICRODADOS_Q017",  projeto_enem.microdados."Q018" AS "MICRODADOS_Q018",  projeto_enem.microdados."Q019" AS "MICRODADOS_Q019",  projeto_enem.microdados."Q020" AS "MICRODADOS_Q020",  projeto_enem.microdados."Q021" AS "MICRODADOS_Q021",  projeto_enem.microdados."Q022" AS "MICRODADOS_Q022",  projeto_enem.microdados."Q023" AS "MICRODADOS_Q023",  projeto_enem.microdados."Q024" AS "MICRODADOS_Q024",  projeto_enem.microdados."Q025" AS "MICRODADOS_Q025",  projeto_enem.quest_hab."TP_RESPOSTA" AS "QUESTHAB_TP_RESPOSTA",  projeto_enem.quest_hab."Q001" AS "QUESTHAB_Q001",  projeto_enem.quest_hab."Q002" AS "QUESTHAB_Q002",  projeto_enem.quest_hab."Q003" AS "QUESTHAB_Q003",  projeto_enem.quest_hab."Q004" AS "QUESTHAB_Q004",  projeto_enem.quest_hab."Q005" AS "QUESTHAB_Q005",  projeto_enem.quest_hab."Q006" AS "QUESTHAB_Q006",  projeto_enem.quest_hab."Q007" AS "QUESTHAB_Q007",  projeto_enem.quest_hab."Q008" AS "QUESTHAB_Q008",  projeto_enem.quest_hab."Q009" AS "QUESTHAB_Q009",  projeto_enem.quest_hab."Q010" AS "QUESTHAB_Q010",  projeto_enem.quest_hab."Q011" AS "QUESTHAB_Q011",  projeto_enem.quest_hab."Q012" AS "QUESTHAB_Q012",  projeto_enem.quest_hab."Q013" AS "QUESTHAB_Q013",  projeto_enem.quest_hab."Q014" AS "QUESTHAB_Q014",  projeto_enem.quest_hab."Q015" AS "QUESTHAB_Q015",  projeto_enem.quest_hab."Q016" AS "QUESTHAB_Q016",  projeto_enem.quest_hab."Q017" AS "QUESTHAB_Q017",  projeto_enem.quest_hab."Q018" AS "QUESTHAB_Q018",  projeto_enem.quest_hab."Q019" AS "QUESTHAB_Q019",  projeto_enem.quest_hab."Q020" AS "QUESTHAB_Q020",  projeto_enem.quest_hab."Q021" AS "QUESTHAB_Q021",  projeto_enem.quest_hab."Q022" AS "QUESTHAB_Q022",  projeto_enem.quest_hab."Q023" AS "QUESTHAB_Q023",  projeto_enem.quest_hab."Q024" AS "QUESTHAB_Q024",  projeto_enem.quest_hab."Q025A" AS "QUESTHAB_Q025A",  projeto_enem.quest_hab."Q025B" AS "QUESTHAB_Q025B",  projeto_enem.quest_hab."Q025C" AS "QUESTHAB_Q025C",  projeto_enem.quest_hab."Q025D" AS "QUESTHAB_Q025D",  projeto_enem.quest_hab."Q025E" AS "QUESTHAB_Q025E",  projeto_enem.quest_hab."Q025F" AS "QUESTHAB_Q025F",  projeto_enem.quest_hab."Q026A" AS "QUESTHAB_Q026A",  projeto_enem.quest_hab."Q026B" AS "QUESTHAB_Q026B",  projeto_enem.quest_hab."Q026C" AS "QUESTHAB_Q026C",  projeto_enem.quest_hab."Q026D" AS "QUESTHAB_Q026D",  projeto_enem.quest_hab."Q026E" AS "QUESTHAB_Q026E",  projeto_enem.quest_hab."Q026F" AS "QUESTHAB_Q026F",  projeto_enem.quest_hab."Q026G" AS "QUESTHAB_Q026G",  projeto_enem.quest_hab."Q026H" AS "QUESTHAB_Q026H",  projeto_enem.quest_hab."Q027" AS "QUESTHAB_Q027",  projeto_enem.quest_hab."Q028A" AS "QUESTHAB_Q028A",  projeto_enem.quest_hab."Q028B" AS "QUESTHAB_Q028B",  projeto_enem.quest_hab."Q028C" AS "QUESTHAB_Q028C",  projeto_enem.quest_hab."Q028D" AS "QUESTHAB_Q028D",  projeto_enem.quest_hab."Q028E" AS "QUESTHAB_Q028E",  projeto_enem.quest_hab."Q028F" AS "QUESTHAB_Q028F",  projeto_enem.quest_hab."Q028G" AS "QUESTHAB_Q028G",  projeto_enem.quest_hab."Q028H" AS "QUESTHAB_Q028H",  projeto_enem.quest_hab."Q028I" AS "QUESTHAB_Q028I",  projeto_enem.quest_hab."Q028J" AS "QUESTHAB_Q028J",  projeto_enem.quest_hab."Q028K" AS "QUESTHAB_Q028K",  projeto_enem.quest_hab."Q028L" AS "QUESTHAB_Q028L",  projeto_enem.quest_hab."Q028M" AS "QUESTHAB_Q028M",  projeto_enem.quest_hab."Q028N" AS "QUESTHAB_Q028N",  projeto_enem.quest_hab."Q028O" AS "QUESTHAB_Q028O",  projeto_enem.quest_hab."Q028P" AS "QUESTHAB_Q028P",  projeto_enem.quest_hab."Q028Q" AS "QUESTHAB_Q028Q",  projeto_enem.quest_hab."Q028R" AS "QUESTHAB_Q028R",  projeto_enem.quest_hab."Q029" AS "QUESTHAB_Q029",  projeto_enem.quest_hab."Q030A" AS "QUESTHAB_Q030A",  projeto_enem.quest_hab."Q030B" AS "QUESTHAB_Q030B",  projeto_enem.quest_hab."Q030C" AS "QUESTHAB_Q030C",  projeto_enem.quest_hab."Q030D" AS "QUESTHAB_Q030D",  projeto_enem.quest_hab."Q030E" AS "QUESTHAB_Q030E",  projeto_enem.quest_hab."Q030F" AS "QUESTHAB_Q030F",  projeto_enem.quest_hab."Q030G" AS "QUESTHAB_Q030G",  projeto_enem.quest_hab."Q031" AS "QUESTHAB_Q031",  projeto_enem.quest_hab."Q032A" AS "QUESTHAB_Q032A",  projeto_enem.quest_hab."Q032B" AS "QUESTHAB_Q032B",  projeto_enem.quest_hab."Q032C" AS "QUESTHAB_Q032C",  projeto_enem.quest_hab."Q032D" AS "QUESTHAB_Q032D",  projeto_enem.quest_hab."Q032E" AS "QUESTHAB_Q032E",  projeto_enem.quest_hab."Q032F" AS "QUESTHAB_Q032F",  projeto_enem.quest_hab."Q032G" AS "QUESTHAB_Q032G",  projeto_enem.quest_hab."Q033A" AS "QUESTHAB_Q033A",  projeto_enem.quest_hab."Q033B" AS "QUESTHAB_Q033B",  projeto_enem.quest_hab."Q033C" AS "QUESTHAB_Q033C",  projeto_enem.quest_hab."Q033D" AS "QUESTHAB_Q033D",  projeto_enem.quest_hab."Q033E" AS "QUESTHAB_Q033E",  projeto_enem.quest_hab."Q033F" AS "QUESTHAB_Q033F",  projeto_enem.quest_hab."Q033G" AS "QUESTHAB_Q033G",  projeto_enem.quest_hab."Q033H" AS "QUESTHAB_Q033H",  projeto_enem.quest_hab."Q033I" AS "QUESTHAB_Q033I",  projeto_enem.quest_hab."Q033J" AS "QUESTHAB_Q033J",  projeto_enem.quest_hab."Q034" AS "QUESTHAB_Q034"'

    query = f'''
        CREATE TABLE projeto_enem.aggregated_data
        AS
        SELECT {query_columns}
        FROM projeto_enem.microdados
        FULL JOIN projeto_enem.quest_hab ON projeto_enem.microdados."NU_INSCRICAO" = projeto_enem.quest_hab."NU_INSCRICAO";
    '''
    cursor.execute(query)
    conn.commit()

OperationalError: connection to server at "localhost" (127.0.0.1), port 5432 failed: Connection refused (0x0000274D/10061)
	Is the server running on that host and accepting TCP/IP connections?
connection to server at "localhost" (::1), port 5432 failed: Connection refused (0x0000274D/10061)
	Is the server running on that host and accepting TCP/IP connections?


In [None]:
with db_connection() as conn, db_cursor(conn) as cursor:
    query = '''
        SELECT *
        FROM projeto_enem.aggregated_data;
    '''
    cursor.execute(query)
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]

In [None]:
aggregated_data = pd.DataFrame(data, columns=columns)
aggregated_data

Unnamed: 0,NU_INSCRICAO,MICRODADOS_NU_ANO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_ESTADO_CIVIL,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_NACIONALIDADE,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,...,QUESTHAB_Q033B,QUESTHAB_Q033C,QUESTHAB_Q033D,QUESTHAB_Q033E,QUESTHAB_Q033F,QUESTHAB_Q033G,QUESTHAB_Q033H,QUESTHAB_Q033I,QUESTHAB_Q033J,QUESTHAB_Q034
0,210057010804,2022,8,F,2,1,1,1,6,1,...,,,,,,,,,,
1,210054616419,2022,4,F,1,2,1,1,1,1,...,,,,,,,,,,B
2,210056288465,2022,7,F,1,1,1,1,6,1,...,,,,,,,,,,
3,210057573484,2022,4,M,1,3,1,1,1,1,...,,,,,,,,,,
4,210056740153,2022,3,F,1,3,1,2,0,2,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3476103,210056564841,2022,3,M,1,0,1,2,0,2,...,,,,,,,,,,
3476104,210056819033,2022,4,M,1,1,1,1,1,1,...,,,,,,,,,,
3476105,210056618792,2022,9,F,1,3,1,1,6,1,...,,,,,,,,,,
3476106,210055318349,2022,1,F,1,3,1,3,0,1,...,,,,,,,,,,C


### **REQ#02: Identificar um dataset sobre a temática do projeto**

Utilizaremos os microdados do ENEM 2022, [disponibilizados pelo INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem).

### **REQ#03: Modelo conceitual**

xxxxx

### **REQ#04: Modelo lógico**

xxxxx

### **REQ#05:Modelo físico**

#### **Microdados**

```sql
CREATE TABLE projeto_enem.microdados (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"NU_ANO" INTEGER,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_ESTADO_CIVIL" INTEGER,
	"TP_COR_RACA" INTEGER,
	"TP_NACIONALIDADE" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"TP_ENSINO" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"CO_MUNICIPIO_ESC" INTEGER,
	"NO_MUNICIPIO_ESC" VARCHAR(150),
	"CO_UF_ESC" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_DEPENDENCIA_ADM_ESC" INTEGER,
	"TP_LOCALIZACAO_ESC" INTEGER,
	"TP_SIT_FUNC_ESC" INTEGER,
	"CO_MUNICIPIO_PROVA" INTEGER,
	"NO_MUNICIPIO_PROVA" VARCHAR(150),
	"CO_UF_PROVA" INTEGER,
	"SG_UF_PROVA" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"CO_PROVA_CN" INTEGER,
	"CO_PROVA_CH" INTEGER,
	"CO_PROVA_LC" INTEGER,
	"CO_PROVA_MT" INTEGER,
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TP_LINGUA" INTEGER,
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45),
	"TP_STATUS_REDACAO" INTEGER,
	"NU_NOTA_COMP1" INTEGER,
	"NU_NOTA_COMP2" INTEGER,
	"NU_NOTA_COMP3" INTEGER,
	"NU_NOTA_COMP4" INTEGER,
	"NU_NOTA_COMP5" INTEGER,
	"NU_NOTA_REDACAO" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" INTEGER,
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025" VARCHAR(1)
);
```

#### **QUEST_HAB**

```sql
CREATE TABLE projeto_enem.quest_hab (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"TP_RESPOSTA" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
```

### **REQ#06: Popular o Banco de Dados a partir do dataset**

#### Criando tabelas

In [None]:
microdados_creation_query = '''
CREATE TABLE projeto_enem.microdados (
    "ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"NU_ANO" INTEGER,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_ESTADO_CIVIL" INTEGER,
	"TP_COR_RACA" INTEGER,
	"TP_NACIONALIDADE" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"TP_ENSINO" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"CO_MUNICIPIO_ESC" INTEGER,
	"NO_MUNICIPIO_ESC" VARCHAR(150),
	"CO_UF_ESC" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_DEPENDENCIA_ADM_ESC" INTEGER,
	"TP_LOCALIZACAO_ESC" INTEGER,
	"TP_SIT_FUNC_ESC" INTEGER,
	"CO_MUNICIPIO_PROVA" INTEGER,
	"NO_MUNICIPIO_PROVA" VARCHAR(150),
	"CO_UF_PROVA" INTEGER,
	"SG_UF_PROVA" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"CO_PROVA_CN" INTEGER,
	"CO_PROVA_CH" INTEGER,
	"CO_PROVA_LC" INTEGER,
	"CO_PROVA_MT" INTEGER,
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TP_LINGUA" INTEGER,
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45),
	"TP_STATUS_REDACAO" INTEGER,
	"NU_NOTA_COMP1" INTEGER,
	"NU_NOTA_COMP2" INTEGER,
	"NU_NOTA_COMP3" INTEGER,
	"NU_NOTA_COMP4" INTEGER,
	"NU_NOTA_COMP5" INTEGER,
	"NU_NOTA_REDACAO" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" INTEGER,
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025" VARCHAR(1)
);
'''

quest_hab_creation_query = '''
CREATE TABLE projeto_enem.quest_hab (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"TP_RESPOSTA" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
'''


with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute(microdados_creation_query)
    cursor.execute(quest_hab_creation_query)
    conn.commit()

#### Populando tabelas

In [None]:
microdados_csv_query = '''
COPY projeto_enem.microdados("NU_INSCRICAO", "NU_ANO", "TP_FAIXA_ETARIA", "TP_SEXO", "TP_ESTADO_CIVIL", "TP_COR_RACA", "TP_NACIONALIDADE", "TP_ST_CONCLUSAO", "TP_ANO_CONCLUIU", "TP_ESCOLA", "TP_ENSINO", "IN_TREINEIRO", "CO_MUNICIPIO_ESC", "NO_MUNICIPIO_ESC", "CO_UF_ESC", "SG_UF_ESC", "TP_DEPENDENCIA_ADM_ESC", "TP_LOCALIZACAO_ESC", "TP_SIT_FUNC_ESC", "CO_MUNICIPIO_PROVA", "NO_MUNICIPIO_PROVA", "CO_UF_PROVA", "SG_UF_PROVA", "TP_PRESENCA_CN", "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "CO_PROVA_CN", "CO_PROVA_CH", "CO_PROVA_LC", "CO_PROVA_MT", "NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT", "TX_RESPOSTAS_CN", "TX_RESPOSTAS_CH", "TX_RESPOSTAS_LC", "TX_RESPOSTAS_MT", "TP_LINGUA", "TX_GABARITO_CN", "TX_GABARITO_CH", "TX_GABARITO_LC", "TX_GABARITO_MT", "TP_STATUS_REDACAO", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5", "NU_NOTA_REDACAO", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025")
FROM '/private/tmp/dados/MICRODADOS_ENEM_2022.csv'
DELIMITER ';'
ENCODING 'latin1'
CSV HEADER;
'''

quest_hab_csv_query = '''
COPY projeto_enem.quest_hab("NU_INSCRICAO", "TP_RESPOSTA", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025A", "Q025B", "Q025C", "Q025D", "Q025E", "Q025F", "Q026A", "Q026B", "Q026C", "Q026D", "Q026E", "Q026F", "Q026G", "Q026H", "Q027", "Q028A", "Q028B", "Q028C", "Q028D", "Q028E", "Q028F", "Q028G", "Q028H", "Q028I", "Q028J", "Q028K", "Q028L", "Q028M", "Q028N", "Q028O", "Q028P", "Q028Q", "Q028R", "Q029", "Q030A", "Q030B", "Q030C", "Q030D", "Q030E", "Q030F", "Q030G", "Q031", "Q032A", "Q032B", "Q032C", "Q032D", "Q032E", "Q032F", "Q032G", "Q033A", "Q033B", "Q033C", "Q033D", "Q033E", "Q033F", "Q033G", "Q033H", "Q033I", "Q033J", "Q034")
FROM '/private/tmp/dados/QUEST_HAB_ESTUDO.csv'
DELIMITER ';'
ENCODING 'latin1'
CSV HEADER;
'''


with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute(microdados_csv_query)
    cursor.execute(quest_hab_csv_query)
    conn.commit()

### **REQ#07: Questões**

#### **Questão 1: xxxxx**

#### **Questão 2: xxxxx**

#### **Questão 3: xxxxx**

#### **Questão 4: xxxxx**

#### **Questão 5: xxxxx**

#### **Questão 6: xxxxx**

#### **Questão 7: xxxxx**

#### **Questão 8: xxxxx**

#### **Questão 9: xxxxx**

#### **Questão 10: xxxxx**

## **Machine Learning**

### **Importando bibliotecas e definindo funções importantes**

In [None]:
SEED = 3

from sklearnex import patch_sklearn
patch_sklearn()

import joblib
import skops.io as sio

from sklearn.compose import ColumnTransformer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, KFold

Intel(R) Extension for Scikit-learn* enabled (https://github.com/intel/scikit-learn-intelex)


In [None]:
with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute('SELECT * FROM projeto_enem.microdados;')
    microdados_data = cursor.fetchall()
    microdados_columns = tuple(desc[0] for desc in cursor.description)

microdados_df = pd.DataFrame(microdados_data, columns=microdados_columns).set_index('ID', drop=True)
microdados_df

KeyboardInterrupt: 

In [None]:
with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute('SELECT * FROM projeto_enem.quest_hab;')
    quest_hab_data = cursor.fetchall()
    quest_hab_columns = tuple(desc[0] for desc in cursor.description)

quest_hab_df = pd.DataFrame(quest_hab_data, columns=quest_hab_columns).set_index('ID', drop=True)
quest_hab_df

In [None]:
with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute('SELECT * FROM projeto_enem.aggregated_data;')
    aggregated_data = cursor.fetchall()
    aggregated_columns = tuple(desc[0] for desc in cursor.description)

aggregated_df = pd.DataFrame(aggregated_data, columns=aggregated_columns)
aggregated_df

Unnamed: 0,NU_INSCRICAO,MICRODADOS_NU_ANO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_ESTADO_CIVIL,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_NACIONALIDADE,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,...,QUESTHAB_Q033B,QUESTHAB_Q033C,QUESTHAB_Q033D,QUESTHAB_Q033E,QUESTHAB_Q033F,QUESTHAB_Q033G,QUESTHAB_Q033H,QUESTHAB_Q033I,QUESTHAB_Q033J,QUESTHAB_Q034
0,210057010804,2022,8,F,2,1,1,1,6,1,...,,,,,,,,,,
1,210054616419,2022,4,F,1,2,1,1,1,1,...,,,,,,,,,,B
2,210056288465,2022,7,F,1,1,1,1,6,1,...,,,,,,,,,,
3,210057573484,2022,4,M,1,3,1,1,1,1,...,,,,,,,,,,
4,210056740153,2022,3,F,1,3,1,2,0,2,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3476103,210056564841,2022,3,M,1,0,1,2,0,2,...,,,,,,,,,,
3476104,210056819033,2022,4,M,1,1,1,1,1,1,...,,,,,,,,,,
3476105,210056618792,2022,9,F,1,3,1,1,6,1,...,,,,,,,,,,
3476106,210055318349,2022,1,F,1,3,1,3,0,1,...,,,,,,,,,,C


### **REQ#01: Utilizar um ou mais datasets para o treinamento dos classificadores**

Utilizaremos os microdados do ENEM 2022, [disponibilizados pelo INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem).

### **REQ#02: Análise Exploratória**

#### Verificando nulos

In [None]:
complete_aggregated_df = aggregated_df.dropna()

In [None]:
complete_aggregated_df

Unnamed: 0,NU_INSCRICAO,MICRODADOS_NU_ANO,MICRODADOS_TP_FAIXA_ETARIA,MICRODADOS_TP_SEXO,MICRODADOS_TP_ESTADO_CIVIL,MICRODADOS_TP_COR_RACA,MICRODADOS_TP_NACIONALIDADE,MICRODADOS_TP_ST_CONCLUSAO,MICRODADOS_TP_ANO_CONCLUIU,MICRODADOS_TP_ESCOLA,...,QUESTHAB_Q033B,QUESTHAB_Q033C,QUESTHAB_Q033D,QUESTHAB_Q033E,QUESTHAB_Q033F,QUESTHAB_Q033G,QUESTHAB_Q033H,QUESTHAB_Q033I,QUESTHAB_Q033J,QUESTHAB_Q034
320,210057447535,2022,3,F,1,3,1,2,0,2,...,B,B,B,A,B,A,B,B,B,B
358,210055311158,2022,2,F,1,3,1,2,0,2,...,B,B,B,B,B,A,B,B,B,B
553,210057334795,2022,3,F,1,3,1,2,0,2,...,B,A,A,B,B,B,B,B,B,E
563,210056720860,2022,3,M,1,3,1,2,0,2,...,B,B,B,B,B,B,B,B,B,C
683,210055759674,2022,4,M,1,1,1,2,0,2,...,B,B,B,B,B,B,B,B,B,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3472922,210057492193,2022,2,M,0,1,1,2,0,3,...,A,B,B,B,B,B,B,B,B,C
3473231,210057717329,2022,3,F,1,3,1,2,0,2,...,B,B,B,B,B,B,B,B,A,B
3474942,210056472678,2022,3,F,1,3,1,2,0,2,...,A,B,B,B,B,B,B,B,A,B
3475201,210057287837,2022,3,M,1,1,1,2,0,2,...,A,B,B,B,B,B,B,B,B,B


In [None]:
microdados_isna = microdados_df.isna().sum()
microdados_isna[microdados_isna != 0]

NameError: name 'microdados_df' is not defined

#### aaaaa

### **REQ#03-11: Treinamento de modelos**

Todos os modelos serão testados com 30% dos dados. A avaliação será feita a partir das métricas acurácia, precision, recall, F1 e matriz de confusão. Eles serão persistidos.

#### **Pré-processamento**

boolean: 'MICRODADOS_Q018', 'MICRODADOS_Q020', 'MICRODADOS_Q021', 'MICRODADOS_Q023', 'MICRODADOS_Q025', 'QUESTHAB_Q025A', 'QUESTHAB_Q025B', 'QUESTHAB_Q025C', 'QUESTHAB_Q025D', 'QUESTHAB_Q025E', 'QUESTHAB_Q025F', 'QUESTHAB_Q026A', 'QUESTHAB_Q026B', 'QUESTHAB_Q026C', 'QUESTHAB_Q026D', 'QUESTHAB_Q026E', 'QUESTHAB_Q026F', 'QUESTHAB_Q026G', 'QUESTHAB_Q026H', 'QUESTHAB_Q027', 'QUESTHAB_Q028A', 'QUESTHAB_Q028B', 'QUESTHAB_Q028C', 'QUESTHAB_Q028D', 'QUESTHAB_Q028E', 'QUESTHAB_Q028F', 'QUESTHAB_Q028G', 'QUESTHAB_Q028H', 'QUESTHAB_Q028I', 'QUESTHAB_Q028J', 'QUESTHAB_Q028K', 'QUESTHAB_Q028L', 'QUESTHAB_Q028M', 'QUESTHAB_Q028N', 'QUESTHAB_Q028O', 'QUESTHAB_Q028P', 'QUESTHAB_Q028Q', 'QUESTHAB_Q028R', 'QUESTHAB_Q029', 'QUESTHAB_Q030A', 'QUESTHAB_Q030B', 'QUESTHAB_Q030C', 'QUESTHAB_Q030D', 'QUESTHAB_Q030E', 'QUESTHAB_Q030F', 'QUESTHAB_Q030G', 'QUESTHAB_Q032A', 'QUESTHAB_Q032B', 'QUESTHAB_Q032C', 'QUESTHAB_Q032D', 'QUESTHAB_Q032E', 'QUESTHAB_Q032F', 'QUESTHAB_Q032G', 'QUESTHAB_Q033A', 'QUESTHAB_Q033B', 'QUESTHAB_Q033C', 'QUESTHAB_Q033D', 'QUESTHAB_Q033E', 'QUESTHAB_Q033F', 'QUESTHAB_Q033G', 'QUESTHAB_Q033H', 'QUESTHAB_Q033I', 'QUESTHAB_Q033J'

ordinal: 'MICRODADOS_TP_FAIXA_ETARIA', 'MICRODADOS_TP_ANO_CONCLUIU', 'MICRODADOS_Q001', 'MICRODADOS_Q002', 'MICRODADOS_Q005', 'MICRODADOS_Q006', 'MICRODADOS_Q007', 'MICRODADOS_Q008', 'MICRODADOS_Q009', 'MICRODADOS_Q010', 'MICRODADOS_Q011', 'MICRODADOS_Q012', 'MICRODADOS_Q013', 'MICRODADOS_Q014', 'MICRODADOS_Q015', 'MICRODADOS_Q016', 'MICRODADOS_Q017', 'MICRODADOS_Q019', 'MICRODADOS_Q022', 'MICRODADOS_Q024', 'QUESTHAB_Q005', 'QUESTHAB_Q006', 'QUESTHAB_Q007', 'QUESTHAB_Q008', 'QUESTHAB_Q009', 'QUESTHAB_Q010', 'QUESTHAB_Q011', 'QUESTHAB_Q012', 'QUESTHAB_Q013', 'QUESTHAB_Q014', 'QUESTHAB_Q015', 'QUESTHAB_Q016', 'QUESTHAB_Q017', 'QUESTHAB_Q018', 'QUESTHAB_Q019', 'QUESTHAB_Q020', 'QUESTHAB_Q021', 'QUESTHAB_Q022', 'QUESTHAB_Q023', 'QUESTHAB_Q024', 'QUESTHAB_Q034'

nominal: 'MICRODADOS_TP_SEXO', 'MICRODADOS_NO_MUNICIPIO_ESC', 'MICRODADOS_SG_UF_ESC',  'MICRODADOS_NO_MUNICIPIO_PROVA', 'MICRODADOS_SG_UF_PROVA', 'MICRODADOS_TX_RESPOSTAS_CN', 'MICRODADOS_TX_RESPOSTAS_CH', 'MICRODADOS_TX_RESPOSTAS_LC', 'MICRODADOS_TX_RESPOSTAS_MT', 'MICRODADOS_TX_GABARITO_CN', 'MICRODADOS_TX_GABARITO_CH', 'MICRODADOS_TX_GABARITO_LC', 'MICRODADOS_TX_GABARITO_MT', 'MICRODADOS_Q003', 'MICRODADOS_Q004', 'QUESTHAB_Q001', 'QUESTHAB_Q002', 'QUESTHAB_Q003', 'QUESTHAB_Q004', 'QUESTHAB_Q031'

numerical: 'NU_INSCRICAO', 'MICRODADOS_NU_ANO', 'MICRODADOS_TP_ESTADO_CIVIL', 'MICRODADOS_TP_COR_RACA', 'MICRODADOS_TP_NACIONALIDADE', 'MICRODADOS_TP_ST_CONCLUSAO', 'MICRODADOS_TP_ESCOLA', 'MICRODADOS_TP_ENSINO', 'MICRODADOS_IN_TREINEIRO', 'MICRODADOS_CO_MUNICIPIO_ESC', 'MICRODADOS_CO_UF_ESC', 'MICRODADOS_TP_DEPENDENCIA_ADM_ESC', 'MICRODADOS_TP_LOCALIZACAO_ESC', 'MICRODADOS_TP_SIT_FUNC_ESC', 'MICRODADOS_CO_MUNICIPIO_PROVA', 'MICRODADOS_CO_UF_PROVA', 'MICRODADOS_TP_PRESENCA_CN', 'MICRODADOS_TP_PRESENCA_CH', 'MICRODADOS_TP_PRESENCA_LC', 'MICRODADOS_TP_PRESENCA_MT', 'MICRODADOS_CO_PROVA_CN', 'MICRODADOS_CO_PROVA_CH', 'MICRODADOS_CO_PROVA_LC', 'MICRODADOS_CO_PROVA_MT', 'MICRODADOS_NU_NOTA_CN', 'MICRODADOS_NU_NOTA_CH', 'MICRODADOS_NU_NOTA_LC', 'MICRODADOS_NU_NOTA_MT', 'MICRODADOS_TP_LINGUA', 'MICRODADOS_TP_STATUS_REDACAO', 'MICRODADOS_NU_NOTA_COMP1', 'MICRODADOS_NU_NOTA_COMP2', 'MICRODADOS_NU_NOTA_COMP3', 'MICRODADOS_NU_NOTA_COMP4', 'MICRODADOS_NU_NOTA_COMP5', 'MICRODADOS_NU_NOTA_REDACAO', 'QUESTHAB_TP_RESPOSTA'

In [None]:
boolean_features_1 = ['MICRODADOS_Q018', 'MICRODADOS_Q020', 'MICRODADOS_Q021', 'MICRODADOS_Q023', 'MICRODADOS_Q025']
boolean_features_2 = ['QUESTHAB_Q025A', 'QUESTHAB_Q025B', 'QUESTHAB_Q025C', 'QUESTHAB_Q025D', 'QUESTHAB_Q025E', 'QUESTHAB_Q025F', 'QUESTHAB_Q026A', 'QUESTHAB_Q026B', 'QUESTHAB_Q026C', 'QUESTHAB_Q026D', 'QUESTHAB_Q026E', 'QUESTHAB_Q026F', 'QUESTHAB_Q026G', 'QUESTHAB_Q026H', 'QUESTHAB_Q027', 'QUESTHAB_Q028A', 'QUESTHAB_Q028B', 'QUESTHAB_Q028C', 'QUESTHAB_Q028D', 'QUESTHAB_Q028E', 'QUESTHAB_Q028F', 'QUESTHAB_Q028G', 'QUESTHAB_Q028H', 'QUESTHAB_Q028I', 'QUESTHAB_Q028J', 'QUESTHAB_Q028K', 'QUESTHAB_Q028L', 'QUESTHAB_Q028M', 'QUESTHAB_Q028N', 'QUESTHAB_Q028O', 'QUESTHAB_Q028P', 'QUESTHAB_Q028Q', 'QUESTHAB_Q028R', 'QUESTHAB_Q029', 'QUESTHAB_Q030A', 'QUESTHAB_Q030B', 'QUESTHAB_Q030C', 'QUESTHAB_Q030D', 'QUESTHAB_Q030E', 'QUESTHAB_Q030F', 'QUESTHAB_Q030G', 'QUESTHAB_Q032A', 'QUESTHAB_Q032B', 'QUESTHAB_Q032C', 'QUESTHAB_Q032D', 'QUESTHAB_Q032E', 'QUESTHAB_Q032F', 'QUESTHAB_Q032G', 'QUESTHAB_Q033A', 'QUESTHAB_Q033B', 'QUESTHAB_Q033C', 'QUESTHAB_Q033D', 'QUESTHAB_Q033E', 'QUESTHAB_Q033F', 'QUESTHAB_Q033G', 'QUESTHAB_Q033H', 'QUESTHAB_Q033I', 'QUESTHAB_Q033J']
ordinal_features = ['MICRODADOS_Q001', 'MICRODADOS_Q002', 'MICRODADOS_Q006', 'MICRODADOS_Q007', 'MICRODADOS_Q008', 'MICRODADOS_Q009', 'MICRODADOS_Q010', 'MICRODADOS_Q011', 'MICRODADOS_Q012', 'MICRODADOS_Q013', 'MICRODADOS_Q014', 'MICRODADOS_Q015', 'MICRODADOS_Q016', 'MICRODADOS_Q017', 'MICRODADOS_Q019', 'MICRODADOS_Q022', 'MICRODADOS_Q024', 'QUESTHAB_Q005', 'QUESTHAB_Q006', 'QUESTHAB_Q007', 'QUESTHAB_Q008', 'QUESTHAB_Q009', 'QUESTHAB_Q010', 'QUESTHAB_Q011', 'QUESTHAB_Q012', 'QUESTHAB_Q013', 'QUESTHAB_Q014', 'QUESTHAB_Q015', 'QUESTHAB_Q016', 'QUESTHAB_Q017', 'QUESTHAB_Q018', 'QUESTHAB_Q019', 'QUESTHAB_Q020', 'QUESTHAB_Q021', 'QUESTHAB_Q022', 'QUESTHAB_Q023', 'QUESTHAB_Q024', 'QUESTHAB_Q034']
nominal_features = list(set(complete_aggregated_df.select_dtypes(include='object').columns.values) - set(boolean_features + ordinal_features))
numerical_features = list(set(complete_aggregated_df.select_dtypes(exclude='object').columns.values) - set(boolean_features + ordinal_features))

In [None]:
class BooleanEncoder(BaseEstimator, TransformerMixin):
    '''
    Processa os valores booleanos.
    Ao instanciar o transformador, é necessário colocar como parâmetros o valor correspondente à `True` como `true_value`
    e o à `False` como `false_value`.
    Exemplo:
    LabelEncoder(true_value='', false_value='')
    '''
    def __init__(self, true_value, false_value):
        super().__init__()

        if true_value == false_value:
            raise ValueError('Os valores verdadeiro e falso são iguais.')
        
        self.true_value = true_value
        self.false_value = false_value

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        X = X.replace(self.true_value, 1)
        X = X.replace(self.false_value, 0)
        
        X = X.astype(int)
        
        return X

In [None]:
boolean_transformer_1 = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', BooleanEncoder(true_value='B', false_value='A')),
])

boolean_transformer_2 = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', BooleanEncoder(true_value='A', false_value='B')),
])

ordinal_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OrdinalEncoder(categories=[
        ['H', 'A', 'B', 'C', 'D', 'E', 'F', 'G'],   # MICRODADOS_Q001
        ['H', 'A', 'B', 'C', 'D', 'E', 'F', 'G'],   # MICRODADOS_Q002
        ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q'],   # MICRODADOS_Q006
        ['A', 'B', 'C', 'D'],    # MICRODADOS_Q007
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q008
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q009
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q010
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q011
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q012
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q013
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q014
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q015
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q016
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q017
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q019
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q022
        ['A', 'B', 'C', 'D', 'E'],   # MICRODADOS_Q024
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q005
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q006
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q007
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q008
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q009
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q010
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q011
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q012
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q013
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q014
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q015
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q016
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q017
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q018
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q019
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q020
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q021
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q022
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q023
        ['A', 'B', 'C', 'D'],   # QUESTHAB_Q024
        ['A', 'B', 'C', 'D', 'E'],   # QUESTHAB_Q034
    ])),
])

nominal_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder()),
])

numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
])

preprocessor = ColumnTransformer(transformers=[
    ('boolean_1', boolean_transformer_1, boolean_features_1),
    ('boolean_2', boolean_transformer_2, boolean_features_2),
    ('ordinal', ordinal_transformer, ordinal_features),
    ('nominal', nominal_transformer, nominal_features),
    ('numerical', numerical_transformer, numerical_features),
])

scaler_processing = Pipeline(steps=[
    ('minmaxscaler', MinMaxScaler()),
    ('stdscaler',  StandardScaler()),
])

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X_transformed, y_transformed, train_size=0.3, random_state=SEED)

#### **kNN**

#### **Regressão Linear**

#### **Regressão Logística**

#### **Naive Bayes**

#### **SVM**

#### **Árvore de Decisão/Random Forest**