# **Projeto: Como a situação socioeconômica pode influenciar no desempenho de um estudante no ENEM?**

**Integrantes:** Hellen Cristine Silva Rosa (RA00319076), João Victor Porto (RA00311353), Laura Gabriel Murayama (RA00319321), Maria Eduarda Bonel Iribarnegaray (RA00318891), Vinícius Ferreira de Mendonça (RA00319760), Vitória de Fátima Teixeira (RA00320578)

## **Banco de Dados**

### **Importando bibliotecas e definindo funções importantes**

In [1]:
# importing libraries
import os
import psycopg2
import pandas as pd

# loading environment variables
from dotenv import load_dotenv
load_dotenv()

True

In [2]:
# establishing connection with DB
class db_connection():
    def __init__(self):
        self.DB_URI = os.environ.get('DB_URI')
         
    def __enter__(self):
        self.connection = psycopg2.connect(self.DB_URI)
        return self.connection
    
    def __exit__(self, *args):
        self.connection.close()

class db_cursor():
    def __init__(self, connection):
        self.connection = connection
         
    def __enter__(self):
        self.cursor = self.connection.cursor()
        return self.cursor
    
    def __exit__(self, *args):
        self.cursor.close()

In [3]:
with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute('SELECT * FROM projeto_enem.microdados;')
    microdados_data = cursor.fetchall()
    microdados_columns = tuple(desc[0] for desc in cursor.description)
    
    cursor.execute('SELECT * FROM projeto_enem.quest_hab;')
    quest_hab_data = cursor.fetchall()
    quest_hab_columns = tuple(desc[0] for desc in cursor.description)

In [6]:
microdados_df = pd.DataFrame(microdados_data, columns=microdados_columns)
quest_hab_df = pd.DataFrame(quest_hab_data, columns=quest_hab_columns)

In [8]:
microdados_df

Unnamed: 0,ID,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,1,210057943671,2022,14,M,2,2,1,1,2,...,B,A,A,A,A,A,A,A,A,A
1,2,210057516120,2022,14,M,2,1,1,1,16,...,E,E,B,E,B,B,E,B,E,B
2,3,210057280536,2022,5,F,1,2,1,1,2,...,A,A,A,A,A,A,C,A,A,B
3,4,210055724397,2022,6,M,1,3,1,1,2,...,B,A,A,C,A,A,C,B,B,B
4,5,210055097896,2022,4,M,0,3,1,1,1,...,A,A,A,A,A,A,B,A,A,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3476100,3476101,210056389903,2022,3,M,1,1,1,2,0,...,B,A,B,B,B,A,E,A,A,B
3476101,3476102,210057205644,2022,14,F,2,1,1,2,0,...,A,A,A,B,A,A,C,A,B,B
3476102,3476103,210056699189,2022,2,M,1,1,1,2,0,...,B,A,B,C,B,A,E,A,B,B
3476103,3476104,210056983033,2022,3,M,1,3,1,2,0,...,B,A,B,D,A,A,E,A,B,B


In [7]:
quest_hab_df

Unnamed: 0,ID,NU_INSCRICAO,TP_RESPOSTA,Q001,Q002,Q003,Q004,Q005,Q006,Q007,...,Q033B,Q033C,Q033D,Q033E,Q033F,Q033G,Q033H,Q033I,Q033J,Q034
0,1,210054478229,2,,,,,,,,...,,,,,,,,,,
1,2,210054478230,1,D,,D,C,A,B,B,...,B,B,B,B,B,A,B,B,B,A
2,3,210054478234,1,D,,E,E,C,C,C,...,,,,,,,,,,B
3,4,210054478235,0,,,,,,,,...,,,,,,,,,,
4,5,210054478236,1,A,A,B,D,B,B,B,...,B,B,B,B,B,A,B,B,A,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2467081,2467082,210058026051,2,,,,,,,,...,,,,,,,,,,
2467082,2467083,210058026053,2,,,,,,,,...,,,,,,,,,,
2467083,2467084,210058026056,2,,,,,,,,...,,,,,,,,,,
2467084,2467085,210058026057,2,,,,,,,,...,,,,,,,,,,


### **REQ#01: Função para xxxxx**

### **REQ#02: Identificar um dataset sobre a temática do projeto**

Utilizaremos os microdados do ENEM 2022, disponibilizados pelo INEP

In [None]:
microdados_creation_query = '''
CREATE TABLE projeto_enem.microdados (
    "ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"NU_ANO" INTEGER,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_ESTADO_CIVIL" INTEGER,
	"TP_COR_RACA" INTEGER,
	"TP_NACIONALIDADE" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"TP_ENSINO" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"CO_MUNICIPIO_ESC" INTEGER,
	"NO_MUNICIPIO_ESC" VARCHAR(150),
	"CO_UF_ESC" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_DEPENDENCIA_ADM_ESC" INTEGER,
	"TP_LOCALIZACAO_ESC" INTEGER,
	"TP_SIT_FUNC_ESC" INTEGER,
	"CO_MUNICIPIO_PROVA" INTEGER,
	"NO_MUNICIPIO_PROVA" VARCHAR(150),
	"CO_UF_PROVA" VARCHAR(2),
	"SG_UF_PROVA" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"CO_PROVA_CN" INTEGER,
	"CO_PROVA_CH" INTEGER,
	"CO_PROVA_LC" INTEGER,
	"CO_PROVA_MT" INTEGER,
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TP_LINGUA" INTEGER,
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45),
	"TP_STATUS_REDACAO" INTEGER,
	"NU_NOTA_COMP1" INTEGER,
	"NU_NOTA_COMP2" INTEGER,
	"NU_NOTA_COMP3" INTEGER,
	"NU_NOTA_COMP4" INTEGER,
	"NU_NOTA_COMP5" INTEGER,
	"NU_NOTA_REDACAO" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" INTEGER,
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025" VARCHAR(1)
);
'''

quest_hab_creation_query = '''
CREATE TABLE projeto_enem.quest_hab (
	"ID" INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
	"NU_INSCRICAO" BIGINT,
	"TP_RESPOSTA" INTEGER,
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
'''


with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute(microdados_creation_query)
    cursor.execute(quest_hab_creation_query)
    conn.commit()

### **REQ#03: Modelo conceitual**

xxxxx

### **REQ#04: Modelo lógico**

xxxxx

### **REQ#05:Modelo físico**

xxxxx

### **REQ#06: Popular o Banco de Dados a partir do dataset**

In [None]:
microdados_csv_query = '''
COPY projeto_enem.microdados("NU_INSCRICAO", "NU_ANO", "TP_FAIXA_ETARIA", "TP_SEXO", "TP_ESTADO_CIVIL", "TP_COR_RACA", "TP_NACIONALIDADE", "TP_ST_CONCLUSAO", "TP_ANO_CONCLUIU", "TP_ESCOLA", "TP_ENSINO", "IN_TREINEIRO", "CO_MUNICIPIO_ESC", "NO_MUNICIPIO_ESC", "CO_UF_ESC", "SG_UF_ESC", "TP_DEPENDENCIA_ADM_ESC", "TP_LOCALIZACAO_ESC", "TP_SIT_FUNC_ESC", "CO_MUNICIPIO_PROVA", "NO_MUNICIPIO_PROVA", "CO_UF_PROVA", "SG_UF_PROVA", "TP_PRESENCA_CN", "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "CO_PROVA_CN", "CO_PROVA_CH", "CO_PROVA_LC", "CO_PROVA_MT", "NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT", "TX_RESPOSTAS_CN", "TX_RESPOSTAS_CH", "TX_RESPOSTAS_LC", "TX_RESPOSTAS_MT", "TP_LINGUA", "TX_GABARITO_CN", "TX_GABARITO_CH", "TX_GABARITO_LC", "TX_GABARITO_MT", "TP_STATUS_REDACAO", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5", "NU_NOTA_REDACAO", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025")
FROM '/private/tmp/dados/MICRODADOS_ENEM_2022.csv'
DELIMITER ';'
ENCODING 'latin1'
CSV HEADER;
'''

quest_hab_csv_query = '''
COPY projeto_enem.quest_hab("NU_INSCRICAO", "TP_RESPOSTA", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025A", "Q025B", "Q025C", "Q025D", "Q025E", "Q025F", "Q026A", "Q026B", "Q026C", "Q026D", "Q026E", "Q026F", "Q026G", "Q026H", "Q027", "Q028A", "Q028B", "Q028C", "Q028D", "Q028E", "Q028F", "Q028G", "Q028H", "Q028I", "Q028J", "Q028K", "Q028L", "Q028M", "Q028N", "Q028O", "Q028P", "Q028Q", "Q028R", "Q029", "Q030A", "Q030B", "Q030C", "Q030D", "Q030E", "Q030F", "Q030G", "Q031", "Q032A", "Q032B", "Q032C", "Q032D", "Q032E", "Q032F", "Q032G", "Q033A", "Q033B", "Q033C", "Q033D", "Q033E", "Q033F", "Q033G", "Q033H", "Q033I", "Q033J", "Q034")
FROM '/private/tmp/dados/QUEST_HAB_ESTUDO.csv'
DELIMITER ';'
ENCODING 'latin1'
CSV HEADER;
'''


with db_connection() as conn, db_cursor(conn) as cursor:
    cursor.execute(microdados_csv_query)
    cursor.execute(quest_hab_csv_query)
    conn.commit()

### **REQ#07: Questões**

#### **Questão 1: xxxxx**

#### **Questão 2: xxxxx**

#### **Questão 3: xxxxx**

#### **Questão 4: xxxxx**

#### **Questão 5: xxxxx**

#### **Questão 6: xxxxx**

#### **Questão 7: xxxxx**

#### **Questão 8: xxxxx**

#### **Questão 9: xxxxx**

#### **Questão 10: xxxxx**

## **Machine Learning**

In [None]:
SEED = 3

from sklearnex import patch_sklearn
patch_sklearn()

import joblib
import skops.io as sio

### **REQ#01: Utilizar um ou mais datasets para o treinamento dos classificadores**

Utilizaremos os microdados do ENEM 2022, disponibilizados pelo INEP

### **REQ#02: Análise Exploratória**

### **REQ#03-11: Treinamento de modelos**

Todos os modelos serão testados com 30% dos dados. A avaliação será feita a partir das métricas acurácia, precision, recall, F1 e matriz de confusão. Eles serão persistidos.

#### **kNN**

#### **Regressão Linear**

#### **Regressão Logística**

#### **Naive Bayes**

#### **SVM**

#### **Árvore de Decisão/Random Forest**