# **Projeto: Quais fatores mais influenciam no desempenho de um aluno no ENEM e como podemos ajudá-lo a melhorar sua performance?**

**Integrantes:** Hellen Cristine Silva Rosa (RA00319076), João Victor Porto (RA00311353), Laura Gabriel Murayama (RA00319321), Maria Eduarda Bonel Iribarnegaray (RA00318891), Vinícius Ferreira de Mendonça (RA00319760), Vitória de Fátima Teixeira (RA00320578)

## **Banco de Dados**

### **Importando bibliotecas e definindo funções importantes**

In [2]:
# importing libraries
import os
import psycopg2
import pandas as pd

# loading environment variables
from dotenv import load_dotenv
load_dotenv()

True

In [3]:
# establishing connection with DB
class db_connection():
    '''
    Instantiates a connection with the database.
    '''
    def __init__(self):
        self.DB_URI = os.environ.get('DB_URI')
         
    def __enter__(self):
        self.connection = psycopg2.connect(self.DB_URI)
        return self.connection
    
    def __exit__(self, *args):
        self.connection.close()

### **REQ#02: Identificar um dataset sobre a temática do projeto**

Utilizaremos os microdados do ENEM 2022, [disponibilizados pelo INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem).

### **REQ#03: Modelo conceitual**

<img src="../img/modelo_conceitual.jpeg" width="800rem">

### **REQ#04: Modelo lógico**

<img src="../img/modelo_logico.jpeg" width="800rem">

### **REQ#05: Modelo físico**

In [None]:
participante_creation_query = '''
CREATE TABLE projeto_enem.participante (
	"NU_INSCRICAO" BIGINT PRIMARY KEY,
	"TP_FAIXA_ETARIA" INTEGER,
	"TP_SEXO" VARCHAR(1),
	"TP_COR_RACA" INTEGER,
	"TP_ST_CONCLUSAO" INTEGER,
	"TP_ANO_CONCLUIU" INTEGER,
	"TP_ESCOLA" INTEGER,
	"IN_TREINEIRO" INTEGER,
	"SG_UF_ESC" VARCHAR(2),
	"TP_PRESENCA_CN" INTEGER,
	"TP_PRESENCA_CH" INTEGER,
	"TP_PRESENCA_LC" INTEGER,
	"TP_PRESENCA_MT" INTEGER,
	"TP_STATUS_REDACAO" FLOAT,
	"TP_LINGUA" INTEGER,
	"Q006" VARCHAR(1),
	"Q005" INTEGER
);
'''

notas_creation_query = '''
CREATE TABLE projeto_enem.notas (
	"NU_INSCRICAO" BIGINT PRIMARY KEY REFERENCES projeto_enem.participante("NU_INSCRICAO"),
	"NU_NOTA_CN" FLOAT,
	"NU_NOTA_CH" FLOAT,
	"NU_NOTA_LC" FLOAT,
	"NU_NOTA_MT" FLOAT,
	"NU_NOTA_COMP1" FLOAT,
	"NU_NOTA_COMP2" FLOAT,
	"NU_NOTA_COMP3" FLOAT,
	"NU_NOTA_COMP4" FLOAT,
	"NU_NOTA_COMP5" FLOAT,
	"NU_NOTA_REDACAO" FLOAT,
	"TX_RESPOSTAS_CN" VARCHAR(45),
	"TX_RESPOSTAS_CH" VARCHAR(45),
	"TX_RESPOSTAS_LC" VARCHAR(45),
	"TX_RESPOSTAS_MT" VARCHAR(45),
	"TX_GABARITO_CN" VARCHAR(45),
	"TX_GABARITO_CH" VARCHAR(45),
	"TX_GABARITO_LC" VARCHAR(50),
	"TX_GABARITO_MT" VARCHAR(45)
);
'''

hab_estudo_creation_query = '''
CREATE TABLE projeto_enem.hab_estudo (
	"NU_INSCRICAO" BIGINT PRIMARY KEY REFERENCES projeto_enem.participante("NU_INSCRICAO"),
	"Q001" VARCHAR(1),
	"Q002" VARCHAR(1),
	"Q003" VARCHAR(1),
	"Q004" VARCHAR(1),
	"Q005" VARCHAR(1),
	"Q006" VARCHAR(1),
	"Q007" VARCHAR(1),
	"Q008" VARCHAR(1),
	"Q009" VARCHAR(1),
	"Q010" VARCHAR(1),
	"Q011" VARCHAR(1),
	"Q012" VARCHAR(1),
	"Q013" VARCHAR(1),
	"Q014" VARCHAR(1),
	"Q015" VARCHAR(1),
	"Q016" VARCHAR(1),
	"Q017" VARCHAR(1),
	"Q018" VARCHAR(1),
	"Q019" VARCHAR(1),
	"Q020" VARCHAR(1),
	"Q021" VARCHAR(1),
	"Q022" VARCHAR(1),
	"Q023" VARCHAR(1),
	"Q024" VARCHAR(1),
	"Q025A" VARCHAR(1),
	"Q025B" VARCHAR(1),
	"Q025C" VARCHAR(1),
	"Q025D" VARCHAR(1),
	"Q025E" VARCHAR(1),
	"Q025F" VARCHAR(1),
	"Q026A" VARCHAR(1),
	"Q026B" VARCHAR(1),
	"Q026C" VARCHAR(1),
	"Q026D" VARCHAR(1),
	"Q026E" VARCHAR(1),
	"Q026F" VARCHAR(1),
	"Q026G" VARCHAR(1),
	"Q026H" VARCHAR(1),
	"Q027" VARCHAR(1),
	"Q028A" VARCHAR(1),
	"Q028B" VARCHAR(1),
	"Q028C" VARCHAR(1),
	"Q028D" VARCHAR(1),
	"Q028E" VARCHAR(1),
	"Q028F" VARCHAR(1),
	"Q028G" VARCHAR(1),
	"Q028H" VARCHAR(1),
	"Q028I" VARCHAR(1),
	"Q028J" VARCHAR(1),
	"Q028K" VARCHAR(1),
	"Q028L" VARCHAR(1),
	"Q028M" VARCHAR(1),
	"Q028N" VARCHAR(1),
	"Q028O" VARCHAR(1),
	"Q028P" VARCHAR(1),
	"Q028Q" VARCHAR(1),
	"Q028R" VARCHAR(1),
	"Q029" VARCHAR(1),
	"Q030A" VARCHAR(1),
	"Q030B" VARCHAR(1),
	"Q030C" VARCHAR(1),
	"Q030D" VARCHAR(1),
	"Q030E" VARCHAR(1),
	"Q030F" VARCHAR(1),
	"Q030G" VARCHAR(1),
	"Q031" VARCHAR(1),
	"Q032A" VARCHAR(1),
	"Q032B" VARCHAR(1),
	"Q032C" VARCHAR(1),
	"Q032D" VARCHAR(1),
	"Q032E" VARCHAR(1),
	"Q032F" VARCHAR(1),
	"Q032G" VARCHAR(1),
	"Q033A" VARCHAR(1),
	"Q033B" VARCHAR(1),
	"Q033C" VARCHAR(1),
	"Q033D" VARCHAR(1),
	"Q033E" VARCHAR(1),
	"Q033F" VARCHAR(1),
	"Q033G" VARCHAR(1),
	"Q033H" VARCHAR(1),
	"Q033I" VARCHAR(1),
	"Q033J" VARCHAR(1),
	"Q034" VARCHAR(1)
);
'''


with db_connection() as conn, conn.cursor() as cursor:
    cursor.execute(participante_creation_query)
    cursor.execute(notas_creation_query)
    cursor.execute(hab_estudo_creation_query)
    conn.commit()

### **REQ#06: Popular o Banco de Dados a partir do dataset**

In [None]:
microdados_csv = pd.read_csv('../microdados_enem_2022/DADOS/MICRODADOS_ENEM_2022.csv', encoding='latin1', sep=';')
hab_estudo_csv = pd.read_csv('../microdados_enem_2022/DADOS/QUEST_HAB_ESTUDO.csv', encoding='latin1', sep=';')

In [None]:
participante_csv = microdados_csv[['NU_INSCRICAO', 'TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_COR_RACA', 'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'IN_TREINEIRO', 'SG_UF_ESC', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'TP_STATUS_REDACAO', 'TP_LINGUA', 'Q006', 'Q005']]
notas_csv = microdados_csv[['NU_INSCRICAO', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT']]
hab_estudo_csv = hab_estudo_csv[['NU_INSCRICAO', 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006', 'Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013', 'Q014', 'Q015', 'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024', 'Q025A', 'Q025B', 'Q025C', 'Q025D', 'Q025E', 'Q025F', 'Q026A', 'Q026B', 'Q026C', 'Q026D', 'Q026E', 'Q026F', 'Q026G', 'Q026H', 'Q027', 'Q028A', 'Q028B', 'Q028C', 'Q028D', 'Q028E', 'Q028F', 'Q028G', 'Q028H', 'Q028I', 'Q028J', 'Q028K', 'Q028L', 'Q028M', 'Q028N', 'Q028O', 'Q028P', 'Q028Q', 'Q028R', 'Q029', 'Q030A', 'Q030B', 'Q030C', 'Q030D', 'Q030E', 'Q030F', 'Q030G', 'Q031', 'Q032A', 'Q032B', 'Q032C', 'Q032D', 'Q032E', 'Q032F', 'Q032G', 'Q033A', 'Q033B', 'Q033C', 'Q033D', 'Q033E', 'Q033F', 'Q033G', 'Q033H', 'Q033I', 'Q033J', 'Q034']]

In [None]:
hab_estudo_csv = hab_estudo_csv.drop_duplicates(subset=['NU_INSCRICAO'])

In [None]:
participante_csv.to_csv('../microdados_enem_2022/DADOS/tratados/participante.csv', index=False)
notas_csv.to_csv('../microdados_enem_2022/DADOS/tratados/notas.csv', index=False)
hab_estudo_csv.to_csv('../microdados_enem_2022/DADOS/tratados/hab_estudo.csv', index=False)

In [None]:
participante_csv_query = '''
COPY projeto_enem.participante("NU_INSCRICAO", "TP_FAIXA_ETARIA", "TP_SEXO", "TP_COR_RACA", "TP_ST_CONCLUSAO", "TP_ANO_CONCLUIU", "TP_ESCOLA", "IN_TREINEIRO", "SG_UF_ESC", "TP_PRESENCA_CN", "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "TP_STATUS_REDACAO", "TP_LINGUA", "Q006", "Q005")
FROM STDIN
WITH (DELIMITER ',',
ENCODING 'utf8',
FORMAT CSV,
HEADER);
'''

notas_csv_query = '''
COPY projeto_enem.notas("NU_INSCRICAO", "NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5", "NU_NOTA_REDACAO", "TX_RESPOSTAS_CN", "TX_RESPOSTAS_CH", "TX_RESPOSTAS_LC", "TX_RESPOSTAS_MT", "TX_GABARITO_CN", "TX_GABARITO_CH", "TX_GABARITO_LC", "TX_GABARITO_MT")
FROM STDIN
WITH (DELIMITER ',',
ENCODING 'utf8',
FORMAT CSV,
HEADER);
'''

hab_estudo_csv_query = '''
COPY projeto_enem.hab_estudo("NU_INSCRICAO", "Q001", "Q002", "Q003", "Q004", "Q005", "Q006", "Q007", "Q008", "Q009", "Q010", "Q011", "Q012", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q019", "Q020", "Q021", "Q022", "Q023", "Q024", "Q025A", "Q025B", "Q025C", "Q025D", "Q025E", "Q025F", "Q026A", "Q026B", "Q026C", "Q026D", "Q026E", "Q026F", "Q026G", "Q026H", "Q027", "Q028A", "Q028B", "Q028C", "Q028D", "Q028E", "Q028F", "Q028G", "Q028H", "Q028I", "Q028J", "Q028K", "Q028L", "Q028M", "Q028N", "Q028O", "Q028P", "Q028Q", "Q028R", "Q029", "Q030A", "Q030B", "Q030C", "Q030D", "Q030E", "Q030F", "Q030G", "Q031", "Q032A", "Q032B", "Q032C", "Q032D", "Q032E", "Q032F", "Q032G", "Q033A", "Q033B", "Q033C", "Q033D", "Q033E", "Q033F", "Q033G", "Q033H", "Q033I", "Q033J", "Q034")
FROM STDIN
WITH (DELIMITER ',',
ENCODING 'utf8',
FORMAT CSV,
HEADER);
'''


with db_connection() as conn, conn.cursor() as cursor:
    with open('../microdados_enem_2022/DADOS/tratados/participante.csv', encoding='utf8') as participante_file:
        with open('../microdados_enem_2022/DADOS/tratados/notas.csv', encoding='utf8') as notas_file:
            with open('../microdados_enem_2022/DADOS/tratados/hab_estudo.csv', encoding='utf8') as hab_estudo_file:
                cursor.copy_expert(participante_csv_query, participante_file)
                cursor.copy_expert(notas_csv_query, notas_file)
                cursor.copy_expert(hab_estudo_csv_query, hab_estudo_file)
                conn.commit()

### **REQ#01: Função para unir as duas tabelas**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query_columns = 'projeto_enem.participante."NU_INSCRICAO" AS "NU_INSCRICAO", projeto_enem.participante."TP_FAIXA_ETARIA" AS "PARTICIPANTE_TP_FAIXA_ETARIA", projeto_enem.participante."TP_SEXO" AS "PARTICIPANTE_TP_SEXO", projeto_enem.participante."TP_COR_RACA" AS "PARTICIPANTE_TP_COR_RACA", projeto_enem.participante."TP_ST_CONCLUSAO" AS "PARTICIPANTE_TP_ST_CONCLUSAO", projeto_enem.participante."TP_ANO_CONCLUIU" AS "PARTICIPANTE_TP_ANO_CONCLUIU", projeto_enem.participante."TP_ESCOLA" AS "PARTICIPANTE_TP_ESCOLA", projeto_enem.participante."IN_TREINEIRO" AS "PARTICIPANTE_IN_TREINEIRO", projeto_enem.participante."SG_UF_ESC" AS "PARTICIPANTE_SG_UF_ESC", projeto_enem.participante."TP_PRESENCA_CN" AS "PARTICIPANTE_TP_PRESENCA_CN", projeto_enem.participante."TP_PRESENCA_CH" AS "PARTICIPANTE_TP_PRESENCA_CH", projeto_enem.participante."TP_PRESENCA_LC" AS "PARTICIPANTE_TP_PRESENCA_LC", projeto_enem.participante."TP_PRESENCA_MT" AS "PARTICIPANTE_TP_PRESENCA_MT", projeto_enem.participante."TP_STATUS_REDACAO" AS "PARTICIPANTE_TP_STATUS_REDACAO", projeto_enem.participante."TP_LINGUA" AS "PARTICIPANTE_TP_LINGUA", projeto_enem.participante."Q006" AS "PARTICIPANTE_Q006", projeto_enem.participante."Q005" AS "PARTICIPANTE_Q005", projeto_enem.notas."NU_NOTA_CN" AS "NOTAS_NU_NOTA_CN", projeto_enem.notas."NU_NOTA_CH" AS "NOTAS_NU_NOTA_CH", projeto_enem.notas."NU_NOTA_LC" AS "NOTAS_NU_NOTA_LC", projeto_enem.notas."NU_NOTA_MT" AS "NOTAS_NU_NOTA_MT", projeto_enem.notas."NU_NOTA_COMP1" AS "NOTAS_NU_NOTA_COMP1", projeto_enem.notas."NU_NOTA_COMP2" AS "NOTAS_NU_NOTA_COMP2", projeto_enem.notas."NU_NOTA_COMP3" AS "NOTAS_NU_NOTA_COMP3", projeto_enem.notas."NU_NOTA_COMP4" AS "NOTAS_NU_NOTA_COMP4", projeto_enem.notas."NU_NOTA_COMP5" AS "NOTAS_NU_NOTA_COMP5", projeto_enem.notas."NU_NOTA_REDACAO" AS "NOTAS_NU_NOTA_REDACAO", projeto_enem.notas."TX_RESPOSTAS_CN" AS "NOTAS_TX_RESPOSTAS_CN", projeto_enem.notas."TX_RESPOSTAS_CH" AS "NOTAS_TX_RESPOSTAS_CH", projeto_enem.notas."TX_RESPOSTAS_LC" AS "NOTAS_TX_RESPOSTAS_LC", projeto_enem.notas."TX_RESPOSTAS_MT" AS "NOTAS_TX_RESPOSTAS_MT", projeto_enem.notas."TX_GABARITO_CN" AS "NOTAS_TX_GABARITO_CN", projeto_enem.notas."TX_GABARITO_CH" AS "NOTAS_TX_GABARITO_CH", projeto_enem.notas."TX_GABARITO_LC" AS "NOTAS_TX_GABARITO_LC", projeto_enem.notas."TX_GABARITO_MT" AS "NOTAS_TX_GABARITO_MT", projeto_enem.hab_estudo."Q001" AS "HABESTUDO_Q001", projeto_enem.hab_estudo."Q002" AS "HABESTUDO_Q002", projeto_enem.hab_estudo."Q003" AS "HABESTUDO_Q003", projeto_enem.hab_estudo."Q004" AS "HABESTUDO_Q004", projeto_enem.hab_estudo."Q005" AS "HABESTUDO_Q005", projeto_enem.hab_estudo."Q006" AS "HABESTUDO_Q006", projeto_enem.hab_estudo."Q007" AS "HABESTUDO_Q007", projeto_enem.hab_estudo."Q008" AS "HABESTUDO_Q008", projeto_enem.hab_estudo."Q009" AS "HABESTUDO_Q009", projeto_enem.hab_estudo."Q010" AS "HABESTUDO_Q010", projeto_enem.hab_estudo."Q011" AS "HABESTUDO_Q011", projeto_enem.hab_estudo."Q012" AS "HABESTUDO_Q012", projeto_enem.hab_estudo."Q013" AS "HABESTUDO_Q013", projeto_enem.hab_estudo."Q014" AS "HABESTUDO_Q014", projeto_enem.hab_estudo."Q015" AS "HABESTUDO_Q015", projeto_enem.hab_estudo."Q016" AS "HABESTUDO_Q016", projeto_enem.hab_estudo."Q017" AS "HABESTUDO_Q017", projeto_enem.hab_estudo."Q018" AS "HABESTUDO_Q018", projeto_enem.hab_estudo."Q019" AS "HABESTUDO_Q019", projeto_enem.hab_estudo."Q020" AS "HABESTUDO_Q020", projeto_enem.hab_estudo."Q021" AS "HABESTUDO_Q021", projeto_enem.hab_estudo."Q022" AS "HABESTUDO_Q022", projeto_enem.hab_estudo."Q023" AS "HABESTUDO_Q023", projeto_enem.hab_estudo."Q024" AS "HABESTUDO_Q024", projeto_enem.hab_estudo."Q025A" AS "HABESTUDO_Q025A", projeto_enem.hab_estudo."Q025B" AS "HABESTUDO_Q025B", projeto_enem.hab_estudo."Q025C" AS "HABESTUDO_Q025C", projeto_enem.hab_estudo."Q025D" AS "HABESTUDO_Q025D", projeto_enem.hab_estudo."Q025E" AS "HABESTUDO_Q025E", projeto_enem.hab_estudo."Q025F" AS "HABESTUDO_Q025F", projeto_enem.hab_estudo."Q026A" AS "HABESTUDO_Q026A", projeto_enem.hab_estudo."Q026B" AS "HABESTUDO_Q026B", projeto_enem.hab_estudo."Q026C" AS "HABESTUDO_Q026C", projeto_enem.hab_estudo."Q026D" AS "HABESTUDO_Q026D", projeto_enem.hab_estudo."Q026E" AS "HABESTUDO_Q026E", projeto_enem.hab_estudo."Q026F" AS "HABESTUDO_Q026F", projeto_enem.hab_estudo."Q026G" AS "HABESTUDO_Q026G", projeto_enem.hab_estudo."Q026H" AS "HABESTUDO_Q026H", projeto_enem.hab_estudo."Q027" AS "HABESTUDO_Q027", projeto_enem.hab_estudo."Q028A" AS "HABESTUDO_Q028A", projeto_enem.hab_estudo."Q028B" AS "HABESTUDO_Q028B", projeto_enem.hab_estudo."Q028C" AS "HABESTUDO_Q028C", projeto_enem.hab_estudo."Q028D" AS "HABESTUDO_Q028D", projeto_enem.hab_estudo."Q028E" AS "HABESTUDO_Q028E", projeto_enem.hab_estudo."Q028F" AS "HABESTUDO_Q028F", projeto_enem.hab_estudo."Q028G" AS "HABESTUDO_Q028G", projeto_enem.hab_estudo."Q028H" AS "HABESTUDO_Q028H", projeto_enem.hab_estudo."Q028I" AS "HABESTUDO_Q028I", projeto_enem.hab_estudo."Q028J" AS "HABESTUDO_Q028J", projeto_enem.hab_estudo."Q028K" AS "HABESTUDO_Q028K", projeto_enem.hab_estudo."Q028L" AS "HABESTUDO_Q028L", projeto_enem.hab_estudo."Q028M" AS "HABESTUDO_Q028M", projeto_enem.hab_estudo."Q028N" AS "HABESTUDO_Q028N", projeto_enem.hab_estudo."Q028O" AS "HABESTUDO_Q028O", projeto_enem.hab_estudo."Q028P" AS "HABESTUDO_Q028P", projeto_enem.hab_estudo."Q028Q" AS "HABESTUDO_Q028Q", projeto_enem.hab_estudo."Q028R" AS "HABESTUDO_Q028R", projeto_enem.hab_estudo."Q029" AS "HABESTUDO_Q029", projeto_enem.hab_estudo."Q030A" AS "HABESTUDO_Q030A", projeto_enem.hab_estudo."Q030B" AS "HABESTUDO_Q030B", projeto_enem.hab_estudo."Q030C" AS "HABESTUDO_Q030C", projeto_enem.hab_estudo."Q030D" AS "HABESTUDO_Q030D", projeto_enem.hab_estudo."Q030E" AS "HABESTUDO_Q030E", projeto_enem.hab_estudo."Q030F" AS "HABESTUDO_Q030F", projeto_enem.hab_estudo."Q030G" AS "HABESTUDO_Q030G", projeto_enem.hab_estudo."Q031" AS "HABESTUDO_Q031", projeto_enem.hab_estudo."Q032A" AS "HABESTUDO_Q032A", projeto_enem.hab_estudo."Q032B" AS "HABESTUDO_Q032B", projeto_enem.hab_estudo."Q032C" AS "HABESTUDO_Q032C", projeto_enem.hab_estudo."Q032D" AS "HABESTUDO_Q032D", projeto_enem.hab_estudo."Q032E" AS "HABESTUDO_Q032E", projeto_enem.hab_estudo."Q032F" AS "HABESTUDO_Q032F", projeto_enem.hab_estudo."Q032G" AS "HABESTUDO_Q032G", projeto_enem.hab_estudo."Q033A" AS "HABESTUDO_Q033A", projeto_enem.hab_estudo."Q033B" AS "HABESTUDO_Q033B", projeto_enem.hab_estudo."Q033C" AS "HABESTUDO_Q033C", projeto_enem.hab_estudo."Q033D" AS "HABESTUDO_Q033D", projeto_enem.hab_estudo."Q033E" AS "HABESTUDO_Q033E", projeto_enem.hab_estudo."Q033F" AS "HABESTUDO_Q033F", projeto_enem.hab_estudo."Q033G" AS "HABESTUDO_Q033G", projeto_enem.hab_estudo."Q033H" AS "HABESTUDO_Q033H", projeto_enem.hab_estudo."Q033I" AS "HABESTUDO_Q033I", projeto_enem.hab_estudo."Q033J" AS "HABESTUDO_Q033J", projeto_enem.hab_estudo."Q034" AS "HABESTUDO_Q034"'

    query = f'''
        CREATE TABLE projeto_enem.aggregated_data_new
        AS
        SELECT {query_columns}
        FROM ((projeto_enem.participante
        FULL JOIN projeto_enem.notas ON projeto_enem.participante."NU_INSCRICAO" = projeto_enem.notas."NU_INSCRICAO")
        FULL JOIN projeto_enem.hab_estudo ON projeto_enem.participante."NU_INSCRICAO" = projeto_enem.hab_estudo."NU_INSCRICAO");
    '''

    cursor.execute(query)
    conn.commit()

### **REQ#07: Questões**

#### **Questão 1: Quantos participantes tem o banco de dados?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT COUNT ("NU_INSCRICAO") AS total_participantes
    FROM projeto_enem.participante;
    '''
    cursor.execute(query)

    q1_data = cursor.fetchall()
    q1_columns = [desc[0] for desc in cursor.description]
    q1_df = pd.DataFrame(q1_data, columns=q1_columns)

q1_df

#### **Questão 2: Quantas pessoas têm renda familiar mínima? (renda até R$ 1.212,00)**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT "Q006" AS renda_minima, COUNT("NU_INSCRICAO") AS total_participantes
    FROM projeto_enem.participante
    WHERE "Q006" = 'B'
    GROUP BY "Q006";
    '''
    cursor.execute(query)

    q2_data = cursor.fetchall()
    q2_columns = [desc[0] for desc in cursor.description]
    q2_df = pd.DataFrame(q2_data, columns=q2_columns)

q2_df

#### **Questão 3: Quantas pessoas têm uma renda familiar acima da máxima do questionário? (renda acima de R$ 24.240,00)**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT "Q006" AS renda_minima, COUNT("NU_INSCRICAO") AS total_participantes
    FROM projeto_enem.participante
    WHERE "Q006" = 'Q'
    GROUP BY "Q006";
    '''
    cursor.execute(query)

    q3_data = cursor.fetchall()
    q3_columns = [desc[0] for desc in cursor.description]
    q3_df = pd.DataFrame(q3_data, columns=q3_columns)

q3_df

#### **Questão 4: Mostre a proporção das notas dos estudantes por classe social segundo a renda familiar (A,B,C,D,E)**

- Classe A: renda mensal domiciliar superior a R$ 22 mil
- Classe B: renda mensal domiciliar entre R$ 7,1 mil e R$ 22 mil
- Classe C: renda mensal domiciliar entre R$ 2,9 mil e R$ 7,1 mil
- Classes D/E: renda mensal domiciliar até R$ 2,9 mil

In [None]:
# number of participants per each response type for monthly family income
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT "Q006" AS renda_minima, COUNT("NU_INSCRICAO") AS total_participantes
    FROM projeto_enem.participante
    GROUP BY "Q006";
    '''
    cursor.execute(query)

    test_data = cursor.fetchall()
    test_columns = [desc[0] for desc in cursor.description]
    test_df = pd.DataFrame(test_data, columns=test_columns)

test_df

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT
    (SUM(subquery.cont1) * 100 / SUM(subquery.cont_total))::integer AS classe_social_A,
    (SUM(subquery.cont2) * 100 / SUM(subquery.cont_total))::integer AS classe_social_B,
    (SUM(subquery.cont3) * 100 / SUM(subquery.cont_total))::integer AS classe_social_C,
    (SUM(subquery.cont4) * 100 / SUM(subquery.cont_total))::integer AS classe_social_D_E
    FROM (
        SELECT
            COUNT("NU_INSCRICAO") AS cont_total,
            SUM(CASE WHEN "Q006" IN ('Q') THEN 1 ELSE 0 END) AS cont1,
            SUM(CASE WHEN "Q006" IN ('J', 'K', 'L', 'M', 'N', 'O', 'P') THEN 1 ELSE 0 END) AS cont2,
            SUM(CASE WHEN "Q006" IN ('F', 'G', 'H', 'I') THEN 1 ELSE 0 END) AS cont3,
            SUM(CASE WHEN "Q006" IN ('A', 'B', 'C', 'D', 'E') THEN 1 ELSE 0 END) AS cont4
        FROM projeto_enem.participante
    ) AS subquery;
    '''
    cursor.execute(query)
    q4_data = cursor.fetchall()
    q4_columns = [desc[0] for desc in cursor.description]
    q4_df = pd.DataFrame(q4_data, columns=q4_columns)

q4_df

#### **Questão 5: Quantas redações foram zeradas e anuladas?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT COUNT("NU_NOTA_REDACAO") AS redacoes_zeradas_anuladas
    FROM projeto_enem.notas
    WHERE "NU_NOTA_REDACAO" IS NULL OR "NU_NOTA_REDACAO" = 0;
    '''
    cursor.execute(query)

    q7_data = cursor.fetchall()
    q7_columns = [desc[0] for desc in cursor.description]
    q7_df = pd.DataFrame(q7_data, columns=q7_columns)

q7_df

#### **Questão 6: Qual a porcentagem das pessoas que participaram do questionário habito de estudo?**

In [13]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT 100 * subquery.not_null / subquery.all AS porcentagem_participacao
    FROM (
        SELECT
            GREATEST(
                COUNT("Q001"), COUNT("Q002"), COUNT("Q003"), COUNT("Q004"), COUNT("Q005"), COUNT("Q006"), COUNT("Q007"), COUNT("Q008"), COUNT("Q009"), COUNT("Q010"), COUNT("Q011"), COUNT("Q012"), COUNT("Q013"), COUNT("Q014"), COUNT("Q015"), COUNT("Q016"), COUNT("Q017"), COUNT("Q018"), COUNT("Q019"), COUNT("Q020"), COUNT("Q021"), COUNT("Q022"), COUNT("Q023"), COUNT("Q024"), COUNT("Q025A"), COUNT("Q025B"), COUNT("Q025C"), COUNT("Q025D"), COUNT("Q025E"), COUNT("Q025F"), COUNT("Q026A"), COUNT("Q026B"), COUNT("Q026C"), COUNT("Q026D"), COUNT("Q026E"), COUNT("Q026F"), COUNT("Q026G"), COUNT("Q026H"), COUNT("Q027"), COUNT("Q028A"), COUNT("Q028B"), COUNT("Q028C"), COUNT("Q028D"), COUNT("Q028E"), COUNT("Q028F"), COUNT("Q028G"), COUNT("Q028H"), COUNT("Q028I"), COUNT("Q028J"), COUNT("Q028K"), COUNT("Q028L"), COUNT("Q028M"), COUNT("Q028N"), COUNT("Q028O"), COUNT("Q028P"), COUNT("Q028Q"), COUNT("Q028R"), COUNT("Q029"), COUNT("Q030A"), COUNT("Q030B"), COUNT("Q030C"), COUNT("Q030D"), COUNT("Q030E"), COUNT("Q030F"), COUNT("Q030G"), COUNT("Q031"), COUNT("Q032A"), COUNT("Q032B"), COUNT("Q032C"), COUNT("Q032D"), COUNT("Q032E"), COUNT("Q032F"), COUNT("Q032G"), COUNT("Q033A"), COUNT("Q033B"), COUNT("Q033C"), COUNT("Q033D"), COUNT("Q033E"), COUNT("Q033F"), COUNT("Q033G"), COUNT("Q033H"), COUNT("Q033I"), COUNT("Q033J"), COUNT("Q034")
            ) as not_null,
            COUNT(*) AS all
        FROM projeto_enem.hab_estudo
    ) AS subquery;
    '''
    cursor.execute(query)

    q6_data = cursor.fetchall()
    q6_columns = [desc[0] for desc in cursor.description]
    q6_df = pd.DataFrame(q6_data, columns=q6_columns)

q6_df

Unnamed: 0,porcentagem_participacao
0,33


#### **Questão 7: Qual o meio de acesso remoto foi mais utilizado pelo estudantes para estudar ou para manter-se informados?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT 
        COUNT(CASE WHEN "Q026A" = 'A' THEN 1 END) AS audioaula_podcast_avulso,
        COUNT(CASE WHEN "Q026B" = 'A' THEN 1 END) AS audioaula_podcast_pt_ensino,
        COUNT(CASE WHEN "Q026C" = 'A' THEN 1 END) AS rede_social,
        COUNT(CASE WHEN "Q026D" = 'A' THEN 1 END) AS livros_apostilas,
        COUNT(CASE WHEN "Q026E" = 'A' THEN 1 END) AS programa_radio,
        COUNT(CASE WHEN "Q026F" = 'A' THEN 1 END) AS programa_tv,
        COUNT(CASE WHEN "Q026G" = 'A' THEN 1 END) AS videoaula_avulso,
        COUNT(CASE WHEN "Q026H" = 'A' THEN 1 END) AS videoaula_pt_ensino,
        GREATEST(
            COUNT(CASE WHEN "Q026A" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026B" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026C" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026D" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026E" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026F" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026G" = 'A' THEN 1 END),
            COUNT(CASE WHEN "Q026H" = 'A' THEN 1 END)
        ) AS meio_mais_utilizado
    FROM projeto_enem.hab_estudo;
    '''
    cursor.execute(query)

    q7_data = cursor.fetchall()
    q7_columns = [desc[0] for desc in cursor.description]
    q7_df = pd.DataFrame(q7_data, columns=q7_columns)

q7_df

#### **Questão 8: Quais as 5 principais dificuldades de infraestrutura que os estudantes tiveram para estudar ou manter-se informado(a)?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT dificuldades_infraestrutura, COUNT(*) AS total_participantes
    FROM (
        SELECT 
            CASE 
                WHEN "Q030A" = 'A' THEN 'Falta de equipamento ou muito compartilhado'
                WHEN "Q030B" = 'A' THEN 'Conexão ruim ou limitada'
                WHEN "Q030C" = 'A' THEN 'Computador com configuração insuficiente'
                WHEN "Q030D" = 'A' THEN 'Material pedagogico insuficiente'
                WHEN "Q030E" = 'A' THEN 'Local de estudo faltando iluminação, higiene, ventilação e silêncio'
                WHEN "Q030F" = 'A' THEN 'Local de estudo sem mobília para guardar'
                WHEN "Q030G" = 'A' THEN 'Recursos insuficientes para alimentação'
                ELSE 'None'
            END AS dificuldades_infraestrutura
        FROM projeto_enem.hab_estudo
    ) AS subquery
    WHERE dificuldades_infraestrutura != 'None'
    GROUP BY dificuldades_infraestrutura
    ORDER BY COUNT(*) DESC
    LIMIT 5;
    '''
    cursor.execute(query)

    q8_data = cursor.fetchall()
    q8_columns = [desc[0] for desc in cursor.description]
    q8_df = pd.DataFrame(q8_data, columns=q8_columns)

q8_df

#### **Questão 9: Quais as 3 atividades de estudo para preparar-se para o Enem, em relação a gestão de tempo, que os alunos menos realizaram?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT gestao_tempo, COUNT(*) AS total_participantes
    FROM (
        SELECT 
            CASE 
                WHEN "Q005" = 'A' THEN 'Organizei cronogramas de estudos de acordo com o tempo'
                WHEN "Q006" = 'A' THEN 'Reservei tempos de estudo de acordo com a dificuldade'
                WHEN "Q007" = 'A' THEN 'Organizei material para ser estudado'
                WHEN "Q008" = 'A' THEN 'Me dediquei aos horarios programados'
                WHEN "Q021" = 'A' THEN 'Não me atrasei para entrar na aula'
                WHEN "Q022" = 'A' THEN 'Assisti as aulas nas datas programadas'
                ELSE 'None'
            END AS gestao_tempo
        FROM projeto_enem.hab_estudo
    ) AS subquery
    WHERE gestao_tempo != 'None'
    GROUP BY gestao_tempo
    ORDER BY COUNT(*) DESC
    LIMIT 3;
    '''
    cursor.execute(query)

    q9_data = cursor.fetchall()
    q9_columns = [desc[0] for desc in cursor.description]
    q9_df = pd.DataFrame(q9_data, columns=q9_columns)

q9_df

#### **Questão 10: Qual a quantidade de vezes que um estudante realizou  cada atividade de estudo para preparar-se para o Enem, em relação práticas de estudos e pesquisa?**

In [None]:
with db_connection() as conn, conn.cursor() as cursor:
    query = '''
    SELECT
        COUNT(CASE WHEN "Q009" = 'A' THEN 1 END) AS count_A_Q009,
        COUNT(CASE WHEN "Q009" = 'B' THEN 1 END) AS count_B_Q009,
        COUNT(CASE WHEN "Q009" = 'C' THEN 1 END) AS count_C_Q009,
        COUNT(CASE WHEN "Q009" = 'D' THEN 1 END) AS count_D_Q009,

        COUNT(CASE WHEN "Q010" = 'A' THEN 1 END) AS count_A_Q010,
        COUNT(CASE WHEN "Q010" = 'B' THEN 1 END) AS count_B_Q010,
        COUNT(CASE WHEN "Q010" = 'C' THEN 1 END) AS count_C_Q010,
        COUNT(CASE WHEN "Q010" = 'D' THEN 1 END) AS count_D_Q010,

        COUNT(CASE WHEN "Q011" = 'A' THEN 1 END) AS count_A_Q011,
        COUNT(CASE WHEN "Q011" = 'B' THEN 1 END) AS count_B_Q011,
        COUNT(CASE WHEN "Q011" = 'C' THEN 1 END) AS count_C_Q011,
        COUNT(CASE WHEN "Q011" = 'D' THEN 1 END) AS count_D_Q011,

        COUNT(CASE WHEN "Q012" = 'A' THEN 1 END) AS count_A_Q012,
        COUNT(CASE WHEN "Q012" = 'B' THEN 1 END) AS count_B_Q012,
        COUNT(CASE WHEN "Q012" = 'C' THEN 1 END) AS count_C_Q012,
        COUNT(CASE WHEN "Q012" = 'D' THEN 1 END) AS count_D_Q012,

        COUNT(CASE WHEN "Q013" = 'A' THEN 1 END) AS count_A_Q013,
        COUNT(CASE WHEN "Q013" = 'B' THEN 1 END) AS count_B_Q013,
        COUNT(CASE WHEN "Q013" = 'C' THEN 1 END) AS count_C_Q013,
        COUNT(CASE WHEN "Q013" = 'D' THEN 1 END) AS count_D_Q013,

        COUNT(CASE WHEN "Q014" = 'A' THEN 1 END) AS count_A_Q014,
        COUNT(CASE WHEN "Q014" = 'B' THEN 1 END) AS count_B_Q014,
        COUNT(CASE WHEN "Q014" = 'C' THEN 1 END) AS count_C_Q014,
        COUNT(CASE WHEN "Q014" = 'D' THEN 1 END) AS count_D_Q014,

        COUNT(CASE WHEN "Q015" = 'A' THEN 1 END) AS count_A_Q015,
        COUNT(CASE WHEN "Q015" = 'B' THEN 1 END) AS count_B_Q015,
        COUNT(CASE WHEN "Q015" = 'C' THEN 1 END) AS count_C_Q015,
        COUNT(CASE WHEN "Q015" = 'D' THEN 1 END) AS count_D_Q015,

        COUNT(CASE WHEN "Q016" = 'A' THEN 1 END) AS count_A_Q016,
        COUNT(CASE WHEN "Q016" = 'B' THEN 1 END) AS count_B_Q016,
        COUNT(CASE WHEN "Q016" = 'C' THEN 1 END) AS count_C_Q016,
        COUNT(CASE WHEN "Q016" = 'D' THEN 1 END) AS count_D_Q016,

        COUNT(CASE WHEN "Q017" = 'A' THEN 1 END) AS count_A_Q017,
        COUNT(CASE WHEN "Q017" = 'B' THEN 1 END) AS count_B_Q017,
        COUNT(CASE WHEN "Q017" = 'C' THEN 1 END) AS count_C_Q017,
        COUNT(CASE WHEN "Q017" = 'D' THEN 1 END) AS count_D_Q017,

        COUNT(CASE WHEN "Q018" = 'A' THEN 1 END) AS count_A_Q018,
        COUNT(CASE WHEN "Q018" = 'B' THEN 1 END) AS count_B_Q018,
        COUNT(CASE WHEN "Q018" = 'C' THEN 1 END) AS count_C_Q018,
        COUNT(CASE WHEN "Q018" = 'D' THEN 1 END) AS count_D_Q018,

        COUNT(CASE WHEN "Q019" = 'A' THEN 1 END) AS count_A_Q019,
        COUNT(CASE WHEN "Q019" = 'B' THEN 1 END) AS count_B_Q019,
        COUNT(CASE WHEN "Q019" = 'C' THEN 1 END) AS count_C_Q019,
        COUNT(CASE WHEN "Q019" = 'D' THEN 1 END) AS count_D_Q019,

        COUNT(CASE WHEN "Q020" = 'A' THEN 1 END) AS count_A_Q020,
        COUNT(CASE WHEN "Q020" = 'B' THEN 1 END) AS count_B_Q020,
        COUNT(CASE WHEN "Q020" = 'C' THEN 1 END) AS count_C_Q020,
        COUNT(CASE WHEN "Q020" = 'D' THEN 1 END) AS count_D_Q020,

        COUNT(CASE WHEN "Q023" = 'A' THEN 1 END) AS count_A_Q023,
        COUNT(CASE WHEN "Q023" = 'B' THEN 1 END) AS count_B_Q023,
        COUNT(CASE WHEN "Q023" = 'C' THEN 1 END) AS count_C_Q023,
        COUNT(CASE WHEN "Q023" = 'D' THEN 1 END) AS count_D_Q023,

        COUNT(CASE WHEN "Q024" = 'A' THEN 1 END) AS count_A_Q024,
        COUNT(CASE WHEN "Q024" = 'B' THEN 1 END) AS count_B_Q024,
        COUNT(CASE WHEN "Q024" = 'C' THEN 1 END) AS count_C_Q024,
        COUNT(CASE WHEN "Q024" = 'D' THEN 1 END) AS count_D_Q024

    FROM projeto_enem.hab_estudo;
    '''
    cursor.execute(query)

    q10_data = cursor.fetchall()
    q10_columns = [desc[0] for desc in cursor.description]
    q10_df = pd.DataFrame(q10_data, columns=q10_columns)

q10_df