In [None]:
###########
# IMPORTS #
###########

!pip install openai
!pip install transformers
!pip install datasets
!pip install torchinfo

from google.colab import drive
from sklearn.metrics import f1_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
from transformers import pipeline
from torchinfo import summary
from tqdm import tqdm
#from urllib.parse import urlparse

import json
import math
import matplotlib.pyplot as plt
import numpy as np
import openai
import os
import pandas as pd
import random
import re
import seaborn as sn
import time
import torch
import xml.etree.ElementTree as ET

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
 from google.colab import drive
 drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


In [None]:
#######
# GPU #
#######

# ! pip install accelerate
# from accelerate import Accelerator

# # use_fp16 = True
# use_fp16 = False

# if torch.cuda.is_available(): 
#     dev = "cuda:0"
#     accelerator = Accelerator(mixed_precision='fp16') if use_fp16 else Accelerator(mixed_precision='no')
# else:
#     dev = "cpu"
#     accelerator = Accelerator(mixed_precision='no')

# device = accelerator.device
# print('Using {}'.format(device))

In [None]:
###################
# SAVE/LOAD MODEL #
###################

# drive.mount('/content/drive')

# def save_model(path, model, step):
#     if os.path.exists(path):
#         save_model_path = path
#         torch.save({'step': step,
#                     'model_state_dict': model.cpu().state_dict()
#         }, save_model_path)

# def load_model(path, model):
#     if os.path.exists(path):
#         checkpoint = torch.load(path)
#         model.load_state_dict(checkpoint['model_state_dict'])

#     return model.to(device)

In [None]:
################
# DATA CLASSES #
################

class ENEM_CLASS():
    def __init__(self, link):

        file_name = !basename {link}

        if not os.path.exists("/content/" + file_name[0]):
            ! wget -q -O {file_name[0]} {link}
            ! unzip -qq -o {file_name[0]}

        self.enem_version = []
        self.questions = []
        self.headers = []
        self.statements = []
        self.answers = []

        for filename in sorted(os.listdir('/content')):
            if filename.endswith(".xml"):

                # print(filename)
                # self.tree = ET.parse('2009-1.xml')

                tree = ET.parse(filename)
                root = tree.getroot()

                for question, header, statement, answers in zip(root.iter('question'),
                                                                root.iter('header'),
                                                                root.iter('statement'),
                                                                root.iter('answers')):
                    
                    # Based on the question dict, choose which questions will go into the data :
                    # {'CE': 'No', 'DS': 'No', 'EK': 'Yes', 'IC': 'No', 'MR': 'No', 'TC': 'Yes', 'id': '90', 'image': 'No'}
                    #if question.attrib['image'] == 'No': # or (question[''] == 'YES') ???
                    if question.attrib['IC'] == 'No' and  question.attrib['CE'] == 'No' and question.attrib['MR'] == 'No': 
                    #if True:

                        self.enem_version.append(os.path.splitext(filename)[0])

                        # Pergunta de imagens tem headers e alternativas vazias? - if acima exclui essas questões!
                        # header_text = re.sub(r'\n', '', header.text) if header.text else ""
                        # statement_text = re.sub(r'\n', '', statement.text) if statement.text else ""
                        # option_text = re.sub(r'\n', '', option.text) if option.text else ""

                        # Tirar \n no meio do texto
                        header_text = re.sub(r'\n', '', header.text)
                        statement_text = re.sub(r'\n', '', statement.text)

                        # Tirar espaços extras do início, fim e do meio ♫
                        header_text = re.sub(r"^\s+|\s+$", '', header_text)
                        header_text = re.sub(r"[\ ]{2}", ' ', header_text)

                        statement_text = re.sub(r"^\s+|\s+$", '', statement_text)
                        statement_text = re.sub(r"[\ ]{2}", ' ', statement_text)

                        self.questions.append(question.attrib)
                        self.headers.append(header_text)
                        self.statements.append(statement_text)

                        options = []
                        options_text = []

                        for option in list(answers):#answers.getchildren():

                            options.append(option.attrib)

                            # Tirar \n no meio do texto
                            option_text = re.sub(r'\n', '', option.text)

                            # Tirar espaços extras do início, fim e do meio ♫
                            option_text = re.sub(r"^\s+|\s+$", '', option_text)
                            option_text = re.sub(r"[\ ]{2}", ' ', option_text)

                            options_text.append(option_text)

                        self.answers.append((options, options_text))

    def __getitem__(self, idx):
        return self.enem_version[idx], self.questions[idx], self.headers[idx], self.statements[idx], self.answers[idx]

    def __len__(self):
        return len(self.questions)

    def print_question(self, idx):
        
        header = "Questão " + str(idx)
        print()
        print("#" * (len(header)+4))
        print(f'# {header} #')
        print("#" * (len(header)+4))
        print()

        print(f'Ano/Versão: {self.enem_version[idx]}\n')
        print(f'Cabeçalho:\n{self.headers[idx]}\n')
        print(f'Enunciado:\n{self.statements[idx]}\n')
        print(f'Alternativas:')

        for alternative, answer in zip(self.answers[idx][0], self.answers[idx][1]):
            if (alternative['correct'] == 'No'):
                print(f" {alternative['id']}  - {answer}")
            else:
                print(f"[{alternative['id']}] - {answer}")

    def print_all_questions(self):
        for idx in range(len(self)):
            self.print_question(idx)
            print()

    def get_right_alternative(self, idx):
        for alternative, answer in zip(self.answers[idx][0], self.answers[idx][1]):
            if (alternative['correct'] == 'Yes'):
                return alternative['id'], answer
    
    def get_answers(self, idx):
        return list(zip(*ENEM.answers))[1][idx]

class ENEM_data_CLASS(torch.utils.data.Dataset):
    def __init__(self, ENEM, tokenizer, max_length):
        super(ENEM_data_CLASS, self).__init__()

        self.ENEM = ENEM
        self.tokenizer = tokenizer
        self.max_length = max_length

        self.headers_tokenized = tokenizer(self.ENEM.headers, max_length = self.max_length, padding = True, truncation = True)
        self.statements_tokenized = tokenizer(self.ENEM.statements, max_length = self.max_length, padding = True, truncation = True)
        
        self.headers_ids = self.headers_tokenized['input_ids']
        self.headers_masks = self.headers_tokenized['attention_mask']

        self.statements_ids = self.statements_tokenized['input_ids']
        self.statements_masks = self.statements_tokenized['attention_mask']

        self.answers = []
        for idx in range(len(self.ENEM.answers)):
            options_text = list(zip(*ENEM.answers))[1][idx]
            options_tokenized = tokenizer(options_text, max_length = max_length, padding = True, truncation = True)

            options_ids = options_tokenized['input_ids']
            options_masks = options_tokenized['attention_mask']

            self.answers.append((options_ids, options_masks))

    def __len__(self):
        return len(self.ENEM)

    def __getitem__(self, idx):
        return (self.headers_ids[idx],self.headers_masks[idx]), (self.statements_ids[idx], self.statements_masks[idx]), (self.answers[idx][0], self.answers[idx][1])

In [None]:
########
# ENEM #
########

link = "https://www.ime.usp.br/~ddm/project/enem/ENEMdataset.zip"

ENEM = ENEM_CLASS(link)

print("Total number of questions: " + str(len(ENEM)))
print(ENEM.__getitem__(89))
ENEM.print_question(62)

ENEM.print_question(45)

print()
print(ENEM.get_right_alternative(89))
print()

#ENEM.print_all_questions()

ENEM.__getitem__(89)[4]

print(f'Amount of questions in model: {len(ENEM)}')

Total number of questions: 916
('2010-1', {'CE': 'No', 'DS': 'No', 'EK': 'Yes', 'IC': 'No', 'MR': 'No', 'TC': 'Yes', 'id': '03', 'image': 'No'}, 'Antes, eram apenas as grandes cidades que se apresentavam como o império da técnica, objeto de modificações, suspensões, acréscimos, cada vez mais sofisticadas e carregadas de artifício. Esse mundo artificial inclui, hoje, o mundo rural. SANTOS, M. A Natureza do Espaço. São Paulo: Hucitec, 1996.', 'Considerando a transformação mencionada no texto, uma consequência socioespacial que caracteriza o atual mundo rural brasileiro é', ([{'correct': 'No', 'id': 'A'}, {'correct': 'Yes', 'id': 'B'}, {'correct': 'No', 'id': 'C'}, {'correct': 'No', 'id': 'D'}, {'correct': 'No', 'id': 'E'}], ['a redução do processo de concentração de terras.', 'o aumento do aproveitamento de solos menos férteis.', 'a ampliação do isolamento do espaço rural.', 'a estagnação da fronteira agrícola do país.', 'a diminuição do nível de emprego formal.']))

##############
# Que

In [None]:
#########
# MODEL #
#########

model = AutoModelForPreTraining.from_pretrained('neuralmind/bert-base-portuguese-cased')
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)

In [None]:
#############
# ENEM_DATA #
#############

max_length = 512
batch_size = 32

ENEM_data = ENEM_data_CLASS(ENEM, tokenizer, max_length)

ENEM_data.answers

ENEM_dataloader = torch.utils.data.DataLoader(ENEM_data, batch_size=batch_size, drop_last = True, shuffle = True)

In [None]:
print(ENEM.print_question(89))

print(ENEM_data.__getitem__(89))

print()

print(tokenizer.decode([101,   123,  1803,   125,  6688,  1495,   117,   221,   179,   146,
            2270,   366,  5341,   298,  5620,  1547,  9573,   117,  5084,   229,
            1241,   984,   117,   834, 10144,   159,   259, 14642, 11335,   119,
             102]))


##############
# Questão 89 #
##############

Ano/Versão: 2010-1

Cabeçalho:
Antes, eram apenas as grandes cidades que se apresentavam como o império da técnica, objeto de modificações, suspensões, acréscimos, cada vez mais sofisticadas e carregadas de artifício. Esse mundo artificial inclui, hoje, o mundo rural. SANTOS, M. A Natureza do Espaço. São Paulo: Hucitec, 1996.

Enunciado:
Considerando a transformação mencionada no texto, uma consequência socioespacial que caracteriza o atual mundo rural brasileiro é

Alternativas:
 A  - a redução do processo de concentração de terras.
[B] - o aumento do aproveitamento de solos menos férteis.
 C  - a ampliação do isolamento do espaço rural.
 D  - a estagnação da fronteira agrícola do país.
 E  - a diminuição do nível de emprego formal.
None
(([101, 4225, 117, 1085, 820, 260, 1491, 2221, 179, 176, 20254, 271, 146, 6653, 180, 4204, 117, 4947, 125, 12188, 117, 20083, 270, 117, 21288, 793, 117, 1078, 576, 325, 14867, 401, 122, 17754, 591, 125, 7

In [None]:
######################
# OPENAI MODEL SETUP #
######################

# BACKUP - PLAIN 0-SHOT

class OPENAI_CLASS():
    def __init__(self, api_key, model, ENEM):

        self.ENEM = ENEM

        self.model = model

        self.openai = openai
        self.openai.api_key = api_key

    def get_alternatives_positions(self, text):

        alternatives = []

        # print(text)

        for i in range(len(text)-1):

            if ( re.findall("\n{1}", text[i-1]) and
                 re.findall("^[ABCDE]{1}", text[i]) and
                 re.findall("\.{1}", text[i+1]) ):

                j = i

                # print(f'len(text) = {len(text)} | i = {i} | text[i-1]: {repr(text[i-1])} | text[i]: {text[i]} | text[i+1]: {text[i+1]}')

                while text[j] != "\n" and text[j] != '<|endoftext|>':
                    j += 1

                alternatives.append( {'start': i, 'end': j} )

        return alternatives

    def prepare_prompts(self, question):

        alternatives = self.get_alternatives_positions(question)

        text_to_prompt = []

        for alt in alternatives:
            # davinci-003 não fecha string
            text_to_prompt.append(question + question[alt['start']:alt['end']] + '\n') # + '\n\n')

        return text_to_prompt

    def evaluate_responses(self, responses):

        alternatives_evaluation = []

        for response in responses:

            tokens = response["choices"][0]["logprobs"]['tokens']
            logprobs = response["choices"][0]["logprobs"]['token_logprobs']

            alternatives = self.get_alternatives_positions(tokens)

            alternatives_logprobs = []

            for alt in alternatives:

                start = alt['start']
                end = alt['end']

                alt_logprobs = list(map(float, logprobs[start:end]))
                alt_n_toks = end - start
                prob = math.exp( (math.fsum(alt_logprobs) / alt_n_toks) )

                alternatives_logprobs.append( {'alternative': tokens[alt['start']],
                                              'text':''.join(tokens[alt['start']:alt['end']]),
                                              'prob': prob,
                                              'temp_sum': math.fsum(alt_logprobs),
                                              'temp_alt_n_toks': alt_n_toks} )

            alternatives_evaluation.append(alternatives_logprobs[-1])

        model_right_answer = max(alternatives_evaluation, key=lambda x:x['prob'])

        return model_right_answer, alternatives_evaluation

    def parse_question(self, idx):

        instruction = "Responda a seguinte pergunta de multipla escolha:"
        
        base_string = self.ENEM.headers[idx] + '\n\n' + self.ENEM.statements[idx] + '\n\n'

        for alternative, answer in zip(self.ENEM.answers[idx][0], self.ENEM.answers[idx][1]):
            base_string += alternative['id'] + ". " + answer + "\n"

        prompt_string = instruction + "\n\n" +  base_string + "\n" + "Alternativa Correta:\n"

        return prompt_string

    def prompt_openai(self, question):

        prompts = self.prepare_prompts(question)

        print(f'prompt_openai: {prompts}')

        responses = []

        for text in tqdm(prompts):
            response = openai.Completion.create(
                model=model,
                prompt=text,
                temperature=0,
                max_tokens=1,# TODO: 512? 2048? context?
                top_p=1,
                frequency_penalty=0,
                presence_penalty=0,
                echo=True,
                logprobs=5
            )

            responses.append(response)

        model_right_answer, alternatives_evaluation = self.evaluate_responses(responses)

        return model_right_answer['alternative'], model_right_answer['text'], alternatives_evaluation

    def ask_ENEM_question(self, idx):

        parsed_question = self.parse_question(idx)

        alternative, text, alternatives_evaluation = self.prompt_openai(parsed_question)

        return alternative, text, alternatives_evaluation, parsed_question

In [None]:
######################
# OPENAI MODEL SETUP #
######################

# RAWHIDE - CoT and 0-shot

class OPENAI_CLASS():
    def __init__(self, api_key, model, ENEM):

        self.ENEM = ENEM

        self.model = model

        self.openai = openai
        self.openai.api_key = api_key

    def get_alternatives_positions(self, text):

        # last_question_post only used on evaluate_responses()

        ######################
        # FIND LAST QUESTION #
        ######################

        # print(f'get_alternative_positions: {type(text)}')

        shots = []

        for i in range(len(text)):

            if (type(text) == list):
                question = ''.join(text[i:i+19])
            elif (type(text) == str):
                question = ''.join(text[i:i+51])

            res = re.search(r'(Responda a seguinte pergunta de multipla escolha:\n\n)', question)

            if (res != None):
                shots.append(i)

        # print(f'shots: {shots}')

        # print("#############################################")
        # print(text)
        # print(shots)
        # print("#############################################")

        last_question = text[shots[-1]:]

        #print()
        #print(shots[-1])
        #print(last_question)
        #print(text)

        # print(last_question)
        # print()

        ###########################################
        # FIND TOKENS POSITIONS FROM ALTERNATIVES #
        ###########################################

        alternatives = []

        for i in range(len(last_question)-1):

            if ( re.findall("\n{1}", last_question[i-1]) and
                 re.findall("^[ABCDE]{1}", last_question[i]) and
                 re.findall("\.{1}", last_question[i+1]) ):

                j = i

                # print(f'len(text) = {len(text)} | i = {i} | text[i-1]: {repr(text[i-1])} | text[i]: {text[i]} | text[i+1]: {text[i+1]}')

                while last_question[j] != "\n" and last_question[j] != '<|endoftext|>':
                    j += 1

                alternatives.append( { 'start': (i + shots[-1]), 'end': (j + shots[-1]) } )

        # for alt in alternatives:

        #     start = alt['start']
        #     end = alt['end']
            
        #     print(text[start:end])
            
        # print(desnes2)

        # Beginning of last question on text, alternative positions from reference of last question
        return shots[-1], alternatives

    def evaluate_responses(self, last_question_pos, responses):

        # print("evaluate_responses")

        alternatives_evaluation = []

        for response in responses:

            tokens = response["choices"][0]["logprobs"]['tokens']
            logprobs = response["choices"][0]["logprobs"]['token_logprobs']

            last_question_pos, alternatives = self.get_alternatives_positions(tokens)

            alternatives_logprobs = []

            for alt in alternatives:

                start = alt['start']
                end = alt['end']

                alt_logprobs = list(map(float, logprobs[start:end]))
                alt_n_toks = end - start
                prob = math.exp( (math.fsum(alt_logprobs) / alt_n_toks) )

                alternatives_logprobs.append( {'alternative': tokens[alt['start']],
                                              'text':''.join(tokens[alt['start']:alt['end']]),
                                              'prob': prob,
                                              'temp_sum': math.fsum(alt_logprobs),
                                              'temp_alt_n_toks': alt_n_toks} )

            alternatives_evaluation.append(alternatives_logprobs[-1])

        model_right_answer = max(alternatives_evaluation, key=lambda x:x['prob'])

        return model_right_answer, alternatives_evaluation

    def prepare_prompts(self, question):

        # print(f'prepare_prompts')

        last_question_pos, alternatives = self.get_alternatives_positions(question)

        text_to_prompt = []

        for alt in alternatives:
            # davinci-003 não fecha string
            text_to_prompt.append(question + question[alt['start']:alt['end']] + '\n') # + '\n\n')
            # text_to_prompt.append(question + question[alt['start']:alt['end']] + '\n' + "\nExplicação do raciocínio: ") # + '\n\n')

        return last_question_pos, text_to_prompt

    def prompt_openai(self, question):

        last_question_pos, prompts = self.prepare_prompts(question)

        print(f'prompt_openai: {prompts}')

        responses = []

        # for text in prompts:
        for text in tqdm(prompts):
            response = self.openai.Completion.create(
                model=self.model,
                prompt=text,
                temperature=0,
                max_tokens=1,# TODO: 512? 2048? context?
                top_p=1,
                frequency_penalty=0,
                presence_penalty=0,
                echo=True,
                logprobs=5
            )

            # print(response)
            print("#=============================#")
            print(response["choices"][0]['text'])
            print("#=============================#")
            print()
            # time.sleep(60)

            responses.append(response)

        model_right_answer, alternatives_evaluation = self.evaluate_responses(last_question_pos, responses)

        return model_right_answer['alternative'], model_right_answer['text'], alternatives_evaluation

    def parse_question(self, idx, CoT = ""):

        instruction = "Responda a seguinte pergunta de multipla escolha:"
        
        base_string = self.ENEM.headers[idx] + '\n\n' + self.ENEM.statements[idx] + '\n\n'

        for alternative, answer in zip(self.ENEM.answers[idx][0], self.ENEM.answers[idx][1]):
            base_string += alternative['id'] + ". " + answer + "\n"

        # if (CoT):
        #     prompt_string = CoT + "\n\n" + instruction + "\n\n" +  base_string + "\n" + "Alternativa Correta:\n"
        # else:
        #     prompt_string = instruction + "\n\n" +  base_string + "\n" + "Alternativa Correta:\n"

        if (CoT):
            prompt_string = CoT + "\n\n" + instruction + "\n\n" +  base_string + "\n" + "Explicação do raciocínio: "
        else:
            prompt_string = instruction + "\n\n" +  base_string + "\n" + "Alternativa Correta:\n"

        return prompt_string

    def ask_ENEM_question(self, idx, CoT = ""):

        parsed_question = self.parse_question(idx, CoT)

        alternative, text, alternatives_evaluation = self.prompt_openai(parsed_question)

        return alternative, text, alternatives_evaluation, parsed_question

In [None]:
key = "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"

# model = "text-davinci-002"
model = "text-davinci-003"

OPENAI = OPENAI_CLASS(key, model, ENEM)

In [None]:
#######
# COT #
#######

# CoT = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nGênero dramático é aquele em que o artista usa como intermediária entre si e o público a representação. A palavra vem do grego drao (fazer) e quer dizer ação. A peça teatral é, pois, uma composição literária destinada à apresentação por atores em um palco, atuando e dialogando entre si. O texto dramático é complementado pela atuação dos atores no espetáculo teatral e possui uma estrutura específica, caracterizada: 1) pela presença de personagens que devem estar ligados com lógica uns aos outros e à ação; 2) pela ação dramática (trama, enredo), que é o conjunto de atos dramáticos, maneiras de ser e de agir das personagens encadeadas à unidade do efeito e segundo uma ordem composta de exposição, conflito, complicação, clímax e desfecho; 3) pela situação ou ambiente, que é o conjunto de circunstâncias físicas, sociais, espirituais em que se situa a ação; 4) pelo tema, ou seja, a ideia que o autor (dramaturgo) deseja expor, ou sua interpretação real por meio da representação. COUTINHO, A. Notas de teoria literária. Rio de Janeiro: Civilização Brasileira, 1973 (adaptado).\n\nConsiderando o texto e analisando os elementos que constituem um espetáculo teatral, conclui-se que:\n\nA. a criação do espetáculo teatral apresenta-se como um fenômeno de ordem individual, pois não é possível sua concepção de forma coletiva.\nB. o cenário onde se desenrola a ação cênica é concebido e construído pelo cenógrafo de modo autônomo e independente do tema da peça e do trabalho interpretativo dos atores.\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros.\nD. o corpo do ator na cena tem pouca importância na comunicação teatral, visto que o mais importante é a expressão verbal, base da comunicação cênica em toda a trajetória do teatro até os dias atuais.\nE. a iluminação e o som de um espetáculo cênico independem do processo de produção/recepção do espetáculo teatral, já que se trata de linguagens artísticas diferentes, agregadas posteriormente à cena teatral.\n\nExplicação do raciocínio: A conclusão proposta pela alternativa C não decorre necessariamente do texto transcrito, mas é a única que não o contraria – além de exprimir uma verdade. As demais alternativas apresentam os seguintes erros: A. nada no texto permite negar a possibilidade de criação teatral coletiva; B. e E. os diversos elementos que compõem o espetáculo teatral devem ser correlacionados, como dá a entender o texto, e não tratados de forma independente; D. nada no texto permite concluir pela desimportância do corpo do autor e pela predominância da expressão verbal. Portanto a alternativa correta é:\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros."
# CoT = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes."

CoT1 = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\n"

# Inverter alternativa e raciocinio
# CoT1 = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nAlternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral."

# CoT2 = "Responda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes."
# CoT3 = "Responda a seguinte pergunta de multipla escolha:\n\nGênero dramático é aquele em que o artista usa como intermediária entre si e o público a representação. A palavra vem do grego drao (fazer) e quer dizer ação. A peça teatral é, pois, uma composição literária destinada à apresentação por atores em um palco, atuando e dialogando entre si. O texto dramático é complementado pela atuação dos atores no espetáculo teatral e possui uma estrutura específica, caracterizada: 1) pela presença de personagens que devem estar ligados com lógica uns aos outros e à ação; 2) pela ação dramática (trama, enredo), que é o conjunto de atos dramáticos, maneiras de ser e de agir das personagens encadeadas à unidade do efeito e segundo uma ordem composta de exposição, conflito, complicação, clímax e desfecho; 3) pela situação ou ambiente, que é o conjunto de circunstâncias físicas, sociais, espirituais em que se situa a ação; 4) pelo tema, ou seja, a ideia que o autor (dramaturgo) deseja expor, ou sua interpretação real por meio da representação. COUTINHO, A. Notas de teoria literária. Rio de Janeiro: Civilização Brasileira, 1973 (adaptado).\n\nConsiderando o texto e analisando os elementos que constituem um espetáculo teatral, conclui-se que:\n\nA. a criação do espetáculo teatral apresenta-se como um fenômeno de ordem individual, pois não é possível sua concepção de forma coletiva.\nB. o cenário onde se desenrola a ação cênica é concebido e construído pelo cenógrafo de modo autônomo e independente do tema da peça e do trabalho interpretativo dos atores.\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros.\nD. o corpo do ator na cena tem pouca importância na comunicação teatral, visto que o mais importante é a expressão verbal, base da comunicação cênica em toda a trajetória do teatro até os dias atuais.\nE. a iluminação e o som de um espetáculo cênico independem do processo de produção/recepção do espetáculo teatral, já que se trata de linguagens artísticas diferentes, agregadas posteriormente à cena teatral.\n\nExplicação do raciocínio: A conclusão proposta pela alternativa C não decorre necessariamente do texto transcrito, mas é a única que não o contraria – além de exprimir uma verdade. As demais alternativas apresentam os seguintes erros: A. nada no texto permite negar a possibilidade de criação teatral coletiva; B. e E. os diversos elementos que compõem o espetáculo teatral devem ser correlacionados, como dá a entender o texto, e não tratados de forma independente; D. nada no texto permite concluir pela desimportância do corpo do autor e pela predominância da expressão verbal. Portanto a alternativa correta é:\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros."

start = time.time()

# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(11)
# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(11, CoT1 + '\n\n' + CoT2 + '\n\n' + CoT3)

alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(24, CoT1)
# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(11)

elapsed_time = time.time() - start

print("############################")
print("# PROMPT TO MODEL WITH COT #")
print("############################")
print()
print(parsed_question)

print()
print("#############")
print("# RESPOSTAS #")
print("#############")
print()
print(f'Resposta do modelo: {alternative}')
print(f'Resposta correta  : {ENEM.get_right_alternative(24)[0]}')

print()
print("#####################")
print("# TEMPO DE EXECUÇÃO #")
print("#####################")
print()

et = time.strftime("%H:%M:%S", time.gmtime(elapsed_time))
print(f"Elapsed time: {et}")

prompt_openai: ['Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organism

 20%|██        | 1/5 [00:01<00:04,  1.12s/it]

Responda a seguinte pergunta de multipla escolha:

Estima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).

Considerando o texto, Uma vacina eficiente contra o HIV deveria:

A. induzir a imunidade, para proteger o organismo da contaminação viral.
B. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.
C. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.
D. ser amplamen

 40%|████      | 2/5 [00:02<00:03,  1.06s/it]

Responda a seguinte pergunta de multipla escolha:

Estima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).

Considerando o texto, Uma vacina eficiente contra o HIV deveria:

A. induzir a imunidade, para proteger o organismo da contaminação viral.
B. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.
C. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.
D. ser amplamen

 60%|██████    | 3/5 [00:02<00:01,  1.16it/s]

Responda a seguinte pergunta de multipla escolha:

Estima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).

Considerando o texto, Uma vacina eficiente contra o HIV deveria:

A. induzir a imunidade, para proteger o organismo da contaminação viral.
B. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.
C. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.
D. ser amplamen

 80%|████████  | 4/5 [00:03<00:00,  1.29it/s]

Responda a seguinte pergunta de multipla escolha:

Estima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).

Considerando o texto, Uma vacina eficiente contra o HIV deveria:

A. induzir a imunidade, para proteger o organismo da contaminação viral.
B. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.
C. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.
D. ser amplamen

100%|██████████| 5/5 [00:04<00:00,  1.24it/s]

Responda a seguinte pergunta de multipla escolha:

Estima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).

Considerando o texto, Uma vacina eficiente contra o HIV deveria:

A. induzir a imunidade, para proteger o organismo da contaminação viral.
B. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.
C. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.
D. ser amplamen




In [None]:
a = 'Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nO ônibus espacial Atlantis foi lançado ao espaço com cinco astronautas a bordo e uma câmera nova, que iria substituir uma outra danificada por um curto-circuito no telescópio Hubble. Depois de entrarem em órbita a 560 km de altura, os astronautas se aproximaram do Hubble. Dois astronautas saíram da Atlantis e se dirigiram ao telescópio. Ao abrir a porta de acesso, um deles exclamou: “Esse telescópio tem a massa grande, mas o peso é pequeno.”\n\nConsiderando o texto e as leis de Kepler, pode-se afirmar que a frase dita pelo astronauta\n\nA. se justifica porque o tamanho do telescópio determina a sua massa, enquanto seu pequeno peso decorre da falta de ação da aceleração da gravidade.\nB. se justifica ao verificar que a inércia do telescópio é grande comparada à dele próprio, e que o peso do telescópio é pequeno porque a atração gravitacional criada por sua massa era pequena.\nC. não se justifica, porque a avaliação da massa e do peso de objetos em órbita tem por base as leis de Kepler, que não se aplicam a satélites artificiais.\nD. não se justifica, porque a força-peso é a força exercida pela gravidade terrestre, neste caso, sobre o telescópio e é a responsável por manter o próprio telescópio em órbita.\nE. não se justifica, pois a ação da força-peso implica a ação de uma força de reação contrária, que não existe naquele ambiente. A massa do telescópio poderia ser avaliada simplesmente pelo seu volume.\n\nExplicação do raciocínio:\nA. se justifica porque o tamanho do telescópio determina a sua massa, enquanto seu pequeno peso decorre da falta de ação da aceleração da gravidade.\n'

b = 'Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nO ônibus espacial Atlantis foi lançado ao espaço com cinco astronautas a bordo e uma câmera nova, que iria substituir uma outra danificada por um curto-circuito no telescópio Hubble. Depois de entrarem em órbita a 560 km de altura, os astronautas se aproximaram do Hubble. Dois astronautas saíram da Atlantis e se dirigiram ao telescópio. Ao abrir a porta de acesso, um deles exclamou: “Esse telescópio tem a massa grande, mas o peso é pequeno.”\n\nConsiderando o texto e as leis de Kepler, pode-se afirmar que a frase dita pelo astronauta\n\nA. se justifica porque o tamanho do telescópio determina a sua massa, enquanto seu pequeno peso decorre da falta de ação da aceleração da gravidade.\nB. se justifica ao verificar que a inércia do telescópio é grande comparada à dele próprio, e que o peso do telescópio é pequeno porque a atração gravitacional criada por sua massa era pequena.\nC. não se justifica, porque a avaliação da massa e do peso de objetos em órbita tem por base as leis de Kepler, que não se aplicam a satélites artificiais.\nD. não se justifica, porque a força-peso é a força exercida pela gravidade terrestre, neste caso, sobre o telescópio e é a responsável por manter o próprio telescópio em órbita.\nE. não se justifica, pois a ação da força-peso implica a ação de uma força de reação contrária, que não existe naquele ambiente. A massa do telescópio poderia ser avaliada simplesmente pelo seu volume.\n\nExplicação do raciocínio:\nB. se justifica ao verificar que a inércia do telescópio é grande comparada à dele próprio, e que o peso do telescópio é pequeno porque a atração gravitacional criada por sua massa era pequena.\n'

c = 'Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nExplicação do raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nCerca de 1% do lixo urbano é constituído por resíduos sólidos contendo elementos tóxicos. Entre esses elementos estão metais pesados como o cádmio, o chumbo e o mercúrio, componentes de pilhas e baterias, que são perigosos à saúde humana e ao meio ambiente. Quando descartadas em lixos comuns, pilhas e baterias vão para aterros sanitários ou lixões a céu aberto, e o vazamento de seus componentes contamina o solo, os rios e o lençol freático, atingindo a flora e a fauna. Por serem bioacumulativos e não biodegradáveis, esses metais chegam de forma acumulada aos seres humanos, por meio da cadeia alimentar. A legislação vigente (Resolução CONAMA no 257/1999) regulamenta o destino de pilhas e baterias após seu esgotamento energético e determina aos fabricantes e/ou importadores a quantidade máxima permitida desses metais em cada tipo de pilha/bateria, porém o problema ainda persiste. Disponível em: http://www.mma.gov.br. Acesso em: 11 jul. 2009 (adaptado).\n\nUma medida que poderia contribuir para acabar definitivamente com o problema da poluição ambiental por metais pesados relatado no texto seria\n\nA. deixar de consumir aparelhos elétricos que utilizem pilha ou bateria como fonte de energia.\nB. usar apenas pilhas ou baterias recarregáveis e de vida útil longa e evitar ingerir alimentos contaminados, especialmente peixes.\nC. devolver pilhas e baterias, após o esgotamento da energia armazenada, à rede de assistência técnica especializada para repasse a fabricantes e/ou importadores.\nD. criar nas cidades, especialmente naquelas com mais de 100 mil habitantes, pontos estratégicos de coleta de baterias e pilhas, para posterior repasse a fabricantes e/ou importadores.\nE. exigir que fabricantes invistam em pesquisa para a substituição desses metais tóxicos por substâncias menos nocivas ao homem e ao ambiente, e que não sejam bioacumulativas.\n\nExplicação do raciocínio:\nA. deixar de consumir aparelhos elétricos que utilizem pilha ou bateria como fonte de energia.\n'

d= 'Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nExplicação do raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nCerca de 1% do lixo urbano é constituído por resíduos sólidos contendo elementos tóxicos. Entre esses elementos estão metais pesados como o cádmio, o chumbo e o mercúrio, componentes de pilhas e baterias, que são perigosos à saúde humana e ao meio ambiente. Quando descartadas em lixos comuns, pilhas e baterias vão para aterros sanitários ou lixões a céu aberto, e o vazamento de seus componentes contamina o solo, os rios e o lençol freático, atingindo a flora e a fauna. Por serem bioacumulativos e não biodegradáveis, esses metais chegam de forma acumulada aos seres humanos, por meio da cadeia alimentar. A legislação vigente (Resolução CONAMA no 257/1999) regulamenta o destino de pilhas e baterias após seu esgotamento energético e determina aos fabricantes e/ou importadores a quantidade máxima permitida desses metais em cada tipo de pilha/bateria, porém o problema ainda persiste. Disponível em: http://www.mma.gov.br. Acesso em: 11 jul. 2009 (adaptado).\n\nUma medida que poderia contribuir para acabar definitivamente com o problema da poluição ambiental por metais pesados relatado no texto seria\n\nA. deixar de consumir aparelhos elétricos que utilizem pilha ou bateria como fonte de energia.\nB. usar apenas pilhas ou baterias recarregáveis e de vida útil longa e evitar ingerir alimentos contaminados, especialmente peixes.\nC. devolver pilhas e baterias, após o esgotamento da energia armazenada, à rede de assistência técnica especializada para repasse a fabricantes e/ou importadores.\nD. criar nas cidades, especialmente naquelas com mais de 100 mil habitantes, pontos estratégicos de coleta de baterias e pilhas, para posterior repasse a fabricantes e/ou importadores.\nE. exigir que fabricantes invistam em pesquisa para a substituição desses metais tóxicos por substâncias menos nocivas ao homem e ao ambiente, e que não sejam bioacumulativas.\n\nExplicação do raciocínio:\nA. deixar de consumir aparelhos elétricos que utilizem pilha ou bateria como fonte de energia.\n'
print(len(a))
print(len(b))
print(len(c))
print(len(d))

4316
4361
4704
3526


In [None]:
ENEM.print_question(11)


##############
# Questão 11 #
##############

Ano/Versão: 2009-1

Cabeçalho:
Cerca de 1% do lixo urbano é constituído por resíduos sólidos contendo elementos tóxicos. Entre esses elementos estão metais pesados como o cádmio, o chumbo e o mercúrio, componentes de pilhas e baterias, que são perigosos à saúde humana e ao meio ambiente. Quando descartadas em lixos comuns, pilhas e baterias vão para aterros sanitários ou lixões a céu aberto, e o vazamento de seus componentes contamina o solo, os rios e o lençol freático, atingindo a flora e a fauna. Por serem bioacumulativos e não biodegradáveis, esses metais chegam de forma acumulada aos seres humanos, por meio da cadeia alimentar. A legislação vigente (Resolução CONAMA no 257/1999) regulamenta o destino de pilhas e baterias após seu esgotamento energético e determina aos fabricantes e/ou importadores a quantidade máxima permitida desses metais em cada tipo de pilha/bateria, porém o problema ainda persiste. Disponível em: http://www.mma.g

In [None]:
########################
# DAVINCI OPENAI MODEL #
########################

# Poor key :-(
# key = "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"

# Master key B-)
key = "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"

# model = "text-davinci-002"
model = "text-davinci-003"

OPENAI = OPENAI_CLASS(key, model, ENEM)
# OPENAI = OPENAI_CoT(key, model, ENEM)

In [None]:
#@title Rascunho CoT
# ##########################
# # OPENAI CoT MODEL SETUP #
# ##########################

# class OPENAI_CoT():
#     def __init__(self, api_key, model, ENEM):

#         self.ENEM = ENEM

#         self.model = model

#         self.openai = openai
#         self.openai.api_key = api_key

#     def CoT_evaluate_responses(self, responses):

#         alternatives_evaluation = []

#         for response in responses:

#             tokens = response["choices"][0]["logprobs"]['tokens']
#             logprobs = response["choices"][0]["logprobs"]['token_logprobs']

#             last_question_init, alternatives = self.CoT_get_alternatives_positions(tokens)

#             alternatives_logprobs = []

#             for alt in alternatives:

#                 start = last_question_init + alt['start']
#                 end = last_question_init + alt['end']

#                 alt_logprobs = list(map(float, logprobs[start:end]))
#                 alt_n_toks = end - start
#                 prob = math.exp( (math.fsum(alt_logprobs) / alt_n_toks) )

#                 alternatives_logprobs.append( {'alternative': tokens[alt['start']],
#                                               'text':''.join(tokens[alt['start']:alt['end']]),
#                                               'prob': prob,
#                                               'temp_sum': math.fsum(alt_logprobs),
#                                               'temp_alt_n_toks': alt_n_toks} )

#             alternatives_evaluation.append(alternatives_logprobs[-1])

#         model_right_answer = max(alternatives_evaluation, key=lambda x:x['prob'])

#         return model_right_answer, alternatives_evaluation

#     def CoT_get_alternatives_positions(self, text):

#         ######################
#         # FIND LAST QUESTION #
#         ######################

#         shots = []

#         for i in range(len(text)-51):

#             question = ''.join(text[i:i+51])
#             #question = text[i:i+51]

#             if ( question == "Responda a seguinte pergunta de multipla escolha:\n\n" ):
#                 # print(f'QUESTION: {i}')
#                 shots.append(i)

#         last_question = text[shots[-1]:]

#         ###########################################
#         # FIND TOKENS POSITIONS FROM ALTERNATIVES #
#         ###########################################

#         alternatives = []

#         for i in range(len(last_question)-1):

#             if ( re.findall("\n{1}", last_question[i-1]) and
#                  re.findall("^[ABCDE]{1}", last_question[i]) and
#                  re.findall("\.{1}", last_question[i+1]) ):

#                 j = i

#                 while last_question[j] != "\n" and last_question[j] != '<|endoftext|>':
#                     j += 1

#                 alternatives.append( {'start': i, 'end': j} )

#         # Beginning of last question on text, alternative positions from reference of last question
#         return shots[-1], alternatives

#     def CoT_prepare_prompts(self, question):

#         last_question_init, alternatives = self.CoT_get_alternatives_positions(question)

#         text_to_prompt = []

#         for alt in alternatives:
#             start = last_question_init + alt['start']
#             end = last_question_init + alt['end']
#             text_to_prompt.append(question + question[start:end]) # + '\n\n')

#         return text_to_prompt

#     def CoT_parse_question(self, idx):

#         instruction = "Responda a seguinte pergunta de multipla escolha:"

#         cot = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nLinha de raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nLinha de raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nGênero dramático é aquele em que o artista usa como intermediária entre si e o público a representação. A palavra vem do grego drao (fazer) e quer dizer ação. A peça teatral é, pois, uma composição literária destinada à apresentação por atores em um palco, atuando e dialogando entre si. O texto dramático é complementado pela atuação dos atores no espetáculo teatral e possui uma estrutura específica, caracterizada: 1) pela presença de personagens que devem estar ligados com lógica uns aos outros e à ação; 2) pela ação dramática (trama, enredo), que é o conjunto de atos dramáticos, maneiras de ser e de agir das personagens encadeadas à unidade do efeito e segundo uma ordem composta de exposição, conflito, complicação, clímax e desfecho; 3) pela situação ou ambiente, que é o conjunto de circunstâncias físicas, sociais, espirituais em que se situa a ação; 4) pelo tema, ou seja, a ideia que o autor (dramaturgo) deseja expor, ou sua interpretação real por meio da representação. COUTINHO, A. Notas de teoria literária. Rio de Janeiro: Civilização Brasileira, 1973 (adaptado).\n\nConsiderando o texto e analisando os elementos que constituem um espetáculo teatral, conclui-se que:\n\nA. a criação do espetáculo teatral apresenta-se como um fenômeno de ordem individual, pois não é possível sua concepção de forma coletiva.\nB. o cenário onde se desenrola a ação cênica é concebido e construído pelo cenógrafo de modo autônomo e independente do tema da peça e do trabalho interpretativo dos atores.\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros.\nD. o corpo do ator na cena tem pouca importância na comunicação teatral, visto que o mais importante é a expressão verbal, base da comunicação cênica em toda a trajetória do teatro até os dias atuais.\nE. a iluminação e o som de um espetáculo cênico independem do processo de produção/recepção do espetáculo teatral, já que se trata de linguagens artísticas diferentes, agregadas posteriormente à cena teatral.\n\nLinha de raciocínio: A conclusão proposta pela alternativa C não decorre necessariamente do texto transcrito, mas é a única que não o contraria – além de exprimir uma verdade. As demais alternativas apresentam os seguintes erros: A. nada no texto permite negar a possibilidade de criação teatral coletiva; B. e E. os diversos elementos que compõem o espetáculo teatral devem ser correlacionados, como dá a entender o texto, e não tratados de forma independente; D. nada no texto permite concluir pela desimportância do corpo do autor e pela predominância da expressão verbal. Portanto a alternativa correta é:\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros."

#         base_string = self.ENEM.headers[idx] + '\n\n' + self.ENEM.statements[idx] + '\n\n'

#         for alternative, answer in zip(self.ENEM.answers[idx][0], self.ENEM.answers[idx][1]):
#             base_string += alternative['id'] + ". " + answer + "\n"

#         prompt_string = cot + "\n\n" + instruction + "\n\n" + base_string + "\n" + "Alternativa Correta:\n"

#         return prompt_string

#     def CoT_prompt_openai(self, question):

#         prompts = self.CoT_prepare_prompts(question)

#         # print(prompts)

#         responses = []

#         for text in prompts:
#             response = openai.Completion.create(
#                 model=model,
#                 prompt=text,
#                 temperature=0,
#                 max_tokens=1,# TODO: 512? 2048? context?
#                 top_p=1,
#                 frequency_penalty=0,
#                 presence_penalty=0,
#                 echo=True,
#                 logprobs=5
#             )

#             responses.append(response)

#         model_right_answer, alternatives_evaluation = self.CoT_evaluate_responses(responses)

#         return model_right_answer['alternative'], model_right_answer['text'], alternatives_evaluation

#     def CoT_ask_ENEM_question(self, idx):

#         parsed_question = self.CoT_parse_question(idx)

#         alternative, text, alternatives_evaluation = self.CoT_prompt_openai(parsed_question)

#         return alternative, text, alternatives_evaluation, parsed_question

In [None]:
#@title Rascunho CoT Demo
# ########
# # DEMO #
# ########

# alternative, text, alternatives_evaluation, parsed_question = OPENAI.CoT_ask_ENEM_question(90)

# print("###################")
# print("# PROMPT TO MODEL #")
# print("###################")
# print()
# print(parsed_question)

# print("#############")
# print("# RESPOSTAS #")
# print("#############")
# print()
# print(f'Resposta do modelo: {alternative}')
# print(f'Resposta correta  : {ENEM.get_right_alternative(90)[0]}')

# # print()
# # print(parsed_question)

In [None]:
#@title Racunho debug CoT
# txt = "Responda a seguinte pergunta de multipla escolha:\n\nEstima-se que haja atualmente no mundo 40 milhões de pessoas infectadas pelo HIV (o vírus que causa a AIDS), sendo que as taxas de novas infecções continuam crescendo, principalmente na África, Ásia e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV teria imenso impacto, pois salvaria milhões de vidas. Certamente seria um marco na história planetária e também uma esperança para as populações carentes de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nConsiderando o texto, Uma vacina eficiente contra o HIV deveria:\n\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir antígenos capazes de se ligarem ao vírus, impedindo que este entre nas células do organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nLinha de raciocínio: As vacinas contêm antígenos atenuados que induzem o organismo humano a produzir anticorpos específicos, os quais protegem contra a contaminação e a proliferação viral. Portanto a alternativa correta é:\nA. induzir a imunidade, para proteger o organismo da contaminação viral.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEm um experimento, preparou-se um conjunto de plantas por técnica de clonagem a partir de uma planta original que apresentava folhas verdes. Esse conjunto foi dividido em dois grupos, que foram tratados de maneira idêntica, com exceção das condições de iluminação, sendo um grupo exposto a ciclos de iluminação solar natural e outro mantido no escuro. Após alguns dias, observou-se que o grupo exposto à luz apresentava folhas verdes como a planta original e o grupo cultivado no escuro apresentava folhas amareladas.\n\nConsiderando o texto, Ao final do experimento, os dois grupos de plantas apresentaram\n\nA. os genótipos e os fenótipos idênticos.\nB. os genótipos idênticos e os fenótipos diferentes.\nC. diferenças nos genótipos e fenótipos.\nD. o mesmo fenótipo e apenas dois genótipos diferentes.\nE. o mesmo fenótipo e grande variedade de genótipos.\n\nLinha de raciocínio: As plantas clonadas a partir de um vegetal original apresentam o mesmo genótipo e diferentes fenótipos resultantes da exposição diferencial à luz e à escuridão. Portanto a alternativa correta é:\nB. os genótipos idênticos e os fenótipos diferentes.\n\nResponda a seguinte pergunta de multipla escolha:\n\nGênero dramático é aquele em que o artista usa como intermediária entre si e o público a representação. A palavra vem do grego drao (fazer) e quer dizer ação. A peça teatral é, pois, uma composição literária destinada à apresentação por atores em um palco, atuando e dialogando entre si. O texto dramático é complementado pela atuação dos atores no espetáculo teatral e possui uma estrutura específica, caracterizada: 1) pela presença de personagens que devem estar ligados com lógica uns aos outros e à ação; 2) pela ação dramática (trama, enredo), que é o conjunto de atos dramáticos, maneiras de ser e de agir das personagens encadeadas à unidade do efeito e segundo uma ordem composta de exposição, conflito, complicação, clímax e desfecho; 3) pela situação ou ambiente, que é o conjunto de circunstâncias físicas, sociais, espirituais em que se situa a ação; 4) pelo tema, ou seja, a ideia que o autor (dramaturgo) deseja expor, ou sua interpretação real por meio da representação. COUTINHO, A. Notas de teoria literária. Rio de Janeiro: Civilização Brasileira, 1973 (adaptado).\n\nConsiderando o texto e analisando os elementos que constituem um espetáculo teatral, conclui-se que:\n\nA. a criação do espetáculo teatral apresenta-se como um fenômeno de ordem individual, pois não é possível sua concepção de forma coletiva.\nB. o cenário onde se desenrola a ação cênica é concebido e construído pelo cenógrafo de modo autônomo e independente do tema da peça e do trabalho interpretativo dos atores.\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros.\nD. o corpo do ator na cena tem pouca importância na comunicação teatral, visto que o mais importante é a expressão verbal, base da comunicação cênica em toda a trajetória do teatro até os dias atuais.\nE. a iluminação e o som de um espetáculo cênico independem do processo de produção/recepção do espetáculo teatral, já que se trata de linguagens artísticas diferentes, agregadas posteriormente à cena teatral.\n\nLinha de raciocínio: A conclusão proposta pela alternativa C não decorre necessariamente do texto transcrito, mas é a única que não o contraria – além de exprimir uma verdade. As demais alternativas apresentam os seguintes erros: A. nada no texto permite negar a possibilidade de criação teatral coletiva; B. e E. os diversos elementos que compõem o espetáculo teatral devem ser correlacionados, como dá a entender o texto, e não tratados de forma independente; D. nada no texto permite concluir pela desimportância do corpo do autor e pela predominância da expressão verbal. Portanto a alternativa correta é:\nC. o texto cênico pode originar-se dos mais variados gêneros textuais, como contos, lendas, romances, poesias, crônicas, notícias, imagens e fragmentos textuais, entre outros."

# count = 0
# for match in re.finditer(r'(Responda a seguinte pergunta de multipla escolha:\n\n)', txt):
#     count += 1
#     print("match", count, match.group(), "start index", match.start(), "End index", match.end())
#     print()


In [None]:
###############
# HELLO WORLD #
###############

# Considerando a questão complete a alternativa correta
# question = "Responda a seguinte pergunta de multipla escolha:\n\nA atmosfera  terrestre  é  composta  pelos  gases nitrogênio (N2) e oxigênio (O2), que somam cerca de 99%, e por gases traços, entre eles o gás carbônico (CO2), vapor de água (H2O), metano (CH4), ozônio (O3) e o óxido nitroso (N2O), que compõem o restante 1% do ar que respiramos. Os  gases  traços,  por  serem  constituídos  por  pelo  menos três  átomos,  conseguem  absorver  o  calor  irradiado  pela Terra, aquecendo o planeta. Esse fenômeno, que acontece há bilhões de anos, é chamado de efeito estufa. A partir da Revolução  Industrial  (século  XIX),  a  concentração  de gases  traços  na  atmosfera,  em  particular  o CO2,  tem aumentado significativamente, o que resultou no aumento da  temperatura  em  escala  global.  Mais  recentemente, outro fator tornou-se diretamente envolvido no aumento da concentração de CO2 na atmosfera: o desmatamento.  BROWN, I. F.; ALECHANDRE, A. S. Conceitos básicos sobre clima,  carbono, florestas e comunidades. A.G. Moreira & S.  Schwartzman. As mudanças climáticas globais e os  ecossistemas brasileiros. Brasília: Instituto de Pesquisa Ambiental da Amazônia, 2000 (adaptado).\n\nConsiderando  o texto,  uma  alternativa  viável  para combater o efeito estufa é:\n\nA. reduzir  o  calor irradiado  pela  Terra  mediante  a substituição da produção primária pela industrialização refrigerada.\nB. promover a queima da biomassa vegetal, responsável pelo  aumento  do  efeito  estufa  devido  à  produção  de CH4.\nC. reduzir  o  desmatamento,  mantendo-se,  assim,  o potencial  da  vegetação  em  absorver  o  CO2  da atmosfera.\nD. aumentar  a  concentração  atmosférica  de  H2O, molécula  capaz  de  absorver  grande  quantidade  de calor.\nE. remover  moléculas  orgânicas  polares  da  atmosfera, diminuindo a capacidade delas de reter calor.\n\nAlternativa correta: C. reduzir  o  desmatamento,  mantendo-se,  assim,  o potencial  da  vegetação  em  absorver  o  CO2  da atmosfera.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEstima-se  que  haja  atualmente  no  mundo  40 milhões de pessoas infectadas pelo HIV (o vírus que causa a  AIDS),  sendo  que  as taxas  de  novas infecções continuam  crescendo,  principalmente  na  África,  Ásia  e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV  teria  imenso  impacto,  pois  salvaria  milhões  de  vidas. Certamente  seria  um  marco  na  história  planetária  e também  uma  esperança  para  as  populações  carentes  de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nUma vacina eficiente contra o HIV deveria:\n\nA. induzir  a  imunidade,  para  proteger  o  organismo  da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir  antígenos  capazes  de  se  ligarem  ao  vírus, impedindo  que  este  entre  nas  células  do  organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nAlternativa correta:\n"
# question = "Responda a seguinte pergunta de multipla escolha:\n\nQual a capital do Brasil?\n\nA. A capital é Brasília.\nB. A capital é Buenos Aires.\nC. A capital é os Estados Unidos.\nD. A capital é Lima.\nE. A capital é Colombia.\n\nAlternativa correta: A. A capital é Brasília.\n\nResponda a seguinte pergunta de multipla escolha:\n\nQual a capital do Estados Unidos?\n\nA. A capital é Toronto.\nB. A capital é Lima.\nC. A capital é os Estados Unidos.\nD. A capital é Washington-DC.\nE. A capital é Buenos Aires.\n\nAlternativa correta:\n"
question = "Responda a seguinte pergunta de multipla escolha:\n\nQual a capital da Argentina?\n\nA. A capital é Brasília.\nB. A capital é Buenos Aires.\nC. A capital é os Estados Unidos.\nD. A capital é Lima.\nE. A capital é Colombia.\n\nAlternativa correta:\n"

alternative, text, alternatives_evaluation = OPENAI.prompt_openai(question)

print(question)
print(f'Alternativa correta do modelo: {alternative}')
print(f'Text da alternativa do modelo: {text}')
print()
print(alternatives_evaluation)

Responda a seguinte pergunta de multipla escolha:

Qual a capital da Argentina?

A. A capital é Brasília.
B. A capital é Buenos Aires.
C. A capital é os Estados Unidos.
D. A capital é Lima.
E. A capital é Colombia.

Alternativa correta:

Alternativa correta do modelo: B
Text da alternativa do modelo: B. A capital é Buenos Aires.

[{'alternative': 'A', 'text': 'A. A capital é Brasília.', 'prob': 0.2325210094714196, 'temp_sum': -13.1289722524738, 'temp_alt_n_toks': 9}, {'alternative': 'B', 'text': 'B. A capital é Buenos Aires.', 'prob': 0.999696215010627, 'temp_sum': -0.00243064913104, 'temp_alt_n_toks': 8}, {'alternative': 'C', 'text': 'C. A capital é os Estados Unidos.', 'prob': 0.13639238785666655, 'temp_sum': -23.9066321115902, 'temp_alt_n_toks': 12}, {'alternative': 'D', 'text': 'D. A capital é Lima.', 'prob': 0.053541653808631906, 'temp_sum': -20.491067465056, 'temp_alt_n_toks': 7}, {'alternative': 'E', 'text': 'E. A capital é Colombia.', 'prob': 0.013805272864446216, 'temp_sum': -

In [None]:
########
# DEMO #
########

# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(6)
alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(43)
# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(89)
# alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(90)

print("###################")
print("# PROMPT TO MODEL #")
print("###################")
print()
print(parsed_question)

print("#############")
print("# RESPOSTAS #")
print("#############")
print()
print(f'Resposta do modelo: {alternative}')
# print(f'Resposta correta  : {ENEM.get_right_alternative(6)[0]}')
print(f'Resposta correta  : {ENEM.get_right_alternative(43)[0]}')
# print(f'Resposta correta  : {ENEM.get_right_alternative(89)[0]}')
# print(f'Resposta correta  : {ENEM.get_right_alternative(90)[0]}')

# print()
# print(parsed_question)

###################
# PROMPT TO MODEL #
###################

Responda a seguinte pergunta de multipla escolha:

Até o século XVII, as paisagens rurais eram marcadas por atividades rudimentares e de baixa produtividade. A partir da Revolução Industrial, porém, sobretudo com o advento da revolução tecnológica, houve um desenvolvimento contínuo do setor agropecuário.

São, portanto, observadas consequências econômicas, sociais e ambientais inter-relacionadas no período posterior à Revolução Industrial, as quais incluem

A. a erradicação da fome no mundo.
B. o aumento das áreas rurais e a diminuição das áreas urbanas.
C. a maior demanda por recursos naturais, entre os quais os recursos energéticos.
D. a menor necessidade de utilização de adubos e corretivos na agricultura.
E. o contínuo aumento da oferta de emprego no setor primário da economia, em face da mecanização.

Alternativa Correta:

#############
# RESPOSTAS #
#############

Resposta do modelo: C
Resposta correta  : C


In [None]:
####################
# OUTPUTS OF MODEL #
####################

print(repr(parsed_question))
print()

for alt in alternatives_evaluation:
    print(f"{alt['alternative']} - {alt['prob']} : {alt['temp_sum']} - {alt['temp_alt_n_toks']}")

'Responda a seguinte pergunta de multipla escolha:\n\nAntes, eram apenas as grandes cidades que se apresentavam como o império da técnica, objeto de modificações, suspensões, acréscimos, cada vez mais sofisticadas e carregadas de artifício. Esse mundo artificial inclui, hoje, o mundo rural. SANTOS, M. A Natureza do Espaço. São Paulo: Hucitec, 1996.\n\nConsiderando a transformação mencionada no texto, uma consequência socioespacial que caracteriza o atual mundo rural brasileiro é\n\nA. a redução do processo de concentração de terras.\nB. o aumento do aproveitamento de solos menos férteis.\nC. a ampliação do isolamento do espaço rural.\nD. a estagnação da fronteira agrícola do país.\nE. a diminuição do nível de emprego formal.\n\nAlternativa Correta:\n'
A - 0.6111294458735242 : -8.8640366977685 - 18
B - 0.6585226065833149 : -9.608397843204822 - 23
C - 0.9971080825532629 : -0.05212992814928 - 18
D - 0.6052041791475857 : -10.043787833851901 - 20
E - 0.5761373815061076 : -9.373955331820541 

In [None]:
##############################
# CHECK DATA FROM PLAYGROUND #
##############################

#ENEM.print_question(6)
ENEM.print_question(89)

print()
print(f"A: {math.exp( -7.38 / 19 )}")
print(f"B: {math.exp( -9.64 / 23 )}")
print(f"C: {math.exp( -0.05 / 18 )}")
print(f"D: {math.exp( -5.36 / 25 )}")
print(f"E: {math.exp( -3.67 / 39 )}")


##############
# Questão 89 #
##############

Ano/Versão: 2010-1

Cabeçalho:
Antes, eram apenas as grandes cidades que se apresentavam como o império da técnica, objeto de modificações, suspensões, acréscimos, cada vez mais sofisticadas e carregadas de artifício. Esse mundo artificial inclui, hoje, o mundo rural. SANTOS, M. A Natureza do Espaço. São Paulo: Hucitec, 1996.

Enunciado:
Considerando a transformação mencionada no texto, uma consequência socioespacial que caracteriza o atual mundo rural brasileiro é

Alternativas:
 A  - a redução do processo de concentração de terras.
[B] - o aumento do aproveitamento de solos menos férteis.
 C  - a ampliação do isolamento do espaço rural.
 D  - a estagnação da fronteira agrícola do país.
 E  - a diminuição do nível de emprego formal.

A: 0.678126756089512
B: 0.6576184133586803
C: 0.9972260766771478
D: 0.8070255102479323
E: 0.9101894046938265


In [None]:
########################
# REAL TESTS FEW SHOTS #
########################

def few_shot(OPENAI, n_questions_to_prompt):

    model_answers = []
    right_answers = []

    for question in tqdm(range(n_questions_to_prompt)):
        alternative, text, alternatives_evaluation, parsed_question = OPENAI.ask_ENEM_question(question)

        model_answers.append(alternative)
        right_answers.append(ENEM.get_right_alternative(question)[0])
        
        # Follow the free request rate limit on OpenAI
        time.sleep(10)

    accuracy = sum(x == y for x, y in zip(model_answers, right_answers))

    return model_answers, right_answers, accuracy

In [None]:
#######################
# FEW SHOW EVALUATION #
#######################

file_name = "0shot"
path = "/content/drive/My Drive/IA024/trab_final/answers-" + OPENAI.model + "-" + file_name + ".csv"

#######################

print("#######################")
print("# FEW SHOW EVALUATION #")
print("#######################")
print()
print("Evaluation of " + OPENAI.model + " with " + file_name + " setup")
print()

# n_questions_to_prompt = 25
n_questions_to_prompt = len(ENEM)

model_answers, right_answers, accuracy = few_shot(OPENAI, n_questions_to_prompt)

incorrect = [{'question': q, 'model_answer': i, 'right_answer': j} for i, j, q in
             zip(model_answers, right_answers, range(len(right_answers))) if i != j]

print()
print("\nAccuracy: {0:.2f} %".format(accuracy/n_questions_to_prompt * 100))
print()
# print(f"Model answers: {model_answers}")
# print(f"Right answers: {right_answers}")
print("Wrong Predictions:\n")
print(*incorrect, sep='\n')

################
# SAVE RESULTS #
################

d = {'model_answers': model_answers, 'right_answers': right_answers}

df = pd.DataFrame(d)

with open(path, 'w') as f:
  df.to_csv(f)

#######################
# FEW SHOW EVALUATION #
#######################

Evaluation of text-davinci-003 with 0shot setup



100%|██████████| 916/916 [4:06:39<00:00, 16.16s/it]




Accuracy: 77.40 %

Wrong Predictions:

{'question': 11, 'model_answer': 'C', 'right_answer': 'E'}
{'question': 12, 'model_answer': 'A', 'right_answer': 'D'}
{'question': 13, 'model_answer': 'D', 'right_answer': 'E'}
{'question': 16, 'model_answer': 'B', 'right_answer': 'D'}
{'question': 17, 'model_answer': 'A', 'right_answer': 'B'}
{'question': 21, 'model_answer': 'D', 'right_answer': 'A'}
{'question': 24, 'model_answer': 'E', 'right_answer': 'A'}
{'question': 26, 'model_answer': 'E', 'right_answer': 'A'}
{'question': 33, 'model_answer': 'E', 'right_answer': 'B'}
{'question': 37, 'model_answer': 'B', 'right_answer': 'D'}
{'question': 38, 'model_answer': 'B', 'right_answer': 'E'}
{'question': 42, 'model_answer': 'E', 'right_answer': 'D'}
{'question': 49, 'model_answer': 'E', 'right_answer': 'C'}
{'question': 54, 'model_answer': 'E', 'right_answer': 'A'}
{'question': 55, 'model_answer': 'A', 'right_answer': 'E'}
{'question': 59, 'model_answer': 'C', 'right_answer': 'D'}
{'question': 78

In [None]:
#@title RASCUNHO
# #@title RASCUNHO
# ######################
# # OPENAI MODEL SETUP #
# ######################

# ############
# # OLD CODE #
# ############

# # Few shots with answers direct from model - with different questions??

# openai.api_key = "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"

# def prompt_openai(text_prompt):

#     response = openai.Completion.create(
#         model="text-davinci-002",
#         prompt=text_prompt,
#         temperature=0,
#         max_tokens=512,# TODO: why not max_tokens=1 ???
#         top_p=1,
#         frequency_penalty=0,
#         presence_penalty=0
#     )

#     ################
#     # Quick answer #
#     ################

#     # first letter of model's text response

#     # alternative = response['choices'][0]['text']
#     alternative = re.sub('[^a-zA-Z]+', '', response['choices'][0]['text'])[0]

#     return response, alternative

In [None]:
#@title Rascunho
# ########################
# # DAVINCI OPENAI MODEL #
# ########################

# ############
# # OLD CODE #
# ############

# # Considerando a questão complete a alternativa correta
# text_prompt = "Responda a seguinte pergunta de multipla escolha:\n\nA atmosfera  terrestre  é  composta  pelos  gases nitrogênio (N2) e oxigênio (O2), que somam cerca de 99%, e por gases traços, entre eles o gás carbônico (CO2), vapor de água (H2O), metano (CH4), ozônio (O3) e o óxido nitroso (N2O), que compõem o restante 1% do ar que respiramos. Os  gases  traços,  por  serem  constituídos  por  pelo  menos três  átomos,  conseguem  absorver  o  calor  irradiado  pela Terra, aquecendo o planeta. Esse fenômeno, que acontece há bilhões de anos, é chamado de efeito estufa. A partir da Revolução  Industrial  (século  XIX),  a  concentração  de gases  traços  na  atmosfera,  em  particular  o CO2,  tem aumentado significativamente, o que resultou no aumento da  temperatura  em  escala  global.  Mais  recentemente, outro fator tornou-se diretamente envolvido no aumento da concentração de CO2 na atmosfera: o desmatamento.  BROWN, I. F.; ALECHANDRE, A. S. Conceitos básicos sobre clima,  carbono, florestas e comunidades. A.G. Moreira & S.  Schwartzman. As mudanças climáticas globais e os  ecossistemas brasileiros. Brasília: Instituto de Pesquisa Ambiental da Amazônia, 2000 (adaptado).\n\nConsiderando  o texto,  uma  alternativa  viável  para combater o efeito estufa é:\n\nA. reduzir  o  calor irradiado  pela  Terra  mediante  a substituição da produção primária pela industrialização refrigerada.\nB. promover a queima da biomassa vegetal, responsável pelo  aumento  do  efeito  estufa  devido  à  produção  de CH4.\nC. reduzir  o  desmatamento,  mantendo-se,  assim,  o potencial  da  vegetação  em  absorver  o  CO2  da atmosfera.\nD. aumentar  a  concentração  atmosférica  de  H2O, molécula  capaz  de  absorver  grande  quantidade  de calor.\nE. remover  moléculas  orgânicas  polares  da  atmosfera, diminuindo a capacidade delas de reter calor.\n\nAlternativa correta: C. reduzir  o  desmatamento,  mantendo-se,  assim,  o potencial  da  vegetação  em  absorver  o  CO2  da atmosfera.\n\nResponda a seguinte pergunta de multipla escolha:\n\nEstima-se  que  haja  atualmente  no  mundo  40 milhões de pessoas infectadas pelo HIV (o vírus que causa a  AIDS),  sendo  que  as taxas  de  novas infecções continuam  crescendo,  principalmente  na  África,  Ásia  e Rússia. Nesse cenário de pandemia, uma vacina contra o HIV  teria  imenso  impacto,  pois  salvaria  milhões  de  vidas. Certamente  seria  um  marco  na  história  planetária  e também  uma  esperança  para  as  populações  carentes  de tratamento antiviral e de acompanhamento médico. TANURI, A.; FERREIRA JUNIOR, O. C. Vacina contra Aids: desafios e esperanças. Ciência Hoje (44) 26, 2009 (adaptado).\n\nUma vacina eficiente contra o HIV deveria:\n\nA. induzir  a  imunidade,  para  proteger  o  organismo  da contaminação viral.\nB. ser capaz de alterar o genoma do organismo portador, induzindo a síntese de enzimas protetoras.\nC. produzir  antígenos  capazes  de  se  ligarem  ao  vírus, impedindo  que  este  entre  nas  células  do  organismo humano.\nD. ser amplamente aplicada em animais, visto que esses são os principais transmissores do vírus para os seres humanos.\nE. estimular a imunidade, minimizando a transmissão do vírus por gotículas de saliva.\n\nAlternativa correta:\n"
# # text_prompt = "Responda a seguinte pergunta de multipla escolha:\n\nQual a capital do Brasil?\n\nA. A capital é Brasília.\nB. A capital é Buenos Aires.\nC. A capital é os Estados Unidos.\nD. A capital é Lima.\nE. A capital é Colombia.\n\nAlternativa correta: A. A capital é Brasília.\n\nResponda a seguinte pergunta de multipla escolha:\n\nQual a capital do Estados Unidos?\n\nA. A capital é Toronto.\nB. A capital é Lima.\nC. A capital é os Estados Unidos.\nD. A capital é Washington-DC.\nE. A capital é Buenos Aires.\n\nAlternativa correta:\n"

# response, alternative = prompt_openai(text_prompt)

# print(text_prompt)
# print(f'Resposta do modelo: {alternative}')
# print()
# print(response)

In [None]:
#@title RASCUNHO
############
# OLD CODE #
############

# def prompt_model(ENEM, few_shots, test_idx):

#         ####################
#         # SET PROMPT SHOTS #
#         ####################

#         instruction = "Responda a seguinte pergunta de multipla escolha:"
#         prompt_string = ""

#         for base_idx in few_shots:

#             base_string = ENEM.headers[base_idx] + '\n\n' + ENEM.statements[base_idx] + '\n\n';
#             for alternative, answer in zip(ENEM.answers[base_idx][0], ENEM.answers[base_idx][1]):
#                 base_string += alternative['id'] + "." + answer + "\n"
#                 if (alternative['correct'] == 'Yes'):
#                     # right_string = re.sub(r' ', '', alternative['id'])
#                     right_string = re.sub('[^a-zA-Z]+', '', alternative['id'])[0] + '.' + answer

#             base_string += "\n" + "Alternativa correta: " + right_string

#             prompt_string += instruction + "\n\n" +  base_string + "\n\n"

#         #####################
#         # ADD TEST QUESTION #
#         #####################
        
#         test_string = ENEM.headers[test_idx] + '\n\n' + ENEM.statements[test_idx] + '\n\n';
#         for alternative, answer in zip(ENEM.answers[test_idx][0], ENEM.answers[test_idx][1]):
#             test_string += alternative['id'] + "." + answer + "\n"
#             # if (alternative['correct'] == 'Yes'):
#             #     right_string = alternative['id'] + "." + answer
#         test_string += "\n" + "Alternativa correta: "# + right_string

#         prompt_string += instruction + "\n\n" + test_string

#         response, alternative = prompt_openai(prompt_string)

#         return response, alternative, prompt_string
        
#         # return repr(prompt_string)
#         # return prompt_string
#         # return "a", "b", prompt_string

# few_shots = [0, 1, 2, 3, 4]
# #few_shots = [0, 5, 10, 15, 20]

# #n_few_shots = 4
# #few_shots = random.sample(range(0, ENEM.__len__()), n_few_shots)

# response, alternative, prompt_string = prompt_model(ENEM, few_shots, 90)

# print("###################")
# print("# PROMPT TO MODEL #")
# print("###################")
# print()
# print(prompt_string)
# print()

# print("#############")
# print("# RESPOSTAS #")
# print("#############")
# print()
# print(f'Resposta do modelo: {alternative}')
# print(f'Resposta correta  : {ENEM.get_right_alternative(90)[0]}')

In [None]:
#@title RASCUNHO
# def few_shot(ENEM, n_questions_to_prompt, few_shots = [0]):
#     model_answers = []
#     right_answers = []

#     for question in range(n_questions_to_prompt):
#         response, alternative, prompt_string = prompt_model(ENEM, few_shots, question)

#         model_answers.append(alternative)
#         right_answers.append(ENEM.get_right_alternative(question)[0])

#     accuracy = sum(x == y for x, y in zip(model_answers, right_answers))

#     return model_answers, right_answers, accuracy

# print("#######################")
# print("# FEW SHOW EVALUATION #")
# print("#######################")
# print()

# # MAX: 4-shots - model's maximum context length is 4097 tokens

# # Random: erra a segunda
# n_few_shots = 4
# few_shots = random.sample(range(0, ENEM.__len__()), n_few_shots)

# # Erra a segunda e/ou a sexta
# #few_shots = [0]

# # Erra a sexta
# # few_shots = [0, 1, 2, 3]

# n_questions_to_prompt = 10
# model_answers, right_answers, accuracy = few_shot(ENEM, n_questions_to_prompt, few_shots)

# print("Accuracy: {0:.2f} %".format(accuracy/n_questions_to_prompt * 100))
# print(f"Model answers: {model_answers}")
# print(f"Right answers: {right_answers}")

### Saving embeddings from BERTimbau


In [None]:
##############
# EMBEDDINGS #
##############

from transformers import BertModel
bert_pretrained = BertModel.from_pretrained('neuralmind/bert-base-portuguese-cased')

def get_BERT_embeddings(ENEM_data, model, q_id):
    with torch.no_grad():
        reps_q = model( torch.tensor([ENEM_data.headers_ids[q_id]]),
                       attention_mask = torch.tensor([ENEM_data.headers_masks[q_id]]), 
                       output_hidden_states=True).last_hidden_state.squeeze(0).numpy()

        reps_s = model( torch.tensor([ENEM_data.statements_ids[q_id]]),
                       attention_mask = torch.tensor([ENEM_data.statements_masks[q_id]]), 
                       output_hidden_states=True).last_hidden_state.squeeze(0).numpy()    
        
        reps_o = model( torch.tensor(ENEM_data.answers[q_id][0]),
                       attention_mask = torch.tensor(ENEM_data.answers[q_id][1]), 
                       output_hidden_states=True).last_hidden_state.squeeze(0).numpy()            
    return(reps_q, reps_s, reps_o ) 


#embeddings_data = []
#for v, i in zip(ENEM.enem_version, ENEM.questions):
#  q, s, o = get_BERT_embeddings(ENEM_data, model= bert_pretrained, q_id = int(i['id']))
#  embeddings_data.append({'version':v, 'id': i['id'], 'q':q, 's':s, 'o':o})

#embeddings_data[0]

#import json
#with open('ebmeddings.json', 'w') as f:
#    json.dump(embeddings_data , f)

#import pickle
#with open('embeddings.pkl', 'wb') as f:
#    pickle.dump(embeddings_data, f)

   


#print(q.shape)
#print(s.shape)
#print(o.shape)


#text_question = pd.read_csv("/content/drive/MyDrive/unicamp - IA024 /projeto_enem/text_question.csv") 
#text_option = pd.read_csv("/content/drive/MyDrive/unicamp - IA024 /projeto_enem/text_option.csv") 

#reps.last_hidden_state[:, 0]
#reps.hidden_states[-1].shape
#torch.equal(reps.hidden_states[-1], reps.last_hidden_state)

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


* Cosine similarity

In [None]:
import pickle
with open('/content/drive/MyDrive/unicamp - IA024 /projeto_enem/embeddings.pkl', 'rb') as f:
    embeddings_data = pickle.load(f)

for i in range(3):
  print(ENEM.print_question(i))
  print()
  print("Question: " + embeddings_data[i]['id'] + " Dimensions of the header: " + str(embeddings_data[i]['q'].shape))
  print("Question: " + embeddings_data[i]['id'] + " Dimensions of the statment: " + str(embeddings_data[i]['s'].shape))
  print("Question: " + embeddings_data[i]['id'] + " Dimensions of options: " + str(embeddings_data[i]['o'].shape))
  
  print()
  print(ENEM_data.headers_ids[i])
  print()
  print(ENEM_data.statements_ids[i])
  print()
  print(ENEM_data.answers[i])


import matplotlib.pyplot as plt

plt.hist(embeddings_data[0]['q'].mean(axis=0), bins=20, color = "red")
plt.show()

plt.hist(embeddings_data[0]['q'][np.array(ENEM_data.headers_ids[0]) != 0].mean(axis=0), bins=20, color = "red")
plt.show()

embeddings_data[0]['q'].mean(axis=0) == embeddings_data[0]['q'][np.array(ENEM_data.headers_ids[0]) != 0].mean(axis=0)




#############
# Questão 0 #
#############

Ano/Versão: 2009-1

Cabeçalho:
 A  atmosfera  terrestre  é  composta  pelos  gases nitrogênio (N2) e oxigênio (O2), que somam cerca de 99%, e por gases traços, entre eles o gás carbônico (CO2), vapor de água (H2O), metano (CH4), ozônio (O3) e o óxido nitroso (N2O), que compõem o restante 1% do ar que respiramos. Os  gases  traços,  por  serem  constituídos  por  pelo  menos três  átomos,  conseguem  absorver  o  calor  irradiado  pela Terra, aquecendo o planeta. Esse fenômeno, que acontece há bilhões de anos, é chamado de efeito estufa. A partir da Revolução  Industrial  (século  XIX),  a  concentração  de gases  traços  na  atmosfera,  em  particular  o CO2,  tem aumentado significativamente, o que resultou no aumento da  temperatura  em  escala  global.  Mais  recentemente, outro fator tornou-se diretamente envolvido no aumento da concentração de CO2 na atmosfera: o desmatamento.  BROWN, I. F.; ALECHANDRE, A. S. Conceitos básicos sobre clim

In [None]:
* Model 1: mean of embeddings

In [None]:
embeddings_data2 = []

for i in ENEM.questions:
  q_id  = int(i['id'])
  q2 = embeddings_data[q_id]['q'][np.array(ENEM_data.headers_ids[q_id]) != 0].mean(axis=0)
  s2 = embeddings_data[q_id]['s'][np.array(ENEM_data.statements_ids[q_id]) != 0].mean(axis=0)
  answers = []
  for a in (embeddings_data[q_id]['o']):
    answers.append(np.array(a).mean(axis=0))
  
  embeddings_data2.append({'id': q_id, 'q2':q2, 's2':s2, 'o2':o2})

#embeddings_data[0]['q'][np.array(ENEM_data.headers_ids[0]) != 0].mean(axis=0)

In [None]:

for i in ENEM.questions:
  print(i)

answers = []
for a in (embeddings_data[0]['o']):
   print(a.shape)
   print(a)
   print(np.array(a).mean(axis=0).shape)
  #o2 = a[0].mean(axis=1)
  #answers.append(o2)



### Fine tuning Bertimbau

#### Salvando a base em um dataframe

In [None]:
data_enem0 = [ENEM.__getitem__(i) for i in range(len(ENEM))]

data_enem0[0]

data_enem =  pd.DataFrame(data_enem0, columns = ['enem_version', 'question.attrib', 'header', 'statement', 'answers'])  

def df_column_to_columns(df, column_name):
    df = pd.concat([df.drop([column_name], axis=1), df[column_name].apply(pd.Series)], axis=1)
    return df

data_enem = df_column_to_columns(data_enem, 'question.attrib')
data_enem = df_column_to_columns(data_enem, 'answers')
data_enem = df_column_to_columns(data_enem, 1)

data_enem.columns = ['enem_version', 'header', 'statement','CE','DS','EK','IC','MR','TC','id','image',
                 'gab', 'A','B','C','D','E']

def select_list_element(df, column_name, key, value):
    df[column_name] = df[column_name].apply(lambda x: [d for d in x if d[key] == value])
    return df   


data_enem = select_list_element(data_enem, 'gab', 'correct', 'Yes')


def get_value_from_dict(df, column_name, key):
    df[column_name] = df[column_name].apply(lambda x: x[0][key])
    return df

data_enem = get_value_from_dict(data_enem, 'gab', 'id')

data_enem.info()

ENEM.print_question(0)

data_enem.to_csv("/content/drive/MyDrive/unicamp - IA024 /projeto_enem/data_enem0.csv")



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 916 entries, 0 to 915
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   enem_version  916 non-null    object
 1   header        916 non-null    object
 2   statement     916 non-null    object
 3   CE            916 non-null    object
 4   DS            916 non-null    object
 5   EK            916 non-null    object
 6   IC            916 non-null    object
 7   MR            916 non-null    object
 8   TC            916 non-null    object
 9   id            916 non-null    object
 10  image         916 non-null    object
 11  gab           916 non-null    object
 12  A             916 non-null    object
 13  B             916 non-null    object
 14  C             916 non-null    object
 15  D             916 non-null    object
 16  E             916 non-null    object
dtypes: object(17)
memory usage: 121.8+ KB

#############
# Questão 0 #
#############

Ano/Versão

In [None]:
bd_enem_long = pd.read_csv("/content/drive/MyDrive/unicamp - IA024 /projeto_enem/data_enem_long.csv") 
bd_enem_long['text'][0]

bd_enem_long = bd_enem_long.sample(frac=1).reset_index(drop=True)

bd_enem_long

Unnamed: 0,...1,enem_version,header,statement,CE,DS,EK,IC,MR,TC,id,image,gab,question_id,opcao,opcao_text,text,label,train_test
0,972,2014-2,A última edição deste periódico apresenta mais...,Esse editorial faz uma leitura diferenciada de...,No,No,No,No,No,Yes,99,No,D,2014-2_99,D,interpretar criticamente fatos noticiados e co...,A última edição deste periódico apresenta mais...,1,1
1,925,2014-1,"Na década de 1940, na Região Centro-Oest...",Para suprir o déficit nutricional a que os pro...,No,Yes,Yes,No,No,Yes,47,No,D,2014-1_47,D,aminoácidos essenciais.,"Na década de 1940, na Região Centro-Oest...",1,1
2,483,2011-2,O que é possível dizer em 140 caracteres?Suces...,"O Twitter se presta a diversas finalidades, en...",No,No,Yes,No,No,Yes,135,No,E,2011-2_135,B,constitui recurso próprio para a aquisição da ...,O que é possível dizer em 140 caracteres?Suces...,0,1
3,1464,2016_2_-1,Até 1824 acreditava-se que as máquinas térmica...,Tal limitação ocorre porque essas máquinas,No,No,Yes,No,No,Yes,61,No,B,2016_2_-1_61,C,utilizam transformações adiabáticas.,Até 1824 acreditava-se que as máquinas térmica...,0,0
4,1452,2016_2_-1,Um jovem suspeita que não é filho bioló...,A condição genotípica que possibilita que...,No,Yes,No,No,No,Yes,47,No,A,2016_2_-1_47,A,o pai e a mãe sejam heterozigotos para ...,Um jovem suspeita que não é filho bioló...,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7323,1590,2017-1,Quer suporte paraencontrar pessoasque comparti...,"O consumidor do século XXI, chamado de ...",No,No,No,No,No,Yes,17,Yes,A,2017-1_17,B,busca constante pelo menor preço.,Quer suporte paraencontrar pessoasque comparti...,0,0
7324,783,2013-1,Estudos de fluxo de energia em ecossiste...,"Dos grupos de seres vivos citados, os que cont...",No,Yes,No,No,No,No,80,No,B,2013-1_80,D,insetos.,Estudos de fluxo de energia em ecossiste...,0,1
7325,899,2014-1,Estatuto da Frente Negra Brasileira (FNB)Art. ...,Quando foi fechada pela ditadura do Esta...,No,No,Yes,No,No,Yes,21,No,A,2014-1_21,A,"política, engajada na luta por direitos sociai...",Estatuto da Frente Negra Brasileira (FNB)Art. ...,1,1
7326,448,2011-2,TEXTO IVocê tem palacete reluzenteTem joias e ...,Um texto pertencente ao patrimônio literá...,No,No,No,No,No,Yes,100,No,A,2011-2_100,C,da maldade do povo a perguntar sobre a honesti...,TEXTO IVocê tem palacete reluzenteTem joias e ...,0,1


In [None]:
df_train = bd_enem_long.query('train_test ==1')[['text', 'label']]
df_train.columns = ['sentence', 'label'] 

df_test = bd_enem_long.query('train_test ==0')[['text', 'label']]
df_test.columns = ['sentence', 'label'] 

df_train["context_size"] = df_train["sentence"].apply(lambda x: len(x.split(" ")))
df_test["context_size"] = df_test["sentence"].apply(lambda x: len(x.split(" ")))

df_train = df_train.query('context_size <=510')[['sentence', 'label']] 
df_test = df_test.query('context_size <=510')[['sentence', 'label']] 

df_train.to_csv('df_train.csv', index=None)
df_test.to_csv('df_test.csv', index=None)

In [None]:
!head df_train.csv

sentence,label
"A última edição deste periódico apresenta mais uma vez  tema relacionado ao tratamento dado ao lixo caseiro, aquele que produzimos no dia a dia. A informação agora passa pelo problema do material jogado na estrada vicinal que  liga  o  município  de  Rio  Claro  ao  distrito  de  Ajapi. Infelizmente, no local em questão, a reportagem encontrou mais  uma  forma  errada  de  destinação  do  lixo:  material atirado ao lado da pista como se  isso fosse o ideal. Muitos moradores, por exemplo, retiram o lixo de suas residências e,  em  vez  de  um  destino  correto,  procuram  dispensá-lo em outras regiões. Uma situação no mínimo incômoda. Se você sai de casa para jogar o lixo em outra localidade, por que não o fazer no local ideal? É muita falta de educação achar que aquilo que não é correto para sua região possa ser para outra. A reciclagem do lixo doméstico é um passo inteligente e de consciência. Olha o exemplo que passamos aos mais jovens! Quem aprende errado coloca em p

In [None]:
from datasets import load_dataset

raw_dataset = load_dataset(
    'csv',
     data_files={'train': 'df_train.csv',
                 'test': 'df_test.csv'
     }
 )
raw_dataset



Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-1e157addff2c278c/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

  

Extracting data files #0:   0%|          | 0/1 [00:00<?, ?obj/s]

Extracting data files #1:   0%|          | 0/1 [00:00<?, ?obj/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-1e157addff2c278c/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label'],
        num_rows: 5850
    })
    test: Dataset({
        features: ['sentence', 'label'],
        num_rows: 1456
    })
})

In [None]:
checkpoint = 'neuralmind/bert-base-portuguese-cased'

tokenizer = AutoTokenizer.from_pretrained(checkpoint,do_lower_case=False)

context_length =  510 # 512 - [CLS] [SEP]


def tokenize_fn(batch):
  return tokenizer(batch['sentence'], truncation=True, max_length=context_length)
  
tokenized_datasets = raw_dataset.map(tokenize_fn, batched=True)

model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, num_labels=2)


#tokenized_datasets
#df = pd.DataFrame(tokenized_datasets['test'])
#df['context_size'] = df['input_ids'].apply(lambda x: len(x))

  0%|          | 0/6 [00:00<?, ?ba/s]

  0%|          | 0/2 [00:00<?, ?ba/s]

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForSequenceClassification: ['cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the

In [None]:
summary(model)

Layer (type:depth-idx)                                  Param #
BertForSequenceClassification                           --
├─BertModel: 1-1                                        --
│    └─BertEmbeddings: 2-1                              --
│    │    └─Embedding: 3-1                              22,881,792
│    │    └─Embedding: 3-2                              393,216
│    │    └─Embedding: 3-3                              1,536
│    │    └─LayerNorm: 3-4                              1,536
│    │    └─Dropout: 3-5                                --
│    └─BertEncoder: 2-2                                 --
│    │    └─ModuleList: 3-6                             85,054,464
│    └─BertPooler: 2-3                                  --
│    │    └─Linear: 3-7                                 590,592
│    │    └─Tanh: 3-8                                   --
├─Dropout: 1-2                                          --
├─Linear: 1-3                                           1,538
Total params: 10

In [None]:
training_args = TrainingArguments(
  output_dir='training_dir',
  evaluation_strategy='epoch',
  save_strategy='epoch',
  num_train_epochs=3,
  per_device_train_batch_size=16,
  per_device_eval_batch_size=64,
)

In [None]:
def compute_metrics(logits_and_labels):
  logits, labels = logits_and_labels
  predictions = np.argmax(logits, axis=-1)
  acc = np.mean(predictions == labels)
  f1 = f1_score(labels, predictions, average='micro')
  return {'accuracy': acc, 'f1': f1}

In [None]:
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

In [None]:
trainer.train()

In [None]:
!ls training_dir

In [None]:
tokenizer = AutoTokenizer.from_pretrained(checkpoint,do_lower_case=False)

context_length =  510 # 512 - [CLS] [SEP]

def tokenize_fn(batch):
  return tokenizer(batch['sentence'], truncation=True, max_length=context_length)
  
tokenized_datasets = raw_dataset.map(tokenize_fn, batched=True)

savedmodel  = pipeline(
    task='text-classification',
    model='training_dir/checkpoint-1098', 
    tokenizer=tokenizer
    )

In [None]:
test_pred = savedmodel(tokenized_datasets['test']['sentence'], truncation=True, max_length=context_length)

#savedmodel()

In [None]:
def get_label(d):
  return int(d['label'].split('_')[1])

test_pred2 = [get_label(d) for d in test_pred]

print("acc:", accuracy_score(raw_dataset['test']['label'], test_pred2))
print("f1:", f1_score(raw_dataset['test']['label'], test_pred2, average='micro'))

In [None]:
# Scikit-Learn is transitioning to V1 but it's not available on Colab
# The changes modify how confusion matrices are plotted
def plot_cm(cm):
  classes = ['0', '1']
  df_cm = pd.DataFrame(cm, index=classes, columns=classes)
  ax = sn.heatmap(df_cm, annot=True, fmt='g')
  ax.set_xlabel("Predicted")
  ax.set_ylabel("Target")

cm = confusion_matrix(tokenized_datasets['test']['label'], test_pred2, normalize='true')
plot_cm(cm)



In [None]:
type(test_pred)

test_results_bertimbau_base =  pd.DataFrame( test_pred)
test_results_bertimbau_base["true_label"] = tokenized_datasets['test']['label']

test_results_bertimbau_base.head()

test_results_bertimbau_base.to_csv("/content/drive/MyDrive/unicamp - IA024 /projeto_enem/test_results_bertimbau_base.csv")
