# Multiple-Choice Question Answering

In [1]:
!nvidia-smi
!lscpu

Sat Aug 14 16:39:44 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   43C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [2]:
!pip install hazm==0.7.0
!pip install seqeval==1.2.2
!pip install sentencepiece==0.1.96
!pip install transformers==4.7.0
!pip install clean-text[gpl]==0.4.0
!pip install editdistance==0.5.3

Collecting hazm==0.7.0
  Downloading hazm-0.7.0-py3-none-any.whl (316 kB)
[?25l[K     |█                               | 10 kB 36.1 MB/s eta 0:00:01[K     |██                              | 20 kB 33.4 MB/s eta 0:00:01[K     |███                             | 30 kB 20.6 MB/s eta 0:00:01[K     |████▏                           | 40 kB 17.4 MB/s eta 0:00:01[K     |█████▏                          | 51 kB 9.8 MB/s eta 0:00:01[K     |██████▏                         | 61 kB 10.1 MB/s eta 0:00:01[K     |███████▎                        | 71 kB 9.7 MB/s eta 0:00:01[K     |████████▎                       | 81 kB 10.8 MB/s eta 0:00:01[K     |█████████▎                      | 92 kB 11.3 MB/s eta 0:00:01[K     |██████████▍                     | 102 kB 9.3 MB/s eta 0:00:01[K     |███████████▍                    | 112 kB 9.3 MB/s eta 0:00:01[K     |████████████▍                   | 122 kB 9.3 MB/s eta 0:00:01[K     |█████████████▌                  | 133 kB 9.3 MB/s eta 0:00:0

In [3]:
!pip install PyDrive
import os
import IPython.display as ipd
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)



In [4]:
# Import required packages
import os
import gc
import re
import hazm
import time
import json
import collections
import numpy as np
import pandas as pd
import editdistance

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import TensorDataset, DataLoader

import transformers
from transformers import AutoConfig, AutoTokenizer
from transformers import AutoModelForMultipleChoice
from transformers import MT5Config, MT5ForConditionalGeneration, MT5Tokenizer
from transformers.data.metrics.squad_metrics import compute_exact, compute_f1

from cleantext import clean

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report

print()
print('numpy', np.__version__)
print('pandas', pd.__version__)
print('transformers', transformers.__version__)
print('torch', torch.__version__)
print()

# If there's a GPU available...
if torch.cuda.is_available():    
    # Tell PyTorch to use the GPU.    
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
# If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")



numpy 1.19.5
pandas 1.1.5
transformers 4.7.0
torch 1.9.0+cu102

There are 1 GPU(s) available.
We will use the GPU: Tesla T4


In [5]:
class MultipleChoiceQADataset(torch.utils.data.Dataset):
    """ Create a PyTorch dataset for Multiple Choice Question Answering. """

    def __init__(self, questions, candidates, choices, answers, tokenizer, max_length, model_type):
        self.questions = questions
        self.candidates = candidates
        self.choices = choices
        self.answers = answers
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.model_type = model_type

    def __len__(self):
        return len(self.questions)

    def __getitem__(self, item):
        if self.model_type == "mt5":
            input_text = self.questions[item] + ' <sep> ' + ' <sep> '.join(self.candidates[item])
            encoding = self.tokenizer(
                input_text,
                add_special_tokens=True,
                max_length=self.max_length,
                truncation=True,
                padding='max_length',
                return_tensors="pt"
            )
            inputs = {
                'item': str(item),
                'question': self.questions[item],
                'candidates': ' <sep> '.join(self.candidates[item]),
                'input_text': input_text,
                'choice': self.choices[item],
                'answer': self.answers[item],
                'input_ids': encoding.input_ids.flatten(),
                'attention_mask': encoding.attention_mask.flatten()
            }
            return inputs
        else:
            choices_input_ids, choices_attention_masks, choices_token_type_ids = [], [], []
            for c in self.candidates[item]:
                text_a = ""  # empty context
                text_b = self.questions[item] + " " + c
                inputs = self.tokenizer(
                    text_a,
                    text_b,
                    add_special_tokens=True,
                    max_length=self.max_length,
                    padding="max_length",
                    truncation=True,
                    return_overflowing_tokens=True
                )
                choices_input_ids.append(inputs.input_ids[0])
                choices_attention_masks.append(inputs.attention_mask[0])
                choices_token_type_ids.append(inputs.token_type_ids[0])

            inputs = {
                'item': str(item),
                'question': self.questions[item],
                'candidates': ' <sep> '.join(self.candidates[item]),
                'choice': int(self.choices[item]) - 1,
                'answer': self.answers[item],
                'input_ids': torch.LongTensor(choices_input_ids),
                'attention_mask': torch.LongTensor(choices_attention_masks),
                'token_type_ids': torch.LongTensor(choices_token_type_ids)
            }
            return inputs


class MultipleChoiceQA:
    def __init__(self, model_name, model_type):
        self.normalizer = hazm.Normalizer()
        self.model_name = model_name
        if model_type.lower() == "mt5":
            self.tokenizer = MT5Tokenizer.from_pretrained(model_name)
            self.model = MT5ForConditionalGeneration.from_pretrained(model_name)
            self.config = MT5Config.from_pretrained(self.model_name)
        elif model_type.lower() in ["mbert", "parsbert", "wikibert"]:
            self.tokenizer = AutoTokenizer.from_pretrained(self.model_name)
            self.config = AutoConfig.from_pretrained(self.model_name)
            self.model = AutoModelForMultipleChoice.from_pretrained(self.model_name, config=self.config)
            self.model_type = model_type.lower()
        else:
            print(f'model_type not supported!')
            return

    def load_dataset_test_file(self, dataset_name, dataset_file, **kwargs):
        if dataset_name.lower() in ["parsinlu", "parsinlu-literature", "parsinlu-math_and_logic",
                                    "parsinlu-common_knowledge"]:
            if not os.path.exists(dataset_file):
                print(f'{dataset_file} not exists!')
                return
            questions, candidates, choices, answers = [], [], [], []
            with open(dataset_file, encoding="utf8") as infile:
                for line in infile:
                    json_line = json.loads(line.strip())
                    question = json_line['question']
                    candidate_answers = json_line['candidates']
                    choice = json_line['answer']
                    answer = candidate_answers[int(json_line['answer']) - 1]

                    questions.append(question)
                    candidates.append(candidate_answers)
                    choices.append(choice)
                    answers.append(answer)
            return questions, candidates, choices, answers

    def multiple_choice_qa_inference(self, questions, candidates, device, max_length=512):
        if not self.model or not self.tokenizer:
            print('Something wrong has been happened!')
            return

        input_ids, attention_masks, token_type_ids = [], [], []
        for q, cs in zip(questions, candidates):
            choices_input_ids, choices_attention_masks, choices_token_type_ids = [], [], []
            for c in cs:
                text_a = ""  # empty context
                text_b = q + " " + c
                inputs = self.tokenizer(
                    text_a,
                    text_b,
                    add_special_tokens=True,
                    max_length=max_length,
                    padding="max_length",
                    truncation=True,
                    return_overflowing_tokens=True,
                )
                choices_input_ids.append(inputs.input_ids[0])
                choices_attention_masks.append(inputs.attention_mask[0])
                choices_token_type_ids.append(inputs.token_type_ids[0])
            input_ids.append(choices_input_ids)
            attention_masks.append(choices_attention_masks)
            token_type_ids.append(choices_token_type_ids)

        input_ids = torch.LongTensor(input_ids).to(device)
        attention_masks = torch.LongTensor(attention_masks).to(device)
        token_type_ids = torch.LongTensor(token_type_ids).to(device)

        gc.collect()
        torch.cuda.empty_cache()
        # Tell pytorch to run this model on the GPU.
        if device.type != 'cpu':
            self.model.cuda()
        self.model.eval()

        outputs = self.model(input_ids=input_ids, attention_mask=attention_masks, token_type_ids=token_type_ids)
        predictions = torch.argmax(outputs.logits, dim=1)
        return [(questions[i], candidates[i], candidates[i][p.item()]) for i, p in enumerate(predictions)]

    def mt5_multiple_choice_qa_inference(self, questions, candidates, device):
        if not self.model or not self.tokenizer:
            print('Something wrong has been happened!')
            return

        new_input = []
        for q, cs in zip(questions, candidates):
            new_input.append(q + ' <sep> ' + ' <sep> '.join(cs))

        tokenized_batch = self.tokenizer(
            new_input,
            padding=True,
            return_tensors="pt"
        )

        gc.collect()
        torch.cuda.empty_cache()
        # Tell pytorch to run this model on the GPU.
        if device.type != 'cpu':
            self.model.cuda()
        self.model.eval()

        input_ids = tokenized_batch.input_ids.to(device)
        attention_mask = tokenized_batch.attention_mask.to(device)

        outputs = self.model.generate(input_ids=input_ids, attention_mask=attention_mask)
        predictions = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)
        return [(questions[i], candidates[i], p) for i, p in enumerate(predictions)]

    def evaluation(self, questions, candidates, choices, answers, device, max_length, batch_size=4):
        if not self.model or not self.tokenizer:
            print('Something wrong has been happened!')
            return
        if len(questions) != len(candidates):
            print('length of two inputs is not equal!!')
            return
        if len(choices) != len(answers):
            print('length of choices and answers is not equal!!')
            return
        if len(questions) != len(answers):
            print('length of inputs and answers is not equal!!')
            return

        dataset = MultipleChoiceQADataset(questions=questions, candidates=candidates, choices=choices, answers=answers,
                                          tokenizer=self.tokenizer, max_length=max_length, model_type=self.model_type)
        data_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size)
        print(f'#question:{len(questions)}, #candidates:{len(candidates)}, #answer:{len(answers)}')
        print("#batch:", len(data_loader))

        gc.collect()
        torch.cuda.empty_cache()
        # Tell pytorch to run this model on the GPU.
        if device.type != 'cpu':
            self.model.cuda()
        self.model.eval()

        total_loss, total_time = 0, 0
        output_predictions = []
        golden_choices, predicted_choices = [], []
        print("Start to evaluate test data ...")
        for step, batch in enumerate(data_loader):
            b_input_ids = batch['input_ids']
            b_attention_mask = batch['attention_mask']
            b_token_type_ids = batch['token_type_ids']
            b_choices = batch['choice']

            # move tensors to GPU if CUDA is available
            b_input_ids = b_input_ids.to(device)
            b_attention_mask = b_attention_mask.to(device)
            b_token_type_ids = b_token_type_ids.to(device)
            b_choices = b_choices.to(device)

            # This will return the loss (rather than the model output) because we have provided the `labels`.
            with torch.no_grad():
                start = time.monotonic()
                b_outputs = self.model(input_ids=b_input_ids, attention_mask=b_attention_mask,
                                       token_type_ids=b_token_type_ids, labels=b_choices)
                end = time.monotonic()
                total_time += end - start
                print(f'inference time for step {step}: {end - start}')
            # get the loss
            total_loss += b_outputs.loss.item()

            golden_choices.extend(b_choices.cpu().detach().numpy().tolist())
            b_predictions = torch.argmax(b_outputs.logits, dim=1)
            b_predictions = b_predictions.cpu().detach().numpy().tolist()
            predicted_choices.extend(b_predictions)

            for i in range(len(b_input_ids)):
                output_predictions.append((
                    batch['question'][i],
                    batch['candidates'][i].split(' <sep> '),
                    batch['choice'][i].item(),
                    batch['answer'][i],
                    b_predictions[i],
                    batch['candidates'][i].split(' <sep> ')[b_predictions[i]]
                ))

        # Calculate the average loss over the training data.
        avg_train_loss = total_loss / len(data_loader)
        print("average loss:", avg_train_loss)

        print("total inference time:", total_time)
        print("total inference time / #samples:", total_time / len(questions))

        # evaluate
        print("Test Accuracy: {}".format(accuracy_score(golden_choices, predicted_choices)))
        print("Test Precision: {}".format(precision_score(golden_choices, predicted_choices, average="weighted")))
        print("Test Recall: {}".format(recall_score(golden_choices, predicted_choices, average="weighted")))
        print("Test F1-Score(weighted average): {}".format(
            f1_score(golden_choices, predicted_choices, average="weighted")))
        print("Test classification Report:\n{}".format(
            classification_report(golden_choices, predicted_choices, digits=10)))
        return output_predictions

    def mt5_evaluation(self, questions, candidates, choices, answers, device, max_length, batch_size=4):
        if not self.model or not self.tokenizer:
            print('Something wrong has been happened!')
            return
        if len(questions) != len(candidates):
            print('length of two inputs is not equal!!')
            return
        if len(choices) != len(answers):
            print('length of choices and answers is not equal!!')
            return
        if len(questions) != len(answers):
            print('length of inputs and answers is not equal!!')
            return

        dataset = MultipleChoiceQADataset(questions=questions, candidates=candidates, choices=choices, answers=answers,
                                          tokenizer=self.tokenizer, max_length=max_length, model_type="mt5")
        data_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size)
        print(f'#question:{len(questions)}, #candidates:{len(candidates)}, #answer:{len(answers)}')
        print("#batch:", len(data_loader))

        gc.collect()
        torch.cuda.empty_cache()
        # Tell pytorch to run this model on the GPU.
        if device.type != 'cpu':
            self.model.cuda()
        self.model.eval()

        total_time = 0
        output_predictions = []
        golden_choices, predicted_choices, exact_score_list, f1_score_list = [], [], [], []
        print("Start to evaluate test data ...")
        for step, batch in enumerate(data_loader):
            b_input_ids = batch['input_ids']
            b_attention_mask = batch['attention_mask']

            # move tensors to GPU if CUDA is available
            b_input_ids = b_input_ids.to(device)
            b_attention_mask = b_attention_mask.to(device)

            # This will return the loss (rather than the model output) because we have provided the `labels`.
            with torch.no_grad():
                start = time.monotonic()
                b_outputs = self.model.generate(input_ids=b_input_ids, attention_mask=b_attention_mask)
                end = time.monotonic()
                total_time += end - start
                print(f'inference time for step {step}: {end - start}')

            b_predictions = self.tokenizer.batch_decode(b_outputs, skip_special_tokens=True)

            for i in range(len(b_input_ids)):
                if b_predictions[i] in batch['candidates'][i].split(' <sep> '):
                    predicted_choice = str(batch['candidates'][i].split(' <sep> ').index(b_predictions[i]) + 1)
                else:
                    normalized_edit_distance_list = [
                        editdistance.distance(ca, b_predictions[i]) / max(len(ca), len(b_predictions[i])) for ca in
                        batch['candidates'][i].split(' <sep> ')
                    ]
                    predicted_choice = str(normalized_edit_distance_list.index(min(normalized_edit_distance_list)) + 1)

                golden_choices.append(batch['choice'][i])
                predicted_choices.append(predicted_choice)

                exact_score_list.append(compute_exact(batch['answer'][i], b_predictions[i]))
                f1_score_list.append(compute_f1(batch['answer'][i], b_predictions[i]))

                output_predictions.append((
                    batch['question'][i],
                    batch['candidates'][i].split(' <sep> '),
                    batch['choice'][i],
                    batch['answer'][i],
                    predicted_choice,
                    b_predictions[i],
                    exact_score_list[-1],
                    f1_score_list[-1]
                ))

        print("total inference time:", total_time)
        print("total inference time / #samples:", total_time / len(questions))

        # evaluate
        print("Test Accuracy: {}".format(accuracy_score(golden_choices, predicted_choices)))
        print("Test Precision: {}".format(precision_score(golden_choices, predicted_choices, average="weighted")))
        print("Test Recall: {}".format(recall_score(golden_choices, predicted_choices, average="weighted")))
        print("Test F1-Score(weighted average): {}".format(
            f1_score(golden_choices, predicted_choices, average="weighted")))
        print("Test classification Report:\n{}".format(
            classification_report(golden_choices, predicted_choices, digits=10)))

        total = len(exact_score_list)
        evaluation_results = collections.OrderedDict(
            [
                ("exact", 100.0 * sum(exact_score_list) / total),
                ("f1", 100.0 * sum(f1_score_list) / total),
                ("total", total),
            ]
        )
        print("evaluation results:\n", evaluation_results)

        return output_predictions


In [6]:
model_name='persiannlp/parsbert-base-parsinlu-multiple-choice'
mcqa_model = MultipleChoiceQA(model_name=model_name, model_type="parsbert")
print(mcqa_model.config)

Downloading:   0%|          | 0.00/711 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.22M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/62.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/651M [00:00<?, ?B/s]

BertConfig {
  "_name_or_path": "persiannlp/parsbert-base-parsinlu-multiple-choice",
  "architectures": [
    "BertForMultipleChoice"
  ],
  "attention_probs_dropout_prob": 0.1,
  "finetuning_task": "multiple_choice_all",
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2",
    "3": "LABEL_3"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2,
    "LABEL_3": 3
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.7.0",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 100000
}



## Sample Inference

In [7]:
question_list = [
    "وسیع ترین کشور جهان کدام است؟",
    "طامع یعنی ؟",
    "زمینی به ۳۱ قطعه متساوی مفروض شده است و هر روز مساحت آماده شده برای احداث، دو برابر مساحت روز قبل است.اگر پس از (۵ روز) تمام زمین آماده شده باشد، در چه روزی یک قطعه زمین آماده شده"
]
candidate_list=[
    ["آمریکا", "کانادا", "روسیه", "چین"],
    ["آزمند", "خوش شانس", "محتاج", "مطمئن"],
    ["روز اول", "روز دوم", "روز سوم", "هیچکدام"]
]
mcqa_model.multiple_choice_qa_inference(question_list, candidate_list, device)

[('وسیع ترین کشور جهان کدام است؟',
  ['آمریکا', 'کانادا', 'روسیه', 'چین'],
  'آمریکا'),
 ('طامع یعنی ؟', ['آزمند', 'خوش شانس', 'محتاج', 'مطمئن'], 'آزمند'),
 ('زمینی به ۳۱ قطعه متساوی مفروض شده است و هر روز مساحت آماده شده برای احداث، دو برابر مساحت روز قبل است.اگر پس از (۵ روز) تمام زمین آماده شده باشد، در چه روزی یک قطعه زمین آماده شده',
  ['روز اول', 'روز دوم', 'روز سوم', 'هیچکدام'],
  'روز اول')]

## Multiple-Choice Dataset


In [8]:
!git clone https://github.com/persiannlp/parsinlu
!ls parsinlu
!ls parsinlu/data/multiple-choice/

Cloning into 'parsinlu'...
remote: Enumerating objects: 1434, done.[K
remote: Counting objects: 100% (182/182), done.[K
remote: Compressing objects: 100% (98/98), done.[K
remote: Total 1434 (delta 110), reused 139 (delta 82), pack-reused 1252[K
Receiving objects: 100% (1434/1434), 27.81 MiB | 18.64 MiB/s, done.
Resolving deltas: 100% (913/913), done.
data  LICENSE  README.md  requirements.txt  scripts  src
test_ck.jsonl  test_lit.jsonl  train.jsonl
test.jsonl     test_ml.jsonl   valid.jsonl


### Samples with literature as their category

In [9]:
test_questions_lit, test_candidates_lit, test_choices_lit, test_answers_lit = mcqa_model.load_dataset_test_file(
    dataset_name="parsinlu-literature", dataset_file="./parsinlu/data/multiple-choice/test_lit.jsonl")
print(test_questions_lit[0])
print(test_candidates_lit[0])
print(test_choices_lit[0])
print(test_answers_lit[0])
print(len(test_questions_lit))
print(len(test_candidates_lit))
print(len(test_choices_lit))
print(len(test_answers_lit))

رابطه‌ی شیر با جنگل مثل رابطه‌ی
['سرباز است با پادگان', 'اتوبوس است با ایستگاه', 'هواپیما است با آسمان', 'کشتی است با بندر']
3
هواپیما است با آسمان
350
350
350
350


In [10]:
!nvidia-smi
!lscpu

Sat Aug 14 16:41:37 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   43C    P0    26W /  70W |   8718MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [11]:
evaluation_output = mcqa_model.evaluation(test_questions_lit, test_candidates_lit, test_choices_lit, test_answers_lit, device, max_length=mcqa_model.config.max_position_embeddings, batch_size=64)

#question:350, #candidates:350, #answer:350
#batch: 6
Start to evaluate test data ...
inference time for step 0: 0.03904973800001699
inference time for step 1: 0.00835990299998457
inference time for step 2: 0.008402467999985674
inference time for step 3: 0.00836894899998697
inference time for step 4: 0.00951824199995599
inference time for step 5: 0.009337450999964858
average loss: 1.3862948218981426
total inference time: 0.08303675099989505
total inference time / #samples: 0.00023724785999970014
Test Accuracy: 0.2057142857142857
Test Precision: 0.20554015748031498
Test Recall: 0.2057142857142857
Test F1-Score(weighted average): 0.15225913632672686
Test classification Report:
              precision    recall  f1-score   support

           0  0.2007874016 0.6800000000 0.3100303951        75
           1  0.2549019608 0.1274509804 0.1699346405       102
           2  0.1600000000 0.0430107527 0.0677966102        93
           3  0.2000000000 0.0500000000 0.0800000000        80

    accu

In [12]:
for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output[:25]:
  print('{}\t{}\t{}\t{}\t{}\t{}'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))

رابطه‌ی شیر با جنگل مثل رابطه‌ی	['سرباز است با پادگان', 'اتوبوس است با ایستگاه', 'هواپیما است با آسمان', 'کشتی است با بندر']	2	هواپیما است با آسمان	0	سرباز است با پادگان
رابطه ي بخار با یخ مثل رابطه ي:	['خمیر است با نان', 'گندم است با آرد', 'غوره است با کشمش', 'باران است با برف']	2	غوره است با کشمش	0	خمیر است با نان
در عبارت زیر، به‌ترتیب « مضاف‌الیه مضاف‌الیه، صفت مضاف‌الیه و متمم اسم» کدام است؟
«مطالعه تفاسیر قرآن، روح اشعار حافظ شیراز را جلایی خاص بخشیده و از غزلیات این شاعر بی‌بدیل می‌توان به مهارت
خاص او در کشف رموز عرفانی پی برد.»	['قرآن، این، کشف', 'حافظ، عرفانی، غزلیات', 'شیراز، این شاعر، مهارت', 'رموز، بی\u200cبدیل، کشف رموز عرفانی']	0	قرآن، این، کشف	0	قرآن، این، کشف
مشهورترین شاعر رمانتیک قرن نوزدهم فرانسه چه کسی است؟	['ولتر', 'ویکتورهوگو', 'لافونتن', 'ژان ژاک  روسو']	1	ویکتورهوگو	0	ولتر
مفرد كدام كلمه صحيح است	['الوان : لون', 'حواس : احساس', 'اعضا: عضوها', 'الف وب']	2	اعضا: عضوها	0	الوان : لون
کدام عبارت، نادرست است؟	['شاعر منظومه\u200cهای حماسی مصنوع، با داستان\u200cهای 

In [13]:
output_file_name = "multiple_choice_qa_literature_testset_{}_outputs.txt".format(model_name.replace('/','-'))
with open(output_file_name, "w", encoding='utf8') as output_file:
  for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output:
    output_file.write('{}\t{}\t{}\t{}\t{}\t{}\n'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
upload = drive.CreateFile({'title': output_file_name})
upload.SetContentFile(output_file_name)
upload.Upload()

### Samples with math_and_logic as their category

In [14]:
test_questions_ml, test_candidates_ml, test_choices_ml, test_answers_ml = mcqa_model.load_dataset_test_file(
    dataset_name="parsinlu-math_and_logic", dataset_file="./parsinlu/data/multiple-choice/test_ml.jsonl")
print(test_questions_ml[0])
print(test_candidates_ml[0])
print(test_choices_ml[0])
print(test_answers_ml[0])
print(len(test_questions_ml))
print(len(test_candidates_ml))
print(len(test_choices_ml))
print(len(test_answers_ml))

تفاوت سن علیرضا و خواهرش A سال است B سال دیگر سن علیرضا دوبرابر سن امروز خواهرش خواهد بود .سن خواهر علیرضا کدام است؟
['2A', '2A+B', '3A+B', 'A-B']
2
2A+B
350
350
350
350


In [15]:
!nvidia-smi
!lscpu

Sat Aug 14 16:42:26 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   60C    P0    37W /  70W |  10590MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [16]:
evaluation_output = mcqa_model.evaluation(test_questions_ml, test_candidates_ml, test_choices_ml, test_answers_ml, device, max_length=mcqa_model.config.max_position_embeddings, batch_size=64)

#question:350, #candidates:350, #answer:350
#batch: 6
Start to evaluate test data ...
inference time for step 0: 0.2605414600000131
inference time for step 1: 0.008791447000021435
inference time for step 2: 0.008380685000020094
inference time for step 3: 0.008515162000037435
inference time for step 4: 0.008263057000021945
inference time for step 5: 0.009169076999967274
average loss: 1.3862948417663574
total inference time: 0.3036608880000813
total inference time / #samples: 0.0008676025371430894
Test Accuracy: 0.32285714285714284
Test Precision: 0.29744991789819375
Test Recall: 0.32285714285714284
Test F1-Score(weighted average): 0.23933322003653437
Test classification Report:
              precision    recall  f1-score   support

           0  0.3333333333 0.8050847458 0.4714640199       118
           1  0.3103448276 0.0909090909 0.1406250000        99
           2  0.3000000000 0.0740740741 0.1188118812        81
           3  0.1875000000 0.0576923077 0.0882352941        52

    ac

In [17]:
for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output[:25]:
  print('{}\t{}\t{}\t{}\t{}\t{}'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))

تفاوت سن علیرضا و خواهرش A سال است B سال دیگر سن علیرضا دوبرابر سن امروز خواهرش خواهد بود .سن خواهر علیرضا کدام است؟	['2A', '2A+B', '3A+B', 'A-B']	1	2A+B	0	2A
در ادامه این رشته چه عددی باید نوشت؟ ۹۱،۸۶،۷۶،۶۱،...	['۴۶', '۴۱', '۵۱', '۳۶']	1	۴۱	0	۴۶
50 تا 20 تا برابر است با ......	['10000', '100', '1000', '500']	2	1000	0	10000
در ادامه این رشته چه عددی باید نوشت؟             3, 5, 5, 9, 7, 13, 9, …	['17', '11', '14', '15']	0	17	0	17
مساحت مربع ۸ ،p برابر مساحت مربع Q است. نسبت قطر مربع p به ضلع مربع Q کدامست؟	['۴', '۲', '۳', '۱']	0	۴	1	۲
%50 عدد 24 برابر است با ....	['4', '6', '10', '12']	3	12	0	4
کدام عدد نزدیکتر۷ به است؟	['۴', '۶', '۹', '۱۱']	1	۶	2	۹
چند درصد ۵۰۰ برابر ۵۰ می‌شود؟	['۱', '۱۰', '۲۰', '۳۰']	1	۱۰	0	۱
قیمت یک کالا %۲۵ تخفیف داده شده است برای آنکه این کالا به قیمت قبل از تخفیف فروخته شود چند درصد باید به قیمت آن افزوده گردد؟	['۲۵', '۲۰', '۳۳.۳۳', 'هیچکدام']	2	۳۳.۳۳	0	۲۵
حاصل عبارت ۵ - ۳ برابر است با ؟	['-2', '2', '1', '-1']	0	-2	1	2
حاصل عبارت ۴۴ + ۲۳ برابر است با ؟	['68', '65

In [18]:
output_file_name = "multiple_choice_qa_math_and_logic_testset_{}_outputs.txt".format(model_name.replace('/','-'))
with open(output_file_name, "w", encoding='utf8') as output_file:
  for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output:
    output_file.write('{}\t{}\t{}\t{}\t{}\t{}\n'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
upload = drive.CreateFile({'title': output_file_name})
upload.SetContentFile(output_file_name)
upload.Upload()

### Samples with common_knowledge as their category

In [19]:
test_questions_ck, test_candidates_ck, test_choices_ck, test_answers_ck = mcqa_model.load_dataset_test_file(
    dataset_name="parsinlu-common_knowledge", dataset_file="./parsinlu/data/multiple-choice/test_ck.jsonl")
print(test_questions_ck[0])
print(test_candidates_ck[0])
print(test_choices_ck[0])
print(test_answers_ck[0])
print(len(test_questions_ck))
print(len(test_candidates_ck))
print(len(test_choices_ck))
print(len(test_answers_ck))

کدام کشور اولین تولید کننده خرما در جهان است؟
['ایران', 'عربستان', 'عراق', 'سوریه']
1
ایران
350
350
350
350


In [20]:
!nvidia-smi
!lscpu

Sat Aug 14 16:43:17 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   67C    P0    35W /  70W |  10590MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [21]:
evaluation_output = mcqa_model.evaluation(test_questions_ck, test_candidates_ck, test_choices_ck, test_answers_ck, device, max_length=mcqa_model.config.max_position_embeddings, batch_size=64)

#question:350, #candidates:350, #answer:350
#batch: 6
Start to evaluate test data ...
inference time for step 0: 0.26734842100000833
inference time for step 1: 0.011430007000001297
inference time for step 2: 0.008626352000021598
inference time for step 3: 0.00863539699997773
inference time for step 4: 0.008734450999952514
inference time for step 5: 0.008293420999962109
average loss: 1.3862948417663574
total inference time: 0.3130680489999236
total inference time / #samples: 0.0008944801399997816
Test Accuracy: 0.26857142857142857
Test Precision: 0.252966130893114
Test Recall: 0.26857142857142857
Test F1-Score(weighted average): 0.2074875359070669
Test classification Report:
              precision    recall  f1-score   support

           0  0.2633587786 0.7040816327 0.3833333333        98
           1  0.3260869565 0.1704545455 0.2238805970        88
           2  0.3000000000 0.0957446809 0.1451612903        94
           3  0.0833333333 0.0142857143 0.0243902439        70

    accur

In [22]:
for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output[:25]:
  print('{}\t{}\t{}\t{}\t{}\t{}'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))

کدام کشور اولین تولید کننده خرما در جهان است؟	['ایران', 'عربستان', 'عراق', 'سوریه']	0	ایران	0	ایران
مقام رهبری در قانون اساسی جمهوری اسلامی دارای چه کار ویژه ای است؟	['ریاست کشور', 'نظارت عالیه', 'تنظیم کننده قوای سه گانه', 'حاکمیت مطلق']	2	تنظیم کننده قوای سه گانه	0	ریاست کشور
الماس سخت تر است یا گرانیت؟	['الماس', 'گرانیت', '', '']	0	الماس	0	الماس
طبق قانون اساسی شورای نگهبان طی چند روز از تاریخ وصول باید نظر خود را نسبت به مصوبات مجلس
اعلام نماید؟	['یک ماه', 'ده روز', 'دو هفته', 'تا حصول اطمینان']	1	ده روز	0	یک ماه
در کشور ایران بیشترین نرخ بیکاری متعلق به کدام یک از گزینه های زیر میباشد؟	['دارندگان مدرک تحصیلی تکمیلی', 'افراد زیر دیپلم', 'افراد بالای 50 سال', 'فارغ التحصیلان دانشگاهها']	0	دارندگان مدرک تحصیلی تکمیلی	0	دارندگان مدرک تحصیلی تکمیلی
ریاست اولین دوره مجلس شورای اسلامی بر عهده چه کسی بود؟	['آیت الله بهشتی', 'آیت الله کروبی', 'آیت الله رفسنجانی', 'آیت الله ناطق نوری']	3	آیت الله ناطق نوری	0	آیت الله بهشتی
سوره بیست و هفتم قرآن کریم کدامست؟	['سوره اسراء', 'سوره توبه', 'سو

In [23]:
output_file_name = "multiple_choice_qa_common_knowledge_testset_{}_outputs.txt".format(model_name.replace('/','-'))
with open(output_file_name, "w", encoding='utf8') as output_file:
  for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output:
    output_file.write('{}\t{}\t{}\t{}\t{}\t{}\n'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
upload = drive.CreateFile({'title': output_file_name})
upload.SetContentFile(output_file_name)
upload.Upload()

### All Samples

In [24]:
test_questions_all, test_candidates_all, test_choices_all, test_answers_all = mcqa_model.load_dataset_test_file(
    dataset_name="parsinlu", dataset_file="./parsinlu/data/multiple-choice/test.jsonl")
print(test_questions_all[0])
print(test_candidates_all[0])
print(test_choices_all[0])
print(test_answers_all[0])
print(len(test_questions_all))
print(len(test_candidates_all))
print(len(test_choices_all))
print(len(test_answers_all))

تفاوت سن علیرضا و خواهرش A سال است B سال دیگر سن علیرضا دوبرابر سن امروز خواهرش خواهد بود .سن خواهر علیرضا کدام است؟
['2A', '2A+B', '3A+B', 'A-B']
2
2A+B
1050
1050
1050
1050


In [25]:
!nvidia-smi
!lscpu

Sat Aug 14 16:44:10 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   73C    P0    41W /  70W |  10590MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [26]:
evaluation_output = mcqa_model.evaluation(test_questions_all, test_candidates_all, test_choices_all, test_answers_all, device, max_length=mcqa_model.config.max_position_embeddings, batch_size=64)

#question:1050, #candidates:1050, #answer:1050
#batch: 17
Start to evaluate test data ...
inference time for step 0: 0.27069728300000406
inference time for step 1: 0.008777381000015794
inference time for step 2: 0.009008895000022221
inference time for step 3: 0.012308103000009396
inference time for step 4: 0.008443107999994481
inference time for step 5: 0.008468744999959199
inference time for step 6: 0.008799344999999903
inference time for step 7: 0.008233946000018477
inference time for step 8: 0.008365459000003739
inference time for step 9: 0.009114326000030815
inference time for step 10: 0.00891568700001244
inference time for step 11: 0.009660393999979533
inference time for step 12: 0.009447060999946189
inference time for step 13: 0.008803696000086347
inference time for step 14: 0.008681491999936952
inference time for step 15: 0.008927753000079974
inference time for step 16: 0.009114832000022943
average loss: 1.3862948557909798
total inference time: 0.41576750600012247
total inferenc

In [27]:
for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output[:25]:
  print('{}\t{}\t{}\t{}\t{}\t{}'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))

تفاوت سن علیرضا و خواهرش A سال است B سال دیگر سن علیرضا دوبرابر سن امروز خواهرش خواهد بود .سن خواهر علیرضا کدام است؟	['2A', '2A+B', '3A+B', 'A-B']	1	2A+B	0	2A
در ادامه این رشته چه عددی باید نوشت؟ ۹۱،۸۶،۷۶،۶۱،...	['۴۶', '۴۱', '۵۱', '۳۶']	1	۴۱	0	۴۶
50 تا 20 تا برابر است با ......	['10000', '100', '1000', '500']	2	1000	0	10000
در ادامه این رشته چه عددی باید نوشت؟             3, 5, 5, 9, 7, 13, 9, …	['17', '11', '14', '15']	0	17	0	17
مساحت مربع ۸ ،p برابر مساحت مربع Q است. نسبت قطر مربع p به ضلع مربع Q کدامست؟	['۴', '۲', '۳', '۱']	0	۴	1	۲
%50 عدد 24 برابر است با ....	['4', '6', '10', '12']	3	12	0	4
کدام عدد نزدیکتر۷ به است؟	['۴', '۶', '۹', '۱۱']	1	۶	2	۹
چند درصد ۵۰۰ برابر ۵۰ می‌شود؟	['۱', '۱۰', '۲۰', '۳۰']	1	۱۰	0	۱
قیمت یک کالا %۲۵ تخفیف داده شده است برای آنکه این کالا به قیمت قبل از تخفیف فروخته شود چند درصد باید به قیمت آن افزوده گردد؟	['۲۵', '۲۰', '۳۳.۳۳', 'هیچکدام']	2	۳۳.۳۳	0	۲۵
حاصل عبارت ۵ - ۳ برابر است با ؟	['-2', '2', '1', '-1']	0	-2	1	2
حاصل عبارت ۴۴ + ۲۳ برابر است با ؟	['68', '65

In [28]:
output_file_name = "multiple_choice_qa_all_testset_{}_outputs.txt".format(model_name.replace('/','-'))
with open(output_file_name, "w", encoding='utf8') as output_file:
  for question, candidates, true_choice, true_answer, predicted_choice, predicted_answer in evaluation_output:
    output_file.write('{}\t{}\t{}\t{}\t{}\t{}\n'.format(question, candidates, true_choice, true_answer, predicted_choice, predicted_answer))
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
upload = drive.CreateFile({'title': output_file_name})
upload.SetContentFile(output_file_name)
upload.Upload()