# Define tool and model of the tool

In [1]:
import sys

TOOLS_NAME_NER = "ner"
MODEL_TOOLS_NAME_NER = "ageng-anugrah/indobert-large-p2-finetuned-ner"

TOOLS_NAME_POS = "token-classification"
MODEL_TOOLS_NAME_POS = "ageng-anugrah/indobert-large-p2-finetuned-chunking"

MODEL_SIMILARITY_NAME = "paraphrase-multilingual-mpnet-base-v2"

# SAMPLE = sys.maxsize
SAMPLE = 20

# Import anything

In [2]:
import transformers
import evaluate
import torch
import operator
import re
import sys
import collections
import string
import contextlib
import gc
import random
import string

import numpy as np
import pandas as pd
import torch.nn as nn

from multiprocessing import cpu_count
from evaluate import load
from nusacrowd import NusantaraConfigHelper
from datetime import datetime
from huggingface_hub import notebook_login
from tqdm import tqdm
from huggingface_hub import HfApi
from sentence_transformers import SentenceTransformer, util

from datasets import (
    load_dataset, 
    Dataset,
    DatasetDict
)
from transformers import (
    DataCollatorWithPadding,
    TrainingArguments,
    Trainer,
    AutoModelForSequenceClassification,
    AutoTokenizer,
    EarlyStoppingCallback, 
    AutoModelForQuestionAnswering,
    AutoModelForTokenClassification,
    pipeline
)

# Retrieve QA dataset

In [3]:
conhelps = NusantaraConfigHelper()
data_qas = conhelps.filtered(lambda x: 'idk_mrc' in x.dataset_name)[0].load_dataset()

df_train = pd.DataFrame(data_qas['train'])
df_validation = pd.DataFrame(data_qas['validation'])
df_test = pd.DataFrame(data_qas['test'])

cols = ['context', 'question', 'answer']
new_df_train = pd.DataFrame(columns=cols)

for i in tqdm(range(len(df_train['context']))):
    for j in df_train["qas"][i]:
        if len(j['answers']) != 0:
            new_df_train = new_df_train.append({'context': df_train["context"][i], 
                                                'question': j['question'], 
                                                'answer': {"text": j['answers'][0]['text'], 
                                                           "answer_start": j['answers'][0]['answer_start'], 
                                                           "answer_end": j['answers'][0]['answer_start'] + len(j['answers'][0]['text'])}}, 
                                                           ignore_index=True)
        else:
            new_df_train = new_df_train.append({'context': df_train["context"][i], 
                                                'question': j['question'], 
                                                'answer': {"text": str(), 
                                                           "answer_start": 0, 
                                                           "answer_end": 0}}, 
                                                           ignore_index=True)

cols = ['context', 'question', 'answer']
new_df_val = pd.DataFrame(columns=cols)

for i in tqdm(range(len(df_validation['context']))):
    for j in df_validation["qas"][i]:
        if len(j['answers']) != 0:
            new_df_val = new_df_val.append({'context': df_validation["context"][i], 
                                            'question': j['question'], 
                                            'answer': {"text": j['answers'][0]['text'], 
                                                       "answer_start": j['answers'][0]['answer_start'], 
                                                       "answer_end": j['answers'][0]['answer_start'] + len(j['answers'][0]['text'])}}, 
                                                       ignore_index=True)
        else:
            new_df_val = new_df_val.append({'context': df_validation["context"][i], 
                                            'question': j['question'], 
                                            'answer': {"text": str(), 
                                                       "answer_start": 0, 
                                                       "answer_end": 0}}, 
                                                       ignore_index=True)        

cols = ['context', 'question', 'answer']
new_df_test = pd.DataFrame(columns=cols)

for i in tqdm(range(len(df_test['context']))):
    for j in df_test["qas"][i]:
        if len(j['answers']) != 0:
            new_df_test = new_df_test.append({'context': df_test["context"][i], 
                                            'question': j['question'], 
                                            'answer': {"text": j['answers'][0]['text'], 
                                                       "answer_start": j['answers'][0]['answer_start'], 
                                                       "answer_end": j['answers'][0]['answer_start'] + len(j['answers'][0]['text'])}}, 
                                                       ignore_index=True)
        else:
            new_df_test = new_df_test.append({'context': df_test["context"][i], 
                                            'question': j['question'], 
                                            'answer': {"text": str(), 
                                                       "answer_start": 0, 
                                                       "answer_end": 0}}, 
                                                       ignore_index=True)

train_dataset = Dataset.from_dict(new_df_train)
validation_dataset = Dataset.from_dict(new_df_val)
test_dataset = Dataset.from_dict(new_df_test)

data_qas = DatasetDict({"train": train_dataset, "validation": validation_dataset, "test": test_dataset})
data_qas



  0%|          | 0/3 [00:00<?, ?it/s]

100%|██████████████████████████████████████████████████████████████████████████████| 3659/3659 [00:16<00:00, 216.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 358/358 [00:01<00:00, 268.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 378/378 [00:01<00:00, 256.18it/s]


DatasetDict({
    train: Dataset({
        features: ['context', 'question', 'answer'],
        num_rows: 9332
    })
    validation: Dataset({
        features: ['context', 'question', 'answer'],
        num_rows: 764
    })
    test: Dataset({
        features: ['context', 'question', 'answer'],
        num_rows: 844
    })
})

# Convert to NLI, with hypothesis being just do concat question & answer

## Convert Dataset to DataFrame format

In [4]:
seed_value = 42
random.seed(seed_value)

In [5]:
data_qas_train_df = (pd.DataFrame(data_qas["train"])).sample(n=SAMPLE, random_state=42)
data_qas_val_df = (pd.DataFrame(data_qas["validation"])).sample(n=SAMPLE, random_state=42)
data_qas_test_df = (pd.DataFrame(data_qas["test"])).sample(n=SAMPLE, random_state=42)

data_qas_train_df = data_qas_train_df.reset_index(drop=True)
data_qas_val_df = data_qas_val_df.reset_index(drop=True)
data_qas_test_df = data_qas_test_df.reset_index(drop=True)

## Retrieve answer text only

In [6]:
def retrieve_answer_text(data):
    for i in range(len(data)):
        data['answer'][i] = data['answer'][i]['text']
    return data

In [7]:
data_qas_train_df = retrieve_answer_text(data_qas_train_df)
data_qas_val_df = retrieve_answer_text(data_qas_val_df)
data_qas_test_df = retrieve_answer_text(data_qas_test_df)

## Delete all unanswerable row

In [8]:
data_qas_train_df = data_qas_train_df[data_qas_train_df['answer'] != '']
data_qas_val_df = data_qas_val_df[data_qas_val_df['answer'] != '']
data_qas_test_df = data_qas_test_df[data_qas_test_df['answer'] != '']

### Reset index number

In [9]:
data_qas_train_df = data_qas_train_df.reset_index(drop=True)
data_qas_val_df = data_qas_val_df.reset_index(drop=True)
data_qas_test_df = data_qas_test_df.reset_index(drop=True)

## Create NLI dataset from copy of QA dataset above

In [10]:
data_nli_train_df = data_qas_train_df.copy()
data_nli_val_df = data_qas_val_df.copy()
data_nli_test_df = data_qas_test_df.copy()

In [11]:
#data_nli_wrong_train_df = data_qas_train_df.copy()
#data_nli_wrong_val_df = data_qas_val_df.copy()
#data_nli_wrong_test_df = data_qas_test_df.copy()

## Convert context pair to premise (only renaming column)

In [12]:
data_nli_train_df = data_nli_train_df.rename(columns={"context": "premise"})
data_nli_val_df = data_nli_val_df.rename(columns={"context": "premise"})
data_nli_test_df = data_nli_test_df.rename(columns={"context": "premise"})

# Add contradiction label cases

## Import pipeline to create contradiction cases

In [13]:
nlp_tools_ner = pipeline(task = TOOLS_NAME_NER, 
                     model = MODEL_TOOLS_NAME_NER, 
                     tokenizer = AutoTokenizer.from_pretrained(MODEL_TOOLS_NAME_NER, 
                                                               model_max_length=512, 
                                                               truncation=True),
                     aggregation_strategy = 'simple')

In [14]:
nlp_tools_chunking = pipeline(task = TOOLS_NAME_POS, 
                     model = MODEL_TOOLS_NAME_POS, 
                     tokenizer = AutoTokenizer.from_pretrained(MODEL_TOOLS_NAME_POS, 
                                                               model_max_length=512, 
                                                               truncation=True),
                     aggregation_strategy = 'simple')

## Add NER and chunking tag column in DataFrame

In [15]:
def add_row_tag(answer, tag, ner=nlp_tools_ner, chunking=nlp_tools_chunking):

    if tag == "ner": tools=ner
    else: tools=chunking

    try:
        tag_answer = (tools(answer)[0]['entity_group'], answer)
    except:
        tag_answer = ("NULL", answer)
        
    return tag_answer

In [16]:
def add_premise_tag(data, tag, index, premise_array, ner=nlp_tools_ner, chunking=nlp_tools_chunking):

    if tag == "ner": tools=ner
    else: tools=chunking
    
    if len(tools(data['premise'][index])) == 0:
        premise_array.append("NO TOKEN DETECTED")
    
    else:
        for j in tools(data['premise'][index]):
            tag_premise = (j['entity_group'], j['word'])
            premise_array.append(tag_premise)

    return premise_array

In [17]:
def add_ner_and_chunking_all_tag(data):
    
    data['ner_tag_answer'] = ""
    data['chunking_tag_answer'] = ""
    
    data['ner_tag_premise'] = ""
    data['chunking_tag_premise'] = ""
    
    for i in tqdm(range(len(data))):
        
        answer = data['answer'][i]
        premise = data['premise'][i]
        
        ner_premise_array = []
        chunking_premise_array = []
            
        data['ner_tag_answer'][i] = add_row_tag(answer, "ner")
        data['chunking_tag_answer'][i] = add_row_tag(answer, "chunking")
                                                
        data['ner_tag_premise'][i] = add_premise_tag(data, "ner", i, ner_premise_array)
        data['chunking_tag_premise'][i] = add_premise_tag(data, "chunking", i, chunking_premise_array)  
    
    return data

In [18]:
data_nli_train_df = add_ner_and_chunking_all_tag(data_nli_train_df)
data_nli_val_df = add_ner_and_chunking_all_tag(data_nli_val_df)
data_nli_test_df = add_ner_and_chunking_all_tag(data_nli_test_df)

100%|███████████████████████████████████████████████████████████████████████████████████| 10/10 [00:44<00:00,  4.46s/it]
100%|███████████████████████████████████████████████████████████████████████████████████| 12/12 [00:43<00:00,  3.59s/it]
100%|███████████████████████████████████████████████████████████████████████████████████| 10/10 [00:32<00:00,  3.24s/it]


100%|███████████████████████████████████████████████████████████████████████████████| 19/19 [00:00<00:00, 185329.71it/s][A
 15%|████████████                                                                  | 776/5042 [55:08<5:01:37,  4.24s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 44/44 [00:00<00:00, 617221.99it/s][A
 15%|████████████                                                                  | 777/5042 [55:11<4:22:05,  3.69s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 125829.12it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 220109.25it/s][A
 15%|████████████                                                                  | 778/5042 [55:14<4:11:28,  3.54s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 78545.02it/s][A

100%|██████████

 16%|████████████▋                                                                 | 824/5042 [58:46<5:16:38,  4.50s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 51781.53it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 120/120 [00:00<00:00, 1002622.47it/s][A
 16%|████████████▊                                                                 | 825/5042 [58:52<5:54:08,  5.04s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 224981.82it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 68/68 [00:00<00:00, 669513.31it/s][A
 16%|████████████▊                                                                 | 826/5042 [58:56<5:38:37,  4.82s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 95016.60it/s][A

100%|█████████

100%|███████████████████████████████████████████████████████████████████████████████| 54/54 [00:00<00:00, 523077.17it/s][A
 17%|█████████████▏                                                              | 871/5042 [1:01:47<5:07:53,  4.43s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 108162.57it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 54/54 [00:00<00:00, 668119.22it/s][A
 17%|█████████████▏                                                              | 872/5042 [1:01:51<4:59:01,  4.30s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 149796.57it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 54/54 [00:00<00:00, 540554.69it/s][A
 17%|█████████████▏                                                              | 873/5042 [1:01:55<4:52:40,  4.21s/it]
100%|██████████

 18%|█████████████▊                                                              | 915/5042 [1:04:23<4:32:10,  3.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 141699.46it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 670016.61it/s][A
 18%|█████████████▊                                                              | 916/5042 [1:04:27<4:37:11,  4.03s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 149796.57it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 615000.59it/s][A
 18%|█████████████▊                                                              | 917/5042 [1:04:31<4:38:31,  4.05s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 164482.51it/s][A

100%|█████████

100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 27147.60it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 136/136 [00:00<00:00, 915610.50it/s][A
 19%|██████████████▌                                                             | 962/5042 [1:07:39<4:36:53,  4.07s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 87642.17it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 293/293 [00:00<00:00, 1168185.43it/s][A
 19%|██████████████▌                                                             | 963/5042 [1:07:50<6:43:58,  5.94s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 71961.10it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 293/293 [00:00<00:00, 1135795.82it/s][A
 19%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 13/13 [00:00<00:00, 185462.42it/s][A
 20%|██████████████▉                                                            | 1007/5042 [1:10:30<3:11:52,  2.85s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 56807.73it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 11/11 [00:00<00:00, 151767.58it/s][A
 20%|██████████████▉                                                            | 1008/5042 [1:10:33<3:08:42,  2.81s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11983.73it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 131/131 [00:00<00:00, 1191873.80it/s][A
 20%|███████████████                                                            | 1009/5042 [1:10:39<4:15:28,  3.80s/it]
100%|██████████

 21%|███████████████▋                                                           | 1053/5042 [1:13:40<4:28:29,  4.04s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 67/67 [00:00<00:00, 759509.10it/s][A
 21%|███████████████▋                                                           | 1054/5042 [1:13:44<4:25:20,  3.99s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 67/67 [00:00<00:00, 737581.02it/s][A
 21%|███████████████▋                                                           | 1055/5042 [1:13:48<4:17:32,  3.88s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 37/37 [00:00<00:00, 306698.12it/s][A
 21%|███████████████▋                                                           | 1056/5042 [1:13:51<4:02:03,  3.64s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 154866.61it/s][A

100%|██████████████

100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 266813.23it/s][A
 22%|████████████████▎                                                          | 1100/5042 [1:16:51<3:46:50,  3.45s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 22795.13it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 370521.55it/s][A
 22%|████████████████▍                                                          | 1101/5042 [1:16:54<3:41:31,  3.37s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 19239.93it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 250256.80it/s][A
 22%|████████████████▍                                                          | 1102/5042 [1:16:58<3:36:17,  3.29s/it]
100%|██████████

 23%|█████████████████                                                          | 1146/5042 [1:20:06<4:25:35,  4.09s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 30/30 [00:00<00:00, 443060.28it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 190/190 [00:00<00:00, 1170216.98it/s][A
 23%|█████████████████                                                          | 1147/5042 [1:20:15<5:55:38,  5.48s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 58254.22it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 27/27 [00:00<00:00, 274203.89it/s][A
 23%|█████████████████                                                          | 1148/5042 [1:20:18<5:10:39,  4.79s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 157680.60it/s][A

100%|█████████

 24%|█████████████████▋                                                         | 1193/5042 [1:23:51<6:20:35,  5.93s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 55553.70it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 33/33 [00:00<00:00, 306900.29it/s][A
 24%|█████████████████▊                                                         | 1194/5042 [1:23:55<5:53:06,  5.51s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 58661.59it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 33/33 [00:00<00:00, 449389.71it/s][A
 24%|█████████████████▊                                                         | 1195/5042 [1:23:58<5:08:39,  4.81s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 45714.49it/s][A

100%|█████████

 25%|██████████████████▏                                                       | 1237/5042 [1:29:00<10:47:14, 10.21s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 19/19 [00:00<00:00, 232337.54it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 107/107 [00:00<00:00, 954873.46it/s][A
 25%|██████████████████▏                                                       | 1238/5042 [1:29:12<11:38:23, 11.02s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 87018.76it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 163566.17it/s][A
 25%|██████████████████▏                                                       | 1239/5042 [1:29:21<10:48:06, 10.23s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 92794.34it/s][A

100%|█████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11366.68it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 11/11 [00:00<00:00, 102755.78it/s][A
 25%|███████████████████                                                        | 1284/5042 [1:35:00<5:39:58,  5.43s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 349525.33it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 113/113 [00:00<00:00, 1062682.40it/s][A
 25%|███████████████████                                                        | 1285/5042 [1:35:09<6:41:58,  6.42s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 313859.48it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 113/113 [00:00<00:00, 466952.07it/s][A
 26%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 57/57 [00:00<00:00, 622592.00it/s][A
 26%|███████████████████▊                                                       | 1331/5042 [1:39:39<6:29:11,  6.29s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 57/57 [00:00<00:00, 647900.62it/s][A
 26%|███████████████████▊                                                       | 1332/5042 [1:39:44<5:48:22,  5.63s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 162710.07it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 140/140 [00:00<00:00, 503172.72it/s][A
 26%|███████████████████▊                                                       | 1333/5042 [1:39:55<7:41:48,  7.47s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 69245.58it/s][A

100%|██████████

100%|███████████████████████████████████████████████████████████████████████████████| 97/97 [00:00<00:00, 842334.34it/s][A
 27%|████████████████████▏                                                     | 1378/5042 [1:45:48<11:45:40, 11.56s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 110376.42it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 97/97 [00:00<00:00, 625919.21it/s][A
 27%|████████████████████▏                                                     | 1379/5042 [1:46:00<11:47:56, 11.60s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 127961.82it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 97/97 [00:00<00:00, 562721.28it/s][A
 27%|████████████████████▎                                                     | 1380/5042 [1:46:12<12:11:59, 11.99s/it]
100%|██████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12633.45it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 59/59 [00:00<00:00, 354532.86it/s][A
 28%|█████████████████████▏                                                     | 1425/5042 [1:51:32<5:22:23,  5.35s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 694481.71it/s][A
 28%|█████████████████████▏                                                     | 1426/5042 [1:51:38<5:35:55,  5.57s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 82/82 [00:00<00:00, 694814.00it/s][A
 28%|█████████████████████▏                                                     | 1427/5042 [1:51:43<5:18:17,  5.28s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 82/82 [00:00<00:00, 690628.37it/s][A
 28%|███████████

100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 39945.75it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 179872.69it/s][A
 29%|█████████████████████▉                                                     | 1472/5042 [1:55:30<3:50:12,  3.87s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 89558.09it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 185290.54it/s][A
 29%|█████████████████████▉                                                     | 1473/5042 [1:55:35<3:59:50,  4.03s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 85890.18it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 176771.43it/s][A
 29%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 737886.81it/s][A
 30%|██████████████████████▌                                                    | 1518/5042 [1:59:38<5:42:49,  5.84s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 157750.37it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 541200.52it/s][A
 30%|██████████████████████▌                                                    | 1519/5042 [1:59:43<5:44:00,  5.86s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 251067.49it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 533055.36it/s][A
 30%|██████████████████████▌                                                    | 1520/5042 [1:59:49<5:35:44,  5.72s/it]
100%|██████████

100%|███████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 167772.16it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 94/94 [00:00<00:00, 758201.11it/s][A
 31%|███████████████████████▏                                                   | 1563/5042 [2:03:27<5:20:32,  5.53s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 103138.62it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 243355.52it/s][A
 31%|███████████████████████▎                                                   | 1564/5042 [2:03:29<4:24:01,  4.55s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 69136.88it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 201421.38it/s][A
 31%|██████

 32%|███████████████████████▉                                                   | 1608/5042 [2:06:33<7:12:05,  7.55s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 418123.76it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 136/136 [00:00<00:00, 923018.36it/s][A
 32%|███████████████████████▉                                                   | 1609/5042 [2:06:43<7:40:25,  8.05s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 30030.82it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 36/36 [00:00<00:00, 453438.27it/s][A
 32%|███████████████████████▉                                                   | 1610/5042 [2:06:49<7:15:14,  7.61s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 13/13 [00:00<00:00, 154903.27it/s][A

100%|█████████

100%|███████████████████████████████████████████████████████████████████████████████| 11/11 [00:00<00:00, 117697.31it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 360934.17it/s][A
 33%|████████████████████████▌                                                  | 1654/5042 [2:09:46<3:28:18,  3.69s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 52335.34it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 728588.02it/s][A
 33%|████████████████████████▌                                                  | 1655/5042 [2:09:51<3:43:57,  3.97s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11618.57it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 485202.26it/s][A
 33%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 218909.39it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 87/87 [00:00<00:00, 833115.18it/s][A
 34%|█████████████████████████▎                                                 | 1698/5042 [2:13:02<4:16:32,  4.60s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 87018.76it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 65/65 [00:00<00:00, 554125.53it/s][A
 34%|█████████████████████████▎                                                 | 1699/5042 [2:13:07<4:17:54,  4.63s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 209715.20it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 266305.02it/s][A
 34%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 48/48 [00:00<00:00, 637109.47it/s][A
 35%|█████████████████████████▉                                                 | 1742/5042 [2:15:41<3:25:47,  3.74s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 74631.74it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 292285.99it/s][A
 35%|█████████████████████████▉                                                 | 1743/5042 [2:15:43<3:08:21,  3.43s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 88434.12it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 300263.37it/s][A
 35%|█████████████████████████▉                                                 | 1744/5042 [2:15:46<2:53:08,  3.15s/it]
100%|██████████

100%|███████████████████████████████████████████████████████████████████████████████| 43/43 [00:00<00:00, 420408.09it/s][A
 35%|██████████████████████████▌                                                | 1786/5042 [2:18:13<3:21:54,  3.72s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 103819.41it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 43/43 [00:00<00:00, 541606.82it/s][A
 35%|██████████████████████████▌                                                | 1787/5042 [2:18:16<3:14:49,  3.59s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 93000.09it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 43/43 [00:00<00:00, 490095.30it/s][A
 35%|██████████████████████████▌                                                | 1788/5042 [2:18:19<3:06:59,  3.45s/it]
100%|██████████

100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 79739.62it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 173910.17it/s][A
 36%|███████████████████████████▎                                               | 1832/5042 [2:20:37<3:31:50,  3.96s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 132104.06it/s][A

100%|█████████████████████████████████████████████████████████████████████████████| 121/121 [00:00<00:00, 964849.40it/s][A
 36%|███████████████████████████▎                                               | 1833/5042 [2:20:44<4:25:43,  4.97s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 98980.63it/s][A

100%|████████████████████████████████████████████████████████████████████████████| 121/121 [00:00<00:00, 1103284.31it/s][A
 36%|██████

 37%|███████████████████████████▉                                               | 1877/5042 [2:23:35<3:07:12,  3.55s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 18236.10it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 31/31 [00:00<00:00, 366263.17it/s][A
 37%|███████████████████████████▉                                               | 1878/5042 [2:23:39<3:06:18,  3.53s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11184.81it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 31/31 [00:00<00:00, 459446.73it/s][A
 37%|███████████████████████████▉                                               | 1879/5042 [2:23:42<2:59:20,  3.40s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 158275.62it/s][A

100%|█████████

 38%|████████████████████████████▋                                              | 1925/5042 [2:26:31<3:31:46,  4.08s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 172250.68it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 79/79 [00:00<00:00, 610221.02it/s][A
 38%|████████████████████████████▋                                              | 1926/5042 [2:26:38<4:18:52,  4.98s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 316551.25it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 79/79 [00:00<00:00, 612476.92it/s][A
 38%|████████████████████████████▋                                              | 1927/5042 [2:26:45<4:48:59,  5.57s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 147538.33it/s][A

100%|█████████

 39%|█████████████████████████████▎                                             | 1970/5042 [2:29:34<3:08:22,  3.68s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 255608.55it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 35/35 [00:00<00:00, 492619.60it/s][A
 39%|█████████████████████████████▎                                             | 1971/5042 [2:29:39<3:26:54,  4.04s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 139810.13it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 44/44 [00:00<00:00, 253850.59it/s][A
 39%|█████████████████████████████▎                                             | 1972/5042 [2:29:42<3:17:02,  3.85s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 64776.90it/s][A

100%|█████████

 40%|█████████████████████████████▉                                             | 2015/5042 [2:32:45<2:58:01,  3.53s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 159158.86it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 80/80 [00:00<00:00, 449189.18it/s][A
 40%|█████████████████████████████▉                                             | 2016/5042 [2:32:50<3:17:24,  3.91s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 186657.51it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 78/78 [00:00<00:00, 526820.79it/s][A
 40%|██████████████████████████████                                             | 2017/5042 [2:32:55<3:31:59,  4.20s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 81180.08it/s][A

100%|█████████

100%|███████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 138273.76it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 537731.28it/s][A
 41%|██████████████████████████████▋                                            | 2061/5042 [2:36:12<3:25:32,  4.14s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 37871.82it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 440705.86it/s][A
 41%|██████████████████████████████▋                                            | 2062/5042 [2:36:15<3:02:44,  3.68s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 52924.97it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 423814.69it/s][A
 41%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 55/55 [00:00<00:00, 720896.00it/s][A
 42%|███████████████████████████████▎                                           | 2105/5042 [2:38:41<2:52:28,  3.52s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 123361.88it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 55/55 [00:00<00:00, 425621.25it/s][A
 42%|███████████████████████████████▎                                           | 2106/5042 [2:38:45<3:00:42,  3.69s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 65/65 [00:00<00:00, 488583.80it/s][A
 42%|███████████████████████████████▎                                           | 2107/5042 [2:38:48<2:59:20,  3.67s/it]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 9939.11it/s][A

100%|██████████

100%|█████████████████████████████████████████████████████████████████████████████| 123/123 [00:00<00:00, 992114.22it/s][A
 43%|███████████████████████████████▉                                           | 2151/5042 [2:42:14<7:20:09,  9.14s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 274536.26it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 811112.22it/s][A
 43%|████████████████████████████████                                           | 2152/5042 [2:42:20<6:37:33,  8.25s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 245920.10it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 753586.53it/s][A
 43%|████████████████████████████████                                           | 2153/5042 [2:42:28<6:31:02,  8.12s/it]
100%|██████████

 44%|████████████████████████████████▋                                          | 2196/5042 [2:45:36<3:50:11,  4.85s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 51/51 [00:00<00:00, 668467.20it/s][A
 44%|████████████████████████████████▋                                          | 2197/5042 [2:45:39<3:20:58,  4.24s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 51/51 [00:00<00:00, 138992.53it/s][A
 44%|████████████████████████████████▋                                          | 2198/5042 [2:45:42<3:04:29,  3.89s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 51/51 [00:00<00:00, 426114.55it/s][A
 44%|████████████████████████████████▋                                          | 2199/5042 [2:45:46<3:08:55,  3.99s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 41527.76it/s][A

100%|██████████████

100%|███████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 134003.32it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 16/16 [00:00<00:00, 220752.84it/s][A
 44%|█████████████████████████████████▎                                         | 2243/5042 [2:48:44<2:34:19,  3.31s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 19/19 [00:00<00:00, 284613.49it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 89/89 [00:00<00:00, 880408.15it/s][A
 45%|█████████████████████████████████▍                                         | 2244/5042 [2:48:51<3:26:07,  4.42s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 85250.08it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 129625.29it/s][A
 45%|██████

100%|███████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 377487.36it/s][A
 45%|██████████████████████████████████                                         | 2290/5042 [2:52:33<3:58:34,  5.20s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 317750.30it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 490243.32it/s][A
 45%|██████████████████████████████████                                         | 2291/5042 [2:52:43<5:05:45,  6.67s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 233016.89it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 525748.41it/s][A
 45%|██████████████████████████████████                                         | 2292/5042 [2:52:50<5:07:31,  6.71s/it]
100%|██████████

 46%|██████████████████████████████████▋                                        | 2335/5042 [2:55:56<2:28:07,  3.28s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 84126.44it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 42/42 [00:00<00:00, 326828.88it/s][A
 46%|██████████████████████████████████▋                                        | 2336/5042 [2:55:59<2:28:38,  3.30s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 36/36 [00:00<00:00, 378433.44it/s][A
 46%|██████████████████████████████████▊                                        | 2337/5042 [2:56:02<2:17:28,  3.05s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 36/36 [00:00<00:00, 396312.19it/s][A
 46%|██████████████████████████████████▊                                        | 2338/5042 [2:56:04<2:06:00,  2.80s/it]
100%|██████████████

100%|█████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 105149.68it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 58/58 [00:00<00:00, 675748.98it/s][A
 47%|███████████████████████████████████▍                                       | 2382/5042 [2:58:45<2:54:50,  3.94s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 64/64 [00:00<00:00, 211200.20it/s][A
 47%|███████████████████████████████████▍                                       | 2383/5042 [2:58:48<2:43:42,  3.69s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 116508.44it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 65/65 [00:00<00:00, 595261.48it/s][A
 47%|███████████████████████████████████▍                                       | 2384/5042 [2:58:53<3:10:16,  4.30s/it]
100%|██████████

100%|███████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 511903.24it/s][A
 48%|████████████████████████████████████                                       | 2427/5042 [3:01:43<3:34:52,  4.93s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 245760.00it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 583064.68it/s][A
 48%|████████████████████████████████████                                       | 2428/5042 [3:01:47<3:27:50,  4.77s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 120065.95it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 571531.53it/s][A
 48%|████████████████████████████████████▏                                      | 2429/5042 [3:01:52<3:26:53,  4.75s/it]
100%|██████████

100%|███████████████████████████████████████████████████████████████████████████████| 35/35 [00:00<00:00, 394625.38it/s][A
 49%|████████████████████████████████████▊                                      | 2473/5042 [3:04:36<2:27:09,  3.44s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 61/61 [00:00<00:00, 630178.68it/s][A
 49%|████████████████████████████████████▊                                      | 2474/5042 [3:04:39<2:20:16,  3.28s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 72817.78it/s][A

100%|███████████████████████████████████████████████████████████████████████████████| 42/42 [00:00<00:00, 338770.71it/s][A
 49%|████████████████████████████████████▊                                      | 2475/5042 [3:04:42<2:17:52,  3.22s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 90394.48it/s][A

100%|██████████

# Create wrong answer

This is the flow to create wrong answer:

1. Check the NER and POS/Chunking labels of the right_answer and context/premise.

2. Search and group NER and POS/Chunking labels that match the right_answer throughout the context/premise.

3. Perform NER classification. There will be two branches here, namely:

   3a. If the NER of the right_answer can be detected, then calculate the distance using semantic similarity or word vectors between the right_answer and various possible wrong_answers with the same NER as the right_answer. Once done, proceed to the final wrong_answer.
   
   3b. If the NER of the right_answer cannot be detected (NULL) or context/premise does not contain any of NER of right_answer, then the POS/Chunking of the right_answer will be identified.
   
4. Perform POS/Chunking classification. Continuation from point 3b. There will be two more branches:

   4a. If the POS/Chunking of the right_answer can be detected, then calculate the distance using semantic similarity or word vectors between the right_answer and various possible wrong_answers with the same POS/Chunking as the right_answer. Once done, proceed to the final wrong_answer.
   
   4b. If the POS/Chunking of the right_answer cannot be detected (NULL) or context/premise does not contain any of NER of right_answer, then the final wrong_answer will be chosen based on a random word (random_word) from the context/premise.

In [19]:
model_similarity = SentenceTransformer(MODEL_SIMILARITY_NAME)

def return_similarity_sorted_array(right_answer, sentence_array, model=model_similarity):
    
    embedding_right_answer = model.encode([right_answer], convert_to_tensor=True)
    embedding_sentence_array = model.encode(sentence_array, convert_to_tensor=True)
    
    cosine_scores = util.pytorch_cos_sim(embedding_right_answer, embedding_sentence_array)
    
    sorted_indices = cosine_scores.argsort(descending=True)[0]
    sorted_array = [sentence_array[i] for i in sorted_indices]
    
    return sorted_array

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: paraphrase-multilingual-mpnet-base-v2
INFO:sentence_transformers.SentenceTransformer:Use pytorch device: cuda


In [20]:
def remove_values_with_hash(arr):
    return [item for item in arr if "#" not in item]

In [21]:
def select_random_word(text):
    words = re.findall(r'\w+', text)
    random_word = random.choice(words)
    return random_word

In [22]:
def grouping_same_tag(tag_answer, tag_premise, same_tag_array):
    
    for tag in tag_premise:

        # Check is it in tuple?
        if isinstance(tag, tuple):
            tag_word = tag[0]
        else:
            tag_word = None
        
        if tag_answer == tag_word:
            same_tag_array.append(tag[1])

    return remove_values_with_hash(same_tag_array)

In [23]:
def sorting_similarity(data, right_answer, index, tag, plausible_answer_array):

    if tag == "ner": slice='same_ner_tag_answer'
    elif tag == "chunking": slice='same_chunking_tag_answer'
    else: slice=None

    # Find all the sorted (by similarity) plausible wrong answer, 
    # and remove hask & punctuation only answer
    if slice != None:
        wrong_answer_array = return_similarity_sorted_array(right_answer, data[slice][index])
    else:
        wrong_answer_array = return_similarity_sorted_array(right_answer, plausible_answer_array)
    
    plausible_answer_array = remove_values_with_hash(wrong_answer_array)
    plausible_answer_array = [string for string in plausible_answer_array \
                                      if not contains_only_punctuation(string)]

    # Only return the most similar to right_answer
    wrong_answer = plausible_answer_array[0]
    
    assert isinstance(wrong_answer, str)
    assert isinstance(plausible_answer_array, list)
    
    return wrong_answer, plausible_answer_array

In [24]:
def find_substring_span(long_string, substring):
    long_string = long_string.lower()
    substring = substring.lower()
    
    start_index = long_string.find(substring)
    
    if start_index != -1:
        end_index = start_index + len(substring) - 1
        return start_index, end_index
    else:
        return None

In [25]:
def check_span_overlap(span1, span2):
    return span1[0] <= span2[1] and span2[0] <= span1[1]

def check_string_overlap(str1, str2):
    return (str1[-1] >= str2[0]) \
            or (str1 in str2) \
            or (str2 in str1)

def contains_only_punctuation(text):
    return all(char in string.punctuation for char in text)

In [26]:
def replace_same_answer(right_answer, 
                        wrong_answer, 
                        premise, 
                        plausible_answer_array):
    
    # Removing right answer & wrong answer in this particular time
    plausible_answer_array = [item for item in plausible_answer_array \
                              if item not in [right_answer, wrong_answer]]

    if len(plausible_answer_array) <= 1:
        wrong_answer = select_random_word(premise)
        properties = """Detected span that is the SAME as the right answer, 
                                search random word from premise"""

    else:
        wrong_answer = plausible_answer_array[0] # Take the highest value in the sorted array
        properties = """Detected span that is the SAME as the right answer, 
                                search the highest value in the sorted array"""

    return wrong_answer, properties, plausible_answer_array

In [27]:
def create_wrong_answer(data):
    
    data['same_ner_tag_answer'] = ""
    data['same_chunking_tag_answer'] = ""
    data['wrong_answer'] = ""
    data['plausible_answer_based_on_method'] = ""
    data['properties'] = ""
    
    for i in tqdm(range(len(data))):
        
        right_answer = data['answer'][i]
        premise = data['premise'][i]

        same_ner_tag_answer_array = []
        same_chunking_tag_answer_array = []

        ner_tag_answer = data['ner_tag_answer'][i][0]
        ner_tag_premise = data['ner_tag_premise'][i]

        chunking_tag_answer = data['chunking_tag_answer'][i][0]
        chunking_tag_premise = data['chunking_tag_premise'][i]
        
        # Grouped with the same NER & Chunking group, between answer and word of premise
        data['same_ner_tag_answer'][i] = grouping_same_tag(ner_tag_answer,
                                                           ner_tag_premise,
                                                           same_ner_tag_answer_array)
        
        data['same_chunking_tag_answer'][i] = grouping_same_tag(chunking_tag_answer, 
                                                                chunking_tag_premise, 
                                                                same_chunking_tag_answer_array)
               
        # Start to create wrong answer
        plausible_answer_array = []

        # Perform NER classification
        # If the NER of the right_answer can be detected, then calculate the distance using semantic 
        # similarity or word vectors between the right_answer and various possible wrong_answers with 
        # the same NER as the right_answer. Once done, proceed to the final wrong_answer.
        if data['same_ner_tag_answer'][i] != []:
            wrong_answer, plausible_answer_array = sorting_similarity(data, right_answer, \
                                                                      i, "ner", plausible_answer_array)
            data['properties'][i] = """IDENTICAL NER labels were found, and the highest similarity 
                                    score same NER array was selected"""
            
        # If the NER of the right_answer cannot be detected (NULL) or context/premise does not contain 
        # any of NER of right_answer, then the POS/Chunking of the right_answer will be identified.
        # Perform POS/Chunking classification
        else:
            
            # If the POS/Chunking of the right_answer can be detected, then calculate the distance 
            # using semantic similarity or word vectors between the right_answer and various possible 
            # wrong_answers with the same POS/Chunking as the right_answer. Once done, proceed to the 
            # final wrong_answer.
            if data['same_chunking_tag_answer'][i] != []:
                wrong_answer, plausible_answer_array = sorting_similarity(data, right_answer, \
                                                                          i, "chunking", plausible_answer_array)
                data['properties'][i] = """IDENTICAL Chunking labels were found, and the highest similarity 
                                        score from same Chunking array was selected"""
            
            # If the POS/Chunking of the right_answer cannot be detected (NULL) or context/premise 
            # does not contain any of NER of right_answer, then the final wrong_answer will be chosen 
            # based on a random word (random_word) from the context/premise.
            else:
                for chunking_tag in chunking_tag_premise:
                    plausible_answer_array.append(chunking_tag[1])

                wrong_answer, plausible_answer_array = sorting_similarity(data, right_answer, \
                                                                          i, "none", plausible_answer_array)
                data['properties'][i] = """NO CHUNKING labels were found, and the highest similarity score 
                                        from plausible answer was selected"""

        # Check for preventing same answer for right_answer and wrong_answer  
        right_answer_span = find_substring_span(premise, right_answer)
        wrong_answer_span = find_substring_span(premise, wrong_answer)
        
        is_span_or_same_literal = check_span_overlap(right_answer_span, wrong_answer_span) \
                or check_string_overlap(right_answer.lower(), wrong_answer.lower())

        if is_span_or_same_literal:

            # Removing right answer & wrong answer in this particular time
            wrong_answer, properties, plausible_answer_array = replace_same_answer(right_answer, 
                                                                                  wrong_answer, 
                                                                                  premise, 
                                                                                  plausible_answer_array)
            data['properties'][i] = properties
        
        data['wrong_answer'][i] = wrong_answer
        data['plausible_answer_based_on_method'][i] = plausible_answer_array
            
    return data       

In [28]:
def create_wrong_answer_with_removing_invalid_data(data):
    
    data['same_ner_tag_answer'] = ""
    data['same_chunking_tag_answer'] = ""
    data['wrong_answer'] = ""
    data['plausible_answer_based_on_method'] = ""
    data['properties'] = ""
    
    for i in tqdm(range(len(data))):
        
        right_answer = data['answer'][i]
        premise = data['premise'][i]

        same_ner_tag_answer_array = []
        same_chunking_tag_answer_array = []

        ner_tag_answer = data['ner_tag_answer'][i][0]
        ner_tag_premise = data['ner_tag_premise'][i]

        chunking_tag_answer = data['chunking_tag_answer'][i][0]
        chunking_tag_premise = data['chunking_tag_premise'][i]
        
        # Grouped with the same NER & Chunking group, between answer and word of premise
        data['same_ner_tag_answer'][i] = grouping_same_tag(ner_tag_answer,
                                                           ner_tag_premise,
                                                           same_ner_tag_answer_array)
        
        data['same_chunking_tag_answer'][i] = grouping_same_tag(chunking_tag_answer, 
                                                                chunking_tag_premise, 
                                                                same_chunking_tag_answer_array)
               
        # Start to create wrong answer
        plausible_answer_array = []

        # Perform NER classification
        # If the NER of the right_answer can be detected, then calculate the distance using semantic 
        # similarity or word vectors between the right_answer and various possible wrong_answers with 
        # the same NER as the right_answer. Once done, proceed to the final wrong_answer.
        if data['same_ner_tag_answer'][i] != []:
            wrong_answer, plausible_answer_array = sorting_similarity(data, right_answer, \
                                                                      i, "ner", plausible_answer_array)
            data['properties'][i] = """IDENTICAL NER labels were found, and the highest similarity 
                                    score same NER array was selected"""
            
        # If the NER of the right_answer cannot be detected (NULL) or context/premise does not contain 
        # any of NER of right_answer, then drop that particular row data.
        else:
            data.drop(i, inplace=True)
            data.reset_index(drop=True)
            continue
        
        # Check for preventing same answer for right_answer and wrong_answer  
        right_answer_span = find_substring_span(premise, right_answer)
        wrong_answer_span = find_substring_span(premise, wrong_answer)
        
        is_span_or_same_literal = check_span_overlap(right_answer_span, wrong_answer_span) \
                or check_string_overlap(right_answer.lower(), wrong_answer.lower())

        if is_span_or_same_literal:

            # Removing right answer & wrong answer in this particular time
            wrong_answer, properties, plausible_answer_array = replace_same_answer(right_answer, 
                                                                                  wrong_answer, 
                                                                                  premise, 
                                                                                  plausible_answer_array)
            data['properties'][i] = properties
        
        data['wrong_answer'][i] = wrong_answer
        data['plausible_answer_based_on_method'][i] = plausible_answer_array
            
    return data       

In [29]:
1/0

ZeroDivisionError: division by zero

In [None]:
x = create_wrong_answer_with_removing_invalid_data(data_nli_train_df)
y = create_wrong_answer_with_removing_invalid_data(data_nli_val_df)
z = create_wrong_answer_with_removing_invalid_data(data_nli_test_df)

In [None]:
data_nli_train_df = create_wrong_answer(data_nli_train_df)
data_nli_val_df = create_wrong_answer(data_nli_val_df)
data_nli_test_df = create_wrong_answer(data_nli_test_df)

# Split to two dataset: right dataset & wrong dataset

In [None]:
def move_to_column_number(data, column_name="hypothesis", column_num=3):

    cols = list(data.columns)
    cols.remove(column_name)
    cols.insert(column_num, column_name)

    data = data[cols]
    
    return data

In [None]:
columns_to_exclude = ['wrong_answer']

data_nli_right_train_df = data_nli_train_df.drop(columns=columns_to_exclude).copy()
data_nli_right_val_df = data_nli_val_df.drop(columns=columns_to_exclude).copy()
data_nli_right_test_df = data_nli_test_df.drop(columns=columns_to_exclude).copy()

In [None]:
columns_to_exclude = ['answer']

data_nli_wrong_train_df = data_nli_train_df.drop(columns=columns_to_exclude).copy()
data_nli_wrong_val_df = data_nli_val_df.drop(columns=columns_to_exclude).copy()
data_nli_wrong_test_df = data_nli_test_df.drop(columns=columns_to_exclude).copy()

data_nli_wrong_train_df.rename(columns={'wrong_answer': 'answer'}, inplace=True)
data_nli_wrong_val_df.rename(columns={'wrong_answer': 'answer'}, inplace=True)
data_nli_wrong_test_df.rename(columns={'wrong_answer': 'answer'}, inplace=True)

data_nli_wrong_train_df = move_to_column_number(data_nli_wrong_train_df, "answer", 2)
data_nli_wrong_val_df = move_to_column_number(data_nli_wrong_val_df, "answer", 2)
data_nli_wrong_test_df = move_to_column_number(data_nli_wrong_test_df, "answer", 2)

# Convert question-answer pair to hypothesis

In [None]:
def convert_question_and_answer_to_hypothesis(data):
    for i in range(len(data)):
        data['hypothesis'] = data['question'] + ' ' + data['answer']
    return data

In [None]:
data_nli_right_train_df = convert_question_and_answer_to_hypothesis(data_nli_right_train_df)
data_nli_right_val_df = convert_question_and_answer_to_hypothesis(data_nli_right_val_df)
data_nli_right_test_df = convert_question_and_answer_to_hypothesis(data_nli_right_test_df)

data_nli_right_train_df = move_to_column_number(data_nli_right_train_df, "hypothesis", 3)
data_nli_right_val_df = move_to_column_number(data_nli_right_val_df, "hypothesis", 3)
data_nli_right_test_df = move_to_column_number(data_nli_right_test_df, "hypothesis", 3)

In [None]:
data_nli_wrong_train_df = convert_question_and_answer_to_hypothesis(data_nli_wrong_train_df)
data_nli_wrong_val_df = convert_question_and_answer_to_hypothesis(data_nli_wrong_val_df)
data_nli_wrong_test_df = convert_question_and_answer_to_hypothesis(data_nli_wrong_test_df)

data_nli_wrong_train_df = move_to_column_number(data_nli_wrong_train_df, "hypothesis", 3)
data_nli_wrong_val_df = move_to_column_number(data_nli_wrong_val_df, "hypothesis", 3)
data_nli_wrong_test_df = move_to_column_number(data_nli_wrong_test_df, "hypothesis", 3)

# Add label: entailment & contradiction

In [None]:
data_nli_right_train_df['label'] = 'entailment'
data_nli_right_val_df['label'] = 'entailment'
data_nli_right_test_df['label'] = 'entailment'

data_nli_right_train_df = move_to_column_number(data_nli_right_train_df, "label", 4)
data_nli_right_train_df = move_to_column_number(data_nli_right_val_df, "label", 4)
data_nli_right_train_df = move_to_column_number(data_nli_right_test_df, "label", 4)

In [None]:
data_nli_wrong_train_df['label'] = 'contradiction'
data_nli_wrong_val_df['label'] = 'contradiction'
data_nli_wrong_test_df['label'] = 'contradiction'

data_nli_wrong_train_df = move_to_column_number(data_nli_wrong_train_df, "label", 4)
data_nli_wrong_val_df = move_to_column_number(data_nli_wrong_val_df, "label", 4)
data_nli_wrong_test_df = move_to_column_number(data_nli_wrong_test_df, "label", 4)

# Concat the right and wrong NLI to one NLI dataset

In [None]:
data_nli_train_df_final = pd.concat([data_nli_right_train_df, data_nli_wrong_train_df], axis=0, ignore_index=True)
data_nli_val_df_final = pd.concat([data_nli_right_val_df, data_nli_wrong_val_df], axis=0, ignore_index=True)
data_nli_test_df_final = pd.concat([data_nli_right_test_df, data_nli_wrong_test_df], axis=0, ignore_index=True)

# Convert to DataFrame format to CSV

In [None]:
data_nli_train_df_final.to_csv("data_nli_train_df.csv", index=False)
data_nli_val_df_final.to_csv("data_nli_val_df.csv", index=False)
data_nli_test_df_final.to_csv("data_nli_test_df.csv", index=False)