In [156]:
from datasets import load_dataset

train_dataset = load_dataset("json", data_files="..\datasets\copa-translated\\hi\\train.jsonl", \
                             split="train")

Found cached dataset json (C:/Users/arifa/.cache/huggingface/datasets/json/default-4aa02a47edd70562/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


In [157]:
val_dataset = load_dataset("json", data_files="..\datasets\copa-translated\\hi\\val.jsonl", \
                            split="train")

Found cached dataset json (C:/Users/arifa/.cache/huggingface/datasets/json/default-bfbd5b7cdea343df/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


In [158]:
test_dataset = load_dataset("json", data_files="..\datasets\copa-translated\\hi\\test.jsonl", \
                             split="train")

Found cached dataset json (C:/Users/arifa/.cache/huggingface/datasets/json/default-0e1a32d75e6ec46c/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


In [159]:
from transformers import BertForSequenceClassification, BertConfig, CharacterBertModel, CharacterBertTokenizer

tokenizer = CharacterBertTokenizer(strip_accents=None, do_lower_case=None, max_length=32, padding='max_length')

In [160]:
import pandas as pd

train_df = pd.DataFrame(columns=['context', 'question', 'answer','start_position','end_position'])
val_df = pd.DataFrame(columns=['context', 'question', 'answer','start_position','end_position'])
test_df = pd.DataFrame(columns=['context', 'question', 'answer','start_position','end_position'])

In [161]:
translation = {
    'cause': 'इसका कारण क्या था?',
    'effect': 'इसका क्या असर हुआ?'
}

In [162]:
choice_names=['choice1','choice2']

In [163]:
def preprocess_function(examples, df):
    idx = 0
    for sample in examples:
        df.loc[idx] = pd.Series({'context': sample['choice1'] +' '+sample['choice2'],\
                                 'question':sample["premise"]+' '+translation[sample['question']],\
                                     'answer': sample[choice_names[sample['label']]]})
        idx = idx + 1
    
    return df

In [164]:
train_df = preprocess_function(train_dataset, train_df)

In [165]:
val_df = preprocess_function(val_dataset, val_df)

In [166]:
test_df = preprocess_function(test_dataset, test_df)

In [167]:
train_df[:5]

Unnamed: 0,context,question,answer,start_position,end_position
0,सूरज उग रहा था। घास काटी गई।,मेरे शरीर ने घास पर छाया डाली। इसका कारण क्या था?,सूरज उग रहा था।,,
1,महिला को पता था कि उसका दोस्त कठिन समय से गुजर...,महिला ने अपने दोस्त के कठिन व्यवहार को सहन किय...,महिला को पता था कि उसका दोस्त कठिन समय से गुजर...,,
2,एक नए स्थान में कैफे फिर से खुल गया। वे एक-दूस...,महिलाएं कॉफी के लिए मिलीं। इसका कारण क्या था?,वे एक-दूसरे को पकड़ना चाहते थे।,,
3,पूर्वानुमान में उच्च तापमान की भविष्यवाणी की ग...,धावक ने शॉर्ट्स पहनी थी। इसका कारण क्या था?,पूर्वानुमान में उच्च तापमान की भविष्यवाणी की ग...,,
4,यह एक सरप्राइज पार्टी थी। यह जन्मदिन की पार्टी...,पार्टी के मेहमान सोफे के पीछे छिप गए। इसका कार...,यह एक सरप्राइज पार्टी थी।,,


In [168]:
import re

def get_start_end(train_df):
    for index in range(len(train_df)):
        answer = train_df['answer'][index]
        context = train_df['context'][index]
        for match in re.finditer(answer, context):
            #print(match.start(), match.end())
            pass

        #print(context[match.start(): match.end()])
        train_df['start_position'][index] = match.start()
        train_df['end_position'][index] = match.end()
    
    return train_df

In [169]:
train_df = get_start_end(train_df)
val_df = get_start_end(val_df)
test_df = get_start_end(test_df)

In [170]:
train_df[:5]

Unnamed: 0,context,question,answer,start_position,end_position
0,सूरज उग रहा था। घास काटी गई।,मेरे शरीर ने घास पर छाया डाली। इसका कारण क्या था?,सूरज उग रहा था।,0,15
1,महिला को पता था कि उसका दोस्त कठिन समय से गुजर...,महिला ने अपने दोस्त के कठिन व्यवहार को सहन किय...,महिला को पता था कि उसका दोस्त कठिन समय से गुजर...,0,54
2,एक नए स्थान में कैफे फिर से खुल गया। वे एक-दूस...,महिलाएं कॉफी के लिए मिलीं। इसका कारण क्या था?,वे एक-दूसरे को पकड़ना चाहते थे।,37,68
3,पूर्वानुमान में उच्च तापमान की भविष्यवाणी की ग...,धावक ने शॉर्ट्स पहनी थी। इसका कारण क्या था?,पूर्वानुमान में उच्च तापमान की भविष्यवाणी की ग...,0,51
4,यह एक सरप्राइज पार्टी थी। यह जन्मदिन की पार्टी...,पार्टी के मेहमान सोफे के पीछे छिप गए। इसका कार...,यह एक सरप्राइज पार्टी थी।,0,25


In [171]:
from datasets import Dataset, DatasetDict

train_ds = Dataset.from_pandas(train_df)
val_ds = Dataset.from_pandas(val_df)
test_ds = Dataset.from_pandas(test_df)

In [172]:
datasets = DatasetDict()
datasets['train'] = train_ds
datasets['validation'] = val_ds
datasets['test'] = test_ds

In [173]:
train_df[:1]

Unnamed: 0,context,question,answer,start_position,end_position
0,सूरज उग रहा था। घास काटी गई।,मेरे शरीर ने घास पर छाया डाली। इसका कारण क्या था?,सूरज उग रहा था।,0,15


In [174]:
train_dataset[0]

{'premise': 'मेरे शरीर ने घास पर छाया डाली।',
 'choice1': 'सूरज उग रहा था।',
 'choice2': 'घास काटी गई।',
 'question': 'cause',
 'idx': 0,
 'label': 0}

In [175]:
datasets

DatasetDict({
    train: Dataset({
        features: ['context', 'question', 'answer', 'start_position', 'end_position', '__index_level_0__'],
        num_rows: 362
    })
    validation: Dataset({
        features: ['context', 'question', 'answer', 'start_position', 'end_position', '__index_level_0__'],
        num_rows: 88
    })
    test: Dataset({
        features: ['context', 'question', 'answer', 'start_position', 'end_position', '__index_level_0__'],
        num_rows: 449
    })
})

In [176]:
context = datasets["train"][0]["context"]
question = datasets["train"][0]["question"]

inputs = tokenizer(question, context)
tokenizer.decode(inputs["input_ids"])

'[CLS] मेरे शरीर ने घास पर छाया डाली । इसका कारण क्या था? [SEP] सूरज उग रहा था । घास काटी गई । [SEP]'

In [177]:
inputs = tokenizer(
    question,
    context,
)
inputs.keys()

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])

In [178]:
def preprocess_training_examples(examples):
    context = examples["context"]
    question = examples["question"]

    inputs = tokenizer(question, context, truncation=True)
    
    return inputs

In [216]:
train_dataset = datasets["train"].map(
    preprocess_training_examples,
    batched=True,
    remove_columns=['context', 'question', 'answer', '__index_level_0__'],
)
len(train_dataset), len(train_dataset)

Map:   0%|          | 0/362 [00:00<?, ? examples/s]

(362, 362)

In [217]:
eval_dataset = datasets["validation"].map(
    preprocess_training_examples,
    batched=True,
    remove_columns=['context', 'question', 'answer', '__index_level_0__'],
)
len(eval_dataset), len(eval_dataset)

Map:   0%|          | 0/88 [00:00<?, ? examples/s]

(88, 88)

In [225]:
eval_dataset.column_names

['start_position',
 'end_position',
 'input_ids',
 'token_type_ids',
 'attention_mask']

In [219]:
eval_dataset.set_format("torch")

In [223]:
type(eval_dataset)

datasets.arrow_dataset.Dataset

In [230]:
import torch
from transformers import AutoModelForQuestionAnswering

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

batch = {k: eval_dataset[k].to(device) for k in eval_dataset[:16].column_names}

AttributeError: 'dict' object has no attribute 'column_names'