# Import dependencies

In [2]:
# !pip install transformers[sentencepiece]
# !pip install datasets
# !pip install fugashi ipadic
# !pip install unidic_lite
# !apt-get install git-lfs

# Data Preprocess

In [3]:
import json
import glob
def read_json_file(file_path):
    with open(file_path) as f:
        data = json.load(f)
    return data

In [4]:
bn_train_data_path = "./bn_dataset/bn/train"
bn_val_data_path = "./bn_dataset/bn/val"
bn_train_files = glob.glob(bn_train_data_path+"/*.json")
bn_val_files = glob.glob(bn_val_data_path+"/*.json")

In [5]:
bn_val_files

['./bn_dataset/bn/val/validation.json']

In [6]:
from itertools import chain

In [7]:
bn_train_files

['./bn_dataset/bn/train/train.json']

In [8]:
bn_val_files

['./bn_dataset/bn/val/validation.json']

In [9]:
bn_train_data_list= list(map(read_json_file, bn_train_files))
bn_val_data_list= list(map(read_json_file, bn_val_files))

In [10]:
bn_train_list = [i["data"] for i in bn_train_data_list]
bn_val_list = [i["data"] for i in bn_val_data_list]


In [11]:
bn_train_data = list(chain(* bn_train_list))

In [12]:
len(bn_train_data)

1252

In [13]:
len(bn_train_data)

1252

In [14]:
bn_val_data = list(chain(* bn_val_list))

In [15]:
len(bn_val_data)

1252

In [16]:
import random
all_data = bn_train_data + bn_val_data

In [17]:
random.shuffle(all_data)

In [18]:
len(all_data)

2504

In [19]:
percentage = int((len(all_data)*90)/100)
print(percentage)

2253


In [20]:
bn_train_data = all_data[:percentage]
bn_val_data = all_data[percentage:]

In [21]:
from pprint import pprint
for i in bn_train_data[:1]:
    pprint(i)

{'paragraphs': [{'context': '১। গোলআলু Solanum tuberosum   ২। পেঁয়াজ Allium '
                            'cepa   ৩। ধান Oryza sativa   ৪। জবা Hibiscus '
                            'rosa-sinensis   ৫। পাট Corchorus capsularis   ৬। '
                            'আম Mangifera indica   ৭। কাঁঠাল Artocarpus '
                            'heterophyllus   ৮। শাপলা Nymphaea nouchali   ৯। '
                            'রুই মাছ Labeo rohita   ১০। কাতলা Catla catla   '
                            '১১। সিংহ Panthera leo   ১২। রয়েল বেঙ্গল টাইগার '
                            'Panthera tigris   ১৩। ম্যালেরিয়া জীবাণু '
                            'Plasmodium vivax   ১৪। আরশোলা Periplaneta '
                            'americana   ১৫। মৌমাছি Apis indica   ১৬। ইলিশ '
                            'Tenualosa ilisha   ১৭। কুনোব্যাঙ '
                            'Bufo/Duttaphrynus melanostictus   ১৮। দোয়েল '
                            'Copsychus saularis   ১৯। মানুষ Homo sapiens   ২০। '
            

# Model And Tokenizer Initialization

In [22]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer

model = AutoModelForQuestionAnswering.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")
tokenizer = AutoTokenizer.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer", use_fast=True)
# tokenizer.do_lower_case = True 

In [23]:
text = 'রাগবি লিগটি বেশিরভাগ নিউজিল্যান্ড এবং অস্ট্রেলিয়ায় বসবাসকারী সামোয়ানরা খেলে, প্রশংসাপত্র প্রয়োজন এনআরএল, সুপার লিগ এবং ঘরোয়া '

string_tokenized = tokenizer.encode(text)
print(string_tokenized)

[0, 266, 264, 1123, 268, 339, 268, 1612, 268, 279, 265, 292, 268, 666, 264, 298, 297, 268, 897, 268, 272, 267, 277, 264, 269, 267, 323, 402, 312, 514, 267, 286, 267, 266, 265, 272, 268, 277, 367, 277, 309, 1431, 264, 535, 264, 266, 289, 281, 264, 274, 288, 277, 367, 798, 264, 345, 265, 272, 379, 285, 267, 453, 312, 280, 264, 390, 267, 266, 285, 267, 674, 832, 358, 735, 8156, 16, 281, 276, 287, 264, 266, 339, 268, 298, 402, 312, 793, 288, 277, 367, 225, 2]


In [24]:
def data_preprocessing(dataset):
    contexts, questions, answers = [], [], []
    for group in dataset:
        for passage in group['paragraphs']:
            context = passage['context']
            for qa in passage['qas']:
                question = qa['question']
                for answer in qa['answers']:
                    contexts.append(context)
                    questions.append(question)
                    answers.append(answer)

    return contexts, questions, answers

In [25]:
train_contexts, train_questions, train_answers = data_preprocessing(bn_train_data)
test_contexts, test_questions, test_answers = data_preprocessing(bn_val_data)

print(len(train_answers))
squad_train = {'answers': train_answers,'context': train_contexts, 'question': train_questions}
squad_test = {'answers': test_answers,'context': test_contexts, 'question': test_questions}

2396


In [27]:
squad_train["answers"][:10]

[{'answer_start': 585, 'text': 'কলেরা জীবাণু'},
 {'answer_start': 202,
  'text': 'যুক্তরাষ্ট্রের ওয়াশিংটন অঙ্গরাজ্যের রেডমন্ড শহরে'},
 {'answer_start': 93, 'text': 'উরুগুয়ে'},
 {'answer_start': 22, 'text': 'তেঁতলে বিলাস'},
 {'answer_start': 404, 'text': 'ফিলিপাইনে'},
 {'answer_start': 604, 'text': 'আবু ধাবি'},
 {'answer_start': 20, 'text': 'আরবী মূলক'},
 {'answer_start': 528, 'text': 'সূর্য সেন'},
 {'answer_start': 352, 'text': 'হায়দ্রাবাদ'},
 {'answer_start': 433, 'text': '১৯৭১'}]

In [28]:
squad_train["question"][:10]

['মানুষের বৈজ্ঞানিক নাম কী ?',
 'মাইক্রোসফট কোম্পানীর সদর অফিস কোথায় ?',
 'সর্বপ্রথম ফুটবল বিশ্বকাপ কোথায় অনুষ্ঠিত হয়েছিল ?',
 'সমরেশ বসু রচিত গঙ্গা বাংলা উপন্যাসের নায়ক কে ?',
 'এশীয় উন্নয়ন ব্যাংকটির সদর দপ্তর কোথায় অবস্থিত ?',
 'সংযুক্ত আরব আমিরাতের রাজধানী কোথায় ?',
 'কাগজ শব্দটি কোন ধরণের বাংলা শব্দ ?',
 'গৌড়ের সর্বশেষ রাজা কে ছিলেন ?',
 'ভারতের অন্ধ্রপ্রদেশ রাজ্যের রাজধানী কোথায় ?',
 'মুহাম্মদ আতাউল গণি ওসমানী কোন সালে বাংলাদেশের সেনাবাহিনীর প্রধান সেনাপতির পদে নিযুক্ত হন ?']

In [29]:
squad_train["context"][:10]

['১। গোলআলু Solanum tuberosum   ২। পেঁয়াজ Allium cepa   ৩। ধান Oryza sativa   ৪। জবা Hibiscus rosa-sinensis   ৫। পাট Corchorus capsularis   ৬। আম Mangifera indica   ৭। কাঁঠাল Artocarpus heterophyllus   ৮। শাপলা Nymphaea nouchali   ৯। রুই মাছ Labeo rohita   ১০। কাতলা Catla catla   ১১। সিংহ Panthera leo   ১২। রয়েল বেঙ্গল টাইগার Panthera tigris   ১৩। ম্যালেরিয়া জীবাণু Plasmodium vivax   ১৪। আরশোলা Periplaneta americana   ১৫। মৌমাছি Apis indica   ১৬। ইলিশ Tenualosa ilisha   ১৭। কুনোব্যাঙ Bufo/Duttaphrynus melanostictus   ১৮। দোয়েল Copsychus saularis   ১৯। মানুষ Homo sapiens   ২০। কলেরা জীবাণু Vibrio cholerae   ২১। গম Triticum aestivum   ২২। ভুট্টা Zea mays   ২৩। মসুর Lens culinaris   ২৪। ছোলা Cicer arietinum   ২৫। মোটর Pisum sativum   ২৬। সোনামুগ Vigna radiate   ২৭। মাসকলাই Vigna mungo   ২৮। খেসারী Lathyrus sativus   ২৯। সয়াবিন Glycine max   ৩০। তিল Sesamum indicum',
 'মাইক্রোসফট কর্পোরেশন (NASDAQ:) যুক্তরাষ্ট্র ভিত্তিক একটি কম্পিউটার প্রযুক্তি প্রতিষ্ঠান। এটি বিভিন্ন কম্পিউটার ডিভাইস

In [30]:
def preprocess_function(examples, tokenizer):
#     print(examples.keys())
#     exit()
    questions = [q.strip() for q in examples["question"]]
    inputs = tokenizer(
        questions,
        examples["context"],
        max_length=512,
        truncation="only_second",
        return_offsets_mapping=True,
        padding="max_length",
    )

    offset_mapping = inputs.pop("offset_mapping")
    answers = examples["answers"]
    start_positions = []
    end_positions = []

    for i, offset in enumerate(offset_mapping):
        answer = answers[i]
#         print(answer)
        start_char = answer["answer_start"]
        end_char = answer["answer_start"] + len(answer["text"])
        sequence_ids = inputs.sequence_ids(i)

        # Find the start and end of the context
        idx = 0
        while sequence_ids[idx] != 1:
            idx += 1
        context_start = idx
        while sequence_ids[idx] == 1:
            idx += 1
        context_end = idx - 1

        # If the answer is not fully inside the context, label it (0, 0)
        if offset[context_start][0] > end_char or offset[context_end][1] < start_char:
            start_positions.append(0)
            end_positions.append(0)
        else:
            # Otherwise it's the start and end token positions
            idx = context_start
            while idx <= context_end and offset[idx][0] <= start_char:
                idx += 1
            start_positions.append(idx - 1)

            idx = context_end
            while idx >= context_start and offset[idx][1] >= end_char:
                idx -= 1
            end_positions.append(idx + 1)

    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions
    return inputs

In [31]:
tokenized_squad_train = preprocess_function(squad_train,tokenizer)
tokenized_squad_test = preprocess_function(squad_test,tokenizer)

In [32]:
from functools import partial
def generated_dict(tokenized_squad):
    tokenized_squad_data = list(map(lambda x: {
            "input_ids": x[0], 
            "attention_mask": x[1], 
            "start_positions": x[2], 
            "end_positions": x[3]
        },
        zip(
            tokenized_squad["input_ids"], 
            tokenized_squad["attention_mask"],
            tokenized_squad["start_positions"], 
            tokenized_squad["end_positions"]
        )
    ))
    return tokenized_squad_data


In [33]:
add_part = partial(generated_dict)
tokenized_squad_train_new = add_part(tokenized_squad_train)
tokenized_squad_val_new = add_part(tokenized_squad_test)

In [34]:
for i in tokenized_squad_train_new[:1]:
    print(i)

{'input_ids': [0, 274, 264, 269, 276, 301, 265, 266, 279, 392, 291, 267, 370, 264, 269, 268, 270, 297, 264, 274, 278, 289, 4685, 2, 2, 502, 283, 313, 288, 272, 1320, 276, 225, 55, 2163, 831, 2145, 557, 89, 3698, 2481, 2145, 7105, 378, 283, 285, 777, 277, 367, 291, 225, 37, 1519, 9667, 827, 4806, 69, 7105, 471, 283, 375, 264, 269, 225, 51, 5278, 15742, 8522, 20190, 7105, 530, 283, 759, 264, 225, 44, 2949, 1076, 10984, 12568, 69, 17, 15401, 26147, 7105, 522, 283, 285, 264, 286, 225, 39, 952, 1767, 952, 1480, 15169, 4308, 1076, 7105, 595, 283, 368, 225, 49, 2079, 1943, 14808, 3987, 9402, 7105, 633, 283, 278, 334, 340, 264, 272, 225, 37, 86, 88, 4340, 1017, 84, 1480, 1206, 1865, 25496, 26017, 7105, 642, 283, 314, 264, 1044, 264, 225, 50, 93, 2769, 76, 7611, 69, 1074, 928, 1767, 9266, 7105, 663, 283, 316, 276, 299, 293, 264, 296, 225, 48, 1858, 73, 83, 3738, 76, 8046, 7105, 528, 283, 278, 264, 794, 264, 225, 39, 880, 6744, 8508, 6744, 7105, 705, 283, 281, 411, 304, 225, 52, 2360, 1678, 69, 

In [35]:
len(tokenized_squad_train_new)

2396

In [37]:
for i in tokenized_squad_val_new[:1]:
    print(i)
    

{'input_ids': [0, 317, 264, 343, 289, 275, 308, 264, 271, 289, 277, 309, 931, 264, 270, 264, 275, 293, 288, 286, 4112, 276, 272, 268, 316, 312, 333, 264, 270, 265, 4685, 2, 2, 317, 264, 343, 265, 266, 308, 264, 271, 289, 277, 309, 931, 264, 270, 264, 417, 288, 278, 265, 269, 267, 284, 267, 266, 265, 7217, 267, 273, 268, 861, 268, 1627, 267, 7218, 276, 270, 267, 271, 297, 289, 272, 9208, 4711, 288, 8148, 267, 266, 6, 472, 313, 265, 266, 276, 277, 1518, 281, 264, 284, 264, 321, 419, 276, 291, 442, 276, 317, 350, 274, 268, 270, 1059, 309, 271, 264, 270, 264, 266, 303, 267, 266, 268, 376, 267, 319, 2473, 267, 291, 268, 271, 931, 264, 270, 359, 4270, 281, 264, 272, 265, 266, 1030, 308, 276, 272, 264, 299, 3146, 268, 644, 265, 266, 384, 268, 497, 268, 273, 265, 395, 265, 377, 931, 264, 270, 264, 266, 475, 267, 543, 264, 269, 316, 350, 868, 268, 332, 264, 343, 497, 268, 266, 264, 291, 267, 277, 265, 266, 444, 264, 266, 268, 931, 264, 270, 264, 294, 268, 280, 265, 273, 265, 313, 352, 304, 289,

In [106]:
from transformers import TrainingArguments, Trainer, DefaultDataCollator

data_collator = DefaultDataCollator()

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="steps",
    learning_rate=2e-5,
    per_device_train_batch_size=44,
    per_device_eval_batch_size=16,
    num_train_epochs=300,
    weight_decay=0.01,
    eval_steps=1000,
    save_total_limit=1
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_squad_train_new,
    eval_dataset=tokenized_squad_val_new,
    tokenizer=tokenizer,
    data_collator=data_collator,
)


trainer.train()

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
***** Running training *****
  Num examples = 2402
  Num Epochs = 300
  Instantaneous batch size per device = 44
  Total train batch size (w. parallel, distributed & accumulation) = 44
  Gradient Accumulation steps = 1
  Total optimization steps = 16500


Step,Training Loss,Validation Loss
1000,0.0205,0.024596
2000,0.0148,0.009051
3000,0.0131,0.083566
4000,0.012,0.088645
5000,0.011,0.076335
6000,0.0111,0.106847
7000,0.0104,0.098923
8000,0.0106,0.095571
9000,0.0097,0.074631
10000,0.0097,0.06825


Saving model checkpoint to ./results/checkpoint-500
Configuration saved in ./results/checkpoint-500/config.json
Model weights saved in ./results/checkpoint-500/pytorch_model.bin
tokenizer config file saved in ./results/checkpoint-500/tokenizer_config.json
Special tokens file saved in ./results/checkpoint-500/special_tokens_map.json
***** Running Evaluation *****
  Num examples = 262
  Batch size = 16
Saving model checkpoint to ./results/checkpoint-1000
Configuration saved in ./results/checkpoint-1000/config.json
Model weights saved in ./results/checkpoint-1000/pytorch_model.bin
tokenizer config file saved in ./results/checkpoint-1000/tokenizer_config.json
Special tokens file saved in ./results/checkpoint-1000/special_tokens_map.json
Deleting older checkpoint [results/checkpoint-500] due to args.save_total_limit
Saving model checkpoint to ./results/checkpoint-1500
Configuration saved in ./results/checkpoint-1500/config.json
Model weights saved in ./results/checkpoint-1500/pytorch_model.

Model weights saved in ./results/checkpoint-9500/pytorch_model.bin
tokenizer config file saved in ./results/checkpoint-9500/tokenizer_config.json
Special tokens file saved in ./results/checkpoint-9500/special_tokens_map.json
Deleting older checkpoint [results/checkpoint-9000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 262
  Batch size = 16
Saving model checkpoint to ./results/checkpoint-10000
Configuration saved in ./results/checkpoint-10000/config.json
Model weights saved in ./results/checkpoint-10000/pytorch_model.bin
tokenizer config file saved in ./results/checkpoint-10000/tokenizer_config.json
Special tokens file saved in ./results/checkpoint-10000/special_tokens_map.json
Deleting older checkpoint [results/checkpoint-9500] due to args.save_total_limit
Saving model checkpoint to ./results/checkpoint-10500
Configuration saved in ./results/checkpoint-10500/config.json
Model weights saved in ./results/checkpoint-10500/pytorch_model.bin
tokenizer confi

TrainOutput(global_step=16500, training_loss=0.01164216694687352, metrics={'train_runtime': 5534.046, 'train_samples_per_second': 130.212, 'train_steps_per_second': 2.982, 'total_flos': 9.41486238830592e+16, 'train_loss': 0.01164216694687352, 'epoch': 300.0})

# Inference

In [40]:
from transformers import AutoModelForQuestionAnswering,AutoTokenizer,pipeline

model = AutoModelForQuestionAnswering.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")
tokenizer = AutoTokenizer.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")

for answer, context, question in zip(squad_test["answers"], squad_test["context"], squad_test["question"]):
    print("context:", context)
    print("question:", question)
    print("gt:", answer)
    QA = pipeline('question-answering', model=model, tokenizer=tokenizer)
    QA_input = {'question': question,'context':context}
    prediction = QA(QA_input)
    
    print(prediction)
    
    print("="*40)

context: ভারতের জাতীয় পতাকা হলো কেন্দ্রে চব্বিশটি দণ্ডযুক্ত নীল "অশোকচক্র" সহ গেরুয়া, সাদা ও সবুজ আনুভূমিক আয়তাকার ত্রিবর্ণরঞ্জিত পতাকা। ১৯৪৭ সালের ২২ জুলাই গণপরিষদের একটি অধিবেশনে এই পতাকার বর্তমান রূপটি ভারত অধিরাজ্যের সরকারি পতাকা হিসেবে গৃহীত হয়েছিল। পরবর্তীকালে এটি ভারতীয় প্রজাতন্ত্রের জাতীয় পতাকার মর্যাদা লাভ করে। ভারতে এই পতাকাটিকে সাধারণত "ত্রিরঙ্গা পতাকা" বা "ত্রিবর্ণরঞ্জিত পতাকা" বলা হয়। পিঙ্গালি ভেঙ্কাইয়া কৃত ভারতীয় জাতীয় কংগ্রেসের "স্বরাজ" পতাকার ভিত্তিতে এই পতাকাটির নকশা প্রস্তুত করা হয়েছিল।
question: ভারতীয় জাতীয় পতাকায় মোট কতগুলি রং থাকে ?
gt: {'answer_start': 109, 'text': 'ত্রিবর্ণ'}
{'score': 1.0, 'start': 109, 'end': 119, 'answer': 'ত্রিবর্ণরঞ'}
context:  সুন্নি মুসলিমরা ইসলাম অনুসারীদের মধ্যে সবচেয়ে বড় সম্প্রদায়। সুন্নিরা আরো পরিচিত আহলে সুন্নাত ওয়াল জামা'য়াত (Arabic: هل السنة والجماعة‎ ") সংক্ষেপে আহল আস-সুন্নাহ (Arabic: أهل السنة‎‎) নামে। সুন্নি শব্দের উৎপত্তি সুন্নাহ (Arabic: سنة‎) শব্দ থেকে যা দ্বারা ইস্লামের নবি মুহাম্মদের বাণী ও কর্মকে বুঝায়। 

{'score': 1.0, 'start': 172, 'end': 187, 'answer': 'বুকের ভিতর আগুন'}
context: সামবেদ (সংস্কৃত: सामवेद) (সামন্‌ বা গান ও বেদ বা জ্ঞান থেকে) হল সংগীত ও মন্ত্রের বেদ।[24] সামবেদ হিন্দুধর্মের সর্বপ্রধান ধর্মগ্রন্থ বেদের দ্বিতীয় ভাগ। এটি বৈদিক সংস্কৃত ভাষায় রচিত। সামবেদে ১,৮৭৫টি মন্ত্র রয়েছে।[25] এই শ্লোকগুলি মূলত বেদের প্রথম ভাগ ঋগ্বেদ থেকে গৃহীত।[26] এটি একটি প্রার্থনামূলক ধর্মগ্রন্থ। বর্তমানে সামবেদের তিনটি শাখার অস্তিত্ব রয়েছে। এই বেদের একাধিক পাণ্ডুলিপি ভারতের বিভিন্ন অঞ্চল থেকে আবিষ্কৃত হয়েছে।[27][28]
question: বেদের প্রথম ভাগ কী ?
gt: {'answer_start': 252, 'text': 'ঋগ্বেদ'}
{'score': 1.0, 'start': 252, 'end': 258, 'answer': 'ঋগ্বেদ'}
context: ১৯৩০ ফিফা বিশ্বকাপ ছিল প্রথম অনুষ্ঠিত কোন ফুটবল বিশ্বকাপ। জুলাই ১৩ থেকে জুলাই ৩০ পর্যন্ত এটি উরুগুয়েতে অনুষ্ঠিত হয়। ফিফা ১৯২৯ সালের বার্সেলোনা সেমিনারে উরুগুয়েকে বিশ্বকাপ আয়োজনের দায়িত্ব দেয় কেননা সেবছর উরুগুয়ের স্বাধীনতার শতবর্ষে পা দিয়েছিল এবং উরুগুয়ে ফুটবল দল সফল ভাবে ১৯২৮ গ্রীষ্ম অলিম্পিকে ফুটবল শিরোপা জিতেছিল।
question: সর্বপ

{'score': 0.004294564947485924, 'start': 794, 'end': 806, 'answer': 'ষষ্ঠ শতাব্দী'}
context: জার্মানি ইউরোপীয় ইউনিয়নের সবচেয়ে জনবহুল দেশ। সারা পৃথিবীতে জার্মানি ১৫তম জনবহুল দেশ।[11] প্রতি বর্গকিলোমিটারে ২২৯.৪ জন অধিবাসী বাস করে। জার্মান ভাষা জার্মানির সরকারি ভাষা। এছাড়া অভিবাসী জনগোষ্ঠীর মধ্যে আরও অনেকগুলি ভাষা প্রচলিত। এদের মধ্যে আরবি, গ্রিক, ইতালীয়, কুর্দি এবং তুর্কি ভাষা উল্লেখযোগ্য। লুসাটিয়া অঞ্চলে সর্বীয় ভাষা এবং দক্ষিণ শ্লেসভিগ অঞ্চলে ডেনীয় ভাষার আঞ্চলিক সরকারি মর্যাদা রয়েছে। উপকূলীয় দ্বীপগুলিতে ফ্রিজীয় ভাষা প্রচলিত। জার্মানির পূর্ব সীমান্তে পোলীয় ভাষা এবং উত্তর-পশ্চিম সীমান্তে ওলন্দাজ ভাষা প্রচলিত। এছাড়াও এখানে অনির্দিষ্ট সংখ্যক রোমানি ভাষাভাষী বাস করে।
question: জার্মানির সরকারি ভাষা কী ?
gt: {'answer_start': 139, 'text': 'জার্মান ভাষা'}
{'score': 1.0, 'start': 139, 'end': 151, 'answer': 'জার্মান ভাষা'}
context: “ভাগোয়া বা গেরুয়া রঙ ত্যাগ ও বৈরাগ্যের প্রতীক। আমাদের নেতৃবৃন্দকে পার্থিব লাভের প্রতি উদাসীন ও আপন আপন কাজে যত্নবান হইতে হইবে। মধ্যস্থলে সাদা আমাদের আত্ম

{'score': 1.0, 'start': 214, 'end': 218, 'answer': 'তিনভ'}
context: চৌধুরী রহমত আলি (উর্দু: چودھری رحمت علی) (১৬ নভেম্বর ১৮৯৫ – ১২ ফেব্রুয়ারি ১৯৫১) ছিলেন একজন পাকিস্তানি[1][2][3] মুসলিম জাতীয়তাবাদী। তিনি পাকিস্তান সৃষ্টির প্রবক্তাদের অন্যতম। দক্ষিণ এশিয়ায় মুসলিমদের পৃথক আবাসভূমির জন্য “পাকিস্তান” শব্দটি তার সৃষ্টি। তাকে পাকিস্তান প্রতিষ্ঠার আন্দোলনের স্থপতি হিসেবে তাকে বিবেচনা করা হয়। ১৯৩৩ সালে প্রকাশিত পুস্তিকা নাউ অর নেভার; আর উই টু লিভ অর পেরিশ ফরএভার? এর লেখক হিসেবে তিনি খ্যাত। এটি পাকিস্তান ঘোষণা বলেও পরিচিত। পুস্তিকাটি নিম্নোক্তভাবে শুরু হয়ঃ
question: পাকিস্তানি মুসলিম জাতীয়তাবাদী চৌধুরী রহমত আলি কবে জন্মগ্রহণ করেন ?
gt: {'answer_start': 42, 'text': '১৬ নভেম্বর ১৮৯৫'}
{'score': 1.0, 'start': 42, 'end': 57, 'answer': '১৬ নভেম্বর ১৮৯৫'}
context:   গণপ্রজাতন্ত্রী বাংলাদেশের সংবিধান স্বাধীন ও সার্বভৌম বাংলাদেশ রাষ্ট্রের সর্বোচ্চ আইন। এটি একটি লিখিত দলিল। ১৯৭২ খ্রিস্টাব্দের ৪ঠা নভেম্বর তারিখে বাংলাদেশের জাতীয় সংসদে এই সংবিধান গৃহীত হয় এবং একই বছরের ১৬ই ডিসেম্বর অর্থাৎ বাংলাদে

{'score': 0.9999781847000122, 'start': 360, 'end': 375, 'answer': 'পশ্চিম গোলার্ধে'}
context: ১৮৯৭ খ্রিস্টাব্দের ২৩ জানুয়ারি, বর্তমান ওডিশা রাজ্যের কটক শহরে (ওডিয়া বাজার) জন্মগ্রহণ করেন সুভাষচন্দ্র বসু। তিনি ছিলেন কটক-প্রবাসী বিশিষ্ট বাঙালি আইনজীবী জানকীনাথ বসু ও প্রভাবতী দেবীর চৌদ্দ  সন্তানের মধ্যে নবম। ষষ্ঠ শ্রেণি পর্যন্ত সুভাষচন্দ্র একটি কটকের ইংরেজি স্কুলে পড়াশোনা করেন; বর্তমানে এই স্কুলটির নাম স্টুয়ার্ট স্কুল। এরপর তাঁকে ভর্তি করা হয় কটকের রাভেনশ কলেজিয়েট স্কুলে। সুভাষচন্দ্র ছিলেন মেধাবী ছাত্র। ১৯১১ খ্রিস্টাব্দে ম্যাট্রিকুলেশন পরীক্ষায় কলকাতা থেকে প্রথম স্থান অধিকার করেন তিনি। ১৯১৮ খ্রিস্টাব্দে কলকাতা বিশ্ববিদ্যালয় অধিভুক্ত স্কটিশ চার্চ কলেজ থেকে দর্শনে সাম্মানিকসহ বিএ পরীক্ষায় উত্তীর্ণ হন।
question: নেতাজী সুভাষ চন্দ্র বসু কোন শহরে জন্মগ্রহণ করেন ?
gt: {'answer_start': 55, 'text': 'কটক'}
{'score': 1.0, 'start': 55, 'end': 58, 'answer': 'কটক'}
context: নেইমার ডা সিল্ভা জন্মগ্রহণ করেন সাও পাওলো, ব্রাজিলে সিনিয়র নেইমার ডা সিল্ভা এবং নান্দিনি সান্তসের ঘরে। তিনি তাঁর পিতার ন

{'score': 1.0, 'start': 225, 'end': 229, 'answer': 'এইডস'}
context:  এই চলচ্চিত্রের দৃশ্যকল্প ঠিক কে লিখেছেন তা অজানা, তবে ধারণা করা হয়  লয়েড লনারজান। কেননা যখন তিনি থানহাউসার প্রোডাকশনের স্ক্রিপরাইটারের কাজ করছিলেন তখন তিনি ছিলেন দ্য নিউ ইয়র্ক ইভিনিং ওয়াল্ড পত্রিকার একজন অভিজ্ঞ সংবাদকর্মী।[2] এই চলচ্চিত্রের পরিচালকের নাম অজানা তবে খুব সম্ভবত ব্যারি ও'নেইল। চলচ্চিত্র ইতিহাসবেত্তা কিউ. ডেবিড বাউয়ার্স এই প্রযোজনার জন্য একজন নয় বরং সম্ভাব্য দুইজন চিত্রগ্রাহকের অস্তিত্ব রয়েছে বলে ধারণা করেন। ব্লেয়ার স্মিথ, যিনি ছিলেন থানহাউসার কোম্পানির প্রথম চিত্রগ্রাহক কিন্তু, পরর্তীতে তিনি স্থির এবং মোশন ছবি বিষয়ে অভিজ্ঞ আলোকচিত্রী কার্ল লুইজ গ্রেগরির সাথে যোগ দিয়েছিলেন। ১৯১০ সালের চলচ্চিত্রে চিত্রগ্রাহকের ভূমিকা প্রযোজনায় স্বীকৃত থাকত না।[3] দ্য মর্ণিং পিকচার ওয়ার্ল্ড এই চলচ্চিত্রের অভিনয়ে হেমিং এবং ক্র্যানির নাম রয়েছে বলে ঘোষণা করেছে, কিন্তু বাউয়ার্স একটি অজানা চরিত্রে "থানহাউসার কিড" ম্যারি এলিনের কথাও যুক্ত করেন।[1][4] বিষয়টি অজানা তবে চলচ্চিত্রে ছোট্ট বালক উশারের ভূমিকায় সম্ভবত এলে

{'score': 0.5068974494934082, 'start': 848, 'end': 868, 'answer': 'আধুনিক সাহিত্য (১৯০৭'}
context: পিরামিড পৃথিবীর প্রাচীন সপ্তম আশ্চর্যের একটি। প্রাচীন মিশর শাসন করতেন ফিরাউনরা (প্রাচীন মিশরীয় শাসক বা রাজাদের ফিরাউন (Pharaoh) বলা হতো)।  তাদেরকে  কবর বা সমাধী দেয়ার জন্যই  পিরামিড নির্মান করা হতো।  মিসরে ছোটবড় ৭৫টি পিরামিড আছে। সবচেয়ে বড় এবং আকর্ষনীয় হচ্ছে গিজা'র পিরামিড যা খুফু'র পিরামিড হিসেবেও পরিচিত। এটি তৈরি হয়েছিল খ্রিস্টপূর্ব প্রায় ৫০০০ বছর আগে। এর উচ্চতা প্রায় ৪৮১ ফুট। এটি ৭৫৫ বর্গফুট জমির উপর স্থাপিত। এটি তৈরি করতে সময় লেগেছিল প্রায় ২০ বছর এবং শ্রমিক খেটেছিল আনুমানিক  ১ লাখ। পিরামিডটি তৈরি করা হয়েছিল বিশাল বিশাল পাথর খন্ড দিয়ে। পাথর খন্ডের এক একটির ওজন ছিল প্রায় ৬০ টন, আর দৈর্ঘ্য ছিল ৩০ থেকে ৪০ ফুটের মত। এগুলো সংগ্রহ করা হয়েছিল দূর দুরান্তের পাহাড় থেকে। পাথরের সাথে পাথর জোড়া দিয়ে পিরামিড তৈরি করা হত। চার হাজারের বছরের পুরানো এক সমাধিতে অঙ্কিত এক চিত্রে দেখা যায় এক বিশাল স্তম্ভকে স্লেজে করে সরানো হচ্ছে; অনেক মানুষ রশি দিয়ে সেই স্লেজ টেনে নিচ্ছে। আর তাদের মধ্য

{'score': 5.266272751214274e-09, 'start': 81, 'end': 86, 'answer': 'সিলেট'}
context: আর্জেন্টিনার সিনিয়র দলের হয়ে আগুয়েরোর অভিষেক হয় ২০০৬ সালের ৩ সেপ্টেম্বর ব্রাজিলের বিপক্ষে একটি প্রীতি খেলায়।[105] একজন টিনএজার হিসেবে তিনি আর্জেন্টিনার হয়ে ফিফা যুব চ্যাম্পিয়নশীপগুলোতেও অংশগ্রহন করেন। লিওনেল মেসি এবং ফেরন্যান্দো গ্যাগোর সাথে তিনি ২০০৫ ফিফা যুব চ্যাম্পিয়নশীপ জিতেন। এছাড়া ২০০৮ গ্রীষ্মকালীন অলিম্পিকেও তারা বিজয়ী হয়।
question: সার্হিও লেওনেল ‘‘কুন’’ আগুয়েরো কত সাল থেকে আর্জেন্টিনার জাতীয় দলের হয়ে খেলা শুরু করেন ?
gt: {'answer_start': 52, 'text': '২০০৬'}
{'score': 1.0, 'start': 52, 'end': 56, 'answer': '২০০৬'}
context: সোমালিয়া (Somali: Soomaaliya স্যম্যালিয়্যা, Arabic: الصومال‎ আস্ব্‌স্বূমাল্‌) বা সোমালি প্রজাতন্ত্র (Somali: Jamhuuriyadda Soomaaliya চ্যান্‌হূরিয়্‌য়্যাদ্দ্যা স্যম্যালিয়্যা, Arabic: جمهورية الصومال‎জুম্‌হূরিয়্‌য়াৎ আস্ব্‌স্বূমাল্‌) উত্তর-পূর্ব আফ্রিকার একটি রাষ্ট্র। এর রাজধানীর নাম মোগাদিশু।
question: সোমালিয়ার রাজধানী কোথায় ?
gt: {'answer_start': 289, 'tex

{'score': 0.8781495690345764, 'start': 320, 'end': 324, 'answer': 'চারট'}
context: ফিলিপাইন (তাগালোগ ভাষায় Pilipinas পিলিপিনাস্‌) সরকারীভাবে ফিলিপাইন প্রজাতন্ত্র (Repúbliká ng̃ Pilipinas রেপুব্লিকা নাং পিলিপিনাস্‌) দক্ষিণ-পূর্ব এশিয়ার একটি রাষ্ট্র। এর রাজধানীর নাম ম্যানিলা।
question: ফিলিপাইনের রাজধানী কোথায় ?
gt: {'answer_start': 184, 'text': 'ম্যানিলা'}
{'score': 1.0, 'start': 184, 'end': 193, 'answer': 'ম্যানিলা।'}
context: ফেরদৌস আহমেদ (জুন ৭, ১৯৭২) বিংশ শতাব্দীর শেষ দশকে আবির্ভূত একজন জনপ্রিয় বাংলাদেশী চলচ্চিত্র অভিনেতা। তাঁর অভিনীত প্রথম চলচ্চিত্র প্রয়াত নায়ক সালমান শাহ এর অসমাপ্ত  কাজ  বুকের ভিতর আগুন, এটির পরিচালক ছিলেন ছটকু আহমেদ। [2] পাশাপাশি তিনি কলকাতার চলচ্চিত্রে অভিনয় করছেন নিয়মিত। মিট্টি নামে একটি বলিউড এর চলচ্চিত্রে তিনি অভিনয় করেছেন।[2] ১৯৯৮ সালে তিনি খ্যাতিমান চলচ্চিত্রকার বাসু চ্যাটার্জি পরিচালিত হঠাৎ বৃষ্টি ছবিতে অভিনয় করে ব্যাপক জনপ্রিয়তা অর্জন করেন। চলচ্চিত্রে অভিনয়ের পাশপাশি তিনি মডেলিং, টিভি উপস্থাপনা ও টেলিভিশন নাটকে অভিনয় করেছেন।[3] বাংলাদেশের চলচ্

{'score': 0.5772106647491455, 'start': 455, 'end': 462, 'answer': 'ফ্রাঞ্চ'}
context: মুইজউদ্দিন ১১৪৯ খ্রিষ্টাব্দে বর্তমান আফগানিস্তানের ঘুর অঞ্চলে জন্মগ্রহণ করেন। তার জন্মের প্রকৃত তারিখ অজ্ঞাত। তার বাবা প্রথম বাহাউদ্দিন সাম ছিলেন ঘুরের একজন স্থানীয় শাসক।[1] মুইজউদ্দিনের বড় ভাই ছিলেন গিয়াসউদ্দিন মুহাম্মাদ। জীবনের প্রথমদিকে তাদের চাচা আলাউদ্দিন হুসাইন তাদের দুজনকে বন্দী করেন। কিন্তু পরে তার ছেলে সাইফউদ্দিন মুহাম্মাদ তাদের মুক্তি দেন।[2] ১১৬৩ খ্রিষ্টাব্দে সাইফ মারা যাওয়ার পর ঘুরি অভিজাত ব্যক্তিরা গিয়াসউদ্দিনকে সমর্থন দেন এবং তার ক্ষমতালাভে সহায়তা করেন। গিয়াসউদ্দিন এরপর মুইজউদ্দিনকে ইসতিয়ান ও কাজুরানের শাসনভার দিয়েছিলেন। বেশ কয়েকজন ঘুরি নেতৃবৃন্দ সিংহাসনের দাবি নিয়ে প্রতিদ্বন্দ্বিতায় জড়িয়ে পড়লে তাদের পরাজিত করার জন্য মুইজউদ্দিন তার ভাই গিয়াসউদ্দিনকে সহায়তা করেন।
question: গিয়াসউদ্দিন মুহাম্মাদের বাবার নাম কি ছিল ?
gt: {'answer_start': 119, 'text': 'প্রথম বাহাউদ্দিন সাম'}
{'score': 1.0, 'start': 119, 'end': 139, 'answer': 'প্রথম বাহাউদ্দিন সাম'}
context: ১৭৫৭ সালে আফগান 

{'score': 0.11598417162895203, 'start': 383, 'end': 386, 'answer': 'া.)'}
context:  আওয়ামী মুসলিম লীগ (Urdu: عوامی مسلم لیگ‎) একটি রাজনৈতিক দল যা ব্রিটিশ ভারত বিভক্তিক্রমে পাকিস্তান জন্মের দুই বৎসর পর ১৯৪৯ খ্রিস্টাব্দে প্রতিষ্ঠা করা হয়। এই সময় ঢাকা পাকিস্তানের পূর্বাঞ্চলীয় প্রদেশ পূর্ব পাকিস্তানের অংশ ছিল। মুসলিমে লীগ-এরই একটি অংশ নিয়ে হোসেন শহীদ সোহ্‌রাওয়ার্দী, আবদুল হামিদ খান ভাসানী, সামসুল হক, বঙ্গবন্ধু শেখ মুজিবর রহমান প্রমুখ এই রাজনৈতিক দলটি প্রতিষ্ঠা করেন।[1] আওয়ামী মুসলিম লীগ পাকিস্তানের ক্ষমতাসীন মুসলিম লীগের বাংলা বিকল্প হিসেবে প্রতিষ্ঠিত হয়েছিল। এই রাজনৈতিক দলটি খুব দ্রুত পূর্ব পাকিস্তানে জনপ্রিয়তা অর্জনে সমর্থন হয়। ঘটনাক্রমে পশ্চিম পাকিস্তানের সামরিক ও রাজনৈতিক প্রতিষ্ঠার বিরুদ্ধে সংগ্রামে বাঙ্গালী জাতীয়তাবাদ পক্ষে একটি সক্রিয় সংগঠন হিসাবে নেতৃত্বে দিতে থাকে। ১৯৫৩ খ্রিস্টাব্দে মাওলানা ভাসানীর সভাপতিত্বে অনুষ্ঠিত আওয়ামী মুসলিম লীগের কাউন্সিল অধিবেশনে দলের নাম থেকে 'মুসলিম' শব্দটি বাদ দেয়ার সিদ্ধান্ত গ্রহীত হয়। দলের নাম পরিবর্তন করে আওয়ামী লীগ নির্ধারণ করা হয়।

{'score': 1.0, 'start': 22, 'end': 34, 'answer': 'তেঁতলে বিলাস'}
context: ১৯৫৪ সালে মহেশখালী থানা গঠিত হয়।[3] মহেশখালী থানাকে ১৯৮৩ সালের ১৫ ডিসেম্বর উপজেলায় রূপান্তর করা হয়।[4] মহেশখালী উপজেলা আরো তিনটি ছোট ছোট দ্বীপের সমন্বয়ে গঠিত। এগুলো হল: সোনাদিয়া, মাতারবাড়ী ও ধলঘাটা।[5] বর্তমানে মহেশখালী উপজেলায় ১টি পৌরসভা এবং ৮টি ইউনিয়ন রয়েছে। সম্পূর্ণ মহেশখালী উপজেলার প্রশাসনিক কার্যক্রম মহেশখালী থানার আওতাধীন।
question: বাংলাদেশের মহেশখালী উপজেলায় বর্তমান পৌরসভার সংখ্যা কয়টি ?
gt: {'answer_start': 235, 'text': '১'}
{'score': 1.0, 'start': 235, 'end': 236, 'answer': '১'}
context: ম্যালকম ডেঞ্জিল মার্শাল (English: Malcolm Denzil Marshall; জন্ম: ১৮ এপ্রিল, ১৯৫৮ - মৃত্যু: ৪ নভেম্বর, ১৯৯৯) বার্বাডোসে জন্মগ্রহণকারী ওয়েস্ট ইন্ডিজের বিখ্যাত আন্তর্জাতিক ক্রিকেট তারকা ছিলেন। বিশ্ব ক্রিকেট অঙ্গনে ‘ম্যাকো’ ডাকনামে পরিচিত ম্যালকম মার্শাল প্রধানতঃ ফাস্ট বোলার ছিলেন। টেস্ট ক্রিকেটে তাঁকে অত্যন্ত সুন্দর বোলিং ভঙ্গীমার অধিকারী ও দ্রুতগতির পেসার হিসেবে বিবেচনা করা হয়।[1][2][3][4] প্রতি উইকেট লাভে তাঁক

{'score': 0.9060452580451965, 'start': 382, 'end': 388, 'answer': 'মাইকেল'}
context: ২০১৮ সালের ৬ সেপ্টেম্বর থেকে ভারতে সমকামীদের যৌনাচরণকে আইনী বৈধতা প্রদান করা হয়। ১৮৬০ সালে ব্রিটিশ শাসনামলে সমকামিতাকে প্রথম অবৈধ ঘোষণা করা হয় ভারতে। এই আইনে বলা হয়েছিল যে, অপ্রাকৃতিক সঙ্গম শাস্তিযোগ্য অপরাধ। ২০০৯ সালে দিল্লী হাই কোর্ট সমকামিতাকে বৈধতা দিয়েছিল এই বলে যে, দুজন সমলিঙ্গ ব্যক্তির সম্মতিতে যৌনমিলন কোনো অপরাধ নয়, এবং এটা ভারতের সংবিধানের জনগনের মৌলিক অধিকার বিষয়ক আইনের পরিপন্থী। হাই কোর্টের অধ্যাদেশ অনুযায়ী ঐ আইনটি পুরো ভারতে চালু করার কথা বলা হয়, নির্দিষ্ট কোনো রাজ্যে নয়।[5] সমকামীদের অধিকার নিয়ে কাজ করা গ্রুপগুলোকে হয়রানি করার খবর পাওয়া গিয়েছিল।[6]
question: ভারতবর্ষে কবে প্রথম সমকামিতাকে বৈধ বলে ঘোষণা করা হয় ?
gt: {'answer_start': 0, 'text': '২০১৮ সালের ৬ সেপ্টেম্বর'}
{'score': 0.44600045680999756, 'start': 363, 'end': 368, 'answer': 'মৌলিক'}
context: ৫ই নভেম্বর, ২০০৭ সালে ওপেন হ্যান্ডসেট এল্যায়েন্স সূচনা করে যাতে ছিল ব্রডকম কর্পোরেশন, গুগল, এইচটিসি, ইন্টেল, এলজি, মার্ভেল টে

{'score': 0.9999996423721313, 'start': 186, 'end': 191, 'answer': '১১৪টি'}
context: বাংলায় মুসলমান আধিপত্য প্রতিষ্ঠিত হবার আগে ব্রাহ্মণ্য হিন্দুসমাজের পীড়নের আশঙ্কায় বাংলার বৌদ্ধগণ তাঁদের ধর্মীয় পুঁথিপত্র নিয়ে শিষ্যদেরকে সঙ্গী করে নেপাল, ভুটান ও তিব্বতে পলায়ন করেছিলেন– এই ধারণার বশবর্তী হয়ে হরপ্রসাদ শাস্ত্রী চারবার নেপাল পরিভ্রমণ করেন। ১৮৯৭ সালে বৌদ্ধ লোকাচার সংক্রান্ত তথ্য সংগ্রহের জন্য তিনি প্রথমবার নেপাল ভ্রমণ করেন। ১৮৯৮ সালের তার দ্বিতীয়বার নেপাল ভ্রমণের সময় তিনি কিছু বৌদ্ধ ধর্মীয় পুঁথিপত্র সংগ্রহ করেন। ১৯০৭ খ্রিস্টাব্দে তৃতীয়বার নেপাল ভ্রমণকালে চর্যাচর্যবিনিশ্চয় নামক একটি পুঁথি নেপাল রাজদরবারের অভিলিপিশালায় আবিষ্কার করেন। চর্যাচর্যবিনিশ্চয়, সরহপাদের দোহা এবং অদ্বয় বজ্রের সংস্কৃত সহজাম্নায় পঞ্জিকা, কৃষ্ণাচার্য বা কাহ্নপাদের দোহা, আচার্যপাদের সংস্কৃত মেখলা নামক টীকা ও আগেই আবিষ্কৃত ডাকার্ণব পুঁথি একত্রে ১৯১৬ খ্রিস্টাব্দে (শ্রাবণ, ১৩২৩ বঙ্গাব্দ) বঙ্গীয় সাহিত্য পরিষদ থেকে হাজার বছরের পুরাণ বাঙ্গালা বৌদ্ধগান ও দোঁহা শিরোনামে সম্পাদকীয় ভূমিকাসহ প্রকাশ করেন হরপ্রসাদ শাস

{'score': 4.336004472138555e-11, 'start': 112, 'end': 114, 'answer': 'ডক'}
context:  জিহাদ (Arabic: جهاد‎‎), যার অর্থ সংগ্রাম; কোনো নির্দিষ্ট উদ্দেশ্য লাভের জন্য সমগ্র শক্তি নিয়োগ করাকে বোঝানো হয়। তবে সচরাচর ইসলামী পারিভাষিক অর্থে 'জিহাদ' কথাটি ব্যবহৃত হয়ে থাকে। কুরআনে জিহাদের কথা ৪১ বার উল্লেখ করা হয়েছে যেখানে "আল্লাহের পথে সংগ্রাম করা" অর্থে 'জিহাদ' কথাটি ব্যবহৃত হয়েছে।[1][2] জিহাদের সাথে জড়িত ব্যক্তিকে মুজাহিদ বলা হয়। জিহাদকে মুসলিম ধর্মাবলম্বীদের গুরুত্বপূর্ণ দায়িত্ব হিসাবে গণ্য করা হয়।
question: জিহাদ শব্দের অর্থ কী ?
gt: {'answer_start': 34, 'text': 'সংগ্রাম'}
{'score': 1.0, 'start': 34, 'end': 41, 'answer': 'সংগ্রাম'}
context: ১৯০ বর্গ কিলোমিটার এলাকা জুড়ে আলেপ্পো শহর অবস্থিত। বর্তমানে এটি মধ্য এশিয়ার অন্যতম ক্রমবর্ধমান শহর। ২০০১ সালে গৃহীত নতুন পরিকল্পনা অণুযায়ী, আলেপ্পোকে ৪২০ বর্গ কিমি এলাকা জুড়ে বিস্তৃত করা হবে। এই কাজ ২০১৫ সাল নাগাদ শেষ হবে। আলেপ্পোর জলবায়ু প্রধানত উষ্ণ। ভূমধ্যসাগরের তীড় ঘেষে অবস্থিত আলাভিত ও আমানুস পর্বত আলেপ্পোকে ভূমধ্যসাগরীয় জলবায়ু হতে প্

{'score': 0.9999992847442627, 'start': 190, 'end': 200, 'answer': 'আলি কুরাইশ'}
context: সর্বভারতীয় তৃণমূল কংগ্রেস (সংক্ষেপে তৃণমূল কংগ্রেস; পূর্বনাম পশ্চিমবঙ্গ তৃণমূল কংগ্রেস) ভারতের একটি রাজনৈতিক দল। ১৯৯৮ সালের ১ জানুয়ারি পশ্চিমবঙ্গে ভারতীয় জাতীয় কংগ্রেস ভেঙে এই দল প্রতিষ্ঠিত হল। তৃণমূল কংগ্রেসের প্রধান নেত্রী হলেন মমতা বন্দ্যোপাধ্যায়।
question: কত সালে সর্বভারতীয় তৃণমূল কংগ্রেসের প্রতিষ্ঠা হয় ?
gt: {'answer_start': 114, 'text': '১৯৯৮'}
{'score': 1.0, 'start': 114, 'end': 118, 'answer': '১৯৯৮'}
context: মেরি টেরিজা বোজাঝিউ[1] (বাপ্তাইজিত: অ্যাগনিস গঞ্জা বোজাঝিউ; আলবেনীয়: Anjezë Gonxhe Bojaxhiu; আগস্ট ২৬, ১৯১০ – সেপ্টেম্বর ৫, ১৯৯৭), যিনি মাদার[lower-alpha 1] টেরিজা বা তেরেসা[lower-alpha 2] নামে অধিক পরিচিত, ছিলেন একজন আলবেনীয়-বংশোদ্ভুত[2][3] ভারতীয়[4] ক্যাথলিক সন্ন্যাসিনী ও ধর্মপ্রচারক। টেরিজার জন্মস্থান অটোমান সাম্রাজ্যের আলবেনিয়া রাজ্যের স্কপিয়ে।[lower-alpha 3][1] আঠারো বছর বয়স পর্যন্ত তিনি সেখানেই কাটান। ১৯২৮ সালে তিনি আয়ারল্যান্ড হয়ে তৎকালীন ব্রিটিশ উপনিবেশ ভারতে খ্র

{'score': 0.9997658133506775, 'start': 573, 'end': 590, 'answer': '১৯৭১ খ্রিস্টাব্দে'}
context: ১৯৬০ সালে প্রথম বাংলাদেশ স্বাধীনতার আগে একটি বিশ্ববিদ্যালয়ের চাহিদা তৈরি হয়। ১৯৭৩  সালে একটি শহর সমাবেশ অনুষ্ঠিত হওয়ার সময় তত্কালীন প্রধানমন্ত্রী শেখ মুজিবুর রহমান ঘোষনা করেন, বরিশালে একটি বিশ্ববিদ্যালয় স্থাপন যা আকাঙ্ক্ষিত ছিল তার। রাষ্ট্রপতি জিয়াউর রহমান ১৯৭৮ সালে বরিশাল সার্কিট হাউস মধ্যে একটি সমাবেশে একটি বিশ্ববিদ্যালয় প্রতিষ্ঠার আকাঙ্ক্ষা প্রকাশ করেন। তিন দশক পরে বরিশাল মানুষের শক্তিশালী চাহিদা থেকে নভেম্বর ২৯, ২০০৮ ECNEC (Executive Committee of National Economic Council) এই প্রস্তাব পাশ করে, তারপর তত্ত্বাবধায়ক সরকার দ্বারা। ২২ নভেম্বর, ২০১১, প্রধানমন্ত্রী শেখ হাসিনা বিশ্ববিদ্যালয়ের ভবনের নির্মাণ শুরু করেন। বরিশাল জিলা স্কুল অস্থায়ী ক্যাম্পাসে ২৫ জানুয়ারী, ২০১২ সালে বেলা পৌনে ১১টায় জাতীয় পতাকা উত্তোলনের মধ্য দিয়ে  শিক্ষা মন্ত্রী নুরুল ইসলাম এই বিশ্ববিদ্যালয়ের শিক্ষাগত কার্যক্রম উদ্বোধন করেন। মুল ক্যাম্পাস ২০১৩ সালে কীর্তনখোলা নদীর পূর্ব তীরে সদর উপজেলার কর্ণকাঠিতে নির্ধার

{'score': 0.017379289492964745, 'start': 398, 'end': 402, 'answer': 'লামা'}
context: হালাকু খান ছিলেন চেঙ্গিস খানের অন্যতম পুত্র তোলুইয়ের সন্তান। তার মা সোরগাগতানি বেকি ছিলেন একজন প্রভাবশালী কেরাইত শাহজাদি। সোরগাগতানি ছিলেন একজন নেস্টরিয়ান খ্রিষ্টান। হালাকু খানের স্ত্রী দকুজ খাতুন এবং তার ঘনিষ্ট বন্ধু ও সেনাপতি কিতবুকাও খ্রিষ্টান ছিলেন। মৃত্যুর আগমুহূর্তে হালাকু খান বৌদ্ধধর্ম গ্রহণ করেছিলেন বলে জানা যায়।[1][2] কয়য়ে বৌদ্ধ মন্দির নির্মাণ থেকে বৌদ্ধধর্মে তার আগ্রহের প্রমাণ পাওয়া যায়।[3]
question: হালাকু খানের স্ত্রীর নাম কি ছিল ?
gt: {'answer_start': 188, 'text': 'দকুজ খাতুন'}
{'score': 1.0, 'start': 188, 'end': 198, 'answer': 'দকুজ খাতুন'}
context: ২০১৫-এর নেপাল ভূমিকম্প (এছাড়াও হিমালয়ান ভূমিকম্প হিসাবে উল্লেখিত)[8][9] ৭.৮ বা ৮.১ মাত্রার একটি ভূমিকম্প যা শনিবার ২৫শে এপ্রিল, ২০১৫ সালে ১১:৫৬ এনএসটি (৬:১২:২৬ ইউটিসি) সময়ে নেপালের লামজংয়ের পূর্ব-দক্ষিণ-পূর্ব কেন্দ্রস্থল থেকে আনুমানিক  ব্যাপী এলাকায় ভূপৃষ্ঠের প্রায়  গভীরে সংগঠিত হয়।[1]
question: ২০১৫ সালের নেপালের ভূমিকম্পের তীব্

{'score': 0.2191600799560547, 'start': 1221, 'end': 1227, 'answer': 'ইংরেজি'}
context: তখনকার সবচেয়ে বিশাল এবং বিলাসবহুল এ জাহাজটি ইউনাইটেড কিংডম এর বেলফাস্টের হারল্যান্ড & ওলফ্ শিপইয়ার্ডে তৈরি করা হয়।[2] জন পিয়ারপন্ট মরগান নামক একজন মার্কিন ধনকুবের এবং ইন্টারন্যাশনাল মার্কেন্টাইল মেরিন কোং এর অর্থায়নে ১৯০৯ সালের ৩১ই মার্চ সর্বপ্রথম টাইটানিকের নির্মাণ কাজ শুরু হয় এবং তখনকার প্রায় ৭.৫ মিলিয়ন (বর্তমান প্রায় ১৬৫ মিলিয়ন) ডলার ব্যয়ে এর নির্মাণ কাজ সম্পন্ন হয় ৩১ মার্চ ১৯১২ সালে।[3]
question: টাইটানিক জাহাজটি কত সালে নির্মাণ করা হয়েছিল ?
gt: {'answer_start': 383, 'text': '৩১ মার্চ ১৯১২'}
{'score': 0.9999998807907104, 'start': 383, 'end': 396, 'answer': '৩১ মার্চ ১৯১২'}
context: আলবার্ট আইনস্টাইন (German: Albert Einstein আল্‌বেয়াট্‌ আয়ন্‌শ্‌টায়ন্‌) (মার্চ ১৪, ১৮৭৯ - এপ্রিল ১৮, ১৯৫৫) জার্মানিতে জন্মগ্রহণকারী একজন নোবেল পুরস্কার বিজয়ী পদার্থবিজ্ঞানী। তিনি তার বিখ্যাত আপেক্ষিকতার তত্ত্ব এবং বিশেষত ভর-শক্তি সমতুল্যতার সূত্র আবিষ্কারের জন্য বিখ্যাত। তিনি ১৯২১ সালে পদার্থবিজ্ঞানে নোব

{'score': 0.03783988207578659, 'start': 88, 'end': 92, 'answer': 'চারট'}
context: পবিত্র ঋগ্বেদ হচ্ছে সবচেয়ে প্রাচীনতম বেদ এবং অতি গুরুত্বপূর্ণ জীবিত ভারতীয় লেখা। এই গ্রন্থটি মূলত ১০টি পুস্তক(সংস্তৃত: मण्डल) এ বিভক্ত যা ১,০২৮ টি বৈদিক সংস্কৃত সূক্তের সমন্বয়।  ঋগ্বেদে মোট ১০, ৫৫২টি ঋক বা মন্ত্র রয়েছে।[21][22][23] "ঋক" বা স্তুতি গানের সংকলন হল ঋগ্বেদ সংহিতা। ঈশ্বর, দেবতা ও প্রকৃতি বিষয়ক আলোচনা ঋগবেদে প্রাধান্য পেয়েছে।
question: হিন্দুদের প্রাচীনতম ধর্মগ্রন্থ ঋগ্বেদ কোন ভাষায় রচিত হয়েছিল ?
gt: {'answer_start': 149, 'text': 'বৈদিক সংস্কৃত'}
{'score': 1.0, 'start': 149, 'end': 162, 'answer': 'বৈদিক সংস্কৃত'}
context: ১৮৮৭ সালে জগদীশচন্দ্র বসুর সাথে অবলার বিয়ে হয়। অবলা ছিলেন ব্রাহ্ম সমাজের বিখ্যাত সংস্কারক দুর্গা মোহন দাসের কন্যা। বিয়ের আগে অবলা বসু কলকাতা মেডিকেল কলেজে ভর্তি হতে চাইলেও তাকে ভর্তি হতে দেয়া হয়নি, কারণ সেখানে তখন মেয়েদের পড়ানো নিষেধ ছিল। ১৮৮২ সালে বঙ্গ সরকারের বৃত্তি নিয়ে অবলা মাদ্রাজে যান পড়াশোনার উদ্দেশ্যে। সেখানে চিকিৎসাবিজ্ঞান অধ্যয়ন শুরু করলেও অসুস্থতার কা

{'score': 0.0045040980912745, 'start': 124, 'end': 138, 'answer': 'অনেক বিষয়ের স'}
context:  আর্মাগেডন(২০০৬) ছিল সপ্তম যার মধ্যে সর্বমোট ৮টি ম্যাচ অণুষ্ঠিত হয়েছিল।  ২০০৬ সালের নভেম্বর মাসে অণুষ্ঠিত সারভাইভার সিরিজে বাতিস্তা, কিং বুকারকে পরাজিত করে ওয়াল্ড হেভিওয়েট চ্যাম্পিয়ন হন।[5][6] তারপর ডিসেম্বরের ১ তারিখে অণুষ্ঠিত  ডাব্লিউডাব্লিউই স্ম্যাকডাউন এ কিং বুকার এবং ফিনলে দুজনেই বাতিস্তার সাথে একটি ম্যাচ দাবী করে।তখনকার স্ম্যাকডাউনের জেনারেল ম্যানেজার থিওডোর লং এর পরামর্শ অণুযায়ী, বুকার এবং ফিনলে দুজনে ট্যাগ টিম গঠন করে।এদিকে বাতিস্তা তার সঙ্গী হিসেবে জন সিনাকে নির্বাচিত করে।[7] তারপর স্ম্যাকডাউনে বাতিস্তার সাথে ফিনলের ম্যাচ দেওয়া হলে কিং বুকার সেখানে অবৈধ ভাবে হস্তক্ষেপ করায় বাতিস্তাকে ডিসকোয়ালিফিকেশন নিয়মে জয়ী ঘোষনা করা হয়।[8] ১৫ ডিসেম্বেরের স্ম্যাকডাউনে জন সিনা ফিনলের উপর তার সিগণেচার মুভ প্রয়োগ করার মাধ্যমে জয় লাভ করে।[9]
question: ২০০৬ সালের আর্মাগেডন কুস্তি প্রতিযোগিতায় কে চ্যাম্পিয়ন হন ?
gt: {'answer_start': 124, 'text': 'বাতিস্তা'}
{'score': 1.0, 'start': 124, 'end': 

{'score': 0.0045645572245121, 'start': 854, 'end': 865, 'answer': 'বহু শতাব্দী'}
context: আরবি ভাষা কাতারের সরকারি ভাষা। এখানকার প্রায় ৫৬% লোক আরবি ভাষাতে কথা বলেন। প্রায় এক-চতুর্থাংশ লোক ফার্সি ভাষায় কথা বলেন। বাকীরা ভারতীয় উপমহাদেশের ও ফিলিপিন দ্বীপপুঞ্জের অন্যান্য ভাষাতে কথা বলেন। আন্তর্জাতিক কাজকর্মে ইংরেজি ভাষা ব্যবহার করা হয়।
question: কাতারের সরকারি ভাষা কী ?
gt: {'answer_start': 0, 'text': 'আরবি'}
{'score': 1.0, 'start': 0, 'end': 4, 'answer': 'আরবি'}
context: শের-ই-বাংলা ক্রিকেট স্টেডিয়াম ঢাকার মিরপুরে অবস্থিত। স্টেডিয়ামটি মিরপুরের ৬ নং সেক্টরে অবস্থিত। এটি বর্তমানে শুধুমাত্র ক্রিকেট মাঠ হিসেবে ব্যবহৃত হচ্ছে। ২৬,০০০ দর্শক ধারণক্ষমতার এই স্টেডিয়ামটি স্থাপিত হয় ২০০৬ সালে। শুরুতে এটি মিরপুর স্টেডিয়াম হিসেবে পরিচিত ছিল। পরবর্তীতে গণপ্রজাতন্ত্রী বাংলাদেশ সরকার স্টেডিয়ামটির নাম পরিবর্তন করে বর্তমান নাম শের-ই-বাংলা ক্রিকেট স্টেডিয়াম রাখে। ২০০৬ সালে বাংলাদেশ ক্রিকেট দলের নিজস্ব মাঠ বঙ্গবন্ধু জাতীয় স্টেডিয়াম থেকে শের-ই-বাংলা ক্রিকেট স্টেডিয়ামকে করা হয়। এটি বাংলাদেশের অধ

{'score': 1.0, 'start': 386, 'end': 399, 'answer': 'চতুর্থ ইন্দ্র'}
context: খোট্টিগ অমোঘবর্ষের রাজত্বকালে পারমার রাজা সিকায় হর্ষ রাষ্ট্রকূট সাম্রাজ্য আক্রমণ করে মান্যখেত লুণ্ঠন করেন। এর ফলে রাষ্ট্রকূটদের শক্তি হ্রাস পায়। এরপরই রাষ্ট্রকূট সাম্রাজ্যের পতন ঘটে।[73] এই পরাজয়ের সুযোগ নিয়ে তারদাবাদি প্রদেশের (আধুনিক বিজাপুর জেলা, কর্ণাটক) শাসক তৃতীয় তৈলপ নিজেকে স্বাধীন রাজা ঘোষণা করলে রাষ্ট্রকূট সাম্রাজ্যের পতন সম্পূর্ণ হয়।[74][75] সর্বশেষ রাষ্ট্রকূট সম্রাট চতুর্থ ইন্দ্র জৈন সন্ন্যাসীদের প্রথা অনুসারে শ্রবণবেলগোলায় অনশনে মৃত্যুবরণ করেন। রাষ্ট্রকূটদের পতনের সঙ্গে সঙ্গে দাক্ষিণাত্য ও উত্তর ভারতে তাদের সামন্ত শাসকেরা স্বাধীনতা ঘোষণা করেন। পশ্চিম চালুক্য সাম্রাজ্য ১০১৫ খ্রিস্টাব্দে মান্যখেত দখল করে সেখানেই তাদের রাজধানী স্থাপন করে। এরপর একাদশ শতাব্দীতে মান্যখেত পশ্চিম চালুক্যদের সাম্রাজ্যের কেন্দ্রে পরিণত হয়। শাসনকেন্দ্র কৃষ্ণা নদী ও গোদাবরী নদীর দোয়াব বেঙ্গিতে স্থানান্তরিত হয়। পশ্চিম দাক্ষিণাত্যে রাষ্ট্রকূটদের পূর্বতন সামন্ত শাসকদের চালুক্যরা নিজেদের অধীনে নিয়ে আসে। এরপর তাঁরা দাক্ষ

{'score': 1.0, 'start': 985, 'end': 989, 'answer': '২০১৮'}
context: সাধু মথি লিখিত সুসমাচার ও লুক এর সুসমাচার এ মেরি একজন কুমারীরূপে বর্ণিত হয়েছেন।[4]  খ্রিস্ট ধর্মাবলম্বীরা বিশ্বাস করেন যে মেরি পবিত্র আধ্যাত্মিক শক্তি দ্বারা কুমারী অবস্থাতেই সন্তানের জন্ম দেন। এই অলৌকিক জন্ম যখন ঘটে তখন মেরি যোসেফ এর বাগদত্তা ছিলেন এবং বিবাহের আনুষ্ঠানিক গৃহপ্রবেশের জন্য অপেক্ষা করছিলেন। যোসেফকে বিয়ে করে মেরি বেথেলহাম চলে আসেন যেখানে যিশুর জন্ম হয়।[5][6] লুক এর সুসমাচার এ বলা হয়েছে দেবদূত জিবরাঈল মেরির সম্মুখে আবির্ভূত হন এবং যিশুর মা হওয়ার জন্য মেরি দৈবভাবে নির্বাচিত হয়েছেন বলে জানান।  ক্যানোনিক্যাল সুসমাচার অনুযায়ী মেরি যিশুর ক্রুশবিদ্ধকরণ এর সময় উপস্থিত ছিলেন এবং জেরুসালেম এর প্রাথমিক খ্রিস্টান সম্প্রদায়ের সদস্য ছিলেন।ক্যাথলিক ও অর্থোডক্স ভাষ্যমতে জীবনাবসানের পর মেরির দেহ সরাসরি স্বর্গে নিয়ে যাওয়া হয় যা ‘এসাম্পশন অফ মেরি’ নামে পরিচিত।[7][8]
question: যিশু খ্রিস্টের বাবার নাম কী ?
gt: {'answer_start': 227, 'text': 'যোসেফ'}
{'score': 1.0, 'start': 227, 'end': 232, 'answer': 'যোসেফ'}
conte

{'score': 0.8345754742622375, 'start': 658, 'end': 670, 'answer': 'কর্নেল আবদুর'}
context: মিয়ানমার বা মায়ানমার (Burmese: မြန်မာ মিয়ামা, আ-ধ্ব-ব: [mjəmà]); প্রাক্তন নাম ও কথ্যরূপ বর্মা বা বার্মা (Burmese: ဗမာ বামা, আ-ধ্ব-ব: [bəmà]); প্রাচীন নাম ব্রহ্মদেশ) দক্ষিণ-পূর্ব এশিয়ার একটি রাষ্ট্র। মায়ানমারের আনুষ্ঠানিক নাম হল মায়ানমার প্রজাতন্ত্র (Burmese: ပြည်ထောင်စု သမ္မတ မြန်မာ နိုင်ငံတော် [pjìdàʊɴzṵ θàɴməda̰ mjəmà nàɪɴŋàɴdɔ̀] পিডাওঁযু থাঁমাডা মিয়ামা নাইঁঙাঁড)। মায়ানমারের রাজধানী নেপিডো (နေပြည်တော် [nèpjìdɔ̀] নেপিড)। তৎকালীন বার্মার গণতান্ত্রিক সরকারের উৎখাতের পর ১৯৮৯ সালে সেখানকার সামরিক সরকার বার্মার নতুন নামকরণ করে "মিয়ানমার" এবং প্রধান শহর ও তৎকালীন রাজধানী রেঙ্গুনের নতুন নাম হয় "ইয়াঙ্গুন"। তবে গণতান্ত্রিক দলগুলোর অনেক অনুসারীই এই নামকরণের বিপক্ষে। ২১ অক্টোবর ২০১০ থেকে দেশটির জাতীয় সঙ্গীত ও নতুন জাতীয় পতাকা প্রবর্তন করা হয়।
question: মায়ানমারের রাজধানী কোনটি ?
gt: {'answer_start': 396, 'text': 'নেপিডো'}
{'score': 0.991908848285675, 'start': 157, 'end': 166, 'answer': 'ব্রহ

{'score': 1.0, 'start': 33, 'end': 47, 'answer': 'রাঘবেন্দ্র রাও'}
context: বাংলাদেশের রাজধানী ঢাকাতে নির্মিতব্য ভূ-উপরিস্থ রেল ব্যবস্থার নাম ঢাকা মেট্রো। ঢাকা মেট্রো রেল ব্যবস্থাকে কে ম্যাস র‍্যাপিড ট্রানযিট সংক্ষেপে এমআরটি (MRT) হিসেবেও উল্লেখ করা হয়। ২০০০ সাল থেকে অতি জনবহুল ঢাকা মহানগরীর ক্রমঃবর্ধমান যানবাহন সমস্যা ও পথের দু:সহ যানজট কমিয়ে আনার লক্ষ্যে এই ম্যাস র‍্যাপিড ট্রানযিট ব্যবস্থা স্থাপনের পরিকল্পনা করা হয়েছে।  এই উদ্দেশ্যে একটি উন্নয়ন প্রকল্প গ্রহণ করা হয় যার নাম ঢাকা মাস র‌্যাপিড ট্রানজিট ডেভেলপমেন্ট প্রজেক্ট। ২০১৬ থেকে এই পরিকল্পনার বাস্তবায়ন শুরু হয়েছে। ২০১৯ সালের ডিসেম্বরের মধ্যে এর বাণিজ্যিক পরিচালনা শুরুর লক্ষ্য স্থির করা হয়েছে। এই প্রকল্প বাস্তবায়নে ব্যয় হবে ২২ হাজার কোটি টাকা যার মধ্যে জাপান ইন্টারন্যাশনাল কো-অপারেশন এজেন্সি (জাইকা)’র প্রকল্প ঋণ ৭৫ শতাংশ এবং বাংলাদেশ সরকারের নিজস্ব অর্থায়ন ২৫ শতাংশ।[4]
question: ঢাকা মেট্রো নির্মাণের কাজ কবে শুরু হয় ?
gt: {'answer_start': 458, 'text': '২০১৬'}
{'score': 0.9999996423721313, 'start': 458, 'end': 462, 'answer

{'score': 1.0, 'start': 1120, 'end': 1124, 'answer': '১৯৭৫'}


# Single Inference

In [4]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline



model = AutoModelForQuestionAnswering.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")
tokenizer = AutoTokenizer.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")

context = "বাংলাদেশ ও ভারতের অনেক বৃহৎ নদী পূর্ব থেকে পশ্চিমে প্রবাহিত হয়ে বঙ্গোপসাগরে পতিত হয়েছে।\
তন্মধ্যে উত্তরদিক থেকে গঙ্গা, মেঘনা এবং ব্রহ্মপুত্র; দক্ষিণদিক থেকে মহানদী, গোদাবরী, কৃষ্ণা, ইরাবতী এবং কাবেরী নদী উল্লেখযোগ্য।\
৬৪ কিলোমিটারব্যাপী (৪০ মাইল) কৌম নদী সবচেয়ে ছোট নদী হিসেবে সরু খাল দিয়ে এবং ২,৯৪৮ কিলোমিটারব্যাপী (১,৮৩২ মাইল)\
বিশ্বের ২৮তম দীর্ঘ নদী হিসেবে ব্রহ্মপুত্র নদ বাংলাদেশ, চীন, নেপাল ও ভারতের মধ্য দিয়ে প্রবাহিত হয়ে বঙ্গোপসাগরে মিলিত হয়েছে।\
সুন্দরবন ম্যানগ্রোভ বনাঞ্চল গঙ্গা, ব্রহ্মপুত্র ও মেঘনা নদীর ব-দ্বীপকে ঘিরে গঠিত হয়েছে। মায়ানমারের (সাবেক বার্মা) ইরাওয়াদি (সংস্কৃত ইরাবতী)\
নদীও এ উপসাগরে মিলিত হয়েছে এবং একসময় গভীর ও ঘন ম্যানগ্রোভ বনাঞ্চলের সৃষ্টি করেছিল।"
 
question = "ব্রহ্মপুত্র নদের মোট দৈর্ঘ্য কত ?"

QA = pipeline('question-answering', model=model, tokenizer=tokenizer)
QA_input = {'question': question,'context':context}

prediction = QA(QA_input)
print(prediction)

{'score': 1.0, 'start': 294, 'end': 310, 'answer': '২,৯৪৮ কিলোমিটারব'}


In [24]:
import torch
import random

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')



context = "বাংলাদেশ ও ভারতের অনেক বৃহৎ নদী পূর্ব থেকে পশ্চিমে প্রবাহিত হয়ে বঙ্গোপসাগরে পতিত হয়েছে।\
তন্মধ্যে উত্তরদিক থেকে গঙ্গা, মেঘনা এবং ব্রহ্মপুত্র; দক্ষিণদিক থেকে মহানদী, গোদাবরী, কৃষ্ণা, ইরাবতী এবং কাবেরী নদী উল্লেখযোগ্য।\
৬৪ কিলোমিটারব্যাপী (৪০ মাইল) কৌম নদী সবচেয়ে ছোট নদী হিসেবে সরু খাল দিয়ে এবং ২,৯৪৮ কিলোমিটারব্যাপী (১,৮৩২ মাইল)\
বিশ্বের ২৮তম দীর্ঘ নদী হিসেবে ব্রহ্মপুত্র নদ বাংলাদেশ, চীন, নেপাল ও ভারতের মধ্য দিয়ে প্রবাহিত হয়ে বঙ্গোপসাগরে মিলিত হয়েছে।\
সুন্দরবন ম্যানগ্রোভ বনাঞ্চল গঙ্গা, ব্রহ্মপুত্র ও মেঘনা নদীর ব-দ্বীপকে ঘিরে গঠিত হয়েছে। মায়ানমারের (সাবেক বার্মা) ইরাওয়াদি (সংস্কৃত ইরাবতী)\
নদীও এ উপসাগরে মিলিত হয়েছে এবং একসময় গভীর ও ঘন ম্যানগ্রোভ বনাঞ্চলের সৃষ্টি করেছিল।"
 
question = "ব্রহ্মপুত্র নদের মোট দৈর্ঘ্য কত ?"

model = AutoModelForQuestionAnswering.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer").to(device)
tokenizer = AutoTokenizer.from_pretrained("saiful9379/Bangla_Roberta_Question_and_Answer")


input_ids = tokenizer.encode(question, context)
tokens = tokenizer.convert_ids_to_tokens(input_ids)

output = model(torch.tensor([input_ids]).to(device))

argmax_start = torch.argmax(output['start_logits']).to(device)
argmax_end = torch.argmax(output['end_logits']).to(device)
print("="*40)
print("Question: ", question)
print("Context:", context)
print("-"*40)
print("Predicted answer: ", "".join(tokens[argmax_start:argmax_end]))

predicted_string = "".join(tokens[argmax_start:argmax_end])

token_id = tokenizer.encode(predicted_string)
print(argmax_start, argmax_end)
answer_tokens = tokens[argmax_start: argmax_end+1]

answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))

print("answer : ", answer)

# random_data = jaquad_data["validation"][random.randint(0, len(jaquad_data["validation"]))]
# from_data_to_answer(model, tokenizer, random_data)

QuestionAnsweringModelOutput(loss=None, start_logits=tensor([[-16.3680, -17.3164, -17.7502, -18.2334, -17.5051, -17.6700, -18.8044,
         -17.0317, -17.5096, -19.1373, -18.0707, -18.0804, -18.6880, -17.8809,
         -18.5109, -18.2540, -18.3011, -17.8451, -18.6201, -17.4243, -19.2553,
         -17.7516, -18.9651, -18.4140, -18.7526, -18.6903, -18.5156, -16.8956,
         -17.9776, -15.9104, -17.5950, -18.4859, -18.6443, -19.7269, -18.9075,
         -18.8117, -17.3282, -18.9628, -18.9563, -19.4569, -15.8712, -18.5416,
         -18.6439, -14.6385, -17.8338, -16.2377, -17.7837, -18.2652, -17.1790,
         -18.0542, -17.8363, -16.9750, -17.9468, -17.1633, -18.5397, -17.7660,
         -18.7768, -17.0808, -17.3248, -16.9080, -17.6782, -17.6809, -19.8366,
         -18.1068, -17.5276, -16.2343, -17.6140, -15.3399, -17.5103, -16.3853,
         -15.9636, -16.8899, -17.3155, -17.4412, -16.4900, -18.3246, -17.2063,
         -17.6613, -18.0371, -19.1178, -17.3419, -18.0175, -15.7748, -16.0610,