If you're opening this Notebook on colab, you will probably need to install 🤗 Transformers and 🤗 Datasets. Uncomment the following cell and run it.

In [None]:
! pip install datasets transformers



In [None]:
import transformers

print(transformers.__version__)

4.35.2


# Fine-tuning a model on a question-answering task

In [None]:
squad_v2 = False
model_checkpoint = "distilbert-base-uncased"
batch_size = 16

## Loading the dataset

In [None]:
from datasets import load_dataset, load_metric


In [None]:
datasets = load_dataset("json", data_files='alldata.json',field='data')

The `datasets` object itself is [`DatasetDict`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasetdict), which contains one key for the training set.

We can see the training have a column for the context, the question and the answers to those questions.

To access an actual element, you need to select a split first, then give an index:

In [None]:
datasets["train"][0]

{'id': 'eb74840dbbd0840cffe3f1ad4ad5da1f',
 'answers': [{'input_text': 'যুক্তরাষ্ট্রের',
   'span_end': 84,
   'span_start': 0,
   'span_text': 'টিকফা চুক্তিতে স্বাক্ষর করলে বাংলাদেশের জাতীয় নিরাপত্তা যুক্তরাষ্ট্রের হাতে চলে যাবে',
   'turn_id': 1},
  {'input_text': 'বাংলাদেশের ওয়ার্কার্স পার্টির পলিটব্যুরোর সভায় গৃহীত প্রস্তাবে',
   'span_end': 177,
   'span_start': 0,
   'span_text': 'টিকফা চুক্তিতে স্বাক্ষর করলে বাংলাদেশের জাতীয় নিরাপত্তা যুক্তরাষ্ট্রের হাতে চলে যাবে। গতকাল সোমবার বাংলাদেশের ওয়ার্কার্স পার্টির পলিটব্যুরোর সভায় গৃহীত প্রস্তাবে এ কথা বলা হয়',
   'turn_id': 2},
  {'input_text': '১৯ মে রোববার',
   'span_end': 261,
   'span_start': 199,
   'span_text': '১৯ মে রোববার দেশব্যাপী বিক্ষোভ দিবস পালন করার আহ্বান জানানো হয়',
   'turn_id': 3},
  {'input_text': 'রাশেদ খান ',
   'span_end': 284,
   'span_start': 263,
   'span_text': 'দলের সভাপতি রাশেদ খান ',
   'turn_id': 4}],
 'question': [{'input_text': 'টিকফা চুক্তিতে স্বাক্ষর করলে বাংলাদেশের জাতীয় নিরাপত্তা কাদের হাতে 

We can see the answers are indicated by their start position in the text (here at character 515) and their full text, which is a substring of the context as we mentioned above.

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset (automatically decoding the labels in passing).

In [None]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [None]:
show_random_elements(datasets["train"])

Unnamed: 0,id,answers,question,story,name,filename,source
0,5be95ff800f30d7194dd2039ced075c5,"[{'input_text': 'একটা কোষ দিয়ে সব ক্যান্সারের চিকিৎসার সম্ভাবনা বাড়িয়ে দিয়েছে', 'span_end': 120, 'span_start': 0, 'span_text': 'তিনি আরো বলেন, আগে কেউ বিশ্বাস করেনি এটা সম্ভব হতে পারে। একটা কোষ দিয়ে সব ক্যান্সারের চিকিৎসার সম্ভাবনা বাড়িয়ে দিয়েছে', 'turn_id': 1}]","[{'input_text': 'কি সম্ভাবনা বাড়িয়ে দিয়েছে ?', 'turn_id': 1}]","তিনি আরো বলেন, আগে কেউ বিশ্বাস করেনি এটা সম্ভব হতে পারে। একটা কোষ দিয়ে সব ক্যান্সারের চিকিৎসার সম্ভাবনা বাড়িয়ে দিয়েছে। যেটাকে ইংরেজিতে বলে ওয়ান ইজ ফিটস্‌ অল",1 - Copy (134).txt,1 - Copy (134).txt,manual
1,4327ab4c1ebf89440787925b3809e0dc,"[{'input_text': 'গ্যাসের চুলার আগুন তাপ থেকে আঠালো একটা ভাব সৃষ্টি হওয়া', 'span_end': 203, 'span_start': 113, 'span_text': 'রান্নাঘর তেলচিটচিটে হওয়ার মূল কারণ গ্যাসের চুলার আগুন তাপ থেকে আঠালো একটা ভাব সৃষ্টি হওয়া', 'turn_id': 1}, {'input_text': 'বিশুদ্ধ', 'span_end': 326, 'span_start': 268, 'span_text': ' গ্যাসটা যদি বিশুদ্ধ হয় তাহলে তা পোড়ালে তেলচিটচিটে হয় না', 'turn_id': 2}, {'input_text': 'গার্হস্থ্য অর্থনীতি কলেজের গৃহব্যবস্থাপনা ও গৃহায়ণ বিভাগের সহযোগী অধ্যাপক রীনাত ফওজিয়া', 'span_end': 530, 'span_start': 374, 'span_text': 'রান্নাঘরে তেল কালি ঝুল পড়ে এবং রান্নাঘর তেলচিটচিটে হয়ে যায়।’ বলেন গার্হস্থ্য অর্থনীতি কলেজের গৃহব্যবস্থাপনা ও গৃহায়ণ বিভাগের সহযোগী অধ্যাপক রীনাত ফওজিয়া', 'turn_id': 3}, {'input_text': 'এগজস্ট ফ্যান', 'span_end': 715, 'span_start': 619, 'span_text': 'সেই পরামর্শও দিয়েছেন তিনি সাধারণত রান্নাঘরে এগজস্ট ফ্যান ব্যবহারের গুরুত্বটা অনেকে বুঝতে পারে না', 'turn_id': 4}, {'input_text': 'লালাভ', 'span_end': 2103, 'span_start': 2038, 'span_text': ' যখন গ্যাসের চুলার ভেতর ময়লা জমে তখন চুলায় আগুনের শিখা লালাভ হয়', 'turn_id': 5}]","[{'input_text': 'রান্নাঘর তেলচিটচিটে হওয়ার মূল কারণ কি? ', 'turn_id': 1}, {'input_text': ' গ্যাসটা যদি কি হয় তাহলে তা পোড়ালে তেলচিটচিটে হয় না? ', 'turn_id': 2}, {'input_text': 'গ্যাসের সঙ্গে মিশ্র পদার্থ থাকে বলেই রান্নাঘরে তেল কালি ঝুল পড়ে এবং রান্নাঘর তেলচিটচিটে হয়ে যায় কে বলেন? ', 'turn_id': 3}, {'input_text': ' সাধারণত রান্নাঘরে কি ব্যবহারের গুরুত্বটা অনেকে বুঝতে পারে না? ', 'turn_id': 4}, {'input_text': ' যখন গ্যাসের চুলার ভেতর ময়লা জমে তখন চুলায় আগুনের শিখা কেমন হয়? ', 'turn_id': 5}]",বাড়ির সবার খাবার আর স্বাস্থ্যের প্রতি কড়া নজর আপনার।\n কিন্তু রান্নাঘরটা পরিষ্কার আছে কি না তা খেয়াল করছেন তো ‘রান্নাঘর তেলচিটচিটে হওয়ার মূল কারণ গ্যাসের চুলার আগুন তাপ থেকে আঠালো একটা ভাব সৃষ্টি হওয়া।\n ঢাকা শহরে প্রায় বেশির ভাগ বাড়িতে গ্যাসের চুলা ব্যবহার করে।\n গ্যাসটা যদি বিশুদ্ধ হয় তাহলে তা পোড়ালে তেলচিটচিটে হয় না।\n কিন্তু গ্যাসের সঙ্গে মিশ্র পদার্থ থাকে বলেই রান্নাঘরে তেল কালি ঝুল পড়ে এবং রান্নাঘর তেলচিটচিটে হয়ে যায়।’ বলেন গার্হস্থ্য অর্থনীতি কলেজের গৃহব্যবস্থাপনা ও গৃহায়ণ বিভাগের সহযোগী অধ্যাপক রীনাত ফওজিয়া।\n তবে একটু সচেতন থাকলে রান্নাঘরের তেলচিটচিটে অবস্থা থেকে একটু হলেও রেহাই পাওয়া যাবে।\n সেই পরামর্শও দিয়েছেন তিনি সাধারণত রান্নাঘরে এগজস্ট ফ্যান ব্যবহারের গুরুত্বটা অনেকে বুঝতে পারে না।\n ফ্যান ঘুরতে থাকলে চুলার গরম বাতাসটা বের হয়ে যায়।\n এতে রান্নাঘরের বাতাসটা ঠান্ডা অনুভব হয়।\n তেলচিটচিট ভাবটাও কম হয় রান্নাঘরে কিচেন হুডও ব্যবহার করতে পারেন।\n কিচেন হুড চুলার ওপর গরম বাতাস ছড়াতে দেয় না।\n গরম বাতাস শোষণ করে চিমনির সাহায্যে পাইপ দিয়ে বাইরে বের করে দেয়।\n ফলে রান্নাঘর তেলচিটচিটে হতে পারে না বাড়ি নির্মাণের সময় পুরো বাড়িতে না হলেও অন্তত চুলার পেছনে দেয়াল বা চুলার নিচে ও চোখের সমান উচ্চতায় আই হাইট টাইলস বসানো উচিত।\n চুলা ও চুলার পাশটা টাইলস দিয়ে নির্মাণ করা ভালো।\n কারণ টাইলসের রান্নাঘর সহজে মুছে পরিষ্কার করা যায়।\n অন্যান্য ঘরে মাকড়সার পাতলা ঝুল জমলেও রান্নাঘরের ওপরের দিকে দেয়ালে মোটা ভারী ধরনের ঝুল জমে।\n গ্যাসের চুলায় রান্না করার কারণে তৈলাক্ত পদার্থ পুড়ে ওপরের দিকে উঠে ধোঁয়া হচ্ছে এ কারণে মাকড়সার ঝুলটাও তেলচিটচিটে হয়ে যায়।\n তাই মাকড়সার মোটা ঝুল যেন রান্নাঘরে না জমতে পারে সে জন্য রান্নার পরপরই প্রতিদিন অথবা সপ্তাহে অন্তত এক দিন হলেও রান্নাঘরের ওপরে জমে থাকা মাকড়সার ঝুল পরিষ্কার করে ফেলতে হবে।\n রান্নাঘরের জানালার গ্রিলের গায়ে অনেক সময় তেল ও ঝুল আটকায়।\n কিছুদিন পর পর স্পঞ্জ বা কাপড় দিয়ে রান্নাঘরের জানালার গ্রিলটা পরিষ্কার করতে হবে।\n রান্না করার সময় মসলা ও তেলের কণা চুলার পাশে ছিটে পড়ে ফলে তেলচিটচিটে হয়ে যায় চুলার চারপাশ।\n তাই রান্নার পরপরই চুলার চারপাশটা অন্তত একবার পরিষ্কার স্পঞ্জ বা কাপড় ভিজিয়ে সাবানপানি বা কিচেন ক্লিনার দিয়ে মুছে পরিষ্কার করে রাখতে হবে।\n যখন গ্যাসের চুলার ভেতর ময়লা জমে তখন চুলায় আগুনের শিখা লালাভ হয়।\n ফলে তেলচিটচিটে ভাবটা বেশি হয় রান্নাঘরে।\n এ কারণে যখনই এ অবস্থা দেখা দেবে তখনই চুলা ঠিক করার মিস্ত্রি ডেকে এনে কিংবা নিজে পারলে চুলার ভেতরের প্রতিটি অংশ খুলে ভালো করে পরিষ্কার করতে হবে যেন চুলার আগুনের শিখা আবার নীলাভ হয়ে যায়।\n বছরে অন্তত একবার চুলার প্রতিটি অংশ খুলে পরিষ্কার করা প্রয়োজন।\nরান্নাঘরের তেলচিটচিটে ভাব দূর করার বিষয়ে বলছিলেন রান্নাবিদ সিতারা ফেরদৌস।\nজেনে নিন রান্না করার পর প্রতিদিন পরিষ্কার করে রাখতে হবে।\n সাবানপানিতে ফোম ভিজিয়ে বা লিকুইড ক্লিনার দিয়ে চুলার আশপাশ পরিষ্কার করে রাখতে হবে।\n রান্নাঘরের ব্যবহূত সামগ্রী যেমন বিভিন্ন ধরনের মসলার কৌটা আনুষঙ্গিক সামগ্রী আঠালো ভাব হওয়ার আগেই সপ্তাহে অন্তত এক দিন সাবানপানি কিংবা কিচেন লিকুইড ক্লিনার দিয়ে পরিষ্কার করা ভালো।\n রান্নাঘরে প্রয়োজনীয় জিনিস ছাড়া অপ্রয়োজনীয় জিনিস সরিয়ে রাখতে হবে।\n ইদানীং অনেক রান্নাঘরে কেবিনেট থাকে।\n কেবিনেটের ভেতরে সব প্রয়োজনীয় সামগ্রী থাকে।\n এসব সামগ্রী ব্যবহারের পরপরই পরিষ্কার করে রাখতে হবে।\n কিচেন কেবিনেট না থাকলে প্রয়োজনীয় জিনিস আলাদা প্যাকেট কিংবা মোড়কে করে রাখা যেতে পারে।\nইহাতে মন্তব্য প্রদান বন্ধ রয়েছে\n \n,32.txt,32.txt,manual
2,c8f00a2192490f8bd04c579016652d52,"[{'input_text': 'চকরিয়ার মাতামুহুরী', 'span_end': 85, 'span_start': 0, 'span_text': 'কক্সবাজার জেলার প্রধান নদী চকরিয়ার মাতামুহুরীতে আজ শনিবার চালু হচ্ছে দীর্ঘ প্রতীক্ষিত', 'turn_id': 1}, {'input_text': 'রাবার ড্যামের মাধ্যমে', 'span_end': 547, 'span_start': 452, 'span_text': 'হাজার হেক্টর জমি সেচসুবিধার আওতায় আসবে। রাবার ড্যামের মাধ্যমে পাহাড় থেকে নেমে আসা বৃষ্টির পানি', 'turn_id': 2}, {'input_text': 'দুই থেকে তিন বছর', 'span_end': 1096, 'span_start': 1000, 'span_text': 'ড্যাম দুটি তৈরি করতে সময় লেগেছে দুই থেকে তিন বছর। চকরিয়া উপজেলা পরিষদের চেয়ারম্যান রেজাউল করিম', 'turn_id': 3}, {'input_text': 'সৈয়দ আমিন', 'span_end': 1774, 'span_start': 1691, 'span_text': 'এলাকার মানুষ খুশি। বাঘগুজরা এলাকার কৃষক সৈয়দ আমিন ৫৫ বলেন ‘একটি স্থায়ী বাঁধের জন্য', 'turn_id': 4}, {'input_text': '৩০ বছর', 'span_end': 1829, 'span_start': 1751, 'span_text': 'একটি স্থায়ী বাঁধের জন্য আমরা চাষিরা ৩০ বছর ধরে আন্দোলন করছি। কিন্তু কেউ আমাদের', 'turn_id': 5}, {'input_text': 'মো মাইনদ্দীন', 'span_end': 2082, 'span_start': 1982, 'span_text': 'করে দিয়েছেন।’ পাউবো কক্সবাজারের নির্বাহী প্রকৌশলী মো মাইনদ্দীন বলেন রাবার ড্যাম দুটি নির্মিত হওয়ায়', 'turn_id': 6}, {'input_text': '১৩ হাজার ৭১১ হেক্টর', 'span_end': 2155, 'span_start': 2063, 'span_text': 'দুটি নির্মিত হওয়ায় নদীর দুই তীরের ১৩ হাজার ৭১১ হেক্টর জমি সেচসুবিধার আওতায় আসছে এবং চাষিরা', 'turn_id': 7}]","[{'input_text': 'কক্সবাজার জেলার প্রধান নদী কি?', 'turn_id': 1}, {'input_text': 'কিসের মাধ্যমে বৃষ্টির পানি নদীতে ধরে রাখা হবে?', 'turn_id': 2}, {'input_text': 'রাবার ড্যাম দুটি তৈরি করতে কত সময় লেগেছে?', 'turn_id': 3}, {'input_text': 'বাঘগুজরা এলাকার কৃষক কে?', 'turn_id': 4}, {'input_text': 'স্থায়ী বাঁধের জন্য কত বছর ধরে আন্দোলন করছে?', 'turn_id': 5}, {'input_text': 'পাউবো কক্সবাজারের নির্বাহী প্রকৌশলী কে?', 'turn_id': 6}, {'input_text': 'কতখানি জমি সেচসুবিধার আওতায় আসছে?', 'turn_id': 7}]",কক্সবাজার জেলার প্রধান নদী চকরিয়ার মাতামুহুরীতে আজ শনিবার চালু হচ্ছে দীর্ঘ প্রতীক্ষিত দুটি রাবার ড্যাম। আজ বিকেল পাঁচটায় পানিসম্পদমন্ত্রী রমেশ চন্দ্র সেন উপজেলার মানিকছড়ি ইউনিয়নের বাঘগুজরা অংশে ‘মাতামুহুরী দ্বিতীয় সেচ প্রকল্পের’ আওতায় তৈরি বাঘগুজরা রাবার ড্যামটি উদ্বোধন করবেন। বাংলাদেশ পানি উন্নয়ন বোর্ড পাউবো ৫৩ কোটি ৮২ লাখ টাকা ব্যয়ে এই রাবার ড্যাম দুটি তৈরি করে। রাবার ড্যাম দুটি চালুর পর চকরিয়া ও পেকুয়া উপজেলার ২০টি ইউনিয়নের প্রায় ১৪ হাজার হেক্টর জমি সেচসুবিধার আওতায় আসবে। রাবার ড্যামের মাধ্যমে পাহাড় থেকে নেমে আসা বৃষ্টির পানি নদীতে ধরে রাখা হবে। পাউবো সূত্র জানায় পার্বত্য বান্দরবানের পাহাড় থেকে আঁকাবাঁকা হয়ে নেমে আসা চকরিয়াপেকুয়া হয়ে ১১০ কিলোমিটারের মাতামুহুরী নদীটি বঙ্গোপসাগরে গিয়ে মিশেছে। এর মধ্যে পেকুয়া ও চকরিয়া উপজেলায় পড়েছে প্রায় ৫৫ কিলোমিটার। চকরিয়ার বাঘগুজরা এলাকায় ৩১ কোটি চার লাখ টাকা ব্যয়ে তৈরি করা হয়েছে ২৩৩ দশমিক ৫০ মিটার লম্বা একটি রাবার ড্যাম। আর ২২ কোটি ৭৮ লাখ টাকায় পালাকাটা অংশে তৈরি হয় ১৮৬ দশমিক ৫০ মিটার লম্বা আরেকটি রাবার ড্যাম। রাবার ড্যাম দুটি তৈরি করতে সময় লেগেছে দুই থেকে তিন বছর। চকরিয়া উপজেলা পরিষদের চেয়ারম্যান রেজাউল করিম বলেন ৩০ বছর ধরে এই দুই উপজেলার অন্তত ৬০ হাজার চাষি নদীর বিভিন্ন অংশে বালুর ক্রসবাঁধ দিয়ে শাকসবজি ও ফসলের চাষ করে আসছেন। স্থানীয় প্রশাসন ও চাষিদের দেওয়া চাঁদায় একাধিক অস্থায়ী ক্রসবাঁধ তৈরি করতে প্রতিবছর ব্যয় হতো ৫০ থেকে ৭০ লাখ টাকা। কিন্তু বর্ষার সময় পাহাড় থেকে নেমে আসা ঢলের পানিতে এই বাঁধ উপচে নদীর দুই তীরের হাজার হাজার বসতবাড়ি ফসলি জমি তলিয়ে যেত বলে ওই বাঁধগুলো ভেঙে দিতে হতো। এতে প্রতিবছর চাষিদের ওই বাঁধ নির্মাণের বিপরীতে বিপুল টাকা খরচ হতো। কিন্তু বর্তমান আওয়ামী লীগ সরকার ক্ষমতায় আসার পর চাষিদের দুর্ভোগ থেকে রক্ষার জন্য নদীতে দুটি স্থায়ী রাবার ড্যাম তৈরি করে দিয়েছে। এতে এলাকার মানুষ খুশি। বাঘগুজরা এলাকার কৃষক সৈয়দ আমিন ৫৫ বলেন ‘একটি স্থায়ী বাঁধের জন্য আমরা চাষিরা ৩০ বছর ধরে আন্দোলন করছি। কিন্তু কেউ আমাদের দুঃখ আমলে নেয়নি। এই সরকারের প্রধানমন্ত্রী শেখ হাসিনা আমাদের কথা শুনেছেন। তিনি দুটি স্থায়ী রাবার ড্যাম দিয়ে আমাদের সুন্দরভাবে জীবিকা নির্বাহের সুযোগ করে দিয়েছেন।’ পাউবো কক্সবাজারের নির্বাহী প্রকৌশলী মো মাইনদ্দীন বলেন রাবার ড্যাম দুটি নির্মিত হওয়ায় নদীর দুই তীরের ১৩ হাজার ৭১১ হেক্টর জমি সেচসুবিধার আওতায় আসছে এবং চাষিরা সারা বছর চাষবাদের সুবিধা পাবেন।,1034.txt,1034.txt,manual
3,76ea9cea4097c7b675c547ecde72ebbd,"[{'input_text': 'তামিম চৌধুরী, নুরুল ইসলাম মারজান আর সরোয়ার জাহান', 'span_end': 74, 'span_start': 1, 'span_text': 'তামিম চৌধুরী, নুরুল ইসলাম মারজান আর সরোয়ার জাহান হামলার মূল পরিকল্পনায় ছিল', 'turn_id': 1}, {'input_text': 'মূল পরিকল্পনায়', 'span_end': 74, 'span_start': 1, 'span_text': 'তামিম চৌধুরী, নুরুল ইসলাম মারজান আর সরোয়ার জাহান হামলার মূল পরিকল্পনায় ছিল', 'turn_id': 2}, {'input_text': 'পরিকল্পনা ও প্রশিক্ষণ', 'span_end': 134, 'span_start': 77, 'span_text': 'জাহাঙ্গীর আলম ওরফে রাজীব গান্ধী পরিকল্পনা ও প্রশিক্ষণ দিয়ে', 'turn_id': 3}, {'input_text': 'জাহাঙ্গীর আলম ওরফে রাজীব গান্ধী', 'span_end': 134, 'span_start': 77, 'span_text': 'জাহাঙ্গীর আলম ওরফে রাজীব গান্ধী পরিকল্পনা ও প্রশিক্ষণ দিয়ে', 'turn_id': 4}, {'input_text': 'রাকিবুল হাসান', 'span_end': 175, 'span_start': 137, 'span_text': 'রাকিবুল হাসান প্রশিক্ষণ ও প্ররোচনা দিয়ে', 'turn_id': 5}, {'input_text': 'প্রশিক্ষণ ও প্ররোচনা', 'span_end': 175, 'span_start': 137, 'span_text': 'রাকিবুল হাসান প্রশিক্ষণ ও প্ররোচনা দিয়ে', 'turn_id': 6}, {'input_text': 'আবদুস সবুর', 'span_end': 254, 'span_start': 178, 'span_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন', 'turn_id': 7}, {'input_text': 'পরিকল্পনা ও অনুমোদন', 'span_end': 254, 'span_start': 178, 'span_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন', 'turn_id': 8}, {'input_text': 'হামলায়', 'span_end': 254, 'span_start': 178, 'span_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন', 'turn_id': 9}, {'input_text': 'গুলশানের হোলি আর্টিজানে', 'span_end': 254, 'span_start': 178, 'span_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন', 'turn_id': 10}]","[{'input_text': ' কারা হামলার মূল পরিকল্পনায় ছিল? ', 'turn_id': 1}, {'input_text': 'তামিম চৌধুরী, নুরুল ইসলাম মারজান আর সরোয়ার জাহান হামলার কিসে ছিল? ', 'turn_id': 2}, {'input_text': 'জাহাঙ্গীর আলম ওরফে রাজীব গান্ধী কি দিয়ে? ', 'turn_id': 3}, {'input_text': 'কে পরিকল্পনা ও প্রশিক্ষণ দিয়ে? ', 'turn_id': 4}, {'input_text': 'কে প্রশিক্ষণ ও প্ররোচনা দিয়ে? ', 'turn_id': 5}, {'input_text': 'রাকিবুল হাসান কি দিয়ে? ', 'turn_id': 6}, {'input_text': 'কে পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন? ', 'turn_id': 7}, {'input_text': 'আবদুস সবুর কি দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন? ', 'turn_id': 8}, {'input_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে কিসে জড়িত ছিলেন? ', 'turn_id': 9}, {'input_text': 'আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে কোথায় হামলায় জড়িত ছিলেন? ', 'turn_id': 10}]","তামিম চৌধুরী, নুরুল ইসলাম মারজান আর সরোয়ার জাহান হামলার মূল পরিকল্পনায় ছিল। জাহাঙ্গীর আলম ওরফে রাজীব গান্ধী পরিকল্পনা ও প্রশিক্ষণ দিয়ে, রাকিবুল হাসান প্রশিক্ষণ ও প্ররোচনা দিয়ে, আবদুস সবুর পরিকল্পনা ও অনুমোদন দিয়ে গুলশানের হোলি আর্টিজানে হামলায় জড়িত ছিলেন ।",704.txt,704.txt,manual
4,fed642bad4fa2f23d33de98897d298a9,"[{'input_text': ' আবু সারা শামসুর রউফ', 'span_end': 84, 'span_start': 15, 'span_text': 'র তত্ত্বাবধায়ক ছিলেন ওষুধপ্রযুক্তি বিভাগের অধ্যাপক আবু সারা শামসুর রউফ', 'turn_id': 1}]","[{'input_text': 'তত্ত্বাবধায়কের নাম কি ?', 'turn_id': 1}]",তাঁর এই গবেষণার তত্ত্বাবধায়ক ছিলেন ওষুধপ্রযুক্তি বিভাগের অধ্যাপক আবু সারা শামসুর রউফ আর সহতত্ত্বাবধায়ক ছিলেন বিভাগের জ্যেষ্ঠ শিক্ষক অধ্যাপক আ ব ম ফারুক।,1 - Copy (4).txt,1 - Copy (4).txt,manual
5,a527bc320045d6e04b09f5d139fcd05b,"[{'input_text': 'একটি দরিদ্র দেশ', 'span_end': 32, 'span_start': 0, 'span_text': 'বাংলাদেশ এমনিতেই একটি দরিদ্র দেশ।', 'turn_id': 1}, {'input_text': 'পোশাকশিল্প ', 'span_end': 149, 'span_start': 33, 'span_text': ' কিন্তু বিগত শতকের আশির দশক থেকে বাংলাদেশ অর্থনৈতিক দিক থেকে খানিকটা উন্নতি করতে পেরেছিল শুধু এই পোশাকশিল্প খাত থেকে।', 'turn_id': 2}, {'input_text': ' নভেম্বরে', 'span_end': 310, 'span_start': 211, 'span_text': 'গত বছরের নভেম্বরে ভয়াবহ অগ্নিকাণ্ডে আশুলিয়ার তাজরীন ফ্যাশনস লিমিটেডে ঝরে গেছে কিছু মূল্যবান প্রাণ।', 'turn_id': 3}, {'input_text': 'পোশাকশিল্পের', 'span_end': 406, 'span_start': 347, 'span_text': 'এতে পোশাকশিল্পের কাজের প্রতি আগ্রহ হারিয়ে ফেলবেন শ্রমিকেরা।', 'turn_id': 4}, {'input_text': 'পোশাক খাতের', 'span_end': 690, 'span_start': 642, 'span_text': ' সরকারের পোশাক খাতের দিকে বিশেষ গুরুত্ব দিতে হবে।', 'turn_id': 5}]","[{'input_text': 'বাংলাদেশ কেমন দেশ?', 'turn_id': 1}, {'input_text': ' কিন্তু বিগত শতকের আশির দশক থেকে বাংলাদেশ অর্থনৈতিক দিক থেকে খানিকটা উন্নতি করতে পেরেছিল শুধু কোন খাত থেকে?', 'turn_id': 2}, {'input_text': 'গত বছরের কখন ভয়াবহ অগ্নিকাণ্ডে আশুলিয়ার তাজরীন ফ্যাশনস লিমিটেডে ঝরে গেছে কিছু মূল্যবান প্রাণ?', 'turn_id': 3}, {'input_text': ' এতে কোন শিল্পের কাজের প্রতি আগ্রহ হারিয়ে ফেলবেন শ্রমিকেরা?', 'turn_id': 4}, {'input_text': ' সরকারের কোন খাতের দিকে বিশেষ গুরুত্ব দিতে হবে?', 'turn_id': 5}]",বাংলাদেশ এমনিতেই একটি দরিদ্র দেশ। কিন্তু বিগত শতকের আশির দশক থেকে বাংলাদেশ অর্থনৈতিক দিক থেকে খানিকটা উন্নতি করতে পেরেছিল শুধু এই পোশাকশিল্প খাত থেকে। আর আজ সেই পোশাকশিল্প খাতই চরম বিপর্যয়ের মুখে দাঁড়িয়ে আছে।গত বছরের নভেম্বরে ভয়াবহ অগ্নিকাণ্ডে আশুলিয়ার তাজরীন ফ্যাশনস লিমিটেডে ঝরে গেছে কিছু মূল্যবান প্রাণ। আর কটা মাস না যেতেই সাভারের ভবনধস। এতে পোশাকশিল্পের কাজের প্রতি আগ্রহ হারিয়ে ফেলবেন শ্রমিকেরা। আর তার বিরূপ প্রভাব পড়বে আমাদের দেশের অর্থনৈতিক অবস্থার ওপর। যাঁরা মারা গেলেন তাঁরা ছিলেন বাংলাদেশকে এগিয়ে নিয়ে যাওয়ার অন্যতম কারিগর।ভবিষ্যতে এ রকম ঘটনা যেন না হয় সে জন্য আমাদের প্রত্যেকের নিজ নিজ দায়িত্ব পালনে সচেষ্ট থাকতে হবে। সরকারের পোশাক খাতের দিকে বিশেষ গুরুত্ব দিতে হবে।জেনি প্রামাণিকউত্তরা ঢাকা।\n\n \n,1522.txt,1522.txt,manual
6,a8836e91c3d383916e52382fe1e0aebb,"[{'input_text': '‘নিখোঁজ’ এম ইলিয়াস আলীর', 'span_end': 271, 'span_start': 179, 'span_text': '‘নিখোঁজ’ এম ইলিয়াস আলীর ভাবমূর্তি নিয়ে প্রার্থিতার ঘোষণা দিলেন আরেক নেতা শামসুজ্জামান জামান', 'turn_id': 1}, {'input_text': 'শামসুজ্জামান জামান', 'span_end': 379, 'span_start': 274, 'span_text': 'শামসুজ্জামান জামান জাতীয়তাবাদী স্বেচ্ছাসেবক দলের কেন্দ্রীয় সহসভাপতি ও সিলেট মহানগর বিএনপির যুগ্ম সম্পাদক', 'turn_id': 2}, {'input_text': ' আগামী ১৫ জুন', 'span_end': 623, 'span_start': 520, 'span_text': ' আগামী ১৫ জুন সিলেটসহ দেশের চার সিটি করপোরেশনে নির্বাচন করার ব্যাপারে সম্প্রতি ঘোষণা দেয় নির্বাচন কমিশন', 'turn_id': 3}, {'input_text': 'সাবেক অর্থমন্ত্রী এম সাইফুর রহমানের', 'span_end': 886, 'span_start': 822, 'span_text': ' তিনি সাবেক অর্থমন্ত্রী এম সাইফুর রহমানের আস্থাভাজন হিসেবে পরিচিত', 'turn_id': 4}, {'input_text': ' গত বছরের ১৭ এপ্রিল ঢাকার বনানী', 'span_end': 1455, 'span_start': 1345, 'span_text': ' গত বছরের ১৭ এপ্রিল ঢাকার বনানী থেকে গাড়িচালকসহ ‘নিখোঁজ’ হন বিএনপির কেন্দ্রীয় সাংগঠনিক সম্পাদক এম ইলিয়াস আলী', 'turn_id': 5}, {'input_text': ' দল নির্বাচনে যাবে কি না আমি সন্দিহান', 'span_end': 2213, 'span_start': 2075, 'span_text': 'জামানের প্রার্থিতার ব্যাপারে জেলা বিএনপির জ্যেষ্ঠ সহসভাপতি ও সাবেক সাংসদ দিলদার হোসেন প্রথম আলোকে বলেন দল নির্বাচনে যাবে কি না আমি সন্দিহান', 'turn_id': 6}]","[{'input_text': 'কার ভাবমূর্তি নিয়ে প্রার্থিতার ঘোষণা দিলেন আরেক নেতা শামসুজ্জামান জামান? ', 'turn_id': 1}, {'input_text': ' জাতীয়তাবাদী স্বেচ্ছাসেবক দলের কেন্দ্রীয় সহসভাপতি ও সিলেট মহানগর বিএনপির যুগ্ম সম্পাদক কে? ', 'turn_id': 2}, {'input_text': 'কবে সিলেটসহ দেশের চার সিটি করপোরেশনে নির্বাচন করার ব্যাপারে সম্প্রতি ঘোষণা দেয় নির্বাচন কমিশন? ', 'turn_id': 3}, {'input_text': ' আরিফুল হক চৌধুরী কার আস্থাভাজন হিসেবে পরিচিত? ', 'turn_id': 4}, {'input_text': 'কবে থেকে গাড়িচালকসহ ‘নিখোঁজ’ হন বিএনপির কেন্দ্রীয় সাংগঠনিক সম্পাদক এম ইলিয়াস আলী? ', 'turn_id': 5}, {'input_text': 'জামানের প্রার্থিতার ব্যাপারে জেলা বিএনপির জ্যেষ্ঠ সহসভাপতি ও সাবেক সাংসদ দিলদার হোসেন প্রথম আলোকে কি বলেন? ', 'turn_id': 6}]",সাবেক অর্থমন্ত্রী প্রয়াত এম সাইফুর রহমানের ভাবমূর্তিতে ভর করে সিলেট সিটি করপোরেশন নির্বাচনে মেয়র পদে আগেই প্রার্থিতার ঘোষণা দিয়েছেন বিএনপির আলোচিত নেতা আরিফুল হক চৌধুরী।\n এবার ‘নিখোঁজ’ এম ইলিয়াস আলীর ভাবমূর্তি নিয়ে প্রার্থিতার ঘোষণা দিলেন আরেক নেতা শামসুজ্জামান জামান।\nশামসুজ্জামান জামান জাতীয়তাবাদী স্বেচ্ছাসেবক দলের কেন্দ্রীয় সহসভাপতি ও সিলেট মহানগর বিএনপির যুগ্ম সম্পাদক।\n গতকাল সোমবার দুপুরে নগরের একটি কমিউনিটি সেন্টারে জেলা ও মহানগর বিএনপির নেতারা এক সংবাদ সম্মেলন করে মেয়র পদে তাঁর প্রার্থিতা ঘোষণা করেন।\n আগামী ১৫ জুন সিলেটসহ দেশের চার সিটি করপোরেশনে নির্বাচন করার ব্যাপারে সম্প্রতি ঘোষণা দেয় নির্বাচন কমিশন।\n এ নির্বাচনে বিএনপি দলীয়ভাবে অংশ নেবে কি না তা নিয়ে এখনো অনিশ্চয়তা রয়েছে।\n তবে গত শুক্রবার রাতে এক মতবিনিময় সভা করে মেয়র পদে প্রার্থিতা ঘোষণা করেন নগর বিএনপির সাবেক সভাপতি আরিফুল হক চৌধুরী।\n তিনি সাবেক অর্থমন্ত্রী এম সাইফুর রহমানের আস্থাভাজন হিসেবে পরিচিত।\n আর গতকাল প্রার্থিতার ঘোষণা দেওয়া জামান বিএনপির ‘নিখোঁজ’ কেন্দ্রীয় সাংগঠনিক সম্পাদক এম ইলিয়াস আলীর ঘনিষ্ঠ হিসেবে পরিচিত।\nদলীয় সূত্র জানায় বিগত চারদলীয় জোট সরকারের আমলে সিলেট সিটি করপোরেশন ঘোষণার পর ২০০১ সালে প্রথম নির্বাচনে মেয়র পদে সাবেক অর্থমন্ত্রী সাইফুর রহমানের সমর্থিত প্রার্থী মহানগর বিএনপির সভাপতি এম এ হকের বিরুদ্ধে প্রতিদ্বন্দ্বিতা করেছিলেন জামান।\n সিলেট বিএনপির রাজনীতিতে তখন থেকেই মূলত সাইফুর ও ইলিয়াস পক্ষের মধ্যে বিভাজন প্রকাশ্যে আসে।\n গত বছরের ১৭ এপ্রিল ঢাকার বনানী থেকে গাড়িচালকসহ ‘নিখোঁজ’ হন বিএনপির কেন্দ্রীয় সাংগঠনিক সম্পাদক এম ইলিয়াস আলী।\n তাঁর সন্ধানের দাবিতে গত এক বছরের বেশি সময় ধরে সিলেটে যে আন্দোলন ও প্রতিবাদ কর্মসূচি চলে আসছে তাতে সর্বদা সক্রিয় ভূমিকা রাখেন জামান।\n এর মধ্য দিয়ে তিনি স্থানীয় বিএনপিতে ইলিয়াস অনুসারীদের আরও আস্থাভাজন হয়ে ওঠেন।\nগতকালের সংবাদ সম্মেলনে লিখিত বক্তব্য দেন জেলা বিএনপির সাধারণ সম্পাদক আবদুল গফফার।\n বক্তব্যে তিনি দলের সংকটময় মুহূর্তে জামানের অবদানের কথা তুলে ধরেন।\n লিখিত বক্তব্যে জামানকে মেয়র পদে দলীয় সমর্থন দেওয়ার আহ্বান জানিয়ে বলা হয় ‘নির্বাচনে অংশগ্রহণ করার বিষয়ে যদি বিএনপির চেয়ারপারসনের অনুমতি পাই তাহলে আমরা মনে করি চলমান আন্দোলনের অংশ হিসেবে জামানকে নিয়ে নির্বাচনী যুদ্ধে অংশ নিয়ে জয়ী হতে পারব।\n’জামানের প্রার্থিতার ব্যাপারে জেলা বিএনপির জ্যেষ্ঠ সহসভাপতি ও সাবেক সাংসদ দিলদার হোসেন প্রথম আলোকে বলেন দল নির্বাচনে যাবে কি না আমি সন্দিহান।\n তবে যেহেতু কোনো ঘোষণা আসেনি তাই প্রস্তুতি চলছে।\n দলের সংকট মুহূর্তে যাঁরা ভূমিকা রেখেছেন তাঁদের একজন শামসুজ্জামান।\n তবে দল নির্বাচনে না গেলে আমি ব্যক্তিগতভাবেও কোনো প্রার্থীর পক্ষে থাকব না।\n’ইহাতে মন্তব্য প্রদান বন্ধ রয়েছে\n \n,65.txt,65.txt,manual
7,4bc2bee87e8c559fd9f5752e51b02ba7,"[{'input_text': ' তৃতীয়', 'span_end': 118, 'span_start': 0, 'span_text': 'বাংলাদেশ ডেমোগ্রাফিক হেলথ সার্ভে ২০১১ অনুযায়ী অপুষ্ট শিশুর সংখ্যার ভিত্তিতে বাংলাদেশে চট্টগ্রাম বিভাগের অবস্থান তৃতীয়', 'turn_id': 1}, {'input_text': '৩ দশমিক ৮ শতাংশ', 'span_end': 174, 'span_start': 121, 'span_text': 'এ অঞ্চলে মারাত্মক অপুষ্টিতে ভুগছে ৩ দশমিক ৮ শতাংশ শিশু', 'turn_id': 2}, {'input_text': 'পুষ্টিপ্রকোষ্ঠ উদ্বোধনী অনুষ্ঠানের বক্তা', 'span_end': 326, 'span_start': 121, 'span_text': 'এ অঞ্চলে মারাত্মক অপুষ্টিতে ভুগছে ৩ দশমিক ৮ শতাংশ শিশু।গতকাল সোমবার দুপুরে চট্টগ্রাম মেডিকেল কলেজ চমেক হাসপাতালের শিশু বিভাগে অপুষ্ট শিশুদের জন্য পুষ্টিপ্রকোষ্ঠ উদ্বোধনী অনুষ্ঠানে বক্তারা এসব কথা জানিয়েছেন', 'turn_id': 3}, {'input_text': 'চমেক হাসপাতালের পরিচালক ব্রিগেডিয়ার জেনারেল খন্দকার শহিদুল গণি', 'span_end': 486, 'span_start': 329, 'span_text': 'আন্তর্জাতিক বেসরকারি প্রতিষ্ঠান কনসার্ন ওয়ার্ল্ডওয়াইডের আয়োজনে অনুষ্ঠানে প্রধান অতিথি ছিলেন চমেক হাসপাতালের পরিচালক ব্রিগেডিয়ার জেনারেল খন্দকার শহিদুল গণি', 'turn_id': 4}, {'input_text': 'রেজাউল করিম', 'span_end': 588, 'span_start': 489, 'span_text': 'চমেক শিশু বিভাগের বিভাগীয় প্রধান ও সহযোগী অধ্যাপক রেজাউল করিমের সভাপতিত্বে আলোচনা সভায় বক্তব্য দেন', 'turn_id': 5}]","[{'input_text': 'বাংলাদেশ ডেমোগ্রাফিক হেলথ সার্ভে ২০১১ অনুযায়ী অপুষ্ট শিশুর সংখ্যার ভিত্তিতে বাংলাদেশে চট্টগ্রাম বিভাগের অবস্থান কত?', 'turn_id': 1}, {'input_text': 'অঞ্চলে মারাত্মক অপুষ্টিতে ভুগছে কত শিশু?', 'turn_id': 2}, {'input_text': 'অঞ্চলে মারাত্মক অপুষ্টিতে ভুগছে ৩ দশমিক ৮ শতাংশ শিশু কারা কথা জানিয়েছে?', 'turn_id': 3}, {'input_text': 'কনসার্ন ওয়ার্ল্ডওয়াইডের আয়োজনে অনুষ্ঠানে প্রধান অতিথি কে ছিলেন?', 'turn_id': 4}, {'input_text': 'চমেক শিশু বিভাগের বিভাগীয় প্রধান ও সহযোগী অধ্যাপক কে?', 'turn_id': 5}]",বাংলাদেশ ডেমোগ্রাফিক হেলথ সার্ভে ২০১১ অনুযায়ী অপুষ্ট শিশুর সংখ্যার ভিত্তিতে বাংলাদেশে চট্টগ্রাম বিভাগের অবস্থান তৃতীয়। এ অঞ্চলে মারাত্মক অপুষ্টিতে ভুগছে ৩ দশমিক ৮ শতাংশ শিশু।গতকাল সোমবার দুপুরে চট্টগ্রাম মেডিকেল কলেজ চমেক হাসপাতালের শিশু বিভাগে অপুষ্ট শিশুদের জন্য পুষ্টিপ্রকোষ্ঠ উদ্বোধনী অনুষ্ঠানে বক্তারা এসব কথা জানিয়েছেন। আন্তর্জাতিক বেসরকারি প্রতিষ্ঠান কনসার্ন ওয়ার্ল্ডওয়াইডের আয়োজনে অনুষ্ঠানে প্রধান অতিথি ছিলেন চমেক হাসপাতালের পরিচালক ব্রিগেডিয়ার জেনারেল খন্দকার শহিদুল গণি। চমেক শিশু বিভাগের বিভাগীয় প্রধান ও সহযোগী অধ্যাপক রেজাউল করিমের সভাপতিত্বে আলোচনা সভায় বক্তব্য দেন কনসার্ন ওয়ার্ল্ডওয়াইডের আরবান প্রোগ্রামের প্রধান সৈয়দ ইজাজ রসুল শিশু বিভাগের চিকিৎসক নাসিরউদ্দিন মাহমুদ প্রমুখ।প্রকল্পের কর্মকাণ্ড উপস্থাপন করেন কনসার্ন ওয়ার্ল্ডওয়াইডের প্রকল্প সমন্বয়কারী আসফিয়া আজিম। তিনি বলেন বাংলাদেশ ডেমোগ্রাফিক হেলথ সার্ভে ২০১১ সালের হিসাব অনুযায়ী অপুষ্ট শিশুর সংখ্যা সারা বাংলাদেশে চট্টগ্রাম বিভাগের স্থান তৃতীয় এবং এর হার ৩ দশমিক ৮ শতাংশ।চট্টগ্রামে অপুষ্ট শিশুদের চাহিদা ও প্রাপ্তির শূন্যতা পূরণের লক্ষ্যে গত বছরের সেপ্টেম্বরে চমেক হাসপাতাল এবং কনসার্ন ওয়ার্ল্ডওয়াইডের মধ্যে একটি সমঝোতা চুক্তি স্বাক্ষরিত হয়। এরই ধারাবাহিকতায় চমেক শিশু বিভাগে গত ডিসেম্বর মাসে এ সেবা প্রকল্পটি চালু হয়।\n,1726.txt,1726.txt,manual
8,2b42a758495bee0f6a6cedb1047e3fa3,"[{'input_text': 'তাইওয়ান ফিলিপাইন', 'span_end': 74, 'span_start': 0, 'span_text': 'জেলে হত্যার ঘটনার জের ধরে তাইওয়ান ফিলিপাইন থেকে শ্রমিক নেওয়া স্থগিত করেছে', 'turn_id': 1}, {'input_text': 'তাইওয়ান', 'span_end': 142, 'span_start': 18, 'span_text': 'জের ধরে তাইওয়ান ফিলিপাইন থেকে শ্রমিক নেওয়া স্থগিত করেছে। একই সঙ্গে ম্যানিলা থেকে নিজেদের দূতকেও প্রত্যাহার করে নিয়েছে তারা', 'turn_id': 2}, {'input_text': 'ম্যানিলার', 'span_end': 196, 'span_start': 145, 'span_text': 'এর আগে ম্যানিলার দুঃখ প্রকাশের পদক্ষেপও নাকচ করা হয়', 'turn_id': 3}, {'input_text': 'ফিলিপাইনের কোস্টগার্ড', 'span_end': 289, 'span_start': 198, 'span_text': 'গত সপ্তাহে হুং শিহচেং ৬৫ নামের তাইওয়ানের ওই জেলেকে গুলি করে হত্যা করে ফিলিপাইনের কোস্টগার্ড', 'turn_id': 4}, {'input_text': 'তাইওয়ানের প্রেসিডেন্ট মা ইংজিউ', 'span_end': 624, 'span_start': 480, 'span_text': 'তাইওয়ানের প্রেসিডেন্ট মা ইংজিউ আনুষ্ঠানিক ক্ষমা প্রার্থনাসহ ওই জেলের পরিবারকে উপযুক্ত ক্ষতিপূরণ দেওয়ার জন্য ম্যানিলার প্রতি জোর দাবি জানিয়েছেন', 'turn_id': 5}]","[{'input_text': 'জেলে হত্যার ঘটনার জের ধরে কোথা থেকে শ্রমিক নেওয়া স্থগিত করেছে?', 'turn_id': 1}, {'input_text': 'একই সঙ্গে ম্যানিলা থেকে নিজেদের দূতকেও প্রত্যাহার করে নিয়েছে কারা?', 'turn_id': 2}, {'input_text': 'এর আগে কার দুঃখ প্রকাশের পদক্ষেপও নাকচ করা হয়?', 'turn_id': 3}, {'input_text': 'গত সপ্তাহে হুং শিহচেং ৬৫ নামের তাইওয়ানের ওই জেলেকে গুলি করে হত্যা করে কারা?', 'turn_id': 4}, {'input_text': 'কে আনুষ্ঠানিক ক্ষমা প্রার্থনাসহ ওই জেলের পরিবারকে উপযুক্ত ক্ষতিপূরণ দেওয়ার জন্য ম্যানিলার প্রতি জোর দাবি জানিয়েছেন?', 'turn_id': 5}]",জেলে হত্যার ঘটনার জের ধরে তাইওয়ান ফিলিপাইন থেকে শ্রমিক নেওয়া স্থগিত করেছে। একই সঙ্গে ম্যানিলা থেকে নিজেদের দূতকেও প্রত্যাহার করে নিয়েছে তারা। এর আগে ম্যানিলার দুঃখ প্রকাশের পদক্ষেপও নাকচ করা হয়।গত সপ্তাহে হুং শিহচেং ৬৫ নামের তাইওয়ানের ওই জেলেকে গুলি করে হত্যা করে ফিলিপাইনের কোস্টগার্ড। সে সময় তারা বলেছিল ফিলিপাইনের জলসীমা লঙ্ঘন করায় ওই জেলেকে গুলি করা হয়।ফিলিপাইনের প্রেসিডেন্ট বেনিগনো অ্যাকুইনো গতকাল বুধবার দুঃখ প্রকাশ করে তাইওয়ানকে শান্ত থাকার আহ্বান জানিয়েছেন।তবে তাইওয়ানের প্রেসিডেন্ট মা ইংজিউ আনুষ্ঠানিক ক্ষমা প্রার্থনাসহ ওই জেলের পরিবারকে উপযুক্ত ক্ষতিপূরণ দেওয়ার জন্য ম্যানিলার প্রতি জোর দাবি জানিয়েছেন।আর ওই ঘটনার প্রতিশোধ নিতে ফিলিপাইন থেকে শ্রমিক নেওয়া স্থগিত করেছে তাইওয়ান। সেই সঙ্গে তাইওয়ানের দাবি গতকালের মধ্যে পূরণ করার জন্য সময়সীমা বেঁধে দেওয়া হয়। অন্যথায় নিষেধাজ্ঞা দেওয়ার হুঁশিয়ারি উচ্চারণ করেন প্রেসিডেন্ট মা ইংজিউর একজন মুখপাত্র। এএফপি ও রয়টার্স।\n,2164.txt,2164.txt,manual
9,b37d6fe8e03415ecec7b048ae06e3bb8,"[{'input_text': 'রাষ্ট্রপক্ষের ১৭তম সাক্ষী মোস্তাফিজুর রহমান', 'span_end': 154, 'span_start': 29, 'span_text': 'আবদুল আলীমের বিরুদ্ধে মানবতাবিরোধী অপরাধের মামলায় গতকাল সোমবার জবানবন্দি দিয়েছেন রাষ্ট্রপক্ষের ১৭তম সাক্ষী মোস্তাফিজুর রহমান', 'turn_id': 1}, {'input_text': 'আলীম', 'span_end': 277, 'span_start': 191, 'span_text': 'মুক্তিযুদ্ধকালে তাঁর বাবা মামা ও দুই চাচাকে ছেড়ে দেওয়ার অনুরোধ জানালে তা রাখেননি আলীম', 'turn_id': 2}, {'input_text': ' ট্রাইব্যুনালে ', 'span_end': 487, 'span_start': 431, 'span_text': ' শারীরিক কারণে জামিনে থাকা আলীম ট্রাইব্যুনালে হাজির ছিলেন', 'turn_id': 3}, {'input_text': 'বিহারি আহমেদ কসাই ও রশিদ বিহারি ', 'span_end': 1024, 'span_start': 913, 'span_text': ' বিহারি আহমেদ কসাই ও রশিদ বিহারি সবাইকে সামনে আসার আহ্বান জানান এবং সবাইকে নিয়ে শান্তি কমিটি গঠনের প্রস্তাব দেন', 'turn_id': 4}, {'input_text': 'আলীম', 'span_end': 1867, 'span_start': 1758, 'span_text': ' তাঁদের ছেড়ে দেওয়ার অনুরোধ করলে আলীম বলেন ‘যেহেতু আটককৃতরা স্বাধীনতার পক্ষের লোক সেহেতু তাঁদের ছাড়া যাবে না', 'turn_id': 5}, {'input_text': '১৯৭২ সালের ২ মে', 'span_end': 2214, 'span_start': 2113, 'span_text': ' দেশ স্বাধীন হওয়ার পর তাঁরা ফিরে এসে ১৯৭২ সালের ২ মে ওই বধ্যভূমি থেকে তাঁদের লাশ শনাক্ত করে দাফন করেন', 'turn_id': 6}, {'input_text': 'আসামিপক্ষের আইনজীবী আহসানুল হক', 'span_end': 2412, 'span_start': 2333, 'span_text': 'জবানবন্দি শেষে মোস্তাফিজুর রহমানকে জেরা শুরু করেন আসামিপক্ষের আইনজীবী আহসানুল হক', 'turn_id': 7}, {'input_text': 'তাঁর বাবা মামা দুই চাচাকে মেরে ফেলা হয়েছে', 'span_end': 2079, 'span_start': 1943, 'span_text': ' ওই দিন সন্ধ্যায় বাড়ির পাশে কালিশাহ পুকুরে বধ্যভূমির কাছে গুলির শব্দ পেয়ে তাঁরা অনুমান করেন তাঁর বাবা মামা দুই চাচাকে মেরে ফেলা হয়েছে', 'turn_id': 8}]","[{'input_text': 'আবদুল আলীমের বিরুদ্ধে মানবতাবিরোধী অপরাধের মামলায় জবানবন্দি দিয়েছেন কে? ', 'turn_id': 1}, {'input_text': 'মুক্তিযুদ্ধকালে তাঁর বাবা মামা ও দুই চাচাকে ছেড়ে দেওয়ার অনুরোধ জানালে তা রাখেননি কে? ', 'turn_id': 2}, {'input_text': ' শারীরিক কারণে জামিনে থাকা আলীম কোথায় হাজির ছিলেন? ', 'turn_id': 3}, {'input_text': ' কারা সবাইকে সামনে আসার আহ্বান জানান এবং সবাইকে নিয়ে শান্তি কমিটি গঠনের প্রস্তাব দেন? ', 'turn_id': 4}, {'input_text': 'কে বলেন যেহেতু আটককৃতরা স্বাধীনতার পক্ষের লোক সেহেতু তাঁদের ছাড়া যাবে না? ', 'turn_id': 5}, {'input_text': ' দেশ স্বাধীন হওয়ার পর তাঁরা ফিরে এসে কবে ওই বধ্যভূমি থেকে তাঁদের লাশ শনাক্ত করে দাফন করেন? ', 'turn_id': 6}, {'input_text': 'জবানবন্দি শেষে মোস্তাফিজুর রহমানকে জেরা শুরু করেন কে? ', 'turn_id': 7}, {'input_text': ' ওই দিন সন্ধ্যায় বাড়ির পাশে কালিশাহ পুকুরে বধ্যভূমির কাছে গুলির শব্দ পেয়ে তাঁরা কি অনুমান করেন ? ', 'turn_id': 8}]",বিএনপির নেতা ও সাবেক মন্ত্রী আবদুল আলীমের বিরুদ্ধে মানবতাবিরোধী অপরাধের মামলায় গতকাল সোমবার জবানবন্দি দিয়েছেন রাষ্ট্রপক্ষের ১৭তম সাক্ষী মোস্তাফিজুর রহমান।\n জবানবন্দিতে তিনি বলেছেন একাত্তরে মুক্তিযুদ্ধকালে তাঁর বাবা মামা ও দুই চাচাকে ছেড়ে দেওয়ার অনুরোধ জানালে তা রাখেননি আলীম।\nবিচারপতি ওবায়দুল হাসানের নেতৃত্বে তিন সদস্যের আন্তর্জাতিক অপরাধ ট্রাইব্যুনাল২এ মোস্তাফিজুর রহমানের জবানবন্দি নেন রাষ্ট্রপক্ষের কৌঁসুলি রানা দাশগুপ্ত।\n শারীরিক কারণে জামিনে থাকা আলীম ট্রাইব্যুনালে হাজির ছিলেন।\nজবানবন্দিতে মোস্তাফিজুর রহমান বলেন একাত্তরে তাঁর বয়স ছিল ১৪-১৫ বছর পাঁচবিবি উচ্চবিদ্যালয়ে নবম শ্রেণীতে পড়তেন।\n একাত্তরের ২৬ মে বেলা ১১টার দিকে পাকিস্তানি সেনা শান্তি কমিটির সদস্য ও রাজাকাররা তাঁদের বাড়ির পাশে তাঁর চাচা ইদ্রিস উদ্দিন সরদারের বাড়িতে আসে।\n এ খবর শুনে তিনি বাড়ির পাশে ঝোপের আড়ালে লুকান।\n তাঁর পাশে তাঁর দুই চাচাতো ভাই মাহবুবর রহমান রাষ্ট্রপক্ষের ১৬তম সাক্ষী ও বজলার রহমানও লুকান।\n সেখান থেকে তাঁরা দেখেন বিহারি আহমেদ কসাই ও রশিদ বিহারি সবাইকে সামনে আসার আহ্বান জানান এবং সবাইকে নিয়ে শান্তি কমিটি গঠনের প্রস্তাব দেন।\n এ সময় আরও অনেকের সঙ্গে তাঁর বাবাচাচারা এগিয়ে গেলে রাজাকার শান্তি কমিটির লোকজন এবং পাকিস্তানি সেনারা তাঁর বাবা ইলিয়াস উদ্দিন সরদার দুই চাচা ইউসুফ উদ্দিন সরদার ও ইউনুস উদ্দিন সরদারকে ধরে পাঁচবিবিতে নিয়ে যায়।\n তাঁর ওই দুই চাচাতো ভাই তাঁদের অনুসরণ করে পাঁচবিবি যান।\nরাষ্ট্রপক্ষের সাক্ষী বলেন বাড়ি ফিরে ওই দুই ভাই তাঁদের বলেন তাঁর মামা আবদুল কাদের মণ্ডল বাবা ও দুই চাচাকে পাঁচবিবির বালিহাটা ইউনিয়ন পরিষদে স্থাপিত সেনা ক্যাম্পে রাখা হয়েছে।\n এ খবর শুনে তাঁদের ছাড়িয়ে আনতে তাঁর আরেক চাচাতো ভাই আবুল কাশেম সরদারকে পাঠানো হয়।\n কাশেম পাঁচবিবি শান্তি কমিটির নেতা মওলানা মহাব্বতপুরী জয়বর আলী আকন্দ মওলানা রুস্তম আলীর সঙ্গে দেখা করে আটককৃতদের ছাড়িয়ে দিতে বললে তাঁরা আলীমের সঙ্গে দেখা করার পরামর্শ দেন।\n কাশেম পরে আলীমের কাছে গিয়ে তাঁদের ছেড়ে দেওয়ার অনুরোধ করলে আলীম বলেন ‘যেহেতু আটককৃতরা স্বাধীনতার পক্ষের লোক সেহেতু তাঁদের ছাড়া যাবে না।\n’মোস্তাফিজুর রহমান বলেন কাশেম বাড়িতে এসে তাঁকেসহ অন্যদের বিষয়টি জানান।\n ওই দিন সন্ধ্যায় বাড়ির পাশে কালিশাহ পুকুরে বধ্যভূমির কাছে গুলির শব্দ পেয়ে তাঁরা অনুমান করেন তাঁর বাবা মামা দুই চাচাকে মেরে ফেলা হয়েছে।\n ওই রাতেই তাঁরা ভারতে চলে যান।\n দেশ স্বাধীন হওয়ার পর তাঁরা ফিরে এসে ১৯৭২ সালের ২ মে ওই বধ্যভূমি থেকে তাঁদের লাশ শনাক্ত করে দাফন করেন।\nরাষ্ট্রপক্ষের ১৬তম সাক্ষী এ কে এম মাহবুবর রহমানও গত ২২ এপ্রিল ট্রাইব্যুনালে দেওয়া জবানবন্দিতে একই ধরনের বিবরণ দেন।\nজবানবন্দি শেষে মোস্তাফিজুর রহমানকে জেরা শুরু করেন আসামিপক্ষের আইনজীবী আহসানুল হক।\n জেরা অসমাপ্ত অবস্থায় এ মামলার কার্যক্রম আজ মঙ্গলবার পর্যন্ত মুলতবি করেন ট্রাইব্যুনাল।\nইহাতে মন্তব্য প্রদান বন্ধ রয়েছে\n \n,71.txt,71.txt,manual


## Preprocessing the training data

Before we can feed those texts to our model, we need to preprocess them. This is done by a 🤗 Transformers `Tokenizer` which will (as the name indicates) tokenize the inputs (including converting the tokens to their corresponding IDs in the pretrained vocabulary) and put it in a format the model expects, as well as generate the other inputs that model requires.

To do all of this, we instantiate our tokenizer with the `AutoTokenizer.from_pretrained` method, which will ensure:

- we get a tokenizer that corresponds to the model architecture we want to use,
- we download the vocabulary used when pretraining this specific checkpoint.

That vocabulary will be cached, so it's not downloaded again the next time we run the cell.

In [None]:
import json
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
import torch
import random

# Load the pre-trained model and tokenizer
model_path = "shams/banglabert-finetuned-squad"
tokenizer_path = "distilbert-base-uncased"
model = AutoModelForQuestionAnswering.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(tokenizer_path)

The following assertion ensures that our tokenizer is a fast tokenizers (backed by Rust) from the 🤗 Tokenizers library. Those fast tokenizers are available for almost all models, and we will need some of the special features they have for our preprocessing.

In [None]:
import transformers
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

You can check which type of models have a fast tokenizer available and which don't on the [big table of models](https://huggingface.co/transformers/index.html#bigtable).

You can directly call this tokenizer on two sentences (one for the answer, one for the context):

In [None]:
tokenizer("আপনার নাম কি?", "আমার নাম নিকুঞ্জো.")

{'input_ids': [101, 1348, 29903, 29902, 29914, 29908, 1366, 29914, 29906, 1353, 29915, 1029, 102, 1348, 29906, 29914, 29908, 1366, 29914, 29906, 100, 1012, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Depending on the model you selected, you will see different keys in the dictionary returned by the cell above. They don't matter much for what we're doing here (just know they are required by the model we will instantiate later), you can learn more about them in [this tutorial](https://huggingface.co/transformers/preprocessing.html) if you're interested.

Now one specific thing for the preprocessing in question answering is how to deal with very long documents. We usually truncate them in other tasks, when they are longer than the model maximum sentence length, but here, removing part of the the context might result in losing the answer we are looking for. To deal with this, we will allow one (long) example in our dataset to give several input features, each of length shorter than the maximum length of the model (or the one we set as a hyper-parameter). Also, just in case the answer lies at the point we split a long context, we allow some overlap between the features we generate controlled by the hyper-parameter `doc_stride`:

In [None]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

Let's find one long example in our dataset:

In [None]:
for i, example in enumerate(datasets["train"]):
    ##print(example['story'])
    tokenized_input= tokenizer(example['story'])
    input_ids=tokenized_input["input_ids"]
    print(input_ids)


Token indices sequence length is longer than the specified maximum sequence length for this model (2498 > 512). Running this sequence through the model will result in indexing errors


[101, 100, 1356, 29889, 29898, 29915, 29898, 29917, 1376, 29904, 29914, 29889, 29911, 29908, 1353, 29908, 29909, 29917, 1368, 29914, 29882, 29909, 29914, 29900, 29917, 29910, 29917, 29908, 1358, 29914, 29898, 29916, 29907, 1366, 29915, 29908, 29914, 29903, 29898, 29898, 29914, 1371, 29889, 29898, 29908, 29914, 29911, 29895, 29908, 29917, 29908, 1377, 29914, 29898, 29917, 1356, 29909, 29917, 1371, 29914, 29904, 29917, 1344, 1355, 29898, 29889, 29914, 29909, 1376, 29917, 29914, 29906, 29904, 29914, 29908, 1368, 29914, 29882, 29909, 29914, 29900, 29917, 29910, 29917, 29908, 1352, 29907, 29914, 29908, 29889, 29914, 29908, 29912, 1367, 29914, 29908, 29895, 29915, 29908, 1367, 29909, 29915, 29895, 29904, 29907, 29908, 29917, 29914, 29908, 1376, 29905, 29914, 29907, 1355, 29913, 29916, 29898, 1367, 29908, 29912, 29898, 29914, 29904, 29917, 1351, 1353, 29899, 29914, 1368, 29909, 29914, 1377, 29907, 1344, 1351, 1356, 29889, 29898, 29915, 29908, 1367, 29908, 29898, 29915, 29904, 29914, 29900, 29

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




[101, 1351, 29889, 29917, 29908, 1367, 29908, 1351, 29889, 1377, 29908, 29898, 29914, 29909, 1352, 100, 1347, 29912, 29899, 29915, 29908, 29898, 29914, 29907, 1364, 29917, 29910, 29917, 29908, 1374, 29915, 29889, 29911, 29914, 29904, 29907, 29904, 29912, 29899, 29914, 29907, 1376, 29899, 29904, 29915, 29908, 29898, 29914, 1366, 29917, 29906, 29917, 1351, 29912, 29917, 29893, 29917, 1344, 1376, 29914, 29908, 29914, 1368, 29893, 29908, 29917, 29908, 1358, 29902, 29907, 1353, 29908, 29914, 100, 1351, 29889, 29914, 29896, 29917, 29906, 29915, 29889, 1353, 29907, 29914, 29909, 29917, 29902, 29896, 29914, 29908, 1367, 29914, 29892, 1370, 29914, 29912, 29917, 29885, 1352, 29909, 29895, 29903, 29914, 29909, 29895, 1377, 29907, 29917, 1355, 29917, 29893, 29917, 1344, 1353, 29909, 29914, 29912, 29903, 29908, 29916, 29889, 29911, 29914, 1367, 29915, 29893, 29915, 29907, 29917, 1355, 29915, 29907, 29917, 1356, 29908, 29906, 1376, 29882, 29889, 29895, 29917, 29908, 1370, 29890, 29917, 1367, 29896,

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
for i, example in enumerate(datasets["train"]):

    tokenized_input= tokenizer(example['question'][0]["input_text"])
    input_ids=tokenized_input["input_ids"]
    print(input_ids)


In [None]:
for i, example in enumerate(datasets["train"]):
    if len(tokenizer(example['question'][0]["input_text"], example['story'])["input_ids"]) > 384:
        break
example = datasets["train"][i]


Without any truncation, we get the following length for the input IDs:

In [None]:
len(tokenizer(example['question'][0]["input_text"], example["story"])["input_ids"])

301

Now, if we just truncate, we will lose information (and possibly the answer to our question):

In [None]:
len(tokenizer(example['question'][0]["input_text"], example["story"], max_length=max_length, truncation="only_second")["input_ids"])

301

Note that we never want to truncate the question, only the context, else the `only_second` truncation picked. Now, our tokenizer can automatically return us a list of features capped by a certain maximum length, with the overlap we talked above, we just have to tell it with `return_overflowing_tokens=True` and by passing the stride:

In [None]:
tokenized_example = tokenizer(
    example['question'][0]["input_text"],
    example["story"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    stride=doc_stride
)

Now we don't have one list of `input_ids`, but several:

In [None]:
[len(x) for x in tokenized_example["input_ids"]]

[301]

And if we decode them, we can see the overlap:

In [None]:
for x in tokenized_example["input_ids"][:2]:
    print(tokenizer.decode(x))

[CLS] কবে থেকে নিযমিতই পেযাজ আসবে? [SEP] [UNK] ধারণা করা হচছে ডিসেমবর থেকে নিযমিতই পেযাজ আসবে চটটগরাম দিযে । চটটগরাম বনদর দিযে পরথমবার বড পেযাজের চালান আমদানির পর বধবার ও বহসপতিবার সারাদিনই আলোচনার বিষয ছিল বিএসএম গরপের পেযাজ । আজ [UNK] [UNK] পর বাজারে কিছটা ইতিবাচক পরভাব পডেছে । আজ চীনের পেযাজের দাম কেজি [UNK] টাকা কমে [UNK] থেকে [UNK] টাকায বিকরি হযেছে । মিযানমারের পেযাজের দামও কেজি [UNK] টাকা কমেছে । [SEP]


Now this will give us some work to properly treat the answers: we need to find in which of those features the answer actually is, and where exactly in that feature. The models we will use require the start and end positions of these answers in the tokens, so we will also need to to map parts of the original context to some tokens. Thankfully, the tokenizer we're using can help us with that by returning an `offset_mapping`:

In [None]:
tokenized_example = tokenizer(
    example['question'][0]["input_text"],
    example["story"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    return_offsets_mapping=True,
    stride=doc_stride
)
print(tokenized_example["offset_mapping"][0][:100])

[(0, 0), (0, 1), (1, 2), (2, 3), (4, 5), (5, 6), (6, 7), (7, 8), (9, 10), (10, 11), (11, 12), (12, 13), (13, 14), (14, 15), (15, 16), (17, 18), (18, 19), (20, 21), (21, 22), (22, 23), (24, 25), (25, 26), (26, 27), (27, 28), (28, 29), (0, 0), (0, 8), (9, 10), (10, 11), (11, 12), (12, 13), (13, 14), (15, 16), (16, 17), (17, 18), (19, 20), (20, 21), (22, 23), (23, 24), (25, 26), (26, 27), (27, 28), (28, 29), (29, 30), (31, 32), (32, 33), (34, 35), (35, 36), (36, 37), (37, 38), (39, 40), (40, 41), (41, 42), (42, 43), (43, 44), (44, 45), (45, 46), (47, 48), (48, 49), (50, 51), (51, 52), (52, 53), (54, 55), (55, 56), (56, 57), (57, 58), (59, 60), (60, 61), (62, 63), (63, 64), (65, 66), (66, 67), (67, 68), (69, 70), (70, 71), (71, 72), (72, 73), (73, 74), (75, 76), (76, 77), (78, 79), (79, 80), (81, 82), (82, 83), (83, 84), (85, 86), (86, 87), (88, 89), (89, 90), (91, 92), (92, 93), (93, 94), (94, 95), (96, 97), (98, 99), (99, 100), (100, 101), (101, 102), (102, 103), (103, 104)]


This gives, for each index of our input IDS, the corresponding start and end character in the original text that gave our token. The very first token (`[CLS]`) has (0, 0) because it doesn't correspond to any part of the question/answer, then the second token is the same as the characters 0 to 3 of the question:

In [None]:
first_token_id = tokenized_example["input_ids"][0][1]
offsets = tokenized_example["offset_mapping"][0][1]
print(tokenizer.convert_ids_to_tokens([first_token_id])[0], example["question"][offsets[0]:offsets[1]])

ক [{'input_text': 'কবে থেকে নিয়মিতই পেঁয়াজ আসবে?', 'turn_id': 1}]


So we can use this mapping to find the position of the start and end tokens of our answer in a given feature. We just have to distinguish which parts of the offsets correspond to the question and which part correspond to the context, this is where the `sequence_ids` method of our `tokenized_example` can be useful:

In [None]:
sequence_ids = tokenized_example.sequence_ids()
print(sequence_ids)

[None, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, None, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, None]


It returns `None` for the special tokens, then 0 or 1 depending on whether the corresponding token comes from the first sentence past (the question) or the second (the context). Now with all of this, we can find the first and last token of the answer in one of our input feature (or if the answer is not in this feature):

In [None]:
answers = example["answers"][0]['input_text']
print(answers)
answers = example["answers"][0]
start_char = answers["input_text"][0]
print(start_char)
end_char = start_char + str(len(answers["span_text"]))
print(end_char)

ডিসেম্বর 
ড
ড33


In [None]:
answers = example["answers"][0]
start_char = answers['span_start']
end_char = answers['span_end']

# Start token index of the current span in the text.
token_start_index = 0
while sequence_ids[token_start_index] != 1:
    token_start_index += 1

# End token index of the current span in the text.
token_end_index = len(tokenized_example["input_ids"][0]) - 1
while sequence_ids[token_end_index] != 1:
    token_end_index -= 1

# Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
offsets = tokenized_example["offset_mapping"][0]
if (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
    # Move the token_start_index and token_end_index to the two ends of the answer.
    # Note: we could go after the last offset if the answer is the last word (edge case).
    while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
        token_start_index += 1
    start_position = token_start_index - 1
    while offsets[token_end_index][1] >= end_char:
        token_end_index -= 1
    end_position = token_end_index + 1
    print(start_position, end_position)
else:
    print("The answer is not in this feature.")

39 64


And we can double check that it is indeed the theoretical answer:

In [None]:
print(tokenizer.decode(tokenized_example["input_ids"][0][start_position: end_position+1]))
print(answers["span_text"])

ডিসেমবর থেকে নিযমিতই পেযাজ আসব
ডিসেম্বর থেকে নিয়মিতই পেঁয়াজ আসবে


For this notebook to work with any kind of models, we need to account for the special case where the model expects padding on the left (in which case we switch the order of the question and the context):

In [None]:
pad_on_right = tokenizer.padding_side == "right"

Now let's put everything together in one function we will apply to our training set. In the case of impossible answers (the answer is in another feature given by an example with a long context), we set the cls index for both the start and end position. We could also simply discard those examples from the training set if the flag `allow_impossible_answers` is `False`. Since the preprocessing is already complex enough as it is, we've kept is simple for this part.

In [None]:
def prepare_train_features(examples):
    # Tokenize the question and context
    inputs= tokenizer(examples['question'][0]['input_text'], examples['story'], return_tensors="pt")

    # Get model outputs for start and end positions of the answer
    with torch.no_grad():
        outputs = model(**inputs)
    start_scores = outputs.start_logits
    end_scores = outputs.end_logits

    # Find the best start and end position indices
    start_index = torch.argmax(start_scores)
    end_index = torch.argmax(end_scores) + 1
    # Get the answer using the indices and decode it
    answer = tokenizer.decode(inputs["input_ids"][0, start_index:end_index])

    return answer

This function works with one or several examples. In the case of several examples, the tokenizer will return a list of lists for each key:

In [None]:
for i, example in enumerate(datasets["train"]):

    features = prepare_train_features(example)
    if i==1:
        break



## Fine-tuning the model

Now that our data is ready for training, we can download the pretrained model and fine-tune it. Since our task is question answering, we use the `AutoModelForQuestionAnswering` class. Like with the tokenizer, the `from_pretrained` method will download and cache the model for us:

This ***Approach 1*** uses context value to extract information and answer user Questions using the specific model ***shams/banglabert-finetuned-squad***

In [None]:
def answer_question(question, context):
    # Tokenize the question and context
    inputs = tokenizer(question, context, return_tensors="pt")

    # Get model outputs for start and end positions of the answer
    with torch.no_grad():
        outputs = model(**inputs)
    start_scores = outputs.start_logits
    end_scores = outputs.end_logits

    # Find the best start and end position indices
    start_index = torch.argmax(start_scores)
    end_index = torch.argmax(end_scores) + 1
    # Get the answer using the indices and decode it
    answer = tokenizer.decode(inputs["input_ids"][0, start_index:end_index])

    return answer

In [None]:
for i, example in enumerate(datasets["train"]):
        print(example['story'])
        if i == 1:
            break

টিকফা চুক্তিতে স্বাক্ষর করলে বাংলাদেশের জাতীয় নিরাপত্তা যুক্তরাষ্ট্রের হাতে চলে যাবে। গতকাল সোমবার বাংলাদেশের ওয়ার্কার্স পার্টির পলিটব্যুরোর সভায় গৃহীত প্রস্তাবে এ কথা বলা হয়।এ চুক্তির প্রতিবাদে ১৯ মে রোববার দেশব্যাপী বিক্ষোভ দিবস পালন করার আহ্বান জানানো হয়।দলের সভাপতি রাশেদ খান মেননের সভাপতিত্বে অনুষ্ঠিত সভায় উপস্থিত ছিলেন সাধারণ সম্পাদক আনিসুর রহমান মল্লিক সাংসদ ফজলে হোসেন বাদশা হাজেরা সুলতানা প্রমুখ।অপর এক প্রস্তাবে পোশাকশিল্পে মজুরি বোর্ড গঠন করায় সন্তোষ প্রকাশ করা হয়। বিজ্ঞপ্তি।

সাম্প্রদায়িক উসকানি ও মানহানির অভিযোগে করা বিএনপির স্থায়ী কমিটির সদস্য এম কে আনোয়ারের দুই সপ্তাহের জামিন মঞ্জুর করেছেন হাইকোর্ট। গতকাল সোমবার বিচারপতি সালমা মাসুদ চৌধুরী ও বিচারপতি মো জাহাঙ্গীর হোসেনের সমন্বয়ে গঠিত হাইকোর্টের একটি বেঞ্চ এই জামিন মঞ্জুর করেন।গতকাল আদালতে হাজির হয়ে এম কে আনোয়ার আইনজীবীর মাধ্যমে জামিনের আবেদন করেন। ৭ মে স্বেচ্ছাসেবক লীগের নেতা দেবাশীষ বাদী হয়ে ঢাকার মুখ্য মহানগর হাকিম আদালতে সাম্প্রদায়িক উসকানি ও মানহানির অভিযোগে এম কে আনোয়ারের বিরুদ্ধে মামলা করেন। মহানগর হা

In [None]:
while True:
    user_input = input("User: ")
    if user_input.lower() in ["exit", "quit"]:
        break  # Exit loop if user enters 'exit' or 'quit'
    for i, example in enumerate(datasets["train"]):

        bot_response = answer_question(user_input,example['story'])
        if i==1:
            break
    print("Chatbot:", bot_response)

User: দলের সভাপতি কে?
Chatbot: [CLS]
User: exi
Chatbot: [CLS]
User: exit


On the other hand ***Approch 2***, uses same model but different Handling Technique of ***Data***.

In [None]:
with open("intents.json", "r", encoding="utf-8") as file:
    intents = json.load(file)["intents"]

def answer_question(user_input, intents):
    # Check if user input matches any intent patterns
    for data in intents:
        for pattern in data["patterns"]:
            if pattern in user_input:
                return random.choice(data["responses"]), 1.0  # High confidence for intents

    # If no intent is matched, use the question-answering model
    try:
        inputs = tokenizer(user_input, return_tensors="pt")
    except Exception as e:
        print(f"Error during tokenization: {e}")
        return "I'm sorry, I couldn't understand that.", 0.0  # Low confidence for errors

    with torch.no_grad():
        outputs = model(**inputs)
    start_scores = outputs.start_logits
    end_scores = outputs.end_logits

    # Calculate confidence and adjust the threshold as needed
    confidence = torch.max(torch.softmax(start_scores, dim=1)) * torch.max(torch.softmax(end_scores, dim=1))

    if confidence.item() > 0.5:
        start_index = torch.argmax(start_scores)
        end_index = torch.argmax(end_scores) + 1
        answer = tokenizer.decode(inputs["input_ids"][0, start_index:end_index])
        return answer, confidence.item()
    else:
        return "I'm not sure about that.", confidence.item()

# Welcome message
print("Chatbot: Hi there! I'm here to help. Type 'exit' or 'quit' to end the conversation.")

while True:
    user_input = input("User: ")

    # Improved exit condition
    if any(keyword in user_input.lower() for keyword in ["exit", "quit", "goodbye", "see you later"]):
        print("Chatbot: Goodbye! Have a great day.")
        break

    bot_response, confidence = answer_question(user_input, intents)
    print(f"Chatbot (confidence: ): {bot_response}")

Chatbot: Hi there! I'm here to help. Type 'exit' or 'quit' to end the conversation.
User: আপনি কেমন আছেন?
Chatbot (confidence: ): হ্যালো
User: exit
Chatbot: Goodbye! Have a great day.


In Here we have combined both ***Approch 1*** and ***Approch 2*** where two functions were made, one works with context and the others works with our **DATA**.

In [None]:
def answer_question_with_context(user_input, context):
    # Use the question-answering model with context
    inputs = tokenizer(user_input, context, return_tensors="pt")

    with torch.no_grad():
        outputs = model(**inputs)
    start_scores = outputs.start_logits
    end_scores = outputs.end_logits

    start_index = torch.argmax(start_scores)
    end_index = torch.argmax(end_scores) + 1
    answer = tokenizer.decode(inputs["input_ids"][0, start_index:end_index])

    return answer

def answer_question_based_on_intent(user_input, intents):
    # Check if user input matches any intent patterns
    for data in intents:
        for pattern in data["patterns"]:
            if pattern in user_input:
                return data["responses"][0]

    return None

# Load intents from a separate file
with open("intents.json", "r", encoding="utf-8") as file:
    intents = json.load(file)["intents"]

while True:
    user_input = input("User: ")
    if user_input.lower() in ["exit", "quit"]:
        break

    # Check if there's a specific response based on intent
    intent_response = answer_question_based_on_intent(user_input, intents)
    if intent_response:
        print("Chatbot:", intent_response)
    else:
        for i, example in enumerate(datasets["train"]):

            context_response = answer_question_with_context(user_input,example['story'])
            if i==1:
                break
        print("Chatbot:", context_response)

User: আপনি কে?
Chatbot: আমি টেড, একটি ডিপ-লার্নিং চ্যাটবট
User: টিকফা চুক্তিতে স্বাক্ষর করলে বাংলাদেশের জাতীয় নিরাপত্তা কাদের হাতে চলে যাবে?
Chatbot: যুক্তরাষ্ট্রের
User: exit
