If you're opening this Notebook on colab, you will probably need to install ЁЯдЧ Transformers and ЁЯдЧ Datasets. Uncomment the following cell and run it.

In [1]:
! pip install datasets transformers



If you're opening this notebook locally, make sure your environment has an install from the last version of those libraries.

To be able to share your model with the community and generate results like the one shown in the picture below via the inference API, there are a few more steps to follow.

First you have to store your authentication token from the Hugging Face website (sign up [here](https://huggingface.co/join) if you haven't already!) then execute the following cell and input your username and password:

In [2]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.svтАж

Then you need to install Git-LFS. Uncomment the following instructions:

In [3]:
# !apt install git-lfs

Make sure your version of Transformers is at least 4.11.0 since the functionality was introduced in that version:

In [4]:
import transformers

print(transformers.__version__)

4.41.2


You can find a script version of this notebook to fine-tune your model in a distributed fashion using multiple GPUs or TPUs [here](https://github.com/huggingface/transformers/tree/master/examples/question-answering).

We also quickly upload some telemetry - this tells us which examples and software versions are getting used so we know where to prioritize our maintenance efforts. We don't collect (or care about) any personally identifiable information, but if you'd prefer not to be counted, feel free to skip this step or delete this cell entirely.

In [5]:
from transformers.utils import send_example_telemetry

send_example_telemetry("question_answering_notebook", framework="pytorch")

# Fine-tuning a model on a question-answering task

In this notebook, we will see how to fine-tune one of the [ЁЯдЧ Transformers](https://github.com/huggingface/transformers) model to a question answering task, which is the task of extracting the answer to a question from a given context. We will see how to easily load a dataset for these kinds of tasks and use the `Trainer` API to fine-tune a model on it.

![Widget inference representing the QA task](https://github.com/huggingface/notebooks/blob/master/examples/images/question_answering.png?raw=1)

**Note:** This notebook finetunes models that answer question by taking a substring of a context, not by generating new text.

This notebook is built to run on any question answering task with the same format as SQUAD (version 1 or 2), with any model checkpoint from the [Model Hub](https://huggingface.co/models) as long as that model has a version with a token classification head and a fast tokenizer (check on [this table](https://huggingface.co/transformers/index.html#bigtable) if this is the case). It might just need some small adjustments if you decide to use a different dataset than the one used here. Depending on you model and the GPU you are using, you might need to adjust the batch size to avoid out-of-memory errors. Set those three parameters, then the rest of the notebook should run smoothly:

In [6]:
# This flag is the difference between SQUAD v1 or 2 (if you're using another dataset, it indicates if impossible
# answers are allowed or not).
squad_v2 = False
model_checkpoint = "ai4bharat/indic-bert"
batch_size = 16

## Loading the dataset

We will use the [ЁЯдЧ Datasets](https://github.com/huggingface/datasets) library to download the data and get the metric we need to use for evaluation (to compare our model to the benchmark). This can be easily done with the functions `load_dataset` and `load_metric`.  

For our example here, we'll use the [SQUAD dataset](https://rajpurkar.github.io/SQuAD-explorer/). The notebook should work with any question answering dataset provided by the ЁЯдЧ Datasets library. If you're using your own dataset defined from a JSON or csv file (see the [Datasets documentation](https://huggingface.co/docs/datasets/loading_datasets.html#from-local-files) on how to load them), it might need some adjustments in the names of the columns used.

**RANDOMIZE (for BanglaRQA don't run the get_random_subset function parts i.e. directly use the dataset)**

In [7]:
from datasets import load_dataset, DatasetDict
# Load the dataset
dataset = load_dataset('shakun42/BanglaRQA_to_SquadBn_fact_confirm')
# dataset = load_dataset('csebuetnlp/squad_bn')

Downloading readme:   0%|          | 0.00/714 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/6.21M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/803k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/752k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/9565 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/1182 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1172 [00:00<?, ? examples/s]

In [7]:
# Skip if BRQA dataset
# Function to get random subsets 
def get_random_subset(dataset, num_samples):
    # Shuffle the dataset
    shuffled_dataset = dataset.shuffle(seed=42)
    # Select the first 'num_samples' samples
    subset = shuffled_dataset.select(range(num_samples))
    return subset

In [8]:
# Define the number of samples you want for each split
num_train_samples = 10000
num_validation_samples = 1200
num_test_samples = 1200

In [9]:
# Create new DatasetDict with random subsets
random_subset_dict = DatasetDict({
    'train': get_random_subset(dataset['train'], num_train_samples),
    'validation': get_random_subset(dataset['validation'], num_validation_samples),
    'test': get_random_subset(dataset['test'], num_test_samples)
})

In [10]:
print(random_subset_dict)

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 10000
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1200
    })
    test: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1200
    })
})


The `datasets` object itself is [`DatasetDict`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasetdict), which contains one key for the training, validation and test set.

In [8]:
datasets=dataset

We can see the training, validation and test sets all have a column for the context, the question and the answers to those questions.

To access an actual element, you need to select a split first, then give an index:

In [9]:
filtered_dataset = datasets["validation"].filter(lambda x: all(start != -1 for start in x['answers']['answer_start']))

Filter:   0%|          | 0/1182 [00:00<?, ? examples/s]

In [10]:
len(filtered_dataset)

1182

We can see the answers are indicated by their start position in the text (here at character 515) and their full text, which is a substring of the context as we mentioned above.

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset (automatically decoding the labels in passing).

In [11]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [12]:
show_random_elements(datasets["train"])

Unnamed: 0,id,title,context,question,answers
0,bn_wiki_2788_01,рж╢рзЗржЦ ржорзБржЬрж┐ржмрзБрж░ рж░рж╣ржорж╛ржи,"ржмрзНрж░рж┐ржЯрж┐рж╢ ржЖржорж▓рзЗ ржФржкржирж┐ржмрзЗрж╢рж┐ржХрждрж╛ржмрж┐рж░рзЛржзрзА рж╕рзНржмрж╛ржзрзАржирждрж╛ ржЖржирзНржжрзЛрж▓ржирзЗ ржЕржВрж╢ржЧрзНрж░рж╣ржгрзЗрж░ ржоржзрзНржп ржжрж┐ржпрж╝рзЗ ржЧржбрж╝рзЗ ржЙржарзЗржЫрзЗ ржорзБржЬрж┐ржмрзЗрж░ рж░рж╛ржЬржирзИрждрж┐ржХ ржжрж░рзНрж╢ржиред ржПржЗ рж╕ржоржпрж╝ ржерзЗржХрзЗржЗ рждрж┐ржирж┐ ржмрж╛ржЩрж╛рж▓рж┐ ржЬрж╛рждрзАржпрж╝рждрж╛ржмрж╛ржжрзЗрж░ ржкрзНрж░рждрж┐ ржЖржХрзГрж╖рзНржЯ рж╣ржпрж╝рзЗржЫрж┐рж▓рзЗржиред ржорзБрж╕рж▓рж┐ржо рж▓рзАржЧрзЗ рждрж┐ржирж┐ ржЫрж┐рж▓рзЗржи рж╢рж╣рзАржж рж╕рзЛрж╣рзНтАМрж░рж╛ржУржпрж╝рж╛рж░рзНржжрзА ржПржмржВ ржЖржмрзБрж▓ рж╣рж╛рж╢рж┐ржорзЗрж░ ржирзЗрждрзГрждрзНржмрж╛ржзрзАржи ржЙржкржжрж▓рзЗ, ржпрж╛рж░рж╛ ржкрзНрж░ржЧрждрж┐рж╢рзАрж▓ ржмрж▓рзЗ ржкрж░рж┐ржЪрж┐ржд ржЫрж┐рж▓рзЗржиред рждржмрзЗ ржорзБрж╕рж▓рж┐ржо рж▓рзАржЧрзЗрж░ ржкрзНрж░рждрж┐ ржжрж▓рзАржпрж╝ ржЖржирзБржЧрждрзНржпрзЗрж░ рждрзБрж▓ржирж╛ржпрж╝ рж╕рзЛрж╣рзНтАМрж░рж╛ржУржпрж╝рж╛рж░рзНржжрзАрж░ ржкрзНрж░рждрж┐ рждрж╛рж░ ржмрзНржпржХрзНрждрж┐ржЧржд ржЖржирзБржЧрждрзНржп ржкрзНрж░ржмрж▓ ржЫрж┐рж▓ред ржЖржмржжрзБрж▓ ржЧрж╛ржлржлрж╛рж░ ржЪрзМржзрзБрж░рзАрж░ ржорждрзЗ, рж╢рзЗржЦ ржорзБржЬрж┐ржм рж╢рж╣рзАржж рж╕рзЛрж╣рж░рж╛ржУржпрж╝рж╛рж░рзНржжрзАрж░ рж░рж╛ржЬржирзИрждрж┐ржХ рж╢рж┐рж╖рзНржп рж╣рж┐рж╕рзЗржмрзЗ ржкрж░рж┐ржЪрж┐ржд рж╣рж▓рзЗржУ рждрж╛рж░ рж░рж╛ржЬржирзИрждрж┐ржХ ржЪрж░рж┐рждрзНрж░ ржЧржбрж╝рзЗ ржЙржарзЗржЫрж┐рж▓ рж╢рзЗрж░рзЗ ржмрж╛ржВрж▓рж╛ ржП ржХрзЗ ржлржЬрж▓рзБрж▓ рж╣ржХ, ржЖржмрзБрж▓ рж╣рж╛рж╢рж┐ржо, рж╕рзБржнрж╛рж╖ ржмрж╕рзБ ржУ ржорж╛ржУрж▓рж╛ржирж╛ ржнрж╛рж╕рж╛ржирзАрж░ рж░рж╛ржЬржирзАрждрж┐рж░ ржкрзНрж░ржнрж╛ржм ржмрж▓ржпрж╝рзЗ ржерзЗржХрзЗред рждрж┐ржирж┐ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржЖржирзНржжрзЛрж▓ржирзЗрж░ ржПржХржирж┐рж╖рзНржа ржХрж░рзНржорзА ржЫрж┐рж▓рзЗржи; ржЖржмрж╛рж░ рждрж┐ржирж┐ ржпрзБржХрзНрждржмржЩрзНржЧ ржкрзНрж░рждрж┐рж╖рзНржарж╛рж░ ржЙржжрзНржпрзЛржЧрзЗржУ рж╕рж╛ржорж┐рж▓ рж╣ржиред ржЕржирзЗржХ ржРрждрж┐рж╣рж╛рж╕рж┐ржХ рж╢рзЗржЦ ржорзБржЬрж┐ржмрзЗрж░ рждрзОржХрж╛рж▓рзАржи ржЬрж╛рждрзАржпрж╝рждрж╛ржмрж╛ржжрзА ржЕржмрж╕рзНржерж╛ржиржХрзЗ ржкрзНрж░ржХрзГрждржкржХрзНрж╖рзЗ ржмрж╛ржЩрж╛рж▓рж┐ ржорзБрж╕рж▓ржорж╛ржи ржЬрж╛рждрзАржпрж╝рждрж╛ржмрж╛ржж рж╣рж┐рж╕рзЗржмрзЗ ржмрж░рзНржгржирж╛ ржХрж░рзЗржиред рждрж╛рж░ ржирж┐ржЬрзЗрж░ ржнрж╛рж╖рзНржп ржЕржирзБржпрж╛ржпрж╝рзА рждрж╛рж░рж╛, ржЕрж░рзНржерж╛рзО рж╢рж┐ржХрзНрж╖рж┐ржд ржмрж╛ржЩрж╛рж▓рж┐ ржорзБрж╕рж▓ржорж╛ржи рж╕ржорж╛ржЬ рж▓рж╛рж╣рзЛрж░ ржкрзНрж░рж╕рзНрждрж╛ржм ржЕржирзБржпрж╛ржпрж╝рзА ржмрж╛ржВрж▓рж╛ ржУ ржЖрж╕рж╛ржо ржирж┐ржпрж╝рзЗ ржнрж╛рж░рждрзЗрж░ ржмрж╛ржЗрж░рзЗ ржкрзГржержХ рж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ ржзрж╛рж░ржгрж╛рж░ рж╕ржорж░рзНржержХ ржЫрж┐рж▓рзЗржиред ржХрж┐ржирзНрждрзБ рждрзОржХрж╛рж▓рзАржи ржмрж╛рж╕рзНрждржмрждрж╛ржпрж╝ ржорзБрж╕рж▓рж┐ржо рж▓рзАржЧрзЗрж░ ржирзЗрждрзГрждрзНржмрзЗ рж╕рзГрж╖рзНржЯ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи рж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ ржоржзрзНржпрзЗ ржмрж╛ржЩрж╛рж▓рж┐ ржорзБрж╕рж▓ржорж╛ржирзЗрж░ ржнржмрж┐рж╖рзНржпрзО ржЧржбрж╝рждрзЗ ржмрж╛ржзрзНржп рж╣ржиред\n\nржкрж╛ржХрж┐рж╕рзНрждрж╛ржи рж╕рзГрж╖рзНржЯрж┐рж░ ржкрж░ рж╢рзЗржЦ ржорзБржЬрж┐ржмрзБрж░ рж░рж╣ржорж╛ржирзЗрж░ рж░рж╛ржЬржирзИрждрж┐ржХ ржжрзГрж╖рзНржЯрж┐ржнржЩрзНржЧрж┐ ржУ ржХрж╛рж░рзНржпржХрж▓рж╛ржк ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи рж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ ржоржзрзНржпрзЗ ржкрзВрж░рзНржм ржмрж╛ржВрж▓рж╛рж░ рж╕рзНржмрж╛ржпрж╝рждрзНрждрж╢рж╛рж╕ржи, ржнрж╛рж╖рж╛ржХрзЗржирзНржжрзНрж░рж┐ржХ ржмрж╛ржЩрж╛рж▓рж┐ ржЬрж╛рждрзАржпрж╝рждрж╛ржмрж╛ржж, ржЕрж╕рж╛ржорзНржкрзНрж░ржжрж╛ржпрж╝рж┐ржХрждрж╛ ржПржмржВ ржЧржгрждрж╛ржирзНрждрзНрж░рж┐ржХ ржЕржзрж┐ржХрж╛рж░ржХрзЗ ржШрж┐рж░рзЗ ржЖржмрж░рзНрждрж┐ржд рж╣ржпрж╝ред ржорзБрж╕рж▓рж┐ржо рж▓рзАржЧ ржирзЗрждрзГрждрзНржмрзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ ржирж╛ржирж╛ ржЕржнрж┐ржпрзЛржЧ рждрзБрж▓рзЗ ржЖрж░рзЛ ржЕржирзЗржХрзЗрж░ рж╕рж╛ржерзЗ рж╢рзЗржЦ ржорзБржЬрж┐ржм ржПржЗ ржжрж▓ ржерзЗржХрзЗ рж╕рж░рзЗ ржжрж╛ржБржбрж╝рж╛ржиред рзирзк ржмржЫрж░рзЗрж░ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржЖржорж▓рзЗрж░ ржЕрж░рзНржзрзЗржХржЯрж╛ рж╕ржоржпрж╝ ржХрж╛рж░рж╛ржЧрж╛рж░рзЗ ржПржмржВ ржжрзБ-ржПржХ ржмржЫрж░ ржЫрж╛ржбрж╝рж╛ ржкрзБрж░рзЛржЯрж╛ рж╕ржоржпрж╝ ржЬрзБржбрж╝рзЗ ржмрж┐рж░рзЛржзрзАржжрж▓рзЗ ржЕржмрж╕рзНржерж╛ржи ржХрж░рзЗржЗ рждрж┐ржирж┐ ржХрж╛ржЯрж┐ржпрж╝рзЗ ржжрзЗржиред ржПржХржХ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржзрж╛рж░ржгрж╛рж░ ржнржЩрзНржЧрзБрж░рждрж╛рж░ ржмрж┐рж╖ржпрж╝ржЯрж┐ рждрж╛рж░ рж▓рзЗржЦрж╛ ржбрж╛ржпрж╝рзЗрж░рж┐ ржУ ржЕрж╕ржВржЦрзНржп ржмржХрзНрждрзГрждрж╛ржпрж╝ ржЙржарзЗ ржПрж╕рзЗржЫрзЗред ржкрж╢рзНржЪрж┐ржо ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирж┐ рж╢рж╛рж╕ржХрзЗрж░рж╛ тАЬржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржнрж╛ржЩрж╛рж░ рж╖ржбрж╝ржпржирзНрждрзНрж░ ржХрж░ржЫрзЗржитАЭ ржПржоржи ржЕржнрж┐ржпрзЛржЧ рждрзБрж▓рзЗ рждрж╛ржХрзЗ ржкрзНрж░рж╛ржпрж╝ржЗ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржжрзБрж╢ржоржи, ржнрж╛рж░рждрзЗрж░ ржжрж╛рж▓рж╛рж▓ ржЗрждрзНржпрж╛ржжрж┐ ржЖржЦрзНржпрж╛ ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрзЗред",ржХрзЛржи ржЖржирзНржжрзЛрж▓ржирзЗ ржЕржВрж╢ржЧрзНрж░рж╣ржгрзЗрж░ ржоржзрзНржп ржжрж┐ржпрж╝рзЗ ржорзБржЬрж┐ржмрзЗрж░ рж░рж╛ржЬржирзИрждрж┐ржХ ржжрж░рзНрж╢ржи ржЧржбрж╝рзЗ ржЙржарзЗ?,"{'answer_start': [0, 0], 'text': ['ржмрзНрж░рж┐ржЯрж┐рж╢ ржЖржорж▓рзЗ ржФржкржирж┐ржмрзЗрж╢рж┐ржХрждрж╛ржмрж┐рж░рзЛржзрзА рж╕рзНржмрж╛ржзрзАржирждрж╛ ржЖржирзНржжрзЛрж▓ржирзЗ ржЕржВрж╢ржЧрзНрж░рж╣ржгрзЗрж░ ржоржзрзНржп ржжрж┐ржпрж╝рзЗ', 'ржмрзНрж░рж┐ржЯрж┐рж╢ ржЖржорж▓рзЗ ржФржкржирж┐ржмрзЗрж╢рж┐ржХрждрж╛ржмрж┐рж░рзЛржзрзА рж╕рзНржмрж╛ржзрзАржирждрж╛ ржЖржирзНржжрзЛрж▓ржирзЗ ржЕржВрж╢ржЧрзНрж░рж╣ржгрзЗрж░ ржоржзрзНржп ржжрж┐ржпрж╝рзЗ']}"
1,bn_wiki_1972_05,ржЕрждрж┐рж░рж┐ржХрзНржд ржЬржирж╕ржВржЦрзНржпрж╛,"ржЕрждрзНржпржзрж┐ржХ ржЬржирж╕ржВржЦрзНржпрж╛ (ржмрж╛ ржЬржирж╕ржВржЦрзНржпрж╛ ржмрзГржжрзНржзрж┐) рж╣рж▓рзЛ ржпржЦржи ржЕржирзЗржХ ржЬржирж╕ржВржЦрзНржпрж╛рж░ ржЬржирзНржп ржкрж░рж┐ржмрзЗрж╢рзЗрж░ ржнрж╛рж░рж╕рж╛ржорзНржп ржмрзНржпрж╛рж╣ржд рж╣ржпрж╝ (ржЦрж╛ржжрзНржп, рж╕рзБржкрзЗржпрж╝ ржкрж╛ржирж┐, ржмрж┐рж╢рзБржжрзНржз ржмрж╛ржпрж╝рзБ ржЗрждрзНржпрж╛ржжрж┐)ред ржЖрж░ржУ ржмрзИржЬрзНржЮрж╛ржирж┐ржХ ржнрж╛ржмрзЗ, ржпржЦржи ржЬржирж╕ржВржЦрзНржпрж╛ ржХрзЛржирзЛ ржнрзМржЧрзЛрж▓рж┐ржХ рж╕рзАржорж╛рж░ ржзрж╛рж░ржг ржХрзНрж╖ржорждрж╛рж░ рждрзБрж▓ржирж╛ржпрж╝ ржмрзЗрж╢рж┐ рж╣ржпрж╝рзЗ ржпрж╛ржпрж╝ ржПржмржВ ржкрзНрж░рж╛ржХрзГрждрж┐ржХ ржнрж╛ржмрзЗ ржкрж░рж┐ржмрзЗрж╢рзЗрж░ ржХрзНрж╖рждрж┐ржкрзВрж░ржгрзЗрж░ ржЪрзЗржпрж╝рзЗ ржжрзНрж░рзБржд ржкрж░рж┐ржмрзЗрж╢рзЗрж░ ржХрзНрж╖рждрж┐ рж╕рж╛ржзржи ржХрж░рзЗ, ржзрзАрж░рзЗ ржзрзАрж░рзЗ ржкрж░рж┐ржмрзЗрж╢ржЧржд ржУ рж╕рж╛ржорж╛ржЬрж┐ржХ ржкрждржирзЗрж░ ржжрж┐ржХрзЗ ржкрж░рж┐ржЪрж╛рж▓рж┐ржд ржХрж░рзЗред ржЕрждрж┐рж░рж┐ржХрзНржд ржЬржирж╕ржВржЦрзНржпрж╛ ржПржХржЯрж┐ ржирж┐рж░рзНржжрж┐рж╖рзНржЯ ржЬрж╛рждрж┐ ржмрж╛ ржкрзБрж░рзЛ ржмрж┐рж╢рзНржмрзЗрж░ ржЬржирзНржп ржкрзНрж░ржпрзЛржЬрзНржп рж╣рждрзЗ ржкрж╛рж░рзЗред\n\nржЬржирж╕ржВржЦрзНржпрж╛рж░ ржмрзГржжрзНржзрж┐, ржорзГрждрзНржпрзБрж╣рж╛рж░ рж╣рзНрж░рж╛рж╕, ржЕржнрж┐ржмрж╛рж╕ржи ржмрзГржжрзНржзрж┐ ржмрж╛ ржЕрж╕рзНржерж┐рждрж┐рж╢рзАрж▓ ржмрж╛ржпрж╝рзЛржо ржПржмржВ рж╕ржорзНржкржж рж╣рзНрж░рж╛рж╕рзЗрж░ ржлрж▓рзЗ ржЬржирж╕ржВржЦрзНржпрж╛ ржмрзГржжрзНржзрж┐ рж╣рждрзЗ ржкрж╛рж░рзЗред ржПржХржЯрж┐ ржЬржиржмрж┐рж░рж▓ ржПрж▓рж╛ржХрж╛ ржЬржиржмрж╣рзБрж▓ рж╣ржмрзЗ ржирж╛ , ржпржжрж┐ ржПржЯрж╛ ржЕржирзБрж░рзНржмрж░ ржУ ржорж╛ржирзБрж╖рзЗрж░ ржмрж╕ржмрж╛рж╕рзЗрж░ ржЕржирзБржкржпрзЛржЧрзА рж╣ржпрж╝ (ржпрзЗржоржи, ржорж░рзБржнрзВржорж┐)ред",ржПржирзНржЯрж╛рж░рзНржХржЯрж┐ржХрж╛ ржХрж┐ ржмрж╕ржмрж╛рж╕рзЗрж░ ржЬржирзНржп ржЙржкржпрзБржХрзНржд?,"{'answer_start': [], 'text': []}"
2,bn_wiki_2749_01,рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗ,"рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗ ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирж╛рж░ рж╢рзЗрж╖ ржПржХржирж╛ржпрж╝ржХ ржУ рж╕рж╛ржмрзЗржХ рж╕рзЗржирж╛рж╢рж╛рж╕ржХред рззрзпрзнрзм ржерзЗржХрзЗ рззрзпрзорзй рж╕рж╛рж▓ ржкрж░рзНржпржирзНржд ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирж╛ржпрж╝ рж╕рж╛ржорж░рж┐ржХ рж╢рж╛рж╕ржи ржЪрж▓рзЗред ржЬрж╛ржирзНрждрж╛ рж╕рж░ржХрж╛рж░рзЗрж░ ржП рж╢рж╛рж╕ржи ржкрзНрж░ржХрзНрж░рж┐ржпрж╝рж╛ржХрзЗ ржЕржнрж┐рж╣рж┐ржд ржХрж░рзЗ 'ржирзНржпрж╛рж╢ржирж╛рж▓ рж░рж┐-ржЕрж░рзНржЧрж╛ржирж╛ржЗржЬрзЗрж╢ржи ржкрзНрж░рж╕рзЗрж╕' ржирж╛ржорзЗред ржП ржЖржЯ ржмржЫрж░рзЗ ржЪрж╛рж░ржЬржи рж╕рж╛ржорж░рж┐ржХ ржХрж░рзНржоржХрж░рзНрждрж╛ ржХрж╛рж░рзНржпржд ржкрзНрж░рзЗрж╕рж┐ржбрзЗржирзНржЯрзЗрж░ ржжрж╛ржпрж╝рж┐рждрзНржм ржкрж╛рж▓ржи ржХрж░рзЗржиред рж╢рзЗрж╖ ржорзЗржпрж╝рж╛ржжрзЗ рззрзпрзорзи рж╕рж╛рж▓рзЗрж░ рзз ржЬрзБрж▓рж╛ржЗ ржерзЗржХрзЗ рззрзпрзорзй рж╕рж╛рж▓рзЗрж░ рззрзж ржбрж┐рж╕рзЗржорзНржмрж░ ржкрж░рзНржпржирзНржд ржжрж╛ржпрж╝рж┐рждрзНржмрзЗ ржЫрж┐рж▓рзЗржи ржЬрзЗржирж╛рж░рзЗрж▓ рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗред рззрзпрзнрзм ржерзЗржХрзЗ рзнрзо ржкрж░рзНржпржирзНржд рждрж┐ржирж┐ ржХрзНржпрж╛ржорзНржкрзЛ ржжрзЗ ржорж╛ржпрж╝рзЛ рж╕рзЗржирж╛ржШрж╛ржБржЯрж┐рж░ ржХржорж╛ржирзНржбрж╛рж░ ржЫрж┐рж▓рзЗржиред ржмрзБржпрж╝рзЗржирж╕ ржЖржпрж╝рж╛рж░рзНрж╕рзЗрж░ рж╢рж╣рж░рждрж▓рж┐рж░ ржП ржШрж╛ржБржЯрж┐ржЯрж┐ ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирж╛рж░ рж╕ржмржЪрзЗржпрж╝рзЗ ржмржбрж╝ ржУ ржХрзБржЦрзНржпрж╛ржд ржЧрзЛржкржи ржирж┐рж░рзНржпрж╛рждржи ржХрзНржпрж╛ржорзНржк рж╣рж┐рж╕рзЗржмрзЗ ржкрж░рж┐ржЪрж┐рждред ржорж╛ржиржмрж╛ржзрж┐ржХрж╛рж░ рж╕ржВржЧржаржиржЧрзБрж▓рзЛрж░ ржжрж╛ржмрж┐, рж╕рж╛ржорж░рж┐ржХ рж╢рж╛рж╕ржирзЗрж░ ржП ржЖржорж▓рзЗ рж░рж╛ржЬржирзИрждрж┐ржХ ржнрж┐ржирзНржиржорждрж╛ржмрж▓ржорзНржмрзАржжрзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ рж╕рж░ржХрж╛рж░рзЗрж░ 'ржбрж╛рж░рзНржЯрж┐ ржУржпрж╝рж╛рж░'-ржП ржкрзНрж░рж╛ржг рж╣рж╛рж░рж╛ржпрж╝ рзйрзж рж╣рж╛ржЬрж╛рж░ ржорж╛ржирзБрж╖ред ржПрж░ ржоржзрзНржпрзЗ ржкрзНрж░рж╛ржпрж╝ ржЪрж╛рж░ рж╣рж╛ржЬрж╛рж░ ржорж╛ржирзБрж╖ржХрзЗ ржзрж░рзЗ ржирж┐ржпрж╝рзЗ ржпрж╛ржУржпрж╝рж╛ рж╣ржпрж╝ ржХрж╛ржорзНржкрзЛ ржжрзЗ ржорж╛ржпрж╝рзЛрждрзЗред ржорж╛рждрзНрж░ рзлрзж ржЬржи рж╕рзЗржЦрж╛ржи ржерзЗржХрзЗ ржмрзЗржБржЪрзЗ ржлрж┐рж░рзЗ ржЖрж╕рждрзЗ ржкрж╛рж░рзЗржиред ржПржЦрж╛ржирзЗ ржмржирзНржжрж┐ ржирж╛рж░рзАржжрзЗрж░ ржЕржирзЗржХрзЗржЗ рждржЦржи рж╕ржирзНрждрж╛ржи ржЬржирзНржо ржжрзЗржиред ржХрж┐ржирзНрждрзБ ржПрж╕ржм ржиржмржЬрж╛рждржХржХрзЗ рждрж╛ржжрзЗрж░ ржорж╛ржпрж╝рзЗрж░ ржХрж╛ржЫ ржерзЗржХрзЗ ржЫрж┐ржирж┐ржпрж╝рзЗ ржирзЗржпрж╝ рж╕рзЗржирж╛рж╕ржжрж╕рзНржпрж░рж╛ред ржмрж┐ржнрж┐ржирзНржи рж╕рзЗржирж╛ ржмрж╛ ржкрзБрж▓рж┐рж╢ ржкрж░рж┐ржмрж╛рж░рзЗ ржжрждрзНрждржХ ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝ ржУржЗрж╕ржм рж╢рж┐рж╢рзБржХрзЗред ржПрж░ржХржо ржкрзНрж░рж╛ржпрж╝ рзлрзжрзж рж╢рж┐рж╢рзБрж╕ржирзНрждрж╛ржиржХрзЗ рждрж╛ржжрзЗрж░ ржорж╛ржпрж╝рзЗрж░ ржХрзЛрж▓ ржЦрж╛рж▓рж┐ ржХрж░рзЗ ржирж┐ржпрж╝рзЗ ржпрж╛ржУржпрж╝рж╛ рж╣ржпрж╝ рж╕рзЗ рж╕ржоржпрж╝ред\nрзирзжрзжрзн рж╕рж╛рж▓рзЗ ржХрзНрж░рж┐рж╕рзНржЯрж┐ржирж╛ ржлрж╛рж░ржирж╛ржирзНржжрзЗржЬ ржкрзНрж░рзЗрж╕рж┐ржбрзЗржирзНржЯ ржирж┐рж░рзНржмрж╛ржЪрж┐ржд рж╣ржУржпрж╝рж╛рж░ ржкрж░ рждрж┐ржирж┐ ржЬрж╛ржирзНрждрж╛ рж╕рж░ржХрж╛рж░рзЗрж░ ржирж╛ржЯрзЗрж░ ржЧрзБрж░рзБржжрзЗрж░ ржмрж┐ржЪрж╛рж░рзЗрж░ ржХрж╛ржаржЧржбрж╝рж╛ржпрж╝ ржжрж╛ржБржбрж╝ ржХрж░рж╛рждрзЗ ржЬрзЛрж░ рждрзОржкрж░рждрж╛ рж╢рзБрж░рзБ ржХрж░рзЗржиред ржЬрзЗржирж╛рж░рзЗрж▓ ржмрзЗржирж┐ржпрж╝рзЛржирзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ ржЕржкрж╣рж░ржг, ржирж┐рж░рзНржпрж╛рждржи, рж╢рж┐рж╢рзБ ржЪрзБрж░рж┐рж╕рж╣ ржорж╛ржиржмрждрж╛ржмрж┐рж░рзЛржзрзА ржХрж░рзНржоржХрж╛ржгрзНржбрзЗрж░ ржЕржнрж┐ржпрзЛржЧрзЗрж░ рждржжржирзНржд рж╢рзБрж░рзБ рж╣ржпрж╝ред ржП рждржжржирзНрждржХрж╛ржЬрзЗрж░ ржЕржВрж╢ рж╣рж┐рж╕рзЗржмрзЗ рзирзжрзжрзн рж╕рж╛рж▓рзЗрж░ рзо ржорж╛рж░рзНржЪ ржмрзЗржирж┐ржпрж╝рзЛржиржХрзЗ ржЧрзНрж░рзЗржкрзНрждрж╛рж░ ржХрж░рж╛ рж╣ржпрж╝ред ржУржЗ ржПржХржЗ рж╕рж╛рж▓рзЗрж░ рзирзк ржПржкрзНрж░рж┐рж▓ рж╢рзБржирж╛ржирж┐ рж╢рзБрж░рзБ рж╣ржпрж╝ред ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирж╛рж░ ржорж╛ржиржмрж╛ржзрж┐ржХрж╛рж░ рж╕ржВржЧржаржи рж╕рзЗржирзНржЯрж╛рж░ ржЕржм рж▓рж┐ржЧрзНржпрж╛рж▓ ржЕрзНржпрж╛ржирзНржб рж╕рзЛрж╕рзНржпрж╛рж▓ рж╕рзНржЯрж╛ржбрж┐рж╕ ржмрж▓ржЫрзЗ, рж╕рзЗржирж╛рж╢рж╛рж╕ржирзЗрж░ рж╕ржоржпрж╝ ржирж╛ржирж╛ржмрж┐ржз ржорж╛ржиржмрждрж╛ржмрж┐рж░рзЛржзрзА ржЕржкрж░рж╛ржз ржХрж░рж╛рж░ ржЬржирзНржп ржПржЦржи ржкрж░рзНржпржирзНржд ржорзЛржЯ рззрзкрзмрзк ржЬржирзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ ржЕржнрж┐ржпрзЛржЧ ржЖржирж╛ рж╣ржпрж╝рзЗржЫрзЗред ржПрж░ ржоржзрзНржпрзЗ рзнрзк ржЬржиржХрзЗ ржмрж┐ржнрж┐ржирзНржи ржорзЗржпрж╝рж╛ржжрзЗ рж╕рж╛ржЬрж╛ ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрзЗред рж╕рзЗржирж╛ рж╢рж╛рж╕ржирж╛ржорж▓рзЗ ржЕржкрж╣рж░ржг, ржирж┐рж░рзНржпрж╛рждржирж╕рж╣ ржЕржирзНржпрж╛ржирзНржп ржорж╛ржиржмрждрж╛ржмрж┐рж░рзЛржзрзА ржЕржкрж░рж╛ржзрзЗрж░ ржЬржирзНржп рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗржХрзЗ рзирзл ржмржЫрж░рзЗрж░ ржХрж╛рж░рж╛ржжржгрзНржб ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржП рж╕ржм ржЕржкрж░рж╛ржзрзЗрж░ рж╕ржЩрзНржЧрзЗ ржЬржбрж╝рж┐ржд ржЕржирзНржп ржкрж╛ржБржЪ рж╕рж╛ржмрзЗржХ рж╕рзЗржирж╛ржХрж░рзНржоржХрж░рзНрждрж╛рж░ржУ рззрзн ржерзЗржХрзЗ рзирзл ржмржЫрж░рзЗрж░ ржоржзрзНржпрзЗ ржирж╛ржирж╛ ржорзЗржпрж╝рж╛ржжрж┐ ржХрж╛рж░рж╛ржжржгрзНржб ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрзЗред рж╕рж╛ржЬрж╛ржкрзНрж░рж╛ржкрзНржд ржЕржирзНржп ржкрж╛ржБржЪржЬржи рж╣рж▓рзЗржи, рж╕рж╛ржирзНрждрж┐ржпрж╝рж╛ржЧрзЛ рж░рж┐ржнрзЗрж░рзЛрж╕, ржлрж╛рж░рзНржирж╛ржиржжрзЛ ржнрж╛рж░ржкрзНрж▓рж╛рждрж╕рзЗржи, ржХрж╛рж░рзНрж▓рзЛрж╕ рждрзЗржкрзЗржжрж┐ржирзЛ, ржЬрж░рзНржЬ ржЧрж╛рж░рзНрж╕рж┐ржпрж╝рж╛ ржУ ржЗржЙржЬрзЗржирж┐ржпрж╝рзЛ ржЧрж╛ржирж╛ржмрзЗржирж╕ ржкрзЗрж░рзЗрж▓рзЛред ржкрзНрж░рж╛ржпрж╝ рзйрзж ржмржЫрж░ ржкрж░рзЗ ржмрж┐ржЪрж╛рж░ рж╣рж▓рзЗржУ ржЕржирзЗржХрзЗ ржПрждрзЗ рж╕ржирзНрждрзЛрж╖ ржкрзНрж░ржХрж╛рж╢ ржХрж░рзЗржЫрзЗржиред ржорж╛ржиржмрж╛ржзрж┐ржХрж╛рж░ рж╕ржВржЧржаржиржЧрзБрж▓рзЛрж░ ржжрж╛ржмрж┐, рж╕рж╛ржорж░рж┐ржХ рж╢рж╛рж╕ржирж╛ржорж▓рзЗ рж░рж╛ржЬржирзИрждрж┐ржХ ржнрж┐ржирзНржиржорждрж╛ржмрж▓ржорзНржмрзАржжрзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ рж╕рж░ржХрж╛рж░рзЗрж░ 'ржбрж╛рж░рзНржЯрж┐ ржУржпрж╝рж╛рж░'ржП ржкрзНрж░рж╛ржг рж╣рж╛рж░рж╛ржпрж╝ рзйрзж рж╣рж╛ржЬрж╛рж░ ржорж╛ржирзБрж╖ред рждржмрзЗ рж╕рж░ржХрж╛рж░рж┐ рж╣рж┐рж╕рж╛ржмрзЗ ржУржЗ ржЖржЯ ржмржЫрж░рзЗ рззрзй рж╣рж╛ржЬрж╛рж░ ржорж╛ржирзБрж╖ ржирж┐рж╣ржд рж╣ржпрж╝рзЗржЫрзЗред ржПрж░ ржЖржЧрзЗ рж╢рзБржирж╛ржирж┐рждрзЗ ржмрзЗржирж┐ржпрж╝рзЛржирзЗ ржмрж▓рзЗржЫрж┐рж▓рзЗржи, рждрж╛ржжрзЗрж░ рж╕рж╛ржорж░рж┐ржХ рж╢рж╛рж╕ржирж╛ржорж▓рзЗ ржЖржЯ рж╣рж╛ржЬрж╛рж░рзЗрж░ ржмрзЗрж╢рж┐ ржорж╛ржирзБрж╖ ржорж╛рж░рж╛ ржпрж╛ржпрж╝ржирж┐ред\n\n\n\n",ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирж╛рж░ рж╢рзЗрж╖ ржПржХ ржирж╛рзЯржХ ржХрзЗ?,"{'answer_start': [0, 0], 'text': ['рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗ', 'рж░рзЗржЗржирж╛рж▓ржжрзЛ ржмрзЗржирж┐ржпрж╝рзЛржирзЗ']}"
3,bn_wiki_2340_04,рждржбрж╝рж┐рзО ржпрзБржжрзНржз,"рждржбрж╝рж┐рзО ржпрзБржжрзНржз (ржХржЦржиржУ ржХржЦржиржУ ржмрж┐ржжрзНржпрзБрждрзЗрж░ рж▓ржбрж╝рж╛ржЗ ржмрж▓рж╛ рж╣ржпрж╝) рззрзорзорзж ржПрж░ ржжрж╢ржХрзЗрж░ рж╢рзЗрж╖рзЗрж░ ржжрж┐ржХрзЗ ржПржмржВ рззрзорзпрзж ржПрж░ ржжрж╢ржХрзЗрж░ ржкрзНрж░ржержо ржжрж┐ржХрзЗ ржкрзНрж░рждрж┐ржпрзЛржЧрж┐рждрж╛ржорзВрж▓ржХ ржмрзИржжрзНржпрзБрждрж┐ржХ рж╢ржХрзНрждрж┐ ржЯрзНрж░рж╛ржирзНрж╕ржорж┐рж╢ржи рж╕рж┐рж╕рзНржЯрзЗржо ржкрзНрж░ржмрж░рзНрждржирзЗрж░ рж╕ржоржпрж╝рзЗрж░ ржШржЯржирж╛ржЧрзБрж▓рзЛржХрзЗ ржШрж┐рж░рзЗ рж╕ржВржШржЯрж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓ред рззрзорзнрзж ржПрж░ ржжрж╢ржХрзЗрж░ рж╢рзЗрж╖рзЗрж░ ржжрж┐ржХрзЗ ржПржмржВ рззрзорзорзж ржПрж░ ржжрж╢ржХрзЗрж░ ржкрзНрж░ржержо ржжрж┐ржХрзЗ ржжрзБржЯрж┐ ржЖрж▓рзЛржХ ржмрзНржпржмрж╕рзНржерж╛рж░ ржорж╛ржзрзНржпржорзЗ рж╢рзБрж░рзБ рж╣ржпрж╝рзЗржЫрж┐рж▓; ржЙржЪрзНржЪ ржнрзЛрж▓рзНржЯрзЗржЬ ржмрж┐ржмрж░рзНрждрж┐ржд ржмрж┐ржжрзНржпрзБрзО (ржПрж╕рж┐) ржПрж░ ржЪрж╛ржк ржмрж╛рждрж┐ рж░рж╛рж╕рзНрждрж╛рж░ ржЖрж▓рзЛ, ржПржмржВ ржержорж╛рж╕ ржПржбрж┐рж╕ржи ржХрзЛржорзНржкрж╛ржирж┐рж░ ржжрзНржмрж╛рж░рж╛ ржмрзГрж╣рзО ржкрж░рж┐ржорж╛ржирзЗ ржЙрзОржкрж╛ржжрж┐ржд ржХржо ржнрзЛрж▓рзНржЯрзЗржЬ ржЕржмрж┐ржмрж░рзНрждрж┐ржд ржмрж┐ржжрзНржпрзБрзО (ржбрж┐рж╕рж┐) ржмрж╛ржбрж╝рж┐рж░ ржнрж┐рждрж░рзЗрж░ ржнрж╛рж╕рзНржмрж░ ржЖрж▓рзЛред рззрзорзорзм рж╕рж╛рж▓рзЗ, ржПржбрж┐рж╕ржи рж╕рж┐рж╕рзНржЯрзЗржоржЯрж┐ ржирждрзБржи ржкрзНрж░рждрж┐ржпрзЛржЧрж┐рждрж╛рж░ ржорзБржЦрзЛржорзБржЦрж┐ рж╣ржпрж╝рзЗржЫрж┐рж▓ ржЬрж░рзНржЬ ржУржпрж╝рзЗрж╕рзНржЯрж┐ржВрж╣рж╛ржЙрж╕рзЗрж░ ржХрзЛржорзНржкрж╛ржирзА ржжрзНржмрж╛рж░рж╛ ржЙржжрзНржнрж╛ржмржиржХрзГрзО ржЙржирзНржиржд ржПржХржЯрж┐ ржмрж┐ржХрж▓рзНржк ржкржжрзНржзрждрж┐, ржпрж╛ ржЯрзНрж░рж╛ржирзНрж╕ржлрж░ржорж╛рж░рзЗрж░ ржорж╛ржзрзНржпржорзЗ ржЙржЪрзНржЪ ржнрзЛрж▓рзНржЯрзЗржЬржХрзЗ ржХржорж┐ржпрж╝рзЗ (ржПрж╕рж┐) ржХрзЗ ржмрж╛рж╕рж╛ржмрж╛ржбрж╝рж┐рждрзЗ ржмрзНржпржмрж╣рж╛рж░ржпрзЛржЧрзНржп ржХрж░рзЗред ржЙржЪрзНржЪ ржнрзЛрж▓рзНржЯрзЗржЬ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ ржПржХржЯрж┐ ржПрж╕рж┐ рж╕рж┐рж╕рзНржЯрзЗржоржХрзЗ ржЖрж░рзЛ ржжржХрзНрж╖ ржмрзГрж╣рзО ржХрзЗржирзНржжрзНрж░рзАржпрж╝ ржЬрзЗржирж╛рж░рзЗржЯрж┐ржВ рж╕рзНржЯрзЗрж╢ржи ржерзЗржХрзЗ ржжрзАрж░рзНржШ ржжрзВрж░рждрзНржмрзЗ ржмрж┐ржжрзНржпрзБрзО ржкрзНрж░рзЗрж░ржг ржХрж░рж╛рж░ ржмрзНржпржмрж╕рзНржерж╛ ржХрж░рзЗ ржжрзЗржпрж╝ред ржПрж╕рж┐ ржмрж┐ржжрзНржпрзБрждрзЗрж░ ржмрзНржпржмрж╣рж╛рж░ ржжрзНрж░рзБржд ржЫржбрж╝рж┐ржпрж╝рзЗ ржкржбрж╝рж╛рж░ ржлрж▓рзЗ, рззрзорзорзо рж╕рж╛рж▓рзЗрж░ рж╢рзБрж░рзБрждрзЗ ржПржбрж┐рж╕ржи ржЗрж▓рзЗржХржЯрзНрж░рж┐ржХ рж▓рж╛ржЗржЯ ржХрзЛржорзНржкрж╛ржирж┐рж░ ржжрж╛ржмрж┐ ржЫрж┐рж▓ ржпрзЗ ржмрж░рзНрждржорж╛ржи ржмрж┐ржмрж░рзНрждрж┐ржд ржмрж┐ржжрзНржпрзБрждрзЗ ржмрзНржпржмрж╣рзГржд ржЙржЪрзНржЪ ржнрзЛрж▓рзНржЯрзЗржЬржЧрзБрж▓рж┐ ржмрж┐ржкржЬрзНржЬржиржХ ржЫрж┐рж▓ ржПржмржВ ржиржХрж╢рж╛ржЯрж┐ рждрж╛рж░ ржЪрзЗржпрж╝рзЗ ржХржо ржЫрж┐рж▓ ржПржмржВ рждрж╛ржжрзЗрж░ ржбрж┐рж╕рж┐ рж╕рж┐рж╕рзНржЯрзЗржорзЗрж░ ржкрзЗржЯрзЗржирзНржЯржЧрзБрж▓рж┐ рж▓ржЩрзНржШржи ржХрж░рзЗржЫрж┐рж▓ред\n\nрззрзорзорзо рж╕рж╛рж▓рзЗрж░ ржмрж╕ржирзНрждрзЗ, ржкрзЛрж▓-ржорж╛ржЙржирзНржЯ ржХрж░рж╛ ржЙржЪрзНржЪ-ржнрзЛрж▓рзНржЯрзЗржЬ ржПрж╕рж┐ рждрж╛рж░рзЗрж░ ржХрж╛рж░ржгрзЗ ржмрзИржжрзНржпрзБрждрж┐ржХ ржХрзНрж╖ржпрж╝ржХрзНрж╖рждрж┐рж░ ржЙржкрж░ ржПржХржЯрж┐ ржорж┐ржбрж┐ржпрж╝рж╛ ржлрзБрж╕ржХрзБржбрж╝рж┐ рж╕рзГрж╖рзНржЯрж┐ рж╣ржпрж╝, ржпрж╛ рждрж╛ржжрзЗрж░ ржмрзНржпржмрж╣рзГржд рждрзАржХрзНрж╖рзНржг ржЖрж▓рзЛржХ ржХрзЛржорзНржкрж╛ржирж┐ржЧрзБрж▓рзЛрж░ рж▓рзЛржн ржУ ржирж┐рж╖рзНржарзБрж░рждрж╛ржХрзЗ ржжрж╛ржпрж╝рзА ржХрж░рзЗред рж╕рзЗржЗ ржмржЫрж░рзЗрж░ ржЬрзБржирзЗ ржирж┐ржЙржЗржпрж╝рж░рзНржХ ржЗрж▓рзЗржХржЯрзНрж░рж┐ржХрзНржпрж╛рж▓ ржЗржЮрзНржЬрж┐ржирж┐ржпрж╝рж╛рж░ рж╣рзНржпрж╛рж░рж▓рзНржб ржкрж┐. ржмрзНрж░рж╛ржЙржи ржжрж╛ржмрж┐ ржХрж░рзЗржЫрж┐рж▓рзЗржи ржпрзЗ ржПрж╕рж┐ ржнрж┐рждрзНрждрж┐ржХ ржЖрж▓рзЛржХ ржХрзЛржорзНржкрж╛ржирж┐ржЧрзБрж▓рж┐ рж╕рзНрж▓рж┐ржкрж╢рзЛржб ржкржжрзНржзрждрж┐рждрзЗ ржЗржирж╕рзНржЯрж▓ ржХрж░рж╛ ржЙржЪрзНржЪ-ржнрзЛрж▓рзНржЯрзЗржЬ рж╕рж┐рж╕рзНржЯрзЗржо ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ ржЬржирж╕рж╛ржзрж╛рж░ржгржХрзЗ ржЭрзБржБржХрж┐рж░ ржорзБржЦрзЗ ржлрзЗрж▓ржЫрзЗред ржмрзНрж░рж╛ржЙржи ржЖрж░ржУ ржжрж╛ржмрж┐ ржХрж░рзЗржЫрж┐рж▓рзЗржи ржпрзЗ ржПрж╕рж┐ ржмрж┐ржжрзНржпрзБрзО ржбрж┐рж╕рж┐ ржмрж┐ржжрзНржпрзБрзО ржПрж░ рждрзБрж▓ржирж╛ржпрж╝ ржЖрж░ржУ ржмрж┐ржкржЬрзНржЬржиржХ ржЫрж┐рж▓ ржПржмржВ ржПржбрж┐рж╕ржи ржЗрж▓рзЗржХржЯрзНрж░рж┐ржХрзЗрж░ ржХрж╛рж░рж┐ржЧрж░рж┐ рж╕рж╣рж╛ржпрж╝рждрж╛ржпрж╝ ржЙржнржпрж╝ ржмрж┐ржжрзНржпрзБрзО ржПрж░ ржорж╛ржзрзНржпржорзЗ ржЬржирж╕ржоржХрзНрж╖рзЗ ржкрж╢рзБ рж╣рждрзНржпрж╛ ржХрж░рзЗ ржПржЯрж┐ ржкрзНрж░ржорж╛ржг ржХрж░рж╛рж░ ржЪрзЗрж╖рзНржЯрж╛ ржХрж░рзЗржЫрж┐рж▓ред ржПржбрж┐рж╕ржи ржХрзЛржорзНржкрж╛ржирж┐ ржПржмржВ ржмрзНрж░рж╛ржЙржи рждрж╛ржжрзЗрж░ рж╕ржорж╛ржирзНрждрж░рж╛рж▓ рж▓ржХрзНрж╖рзНржпрзЗ ржЖрж░ржУ рж╕ржВржХрзАрж░рзНржг рж╣ржпрж╝рзЗ ржПрж╕рж┐ ржмрзНржпржмрж╣рж╛рж░ рж╕рзАржорж┐ржд ржХрж░рж╛рж░ ржЬржирзНржп ржЖржЗржи ржкрзНрж░ржпрж╝рзЛржЧрзЗрж░ ржорж╛ржзрзНржпржорзЗ ржПрж╕рж┐ ржЗржирж╕рзНржЯрж▓рзЗрж╢рж╛ржи ржПржмржВ ржнрзЛрж▓рзНржЯрзЗржЬ рж╕рзАржорж╛ржмржжрзНржз ржХрж░рзЗред ржУржпрж╝рзЗрж╕рзНржЯрж┐ржВрж╣рж╛ржЙрж╕рзЗрж░ ржкрзНрж░ржзрж╛ржи ржПрж╕рж┐ ржкрзНрж░рждрж┐ржжрзНржмржирзНржжрзНржмрзА ржержорж╕ржи-рж╣рж┐ржЙрж╕рзНржЯржи ржЗрж▓рзЗржХржЯрзНрж░рж┐ржХ ржХрзЛржорзНржкрж╛ржирж┐ рждрж╛ржжрзЗрж░ рж╕рж╛ржерзЗ ржпрзБржХрзНржд рж╣ржпрж╝рзЗ ржУржпрж╝рзЗрж╕рзНржЯрж┐ржВрж╣рж╛ржЙрж╕ ржПрж╕рж┐ ржЬрзЗржирж╛рж░рзЗржЯрж░ ржжрзНржмрж╛рж░рж╛ ржЪрж╛рж▓рж┐ржд ржкрзНрж░ржержо ржмрзИржжрзНржпрзБрждрж┐ржХ ржЪрзЗржпрж╝рж╛рж░ржЯрж┐ ржирж┐рж╢рзНржЪрж┐ржд ржХрж░рзЗржиред",ржПрж╕рж┐ ржмрж┐ржжрзНржпрзБрзО ржХрж┐ ржбрж┐рж╕рж┐ ржмрж┐ржжрзНржпрзБрзО ржПрж░ рждрзБрж▓ржирж╛ржпрж╝ ржЖрж░ржУ ржмрж┐ржкржЬрзНржЬржиржХ?,"{'answer_start': [], 'text': []}"
4,bn_wiki_1245_01,ржЖрж▓рждрж╛,"ржЖрж▓рждрж╛ (ржмрзЗржЩрзНржЧрж▓ рж░рзЛржЬ ржирж╛ржорзЗржУ ржкрж░рж┐ржЪрж┐ржд) ржПржХ ржзрж░ржирзЗрж░ рждрж░рж▓ рж▓рж╛рж▓ рж░ржЩ ржпрж╛ рж╣рж╛ржд ржПржмржВ ржкрж╛ржпрж╝рзЗ ржкрзНрж░ржпрж╝рзЛржЧ ржХрж░рж╛ рж╣ржпрж╝, ржПржЯрж┐ ржорзВрж▓ржд ржнрж╛рж░рждрзАржпрж╝ ржЙржкржорж╣рж╛ржжрзЗрж╢рзЗ, ржмрж┐рж╢рзЗрж╖ржд ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗ ржПржмржВ ржнрж╛рж░рждрзЗрж░ ржкрзВрж░рзНржм ржкрзНрж░ржжрзЗрж╢ржЧрзБрж▓рж┐рждрзЗ ржпрзЗржоржи: ржкрж╢рзНржЪрж┐ржоржмржЩрзНржЧ ,ржмрж┐рж╣рж╛рж░ ржУ ржУржбрж╝рж┐рж╢рж╛ржпрж╝ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рж╛ рж╣ржпрж╝ред ржПржЯрж┐ ржорзВрж▓ржд ржмрж┐ржмрж╛рж╣ ржУ ржмрж┐ржнрж┐ржирзНржи ржЕржирзБрж╖рзНржарж╛ржи ржЙржкрж▓ржХрзНрж╖рзЗ рждрзБрж▓рзЛрж░ рж╕рж╛рж╣рж╛ржпрзНржпрзЗ ржкрзНрж░ржпрж╝рзЛржЧ ржХрж░рж╛ рж╣ржпрж╝ред ржмрж┐рж╢рзЗрж╖ ржХрж░рзЗ ржкрж╣рзЗрж▓рж╛ ржмрзИрж╢рж╛ржЦ, ржкрж╣рзЗрж▓рж╛ ржлрж╛рж▓рзНржЧрзБржи, ржЧрж╛ржпрж╝рзЗ рж╣рж▓рзБржж, ржмрж┐ржпрж╝рзЗ, рж╕рж╛ржВрж╕рзНржХрзГрждрж┐ржХ ржЕржирзБрж╖рзНржарж╛ржирзЗ рж╕ржм ржмржпрж╝рж╕рзЗрж░ ржорзЗржпрж╝рзЗрж░рж╛ржЗ ржЖрж▓рждрж╛ ржкрж░рждрзЗ ржкржЫржирзНржж ржХрж░рзЗред рж▓рж╛рж▓ ржкрж╛ржбрж╝рзЗрж░ рж╢рж╛ржбрж╝рж┐рж░ рж╕ржЩрзНржЧрзЗ рж▓рж╛рж▓ ржЯрж┐ржк, ржХрж╛ржБржЪрзЗрж░ ржЪрзБржбрж╝рж┐рж░ рж╕ржЩрзНржЧрзЗ ржкрж╛ржпрж╝рзЗ ржЖрж▓рждрж╛ ржмрж╛ржЩрж╛рж▓рж┐ ржирж╛рж░рзАрж░ рж╢рж╛рж╢рзНржмржд рж╕рзМржирзНржжрж░рзНржпред ржЖржЧрзЗрж░ ржжрж┐ржирзЗ ржЧрж╛ржБржпрж╝рзЗрж░ ржмржзрзВрж░рж╛ ржЖрж▓рждрж╛рж░рж╛ржЩрж╛ ржкрж╛ржпрж╝рзЗ ржкрж╛рж▓ржХрж┐ ржЪржбрж╝рзЗ ржирждрзБржи рж╕ржВрж╕рж╛рж░рзЗ ржкрж╛ рж░рж╛ржЦрждред ржкрзНрж░ржержо ржжрж┐ржХрзЗ ржЖрж▓рждрж╛ ржкрж╛рждрж╛ ржмрж╛ ржкрж╛ржирзЗрж░ рж░рж╕ ржерзЗржХрзЗ ржЖрж▓рждрж╛ рждрзИрж░рж┐ рж╣рждрзЛ, ржпржжрж┐ржУ ржкрж░ржмрж░рзНрждрзАрждрзЗ ржкрж╛ржи ржкрж╛рждрж╛рж░ ржмржжрж▓рзЗ ржПржЯрж┐ ржЬрждрзБ ржжрж┐ржпрж╝рзЗ рждрзИрж░рж┐ рж╣рждрзЛ ржПржмржВ ржмрж░рзНрждржорж╛ржирзЗ рж▓рж╛ржХрзНрж╖рж╛рж░ ржирж┐рж░рзНржпрж╛рж╕ ржЕржержмрж╛ ржХрзГрждрзНрж░рж┐ржо рж░ржЩрзЗрж░ ржорж╛ржзрзНржпржорзЗ рждрзИрж░рж┐ ржХрж░рж╛ рж╣ржЪрзНржЫрзЗред ржЖрж▓рждрж╛рж░ рждрж╛рзОржкрж░рзНржп рж╣рж▓рзЛ, ржПржЯрж┐ рж░ржХрзНрждрзЗрж░ рж╕рж╛ржерзЗ рж╕рж╛ржжрзГрж╢рзНржпржкрзВрж░рзНржг, ржпрж╛ ржкрзНрж░рж╛ржЪрзБрж░рзНржп ржПржмржВ рж╕ржорзГржжрзНржзрж┐рж░ ржкрзНрж░рждрзАржХред ржПржЯрж┐ рж╕рж╛ржЬрж╕ржЬрзНржЬрж╛рж░ ржПржХржЯрж┐ рж╕рж╣ржЬ ржкрзНрж░ржпрж╝рзЛржЧ, ржпржжрж┐ржУ ржЖрж▓рждрж╛ ржжрж┐ржпрж╝рзЗ ржЬржЯрж┐рж▓ ржиржХрж╢рж╛ ржХрж░рж╛ ржЕрж╕ржорзНржнржмред ржЖрж▓рждрж╛ ржжрж┐ржпрж╝рзЗ рждрзБрж▓рж┐ рж╕рж╣ржХрж╛рж░рзЗ ржЦрзБржм рж╕рж╣ржЬрзЗржЗ рж░ржЩ ржХрж░рж╛ ржпрж╛ржпрж╝ ржпрж╛ ржпрзЗ ржХрзЛржиржУ ржмрзНржпржХрзНрждрж┐ ржжрзНржмрж╛рж░рж╛ рж╕рж╛ржзрж┐ржд рж╣рждрзЗ ржкрж╛рж░рзЗ ржПржмржВ ржПржЯрж┐рж░ ржЬржирзНржп рж╢рзИрж▓рзНржкрж┐ржХ ржжржХрзНрж╖рждрж╛рж░ ржкрзНрж░ржпрж╝рзЛржЬржи рж╣ржпрж╝ ржирж╛ред",ржЖрж▓рждрж╛ ржХрзА ржирж╛ржорзЗржУ ржкрж░рж┐ржЪрж┐ржд?,"{'answer_start': [6, 6], 'text': ['ржмрзЗржЩрзНржЧрж▓ рж░рзЛржЬ', 'ржмрзЗржЩрзНржЧрж▓ рж░рзЛржЬ']}"
5,bn_wiki_0976_04,ржПржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░,"ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ ржмрж╛ ржХржорзНржкрж┐ржЙржЯрж╛рж░ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи ржмрж▓рждрзЗ ржмрж┐рж╢рзЗрж╖ ржзрж░ржирзЗрж░ ржХржорзНржкрж┐ржЙржЯрж╛рж░ ржкрзНрж░рзЛржЧрзНрж░рж╛ржоржХрзЗ ржмрзЛржЭрж╛ржпрж╝ ржпрж╛ ржорж╛ржирзБрж╖ржХрзЗ ржХрзЛржи ржмрж┐рж╢рзЗрж╖ ржзрж░ржирзЗрж░ ржХрж╛ржЬ рж╕ржорзНржкрж╛ржжржирзЗ рж╕рж╣рж╛ржпрж╝рждрж╛ ржХрж░рзЗред ржПржХржЯрж┐ ржХржорзНржкрж┐ржЙржЯрж╛рж░ рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ ржпрзЗржЯрж╛ ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзАрж░ ржкрзНрж░ржпрж╝рзЛржЬржи ржЕржирзБржпрж╛ржпрж╝рзА ржПржмржВ ржирж┐рж░рзНржжрж┐рж╖рзНржЯ ржХрж╛ржЬ рж╕ржорзНржкрж╛ржжржирж╛ (ржПржХ ржмрж╛ ржПржХрж╛ржзрж┐ржХ) ржХрж░рждрзЗ ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзАржХрзЗ рж╕рж╣рж╛ржпрж╝рждрж╛ ржХрж░рзЗ ржерж╛ржХрзЗред ржПржХрзЗ рж╢рзБржзрзБ ржПржкрзНрж▓рж┐ржХрзЗрж╢ржи ржмрж╛ ржЖрзНржпржк ржмрж▓рж╛ рж╣ржпрж╝ред ржХржорзНржкрж┐ржЙржЯрж╛рж░ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рждрж╛ржЗ ржЕржкрж╛рж░рзЗржЯрж┐ржВ рж╕рж┐рж╕рзНржЯрзЗржо, рж╕рж┐рж╕рзНржЯрзЗржо ржЗржЙржЯрж┐рж▓рж┐ржЯрж┐, ржкрзНрж░рзЛржЧрзНрж░рж╛ржорж┐ржВ ржнрж╛рж╖рж╛, ржЗрждрзНржпрж╛ржжрж┐рж░ ржЪрзЗржпрж╝рзЗ ржЖрж▓рж╛ржжрж╛ред ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи ржкрзНрж░рзЛржЧрзНрж░рж╛ржо рж╕рж╛ржзрж╛рж░ржгржд ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзАржХрзЗ ржЯрзЗржХрзНрж╕рзНтАМржЯ, рж╕ржВржЦрзНржпрж╛ ржХрж┐ржВржмрж╛ ржЫржмрж┐ ржирж┐ржпрж╝рзЗ ржмрж┐ржнрж┐ржирзНржи ржХрж╛ржЬ ржХрж░рж╛рж░ рж╕рзБржпрзЛржЧ ржжрзЗржпрж╝ред ржЙржжрж╛рж╣рж░ржг рж╣рждрзЗ ржкрж╛рж░рзЗ ржПржХрж╛ржЙржирзНржЯрж┐ржВ рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░, ржЕржлрж┐рж╕ рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░, ржЧрзНрж░рж╛ржлрж┐ржХрзНрж╕ рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░, ржмрж┐ржнрж┐ржирзНржи ржорж┐ржбрж┐ржпрж╝рж╛ ржкрзНрж▓рзЗржпрж╝рж╛рж░ (ржнрж┐ржбрж┐ржУ ржПржмржВ ржЕржбрж┐ржУ)ред\nржЕржирзЗржХрж╕ржоржпрж╝ ржЕржирзЗржХржЧрзБрж▓рж┐ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ ржПржХрждрзНрж░ ржХрж░рзЗ ржкрзНржпрж╛ржХрзЗржЬ ржмрж╛ ржмрж╛ржирзНржбрзНтАМрж▓ ржЖржХрж╛рж░рзЗ ржмрж┐рждрж░ржг ржХрж░рж╛ рж╣ржпрж╝ред ржПржЧрзБрж▓рж┐ржХрзЗ рж╕рж╛ржзрж╛рж░ржгржд ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕рзБржЗржЯ ржирж╛ржорзЗ ржбрж╛ржХрж╛ рж╣ржпрж╝ред ржорж╛ржЗржХрзНрж░рзЛрж╕ржлржЯ ржЕржлрж┐рж╕, рж▓рж┐ржмрзНрж░рзЗржЕржлрж┐рж╕, ржЗрждрзНржпрж╛ржжрж┐ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕рзБржЗржЯрзЗрж░ ржЙржжрж╛рж╣рж░ржгред ржПржХржЯрж┐ рж╕рзБржЗржЯрзЗрж░ ржмрж┐ржнрж┐ржирзНржи ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржиржЧрзБрж▓рж┐рж░ ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзА ржЗржирзНржЯрж╛рж░ржлрзЗрж╕ ржмрж╛ ржжрзГрж╢рзНржпржорж╛ржи рж░рзВржк рж╕рж╛ржзрж╛рж░ржгржд ржПржХржЗ рж░ржХржо рж╣ржпрж╝рзЗ ржерж╛ржХрзЗ ржпрж╛рждрзЗ ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзА ржПржХржЗ ржкрж░рж┐ржмрзЗрж╢рзЗ ржХрж╛ржЬ ржХрж░рж╛рж░ ржЕржирзБржнрзВрждрж┐ ржкрж╛ржи ржПржмржВ ржкрзНрж░рзЛржЧрзНрж░рж╛ржоржЧрзБрж▓рж┐рж░ ржПржХржЯрж┐рж░ рждржерзНржп ржЕржкрж░ржЯрж┐рждрзЗ рж╕рж╣ржЬрзЗ рж╕рзНржерж╛ржирж╛ржирзНрждрж░ ржУ ржмрзНржпржмрж╣рж╛рж░рзЗрж░ржУ ржмрзНржпржмрж╕рзНржерж╛ ржерж╛ржХрзЗред ржпрзЗржоржи ржХрзЛржи рж╕рзНржкрзНрж░рзЗржбрж╢рж┐ржЯ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржирзЗ ржкрзНрж░рж╕рзНрждрзБржд ржХрж░рж╛ ржПржХржЯрж┐ рж╕рзНржкрзНрж░рзЗржбрж╢рж┐ржЯ рж╕рж╣ржЬрзЗржЗ ржПржХржЗ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕рзБржЗржЯрзЗрж░ ржУржпрж╝рж╛рж░рзНржб ржкрзНрж░рж╕рзЗрж╕рж░ ржЕрзНржпрж╛ржкрзНрж▓рж┐ржХрзЗрж╢ржирзЗрж░ ржбржХрзБржорзЗржирзНржЯрзЗ ""ржПржоржмрзЗржб"" ржмрж╛ ржЧрзНрж░ржерж┐ржд ржХрж░рзЗ ржжрзЗржпрж╝рж╛ рж╕ржорзНржнржмред\nржПржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ ржпрзЗ ржХржорзНржкрж┐ржЙржЯрж╛рж░ ржкрзНрж▓рж╛ржЯржлрж░рзНржорзЗ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ рждрж╛рж░ ржЙржкржпрзЛржЧрзА ржХрж░рзЗ ржмрж╛ржирж╛ржирзЛ рж╣ржпрж╝ ржпрж╛рждрзЗ рж╕рзЗржЯрж╛ ржкрзНрж▓рж╛ржЯржлрж░рзНржорзЗрж░ рж╕рж╛ржерзЗ рж╕рж╣ржЬрзЗ ржХрж╛ржЬ ржХрж░рждрзЗ ржкрж╛рж░рзЗред ржПрж░ ржЕржирзНржп ржЙржжрзНржжрзЗрж╢рзНржп рж╣рж▓ ржкрзНрж▓рж╛ржЯржлрж░рзНржорзЗрж░ ржХрж╛ржЬ ржХрж░рж╛рж░ ржХрзНрж╖ржорждрж╛ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ ржЕржержмрж╛ ржР ржкрзНрж▓рж╛ржЯржлрж░рзНржорзЗрж░ рж╕рж┐рж╕рзНржЯрзЗржо рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░рзЗрж░ ржХрзНрж╖ржорждрж╛ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ ржПржХржЯрж┐ ржирж┐рж░рзНржжрж┐рж╖рзНржЯ ржЙржжрзНржжрзЗрж╢рзНржп рж╕рж╛ржзржи ржХрж░рж╛ред ржХрж┐ржЫрзБ ржХрж┐ржЫрзБ рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ ржмрж┐ржнрж┐ржирзНржи ржкрзНрж▓рж╛ржЯржлрж░рзНржорзЗ ржмрзНржпржмрж╣рж╛рж░ ржЙржкржпрзЛржЧрзА ржХрж░рзЗ ржмрж╛ржирж╛ржирзЛ рж╣ржпрж╝ ржпрзЗржоржи ржорж╛ржЗржХрзНрж░рзЛрж╕ржлржЯрзЗрж░ ржорж╛ржЗржХрзНрж░рзЛрж╕ржлржЯ ржЕржлрж┐рж╕ред",ржПржкрзНрж▓рж┐ржХрзЗрж╢ржи рж╕ржлржЯржУржпрж╝рзНржпрж╛рж░ рждрзИрж░рзА ржХрж░рж╛ рж╣ржпрж╝ ржХрж╛ржжрзЗрж░ ржЪрж╛рж╣рж┐ржжрж╛ ржЕржирзБржпрж╛ржпрж╝рзА ржирж┐рж░рзНржжрж┐рж╖рзНржЯ ржХрж╛ржЬ ржХрж░рж╛рж░ ржЬржирзНржп?,"{'answer_start': [], 'text': []}"
6,bn_wiki_1765_02,ржЕрзНржпрж╛рж▓рж┐рж╕ (ржЖржЬржм ржжрзЗрж╢рзЗ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржжрзБржГрж╕рж╛рж╣рж╕рзАржХ ржЕржнрж┐ржпрж╛ржи),"тАШржЯрзЗржирж┐ржпрж╝рзЗрж▓-ржПрж░ ржПржХржорж╛рждрзНрж░ рж╢рзНрж░рзЗрж╖рзНржа ржкрзНрж░рждрж┐ржжрзНржмржирзНржжрзНржмрзАтАЩ рж╣рж┐рж╕рзЗржмрзЗ ржкрж░рж┐ржЪрж┐ржд ржУржпрж╝рж╛рж▓рзНржЯ ржбрж┐ржЬржирж┐ рззрзпрзлрзз рж╕рж╛рж▓рзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ржХрзЗ ржХрзЗржирзНржжрзНрж░ ржХрж░рзЗ ржПржХржЯрж┐ ржкрзНрж░ржнрж╛ржмрж╢рж╛рж▓рзА ржЪрж▓ржЪрзНржЪрж┐рждрзНрж░ ржирж┐рж░рзНржорж╛ржг ржХрж░рзЗржи, ржпрж╛ ржкржкрзН рж╕ржВрж╕рзНржХрзГрждрж┐рж░ ржЬржЧрждрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржЪрж░рж┐рждрзНрж░ржХрзЗ рж╕рзНржерж╛ржкржи ржХрж░рждрзЗ рж╕рж╛рж╣рж╛ржпрзНржп ржХрж░рзЗржЫрж┐рж▓ред ржпржжрж┐ржУ ржПрж░ ржЖржЧрзЗ ржЯржорж╛рж╕ ржХрзНрж░ржпрж╝рзЗрж▓-ржПрж░ ржкрзНрж░ржХрж╛рж╢рж┐ржд ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржжрзБржЯрж┐ ржмржЗржпрж╝рзЗрж░ ржЕржиржирзБржорзЛржжрж┐ржд ржорж╛рж░рзНржХрж┐ржирж┐ рж╕ржВрж╕рзНржХрж░ржгрзЗ ржирзАрж▓ ржЬрж╛ржорж╛ ржкрж░рж┐рж╣рж┐рждрж╛ рж╕рзНржмрж░рзНржгржХрзЗрж╢рзА ржЕрзНржпрж╛рж▓рж┐рж╕ржХрзЗ ржжрзЗржЦрж╛ржирзЛ рж╣ржпрж╝рзЗржЫрж┐рж▓, рждржмрзБржУ рж╕ржорзНржнржмржд ржкрзНрж░ржержоржмрж╛рж░ ржбрж┐ржЬржирж┐рж░ ржЪрж▓ржЪрзНржЪрж┐рждрзНрж░рзЗ ржПрж╣рзЗржи ржЪрж░рж┐рждрзНрж░ ржЪрж┐рждрзНрж░ржгрзЗрж░ ржорж╛ржзрзНржпржорзЗ ржЬржиржорж╛ржирж╕рзЗ рждрж╛рж░ ржПржЗ рж░рзВржк ржкрж░рж┐ржЪрж┐рждрж┐ рж▓рж╛ржн ржХрж░рзЗред ржорзНржпрж╛рж░рж┐ ржмрзНрж▓рзЗржпрж╝рж╛рж░-ржПрж░ ржЖржБржХрж╛ ржЪрж┐рждрзНрж░ ржПржмржВ ржЯрзЗржирж┐ржпрж╝рзЗрж▓-ржПрж░ ржХрж╛рж░рзНржЯрзБржиржЧрзБрж▓рзЛрж░ ржнрж┐рждрзНрждрж┐рждрзЗ ржбрж┐ржЬржирж┐рж░ рж╕ржВрж╕рзНржХрж░ржгрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржЪрж░рж┐рждрзНрж░ржЯрж┐ ржирж┐рж░рзНржорж╛ржг ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓ред ржкрзНрж░ржержоржжрж┐ржХрзЗ рж╕рж┐ржирзЗржорж╛ржЯрж┐ рждрзЗржоржи рж╕рж╛ржлрж▓рзНржп ржирж╛ ржкрзЗрж▓рзЗржУ ржкрж░ржмрж░рзНрждрзАржХрж╛рж▓рзЗ ржХрж▓рзЗржЬ ржкржбрж╝рзБржпрж╝рж╛ржжрзЗрж░ ржоржзрзНржпрзЗ ржПржЯрж┐ ржкрзНрж░ржмрж▓ ржЬржиржкрзНрж░рж┐ржпрж╝рждрж╛ рж▓рж╛ржн ржХрж░рзЗ, рждрж╛рж░рж╛ рж╕рж┐ржирзЗржорж╛ржЯрж┐ржХрзЗ ржорж╛ржжржХрзЗ рж╕рж┐ржХрзНржд ржмрж░рзНржгржирж╛ рж╣рж┐рж╕рзЗржмрзЗ ржжрзЗржЦрзЗред рждржмрзЗ рззрзпрзнрзк рж╕рж╛рж▓рзЗ ржорж╛ржжржХрзЗрж░ рж╕рж╛ржерзЗ рждрж╛рж░ ржХрзЛржирзЛ рж╕ржорзНржкрж░рзНржХ ржирзЗржЗ ржПржЗ ржмрж╛рж░рзНрждрж╛ ржжрж┐ржпрж╝рзЗ рж╕рж┐ржирзЗржорж╛ржЯрж┐ ржЖржмрж╛рж░ ржорзБржХрзНрждрж┐ ржкрж╛ржпрж╝ред рж╕рж┐ржирзЗржорж╛ржЯрж┐ржХрзЗ ржШрж░рзЛржпрж╝рж╛ ржоржирзЛрж░ржЮрзНржЬржи рж╣рж┐рж╕рзЗржмрзЗ ржкрзНрж░ржЪрж╛рж░ ржХрж░рж╛ рж╣рж▓рзЗржУ, ржорж╛ржжржХрзЗрж░ рж╕ржЩрзНржЧрзЗ рждрж╛рж░ рж╕ржорзНржкрж░рзНржХрзЗрж░ ржмрзНржпрж╛ржкрж╛рж░ржЯрж╛ржХрзЗ ржЕржиржирзБржорзЛржжрж┐ржд ржмрзНржпрж╛ржЦрзНржпрж╛ рж╣рж┐рж╕рзЗржмрзЗ ржжрзЗржЦрж╛ рж╣ржпрж╝ред",ржУржпрж╝рж╛рж▓рзНржЯ ржбрж┐ржЬржирж┐ ржХржд рж╕рж╛рж▓рзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ржХрзЗ ржХрзЗржирзНржжрзНрж░ ржХрж░рзЗ ржПржХржЯрж┐ ржЪрж▓ржЪрзНржЪрж┐рждрзНрж░ ржирж┐рж░рзНржорж╛ржг ржХрж░рзЗржи?,"{'answer_start': [73, 73], 'text': ['рззрзпрзлрзз', 'рззрзпрзлрзз']}"
7,bn_wiki_0235_03,ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ рж░рзЛржнрж╛рж░,"ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ рж░рзЛржнрж╛рж░ рзирзжрззрзи ржЦрзНрж░рж┐рж╕рзНржЯрж╛ржмрзНржжрзЗ ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗ ржирж╛рж╕рж╛рж░ ржкрзНрж░рзЗрж░рж┐ржд ржЪрждрзБрж░рзНрже рж░рзЛржмржЯржпрж╛ржиред ржоржЩрзНржЧрж▓ ржЧржмрзЗрж╖ржгрж╛рж░ ржЗрждрж┐рж╣рж╛рж╕рзЗ ржПржЯрж┐ржЗ ржПржЦржи ржкрж░рзНржпржирзНржд (рзирзжрззрзи) ржирж╛рж╕рж╛рж░ ржмрж┐ржЬрзНржЮрж╛ржирзАржжрзЗрж░ рж╕ржмржЪрзЗржпрж╝рзЗ ржмржбрж╝ рж╕рж╛ржлрж▓рзНржпред рж░рзЛржмржЯржпрж╛ржиржЯрж┐рж░ ржУржЬржи ржкрзНрж░рж╛ржпрж╝ рзз ржЯржиред ржПржЗ ржкрзНрж░ржержо ржирж╛рж╕рж╛ ржПржд ржмрзЗрж╢рж┐ ржУржЬржирзЗрж░ ржпрж╛ржи ржХрзЛржирзЛ ржЧрзНрж░рж╣рзЗ рж╕ржлрж▓ржнрж╛ржмрзЗ ржирж╛ржорж╛рждрзЗ рж╕ржХрзНрж╖ржо рж╣ржпрж╝рзЗржЫрзЗред ржорж┐рж╢ржирзЗрж░ ржмрж┐ржЬрзНржЮрж╛ржирзАрж░рж╛ ржмрж▓ржЫрзЗржи, ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗ ржПржкрж░рзНржпржирзНржд ржпржд ржЕржирзБрж╕ржирзНржзрж╛ржирзА ржпрж╛ржи ржкрж╛ржарж╛ржирзЛ рж╣ржпрж╝рзЗржЫрзЗ, рждрж╛рж░ ржоржзрзНржпрзЗ рзз ржЯржи ржУржЬржирзЗрж░ ржПржЗ ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ржЗ рж╕ржмржЪрзЗржпрж╝рзЗ ржЙржирзНржирждред ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ ржЧрзНрж░рж┐ржирж┐ржЪ ржорж╛ржи рж╕ржоржпрж╝ рж╕рзЛржоржмрж╛рж░ ржнрзЛрж░ ржкрж╛ржБржЪржЯрж╛ рзйрзи ржорж┐ржирж┐ржЯрзЗ ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗрж░ ржПржХржЯрж┐ ржкрж░рзНржмрждрзЗрж░ ржЬрзНржмрж╛рж▓рж╛ржорзБржЦрзЗрж░ ржнрзЗрждрж░рзЗ ржирж╛ржорзЗ ржПржмржВ ржкрж░рзЗ ржоржЩрзНржЧрж▓рзЗрж░ ржорж╛ржЯрж┐ рж╕рзНржкрж░рзНрж╢ ржХрж░рзЗред ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ ржкрзГржерж┐ржмрзА ржерзЗржХрзЗ ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗ ржкрзМржБржЫрж╛рждрзЗ рж╕ржоржпрж╝ ржирж┐ржпрж╝рзЗржЫрзЗ ржиржпрж╝ ржорж╛рж╕ред ржПржЯрж┐ рзирзжрззрзз рж╕рж╛рж▓рзЗрж░ ржиржнрзЗржорзНржмрж░рзЗ ржпрзБржХрзНрждрж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ ржлрзНрж▓рзЛрж░рж┐ржбрж╛рж░ ржХрзЗржк ржХрзНржпрж╛ржирж╛ржнрзЗрж░рж╛рж▓ ржерзЗржХрзЗ ржпрж╛рждрзНрж░рж╛ рж╢рзБрж░рзБ ржХрж░рзЗ ржПржмржВ рзлрзн ржХрзЛржЯрж┐ ржХрж┐рж▓рзЛржорж┐ржЯрж╛рж░ ржкрже ржкрж╛ржбрж╝рж┐ ржжрж┐ржпрж╝рзЗ ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗ ржкрзМржБржЫрж╛ржпрж╝ред ржП рж░рзЛржмржЯржХрзЗ ржмрж▓рж╛ рж╣ржЪрзНржЫрзЗ тАШржкрзВрж░рзНржгрж╛ржЩрзНржЧ ржЬрзИржм ржЧржмрзЗрж╖ржгрж╛ржЧрж╛рж░тАЩред\nржоржЩрзНржЧрж▓ ржирж╛ржорзЗ рж▓рзЛрж╣рж┐ржд ржЧрзНрж░рж╣ржЯрж┐рж░ ржмрж┐рж╢рж╛рж▓ ржЖржХрзГрждрж┐рж░ ржЖржЧрзНржирзЗржпрж╝ржЧрж┐рж░рж┐рж░ ржЬрзНржмрж╛рж▓рж╛ржорзБржЦ ржЧрзЗржЗрж▓рзЗрж░ ржнрзВрждрждрзНрждрзНржм рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирж╛ред рж░рзЛржмржЯржЯрж┐ ржПрж░ рж▓рзЗржЬрж╛рж░ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ рж╕рзЗржЦрж╛ржиржХрж╛рж░ рж╢рж┐рж▓рж╛ржЦржгрзНржб ржЫрж┐ржжрзНрж░ ржмрж╛ ржжрж╣ржи ржХрж░рзЗ ржП ржЧрзНрж░рж╣рзЗрж░ ржкрзНрж░рж╛ржЪрзАржи ржЖржмрж╣рж╛ржУржпрж╝рж╛ ржУ ржЬрж▓ржмрж╛ржпрж╝рзБ ржЬрж╛ржирж╛рж░ ржЪрзЗрж╖рзНржЯрж╛ ржХрж░ржмрзЗред ржПрждрзЗ ржЬрж╛ржирж╛ ржпрж╛ржмрзЗ, ржоржЩрзНржЧрж▓ ржХржЦржирзЛ ржЖржирзБржмрзАржХрзНрж╖ржгрж┐ржХ ржЬрзАржм ржмрж╕ржмрж╛рж╕рзЗрж░ ржЙржкржпрзЛржЧрзА ржЫрж┐рж▓ ржХрж┐ ржирж╛ ржПржмржВ ржПржЦржи рж╕рзЗржЦрж╛ржирзЗ ржЬрзАржмржиржзрж╛рж░ржгрзЗрж░ ржорждрзЛ ржкрж░рж┐ржмрзЗрж╢ ржЖржЫрзЗ ржХрж┐ ржирж╛ ржмрж╛ ржнржмрж┐рж╖рзНржпрждрзЗ рж╕рзЗ ржЕржмрж╕рзНржерж╛ рждрзИрж░рж┐рж░ рж╕ржорзНржнрж╛ржмржирж╛ ржЖржЫрзЗ ржХрж┐ ржирж╛ред ржПржХ ржХржерж╛ржпрж╝, ржкрзНрж░рж╛ржпрж╝ рж╕рж╛ржбрж╝рзЗ ржкрж╛ржБржЪ ржХрзЛржЯрж┐ ржХрж┐рж▓рзЛржорж┐ржЯрж╛рж░ ржкрзЗрж░рж┐ржпрж╝рзЗ ржоржЩрзНржЧрж▓рзЗ рж╕ржлрж▓ ржЕржмрждрж░ржг ржХрж░рж╛ рж░рзЛржнрж╛рж░ ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐рж░ ржорж┐рж╢ржирзЗрж░ ржЙржжрзНржжрзЗрж╢рзНржп ржоржЩрзНржЧрж▓рзЗрж░ ржЖржмрж╣рж╛ржУржпрж╝рж╛ ржУ ржкрзНрж░рж╛ржгрзЗрж░ ржЕрж╕рзНрждрж┐рждрзНржм ржЕржирзБрж╕ржирзНржзрж╛ржиред ржПржЗ ржпрж╛ржиржЯрж┐ ржмрж╛ржирж╛рждрзЗ рж╕рж░рзНржмржорзЛржЯ ржЦрж░ржЪ рж╣ржпрж╝рзЗржЫрзЗ ржкрзНрж░рж╛ржпрж╝ рзирзмрзж ржХрзЛржЯрж┐ ржорж╛рж░рзНржХрж┐ржи ржбрж▓рж╛рж░ред",ржХрж┐ржЙрж░рж┐ржУрж╕рж┐ржЯрж┐ ржЧрзНрж░рж┐ржирж┐ржЪ ржорж╛ржи рж╕ржоржпрж╝ ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗрж░ ржХрзЛржерж╛ржпрж╝ ржирж╛ржорзЗ ?,"{'answer_start': [447, 447], 'text': ['ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗрж░ ржПржХржЯрж┐ ржкрж░рзНржмрждрзЗрж░ ржЬрзНржмрж╛рж▓рж╛ржорзБржЦрзЗрж░ ржнрзЗрждрж░рзЗ', 'ржоржЩрзНржЧрж▓ ржЧрзНрж░рж╣рзЗрж░ ржПржХржЯрж┐ ржкрж░рзНржмрждрзЗрж░ ржЬрзНржмрж╛рж▓рж╛ржорзБржЦрзЗрж░ ржнрзЗрждрж░рзЗ']}"
8,bn_wiki_2516_01,ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржж,"""ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржжрзА"" ржПржмржВ ""ржЗрж╕рж▓рж╛ржоржмрж╛ржжрзА"" рж╢ржмрзНржж ржжрзБржЯрж┐рж░ ржоржзрзНржпрзЗ ржЙрж▓рзНрж▓рзЗржЦржпрзЛржЧрзНржп ржкрж╛рж░рзНржержХрзНржп рж░ржпрж╝рзЗржЫрзЗред ржирж╛рж░рзА ржУ ржкрзБрж░рзБрж╖ рж╕ржХрж▓рзЗрж░ ржХрзНрж╖рзЗрждрзНрж░рзЗржЗ ржПржЗ рж╢ржмрзНржжржжрзБржЯрзЛ ржкрзНрж░ржпрзЛржЬрзНржп рж╣рждрзЗ ржкрж╛рж░рзЗред\n\n""ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржжрзА""\nржЗрж╕рж▓рж╛ржорзБ ржирж╛рж░рзАржмрж╛ржжрзАржЧржг ржзрж░рзНржорзАржпрж╝ ржЧрзНрж░ржирзНржерж╕ржорзВрж╣ржХрзЗ ржирж╛рж░рзАржмрж╛ржжрзА ржжрзГрж╖рзНржЯрж┐ржнржЩрзНржЧрж┐рждрзЗ ржмрзНржпрж╛ржЦрзНржпрж╛ ржХрж░рзЗржиред рждрж╛ржБрж░рж╛ ржЗрж╕рж▓рж╛ржо ржУ ржЗрж╕рж▓рж╛ржорзЗрж░ рж╢рж┐ржХрзНрж╖рж╛ ржерзЗржХрзЗ рждрж╛ржБржжрзЗрж░ ржоржд ржкрзНрж░ржХрж╛рж╢ ржХрж░рзЗржи, ржмрзНржпржХрзНрждрж┐ржЧржд ржУ ржкрж╛ржмрж▓рж┐ржХ ржХрзНрж╖рзЗрждрзНрж░рж╕ржорзВрж╣рзЗ ржирж╛рж░рзА ржУ ржкрзБрж░рзБрж╖рзЗрж░ ржкрзВрж░рзНржгрж╛ржЩрзНржЧ рж╕рж╛ржорзНржп ржжрж╛ржмрж┐ ржХрж░рзЗржи ржПржмржВ ржПржЗ ржЖрж▓рзЛржЪржирж╛ ржУ ржмрж┐рждрж░рзНржХржЧрзБрж▓рзЛрждрзЗ ржЕржорзБрж╕рж▓рж┐ржоржжрзЗрж░ржХрзЗ ржирж┐ржпрж╝рзЗ ржЖрж╕рзЗржиред\n\nржЗрж╕рж▓рж╛ржорж┐ ржЖрж▓рзЗржоржжрзЗрж░ ржорждрзЗ ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржж ржзрж░рзНржоржирж┐рж░ржкрзЗржХрзНрж╖ ржирж╛рж░рзАржмрж╛ржжрзЗрж░ рждрзБрж▓ржирж╛ржпрж╝ ржЕржзрж┐ржХ ржорзМрж▓рж┐ржХ ржмрж╛ ржорзМрж▓ржмрж╛ржжрзА ржПржмржВ ржХрзБрж░ржЖржи ржПржмржВ ржПрж░ ржХрзЗржирзНржжрзНрж░рзАржпрж╝ ржкрж╛ржа ржирж┐ржпрж╝рзЗ ржЗрж╕рж▓рж╛ржорзЗрж░ ржЖрж▓рзЛржЪржирж╛рж░ ржоржзрзНржпрзЗржЗ ржПржЯрж┐ ржЕржмрж╕рзНржерж╛ржи ржХрж░рзЗред\n\nрж╕рж╛ржорзНржкрзНрж░рждрж┐ржХ рж╕ржоржпрж╝рзЗ рж╕ржорж╛ржЬрзЗрж░ ржмрж┐ржнрж┐ржирзНржи ржжрж┐ржХ ржерзЗржХрзЗ ржЗрж╕рж▓рж╛ржорж┐ ржжрж▓ржЧрзБрж▓рзЛрж░ рж╕ржорж░рзНржержирзЗрж░ рж▓рж╛ржнрзЗрж░ ржЙржжрзНржжрзЗрж╢рзНржпрзЗ ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржжрзЗрж░ ржзрж╛рж░ржгрж╛ ржЖрж░ржУ рж╕ржорзНржкрзНрж░рж╕рж╛рж░рж┐ржд рж╣ржпрж╝рзЗржЫрзЗред ржПржЫрж╛ржбрж╝рж╛ржУ рж╢рж┐ржХрзНрж╖рж┐ржд ржорзБрж╕рж▓рж┐ржо ржирж╛рж░рзАржЧржг рж╕ржорж╛ржЬрзЗ рждрж╛ржжрзЗрж░ ржнрзВржорж┐ржХрж╛ржХрзЗ рж╢ржХрзНрждрж┐рж╢рж╛рж▓рзА ржХрж░рж╛рж░ ржЬржирзНржп рж╕ржВржЧрзНрж░рж╛ржо ржХрж░рзЗ ржпрж╛ржЪрзНржЫрзЗред\n\n""ржЗрж╕рж▓рж╛ржоржмрж╛ржжрзА""\nржЗрж╕рж▓рж╛ржоржмрж╛ржжрзАржЧржг рж░рж╛ржЬржирзИрждрж┐ржХ ржЗрж╕рж▓рж╛ржоржХрзЗ рж╕ржорж░рзНржержи ржХрж░рзЗржиред ржПржЗ рж░рж╛ржЬржирзИрждрж┐ржХ ржЗрж╕рж▓рж╛ржо рж╣ржЪрзНржЫрзЗ ржХрзБрж░ржЖржи ржПржмржВ рж╣рж╛ржжрж┐рж╕ ржерзЗржХрзЗ ржЖрж╕рж╛ ржЦрж┐рж▓рж╛ржлржд ржмрж╛ ржЗрж╕рж▓рж╛ржорж┐ рж╕рж░ржХрж╛рж░ ржмрзНржпржмрж╕рзНржерж╛рж░ ржзрж╛рж░ржгрж╛ред ржХрзЛржирзЛ ржХрзЛржирзЛ ржЗрж╕рж▓рж╛ржоржмрж╛ржжрзА ржЬржирж╕рж╛ржзрж╛рж░ржгрзЗрж░ ржХрзНрж╖рзЗрждрзНрж░рзЗ ржмрж╛ рж░рж╛рж╖рзНржЯрзНрж░рзАржпрж╝ ржмрж┐ржнрж┐ржирзНржи ржмрж┐рж╖ржпрж╝рж╕ржорзВрж╣рзЗ (рж▓рзЛржХржЬрзАржмржирзЗ) ржирж╛рж░рзА ржЕржзрж┐ржХрж╛рж░рзЗрж░ ржкржХрзНрж╖рзЗ ржерж╛ржХрзЗржи, ржХрж┐ржирзНрждрзБ ржмрзНржпржХрзНрждрж┐ржЧржд ржУ ржмрзНржпржХрзНрждрж┐ржорж╛рж▓рж┐ржХрж╛ржирж╛ржзрзАржи ржХрзНрж╖рзЗрждрзНрж░рзЗ рж▓рж┐ржЩрзНржЧ ржмрзИрж╖ржорзНржпрзЗрж░ ржмрж┐рж░рзБржжрзНржзрзЗ ржХрж┐ржЫрзБ ржмрж▓рзЗржи ржирж╛ред рж╕рзБржжрж╛ржирзАржпрж╝ ржЖрж▓рзЗржо ржПржмржВ ржЗрж╕рж▓рж╛ржорж┐ рж░рж╛ржЬржирзАрждрж┐ржмрж┐ржж рж╕рзБржпрж╝рж╛ржж ржЖрж▓-ржлрж╛рждрж┐рж╣ ржЖрж▓-ржмрж╛ржжрж╛ржУржпрж╝рж┐ ржмрж▓рзЗржи, ржирж╛рж░рзАржмрж╛ржж рждрж╛ржХржУржпрж╝рж╛рж░ (ржзрж░рзНржоржирж┐рж╖рзНржарж╛ ржмрж┐рж╖ржпрж╝ржХ ржЗрж╕рж▓рж╛ржорж┐ ржзрж╛рж░ржгрж╛) рж╕рж╛ржерзЗ рж╕рж╛ржоржЮрзНржЬрж╕рзНржпржкрзВрж░рзНржг ржиржпрж╝, ржПржмржВ рждрж╛ржЗ ржЗрж╕рж▓рж╛ржо ржУ ржирж╛рж░рзАржмрж╛ржж ржПржХрзЗ ржЕржкрж░рзЗрж░ ржерзЗржХрзЗ рж╕ржорзНржкрзВрж░рзНржг ржЖрж▓рж╛ржжрж╛ (ржЕрж░рзНржерж╛рзО, ржПржХржЯрж┐ ржЧрзНрж░рж╣ржг ржХрж░рж▓рзЗ ржЖрж░рзЗржХржЯрж┐ржХрзЗ ржмрж░рзНржЬржи ржХрж░рждрзЗ рж╣ржмрзЗ)ред ржЬрж░рзНржЬржЯрж╛ржЙржи ржмрж┐рж╢рзНржмржмрж┐ржжрзНржпрж╛рж▓ржпрж╝рзЗрж░ рж╕рзЗржирзНржЯрж╛рж░ ржлрж░ ржорзБрж╕рж▓рж┐ржо-ржЦрзНрж░рж┐рж╢рзНржЪрж┐ржпрж╝рж╛ржи ржЖржиржбрж╛рж░рж╕рзНржЯрзНржпрж╛ржирзНржбрж┐ржВ-ржПрж░ ржорж╛рж░ржЧржЯ ржмрж╛ржжрж░рж╛ржи ржмрж▓рзЗржи, ржЗрж╕рж▓рж╛ржо ржУ ржирж╛рж░рзАржмрж╛ржж рж╕ржорзНржкрзВрж░рзНржгржнрж╛ржмрзЗ ржЖрж▓рж╛ржжрж╛ ржмрж╛ ржмрж┐ржЪрзНржЫрж┐ржирзНржи ржиржпрж╝, ржПржмржВ ""ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржж ржХрзБрж░ржЖржирзЗрж░ рж╢рж┐ржХрзНрж╖рж╛ ржУ ржирж┐ржпрж╝ржо ржерзЗржХрзЗржЗ ржЖрж╕рзЗ""ред ржПржЯрж┐ ржирж╛рж░рзА ржПржмржВ ржкрзБрж░рзБрж╖рзЗрж░ ржЬржирзНржп ржЕржзрж┐ржХрж╛рж░ ржУ ржирзНржпрж╛ржпрж╝ ржУ рждрж╛ржжрзЗрж░ ржЕрж╕рзНрждрж┐рждрзНржмрзЗрж░ ржкрзВрж░рзНржгрждрж╛ ржжрж╛ржмрж┐ ржХрж░рзЗред ржЗрж╕рж▓рж╛ржорж┐ ржирж╛рж░рзАржмрж╛ржж ржпрзЗрж░ржХржо ржЙржЪрзНржЪржорж╛рждрзНрж░рж╛ржпрж╝ ржмрж┐рждрж░рзНржХрж┐ржд ржмрж┐рж╖ржпрж╝, рждрзЗржоржирж┐ ржжрзГржврж╝ржнрж╛ржмрзЗ ржЧрзГрж╣рзАржд ржмрж┐рж╖ржпрж╝ржУ ржмржЯрзЗред"" ржирж╛",ржЗрж╕рж▓рж╛ржорзА ржирж╛рж░рзАржмрж╛ржжрзА ржУ ржЗрж╕рж▓рж╛ржоржмрж╛ржжрзА ржХрж┐ ржПржХржЗ?,"{'answer_start': [8, 8], 'text': ['ржирж╛', 'ржирж╛']}"
9,bn_wiki_0156_05,рждрзНрж░рж┐ржнрзБржЬ,"рж╕ржорждрж▓рзАржпрж╝ ржЬрзНржпрж╛ржорж┐рждрж┐рж░ ржнрж╛рж╖рж╛ржпрж╝ рждрж┐ржиржЯрж┐ рж╕рж░рж▓рж░рзЗржЦрж╛ ржжрзНржмрж╛рж░рж╛ ржЖржмржжрзНржз ржЪрж┐рждрзНрж░ржХрзЗ рждрзНрж░рж┐ржнрзБржЬ ржмрж▓рж╛ рж╣ржпрж╝ред ржПржЯрж┐ ржПржХржЯрж┐ ржмрж╣рзБржнрзБржЬ, ржпрж╛рж░ рждрж┐ржиржЯрж┐ ржЫрзЗржжржЪрж┐рж╣рзНржи ржУ рждрж┐ржиржЯрж┐ ржкрзНрж░рж╛ржирзНржд ржерж╛ржХрзЗред ржжрзНржмрж┐-ржорж╛рждрзНрж░рж┐ржХ рждрж▓рзЗ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рждрж┐ржиржЯрж┐ ржХрзЛржгрзЗрж░ рж╕ржорж╖рзНржЯрж┐ рззрзорзж┬░ ржмрж╛ ржжрзБржЗ рж╕ржоржХрзЛржгред ржПржХ рж╕ржоржпрж╝ ржХрзЗржмрж▓ ржЗржЙржХрзНрж▓рж┐ржбрзАржпрж╝ ржЬрзНржпрж╛ржорж┐рждрж┐рждрзЗржЗ рждрзНрж░рж┐ржнрзБржЬ ржирж┐ржпрж╝рзЗ ржЖрж▓рзЛржЪржирж╛ ржХрж░рж╛ рж╣рждред ржХрж┐ржирзНрждрзБ ржирж┐ржХрзЛрж▓рж╛ржЗ рж▓рзЛржмрж╛ржЪрзЗржнрж╕рзНржХрж┐ рж╕рж╣ ржЕржирзНржпрж╛ржирзНржп ржЬрзНржпрж╛ржорж┐рждрж┐ ржмрж┐рж╢рзЗрж╖ржЬрзНржЮржжрзЗрж░ ржЕржмржжрж╛ржирзЗрж░ ржлрж▓рзЗ ржЕрж╕ржорждрж▓рзАржпрж╝ ржЬрзНржпрж╛ржорж┐рждрж┐рждрзЗржУ ржмрж░рзНрждржорж╛ржирзЗ рждрзНрж░рж┐ржнрзБржЬ ржирж┐ржпрж╝рзЗ ржЖрж▓рзЛржЪржирж╛ ржХрж░рж╛ рж╣ржпрж╝ред ржП ржзрж░ржирзЗрж░ рждрж▓рзЗ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рждрж┐ржи ржХрзЛржгрзЗрж░ рж╕ржорж╖рзНржЯрж┐ ржжрзБржЗ рж╕ржоржХрзЛржг ржиржпрж╝ред ржЕржержЪ ржЗржЙржХрзНрж▓рж┐ржбрзАржпрж╝ ржЬрзНржпрж╛ржорж┐рждрж┐рж░ ржорзВрж▓ ржнрж┐рждрзНрждрж┐ржЗ рж╣ржЪрзНржЫрзЗ ржПржЗ ржзрж╛рж░ржгрж╛ржЯрж┐ред\n\nржмрж╛рж╣рзБрж░ ржжрзИрж░рзНржШрзНржпрзЗрж░ ржнрж┐рждрзНрждрж┐рждрзЗ рждрзНрж░рж┐ржнрзБржЬ рждрж┐ржи ржкрзНрж░ржХрж╛рж░рзЗрж░ рж╣рждрзЗ ржкрж╛рж░рзЗред ржпржерж╛:тАУ\n\nрж╕ржоржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬ - ржпрж╛рж░ рждрж┐ржиржЯрж┐ ржмрж╛рж╣рзБрж░ржЗ ржжрзИрж░рзНржШрзНржп рж╕ржорж╛ржиред рж╕ржоржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ ржХрзНрж╖рзЗрждрзНрж░рзЗ ржкрзНрж░рждрж┐ржЯрж┐ ржХрзЛржгрзЗрж░ ржорж╛ржи рзмрзж┬░ рж╣ржпрж╝ред\nрж╕ржоржжрзНржмрж┐ржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬ - ржпрж╛рж░ ржпрзЗ-ржХрзЛржи ржжрзБржЗржЯрж┐ ржмрж╛рж╣рзБрж░ ржжрзИрж░рзНржШрзНржп рж╕ржорж╛ржиред рж╕ржоржжрзНржмрж┐ржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рж╢рзАрж░рзНрж╖ржХрзЛржг рзпрзж┬░ рж╣рж▓рзЗ ржЕржкрж░ рж╕ржорж╛ржи ржжрзБржЗржЯрж┐ ржмрж┐ржкрж░рзАржд ржХрзЛржг рзкрзл┬░ ржХрж░рзЗ рж╣ржмрзЗред рж╕ржоржжрзНржмрж┐ржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рж╕ржорж╛ржи ржмрж╛рж╣рзБржжрзНржмржпрж╝рзЗрж░ ржмрж┐ржкрж░рзАржд ржХрзЛржг ржжрзБржЯрж┐ рж╕ржорж╛ржи рж╣ржпрж╝ред\nржмрж┐рж╖ржоржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬ - ржпрж╛рж░ рждрж┐ржиржЯрж┐ ржмрж╛рж╣рзБрж░ ржжрзИрж░рзНржШрзНржп рждрж┐ржи рж░ржХржоред ржмрж┐рж╖ржоржмрж╛рж╣рзБ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рждрж┐ржиржЯрж┐ ржХрзЛржг-ржЗ ржкрж░рж╕рзНржкрж░рзЗрж░ рж╕ржЩрзНржЧрзЗ ржЕрж╕ржорж╛ржи рж╣ржпрж╝ред",ржжрзНржмрж┐-ржорж╛рждрзНрж░рж┐ржХ рждрж▓рзЗ рждрзНрж░рж┐ржнрзБржЬрзЗрж░ рждрж┐ржиржЯрж┐ ржХрзЛржгрзЗрж░ рж╕ржорж╖рзНржЯрж┐ ржХржд рж░рзЗржбрж┐рзЯрж╛ржи?,"{'answer_start': [], 'text': []}"


## Preprocessing the training data

Before we can feed those texts to our model, we need to preprocess them. This is done by a ЁЯдЧ Transformers `Tokenizer` which will (as the name indicates) tokenize the inputs (including converting the tokens to their corresponding IDs in the pretrained vocabulary) and put it in a format the model expects, as well as generate the other inputs that model requires.

To do all of this, we instantiate our tokenizer with the `AutoTokenizer.from_pretrained` method, which will ensure:

- we get a tokenizer that corresponds to the model architecture we want to use,
- we download the vocabulary used when pretraining this specific checkpoint.

That vocabulary will be cached, so it's not downloaded again the next time we run the cell.

In [13]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)



config.json:   0%|          | 0.00/507 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/5.65M [00:00<?, ?B/s]

The following assertion ensures that our tokenizer is a fast tokenizers (backed by Rust) from the ЁЯдЧ Tokenizers library. Those fast tokenizers are available for almost all models, and we will need some of the special features they have for our preprocessing.

In [14]:
import transformers
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

You can check which type of models have a fast tokenizer available and which don't on the [big table of models](https://huggingface.co/transformers/index.html#bigtable).

You can directly call this tokenizer on two sentences (one for the answer, one for the context):

In [15]:
tokenizer("What is your name?", "My name is Sylvain.")

{'input_ids': [2, 1270, 54, 1431, 5109, 293, 3, 1283, 5109, 54, 98, 48166, 15871, 1197, 9, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Depending on the model you selected, you will see different keys in the dictionary returned by the cell above. They don't matter much for what we're doing here (just know they are required by the model we will instantiate later), you can learn more about them in [this tutorial](https://huggingface.co/transformers/preprocessing.html) if you're interested.

Now one specific thing for the preprocessing in question answering is how to deal with very long documents. We usually truncate them in other tasks, when they are longer than the model maximum sentence length, but here, removing part of the the context might result in losing the answer we are looking for. To deal with this, we will allow one (long) example in our dataset to give several input features, each of length shorter than the maximum length of the model (or the one we set as a hyper-parameter). Also, just in case the answer lies at the point we split a long context, we allow some overlap between the features we generate controlled by the hyper-parameter `doc_stride`:

In [16]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

Let's find one long example in our dataset:

In [17]:
for i, example in enumerate(datasets["train"]):
    if len(tokenizer(example["question"], example["context"])["input_ids"]) > 384:
        break
example = datasets["train"][i]

Without any truncation, we get the following length for the input IDs:

In [18]:
len(tokenizer(example["question"], example["context"])["input_ids"])

646

Now, if we just truncate, we will lose information (and possibly the answer to our question):

In [19]:
len(tokenizer(example["question"], example["context"], max_length=max_length, truncation="only_second")["input_ids"])

384

Note that we never want to truncate the question, only the context, else the `only_second` truncation picked. Now, our tokenizer can automatically return us a list of features capped by a certain maximum length, with the overlap we talked above, we just have to tell it with `return_overflowing_tokens=True` and by passing the stride:

In [20]:
tokenized_example = tokenizer(
    example["question"],
    example["context"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    stride=doc_stride
)

Now we don't have one list of `input_ids`, but several:

In [21]:
[len(x) for x in tokenized_example["input_ids"]]

[384, 384, 224]

And if we decode them, we can see the overlap:

In [22]:
for x in tokenized_example["input_ids"][:2]:
    print(tokenizer.decode(x))

2024-06-25 14:49:53.634044: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-06-25 14:49:53.634158: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-06-25 14:49:53.757419: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


[CLS] ржХржд рж╕рж▓ ржвржХ ржЖрж▓ржп ржоржжрж░рж╕ ржвржХржп рж╕ржержиржирждрж░рж░ ржкрж░ржм ржмрж▓ржжрж╢ ржУ ржнрж░рждрж░ ржлржЬрж▓ ржкрж░ржХрж╖ ржХрж▓ржХржд ржЖрж▓ржп ржоржжрж░рж╕рж░ ржЕржзржи ржЕржирж╖ржаржд рж╣ржд?[SEP] ржлржЬрж▓ ржкрж░ржХрж╖ ржмрж▓ржжрж╢ ржУ ржнрж░рждрж░ ржЖрж▓ржп ржоржжрж░рж╕ржп ржЕржирж╖ржаржд ржПржХржЯ рж╕рж░ржХрж░ ржкрж░ржХрж╖ред ржлржЬрж▓ ржкрж░ржХрж╖ ржмрж▓ржжрж╢ ржбржЧрж░ рж╕ржоржоржирж░, ржХржЦржи рж╕ржирждржХ рж╕ржоржоржирж░ ржПржХржЯ ржкрж░ржХрж╖, ржп ржПржХржЯ ржлржЬрж▓ ржоржжрж░рж╕ржп ржЕржирж╖ржаржд рж╣ржп ржержХред рждржм ржнрж░ржд ржлржЬрж▓ ржкрж░ржХрж╖ржХ ржЙржЪржЪ ржоржзржпржоржХ рж╢рж░ржгрж░ (рззрзз ржм рззрзи ржХрж▓рж╕) ржоржи ржмрж▓ ржмржмржЪржд ржХрж░ рж╣ржпред ржлржЬрж▓ ржкрж░ржХрж╖ ржмрж▓ржжрж╢ ржнрж░ржд ржУ ржкржХрж╕рждржирж░ рж╕рж░ржХрж░ рж╕ржмржХржд ржЖрж▓ржп ржоржжрж░рж╕ржп ржкрж░ржЪрж▓ржд рж░ржпржЫред ржмрж▓ржжрж╢рж░ ржлржЬрж▓ ржкрж░ржХрж╖ ржЗрж╕рж▓ржо ржЖрж░ржм ржмрж╢ржмржмржжржпрж▓ржпрж░ ржЕржзржи ржЕржирж╖ржаржд рж╣ржп ржержХ ржУ ржнр

Now this will give us some work to properly treat the answers: we need to find in which of those features the answer actually is, and where exactly in that feature. The models we will use require the start and end positions of these answers in the tokens, so we will also need to to map parts of the original context to some tokens. Thankfully, the tokenizer we're using can help us with that by returning an `offset_mapping`:

In [23]:
tokenized_example = tokenizer(
    example["question"],
    example["context"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    return_offsets_mapping=True,
    stride=doc_stride
)
print(tokenized_example["offset_mapping"][0][:100])

[(0, 0), (0, 2), (2, 6), (7, 9), (10, 11), (12, 15), (16, 17), (19, 23), (24, 27), (28, 30), (31, 32), (33, 34), (35, 37), (38, 41), (42, 45), (45, 46), (47, 48), (48, 52), (53, 54), (55, 60), (61, 64), (64, 66), (66, 71), (72, 73), (73, 79), (79, 82), (83, 84), (85, 86), (87, 90), (90, 93), (94, 97), (98, 99), (101, 105), (106, 107), (108, 111), (111, 113), (113, 116), (117, 120), (121, 122), (123, 124), (125, 126), (126, 129), (130, 132), (0, 0), (0, 5), (5, 8), (9, 10), (11, 12), (13, 18), (19, 22), (22, 24), (24, 29), (30, 31), (31, 34), (35, 36), (38, 42), (43, 46), (47, 48), (49, 52), (53, 54), (55, 56), (57, 58), (58, 61), (61, 62), (63, 66), (66, 69), (70, 73), (74, 75), (76, 77), (78, 79), (79, 85), (85, 88), (89, 90), (91, 92), (93, 98), (99, 102), (103, 105), (106, 109), (110, 113), (113, 116), (117, 118), (118, 119), (119, 123), (124, 128), (129, 131), (131, 134), (134, 137), (138, 139), (139, 142), (142, 143), (144, 147), (148, 149), (150, 151), (152, 153), (153, 155), (15

This gives, for each index of our input IDS, the corresponding start and end character in the original text that gave our token. The very first token (`[CLS]`) has (0, 0) because it doesn't correspond to any part of the question/answer, then the second token is the same as the characters 0 to 3 of the question:

In [24]:
first_token_id = tokenized_example["input_ids"][0][1]
offsets = tokenized_example["offset_mapping"][0][1]
print(tokenizer.convert_ids_to_tokens([first_token_id])[0], example["question"][offsets[0]:offsets[1]])

тЦБржХржд ржХржд


So we can use this mapping to find the position of the start and end tokens of our answer in a given feature. We just have to distinguish which parts of the offsets correspond to the question and which part correspond to the context, this is where the `sequence_ids` method of our `tokenized_example` can be useful:

In [25]:
sequence_ids = tokenized_example.sequence_ids()
print(sequence_ids)

[None, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, None, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

It returns `None` for the special tokens, then 0 or 1 depending on whether the corresponding token comes from the first sentence past (the question) or the second (the context). Now with all of this, we can find the first and last token of the answer in one of our input feature (or if the answer is not in this feature):

In [26]:
answers = example["answers"]
start_char = answers["answer_start"][0]
end_char = start_char + len(answers["text"][0])

# Start token index of the current span in the text.
token_start_index = 0
while sequence_ids[token_start_index] != 1:
    token_start_index += 1

# End token index of the current span in the text.
token_end_index = len(tokenized_example["input_ids"][0]) - 1
while sequence_ids[token_end_index] != 1:
    token_end_index -= 1

# Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
offsets = tokenized_example["offset_mapping"][0]
if (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
    # Move the token_start_index and token_end_index to the two ends of the answer.
    # Note: we could go after the last offset if the answer is the last word (edge case).
    while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
        token_start_index += 1
    start_position = token_start_index - 1
    while offsets[token_end_index][1] >= end_char:
        token_end_index -= 1
    end_position = token_end_index + 1
    print(start_position, end_position)
else:
    print("The answer is not in this feature.")

225 226


And we can double check that it is indeed the theoretical answer:

In [27]:
print(tokenizer.decode(tokenized_example["input_ids"][0][start_position: end_position+1]))
print(answers["text"][0])

рззрзпрзкрзн
рззрзпрзкрзн


For this notebook to work with any kind of models, we need to account for the special case where the model expects padding on the left (in which case we switch the order of the question and the context):

In [28]:
pad_on_right = tokenizer.padding_side == "right"

Now let's put everything together in one function we will apply to our training set. In the case of impossible answers (the answer is in another feature given by an example with a long context), we set the cls index for both the start and end position. We could also simply discard those examples from the training set if the flag `allow_impossible_answers` is `False`. Since the preprocessing is already complex enough as it is, we've kept is simple for this part.

In [29]:
def prepare_train_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)

    return tokenized_examples

This function works with one or several examples. In the case of several examples, the tokenizer will return a list of lists for each key:

In [30]:
features = prepare_train_features(datasets['train'][:5])

To apply this function on all the sentences (or pairs of sentences) in our dataset, we just use the `map` method of our `dataset` object we created earlier. This will apply the function on all the elements of all the splits in `dataset`, so our training, validation and testing data will be preprocessed in one single command. Since our preprocessing changes the number of samples, we need to remove the old columns when applying it.

In [31]:
tokenized_datasets = datasets.map(prepare_train_features, batched=True, remove_columns=datasets["train"].column_names)

Map:   0%|          | 0/9565 [00:00<?, ? examples/s]

Map:   0%|          | 0/1182 [00:00<?, ? examples/s]

Map:   0%|          | 0/1172 [00:00<?, ? examples/s]

Even better, the results are automatically cached by the ЁЯдЧ Datasets library to avoid spending time on this step the next time you run your notebook. The ЁЯдЧ Datasets library is normally smart enough to detect when the function you pass to map has changed (and thus requires to not use the cache data). For instance, it will properly detect if you change the task in the first cell and rerun the notebook. ЁЯдЧ Datasets warns you when it uses cached files, you can pass `load_from_cache_file=False` in the call to `map` to not use the cached files and force the preprocessing to be applied again.

Note that we passed `batched=True` to encode the texts by batches together. This is to leverage the full benefit of the fast tokenizer we loaded earlier, which will use multi-threading to treat the texts in a batch concurrently.

## Fine-tuning the model

Now that our data is ready for training, we can download the pretrained model and fine-tune it. Since our task is question answering, we use the `AutoModelForQuestionAnswering` class. Like with the tokenizer, the `from_pretrained` method will download and cache the model for us:

In [32]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer

model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

pytorch_model.bin:   0%|          | 0.00/135M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()
Some weights of AlbertForQuestionAnswering were not initialized from the model checkpoint at ai4bharat/indic-bert and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


The warning is telling us we are throwing away some weights (the `vocab_transform` and `vocab_layer_norm` layers) and randomly initializing some other (the `pre_classifier` and `classifier` layers). This is absolutely normal in this case, because we are removing the head used to pretrain the model on a masked language modeling objective and replacing it with a new head for which we don't have pretrained weights, so the library warns us we should fine-tune this model before using it for inference, which is exactly what we are going to do.


To instantiate a `Trainer`, we will need to define three more things. The most important is the [`TrainingArguments`](https://huggingface.co/transformers/main_classes/trainer.html#transformers.TrainingArguments), which is a class that contains all the attributes to customize the training. It requires one folder name, which will be used to save the checkpoints of the model, and all other arguments are optional:

In [33]:
model_name = model_checkpoint.split("/")[-1]
args = TrainingArguments(
#     f"{model_name}-finetuned-squad1.2",
    f"{model_name}-finetuned-brqa-confirmation",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="no",
    push_to_hub=True,
)



Here we set the evaluation to be done at the end of each epoch, tweak the learning rate, use the `batch_size` defined at the top of the notebook and customize the number of epochs for training, as well as the weight decay.

The last argument to setup everything so we can push the model to the [Hub](https://huggingface.co/models) regularly during training. Remove it if you didn't follow the installation steps at the top of the notebook. If you want to save your model locally in a name that is different than the name of the repository it will be pushed, or if you want to push your model under an organization and not your name space, use the `hub_model_id` argument to set the repo name (it needs to be the full name, including your namespace: for instance `"sgugger/bert-finetuned-squad"` or `"huggingface/bert-finetuned-squad"`).

Then we will need a data collator that will batch our processed examples together, here the default one will work:

In [34]:
from transformers import default_data_collator

data_collator = default_data_collator

We will evaluate our model and compute metrics in the next section (this is a very long operation, so we will only compute the evaluation loss during training).

Then we just need to pass all of this along with our datasets to the `Trainer`:

In [35]:
# small_train_dataset = tokenized_datasets["train"].select(range(80000))  # Selecting the first 1000 examples

# Now, you can pass this smaller dataset to the Trainer
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

We can now finetune our model by just calling the `train` method:

In [36]:
trainer.train()

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

  ┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


Epoch,Training Loss,Validation Loss
1,2.523,2.209132
2,2.1434,2.121108
3,1.9386,2.049009


TrainOutput(global_step=4110, training_loss=2.266298543739783, metrics={'train_runtime': 2633.172, 'train_samples_per_second': 24.963, 'train_steps_per_second': 1.561, 'total_flos': 1088725973654016.0, 'train_loss': 2.266298543739783, 'epoch': 3.0})

Since this training is particularly long, let's save the model just in case we need to restart.

In [37]:
trainer.save_model("Indic-BERT-BRQA-confirmation")
# trainer.save_model("test-BanglaRQA-squad-trained-indic")

training_args.bin:   0%|          | 0.00/5.18k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/5.65M [00:00<?, ?B/s]

events.out.tfevents.1719327088.ee36535ff00e.34.0:   0%|          | 0.00/7.85k [00:00<?, ?B/s]

Upload 5 LFS files:   0%|          | 0/5 [00:00<?, ?it/s]

model.safetensors:   0%|          | 0.00/131M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/15.3M [00:00<?, ?B/s]

## Evaluation

Evaluating our model will require a bit more work, as we will need to map the predictions of our model back to parts of the context. The model itself predicts logits for the start and en position of our answers: if we take a batch from our validation datalaoder, here is the output our model gives us:

In [38]:
import torch

for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

odict_keys(['loss', 'start_logits', 'end_logits'])

The output of the model is a dict-like object that contains the loss (since we provided labels), the start and end logits. We won't need the loss for our predictions, let's have a look a the logits:

In [39]:
output.start_logits.shape, output.end_logits.shape

(torch.Size([16, 384]), torch.Size([16, 384]))

We have one logit for each feature and each token. The most obvious thing to predict an answer for each featyre is to take the index for the maximum of the start logits as a start position and the index of the maximum of the end logits as an end position.

In [40]:
output.start_logits.argmax(dim=-1), output.end_logits.argmax(dim=-1)

(tensor([121,  14, 229,  28, 164, 133,  29,  29, 123,  16,   6,   6,  31,  20,
          24,  17], device='cuda:0'),
 tensor([124,  14, 327,  28,   0, 178,  29,   0, 201,  16,   6,   6,  37,  20,
          25,  17], device='cuda:0'))

This will work great in a lot of cases, but what if this prediction gives us something impossible: the start position could be greater than the end position, or point to a span of text in the question instead of the answer. In that case, we might want to look at the second best prediction to see if it gives a possible answer and select that instead.

However, picking the second best answer is not as easy as picking the best one: is it the second best index in the start logits with the best index in the end logits? Or the best index in the start logits with the second best index in the end logits? And if that second best answer is not possible either, it gets even trickier for the third best answer.


To classify our answers, we will use the score obtained by adding the start and end logits. We won't try to order all the possible answers and limit ourselves to with a hyper-parameter we call `n_best_size`. We'll pick the best indices in the start and end logits and gather all the answers this predicts. After checking if each one is valid, we will sort them by their score and keep the best one. Here is how we would do this on the first feature in the batch:

In [41]:
n_best_size = 10

In [42]:
import numpy as np

start_logits = output.start_logits[0].cpu().numpy()
end_logits = output.end_logits[0].cpu().numpy()
# Gather the indices the best start/end logits:
start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
valid_answers = []
for start_index in start_indexes:
    for end_index in end_indexes:
        if start_index <= end_index: # We need to refine that test to check the answer is inside the context
            valid_answers.append(
                {
                    "score": start_logits[start_index] + end_logits[end_index],
                    "text": "" # We need to find a way to get back the original substring corresponding to the answer in the context
                }
            )

And then we can sort the `valid_answers` according to their `score` and only keep the best one. The only point left is how to check a given span is inside the context (and not the question) and how to get back the text inside. To do this, we need to add two things to our validation features:
- the ID of the example that generated the feature (since each example can generate several features, as seen before);
- the offset mapping that will give us a map from token indices to character positions in the context.

That's why we will re-process the validation set with the following function, slightly different from `prepare_train_features`:

In [43]:
def prepare_validation_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples

And like before, we can apply that function to our validation set easily:

In [44]:
validation_features = datasets["validation"].map(
    prepare_validation_features,
    batched=True,
    remove_columns=datasets["validation"].column_names
)

Map:   0%|          | 0/1182 [00:00<?, ? examples/s]

Now we can grab the predictions for all features by using the `Trainer.predict` method:

In [45]:
raw_predictions = trainer.predict(validation_features)

The `Trainer` *hides* the columns that are not used by the model (here `example_id` and `offset_mapping` which we will need for our post-processing), so we set them back:

In [46]:
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

We can now refine the test we had before: since we set `None` in the offset mappings when it corresponds to a part of the question, it's easy to check if an answer is fully inside the context. We also eliminate very long answers from our considerations (with an hyper-parameter we can tune)

In [47]:
max_answer_length = 15

In [48]:
start_logits = output.start_logits[0].cpu().numpy()
end_logits = output.end_logits[0].cpu().numpy()
offset_mapping = validation_features[0]["offset_mapping"]
# The first feature comes from the first example. For the more general case, we will need to be match the example_id to
# an example index
context = datasets["validation"][0]["context"]

# Gather the indices the best start/end logits:
start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
valid_answers = []
for start_index in start_indexes:
    for end_index in end_indexes:
        # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
        # to part of the input_ids that are not in the context.
        if (
            start_index >= len(offset_mapping)
            or end_index >= len(offset_mapping)
            or offset_mapping[start_index] is None
            or offset_mapping[end_index] is None
        ):
            continue
        # Don't consider answers with a length that is either < 0 or > max_answer_length.
        if end_index < start_index or end_index - start_index + 1 > max_answer_length:
            continue
        if start_index <= end_index: # We need to refine that test to check the answer is inside the context
            start_char = offset_mapping[start_index][0]
            end_char = offset_mapping[end_index][1]
            valid_answers.append(
                {
                    "score": start_logits[start_index] + end_logits[end_index],
                    "text": context[start_char: end_char]
                }
            )

valid_answers = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[:n_best_size]
valid_answers

[{'score': 9.197594, 'text': ' рж▓рзНржпрзБржнрж░ ржЬ'},
 {'score': 9.091285, 'text': ' рж▓рзНржпрзБржнрж░'},
 {'score': 7.09671, 'text': ' рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░'},
 {'score': 5.742849, 'text': ' рж▓'},
 {'score': 5.6756196, 'text': ' ржЬ'},
 {'score': 5.438562, 'text': 'ржнрж░ ржЬ'},
 {'score': 5.3322525, 'text': 'ржнрж░'},
 {'score': 3.5747356, 'text': ' ржЬрж╛ржжрзБржШрж░'},
 {'score': 3.337678, 'text': 'ржнрж░ ржЬрж╛ржжрзБржШрж░'}]

We can compare to the actual ground-truth answer:

In [49]:
datasets["validation"][0]["answers"]

{'answer_start': [292, 292], 'text': ['рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ', 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ']}

Our model picked the right as the most likely answer!

As we mentioned in the code above, this was easy on the first feature because we knew it comes from the first example. For the other features, we will need a map between examples and their corresponding features. Also, since one example can give several features, we will need to gather together all the answers in all the features generated by a given example, then pick the best one. The following code builds a map from example index to its corresponding features indices:

In [50]:
import collections

examples = datasets["validation"]
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

We're almost ready for our post-processing function. The last bit to deal with is the impossible answer (when `squad_v2 = True`). The code above only keeps answers that are inside the context, we need to also grab the score for the impossible answer (which has start and end indices corresponding to the index of the CLS token). When one example gives several features, we have to predict the impossible answer when all the features give a high score to the impossible answer (since one feature could predict the impossible answer just because the answer isn't in the part of the context it has access too), which is why the score of the impossible answer for one example is the *minimum* of the scores for the impossible answer in each feature generated by the example.

We then predict the impossible answer when that score is greater than the score of the best non-impossible answer. All combined together, this gives us this post-processing function:

In [51]:
from tqdm.auto import tqdm

def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None # Only used if squad_v2 is True.
        valid_answers = []

        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )

        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}

        # Let's pick our final answer: the best one or the null answer (only for squad_v2)
        if not squad_v2:
            predictions[example["id"]] = best_answer["text"]
        else:
            answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
            predictions[example["id"]] = answer

    return predictions

And we can apply our post-processing function to our raw predictions:

In [52]:
final_predictions = postprocess_qa_predictions(datasets["validation"], validation_features, raw_predictions.predictions)

Post-processing 1182 example predictions split into 2724 features.


  0%|          | 0/1182 [00:00<?, ?it/s]

Then we can load the metric from the datasets library.

In [53]:

!pip install evaluate -q

  pid, fd = os.forkpty()
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [54]:
import evaluate

metric = evaluate.load("squad_v2")

Downloading builder script:   0%|          | 0.00/6.47k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/11.3k [00:00<?, ?B/s]

In [55]:
theoretical_answers = [
    {"id": ex["id"], "answers": ex["answers"]} for ex in datasets["validation"]
]

In [56]:
 formatted_predictions = [{"id": k, "prediction_text": v} for k, v in final_predictions.items()]
formatted_predictions = [{"id": k, "prediction_text": v, "no_answer_probability": 0.0} for k, v in final_predictions.items()]
     

In [57]:
for pred, true in zip(formatted_predictions, theoretical_answers):
    print("ID:", pred["id"])
    print("Predicted Answer:", pred["prediction_text"])
    print("True Answer:", true["answers"])
    print()

ID: bn_wiki_2812_01
Predicted Answer:  рж▓рзНржпрзБржнрж░ ржЬ
True Answer: {'answer_start': [292, 292], 'text': ['рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ', 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ']}

ID: bn_wiki_2812_02
Predicted Answer:  ржХрж┐рж╕ ржПрж░ рж░рж╛ржЬрж╛, ржЖржирзБрж░ рж╕
True Answer: {'answer_start': [368, 368], 'text': ['ржЦрзБржм рж╕ржорзНржнржмржд ржорзЗрж╕рзЛржкржЯрзЗржорж┐ржпрж╝рж╛ рждрзНржерзЗржХрзЗ', 'ржЦрзБржм рж╕ржорзНржнржмржд ржорзЗрж╕рзЛржкржЯрзЗржорж┐ржпрж╝рж╛ рждрзНржерзЗржХрзЗ']}

ID: bn_wiki_2812_03
Predicted Answer:  ржорзЗрж╕рзЛржкржЯрзЗржорж┐ржпрж╝рж╛ рждрзНржерзЗржХрзЗ ржжрзНржмрж╛ржжрж╢ рж╢ржд
True Answer: {'answer_start': [399, 399], 'text': ['ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ', 'ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ']}

ID: bn_wiki_2812_04
Predicted Answer:  ржХрж┐рж╕ ржПрж░ рж░рж╛ржЬрж╛, ржЖржирзБрж░ рж╕рзНржерж▓рж╛ржнрж┐рж╖рж┐ржХрзНржд, рж░рж╛ржЬрзНржпрзЗрж░[ржорзЗрж╕рзЛржкржЯрзЗржорж┐ржпрж╝рж╛]
True Answer: {'answer_star

In [58]:
theoretical_answers[2]
     

{'id': 'bn_wiki_2812_03',
 'answers': {'answer_start': [399, 399],
  'text': ['ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ', 'ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ']}}

Then we can call compute on it. We just need to format predictions and labels a bit as it expects a list of dictionaries and not one big dictionary. In the case of squad_v2, we also have to set a `no_answer_probability` argument (which we set to 0.0 here as we have already set the answer to empty if we picked it).

In [59]:
metric.compute(predictions=formatted_predictions, references=theoretical_answers)

{'exact': 11.928934010152284,
 'f1': 29.02272435704769,
 'total': 1182,
 'HasAns_exact': 15.898617511520737,
 'HasAns_f1': 39.17610620971241,
 'HasAns_total': 868,
 'NoAns_exact': 0.9554140127388535,
 'NoAns_f1': 0.9554140127388535,
 'NoAns_total': 314,
 'best_exact': 26.56514382402707,
 'best_exact_thresh': 0.0,
 'best_f1': 31.204838789585192,
 'best_f1_thresh': 0.0}

In [60]:
context = 'ржкрзГржерж┐ржмрзА ржмрж╛ржБржЪрж╛рж░ рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирж╛ ржЧрзЗржЫрзЗ ржпрзЗ ржЬрж▓ржмрж╛ржпрж╝рзБ ржкрж░рж┐ржмрж░рзНрждржирзЗрж░ ржХрж╛рж░ржгрзЗ ржПржХржЯрж┐ ржкрзНрж░ржзрж╛ржи рж╕ржВржХрзЗржд ржмрзГржжрзНржзрж┐ ржкрж╛ржмрзЗ ржмрж┐ржкрзНрж▓ржмрзА ржкрж░рж┐ржмрзЗрж╢ред ржЬрж▓ржмрж╛ржпрж╝рзБ ржкрж░рж┐ржмрж░рзНрждржирзЗрж░ ржорзЛржЯ ржкрзНрж░ржнрж╛ржм ржУ ржкрзНрж░рждрж┐ржХрзНрж░рж┐ржпрж╝рж╛ ржПржЦржирзЛ рж╕ржорзНржкрзВрж░рзНржг ржЬрж╛ржирж╛ ржирзЗржЗред рждржмрзЗ, ржПржЯрж┐рж░ рж╕рж╛ржерзЗ рж╕ржорзНржкрж░рзНржХрж┐ржд ржЕржирзЗржХ ржХрж╛рж░ржг ржУ ржХрж╛рж░ржг рж╕ржорзВрж╣ ржЕржмрж╢рзНржпржЗ ржмрж┐ржмрзЗржЪржирж╛ ржХрж░рж╛ ржЙржЪрж┐рждред ржПржЯрж┐ ржорж╛ржирзБрж╖рзЗрж░ ржЬрзАржмржирзЗрж░ ржЕржирзЗржХ ржжрж┐ржХ ржкрзНрж░ржнрж╛ржмрж┐ржд ржХрж░рждрзЗ ржкрж╛рж░рзЗ, ржпрзЗржоржи ржЖржкрзЗржХрзНрж╖рж┐ржХ рждрж╛ржкржорж╛рждрзНрж░рж╛, рж╕ржорзБржжрзНрж░ рж╕рзНрждрж░, ржУ ржЬрж▓ржкрж╛ржЗ ржШрж╛рждржХ ржкрзНрж░рж╛ржХрзГрждрж┐ржХ ржШржЯржирж╛ рж╕рж╣ред'
question='ржХрзЛржи ржЙржкрж╛ржпрж╝рзЗ ржорж╛ржирзБрж╖рзЗрж░ ржХрж╛рж░рзНржмржи ржирж┐рж░рзНржЧржд ржЕржВрж╢ ржХржорж┐ржпрж╝рзЗ рждрзБрж▓рждрзЗ ржкрж╛рж░рзЗ ржПржмржВ ржкрж░рж┐ржмрзЗрж╢рзЗрж░ ржЬрж▓ржмрж╛ржпрж╝рзБ ржкрж░рж┐ржмрж░рзНрждржирзЗрж░ ржкрзНрж░рждрж┐рж░рзЛржз ржХрж░рждрзЗ рж╕рж╛рж╣рж╛ржпрзНржп ржХрж░рждрзЗ ржкрж╛рж░рзЗ?'

In [61]:
import torch

# Tokenize inputs
tokenized_input = tokenizer.encode_plus(context, question, return_tensors="pt")

# Print tokenized input
print("Tokenized Input:", tokenized_input)

# Model Inference
with torch.no_grad():
    # Move input tensors to the same device as the model
    tokenized_input = {key: value.to(model.device) for key, value in tokenized_input.items()}
    # Forward pass
    outputs = model(**tokenized_input)
    start_logits, end_logits = outputs.start_logits, outputs.end_logits

# Decode Answers
start_index = torch.argmax(start_logits)
end_index = torch.argmax(end_logits)
answer_span = tokenized_input['input_ids'][0][start_index : end_index + 1]

# Post-processing
answer = tokenizer.decode(answer_span)

print("Predicted Answer:", answer)
print("Start Logits:", start_logits)
print("End Logits:", end_logits)


Tokenized Input: {'input_ids': tensor([[     2,   4462,    918,  84043,     78,  14965,  26703,    442,   1080,
          65600,  18397,   4074,    918,  13195,    497, 181768,    382,     78,
          90660,    238,   3681,    497,  60703,   1847,  43973,  36299,  14314,
           3821,    918,   4083,  60119,    918,    497,    918,   2213,     15,
           4074,    918,  13195,    497, 181768,    382,     78,  63647,    497,
         150619,     88,    497,    308,   8671,  13195,    930,  14965,   3189,
          20561,   1080,  45498,     15,  95594,     12,    160,  68954,   1847,
           9483,  14965,  26703,  43973,  13245,    442,  90660,     88,  90660,
          14965,   5756,   4162,   2213,  13195,    152, 147193,  51672,   6441,
          99094,    308,     15,    160,   3681,   3981,  12066,     78,  62274,
            382,     78,  13245,    442,  12801,    442,    497, 150619,    308,
          23974,    497,     12,  89752,    382,  14207,    442, 170221,  9042

In [62]:
print(answer)

[SEP] ржХржи ржЙржкржп ржоржирж╖рж░ ржХрж░ржмржи ржирж░ржЧржд ржЕрж╢ ржХржоржп рждрж▓ржд ржкрж░ ржПржм ржкрж░ржмрж╢рж░ ржЬрж▓ржмржп ржкрж░ржмрж░рждржирж░ ржкрж░рждрж░ржз ржХрж░ржд рж╕рж╣ржпржп ржХрж░ржд ржкрж░?[SEP]


You can now upload the result of the training to the Hub, just execute this instruction:

In [63]:
trainer.push_to_hub()

tokenizer.json:   0%|          | 0.00/15.3M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/shakun42/indic-bert-finetuned-brqa-confirmation/commit/87bad1f97567c2f0894ec379230c1e7b63dc26f1', commit_message='End of training', commit_description='', oid='87bad1f97567c2f0894ec379230c1e7b63dc26f1', pr_url=None, pr_revision=None, pr_num=None)

You can now share this model with all your friends, family, favorite pets: they can all load it with the identifier `"your-username/the-name-you-picked"` so for instance:

```python
from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained("sgugger/my-awesome-model")
```

In [64]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "shakun42/indic-bert-finetuned-brqa-confirmation"
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)


config.json:   0%|          | 0.00/838 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/131M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.27k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/5.65M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/15.3M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/286 [00:00<?, ?B/s]

In [65]:
qa_input = {
    'question': 'рж▓рж╛рж▓ржи ржлржХрж┐рж░ ржХрзЛржи рж╕ржЩрзНржЧрзАрждржзрж╛рж░рж╛рж░ ржкрзНрж░ржзрж╛ржи ржмрзНржпржХрзНрждрж┐рждрзНржм?',
    'context': 'ржмрж╛ржВрж▓рж╛ржпрж╝ ржмрж╛ржЙрж▓ рж╕ржВржЧрзАржд ржПржХржЯрж┐ ржЬржиржкрзНрж░рж┐ржпрж╝ рж╕ржЩрзНржЧрзАрждржзрж╛рж░рж╛ред рж▓рж╛рж▓ржи ржлржХрж┐рж░ ржмрж╛ржЙрж▓ ржЧрж╛ржирзЗрж░ ржПржХржЬржи ржкрзНрж░ржзрж╛ржи ржмрзНржпржХрзНрждрж┐рждрзНржмред рждрж╛рж░ ржЧрж╛ржиржЧрзБрж▓рж┐рж░ ржоржзрзНржпрзЗ ржжрж╛рж░рзНрж╢ржирж┐ржХ ржУ ржЖржзрзНржпрж╛рждрзНржорж┐ржХ ржмрж┐рж╖ржпрж╝ржмрж╕рзНрждрзБ ржЖржЫрзЗред'
}
result = nlp(qa_input)
print(result)

{'score': 0.10512685030698776, 'start': 0, 'end': 12, 'answer': 'ржмрж╛ржВрж▓рж╛ржпрж╝ ржмрж╛ржЙрж▓'}
