If you're opening this Notebook on colab, you will probably need to install ЁЯдЧ Transformers and ЁЯдЧ Datasets. Uncomment the following cell and run it.

In [1]:
! pip install datasets transformers



If you're opening this notebook locally, make sure your environment has an install from the last version of those libraries.

To be able to share your model with the community and generate results like the one shown in the picture below via the inference API, there are a few more steps to follow.

First you have to store your authentication token from the Hugging Face website (sign up [here](https://huggingface.co/join) if you haven't already!) then execute the following cell and input your username and password:

In [2]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.svтАж

Then you need to install Git-LFS. Uncomment the following instructions:

In [None]:
# !apt install git-lfs

Make sure your version of Transformers is at least 4.11.0 since the functionality was introduced in that version:

In [3]:
import transformers

print(transformers.__version__)

4.41.2


You can find a script version of this notebook to fine-tune your model in a distributed fashion using multiple GPUs or TPUs [here](https://github.com/huggingface/transformers/tree/master/examples/question-answering).

We also quickly upload some telemetry - this tells us which examples and software versions are getting used so we know where to prioritize our maintenance efforts. We don't collect (or care about) any personally identifiable information, but if you'd prefer not to be counted, feel free to skip this step or delete this cell entirely.

In [4]:
from transformers.utils import send_example_telemetry

send_example_telemetry("question_answering_notebook", framework="pytorch")

# Fine-tuning a model on a question-answering task

In this notebook, we will see how to fine-tune one of the [ЁЯдЧ Transformers](https://github.com/huggingface/transformers) model to a question answering task, which is the task of extracting the answer to a question from a given context. We will see how to easily load a dataset for these kinds of tasks and use the `Trainer` API to fine-tune a model on it.

![Widget inference representing the QA task](https://github.com/huggingface/notebooks/blob/master/examples/images/question_answering.png?raw=1)

**Note:** This notebook finetunes models that answer question by taking a substring of a context, not by generating new text.

This notebook is built to run on any question answering task with the same format as SQUAD (version 1 or 2), with any model checkpoint from the [Model Hub](https://huggingface.co/models) as long as that model has a version with a token classification head and a fast tokenizer (check on [this table](https://huggingface.co/transformers/index.html#bigtable) if this is the case). It might just need some small adjustments if you decide to use a different dataset than the one used here. Depending on you model and the GPU you are using, you might need to adjust the batch size to avoid out-of-memory errors. Set those three parameters, then the rest of the notebook should run smoothly:

In [5]:
# This flag is the difference between SQUAD v1 or 2 (if you're using another dataset, it indicates if impossible
# answers are allowed or not).
squad_v2 = False
model_checkpoint = "FacebookAI/xlm-roberta-base"
batch_size = 16

## Loading the dataset

We will use the [ЁЯдЧ Datasets](https://github.com/huggingface/datasets) library to download the data and get the metric we need to use for evaluation (to compare our model to the benchmark). This can be easily done with the functions `load_dataset` and `load_metric`.  

For our example here, we'll use the [SQUAD dataset](https://rajpurkar.github.io/SQuAD-explorer/). The notebook should work with any question answering dataset provided by the ЁЯдЧ Datasets library. If you're using your own dataset defined from a JSON or csv file (see the [Datasets documentation](https://huggingface.co/docs/datasets/loading_datasets.html#from-local-files) on how to load them), it might need some adjustments in the names of the columns used.

In [6]:
from datasets import load_dataset

datasets = load_dataset("shakun42/BanglaRQA_to_SquadBn_fact_confirm")

Downloading readme:   0%|          | 0.00/714 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/6.21M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/803k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/752k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/9565 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/1182 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1172 [00:00<?, ? examples/s]

The `datasets` object itself is [`DatasetDict`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasetdict), which contains one key for the training, validation and test set.

In [7]:
datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 9565
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1182
    })
    test: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1172
    })
})

We can see the training, validation and test sets all have a column for the context, the question and the answers to those questions.

To access an actual element, you need to select a split first, then give an index:

In [8]:
datasets["train"][0]

{'id': 'bn_wiki_2977_03',
 'title': 'ржлрж╛ржЬрж┐рж▓ ржкрж░рзАржХрзНрж╖рж╛',
 'context': 'ржлрж╛ржЬрж┐рж▓ ржкрж░рзАржХрзНрж╖рж╛ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржУ ржнрж╛рж░рждрзЗрж░ ржЖрж▓рж┐ржпрж╝рж╛ ржорж╛ржжрзНрж░рж╛рж╕рж╛ржпрж╝ ржЕржирзБрж╖рзНржарж┐ржд ржПржХржЯрж┐ рж╕рж░ржХрж╛рж░рж┐ ржкрж░рзАржХрзНрж╖рж╛ред ржлрж╛ржЬрж┐рж▓ ржкрж░рзАржХрзНрж╖рж╛ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗ ржбрж┐ржЧрзНрж░рж┐ рж╕ржоржорж╛ржирзЗрж░, ржХржЦржирзЛ рж╕рзНржирж╛рждржХ рж╕ржоржорж╛ржирзЗрж░ ржПржХржЯрж┐ ржкрж░рзАржХрзНрж╖рж╛, ржпрж╛ ржПржХржЯрж┐ ржлрж╛ржЬрж┐рж▓ ржорж╛ржжрзНрж░рж╛рж╕рж╛ржпрж╝ ржЕржирзБрж╖рзНржарж┐ржд рж╣ржпрж╝рзЗ ржерж╛ржХрзЗред рждржмрзЗ ржнрж╛рж░рждрзЗ ржлрж╛ржЬрж┐рж▓ ржкрж░рзАржХрзНрж╖рж╛ржХрзЗ ржЙржЪрзНржЪ ржорж╛ржзрзНржпржорж┐ржХ рж╢рзНрж░рзЗржгрзАрж░ (рззрзз ржмрж╛ рззрзи ржХрзНрж▓рж╛рж╕) ржорж╛ржи ржмрж▓рзЗ ржмрж┐ржмрзЗржЪрж┐ржд ржХрж░рж╛ рж╣ржпрж╝ред ржлрж╛ржЬрж┐рж▓ ржкрж░рзАржХрзНрж╖рж╛ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржнрж╛рж░ржд ржУ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ рж╕рж░ржХрж╛рж░рж┐ рж╕рзН

We can see the answers are indicated by their start position in the text (here at character 515) and their full text, which is a substring of the context as we mentioned above.

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset (automatically decoding the labels in passing).

In [9]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [10]:
show_random_elements(datasets["train"])

Unnamed: 0,id,title,context,question,answers
0,bn_wiki_1569_05,ржкрж╛ржмрж▓рзЛ ржирзЗрж░рзБржжрж╛,"ржЪрж┐рж▓рж┐рждрзЗ ржлрзЗрж░рж╛рж░ ржкрж░ ржирзЗрж░рзБржжрж╛ржХрзЗ ржмрзБржпрж╝рзЗржирзЛрж╕ ржЖржЗрж░рзЗрж╕рзЗ ржХрзВржЯржирзИрждрж┐ржХ ржкржж ржжрзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓, ржПржмржВ ржкрж░рзЗ рж╕рзНржкрзЗржирзЗрж░ ржмрж╛рж░рзНрж╕рзЗрж▓рзЛржирж╛ржпрж╝ ржкрж╛ржарж╛ржирзЛ рж╣ржпрж╝ред ржкрж░ржмрж░рзНрждрзАржХрж╛рж▓рзЗ рждрж┐ржирж┐ ржорж╛ржжрзНрж░рж┐ржжрзЗ ржХржирж╕рзБрж▓ рж╣рж┐рж╕рзЗржмрзЗ ржЧрзНржпрж╛ржмрзНрж░рж┐ржпрж╝рзЗрж▓рж╛ ржорж┐рж╕рзНрждрзНрж░рж╛рж▓рзЗрж░ рж╕рзНржерж▓рж╛ржнрж┐рж╖рж┐ржХрзНржд рж╣ржиред рж╕рзЗржЦрж╛ржирзЗ рждрж╛ржХрзЗ ржШрж┐рж░рзЗ ржПржХржЯрж┐ ржкрзНрж░рж╛ржгрзЛржЪрзНржЫрж▓ рж╕рж╛рж╣рж┐рждрзНржп ржорж╣рж▓ рждрзИрж░рж┐ рж╣ржпрж╝ ржПржмржВ рж▓рзЗржЦржХ рж░рж╛ржлрж╛ржпрж╝рзЗрж▓ ржЖрж▓ржмрзЗрж░рзНрждрж┐, ржлрзЗржжрзЗрж░рж┐ржХрзЛ ржЧрж╛рж░рж╕рж┐ржпрж╝рж╛ рж▓рзЛрж░ржХрж╛ ржУ ржкрзЗрж░рзБржнрзАржпрж╝ ржХржмрж┐ рж╕рзЗрж╕рж╛рж░ ржнрж╛ржЗржпрж╝рзЗрж╣рзЛрж░ рж╕рж╛ржерзЗ рждрж╛рж░ ржмржирзНржзрзБрждрзНржм рж╣ржпрж╝ред рждрж╛рж░ ржПржХржорж╛рждрзНрж░ ржХржирзНржпрж╛ ржорж╛рж▓ржнрж╛ ржорж╛рж░рж┐ржирж╛ (рждрзНрж░рж┐ржирж┐ржжрж╛ржж) рж░рзЗржЗржпрж╝рзЗрж╕ рззрзпрзйрзк рж╕рж╛рж▓рзЗ ржорж╛ржжрзНрж░рж┐ржжрзЗ ржЬржирзНржоржЧрзНрж░рж╣ржг ржХрж░рзЗржиред ржЫрзЛржЯржХрж╛рж▓ ржерзЗржХрзЗржЗ рждрж┐ржирж┐ рж░рзЛржЧржмрзНржпрж╛ржзрж┐рждрзЗ ржЬрж░рзНржЬрж░рж┐ржд ржЫрж┐рж▓рзЗржи, ржмрж┐рж╢рзЗрж╖ ржХрж░рзЗ рж╣рж╛ржЗржбрзНрж░рзЛрж╕рзЗржлрж╛рж▓рж╛рж╕рзЗ ржЖржХрзНрж░рж╛ржирзНржд ржЫрж┐рж▓рзЗржиред рждрж┐ржирж┐ рззрзпрзкрзй рж╕рж╛рж▓рзЗ ржорж╛рждрзНрж░ ржиржпрж╝ ржмржЫрж░рзЗ ржорж╛рж░рж╛ ржпрж╛ржиред ржорж╛рж▓ржнрж╛ рждрж╛рж░ ржПржЗ ржЫрзЛржЯрзНржЯ ржЬрзАржмржирзЗрж░ ржмрзЗрж╢рж┐рж░ржнрж╛ржЧ рж╕ржоржпрж╝ ржирзЗржжрж╛рж░рж▓рзНржпрж╛ржирзНржбрж╕рзЗ ржХрж╛ржЯрж╛ржи, ржХрж╛рж░ржг ржирзЗрж░рзБржжрж╛рж░ рждрж╛ржХрзЗ ржЙржкрзЗржХрзНрж╖рж╛ ржУ ржкрж░рж┐рждрзНржпрж╛ржЧ ржХрж░рж╛ржпрж╝ рждрж╛рж░ ржорж╛рждрж╛ рждрж╛ржжрзЗрж░ ржнрж░ржгржкрзЛрж╖ржгрзЗрж░ ржЬржирзНржп ржпрзЗ ржХрзЛржи ржзрж░ржирзЗрж░ ржХрж╛ржЬ ржирж┐рждрзЗ ржмрж╛ржзрзНржп рж╣ржпрж╝ред ржПржЗ рж╕ржоржпрж╝рзЗ ржирзЗрж░рзБржжрж╛ рждрж╛рж░ рж╕рзНрждрзНрж░рзАрж░ ржерзЗржХрзЗ ржмрж┐ржЪрзНржЫрж┐ржирзНржи рж╣рждрзЗ ржерж╛ржХрзЗржи ржПржмржВ рждрж╛рж░ ржЪрзЗржпрж╝рзЗ рзирзж ржмржЫрж░рзЗрж░ ржмржбрж╝ ржЕржнрж┐ржЬрж╛ржд ржЖрж░рзНржЬрзЗржирзНржЯрж┐ржирзАржпрж╝ рж╢рж┐рж▓рзНржкрзА ржжрзЗрж▓рж┐ржпрж╝рж╛ ржжрзЗрж▓ ржХрж╛рж░рж┐рж▓рзЗрж░ рж╕рж╛ржерзЗ рж╕ржорзНржкрж░рзНржХрзЗ ржЬржбрж╝рж╛ржиред",ржирзЗрж░рзБржжрж╛ ржХржд рж╕рж╛рж▓рзЗ ржирзЛржмрзЗрж▓ ржкрзБрж░рж╕рзНржХрж╛рж░ ржЕрж░рзНржЬржи ржХрж░рзЗржи?,"{'answer_start': [], 'text': []}"
1,bn_wiki_2212_02,рж╕рзНржЯрж╛рж░ ржУржпрж╝рж╛рж░рзНрж╕: ржжрзНржп ржлрзЛрж░рзНрж╕ ржЕрзНржпрж╛ржУржпрж╝рзЗржХрзЗржирзНрж╕,"ржЧрзНржпрж╛рж▓рж╛ржХрзНржЯрж┐ржХ ржЧрзГрж╣ржпрзБржжрзНржзрзЗрж░ рзйрзж ржмржЫрж░ ржкрж░ ржЧрзНржпрж╛рж▓рж╛ржХрзНржЯрж┐ржХ рж╕ржорзНрж░рж╛ржЬрзНржпрзЗрж░ ржЙрждрзНрждрж░рж╕рзБрж░рзА 'ржлрж╛рж░рзНрж╕рзНржЯ ржЕрж░рзНржбрж╛рж░', ржирж┐ржЙ рж░рж┐ржкрж╛ржмрж▓рж┐ржХржХрзЗ ржХрзНрж╖ржорждрж╛ ржерзЗржХрзЗ ржЕржкрж╕рж╛рж░ржи ржХрж░рзЗ ржирж┐ржЬрзЗржжрзЗрж░ржХрзЗ ржЧрзНржпрж╛рж▓рж╛ржХрзНрж╕рж┐рж░ ржХрзНрж╖ржорждрж╛ржпрж╝ ржЕржзрж┐рж╕рзНржЯрж┐ржд ржХрж░рждрзЗ ржЪрж╛ржпрж╝ред\n\nржирж┐ржЙ рж░рж┐ржкрж╛ржмрж▓рж┐ржХ ржорзБржЦрж┐ рж╕рж╛ржорж░рж┐ржХ рж╕ржВрж╕рзНржерж╛ 'рж░рзЗрж╕рж┐рж╕рзНржЯрзЗржирзНрж╕' ржПрж░ ржкрзНрж░ржзрж╛ржи ржЬрзЗржирж╛рж░рзЗрж▓ рж▓рзЗржпрж╝рж╛ ржЕрж░ржЧрж╛ржирж╛ рждрж╛рж░ ржмрж┐рж╢рзНржмрж╕рзНржд ржХрж░рзНржоржЪрж╛рж░рзА ржХрзНржпрж╛ржкрзНржЯрзЗржи ржкрзЛ ржбрзНржпрж╛ржорзЗрж░ржи ржХрзЗ 'ржЬрж╛ржХрзНржХрзБ ' ржирж╛ржоржХ ржЧрзНрж░рж╣рзЗ ржкрж╛ржарж╛ржи ржПржХржЯрж┐ ржорзНржпрж╛ржк рж╕ржВржЧрзНрж░рж╣ ржХрж░рж╛рж░ ржЬржирзНржп, ржпрзЗржЦрж╛ржирзЗ рж▓рзЗржпрж╝рж╛рж░ ржнрж╛ржЗ ржЬрзЗржбрж╛ржЗ ржорж╛рж╕рзНржЯрж╛рж░ рж▓рзБржХ рж╕рзНржХрж╛ржЗржУржпрж╝рж╛ржХрж╛рж░рзЗрж░ ржарж┐ржХрж╛ржирж╛ ржЙрж▓рзНрж▓рзЗржЦ ржЖржЫрзЗред ржХрж┐ржирзНрждрзБ ржжрзБрж░ржнрж╛ржЧрзНржп ржмрж╢ржд ржкрзЛ рж░рзЗрж╕рж┐рж╕рзНржЯрзЗржирзНрж╕рзЗрж░ рж╢рждрзНрж░рзБ, ржлрж╛рж╕рзНржЯ ржЕрж░рзНржбрж╛рж░рзЗрж░ ржирзЗрждрж╛ ржХрж╛ржЗрж▓рзЛ рж░рзЗржи ржПрж░ рж╣рж╛рждрзЗ ржзрж░рж╛ ржкрж░рзЗржиред ржХрж┐ржирзНрждрзБ ржПрж░ ржЖржЧрзЗ рждрж┐ржирж┐ ржорзНржпрж╛ржк ржЯрж┐ рждрж╛рж░ ржбрзНрж░ржпрж╝рзЗржб, ржмрж┐ ржмрж┐ рзо ржПрж░ ржХрж╛ржЫрзЗ ржЖржорж╛ржиржд рж░рзЗржЦрзЗ ржжрзЗржиред ржмрж┐ ржмрж┐ рзо ржжрзБрж░ржШржЯржирж╛ рж╕рзНржерж▓ ржерзЗржХрзЗ ржжрзВрж░рзЗ рж╕рж░рзЗ ржЖрж╕рж▓рзЗ ржорзНржпрж╛ржк ржЯрж┐ ржХрж╛ржЗрж▓рзЛ рж░рзЗржи ржПрж░ рж╣рж╛рждрзЗ ржпрж╛ржУржпрж╝рж╛ ржерзЗржХрзЗ ржмрзЗржБржЪрзЗ ржпрж╛ржпрж╝ред ржХрж┐ржирзНрждрзБ ржкрзЛ ржХрзЗ ржХрж╛ржЗрж▓рзЛ ржмржирзНржзрж┐ ржХрж░рзЗ ржПржмржВ ржорзНржпрж╛ржкрзЗрж░ ржХржерж╛ ржЬрж┐ржЬрзНржЮрзЗрж╢ ржХрж░рзЗред рждржмрзЗ, ржкрзЛ рждрж╛ ржмрж▓рждрзЗ ржЕрж╕рзНржмрзАржХрзГрждрж┐ ржЬрж╛ржирж╛ржпрж╝ред ржмрж┐ ржмрж┐ рзо ржХрж┐ ржкрж╛рж░ржмрзЗ ржорзНржпрж╛ржк ржЯрж┐ржХрзЗ рж╕ржарж┐ржХ рж╣рж╛рждрзЗ рждрзБрж▓рзЗ ржжрж┐рждрзЗ?",ржирж┐ржЙ рж░рж┐ржкрж╛ржмрж▓рж┐ржХ ржорзБржЦрж┐ рж╕рж╛ржорж░рж┐ржХ рж╕ржВрж╕рзНржерж╛рж░ ржирж╛ржо ржХрзА?,"{'answer_start': [207, 207], 'text': ['рж░рзЗрж╕рж┐рж╕рзНржЯрзЗржирзНрж╕'', 'рж░рзЗрж╕рж┐рж╕рзНржЯрзЗржирзНрж╕'']}"
2,bn_wiki_2949_01,ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржирзМржмрж╛рж╣рж┐ржирзА,"рзирзжрзжрзо рж╕рж╛рж▓рзЗрж░ ржорж╛ржпрж╝рж╛ржиржорж╛рж░ рж╕рж░ржХрж╛рж░ ржжржХрзНрж╖рж┐ржг ржХрзЛрж░рж┐ржпрж╝рж╛ржи ржХрзЛржорзНржкрж╛ржирж┐ ржжрж╛ржЗржпрж╝рзБржХрзЗ рж╕рзЗржЗржирзНржЯ ржорж╛рж░ржЯрж┐ржирзНрж╕ ржжрзНржмрзАржкрзЗрж░ рзлрзж ржиржЯрж┐ржХрзНржпрж╛рж▓ ржорж╛ржЗрж▓ ржжржХрзНрж╖рж┐ржг ржкрж╢рзНржЪрж┐ржорзЗ ржмрж┐рждрж░рзНржХрж┐ржд рж╕ржорзБржжрзНрж░рж╕рзАржорж╛ржпрж╝ рждрзЗрж▓-ржЧрзНржпрж╛рж╕ ржЕржирзБрж╕ржирзНржзрж╛ржирзЗрж░ ржжрж╛ржпрж╝рж┐рждрзНржм ржжрзЗржпрж╝ред рзи ржиржнрзЗржорзНржмрж░ рзирзжрзжрзо, ржжрж╛ржЗржпрж╝рзБ ржмрж┐рждрж░рзНржХрж┐ржд рж╕рзАржорж╛ржпрж╝ ржЕржирзБрж╕ржирзНржзрж╛ржи рж░рж┐ржЧ ржмрж╕рж╛ржпрж╝ред ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ рж╕рж░ржХрж╛рж░ ржорж╛ржпрж╝рж╛ржиржорж╛рж░ржХрзЗ ржЕржирзБрж╕ржирзНржзрж╛ржи ржмржирзНржз ржХрж░рж╛рж░ ржЕржирзБрж░рзЛржз ржЬрж╛ржирж╛ржпрж╝ ржХрж┐ржирзНрждрзБ ржорж╛ржпрж╝рж╛ржиржорж╛рж░рзЗрж░ ржкржХрзНрж╖ ржерзЗржХрзЗ ржХрзЛржи рж╕рж╛рж░рж╛ ржкрж╛ржУржпрж╝рж╛ ржпрж╛ржпрж╝ ржирж┐ред ржкрж░ржмрж░рзНрждрзАрждрзЗ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржирзМржмрж╛рж╣рж┐ржирзА рж╕рзЗржЦрж╛ржирзЗ ржлрзНрж░рж┐ржЧрзЗржЯ ржмрж╛ржирзМржЬрж╛ ржЖржмрзБ ржмржХрж░, ржЯрж╣рж▓ ржЬрж╛рж╣рж╛ржЬ ржмрж╛ржирзМржЬрж╛ ржоржзрзБржорждрж┐ ржПржмржВ ржбрзБржмрзЛржЬрж╛рж╣рж╛ржЬ ржмрж┐ржзрзНржмржВрж╕рзА ржЬрж╛рж╣рж╛ржЬ ржмрж╛ржирзМржЬрж╛ ржирж┐рж░рзНржнржпрж╝ржХрзЗ ржорзЛрждрж╛ржпрж╝рзЗржи ржХрж░рзЗред ржкрж╛рж▓рзНржЯрж╛ ржкржжржХрзНрж╖рзЗржк рж╣рж┐рж╕рзЗржмрзЗ ржорж╛ржпрж╝рж╛ржиржорж╛рж░ ржУ ржжрзБржЗржЯрж┐ ржпрзБржжрзНржзржЬрж╛рж╣рж╛ржЬ ржорзЛрждрж╛ржпрж╝рзЗржи ржХрж░рж▓рзЗ ржпрзБржжрзНржзрж╛ржмрж╕рзНржерж╛рж░ рж╕рзГрж╖рзНржЯрж┐ рж╣ржпрж╝ред ржкрж░ржмрж░рзНрждрзАржХрж╛рж▓рзЗ ржжрзБржЗ ржжрзЗрж╢рзЗрж░ ржоржзрзНржпрзЗ ржХрзВржЯржирзИрждрж┐ржХ ржЖрж▓рзЛржЪржирж╛ рж╢рзБрж░рзБ рж╣ржпрж╝ ржПржмржВ рзн ржиржнрзЗржорзНржмрж░ ржорж╛ржпрж╝рж╛ржиржорж╛рж░ рж░рж┐ржЧ рж╕рж░рж┐ржпрж╝рзЗ ржирзЗржпрж╝ред\n\nрзирзжрззрзз рж╕рж╛рж▓рзЗ ржирзМржмрж╛рж╣рж┐ржирзАрж░ ржПржХржЯрж┐ ржЙржжрзНржзрж╛рж░ ржУ ржЪрж┐ржХрж┐рзОрж╕ржХ ржжрж▓ржХрзЗ ржЯрзЛржХрж┐ржУ ржнрзВржорж┐ржХржорзНржк ржУ рж╕рзБржирж╛ржорж┐рж░ ржкрж░ ржЬрж╛ржкрж╛ржирзЗ ржорзЛрждрж╛ржпрж╝рзЗржи ржХрж░рж╛ рж╣ржпрж╝ред рзирзжрззрзй рж╕рж╛рж▓рзЗ ржЯрж╛ржЗржлрзБржи рж╣рж╛ржЗржпрж╝рж╛ржи ржП ржЖржХрзНрж░рж╛ржирзНржд ржорж╛ржирзБрж╖рзЗрж░ рж╕рж╣рж╛ржпрж╝рждрж╛ржпрж╝ рззрзж рж▓ржХрзНрж╖ ржбрж▓рж╛рж░ ржорзВрж▓рзНржпрзЗрж░ ржорж╛ржиржмрж┐ржХ рж╕рж╣рж╛ржпрж╝рждрж╛ рж╕рж░ржЮрзНржЬрж╛ржо ржУ ржирзМржмрж╛рж╣рж┐ржирзАрж░ ржЪрж┐ржХрж┐рзОрж╕ржХ ржжрж▓ рж╕рж╣ ржмрж╛ржирзМржЬрж╛ рж╕ржорзБржжрзНрж░ ржЬржпрж╝ржХрзЗ ржлрж┐рж▓рж┐ржкрж╛ржЗржирзЗ ржорзЛрждрж╛ржпрж╝рзЗржи ржХрж░рж╛ рж╣ржпрж╝ред\n\nрзирзжрззрзк рж╕рж╛рж▓рзЗрж░ ржорж╛рж░рзНржЪрзЗ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржирзМржмрж╛рж╣рж┐ржирзА ржирж┐ржЦрзЛржБржЬ ржорж╛рж▓ржпрж╝рзЗрж╢рж┐ржпрж╝рж╛ ржПржпрж╝рж╛рж░рж▓рж╛ржЗржирзНрж╕ ржлрзНрж▓рж╛ржЗржЯ рзйрзнрзж ржПрж░ ржЕржирзБрж╕ржирзНржзрж╛ржи ржЕржнрж┐ржпрж╛ржи рж╢рзБрж░рзБ ржХрж░рзЗ ржлрзНрж░рж┐ржЧрзЗржЯ ржмрж╛ржирзМржЬрж╛ ржЙржорж░ ржлрж╛рж░рзБржХ ржПржмржВ рж╕рж╛ржорзБржжрзНрж░рж┐ржХ ржЯрж╣рж▓ ржмрж┐ржорж╛ржи ржбрж░ржирж┐ржпрж╝рж╛рж░ ржбрж┐ржУ-рзирзирзоржПржиржЬрж┐ ржорзЛрждрж╛ржпрж╝рзЗржирзЗрж░ ржоржзрзНржп ржжрж┐ржпрж╝рзЗред ржмрж┐ржорж╛ржиржЯрж┐ ржЫрж┐рж▓ ржПржХржЯрж┐ ржмрзЛржпрж╝рж┐ржВ рзнрзнрзн-рзирзжрзжржПржЖрж░ ржоржбрзЗрж▓рзЗрж░ ржмрж┐ржорж╛ржи ржпрж╛ рззрзкржЯрж┐ ржжрзЗрж╢рзЗрж░ рзирзирзн ржЬржи ржпрж╛рждрзНрж░рзА ржПржмржВ рззрзи ржЬржи ржХрзНрж░рзБ ржирж┐ржпрж╝рзЗ ржорж╛рж▓ржпрж╝рзЗрж╢рж┐ржпрж╝рж╛ ржерзЗржХрзЗ ржЪрзАржирзЗ ржпрж╛ржЪрзНржЫрж┐рж▓ред ржкрж░ржмрж░рзНрждрзАрждрзЗ ржмрж╛ржирзМржЬрж╛ ржЙржорж░ ржлрж╛рж░рзБржХржХрзЗ ржмрж╛ржирзМржЬрж╛ рж╕ржорзБржжрзНрж░ ржЬржпрж╝ ржжрж┐ржпрж╝рзЗ ржкрзНрж░рждрж┐рж╕рзНржерж╛ржкржи ржХрж░рж╛ рж╣ржпрж╝ред рзирзжрззрзк рж╕рж╛рж▓рзЗрж░ ржорзЗ ржорж╛рж╕рзЗ ржПржХржЯрж┐ ржЕрж╕рзНржЯрзНрж░рзЗрж▓рзАржпрж╝ ржХрзЛржорзНржкрж╛ржирж┐ ржмржЩрзНржЧрзЛржкрж╕рж╛ржЧрж░ ржП ржмрж┐ржорж╛ржиржЯрж┐рж░ ржзрзНржмржВрж╕рж╛ржмрж╢рзЗрж╖ ржкрж╛ржУржпрж╝рж╛рж░ ржжрж╛ржмрж┐ ржХрж░рж▓рзЗ ржЕржирзБрж╕ржирзНржзрж╛ржи ржЕржнрж┐ржпрж╛ржи ржкрзБржирж░рж╛ржпрж╝ рж╢рзБрж░рзБ рж╣ржпрж╝ред\n\nрзирзжрззрзк рж╕рж╛рж▓рзЗ ржорж╛рж▓ржжрзНржмрзАржкрзЗрж░ ржкрж╛ржирж┐ рж╕ржВржХржЯрзЗрж░ рж╕ржоржпрж╝ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржирзМржмрж╛рж╣рж┐ржирзА ржЫрж┐рж▓ ржкрзНрж░ржержо ржпрж╛рж░рж╛ ржорж╛ржиржмрж┐ржХ рж╕рж╣рж╛ржпрж╝рждрж╛ рждрзНрж░рж╛ржг ржХрж╛рж░рзНржпржХрзНрж░ржо рж╢рзБрж░рзБ ржХрж░рзЗред рж╕рзЗрж╕ржоржпрж╝ ржмрж╛ржирзМржЬрж╛ рж╕ржорзБржжрзНрж░ ржЬржпрж╝ржХрзЗ рззрзжрзж ржЯржи ржкрж╛ржирж┐рж░ ржмрзЛрждрж▓ рж╕рж╣ ржорзЛрждрж╛ржпрж╝рзЗржи ржХрж░рж╛ рж╣ржпрж╝ред",ржжрж╛ржЗржпрж╝рзБ ржХрзЛржи ржжрзЗрж╢рж┐ ржХрзЛржорзНржкрж╛ржирж┐?,"{'answer_start': [34, 27], 'text': ['ржХрзЛрж░рж┐ржпрж╝рж╛ржи', 'ржжржХрзНрж╖рж┐ржг ржХрзЛрж░рж┐ржпрж╝рж╛ржи']}"
3,bn_wiki_2589_02,ржирж╛рж░рзА рж╕рзБрж░ржХрзНрж╖рж╛ ржмрж┐рж▓,"ржирж╛рж░рзА рж╕рзБрж░ржХрзНрж╖рж╛ ржмрж┐рж▓ ржпрж╛ рзирзжрзжрзм рж╕рж╛рж▓рзЗрж░ рззрзлржЗ ржиржнрзЗржорзНржмрж░ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржЬрж╛рждрзАржпрж╝ ржкрж░рж┐рж╖ржж ржХрж░рзНрждрзГржХ ржкрж╛рж╕ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓, рждрж╛ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржзрж░рзНрж╖ржг ржУ ржмрзНржпржнрж┐ржЪрж╛рж░рзЗрж░ рж╢рж╛рж╕рзНрждрж┐ ржирж┐ржпрж╝ржирзНрждрзНрж░ржгржХрж╛рж░рзА рззрзпрзнрзп рж╕рж╛рж▓рзЗрж░ рж╣рзБржжрзБржж ржЕржзрзНржпрж╛ржжрзЗрж╢ ржЖржЗржиржХрзЗ ржмрзНржпрж╛ржкржХржнрж╛ржмрзЗ рж╕ржорж╛рж▓рзЛржЪрж┐ржд ржХрж░рж╛рж░ ржЪрзЗрж╖рзНржЯрж╛ ржЫрж┐рж▓ред рж╣рзБржжрзБржж ржЕржзрзНржпрж╛ржжрзЗрж╢рзЗрж░ рж╕ржорж╛рж▓рзЛржЪржХрзЗрж░рж╛ ржЕржнрж┐ржпрзЛржЧ ржХрж░рзЗржЫрж┐рж▓рзЗржи ржпрзЗ ржПржЯрж┐ ржзрж░рзНрж╖ржгрзЗрж░ ржЕржнрж┐ржпрзЛржЧ ржкрзНрж░ржорж╛ржг ржХрж░рж╛ржХрзЗ ржЕрждрзНржпржирзНржд ржХржарж┐ржи ржУ ржмрж┐ржкржЬрзНржЬржиржХ ржХрж░рзЗ рждрзБрж▓рзЗржЫрзЗ ржПржмржВ ржмрж┐рж▓ржЯрж┐рж░ ржлрж▓рзЗ рж╣рж╛ржЬрж╛рж░ рж╣рж╛ржЬрж╛рж░ ржирж╛рж░рзА ржХрж╛рж░рж╛ржмрж░ржг ржХрж░рзЗржЫрж┐рж▓рзЗржиред ржмрж┐рж▓ржЯрж┐ ржЬрж┐ржирж╛ ржЕржзрзНржпрж╛ржжрзЗрж╢ ржерзЗржХрзЗ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржкрзЗржирж╛рж▓ ржХрзЛржбрзЗ ржмрзЗрж╢ ржХржпрж╝рзЗржХржЯрж┐ ржЕржкрж░рж╛ржз ржлрж┐рж░рж┐ржпрж╝рзЗ ржжрж┐ржпрж╝рзЗржЫрж┐рж▓, ржпрзЗржЦрж╛ржирзЗ ржПржЗ ржЖржЗржиржЧрзБрж▓рж┐ рззрзпрзнрзп рж╕рж╛рж▓рзЗрж░ ржЖржЧрзЗ ржЫрж┐рж▓, ржПржмржВ ржмрзНржпржнрж┐ржЪрж╛рж░ ржУ ржмрзНржпржнрж┐ржЪрж╛рж░рзЗрж░ ржЕржкрж░рж╛ржзрзЗрж░ ржмрж┐ржЪрж╛рж░рзЗрж░ ржЬржирзНржп ржПржХржЯрж┐ рж╕ржорзНржкрзВрж░рзНржг ржирждрзБржи ржкржжрзНржзрждрж┐ рждрзИрж░рж┐ ржХрж░рзЗржЫрж┐рж▓, рж╢рж╛рж╕рзНрждрж┐ рж╣рж┐рж╕рзЗржмрзЗ ржмрзЗрждрзНрж░рж╛ржШрж╛ржд ржПржмржВ ржЕржЩрзНржЧржЪрзНржЫрзЗржж ржЕржкрж╕рж╛рж░ржг ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓ред ржЖржЗржирзЗрж░ ржорж╛ржирзЗ рж╣рж▓, ржирж╛рж░рзАрж░рж╛ ржзрж░рзНрж╖ржг ржкрзНрж░ржорж╛ржг ржХрж░рждрзЗ ржирж╛ ржкрж╛рж░рж▓рзЗ ржЬрзЗрж▓ ржЦрж╛ржЯрждрзЗ ржкрж╛рж░ржмрзЗ ржирж╛, ржПржмржВ рж╕рж╛ржХрзНрж╖рзА ржЫрж╛ржбрж╝рж╛ ржЕржирзНржп ржХрзЛржирзЛ ржнрж┐рждрзНрждрж┐рждрзЗ ржзрж░рзНрж╖ржг ржкрзНрж░ржорж╛ржг ржХрж░рж╛рж░ ржЕржирзБржорждрж┐ ржжрзЗржмрзЗ, ржпрзЗржоржи ржлрж░рзЗржирж╕рж┐ржХ ржУ ржбрж┐ржПржиржП ржкрзНрж░ржорж╛ржгред\n\nржпрж╛ржЗрж╣рзЛржХ, ржХрж┐ржЫрзБ ржзрж░рзНржорзАржпрж╝ ржжрж▓ ржмрж┐рж▓ржЯрж┐ржХрзЗ ржЕржирзИрж╕рж▓рж╛ржорж┐ржХ ржПржмржВ ржмрж░рзНржзрж┐ржд ржХрж░рзЗ ржЕрж╕рж╛ржВржмрж┐ржзрж╛ржирж┐ржХ ржмрж▓рзЗржЫрзЗ, рждржмрзЗ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ рж╕рзБржкрзНрж░рж┐ржо ржХрзЛрж░рзНржЯ ржмрж┐рж▓ржЯрж┐ржХрзЗ 'ржЗрж╕рж▓рж╛ржорзА ржмрж┐ржзрж╛ржи рж▓ржЩрзНржШржи ржХрж░рзЗ' ржПржоржи ржЕржнрж┐ржпрзЛржЧ ржерж╛ржХрж╛ рж╕рждрзНрждрзНржмрзЗржУ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ рж╕ржВржмрж┐ржзрж╛ржи ржерзЗржХрзЗ ржмрж╛рждрж┐рж▓ ржХрж░рзЗржирж┐, рждрж╛ржЗ ржЖржЬржУ ржПржЯрж┐ ржЯрж┐ржХрзЗ рж░ржпрж╝рзЗржЫрзЗред ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржкрж╛ржЮрзНржЬрж╛ржм ржкрзНрж░ржжрзЗрж╢ ржЖрж░рзЗржХржЯрж┐ ржирж╛рж░рзА ржмрж┐рж▓ ржкрж╛рж╕ ржХрж░рзЗржЫрзЗ, ржпрж╛ ржЕрж╕рж╛ржВржмрж┐ржзрж╛ржирж┐ржХрждрж╛рж░ ржнрж┐рждрзНрждрж┐рждрзЗ ржЖржжрж╛рж▓рждрзЗ ржмрж┐ржЪрж╛рж░рж╛ржзрзАржи рж░ржпрж╝рзЗржЫрзЗред\n\nрзирзжрззрзм рж╕рж╛рж▓рзЗ, ржлрзМржЬржжрж╛рж░рж┐ ржЖржЗржи (рж╕ржВрж╢рзЛржзржи) (ржзрж░рзНрж╖ржгрзЗрж░ ржЕржкрж░рж╛ржз) ржЕржзрж┐ржирж┐ржпрж╝ржо рзирзжрззрзм ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ рж╕ржВрж╕ржжрзЗ ржкрж╛рж╕ рж╣ржпрж╝рзЗржЫрзЗ, ржпрж╛ ржзрж░рзНрж╖ржг ржУ рж╕ржорзНржорж╛ржи рж░ржХрзНрж╖рж╛ржпрж╝ рж╣рждрзНржпрж╛рж░ ржЕржкрж░рж╛ржзрзАржжрзЗрж░ ржХржарзЛрж░ рж╢рж╛рж╕рзНрждрж┐ ржкрзНрж░ржмрж░рзНрждржи ржХрж░рзЗред ржирждрзБржи ржЖржЗржи ржнрзБржХрзНрждржнрзЛржЧрзАржжрзЗрж░ ржЖржЗржирж┐ рж╕рж╣рж╛ржпрж╝рждрж╛ ржкрзНрж░ржжрж╛ржи ржХрж░рзЗржЫрзЗ ржПржмржВ ржзрж░рзНрж╖ржгрзЗрж░ ржХрзНрж╖рзЗрждрзНрж░рзЗ ржбрж┐ржПржиржП ржкрж░рзАржХрзНрж╖рж╛ ржмрж╛ржзрзНржпрждрж╛ржорзВрж▓ржХ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржЖржЗржирзЗ ржкрзБрж▓рж┐рж╢ржХрзЗ ржзрж░рзНрж╖ржи ржмрж╛ ржпрзМржи рж╣ржпрж╝рж░рж╛ржирж┐рж░ рж╢рж┐ржХрж╛рж░ ржирж╛рж░рзА ржмрзЗржБржЪрзЗ ржерж╛ржХрж╛ ржмрзНржпржХрзНрждрж┐рж░ ржмржХрзНрждржмрзНржп ржкрзБрж▓рж┐рж╢ржжрзЗрж░ ржкрзБрж▓рж┐рж╢ ржХрж░рзНржоржХрж░рзНрждрж╛рж░ ржЙржкрж╕рзНржерж┐рждрж┐рждрзЗ ржиржерж┐ржнрзБржХрзНржд ржХрж░рждрзЗржУ ржмрж▓рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржирждрзБржи ржЖржЗржирзЗ ржнрзБржХрзНрждржнрзЛржЧрзА ржУ рж╕рж╛ржХрзНрж╖рзАржжрзЗрж░ ржмрж┐ржмрзГрждрж┐ ржиржерж┐ржнрзБржХрзНржд ржХрж░рж╛рж░ ржЬржирзНржп ржнрж┐ржбрж┐ржУ рж▓рж┐ржЩрзНржХрзЗрж░ ржорждрзЛ ржкрзНрж░ржпрзБржХрзНрждрж┐рж░ ржмрзНржпржмрж╣рж╛рж░рзЗрж░ ржЕржирзБржорждрж┐ ржжрзЗржУржпрж╝рж╛ рж╣ржмрзЗ, ржпрж╛рждрзЗ рждрж╛ржжрзЗрж░ ржЖржжрж╛рж▓рждрзЗ рж╣рж╛ржЬрж┐рж░ рж╣ржпрж╝рзЗ ржХрзЛржирзЛ ржЕржкржорж╛ржи ржмрж╛ ржЭрзБржБржХрж┐рж░ рж╕ржорзНржорзБржЦрзАржи рж╣рждрзЗ ржирж╛ рж╣ржпрж╝ред ржирждрзБржи ржЖржЗржиржЯрж┐ ржЗржЙржПржи ржЙржЗржорзЗржирзЗрж░ ржирж┐рж░рзНржмрж╛рж╣рзА ржкрж░рж┐ржЪрж╛рж▓ржХ ржлрзБржоржЬрж┐рж▓ ржорж╛рж▓рзНржмрзЛ-ржПржиржЧрзБржХрж╛ ржжрзНржмрж╛рж░рж╛ ржкрзНрж░рж╢ржВрж╕рж╛ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓ред",рж╣рзБржжрзБржж ржЕржзрзНржпрж╛ржжрзЗрж╢рзЗрж░ рж╕ржорж╛рж▓рзЛржЪржХрзЗрж░рж╛ ржХрзА ржЕржнрж┐ржпрзЛржЧ ржХрж░рзЗржЫрж┐рж▓рзЗржи ?,"{'answer_start': [264, 264], 'text': ['ржПржЯрж┐ ржзрж░рзНрж╖ржгрзЗрж░ ржЕржнрж┐ржпрзЛржЧ ржкрзНрж░ржорж╛ржг ржХрж░рж╛ржХрзЗ ржЕрждрзНржпржирзНржд ржХржарж┐ржи ржУ ржмрж┐ржкржЬрзНржЬржиржХ ржХрж░рзЗ рждрзБрж▓рзЗржЫрзЗ ржПржмржВ ржмрж┐рж▓ржЯрж┐рж░ ржлрж▓рзЗ рж╣рж╛ржЬрж╛рж░ рж╣рж╛ржЬрж╛рж░ ржирж╛рж░рзА ржХрж╛рж░рж╛ржмрж░ржг ржХрж░рзЗржЫрж┐рж▓рзЗржи', 'ржПржЯрж┐ ржзрж░рзНрж╖ржгрзЗрж░ ржЕржнрж┐ржпрзЛржЧ ржкрзНрж░ржорж╛ржг ржХрж░рж╛ржХрзЗ ржЕрждрзНржпржирзНржд ржХржарж┐ржи ржУ ржмрж┐ржкржЬрзНржЬржиржХ ржХрж░рзЗ рждрзБрж▓рзЗржЫрзЗ ржПржмржВ ржмрж┐рж▓ржЯрж┐рж░ ржлрж▓рзЗ рж╣рж╛ржЬрж╛рж░ рж╣рж╛ржЬрж╛рж░ ржирж╛рж░рзА ржХрж╛рж░рж╛ржмрж░ржг ржХрж░рзЗржЫрж┐рж▓рзЗржи']}"
4,bn_wiki_1757_01,ржЕрзНржпрж╛рж▓рж┐рж╕ (ржЖржЬржм ржжрзЗрж╢рзЗ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржжрзБржГрж╕рж╛рж╣рж╕рзАржХ ржЕржнрж┐ржпрж╛ржи),"ржЕрзНржпрж╛рж▓рж┐рж╕ ржЪрж░рж┐рждрзНрж░ржЯрж┐ржХрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓ рж╣рж┐рж╕рзЗржмрзЗ ржкрзНрж░рждрж┐ржкржирзНржи ржХрж░рж╛рж░ ржмрзНржпрж╛ржкрж╛рж░ржЯрж╛ ржпржерзЗрж╖рзНржЯ ржмрж┐рждрж░рзНржХрж┐рждред ржмрж╣рзБ рж╕ржорж╛рж▓рзЛржЪржХ ржЪрж░рж┐рждрзНрж░ржЯрж┐ржХрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓ ржмрж╛ рждрж╛рж░ ржжрзНржмрж╛рж░рж╛ ржЕржирзБржкрзНрж░рж╛ржгрж┐ржд ржмрж▓рзЗ ржоржирзЗ ржХрж░рзЗржиред ржЕржирзНржпржжрж┐ржХрзЗ ржЖржмрж╛рж░ ржПрж░ ржмрж┐рж░рзЛржзрзЗ ржЕржирзЗржХрзЗ ржмрж▓рзЗржи ржпрзЗ, ржХрзНржпрж╛рж░рж▓ рждрж╛рж░ ржЧрж▓рзНржкрзЗрж░ ржорзБржЦрзНржп ржЪрж░рж┐рждрзНрж░ ржУ рж▓рж┐ржбрзЗрж▓ржХрзЗ ржкрзГржержХ ржоржирзЗ ржХрж░рзЗржиред ржХрзНржпрж╛рж░рж▓рзЗрж░ ржорждрзЗ, рждрж╛рж░ ржЪрж░рж┐рждрзНрж░ржЯрж┐ ржмрж╛рж╕рзНрждржмрзЗрж░ ржХрзЛржирзЛ рж╢рж┐рж╢рзБрж░ ржУржкрж░ ржнрж┐рждрзНрждрж┐ ржХрж░рзЗ ржирж┐рж░рзНржорж┐ржд рж╣ржпрж╝ржирж┐, ржПржЯрж┐ рж╕ржорзНржкрзВрж░рзНржг ржПржХржЯрж┐ ржХрж╛рж▓рзНржкржирж┐ржХ ржЪрж░рж┐рждрзНрж░ред ржЕрзНржпрж╛рж▓рж┐рж╕тАЩ ржЕрзНржпрж╛ржбржнрзЗржЮрзНржЪрж╛рж░рзНрж╕ ржЗржи ржУржпрж╝рж╛ржирзНржбрж╛рж░рж▓рзНржпрж╛ржирзНржб-ржПрж░ ржкрзНрж░ржержо ржЦрж╕ржбрж╝рж╛ ржЕрзНржпрж╛рж▓рж┐рж╕тАЩ ржЕрзНржпрж╛ржбржнрзЗржЮрзНржЪрж╛рж░рзНрж╕ ржЖржирзНржбрж╛рж░ржЧрзНрж░рж╛ржЙржирзНржб-ржП ржЕрзНржпрж╛рж▓рж┐рж╕ ржЪрж░рж┐рждрзНрж░ржЯрж┐рж░ ржкрзНрж░ржержо ржЖржмрж┐рж░рзНржнрж╛ржмред рззрзорзмрзи рж╕рж╛рж▓рзЗрж░ рзкржарж╛ ржЬрзБрж▓рж╛ржЗржпрж╝рзЗрж░ ржПржХ рж╕ржирзНржзрзНржпрж╛ржпрж╝ ржмржирзНржзрзБ рж░ржмрж┐ржирж╕ржи ржбрж╛ржХржУржпрж╝рж╛рж░рзНрже-ржПрж░ рж╕рж╛ржерзЗ ржирзМржХрж╛ржнрзНрж░ржоржгржХрж╛рж▓рзЗ рж▓рж┐ржбрзЗрж▓ ржмрзЛржирзЗржжрзЗрж░ ржоржирзЛрж░ржЮрзНржЬржирзЗрж░ ржЬржирзНржп ржЧрж▓рзНржк ржмрж▓рж╛ рж╢рзБрж░рзБ ржХрж░рзЗржиред ржПржЗ ржзрж╛рж░рж╛ ржкрж░ржмрж░рзНрждрзА ржирзМржХрж╛ржмрж┐рж╣рж╛рж░рзЗржУ ржмржЬрж╛ржпрж╝ ржЫрж┐рж▓ ржПржмржВ ржПржЦрж╛ржи ржерзЗржХрзЗржЗ ржПржЗ ржЖржирзНржбрж╛рж░ржЧрзНрж░рж╛ржЙржирзНржб ржХрж╛рж╣рж┐ржирж┐ржЯрж┐рж░ ржЙрзОржкрждрзНрждрж┐ред ржкрж░рзЗ ржжрж╢ржо ржмрж░рзНрж╖рзАржпрж╝рж╛ ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓рзЗрж░ ржЖржмржжрж╛рж░рзЗ ржХрзНржпрж╛рж░рж▓ ржЧрж▓рзНржкржЯрж┐ржХрзЗ рж▓рж┐ржЦрж┐ржд рж░рзБржк ржжрзЗржи, ржпрж╛ рззрзорзмрзй рж╕рж╛рж▓рзЗрж░ ржлрзЗржмрзНрж░рзБржпрж╝рж╛рж░рж┐рждрзЗ рж╕ржорзНржкржирзНржи рж╣ржпрж╝ред ржЖржирзНржбрж╛рж░ржЧрзНрж░рж╛ржЙржирзНржб ржЧрж▓рзНржкрзЗ рзйрзнржЯрж┐ ржЫржмрж┐ рж░ржпрж╝рзЗржЫрзЗ, ржпрж╛рж░ ржоржзрзНржпрзЗ рзирзнржЯрж┐рждрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ рж░ржпрж╝рзЗржЫрзЗред ржЫржмрж┐рж░ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ рж╕ржЩрзНржЧрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓рзЗрж░ ржЦрзБржм рж╕рж╛ржорж╛ржирзНржп ржорж┐рж▓ ржерж╛ржХрж╛ржпрж╝ ржзрж░рж╛ рж╣ржпрж╝ ржпрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕рзЗрж░ ржЫрзЛржЯрзЛ ржмрзЛржи ржПржбрж┐ржержХрзЗ рж╣ржпрж╝рждрзЛ ржПржЗ ржЫржмрж┐рж░ ржЬржирзНржп ржоржбрзЗрж▓ рж╣рж┐рж╕рзЗржмрзЗ ржирзЗржУржпрж╝рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓ред ржХрзНржпрж╛рж░рж▓рзЗрж░ ржЕрзНржпрж╛рж▓рж┐рж╕ ржЯрж┐ржЙржирж┐ржХ ржкрж░рзЗ ржЕржирзНржпржжрж┐ржХрзЗ рж▓рж┐ржбрзЗрж▓ ржмрзЛржирзЗрж░рж╛ рж╕рзЗрж▓рж╛ржЗ ржХрж░рж╛ ржХрж╛ржкржбрж╝ ржкрж░рждред ржЧрж▓рзНржкрзЗрж░ ржЫржмрж┐ржЧрзБрж▓рж┐рждрзЗ ржкрзНрж░рж╛ржХ-рж░рж╛ржлрж╛ржпрж╝рзЗрж▓рзАржпрж╝ ржЪрж┐рждрзНрж░ржХрж░ ржжрж╛ржирзНрждрзЗ ржЧрзЗржмрзНрж░рж┐ржпрж╝рзЗрж▓ рж░рзЛрж╕рзЗржЯрж┐ ржПржмржВ ржЖрж░рзНржерж╛рж░ рж╣рж┐ржЙржЬ-ржПрж░ ржпржерзЗрж╖рзНржЯ ржкрзНрж░ржнрж╛ржм рж▓ржХрзНрж╖ ржХрж░рж╛ ржпрж╛ржпрж╝ред рззрзорзмрзк рж╕рж╛рж▓рзЗрж░ ржиржнрзЗржорзНржмрж░рзЗ ржХрзНржпрж╛рж░рж▓ рждрж╛рж░ рж╣рж╛рждрзЗ рж▓рзЗржЦрж╛ ржЕрзНржпрж╛рж▓рж┐рж╕тАЩ ржЕрзНржпрж╛ржбржнрзЗржЮрзНржЪрж╛рж░рзНрж╕ ржЖржирзНржбрж╛рж░ржЧрзНрж░рж╛ржЙржирзНржб ржмржЗржЯрж┐ ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓ржХрзЗ ржЙржкрж╣рж╛рж░ ржжрзЗржиред",рж╕ржорж╛рж▓рзЛржЪржХржжрзЗрж░ ржорждрзЗ ржЕрзНржпрж╛рж▓рж┐рж╕ ржХрзЛржи ржЪрж░рж┐рждрзНрж░ ржерзЗржХрзЗ ржЕржирзБржкрзНрж░рж╛ржгрж┐ржд?,"{'answer_start': [19, 19], 'text': ['ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓', 'ржЕрзНржпрж╛рж▓рж┐рж╕ рж▓рж┐ржбрзЗрж▓']}"
5,bn_wiki_0822_02,ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ ржЧрзНрж░рж╛рж╣рж╛ржо ржмрзЗрж▓,"рждржЦржи рждрж┐ржирж┐ рждрж╛рж░ ржмрж╛ржмрж╛рж░ ржХрж╛ржЫрзЗ рждрж╛рж░ ржмржбрж╝ ржжрзБржЗ ржнрж╛ржЗржпрж╝рзЗрж░ ржоржзрзНржпржирж╛ржорзЗрж░ ржоржд ржПржХржЯрж┐ ржоржзрзНржпржирж╛ржорзЗрж░ ржЬржирзНржп ржЖржмржжрж╛рж░ ржХрж░рзЗржиред рждрж╛рж░ ржПржЧрж╛рж░рзЛ рждржо ржЬржирзНржоржжрж┐ржирзЗ рждрж╛рж░ ржмрж╛ржмрж╛ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ ржорзЗрж▓ржнрж┐рж▓ ржмрзЗрж▓ рждрж╛рж░ржЗ ржПржХ ржХрж╛ржирж╛ржбрж┐ржпрж╝рж╛ржи ржмржирзНржзрзБрж░ ржирж╛ржо ржЕржгрзБрж╢рж╛рж░рзЗ рждрж╛рж░ ржЫрзЛржЯ ржЫрзЗрж▓рзЗрж░ ржоржзрзНржп ржирж╛ржо рж░рж╛ржЦрзЗржи ржЧрзНрж░рж╛рж╣рж╛ржоред ржПрж░ ржкрж░ ржерзЗржХрзЗржЗ рждрж╛рж░ ржирж╛ржо рж╣ржпрж╝ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ ржЧрзНрж░рж╛рж╣рж╛ржо ржмрзЗрж▓ред рждржмрзЗ ржорзГрждрзНржпрзБрж░ ржЖржЧ ржкрж░рзНржпржирзНржд рждрж╛рж░ ржкрж░рж┐ржмрж╛рж░рзЗрж░ рж╕ржжрж╕рзНржп ржПржмржВ ржмржирзНржзрзБрж░рж╛ ржПрж▓рзЗржХ ржирж╛ржорзЗржЗ ржбрж╛ржХрждред\r\nржнрж╛ржЗржжрзЗрж░ ржоржд ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ржУ ржЫрзЛржЯржмрзЗрж▓рж╛ржпрж╝ ржкрж░рж┐ржмрж╛рж░рзЗ ржмрж╛ржмрж╛рж░ ржХрж╛ржЫ ржерзЗржХрзЗржЗ рж╢рж┐ржХрзНрж╖рж╛ рж▓рж╛ржн ржХрж░рзЗред ржпржжрж┐ржУ ржЦрзБржм ржЕрж▓рзНржк ржмржпрж╝рж╕рзЗржЗ рждрж╛ржХрзЗ ржПржбрж┐ржиржмрж╛рж░рзНржЧрзЗрж░ рж░ржпрж╝рзЗрж▓ рж╣рж╛ржЗ рж╕рзНржХрзБрж▓рзЗ ржнрж░рзНрждрж┐ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓, рж╕рзЗржЦрж╛ржирзЗ рждрж┐ржирж┐ ржЪрж╛рж░ ржХрзНрж▓рж╛рж╕ ржкрж░рзНржпржирзНрждржЗ ржкржбрж╝рж╛рж╢рзЛржирж╛ ржХрж░рзЗржи ржПржмржВ ржорж╛рждрзНрж░ рззрзл ржмржЫрж░ ржмржпрж╝рж╕рзЗржЗ рж╕рзНржХрзБрж▓ ржЫрзЗржбрж╝рзЗ ржжрзЗржиред рж╕рзНржХрзБрж▓рзЗ рждрж╛рж░ ржлрж▓рж╛ржлрж▓ ржЦрзБржм ржПржХржЯрж╛ ржнрж╛рж▓ ржЫрж┐рж▓ ржирж╛ ржПржмржВ ржкрзНрж░рж╛ржпрж╝рж╢ржЗ рж╕рзНржХрзБрж▓ ржХрж╛ржорж╛ржЗ ржжрзЗржУржпрж╝рж╛рж░ ржкрзНрж░ржмржгрждрж╛ ржжрзЗржЦрж╛ ржЧрж┐ржпрж╝рзЗржЫрзЗред рждрж╛рж░ ржмрж╛ржмрж╛рж░ ржЙржЪрзНржЪрж╛рж╢рж╛ рж╕рждрзНрждрзНржмрзЗржУ рж╕рзНржХрзБрж▓рзЗрж░ ржкрж╛ржарзНржпржмрж┐рж╖ржпрж╝ржЧрзБрж▓рзЛрж░ ржкрзНрж░рждрж┐ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░рзЗрж░ ржХрзЛржи ржЖржЧрзНрж░рж╣ржЗ ржЫрж┐рж▓ ржирж╛ ржмрж░ржВ ржмрж┐ржЬрзНржЮрж╛ржи ржПржмржВ ржмрж┐рж╢рзЗрж╖ ржХрж░рзЗ ржЬрзАржмржмрж┐ржЬрзНржЮрж╛ржирзЗ рждрж╛рж░ ржорж╛рж░рж╛рждрзНржмржХ ржЖржЧрзНрж░рж╣ ржЫрж┐рж▓ред рж╕рзНржХрзБрж▓ рждрзНржпрж╛ржЧ ржХрж░рж╛рж░ ржкрж░ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ рждрж╛рж░ ржжрж╛ржжрж╛рж░ рж╕рж╛ржерзЗ ржмрж╕ржмрж╛рж╕ ржХрж░рж╛рж░ ржЬржирзНржп рж▓ржирзНржбржирзЗ ржЧржоржи ржХрж░рзЗржиред рж▓ржирзНржбржирзЗ рждрж╛рж░ ржжрж╛ржжрж╛рж░ рж╕рж╛ржерзЗ ржерж╛ржХрж╛рж░ рж╕ржоржпрж╝ ржкрж░рж╛рж╢рзБржирж╛рж░ ржкрзНрж░рждрж┐ рждрж╛рж░ ржЧржнрзАрж░ ржнрж╛рж▓ржмрж╛рж╕рж╛ ржЬржирзНржорж╛ржпрж╝ ржПржмржВ ржкрзНрж░рж╛ржпрж╝рж╢ржЗ рждрж╛рж░ ржжрж╛ржжрж╛рж░ рж╕рж╛ржерзЗ ржмрж┐ржнрж┐ржирзНржи ржмрж┐рж╖ржпрж╝рзЗрж░ ржЙржкрж░ ржЖрж▓рзЛржЪржирж╛ ржПржмржВ ржкрж░рж╛рж╢рзБржирж╛ ржХрж░рзЗ рждрж╛рж░ ржШржгрзНржЯрж╛рж░ ржкрж░ ржШржгрзНржЯрж╛ ржХрзЗржЯрзЗ ржпрзЗрждред ржжрж╛ржжрж╛ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ ржмрзЗрж▓ рждрж╛рж░ ржирж╛рждрж┐ржХрзЗ рждрж╛рж░ржЗ рж╢рж┐ржХрзНрж╖рж╛ржиржмрж┐рж╢ рж╢рж┐рж╖рзНржп рж╣рж┐рж╕рзЗржмрзЗ ржЧрзНрж░рж╣ржг ржХрж░рзЗржи ржПржмржВ рждрж╛ржХрзЗ ржПржЗ ржмрж┐рж╖ржпрж╝рзЗрж░ ржкрзНрж░рж╢рж┐ржХрзНрж╖ржХ рж╣рж┐рж╕рзЗржмрзЗ ржЧржбрж╝рзЗ рждрзЛрж▓рж╛рж░ ржЬржирзНржп ржХржарзЛрж░ ржкрж░рж┐рж╢рзНрж░ржо ржХрж░рзЗржиред ржорж╛рждрзНрж░ рззрзм ржмржЫрж░ ржмржпрж╝рж╕рзЗржЗ ржЖрж▓рзЗржХржЬрж╛ржирзНржбрж╛рж░ рж╢рж┐ржХрзНрж╖рж╛ржиржмрж┐рж╢ рж╢рж┐ржХрзНрж╖ржХ рж╣рж┐рж╕рзЗржмрзЗ рж╕рзНржХржЯрж▓рзНржпрж╛ржирзНржбрзЗрж░ ржУржпрж╝рзЗрж╕рзНржЯржи рж╣рж╛ржЙрж╕ ржПржХрж╛ржбрзЗржорж┐рждрзЗ ржпрзЛржЧржжрж╛ржи ржХрж░рзЗржиред ржпржжрж┐ржУ рждржЦржи рждрж┐ржирж┐ рж▓рзНржпрж╛ржЯрж┐ржи ржПржмржВ ржЧрзНрж░рж┐ржХ ржнрж╛рж╖рж╛рж░ ржЫрж╛рждрзНрж░ ржЫрж┐рж▓рзЗржи, рждрж┐ржирж┐ рждрж╛рж░ ржкрж░рж┐ржЪрж╛рж▓рж┐ржд ржкрзНрж░рждрзНрждрзЗржХржЯрж┐ ржХрзНрж▓рж╛рж╕рзЗрж░ ржЬржирзНржп рззрзж ржкрж╛ржЙржирзНржб ржХрж░рзЗ ржкрзЗрждрзЗржиред ржПрж░ ржкрж░рзЗрж░ ржмржЫрж░ рждрж┐ржирж┐ ржПржбрж┐ржиржмрж░рж╛ ржмрж┐рж╢рзНржмржмрж┐ржжрзНржпрж╛рж▓ржпрж╝рзЗ ржнрж░рзНрждрж┐ рж╣ржи ржпрзЗржЦрж╛ржирзЗ рждрж╛рж░ ржмржбрж╝ ржнрж╛ржЗржУ ржкржбрж╝рзЗржЫрж┐рж▓рзЗржиред рззрзорзмрзо рж╕рж╛рж▓рзЗ рж╕рзНржмржкрж░рж┐ржмрж╛рж░рзЗ ржХрж╛ржирж╛ржбрж╛ ржЪрж▓рзЗ ржпрж╛ржУржпрж╝рж╛рж░ ржЖржЧрзЗ рждрж┐ржирж┐ рж▓ржирзНржбржи ржмрж┐рж╢рзНржмржмрж┐ржжрзНржпрж╛рж▓ржпрж╝ ржерзЗржХрзЗ рждрж╛рж░ ржорзНржпрж╛ржЯрзНрж░рж┐ржХрзБрж▓рзЗрж╢ржи рж╕ржорзНржкржирзНржи ржХрж░рзЗржЫрж┐рж▓рзЗржиред",ржмрзЗрж▓ ржХрждржмржЫрж░ ржмржпрж╝рж╕рзЗ рж╕рзНржХрзБрж▓ ржЫрзЗржбрж╝рзЗ ржжрзЗржи?\r,"{'answer_start': [542, 542], 'text': ['рззрзл', 'рззрзл']}"
6,bn_wiki_2639_03,ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐,"ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐ ржПржХржЯрж┐ ржирж┐рж╖рзНржкрждрзНрждрж┐рж░ рж╕ржорж╛ржЬрждрж╛рждрзНрждрзНржмрж┐ржХ рждрждрзНрждрзНржм, ржпрзЗржЦрж╛ржирзЗ рж▓рж┐ржЩрзНржЧ ржУ ржпрзМржирждрж╛ рж╕ржорзНржкрж░рзНржХрзЗ рж╕рж╛ржорж╛ржЬрж┐ржХ ржоржирзЛржнрж╛ржмрзЗрж░ ржХрж╛рж░ржгрзЗ ржзрж░рзНрж╖ржг ржмрзНржпрж╛ржкржХ ржУ рж╕рзНржмрж╛ржнрж╛ржмрж┐ржХ рж╣ржпрж╝ред рж╕рж╛ржзрж╛рж░ржгржд ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ рж╕рж╛ржерзЗ ржЬржбрж╝рж┐ржд ржЖржЪрж░ржгржЧрзБрж▓рж┐рж░ ржоржзрзНржпрзЗ рж░ржпрж╝рзЗржЫрзЗ ржнрж┐ржХржЯрж┐ржоржХрзЗ ржжрзЛрж╖рж╛рж░рзЛржк ржХрж░рж╛, ржмрзЗрж╢рзНржпрж╛-рж▓ржЬрзНржЬрж╛ ржжрзЗржУржпрж╝рж╛, ржпрзМржи ржмрж╕рзНрждрзБ рж╣рж┐рж╕рж╛ржмрзЗ рждрзБрж▓рзЗ ржзрж░рж╛, ржзрж░рзНрж╖ржгржХрзЗ рждрзБржЪрзНржЫ ржХрж░рж╛, ржмрзНржпрж╛ржкржХ ржзрж░рзНрж╖ржгржХрзЗ ржЕрж╕рзНржмрзАржХрж╛рж░ ржХрж░рж╛, ржпрзМржи рж╕рж╣рж┐ржВрж╕рждрж╛рж░ ржХрж╛рж░ржгрзЗ ржХрзНрж╖рждрж┐ рж╕рзНржмрзАржХрж╛рж░ ржХрж░рждрзЗ ржЕрж╕рзНржмрзАржХрж╛рж░ ржХрж░рж╛, ржЕржержмрж╛ ржПржЧрзБрж▓рж┐рж░ рж╕ржВржорж┐рж╢рзНрж░ржгред ржПржЯрж┐ ржЬрзЗрж▓ ржзрж░рзНрж╖ржг рж╕рж╣ рж╕рж╛ржорж╛ржЬрж┐ржХ ржЧрзЛрж╖рзНржарзАрж░ ржоржзрзНржпрзЗ ржЖржЪрж░ржг ржмрж░рзНржгржирж╛ ржУ ржмрзНржпрж╛ржЦрзНржпрж╛ ржХрж░рж╛рж░ ржЬржирзНржп ржмрзНржпржмрж╣рж╛рж░ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрзЗ ржПржмржВ ржпрзБржжрзНржзрзЗрж░ ржзрж╛рж░рж╛ ржпрзЗржЦрж╛ржирзЗ ржоржирж╕рзНрждрж╛рждрзНрждрзНржмрж┐ржХ ржпрзБржжрзНржз рж╣рж┐рж╕рж╛ржмрзЗ ржмрзНржпржмрж╣рзГржд рж╣ржпрж╝ред рж╕ржоржЧрзНрж░ рж╕ржорж╛ржЬржХрзЗ ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐ ржмрж▓рзЗ ржЕржнрж┐ржпрзЛржЧ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржПржЯрж┐ ржзрж░рзНрж╖ржгрзЗрж░ ржХрж▓рзНржкржирж╛ ржПржмржВ ржзрж░рзНрж╖ржгрзЗрж░ ржкрж░рзНржирзЛржЧрзНрж░рж╛ржлрж┐рж░ рж╕рж╛ржерзЗ ржЬржбрж╝рж┐рждред\n\nржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ ржзрж╛рж░ржгрж╛ржЯрж┐ ржжрзНржмрж┐рждрзАржпрж╝ рждрж░ржЩрзНржЧрзЗрж░ ржирж╛рж░рзАржмрж╛ржжрзАржжрзЗрж░ ржжрзНржмрж╛рж░рж╛ рждрзИрж░рж┐ рж╣ржпрж╝рзЗржЫрж┐рж▓, ржкрзНрж░рж╛ржержорж┐ржХржнрж╛ржмрзЗ ржзрж╛рж░ржирж╛ржЯрж┐ ржпрзБржХрзНрждрж░рж╛рж╖рзНржЯрзНрж░рзЗ рззрзпрзнрзж-ржПрж░ ржжрж╢ржХрзЗ рж╢рзБрж░рзБ рж╣ржпрж╝рзЗржЫрж┐рж▓ред ржзрж╛рж░ржгрж╛рж░ рж╕ржорж╛рж▓рзЛржЪржХрж░рж╛ ржПрж░ ржЕрж╕рзНрждрж┐рждрзНржм ржмрж╛ ржмрзНржпрж╛ржкрзНрждрж┐ ржирж┐ржпрж╝рзЗ ржмрж┐рждрж░рзНржХ ржХрж░рзЗржи, ржпрзБржХрзНрждрж┐ ржжрзЗржи ржпрзЗ ржзрж╛рж░ржгрж╛ржЯрж┐ ржЦрзБржм рж╕ржВржХрзАрж░рзНржг, ржпржжрж┐ржУ ржПржоржи ржХрж┐ржЫрзБ рж╕ржВрж╕рзНржХрзГрждрж┐ ржЖржЫрзЗ ржпрзЗржЦрж╛ржирзЗ ржзрж░рзНрж╖ржг ржмрзНржпрж╛ржкржХ ржнрж╛ржмрзЗ ржкрж░рж┐рж▓ржХрзНрж╖рж┐ржд рж╣ржпрж╝, ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ ржзрж╛рж░ржгрж╛ржЯрж┐ ржмрзЛржЭрж╛рждрзЗ ржкрж╛рж░рзЗ ржпрзЗ ржзрж░рзНрж╖ржХ ржжрзЛрж╖рзА ржиржпрж╝ ржмрж░ржВ рж╕ржорж╛ржЬ ржзрж░рзНрж╖ржгржХрзЗ рж╕ржХрзНрж╖ржо ржХрж░рзЗред\n\nржЕржирзЗржХ ржЖржирзНржжрзЛрж▓ржи ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ рж╕ржорзНржмрзЛржзржи ржХрж░рзЗржЫрзЗ, ржпрзЗржоржи рж╕рзНрж▓рж╛ржЯ ржУржпрж╝рж╛ржХ ржУ ржорж┐ ржЯрзБ ред ржПржЗ "" ржорж┐ ржЯрзБ "" ржЖржирзНржжрзЛрж▓ржиржЯрж┐ ржкрзНрж░ржержо рзирзжрзжрзм рж╕рж╛рж▓рзЗ ржЖржорзЗрж░рж┐ржХрж╛ржи ржХрж░рзНржорзА ржУ ржпрзМржи ржирж┐ржкрзАржбрж╝ржирзЗрж░ ржмрзЗржБржЪрзЗ ржерж╛ржХрж╛ рждрж╛рж░рж╛ржирж╛ ржмрж╛рж░рзНржХ ржХрж░рзНрждрзГржХ рж╕ржВржЧржарж┐ржд рж╣ржпрж╝ред ржПржЗ ржЖржирзНржжрзЛрж▓ржиржЧрзБрж▓рж┐ ржзрж░рзНрж╖ржгрзЗрж░ рж╕рж╛ржерзЗ ржорзВрж░рзНржд ржУ рж╕ржВржпрзБржХрзНржд рж╣рзНржпрж╛рж╢ржЯрзНржпрж╛ржЧрзЗрж░ ржорж╛ржзрзНржпржорзЗ ржорж╛ржирзБрж╖рзЗрж░ ржЧрж▓рзНржк рж╢рзЗржпрж╝рж╛рж░ ржХрж░рждрзЗ рж╕рж╛рж╣рж╛ржпрзНржп ржУ ржПржХржЯрж┐ ржЕржирж▓рж╛ржЗржи рж╕рзНржерж╛ржи ржкрзНрж░ржжрж╛ржи ржХрж░рзЗржЫрзЗ, ржпрзЗржЦрж╛ржирзЗ ржмрж┐ржнрж┐ржирзНржи ржзрж░ржирзЗрж░ ржпрзМржи рж╕рж╣рж┐ржВрж╕рждрж╛рж░ рж╢рж┐ржХрж╛рж░ рж╣ржУржпрж╝рж╛ ржмрзНржпржХрзНрждрж┐рж░рж╛ рждрж╛ржжрзЗрж░ ржЧрж▓рзНржк ржмрж▓рждрзЗ ржкрж╛рж░рзЗ ржПржмржВ ржПржХрзЗ ржЕржкрж░ржХрзЗ ржмрж┐рж╢рзНржмрж╛рж╕ ржХрж░рждрзЗ ржкрж╛рж░рзЗред\n\nржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐ ржирж╛рж░рзА ржУ ржкрзБрж░рзБрж╖ ржЙржнржпрж╝рзЗрж░ ржЬржирзНржпржЗ ржХрзНрж╖рждрж┐ржХрж░ ржмрж▓рзЗ ржмрж░рзНржгржирж╛ ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржЬрзНржпрж╛ржХрж╕ржи ржХрж╛рждржЬ, ржорж╛ржЗржХрзЗрж▓ ржХрж┐ржорзЗрж▓ ржУ ржбржи ржорзНржпрж╛ржХржлрж╛рж░рж╕ржирзЗрж░ ржорждрзЛ ржХрж┐ржЫрзБ рж▓рзЗржЦржХ ржУ ржмржХрзНрждрж╛рж░рж╛ ржмрж▓рзЗржЫрзЗржи ржпрзЗ ржПржЯрж┐ рж▓рж┐ржЩрзНржЧрзЗрж░ ржнрзВржорж┐ржХрж╛ржЧрзБрж▓рж┐рж░ рж╕рж╛ржерзЗ рж╕рзНржмрждржирзНрждрзНрж░ржнрж╛ржмрзЗ ржпрзБржХрзНржд, ржпрж╛ ржкрзБрж░рзБрж╖ржжрзЗрж░ ржЖрждрзНржо-ржкрзНрж░ржХрж╛рж╢ржХрзЗ рж╕рзАржорж╛ржмржжрзНржз ржХрж░рзЗ ржПржмржВ ржкрзБрж░рзБрж╖ржжрзЗрж░ ржорж╛ржирж╕рж┐ржХ ржХрзНрж╖рждрж┐ ржХрж░рзЗред рж░рж╛рж╖рзНржЯрзНрж░ржмрж┐ржЬрзНржЮрж╛ржирзА ржЖржЗрж░рж┐рж╕ ржорзНржпрж╛рж░рж┐ржпрж╝ржи ржЗржпрж╝ржВ-ржПрж░ ржорждрзЗ, ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ рж╢рж┐ржХрж╛рж░ рж╣ржУржпрж╝рж╛ ржмрзНржпрж╛ржХрзНрждрж┐рж░рж╛ ржирж┐ржкрзАржбрж╝ржиржорзВрж▓ржХ ржпрзМржи рж╕рж╣рж┐ржВрж╕рждрж╛рж░ рж▓ржХрзНрж╖рзНржпрж╣рзАржи ржХрж░рзНржорзЗрж░ ржнржпрж╝рзЗ ржмрж╕ржмрж╛рж╕ ржХрж░рзЗржи, ржпрж╛ рж╢рж┐ржХрж╛рж░ рж╣ржУржпрж╝рж╛ ржмрзНржпрж╛ржХрзНрждрж┐ржжрзЗрж░ ржХрзНрж╖рждрж┐ржЧрзНрж░рж╕рзНржд ржмрж╛ ржЕржкржорж╛ржирж┐ржд ржХрж░рж╛рж░ ржЙржжрзНржжрзЗрж╢рзНржпрзЗ ржХрж░рж╛ рж╣ржпрж╝ред ржЕржирзНржпрж░рж╛ ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐ржХрзЗ ржЖржзрзБржирж┐ржХрзАржХрж░ржг ржПржмржВ рж╢рж┐рж▓рзНржкрж╛ржпрж╝ржирзЗрж░ рж╕рж╛ржерзЗ ржпрзБржХрзНржд ржХрж░рзЗ, ржпрзБржХрзНрждрж┐ ржжрзЗржпрж╝ ржпрзЗ ржкрзНрж░рж╛ржХ-рж╢рж┐рж▓рзНржк рж╕ржорж╛ржЬрзЗ ""ржзрж░рзНрж╖ржг ржорзБржХрзНржд"" рж╕ржВрж╕рзНржХрзГрждрж┐ ржЫрж┐рж▓, ржпрзЗрж╣рзЗрждрзБ ржПржЗ рж╕ржорж╛ржЬржЧрзБрж▓рж┐рждрзЗ ржорж╣рж┐рж▓рж╛ржжрзЗрж░ ржирж┐ржорзНржи ржорж░рзНржпрж╛ржжрж╛ рждрж╛ржжрзЗрж░ ржпрзМржи рж╕рж╣рж┐ржВрж╕рждрж╛ ржерзЗржХрзЗ ржХрж┐ржЫрзБржЯрж╛ ржкрзНрж░рждрж┐рж░рзЛржз ржжрзЗржпрж╝ред рж╢рж┐рж▓рзНржк ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рждрзЗ ржирж╛рж░рзАрж░рж╛ рждрж╛ржжрзЗрж░ ржЧрзГрж╣рж╕рзНржерж╛рж▓рзАрж░ ржнрзВржорж┐ржХрж╛ ржерзЗржХрзЗ ржмрзЗрж░рж┐ржпрж╝рзЗ ржЖрж╕рзЗ ржПржмржВ ржХрж░рзНржоржХрзНрж╖рзЗрждрзНрж░ ржУ ржЕржирзНржпрж╛ржирзНржп ржЕржЮрзНржЪрж▓рзЗ ржРрждрж┐рж╣рзНржпржЧрждржнрж╛ржмрзЗ ржкрзБрж░рзБрж╖ржжрзЗрж░ ржжрзНржмрж╛рж░рж╛ ржкрзНрж░ржнрж╛ржмрж┐ржд рж╣ржпрж╝рзЗ ржжрзГрж╢рзНржпржорж╛ржи рж╣ржпрж╝рзЗ ржУржарзЗ, ржкрзБрж░рзБрж╖рзЗрж░ ржирж┐рж░рж╛ржкрждрзНрждрж╛рж╣рзАржирждрж╛ ржмрзГржжрзНржзрж┐ ржкрж╛ржпрж╝, ржпрж╛рж░ ржлрж▓рзЗ рждрж╛рж░рж╛ ржзрж░рзНрж╖ржгржХрзЗ ржмрзНржпржмрж╣рж╛рж░ ржХрж░рзЗ ржирж╛рж░рзАржХрзЗ ржжржоржи ржХрж░рзЗред рж╣рзНржпрж╛ржБ",ржзрж░рзНрж╖ржг рж╕ржВрж╕рзНржХрзГрждрж┐рж░ ржзрж╛рж░ржгрж╛ржЯрж┐ ржХрж┐ ржжрзНржмрж┐рждрзАржпрж╝ рждрж░ржЩрзНржЧрзЗрж░ ржирж╛рж░рзАржмрж╛ржжрзАржжрзЗрж░ ржжрзНржмрж╛рж░рж╛ рждрзИрж░рж┐ рж╣ржпрж╝рзЗржЫрж┐рж▓ ?,"{'answer_start': [2420, 2420], 'text': ['рж╣рзНржпрж╛ржБ', 'рж╣рзНржпрж╛ржБ']}"
7,bn_wiki_0494_02,ржШрзВрж░рзНржгржХ ржЧрзБржкрзНрждрж▓рж┐ржЦржи ржпржирзНрждрзНрж░,"ржПржХржЯрж┐ ржорзЗрж╢рж┐ржи рждрзИрж░рж┐ ржХрж░рж╛рж░ ржЬржирзНржп рждрзБрж▓ржирж╛ржпрж╝ ржПржЯрж┐ рж╕рж╣ржЬ ржкрзНрж░рждрж┐рж╕рзНржерж╛ржкржи рж╕рж╣ржЬржмрзЛржзрзНржпред ржЖржорж░рж╛ рзирзмржЯрж┐ рж▓рж╛ржЗржЯ ржмрж╛рж▓рзНржм рж╕ржВржпрзБржХрзНржд рзирзмржЯрж┐ рж╕рзБржЗржЪ ржПрж░ рж╕ржЩрзНржЧрзЗ ржПржХржЯрж┐ ржмрзИржжрзНржпрзБрждрж┐ржХ рж╕рж┐рж╕рзНржЯрзЗржо ржмрж┐ржмрзЗржЪржирж╛ ржХрж░рждрзЗ ржкрж╛рж░рзЗржи;ржпржЦржи ржЖржкржирж┐ ржХрзЛржи рж╕рзБржЗржЪ ржЪрж╛рж▓рзБ ржХрж░рзЗржи,ржмрж╛рж▓рзНржмрзЗрж░ ржЖрж▓рзЛ ржЖрж▓рзЛржХрж┐ржд рж╣ржпрж╝ред ржкрзНрж░рждрж┐ржЯрж┐ рж╕рзБржЗржЪ ржПржХржЯрж┐ ржЯрж╛ржЗржкрж░рж╛ржЗржЯрж╛рж░ ржПржХржЯрж┐ ржХрзА(ржЪрж╛ржмрж┐) ржжрзНржмрж╛рж░рж╛ ржкрж░рж┐ржЪрж╛рж▓рж┐ржд рж╣ржпрж╝ ржПржмржВ ржмрж╛рж▓рзНржмржХрзЗ ржЕржХрзНрж╖рж░ ржжрж┐ржпрж╝рзЗ рж▓рзЗржмрзЗрж▓ ржХрж░рж╛ рж╣ржпрж╝,рждрж╛рж░ржкрж░ ржПржЗ ржзрж░ржирзЗрж░ ржПржХржЯрж┐ рж╕рж┐рж╕рзНржЯрзЗржо ржХрзА ржПржмржВ ржХрзА-ржмрзЛрж░рзНржбрзЗрж░ ржоржзрзНржпрзЗ рждрж╛рж░рзЗрж░ ржУржпрж╝рж╛рж░рж┐ржВ ржирж┐рж░рзНржмрж╛ржЪржи ржХрж░рзЗ ржПржиржХрзНрж░рж┐ржкрзНржЯрзЗрж╢ржирзЗрж░ ржЬржирзНржп ржмрзНржпржмрж╣рж╛рж░ ржХрж░рж╛ ржпрзЗрждрзЗ ржкрж╛рж░рзЗ: ржЙржжрж╛рж╣рж░ржгрж╕рзНржмрж░рзВржк,ржП ржЕржХрзНрж╖рж░ржЯрж┐ ржЯрж╛ржЗржк ржХрж░рж▓рзЗ ржЖрж▓рзЛрж░ ржХрж┐ржЙ рж▓рзЗржмрзЗрж▓ржЯрж┐ рж▓рж╛ржЗржЯ ржЖржк ржХрж░ржмрзЗред ржпрж╛ржЗрж╣рзЛржХ, ржУржпрж╝рзНржпрж╛рж░рж┐ржВ рж╕ржВрж╢рзЛржзржи ржХрж░рзЗ,рж╕рж╛ржорж╛ржирзНржп ржирж┐рж░рж╛ржкрждрзНрждрж╛ ржкрзНрж░ржжрж╛ржи ржХрж░рж╛ рж╣ржпрж╝ред\nрж░ржЯрж╛рж░ ржорзЗрж╢рж┐ржирзЗ ржПржЗ ржзрж╛рж░ржгрж╛ржЯрж┐ ржирж┐рж░рзНржорж╛ржг ржХрж░рж╛ рж╣ржпрж╝,ржЖрж╕рж▓рзЗ ржкрзНрж░рждрж┐ржЯрж┐ ржХрзА рж╕рзНржЯрзНрж░рзЛржХ ржПрж░ рж╕ржЩрзНржЧрзЗ рждрж╛рж░рзЗрж░ ржкрж░рж┐ржмрж░рзНрждржиред ржУржпрж╝рзНржпрж╛рж░рж┐ржВ ржПржХржЯрж┐ рж░ржЯрж╛рж░ ржнрж┐рждрж░рзЗ рж╕рзНржерж╛ржкржи ржХрж░рж╛ рж╣ржпрж╝ ржПржмржВ рждрж╛рж░ржкрж░ ржПржХржЯрж┐ ржЕржХрзНрж╖рж░ ржЪрж╛ржкрж╛ рж╣ржпрж╝ ржкрзНрж░рждрж┐ржЯрж┐ ржПржХржЯрж┐ ржЧрж┐ржпрж╝рж╛рж░рзЗрж░ рж╕ржЩрзНржЧрзЗ ржШрзБрж░рждрзЗ ржерж╛ржХрзЗред рждрж╛ржЗ ржкрзНрж░ржержоржмрж╛рж░ ржП ржЪрж╛ржкрж▓рзЗ ржкрзНрж░ржержоржмрж╛рж░ ржПржХржЯрж┐ ржХрж┐ржЙ рждрзИрж░рж┐ рж╣ржпрж╝,ржкрж░ржмрж░рзНрждрзА рж╕ржоржпрж╝рзЗ ржПржЯрж┐ ржЬрзЗ рждрзИрж░рж┐ ржХрж░рждрзЗ ржкрж╛рж░рзЗред ржХрзАржмрзЛрж░рзНржбрзЗрж░ ржЪрж╛ржкрзЗ ржкрзНрж░рждрж┐ржЯрж┐ ржЕржХрзНрж╖рж░ рж░ржЯрж╛рж░ржЯрж┐ржХрзЗ рж╕рзНржкрж┐ржи ржХрж░ржмрзЗ ржПржмржВ ржПржХржЯрж┐ ржкрж▓рж┐ржЕрзНржпрж╛рж▓рзНржлрж╛ржмрзЗржЯрж┐ржХ ржкрзНрж░рждрж┐рж╕рзНржерж╛ржкржи рж╕рж╛ржЗржлрж╛рж░ ржмрж╛рж╕рзНрждржмрж╛ржпрж╝ржи ржХрж░ржмрзЗред\nрж░ржЯрж╛рж░ ржЖржХрж╛рж░рзЗрж░ ржЙржкрж░ ржирж┐рж░рзНржнрж░ ржХрж░рзЗ,ржПржЯрж┐ рж╣рж╛рждрзЗрж░ рж╕рж╛ржЗржлрж╛рж░ржЧрзБрж▓рж┐рж░ ржерзЗржХрзЗ ржирж┐рж░рж╛ржкржж рж╣рждрзЗ ржкрж╛рж░рзЗ ржирж╛ред ржпржжрж┐ рж░ржЯрж╛рж░ржЯрж┐рж░ ржЙржкрж░рзЗ рж╢рзБржзрзБржорж╛рждрзНрж░ рзирзмржЯрж┐ ржЕржХрзНрж╖рж░ ржЕржмрж╕рзНржерж╛ржи ржерж╛ржХрзЗ,ржкрзНрж░рждрж┐ржЯрж┐ ржЕржХрзНрж╖рж░рзЗрж░ ржЬржирзНржп ржПржХ,рждрж╛рж╣рж▓рзЗ рж╕ржорж╕рзНржд ржмрж╛рж░рзНрждрж╛ржЧрзБрж▓рж┐ ржПржХржЯрж┐ (ржкрзБржирж░рж╛ржмрзГрждрзНрждрж┐) ржХрзА, рзирзм ржЕржХрзНрж╖рж░ ржжрзАрж░рзНржШ ржерж╛ржХржмрзЗред ржпржжрж┐ржУ ржорзВрж▓ржЯрж┐ (ржмрзЗрж╢рж┐рж░ржнрж╛ржЧржЗ рж░ржЯрж╛рж░рзЗрж░ ржУржпрж╝рзНржпрж╛рж░рж┐ржВржЧрзБрж▓рж┐рждрзЗ рж▓рзБржХрж╛ржирзЛ) рж╕ржорзНржнржмржд ржирж╛ржУ рж╣рждрзЗ ржкрж╛рж░рзЗ, рждржмрзЗ ржПржЗ ржзрж░ржирзЗрж░ рж╕рж╛ржЗржлрж╛рж░ржжрзЗрж░ ржЖржХрзНрж░ржоржгрзЗрж░ ржкржжрзНржзрждрж┐ржЧрзБрж▓рж┐рж░ рждржерзНржп ржкрзНрж░ржпрж╝рзЛржЬржи рж╣ржпрж╝ ржирж╛ред рж╕рзБрждрж░рж╛ржВ ржпржЦржи ржПржХржЯрж┐ ржПржХржХ рж░ржЯрж╛рж░ ржорзЗрж╢рж┐ржи ржмрзНржпржмрж╣рж╛рж░ ржХрж░рж╛ рж╕рж╣ржЬ,ржПржЯрж┐ ржЕржирзНржп ржХрзЛржи ржЖржВрж╢рж┐ржХ ржкрж▓рж┐ржЕрзНржпрж╛рж▓рзНржлрж╛ржмрзЗржЯрж┐ржХ рж╕рж╛ржЗржлрж╛рж░ рж╕рж┐рж╕рзНржЯрзЗржорзЗрж░ ржЪрзЗржпрж╝рзЗ ржЖрж░ рж╕рзБрж░ржХрзНрж╖рж┐ржд ржиржпрж╝ред\nржХрж┐ржирзНрждрзБ ржПржЯрж╛ ржарж┐ржХ ржХрж░рж╛ рж╕рж╣ржЬред ржХрзЗржмрж▓ ржПржХрзЗ ржЕржкрж░рзЗрж░ ржкрж╛рж╢рзЗ рж░ржЯрж╛рж░ рж╕рзНржЯрзНржпрж╛ржХ ржПржмржВ рждрж╛ржжрзЗрж░ ржПржХрж╕ржЩрзНржЧрзЗ ржЧрж┐ржпрж╝рж╛рж░ред ржкрзНрж░ржержо рж░ржЯрж╛рж░ рж╕рзНржкрж┐ржи ржкрж░рзЗ ржПржЯрж┐ ржкрж╛рж╢рж╛ржкрж╛рж╢рж┐ рж░ржЯрж╛рж░ ржПржХржЯрж┐ ржЕржмрж╕рзНржерж╛ржи рж╕рзНржкрж┐ржи ржХрж░рждрзЗ рж╣ржмрзЗред ржПржЦржи ржЖржкржирж╛рж░ ржХрзА(ржЪрж╛ржмрж┐) ржкрзБржирж░рж╛ржмрзГрждрзНрждрж┐ ржХрж░рж╛рж░ ржЖржЧрзЗ рзирзм├Чрзирзм = рзмрзнрзмржЯрж┐ ржЕржХрзНрж╖рж░ (рж▓рзНржпрж╛ржЯрж┐ржи ржмрж░рзНржгржорж╛рж▓рж╛рж░ ржЬржирзНржп) ржЯрж╛ржЗржк ржХрж░рждрзЗ рж╣ржмрзЗ,ржПржмржВ ржПржЦржирзЛ ржПржЯрж┐ рж╢рзБржзрзБржорж╛рждрзНрж░ ржЖржкржирж╛ржХрзЗ рж╕рзЗржЯ ржХрж░рж╛рж░ ржЬржирзНржп ржжрзБржЯрж┐ ржЕржХрзНрж╖рж░рзЗрж░/рж╕ржВржЦрзНржпрж╛ржЧрзБрж▓рж┐рж░ ржПржХржЯрж┐ ржХрзА ржпрзЛржЧрж╛ржпрзЛржЧ ржХрж░рждрзЗ рж╣ржмрзЗред ржпржжрж┐ рзмрзнрзмржЯрж┐ рж▓рж╛ржЗржирзЗрж░ ржПржХржЯрж┐ ржХрзА ржпржерзЗрж╖рзНржЯ ржирж╛ рж╣ржпрж╝, рждржмрзЗ ржЖрж░рзЗржХржЯрж┐ рж░ржЯрж╛рж░ ржпрзЛржЧ ржХрж░рж╛ ржпрж╛ржмрзЗ,ржлрж▓рзЗ рззрзн,рзлрзнрзм ржЕржХрзНрж╖рж░ ржжрзАрж░рзНржШ рж╣ржмрзЗред\nржПржирж╕рж╛ржЗржлрж╛рж░рзЗрж░ ржорждрзЛ ржкрж╛ржарзНржпржмржЗржпрж╝рзЗрж░ ржорждрзЛ рж╕рж╣ржЬ рж╕рж░рж▓ рж╣ржУржпрж╝рж╛рждрзЗ,ржХрж┐ржЫрзБ рж░ржЯрж╛рж░ ржорзЗрж╢рж┐ржиржЧрзБрж▓рж┐,ржмрж┐рж╢рзЗрж╖ ржХрж░рзЗ ржПржирж┐ржЧржорж╛ ржорзЗрж╢рж┐ржиржЯрж┐,ржЕржирзБржнрзВржорж┐ржХржнрж╛ржмрзЗ ржбрж┐ржЬрж╛ржЗржи ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрзЗ,ржпрзЗржоржи ржПржХржЗ рж╕рзЗржЯрж┐ржВрж╕ ржжрж┐ржпрж╝рзЗ ржжрзБржмрж╛рж░ ржПржиржХрзНрж░рж┐ржкрзНржЯ ржХрж░рзЗ ржЖрж╕рж▓ ржмрж╛рж░рзНрждрж╛рж░ ржкрзБржирж░рж╛ржмрзГрждрзНрждрж┐ред",рж░ржЯрж╛рж░ ржХрж┐рж╕рзЗрж░ ржЙржкрж░ ржирж┐рж░рзНржнрж░ ржХрж░рзЗ?,"{'answer_start': [956, 956], 'text': ['ржЖржХрж╛рж░рзЗрж░', 'ржЖржХрж╛рж░рзЗрж░']}"
8,bn_wiki_0898_02,ржирж┐ржЙржХрзНрж▓рзАржпрж╝ ржЧржмрзЗрж╖ржгрж╛рж░ ржЬржирзНржп ржЗржЙрж░рзЛржкрзАржпрж╝ рж╕ржВрж╕рзНржерж╛,"ржирж┐ржЙржХрзНрж▓рзАржпрж╝ ржЧржмрзЗрж╖ржгрж╛рж░ ржЬржирзНржп ржЗржЙрж░рзЛржкрзАржпрж╝ рж╕ржВрж╕рзНржерж╛ ржПржХржЯрж┐ ржЗржЙрж░рзЛржкрзАржпрж╝ ржЧржмрзЗрж╖ржгрж╛ рж╕ржВрж╕рзНржерж╛ ржпрж╛ ржмрж┐рж╢рзНржмрзЗрж░ рж╕рж░рзНржмржмрзГрж╣рзО ржХржгрж╛ ржкржжрж╛рж░рзНржержмрж┐ржЬрзНржЮрж╛ржи ржЧржмрзЗрж╖ржгрж╛ржЧрж╛рж░ ржкрж░рж┐ржЪрж╛рж▓ржирж╛ржпрж╝ ржирж┐ржпрж╝рзЛржЬрж┐рждред рж╕ржВрж╕рзНржерж╛ржЯрж┐рж░ ржорзВрж▓ ржлрж░рж╛рж╕рж┐ ржирж╛ржо рж╣рж▓ ржЕрж░рзНржЧрж╛ржирж┐ржЬрж╛рж╕рж┐ржУржБ ржУрж░рзЛржкрзЗржПржи ржкрзБрж░ рж▓рж╛ рж░рж╢рзЗрж░рзНрж╢ ржирзНржпрзБржХрзНрж▓рзЗржпрж╝рзНржпрж╛рж░, рждржмрзЗ ржлрж░рж╛рж╕рж┐рждрзЗ ржПржЯрж┐ рж╕ржВржХрзНрж╖рзЗржкрзЗ рж╕рзЗрж░рзНржи ржирж╛ржорзЗржЗ ржмрзЗрж╢рж┐ ржкрж░рж┐ржЪрж┐рждред ржЗржВрж░рзЗржЬрж┐рждрзЗ рж╕ржВрж╕рзНржерж╛ржЯрж┐рж░ ржирж╛ржо ржЗржЙрж░рзЛржкрж┐ржпрж╝рж╛ржи ржЕрж░рзНржЧрж╛ржирж╛ржЗржЬрзЗрж╢ржи ржлрж░ ржирж┐ржЙржХрзНрж▓рж┐ржпрж╝рж╛рж░ рж░рж┐рж╕рж╛рж░рзНржЪ, рждржмрзЗ рж╕ржВржХрзНрж╖рзЗржкрзЗ ржлрж░рж╛рж╕рж┐ ""рж╕рзЗрж░рзНржи"" ржЖржжрзНржпржХрзНрж╖рж░рж╛ржЯрж┐ржХрзЗ ржЗржВрж░рзЗржЬрж┐рж░ ржорждрзЛ ржХрж░рзЗ ""рж╕рж╛рж░рзНржи"" ржЙржЪрзНржЪрж╛рж░ржг ржХрж░рж╛ рж╣ржпрж╝ред рж╕ржВрж╕рзНржерж╛ржЯрж┐рж░ ржЖржжрж┐ ржлрж░рж╛рж╕рж┐ ржирж╛ржо ржХрзЛржБрж╕рзЗржЗ ржУрж░рзЛржкрзЗржпрж╝рж╛ржБ ржкрзБрж░ рж▓рж╛ рж░рж╢рзЗрж░рзНрж╢ ржирзНржпрзБржХрзНрж▓рзЗржпрж╝рзНржпрж╛рж░ -ржПрж░ ржЖржжрзНржпржХрзНрж╖рж░ ржЪрждрзБрж╖рзНржЯржпрж╝ рж╕рж┐, ржП, рж░, ржУ ржи ржерзЗржХрзЗ рж╕рзЗрж░рзНржи ржЖржжрзНржпржХрзНрж╖рж░рж╛ржЯрж┐рж░ ржЙрзОржкрждрзНрждрж┐, ржпрж╛рж░ ржмрж╛ржВрж▓рж╛ ржЕрж░рзНрже рж╣ржпрж╝ ""ржирж┐ржЙржХрзНрж▓рзАржпрж╝ ржЧржмрзЗрж╖ржгрж╛рж░ ржЬржирзНржп ржЗржЙрж░рзЛржкрзАржпрж╝ ржкрж░рж┐рж╖ржж""ред\nрж╕ржВрж╕рзНржерж╛ржЯрж┐ ржлрзНрж░рж╛ржирзНрж╕ ржУ рж╕рзБржЗржЬрж╛рж░рж▓рзНржпрж╛ржирзНржбрзЗрж░ рж╕рзАржорж╛ржирзНрждрзЗрж░ ржХрж╛ржЫрзЗ рж╕рзБржЗржЬрж╛рж░рж▓рзНржпрж╛ржирзНржбрзЗрж░ ржлрж░рж╛рж╕рж┐ржнрж╛рж╖рзА ржЬрзЗржирзЗржнрж╛ рж╢рж╣рж░рзЗрж░ ржЙрждрзНрждрж░-ржкрж╢рзНржЪрж┐ржорзЗрж░ ржПржХржЯрж┐ рж╢рж╣рж░рждрж▓рзА ржорзЗрж░рж╛ржБ ржкрзМрж░рж╕ржнрж╛рждрзЗ ржЕржмрж╕рзНржерж┐рждред рззрзпрзлрзк рж╕рж╛рж▓рзЗрж░ рзирзпрж╢рзЗ рж╕рзЗржкрзНржЯрзЗржорзНржмрж░ рждрж╛рж░рж┐ржЦрзЗ ржЕржирзБрж╖рзНржарж┐ржд ржПржХ рж╕ржнрж╛ржпрж╝ рж╕рзЗрж░рзНржи ржкрзНрж░рждрж┐рж╖рзНржарж╛рж░ ржкрзНрж░рж╕рзНрждрж╛ржмржЯрж┐ рж╕рзНржмрж╛ржХрзНрж╖рж░рж┐ржд рж╣ржпрж╝ред ржкрзНрж░рж╕рзНрждрж╛ржмрзЗ рж╕рзНржмрж╛ржХрзНрж╖рж░ржХрж╛рж░рзА рж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ рж╕ржВржЦрзНржпрж╛ рж╢рзБрж░рзБрждрзЗ ржорж╛рждрзНрж░ рззрзи ржерж╛ржХрж▓рзЗржУ ржмрж░рзНрждржорж╛ржирзЗ ржПржЗ рж╕ржжрж╕рзНржп рж░рж╛рж╖рзНржЯрзНрж░рзЗрж░ рж╕ржВржЦрзНржпрж╛ ржмрзЗржбрж╝рзЗ рзирзй-ржП ржжрж╛ржБржбрж╝рж┐ржпрж╝рзЗржЫрзЗред ржПржжрзЗрж░ ржоржзрзНржпрзЗ ржЗрж╕рж░рж╛ржпрж╝рзЗрж▓ ржПржХржорж╛рждрзНрж░ ржЕ-ржЗржЙрж░рзЛржкрзАржпрж╝ рж░рж╛рж╖рзНржЯрзНрж░ рж╣рж┐рж╕рзЗржмрзЗ ржкрзВрж░рзНржг рж╕ржжрж╕рзНржпрзЗрж░ ржорж░рзНржпрж╛ржжрж╛ рж▓рж╛ржн ржХрж░рзЗржЫрзЗред рж╕рзЗрж░рзНржи ржЬрж╛рждрж┐рж╕ржВржШрзЗрж░ рж╕рж╛ржзрж╛рж░ржг ржкрж░рж┐рж╖ржжрзЗрж░ ржЖржирзБрж╖рзНржарж╛ржирж┐ржХ ржкрж░рзНржпржмрзЗржХрзНрж╖ржХрж╕ржорзВрж╣рзЗрж░ ржПржХржЯрж┐ред\nрж╕рзЗрж░рзНржирзЗрж░ ржЧржмрзЗрж╖ржгрж╛ржЧрж╛рж░рзЗ рзирзжрззрзп рж╕рж╛рж▓рзЗ рзи рж╣рж╛ржЬрж╛рж░ рзм рж╢рждрзЗрж░ржУ ржмрзЗрж╢рж┐ ржмрж┐ржЬрзНржЮрж╛ржирзА, ржХрж╛рж░рж┐ржЧрж░ ржУ ржкрзНрж░рж╢рж╛рж╕ржирж┐ржХ ржХрж░рзНржоржЪрж╛рж░рзА ржХрж░рзНржорж░ржд ржЫрж┐рж▓рзЗржиред рж╕рзЗ ржмржЫрж░ ржмрж┐рж╢рзНржмрзЗрж░ рзнрзжржЯрж┐рж░ ржмрзЗрж╢рж┐ ржжрзЗрж╢рзЗ ржмрж┐ржнрж┐ржирзНржи ржЧржмрзЗрж╖ржгрж╛ рж╕ржВрж╕рзНржерж╛ ржерзЗржХрзЗ ржЖржЧржд рззрзи рж╣рж╛ржЬрж╛рж░ рзк рж╢ржд ржмрзНржпржмрж╣рж╛рж░ржХрж╛рж░рзА ржПржЦрж╛ржирзЗ ржХрж╛ржЬ ржХрж░рзЗржиред ржЧржмрзЗрж╖ржгрж╛ржЧрж╛рж░рзЗрж░ ржкрж░рзАржХрзНрж╖рж╛ржЧрзБрж▓рж┐ ржерзЗржХрзЗ ржкрзНрж░рждрж┐ржжрж┐ржи ржЧржбрж╝рзЗ ржПржХ ржкрзЗржЯрж╛ржмрж╛ржЗржЯ ржЙржкрж╛рждрзНржд (рззрзж рж▓ржХрзНрж╖ ржЧрж┐ржЧрж╛ржмрж╛ржЗржЯ) ржкрзНрж░ржХрзНрж░рж┐ржпрж╝рж╛ржЬрж╛ржд ржХрж░рж╛ рж╣ржпрж╝ред ржПрж░ ржоржзрзНржпрзЗ ржкрзНрж░рждрж┐ ржмржЫрж░ ржкрзНрж░рж╛ржпрж╝ рззрззрзл ржкрзЗржЯрж╛ржмрж╛ржЗржЯ ржЙржкрж╛рждрзНржд рж╕ржВрж░ржХрзНрж╖ржг ржХрж░рзЗ рж░рж╛ржЦрж╛ рж╣ржпрж╝ред",рж╕ржВрж╕рзНржерж╛ржЯрж┐рж░ ржорзВрж▓ ржлрж░рж╛рж╕рж┐ ржирж╛ржо ржХрзА?,"{'answer_start': [163, 163], 'text': ['ржЕрж░рзНржЧрж╛ржирж┐ржЬрж╛рж╕рж┐ржУржБ ржУрж░рзЛржкрзЗржПржи ржкрзБрж░ рж▓рж╛ рж░рж╢рзЗрж░рзНрж╢ ржирзНржпрзБржХрзНрж▓рзЗржпрж╝рзНржпрж╛рж░', 'ржЕрж░рзНржЧрж╛ржирж┐ржЬрж╛рж╕рж┐ржУржБ ржУрж░рзЛржкрзЗржПржи ржкрзБрж░ рж▓рж╛ рж░рж╢рзЗрж░рзНрж╢ ржирзНржпрзБржХрзНрж▓рзЗржпрж╝рзНржпрж╛рж░']}"
9,bn_wiki_1336_04,ржХрж░рж╛ржЪрж┐ ржЪрзЗржорзНржмрж╛рж░ ржЕржл ржХржорж╛рж░рзНрж╕ ржЕрзНржпрж╛ржирзНржб ржЗржирзНржбрж╛рж╕рзНржЯрзНрж░рж┐,"ржХрж░рж╛ржЪрж┐ ржЪрзЗржорзНржмрж╛рж░ ржЕржл ржХржорж╛рж░рзНрж╕ ржЕрзНржпрж╛ржирзНржб ржЗржирзНржбрж╛рж╕рзНржЯрзНрж░рж┐ (ржХрзЗрж╕рж┐рж╕рж┐ржЖржЗ) рззрзпрзлрзп рж╕рж╛рж▓рзЗ ржкрзНрж░рждрж┐рж╖рзНржарж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓ ржПржмржВ рждрж╛рж░ржкрж░рзЗ ржерзЗржХрзЗржЗ ржПржЯрж┐ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржЕрж░рзНржержирзАрждрж┐рж░ ржкрж░рж┐рж╖рзЗржмрж╛ ржжрж┐ржЪрзНржЫрзЗ ржПржмржВ ржжрзЗрж╢ржЯрж┐рж░ ржЙржирзНржиржпрж╝ржи ржУ ржЕржЧрзНрж░ржЧрждрж┐рждрзЗ ржЕржмржжрж╛ржи рж░рж╛ржЦржЫрзЗред ржХрзЗрж╕рж┐ржкрж┐ржЖржЗ ржмрзНржпржХрзНрждрж┐ржЧржд ржХрзЛржорзНржкрж╛ржирж┐ржЧрзБрж▓рзЛржХрзЗ рж╕ржорж░рзНржержи ржУ рж╕рзЗржмрж╛ ржкрзНрж░ржжрж╛ржи ржПржмржВ рж╕ржорж╕рзНржпрж╛рж░ рж╕ржорж╛ржзрж╛ржи ржХрж░рждрзЗ ржЪрзЗрж╖рзНржЯрж╛ ржХрж░рзЗред ржПржХржЯрж┐ рж╕ржВрж╕рзНржерж╛ рж╣рж┐рж╕рзЗржмрзЗ, ржПржЯрж┐ рж╕ржВржмрж╛ржж ржорж╛ржзрзНржпржорзЗрж░ рждрзИрж░рж┐ ржмрж┐ржмрзГрждрж┐ ржПржмржВ ржХрж░рж╛ржЪрж┐ ржУ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржоржзрзНржпрзЗ ржмрж░рзНрждржорж╛ржи ржЕрж░рзНржержирзИрждрж┐ржХ ржУ ржЖрж░рзНржерж┐ржХ ржмрж┐рж╖ржпрж╝ржЧрзБрж▓рзЛрж░ ржЙржкрж░ ржорждрж╛ржоржд ржкрзНрж░ржХрж╛рж╢ ржХрж░рзЗред ржХрж░рж╛ржЪрж┐ ржмрж╛ржгрж┐ржЬрзНржп ржУ рж╢рж┐рж▓рзНржкрзЗрж░ ржЪрзЗржорзНржмрж╛рж░ рж╣рж▓рзЛ ржжрзЗрж╢ржЯрж┐рж░ ржПржХржЯрж┐ ржкрзНрж░ржзрж╛ржи ржЪрзЗржорзНржмрж╛рж░ред ржПржЯрж┐ ржжрзЗрж╢рзЗрж░ рж╢рж┐рж▓рзНржк, ржмрж╛ржгрж┐ржЬрзНржпрж┐ржХ ржУ ржЕрж░рзНржержирзИрждрж┐ржХ ржХрж░рзНржоржХрж╛ржирзНржбрзЗрж░ ржорзВрж▓ржзрж╛рж░рж╛рж░ ржкрзНрж░рждрж┐ржирж┐ржзрж┐рждрзНржм ржХрж░рзЗ ржерж╛ржХрзЗред ржПржЯрж┐ рззрзпрзлрзп рж╕рж╛рж▓рзЗ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржорж╛рж░рзНржЪрзЗржирзНржЯрж╕ ржПрж╕рзЛрж╕рж┐ржпрж╝рзЗрж╢ржи, ржмрж╛ржпрж╝рж╛рж░рж╕ ржЕрзНржпрж╛ржирзНржб рж╢рж┐ржкрж╛рж░рж╕ ржХржорзНржмрж╛рж░, ржЪрзЗржорзНржмрж╛рж░ ржЕржм ржХржорж╛рж░рзНрж╕ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржПржмржВ ржЕрж▓ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржи ржЪрзЗржорзНржмрж╛рж░ ржЕржл ржХржорж╛рж░рзНрж╕ ржЕрзНржпрж╛ржирзНржб ржЗржирзНржбрж╛рж╕рзНржЯрзНрж░рж┐ ржирж╛ржорзЗ ржЪрж╛рж░ржЯрж┐ ржмрж╛ржгрж┐ржЬрзНржп рж╕ржВрж╕рзНржерж╛рж░ рж╕ржоржирзНржмржпрж╝рзЗ ржЧржарж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓ред[рзк] ржПржЯрж┐ рззрзпрзмрзз рж╕рж╛рж▓рзЗ ржЯрзНрж░рзЗржб ржЕрж░рзНржЧрж╛ржирж╛ржЗржЬрзЗрж╢ржи ржЕрж░рзНржбрж┐ржирзНржпрж╛ржирзНрж╕рзЗрж░ ржЕржзрзАржирзЗ ржирж┐ржмржирзНржзрж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓, ржпрж╛ ржжрзЗрж╢рзЗ ржЯрзНрж░рзЗржб рж╕ржВрж╕рзНржерж╛рж░ ржХрж╛ржЬржХрзЗ ржирж┐ржпрж╝ржирзНрждрзНрж░ржг ржХрж░рзЗред ржЪрзЗржорзНржмрж╛рж░ ржПржмржВ ржПрж░ ржнржмржирзЗрж░ ржЗрждрж┐рж╣рж╛рж╕рзЗрж░ рж╕рж╛ржерзЗ ржорж╣рж╛рждрзНржорж╛ ржЧрж╛ржирзНржзрзА рж╕ржорзНржкрж░рзНржХрж┐ржд, ржпрж┐ржирж┐ рззрзпрзкрзй рж╕рж╛рж▓рзЗрж░ рзоржЗ ржЬрзБрж▓рж╛ржЗ, ржХрж░рж╛ржЪрж┐ ржЗржирзНржбрж┐ржпрж╝рж╛ржи ржорж╛рж░рзНржЪрзЗржирзНржЯ ржЕрзНржпрж╛рж╕рзЛрж╕рж┐ржпрж╝рзЗрж╢ржирзЗрж░ ржнрж┐рждрзНрждрж┐ ржкрзНрж░рж╕рзНрждрж░ рж╕рзНржерж╛ржкржи ржХрж░рзЗржЫрж┐рж▓рзЗржиред ржПржЯрж┐ ржкрж╛ржХрж┐рж╕рзНрждрж╛ржирзЗрж░ ржПржХржЯрж┐ ржРрждрж┐рж╣рж╛рж╕рж┐ржХ рж╕рзНржорзГрждрж┐рж╕рзНрждржорзНржнред",ржХрзЛржиржЯрж┐ ржжрзЗрж╢рзЗ ржЯрзНрж░рзЗржб рж╕ржВрж╕рзНржерж╛рж░ ржХрж╛ржЬржХрзЗ ржирж┐ржпрж╝ржирзНрждрзНрж░ржг ржХрж░рзЗ ?,"{'answer_start': [793, 793], 'text': ['ржЯрзНрж░рзЗржб ржЕрж░рзНржЧрж╛ржирж╛ржЗржЬрзЗрж╢ржи ржЕрж░рзНржбрж┐ржирзНржпрж╛ржирзНрж╕', 'ржЯрзНрж░рзЗржб ржЕрж░рзНржЧрж╛ржирж╛ржЗржЬрзЗрж╢ржи ржЕрж░рзНржбрж┐ржирзНржпрж╛ржирзНрж╕рзЗрж░']}"


## Preprocessing the training data

Before we can feed those texts to our model, we need to preprocess them. This is done by a ЁЯдЧ Transformers `Tokenizer` which will (as the name indicates) tokenize the inputs (including converting the tokens to their corresponding IDs in the pretrained vocabulary) and put it in a format the model expects, as well as generate the other inputs that model requires.

To do all of this, we instantiate our tokenizer with the `AutoTokenizer.from_pretrained` method, which will ensure:

- we get a tokenizer that corresponds to the model architecture we want to use,
- we download the vocabulary used when pretraining this specific checkpoint.

That vocabulary will be cached, so it's not downloaded again the next time we run the cell.

In [11]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

The following assertion ensures that our tokenizer is a fast tokenizers (backed by Rust) from the ЁЯдЧ Tokenizers library. Those fast tokenizers are available for almost all models, and we will need some of the special features they have for our preprocessing.

In [12]:
import transformers
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

You can check which type of models have a fast tokenizer available and which don't on the [big table of models](https://huggingface.co/transformers/index.html#bigtable).

You can directly call this tokenizer on two sentences (one for the answer, one for the context):

In [13]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

Note that we never want to truncate the question, only the context, else the `only_second` truncation picked. Now, our tokenizer can automatically return us a list of features capped by a certain maximum length, with the overlap we talked above, we just have to tell it with `return_overflowing_tokens=True` and by passing the stride:

Now we don't have one list of `input_ids`, but several:

And if we decode them, we can see the overlap:

Now this will give us some work to properly treat the answers: we need to find in which of those features the answer actually is, and where exactly in that feature. The models we will use require the start and end positions of these answers in the tokens, so we will also need to to map parts of the original context to some tokens. Thankfully, the tokenizer we're using can help us with that by returning an `offset_mapping`:

So we can use this mapping to find the position of the start and end tokens of our answer in a given feature. We just have to distinguish which parts of the offsets correspond to the question and which part correspond to the context, this is where the `sequence_ids` method of our `tokenized_example` can be useful:

In [None]:
sequence_ids = tokenized_example.sequence_ids()
print(sequence_ids)

And we can double check that it is indeed the theoretical answer:

For this notebook to work with any kind of models, we need to account for the special case where the model expects padding on the left (in which case we switch the order of the question and the context):

In [14]:
pad_on_right = tokenizer.padding_side == "right"

Now let's put everything together in one function we will apply to our training set. In the case of impossible answers (the answer is in another feature given by an example with a long context), we set the cls index for both the start and end position. We could also simply discard those examples from the training set if the flag `allow_impossible_answers` is `False`. Since the preprocessing is already complex enough as it is, we've kept is simple for this part.

In [15]:
def prepare_train_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)

    return tokenized_examples

This function works with one or several examples. In the case of several examples, the tokenizer will return a list of lists for each key:

To apply this function on all the sentences (or pairs of sentences) in our dataset, we just use the `map` method of our `dataset` object we created earlier. This will apply the function on all the elements of all the splits in `dataset`, so our training, validation and testing data will be preprocessed in one single command. Since our preprocessing changes the number of samples, we need to remove the old columns when applying it.

In [16]:
tokenized_datasets = datasets.map(prepare_train_features, batched=True, remove_columns=datasets["train"].column_names)

Map:   0%|          | 0/9565 [00:00<?, ? examples/s]

Map:   0%|          | 0/1182 [00:00<?, ? examples/s]

Map:   0%|          | 0/1172 [00:00<?, ? examples/s]

Even better, the results are automatically cached by the ЁЯдЧ Datasets library to avoid spending time on this step the next time you run your notebook. The ЁЯдЧ Datasets library is normally smart enough to detect when the function you pass to map has changed (and thus requires to not use the cache data). For instance, it will properly detect if you change the task in the first cell and rerun the notebook. ЁЯдЧ Datasets warns you when it uses cached files, you can pass `load_from_cache_file=False` in the call to `map` to not use the cached files and force the preprocessing to be applied again.

Note that we passed `batched=True` to encode the texts by batches together. This is to leverage the full benefit of the fast tokenizer we loaded earlier, which will use multi-threading to treat the texts in a batch concurrently.

## Fine-tuning the model

Now that our data is ready for training, we can download the pretrained model and fine-tune it. Since our task is question answering, we use the `AutoModelForQuestionAnswering` class. Like with the tokenizer, the `from_pretrained` method will download and cache the model for us:

In [17]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer

model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

2024-06-12 15:29:18.439519: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-06-12 15:29:18.439633: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-06-12 15:29:18.578539: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Some weights of XLMRobertaForQuestionAnswering were not initialized from the model checkpoint at FacebookAI/xlm-roberta-base and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


The warning is telling us we are throwing away some weights (the `vocab_transform` and `vocab_layer_norm` layers) and randomly initializing some other (the `pre_classifier` and `classifier` layers). This is absolutely normal in this case, because we are removing the head used to pretrain the model on a masked language modeling objective and replacing it with a new head for which we don't have pretrained weights, so the library warns us we should fine-tune this model before using it for inference, which is exactly what we are going to do.

To instantiate a `Trainer`, we will need to define three more things. The most important is the [`TrainingArguments`](https://huggingface.co/transformers/main_classes/trainer.html#transformers.TrainingArguments), which is a class that contains all the attributes to customize the training. It requires one folder name, which will be used to save the checkpoints of the model, and all other arguments are optional:

In [18]:
model_name = model_checkpoint.split("/")[-1]
args = TrainingArguments(
    f"{model_name}-finetuned-RQA-confirmation",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="no",
    push_to_hub=True,
)



Here we set the evaluation to be done at the end of each epoch, tweak the learning rate, use the `batch_size` defined at the top of the notebook and customize the number of epochs for training, as well as the weight decay.

The last argument to setup everything so we can push the model to the [Hub](https://huggingface.co/models) regularly during training. Remove it if you didn't follow the installation steps at the top of the notebook. If you want to save your model locally in a name that is different than the name of the repository it will be pushed, or if you want to push your model under an organization and not your name space, use the `hub_model_id` argument to set the repo name (it needs to be the full name, including your namespace: for instance `"sgugger/bert-finetuned-squad"` or `"huggingface/bert-finetuned-squad"`).

Then we will need a data collator that will batch our processed examples together, here the default one will work:

In [19]:
from transformers import default_data_collator

data_collator = default_data_collator

We will evaluate our model and compute metrics in the next section (this is a very long operation, so we will only compute the evaluation loss during training).

Then we just need to pass all of this along with our datasets to the `Trainer`:

In [20]:
#small_train_dataset = tokenized_datasets["train"].select(range(60000))  # Selecting the first 1000 examples

# Now, you can pass this smaller dataset to the Trainer
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

We can now finetune our model by just calling the `train` method:

In [21]:
trainer.train()

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

  ┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖┬╖


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


Epoch,Training Loss,Validation Loss
1,1.0104,0.792556
2,0.7661,0.745149
3,0.5942,0.739113


TrainOutput(global_step=3681, training_loss=0.8744924265999601, metrics={'train_runtime': 2529.019, 'train_samples_per_second': 23.28, 'train_steps_per_second': 1.456, 'total_flos': 1.1537884914624e+16, 'train_loss': 0.8744924265999601, 'epoch': 3.0})

Since this training is particularly long, let's save the model just in case we need to restart.

In [22]:
trainer.save_model("XLMBERT-RQA-confirmation")

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s]

events.out.tfevents.1718206188.8cb7b71e7a24.34.0:   0%|          | 0.00/7.59k [00:00<?, ?B/s]

training_args.bin:   0%|          | 0.00/5.18k [00:00<?, ?B/s]

## Evaluation

Evaluating our model will require a bit more work, as we will need to map the predictions of our model back to parts of the context. The model itself predicts logits for the start and en position of our answers: if we take a batch from our validation datalaoder, here is the output our model gives us:

In [23]:
import torch

for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

odict_keys(['loss', 'start_logits', 'end_logits'])

The output of the model is a dict-like object that contains the loss (since we provided labels), the start and end logits. We won't need the loss for our predictions, let's have a look a the logits:

In [24]:
output.start_logits.shape, output.end_logits.shape

(torch.Size([16, 384]), torch.Size([16, 384]))

We have one logit for each feature and each token. The most obvious thing to predict an answer for each featyre is to take the index for the maximum of the start logits as a start position and the index of the maximum of the end logits as an end position.

In [25]:
output.start_logits.argmax(dim=-1), output.end_logits.argmax(dim=-1)

(tensor([123,   0, 159,   0,   0, 186,   0,   0, 204,   0,   0,   0,  33,   0,
          25,   0], device='cuda:0'),
 tensor([126,   0, 160,   0,   0, 188,   0,   0, 215,   0,   0,   0,  45,   0,
          26,   0], device='cuda:0'))

This will work great in a lot of cases, but what if this prediction gives us something impossible: the start position could be greater than the end position, or point to a span of text in the question instead of the answer. In that case, we might want to look at the second best prediction to see if it gives a possible answer and select that instead.

However, picking the second best answer is not as easy as picking the best one: is it the second best index in the start logits with the best index in the end logits? Or the best index in the start logits with the second best index in the end logits? And if that second best answer is not possible either, it gets even trickier for the third best answer.


To classify our answers, we will use the score obtained by adding the start and end logits. We won't try to order all the possible answers and limit ourselves to with a hyper-parameter we call `n_best_size`. We'll pick the best indices in the start and end logits and gather all the answers this predicts. After checking if each one is valid, we will sort them by their score and keep the best one. Here is how we would do this on the first feature in the batch:

In [26]:
n_best_size = 20

In [27]:
import numpy as np

start_logits = output.start_logits[0].cpu().numpy()
end_logits = output.end_logits[0].cpu().numpy()
# Gather the indices the best start/end logits:
start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
valid_answers = []
for start_index in start_indexes:
    for end_index in end_indexes:
        if start_index <= end_index: # We need to refine that test to check the answer is inside the context
            valid_answers.append(
                {
                    "score": start_logits[start_index] + end_logits[end_index],
                    "text": "" # We need to find a way to get back the original substring corresponding to the answer in the context
                }
            )

And then we can sort the `valid_answers` according to their `score` and only keep the best one. The only point left is how to check a given span is inside the context (and not the question) and how to get back the text inside. To do this, we need to add two things to our validation features:
- the ID of the example that generated the feature (since each example can generate several features, as seen before);
- the offset mapping that will give us a map from token indices to character positions in the context.

That's why we will re-process the validation set with the following function, slightly different from `prepare_train_features`:

In [28]:
def prepare_validation_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples

And like before, we can apply that function to our validation set easily:

In [29]:
validation_features = datasets["validation"].map(
    prepare_validation_features,
    batched=True,
    remove_columns=datasets["validation"].column_names
)

Map:   0%|          | 0/1182 [00:00<?, ? examples/s]

Now we can grab the predictions for all features by using the `Trainer.predict` method:

In [30]:
raw_predictions = trainer.predict(validation_features)

The `Trainer` *hides* the columns that are not used by the model (here `example_id` and `offset_mapping` which we will need for our post-processing), so we set them back:

In [31]:
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

We can now refine the test we had before: since we set `None` in the offset mappings when it corresponds to a part of the question, it's easy to check if an answer is fully inside the context. We also eliminate very long answers from our considerations (with an hyper-parameter we can tune)

In [32]:
max_answer_length = 15

In [33]:
start_logits = output.start_logits[0].cpu().numpy()
end_logits = output.end_logits[0].cpu().numpy()
offset_mapping = validation_features[0]["offset_mapping"]
# The first feature comes from the first example. For the more general case, we will need to be match the example_id to
# an example index
context = datasets["validation"][0]["context"]

# Gather the indices the best start/end logits:
start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
valid_answers = []
for start_index in start_indexes:
    for end_index in end_indexes:
        # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
        # to part of the input_ids that are not in the context.
        if (
            start_index >= len(offset_mapping)
            or end_index >= len(offset_mapping)
            or offset_mapping[start_index] is None
            or offset_mapping[end_index] is None
        ):
            continue
        # Don't consider answers with a length that is either < 0 or > max_answer_length.
        if end_index < start_index or end_index - start_index + 1 > max_answer_length:
            continue
        if start_index <= end_index: # We need to refine that test to check the answer is inside the context
            start_char = offset_mapping[start_index][0]
            end_char = offset_mapping[end_index][1]
            valid_answers.append(
                {
                    "score": start_logits[start_index] + end_logits[end_index],
                    "text": context[start_char: end_char]
                }
            )

valid_answers = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[:n_best_size]
valid_answers

[{'score': 13.580887, 'text': 'рж▓рзНржпрзБржнрж░'},
 {'score': 12.440959, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ'},
 {'score': 11.779528, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛'},
 {'score': 11.646145, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░'},
 {'score': 11.4228115, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ ржжрзБржЯрж┐'},
 {'score': 9.310792, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБ'},
 {'score': 8.682725, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ ржжрзБржЯрж┐ рж╕'},
 {'score': 8.25496, 'text': 'рж▓рзНржпрзБржн'},
 {'score': 7.5626016, 'text': 'рж▓'},
 {'score': 7.3709507, 'text': 'ред рж▓рзНржпрзБржнрж░'},
 {'score': 7.074316, 'text': 'ржжрзБржЯрж┐'},
 {'score': 6.3805876, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ ржжрзБржЯрж┐ рж╕рж╛рж░'},
 {'score': 6.2310233, 'text': 'ред рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ'},
 {'score': 5.771965, 'text': 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ ржжрзБржЯрж┐ рж╕рж╛рж░ржЧржирж┐ржХ'},
 {'score': 5.7438116

We can compare to the actual ground-truth answer:

In [34]:
datasets["validation"][0]["answers"]

{'answer_start': [292, 292], 'text': ['рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ', 'рж▓рзНржпрзБржнрж░ ржЬрж╛ржжрзБржШрж░рзЗ']}

Our model picked the right as the most likely answer!

As we mentioned in the code above, this was easy on the first feature because we knew it comes from the first example. For the other features, we will need a map between examples and their corresponding features. Also, since one example can give several features, we will need to gather together all the answers in all the features generated by a given example, then pick the best one. The following code builds a map from example index to its corresponding features indices:

In [35]:
import collections

examples = datasets["validation"]
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

We're almost ready for our post-processing function. The last bit to deal with is the impossible answer (when `squad_v2 = True`). The code above only keeps answers that are inside the context, we need to also grab the score for the impossible answer (which has start and end indices corresponding to the index of the CLS token). When one example gives several features, we have to predict the impossible answer when all the features give a high score to the impossible answer (since one feature could predict the impossible answer just because the answer isn't in the part of the context it has access too), which is why the score of the impossible answer for one example is the *minimum* of the scores for the impossible answer in each feature generated by the example.

We then predict the impossible answer when that score is greater than the score of the best non-impossible answer. All combined together, this gives us this post-processing function:

In [36]:
from tqdm.auto import tqdm

def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None # Only used if squad_v2 is True.
        valid_answers = []

        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )

        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}

        # Let's pick our final answer: the best one or the null answer (only for squad_v2)
        if not squad_v2:
            predictions[example["id"]] = best_answer["text"]
        else:
            answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
            predictions[example["id"]] = answer

    return predictions

And we can apply our post-processing function to our raw predictions:

In [37]:
final_predictions = postprocess_qa_predictions(datasets["validation"], validation_features, raw_predictions.predictions)

Post-processing 1182 example predictions split into 2469 features.


  0%|          | 0/1182 [00:00<?, ?it/s]

Then we can load the metric from the datasets library.

In [38]:

!pip install evaluate -q

  pid, fd = os.forkpty()
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [39]:
import evaluate

metric = evaluate.load("squad_v2")

Downloading builder script:   0%|          | 0.00/6.47k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/11.3k [00:00<?, ?B/s]

In [40]:
theoretical_answers = [
    {"id": ex["id"], "answers": ex["answers"]} for ex in datasets["validation"]
]

In [41]:
 formatted_predictions = [{"id": k, "prediction_text": v} for k, v in final_predictions.items()]
formatted_predictions = [{"id": k, "prediction_text": v, "no_answer_probability": 0.0} for k, v in final_predictions.items()]
     

In [None]:
for pred, true in zip(formatted_predictions, theoretical_answers):
    print("ID:", pred["id"])
    print("Predicted Answer:", pred["prediction_text"])
    print("True Answer:", true["answers"])
    print()

In [43]:
theoretical_answers[2]
     

{'id': 'bn_wiki_2812_03',
 'answers': {'answer_start': [399, 399],
  'text': ['ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ', 'ржжрзНржмрж╛ржжрж╢ рж╢рждрж╛ржмрзНржжрзАрждрзЗ']}}

Then we can call compute on it. We just need to format predictions and labels a bit as it expects a list of dictionaries and not one big dictionary. In the case of squad_v2, we also have to set a `no_answer_probability` argument (which we set to 0.0 here as we have already set the answer to empty if we picked it).

In [44]:
metric.compute(predictions=formatted_predictions, references=theoretical_answers)

{'exact': 47.88494077834179,
 'f1': 60.038975495562674,
 'total': 1182,
 'HasAns_exact': 64.97695852534562,
 'HasAns_f1': 81.5277293038653,
 'HasAns_total': 868,
 'NoAns_exact': 0.6369426751592356,
 'NoAns_f1': 0.6369426751592356,
 'NoAns_total': 314,
 'best_exact': 47.71573604060914,
 'best_exact_thresh': 0.0,
 'best_f1': 59.86977075782999,
 'best_f1_thresh': 0.0}

You can now upload the result of the training to the Hub, just execute this instruction:

In [45]:
trainer.push_to_hub()

CommitInfo(commit_url='https://huggingface.co/AsifAbrar6/xlm-roberta-base-finetuned-RQA-confirmation/commit/a4cd0a2cd96e849689f808506a1ef2a604730880', commit_message='End of training', commit_description='', oid='a4cd0a2cd96e849689f808506a1ef2a604730880', pr_url=None, pr_revision=None, pr_num=None)

You can now share this model with all your friends, family, favorite pets: they can all load it with the identifier `"your-username/the-name-you-picked"` so for instance:

```python
from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained("sgugger/my-awesome-model")
```

In [46]:
from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained("AsifAbrar6/xlm-roberta-base-finetuned-RQA-confirmation")

config.json:   0%|          | 0.00/727 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

In [69]:
from transformers import pipeline, AutoModelForQuestionAnswering, AutoTokenizer

model_name = "AsifAbrar6/xlm-roberta-base-finetuned-RQA-confirmation"

# Load the model and tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)


# a) Get predictions
nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
    'question': 'ржврж╛ржХрж╛ ржХрж┐ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ рж░рж╛ржЬржзрж╛ржирзА?',
    'context': 'рж╣рзНржпрж╛ржБ ржирж╛ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржжржХрзНрж╖рж┐ржг ржПрж╢рж┐ржпрж╝рж╛рж░ ржПржХржЯрж┐ ржЧрзБрж░рзБрждрзНржмржкрзВрж░рзНржг ржжрзЗрж╢ред ржПрж░ рж░рж╛ржЬржзрж╛ржирзА ржврж╛ржХрж╛, ржпрж╛ ржжрзЗрж╢ржЯрж┐рж░ ржмрзГрж╣рждрзНрждржо рж╢рж╣рж░ржУ ржмржЯрзЗред ржмрж╛ржВрж▓рж╛ржжрзЗрж╢ ржкрзНрж░ржХрзГрждрж┐рж░ рж╕рзМржирзНржжрж░рзНржпрзЗ ржнрж░ржкрзБрж░ред ржПржЦрж╛ржирзЗ рж░ржпрж╝рзЗржЫрзЗ рж╕рзБржирзНржжрж░ржмржи, ржпрж╛ ржкрзГржерж┐ржмрзАрж░ рж╕ржмржЪрзЗржпрж╝рзЗ ржмржбрж╝ ржорзНржпрж╛ржиржЧрзНрж░рзЛржн ржмржиред ржПржЫрж╛ржбрж╝рж╛ ржХржХрзНрж╕ржмрж╛ржЬрж╛рж░ рж╕ржорзБржжрзНрж░ рж╕рзИржХржд рж░ржпрж╝рзЗржЫрзЗ, ржпрж╛ ржкрзГржерж┐ржмрзАрж░ ржжрзАрж░рзНржШрждржо ржЕржЦржгрзНржбрж┐ржд ржмрж╛рж▓рзБржХрж╛ржоржпрж╝ рж╕ржорзБржжрзНрж░ рж╕рзИржХрждред ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ ржкрзНрж░ржзрж╛ржи ржиржжрзА ржкржжрзНржорж╛, ржорзЗржШржирж╛, ржПржмржВ ржпржорзБржирж╛ред ржжрзЗрж╢рзЗрж░ ржЕрж░рзНржержирзАрждрж┐ ржХрзГрж╖рж┐ржнрж┐рждрзНрждрж┐ржХ рж╣рж▓рзЗржУ рж╢рж┐рж▓рзНржк ржЦрж╛рждржУ ржзрзАрж░рзЗ ржзрзАрж░рзЗ ржмрж┐ржХрж╢рж┐ржд рж╣ржЪрзНржЫрзЗред ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ рж╕ржВрж╕рзНржХрзГрждрж┐, ржнрж╛рж╖рж╛, ржПржмржВ ржРрждрж┐рж╣рзНржп ржЕрждрзНржпржирзНржд рж╕ржорзГржжрзНржзред'
}
res = nlp(QA_input)


In [70]:
print(res)

{'score': 0.42931875586509705, 'start': 0, 'end': 5, 'answer': 'рж╣рзНржпрж╛ржБ'}
