In [10]:
from datasets import load_dataset
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

# Описание датасета

SQuAD (Stanford Question Answering Dataset) — один из самых известных датасетов в области обработки естественного языка, созданный Стэнфордским университетом. Он был разработан для задачи извлечения ответов на вопросы из заданных текстов. Датасет используется в основном для оценки и обучения моделей машинного обучения в постановке задачи извлечения ответа на вопрос (QA — Question Answering).

# Характеристики датасета

### 1. Структура:

    1.1. Датасет состоит из набора текстов (обычно отрывков из статей Википедии) и связанных с ними вопросов.
    
    1.2. Каждый вопрос снабжен ответом, который представляет собой фрагмент текста из соответствующего отрывка.
    

### 2. Варианты датасета:

    2.1.SQuAD v1.1: Первая версия датасета содержит более 100,000 пар вопрос-ответ. Основной задачей здесь является нахождение ответа в заданном контексте. Ответ всегда присутствует в отрывке текста.
    
    2.2. SQuAD v2.0: Вторая версия добавляет приблизительно 50,000 дополнительных вопросов, для которых ответы в тексте отсутствуют. Модели должны уметь определять, когда на вопрос нет ответа. 
    
В данной работе воспользуюсь версией датасета SQuAD v2.0. Ниже посмотрим на пример вопроса и ответа.


In [11]:
squad_dataset = load_dataset("squad_v2")

train_data = squad_dataset['train']
print("Пример вопроса и ответа:")
for i in range(3):
    print(train_data[i]['question'])
    print(train_data[i]['answers'])

Пример вопроса и ответа:
When did Beyonce start becoming popular?
{'text': ['in the late 1990s'], 'answer_start': [269]}
What areas did Beyonce compete in when she was growing up?
{'text': ['singing and dancing'], 'answer_start': [207]}
When did Beyonce leave Destiny's Child and become a solo singer?
{'text': ['2003'], 'answer_start': [526]}


In [44]:
train_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 130319
})

## Поле id

Является уникальным идентификатором объекта данных.

## Поле title

Поле title - название темы (по типу тэга).

## Поле context

Поле context - это полный текст новости\заметки, в котором необходимо выбрать часть, которая является ответом на конкретный вопрос.

## Поле question

Полный текст вопроса.

## Поле answers

Текста ответа - часть из поля context.


## Поле answer_start

В датасете SQuAD (Stanford Question Answering Dataset) поле answer_start указывает на позицию начала первого символа ответа в тексте контекста.

Когда в SQuAD датасете представлен вопрос, он сопровождается фрагментом текста (контекста), из которого извлекается ответ. answer_start указывает на индекс символа в контексте, с которого начинается текст ответа.

Например, если контекст будет "Париж - столица Франции", а ответ на вопрос "Какая столица Франции?" — это слово "Париж", то answer_start будет равен 0, так как "Париж" начинается с первого символа контекста.

In [67]:
print(f"Количество объектов на трейне: {squad_dataset['train'].shape[0]}")
print(f"Количество объектов на валидации: {squad_dataset['validation'].shape[0]}")

Количество объектов на трейне: 130319
Количество объектов на валидации: 11873


In [65]:
num_passes = 0
for i in range(len(train_data)):
    if not train_data[i]['answers']['text']:
        num_passes += 1
        
print(f"Количество пропущенных ответов на трейне: {num_passes}")

Количество пропущенных ответов на трейне: 43498


In [66]:
num_passes = 0
for i in range(len(squad_dataset['validation'])):
    if not train_data[i]['answers']['text']:
        num_passes += 1
        
print(f"Количество пропущенных ответов на валидации: {num_passes}")

Количество пропущенных ответов на валидации: 2387


## Вывод

В валидацию попало совсем мало пропущенных значений с масштабах данных, метрику необходимо подобрать так, чтобы это учитывать.