# Домашнее задание 3
## Yes/No Questions

deadline: 4 декабря 2022, 23:59 МСК

В этом домашнем задании вы будете работать с корпусом DaNetQA. Корпус состоит из вопросов, предполагающих бинарный ответ (да / нет), абзацев из Википедии, содержащих ответ на вопрос, и непосредственно ответа (true / false).

Корпус описан в статье:

Glushkova, T., Machnev, A., Fenogenova, A., Shavrina, T., Artemova, E., & Ignatov, D. I. (2020, October). Danetqa: a yes/no question answering dataset for the russian language. In International Conference on Analysis of Images, Social Networks and Texts (pp. 57-68). Springer, Cham.

https://arxiv.org/abs/2010.02605


Корпус (train-val-test split) доступен по ссылке: https://russiansuperglue.com/ru/tasks/task_info/DaNetQA

Используйте для обучения train часть корпуса, для валидации val и тестирования – test часть. 

Каждый бонус пункт оценивается в 1 балл. 

### Пример вопроса: 
question: Был ли человек на луне?

label (answer): true

text (passage): В период с 1969 по 1972 год по программе «Аполлон» было выполнено 6 полётов с посадкой на Луне. Всего на Луне высаживались 12 астронавтов США. Список космонавтов Список космонавтов — участников орбитальных космических полётов Список астронавтов США — участников орбитальных космических полётов Список космонавтов СССР и России — участников космических полётов Список женщин-космонавтов Список космонавтов, посещавших МКС Энциклопедия астронавтики.

## ПРАВИЛА
1. Домашнее задание выполняется в группе до 4-х человек.
2. Домашнее задание оформляется в виде отчета либо в .pdf файле, либо в ipython-тетрадке. При этом ipynb-файл прилагается обязательно. 
3. Отчет должен содержать: нумерацию заданий и пунктов, которые вы выполнили, код решения, и понятное пошаговое описание того, что вы сделали. Отчет должен быть написан в академическом стиле, без излишнего использования сленга и с соблюдением норм русского языка.
4. Не стоит копировать фрагменты лекций, статей и Википедии в ваш отчет.
5. Отчеты, состоящие исключительно из кода, не будут проверены и будут автоматически оценены нулевой оценкой.
6. Плагиат и любое недобросовестное цитирование приводит к обнулению оценки. 

## Часть 1. [1 балл] Эксплоративный анализ
1. Посчитайте долю yes и no классов в корпусе.
2. Оцените среднюю длину вопроса.
3. Оцените среднюю длину параграфа.
4. Предположите, по каким эвристикам были собраны вопросы. Продемонстрируйте, как эти эвристики повлияли на структуру корпуса.

In [1]:
import json
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# local_varsion
# train_path = "data/train.jsonl"
# val_path = "data/val.jsonl"
# test_path = "data/test.jsonl"

# colab version:
train_path = "/content/drive/MyDrive/data/train.jsonl"
val_path = "/content/drive/MyDrive/data/val.jsonl"
test_path = "/content/drive/MyDrive/data/test.jsonl"


def read_data(path_data):
    with open(path_data, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        data = []
        for line in lines:
            data.append(json.loads(line))
        return data

train_data = read_data(train_path)
val_data = read_data(val_path)
test_data = read_data(test_path)

In [4]:
print(len(train_data))
print(len(val_data))
print(len(test_data))

1749
821
805


In [5]:
df_train = pd.DataFrame.from_records(train_data)
df_val = pd.DataFrame.from_records(val_data)
df_test = pd.DataFrame.from_records(test_data)

In [6]:
df_train.head()

Unnamed: 0,question,passage,label,idx
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,True,0
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",True,1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,True,2
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",True,3
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,False,4


In [7]:
df_train['label'].value_counts()

True     1061
False     688
Name: label, dtype: int64

In [8]:
df_train["label"] = df_train["label"].astype(int)
df_train = df_train.drop(["idx"], axis=1)
df_val["label"] = df_val["label"].astype(int)
df_val = df_val.drop(["idx"], axis=1)
df_test = df_test.drop(["idx"], axis=1)

In [9]:
df_train.head()

Unnamed: 0,question,passage,label
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,1
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,1
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",1
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,0


Посмотрим на среднюю длинну символов

In [10]:
print(f'mean len for passages: {df_train["passage"].apply(len).mean()}')
print(f'mean len for questions: {df_train["question"].apply(len).mean()}')

mean len for passages: 723.1149228130361
mean len for questions: 41.63064608347627


Посмотрим на среднее количество слов

In [11]:
print(f'mean len for passages: {df_train["passage"].str.split().apply(len).mean()}')
print(f'mean len for questions: {df_train["question"].str.split().apply(len).mean()}')

mean len for passages: 98.34877072612922
mean len for questions: 6.519725557461406


In [12]:
df_train[["question", "passage"]].head(30)

Unnamed: 0,question,passage
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,..."
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010..."
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...
5,Может ли автомобиль ездить на газу?,Автомобиль на природном газе — один из видов а...
6,Может ли автомобиль ездить на газу?,Для работы на газообразных топливах транспортн...
7,Был ли автомобиль принцессы дианы в дтп?,Несмотря на продолжительные реанимационные поп...
8,Есть ли в индийском океане акулы?,"Обыкновенная акула-молот, или молот-рыба — од..."
9,Есть ли в индийском океане акулы?,Ри́фовая аку́ла — единственный вид рода рифов...


Видим, что вопросы все достаточно похожи по своей структуре. Скорее всего они построены на основе каких-либо шаблонов. Авторы в своей статье пишут, что для создания вопросов они использовали Яндекс Толоку, где указали около 50 шаблонов для создания вопросов к тексту. Ну и плюс они все являются да/нет вопросами из-за этого понятно почему у них более менее схожая структура

In [13]:
train_data[:2]

[{'question': 'Вднх - это выставочный центр?',
  'passage': '«Вы́ставочный центр» — станция Московского монорельса. Расположена между станциями «Улица Академика Королёва» и «Улица Сергея Эйзенштейна». Находится на территории Останкинского района Северо-Восточного административного округа города Москвы. Переход на станцию  ВДНХ Калужско-Рижской линии. Названа в честь Всероссийского выставочного центра — названия ВДНХ с 1992 по 2014 год. 20 ноября 2004 года линия монорельса начала работать в «экскурсионном режиме» и перевезла первых пассажиров .',
  'label': True,
  'idx': 0},
 {'question': 'Вднх - это выставочный центр?',
  'passage': 'Вы́ставка достиже́ний наро́дного хозя́йства  , в 1959—1991 годах — Вы́ставка достиже́ний наро́дного хозя́йства СССР , в 1992—2014 годах — Всеросси́йский вы́ставочный центр ) — выставочный комплекс в Останкинском районе Северо-Восточного административного округа города Москвы, второй по величине выставочный комплекс в городе. Входит в 50 крупнейших выставо

Кажется, что passage взяты с Википедии. Авторы в статье описали каким образом они собирали passage: с помощью Google API они отправляли полученный с толоки вопрос и находили несколько страниц с Wikipedia. Далее с помощью предобученныего Bert они могли извлекать нужный кусок текста для ответа на вопрос.

## Часть 2. [1 балл] Baseline
1. Оцените accuracy совсем простого базового решения: присвоить каждой паре вопрос-ответ в test части самый частый класс из train части.
2. Оцените accuracy чуть более сложного базового решения: fasttext на текстах, состоящих из склеенных вопросов и абзацев (' '.join([question, passage])).

Сравните полученные результаты и опишите, почему они получились именно такими.

In [14]:
## Для test части нет лейблов. Используем валидационную часть.
from sklearn.metrics import accuracy_score

pred = np.ones(df_val.shape[0])
acc = accuracy_score(df_val['label'], pred)
print('Accuracy for constant prediction:', acc)

Accuracy for constant prediction: 0.5018270401948843


In [15]:
df_val['label'].mean()

0.5018270401948843

Качество для константного прогноза равно доле предсказываемого класса в валидационной выборке

In [16]:
df_train

Unnamed: 0,question,passage,label
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,1
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,1
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",1
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,0
...,...,...,...
1744,Разрешен ли такой вид ловли акул в настоящее в...,Для человека они потенциально полезны в медици...,1
1745,Закреплено ли Гражданство в Конституции,Гражданство является одним из институтов конст...,1
1746,"Существуют ли примеры, когда не совсем достато...",В философии под эффективностью понимается спос...,1
1747,Решен ли вопрос о подлинности Диалога Тацита?,В XIX веке Диалог считали первым произведением...,0


In [17]:
!pip install fasttext

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [18]:
import fasttext

with open('data.train.txt', 'w', encoding='utf-8') as outfile:
    for _, value in df_train.iterrows():
        outfile.write('__label__' + str(value['label']) + ' ' + ' '.join([value['question'], value['passage']]) + '\n')

In [19]:
df_val['question'] + ' ' + df_val['passage']

0      Есть ли вода на марсе? Гидросфера Марса — это ...
1      Состоит ли англия в евросоюзе? В полночь с 31 ...
2      Действительно ли в ссср не было адвокатов? Сем...
3      Была ли чума в оране? Чума — это и абсурд, что...
4      Был ли кетчуп в читосе? Текущий каталог продук...
                             ...                        
816    Живет ли впч в крови? ДНК вируса многократно д...
817    Вредна ли фотоэпиляция в домашних условиях? Пр...
818    Были ли бездетными мария и иосиф? О жизни его,...
819    Есть ли у луны ядро? Это движение является пре...
820    Был ли в ссср налог на бездетность? Налог на б...
Length: 821, dtype: object

In [20]:
classifier = fasttext.train_supervised('data.train.txt', epoch=30)

data_val = (df_val['question'] + ' ' + df_val['passage']).tolist()
y_pred = classifier.predict(data_val)
acc = accuracy_score(
    np.array(list(map(lambda x : "__label__" + x, df_val['label'].astype(str).tolist()))), np.array(y_pred[0]).squeeze()
)
print('Accuracy:', acc)

Accuracy: 0.5956151035322778


Качество fasttext чуть лучше, чем у константного прогноза.

## Часть 3. [3 балла] Используем эмбеддинги предложений
1. Постройте BERT эмбеддинги вопроса и абзаца на основе двух моделей: векторизации русского языка и multilingual модели векторизации. Обучите логистическую регрессию на конкатенированных эмбеддингах вопроса и абзаца и оцените различия в accuracy моделей, обученных на векторах "разного происхождения". 

2. Векторизуйте данные корпуса BoolQ (https://github.com/google-research-datasets/boolean-questions) с помощью multilingual модели из п. 1 и аналогично обучите логистическую регрессию на конкатенированных эмбеддингах вопроса и абзаца. Оцените её качество (обучаем на train, проверяем на test).

3. Примените модель из п. 2 к данным DaNetQA и наоборот - модель на основе multilingual векторизации, обученную на DaNetQA, к данным BoolQ. Сравните полученные результаты по точности предсказаний.

4. Объедините train в единую обучающую выборку (взять конкатенированные multilingual эмбеддинги) и обучите модель по аналогии с п. 1. Рассчитайте точность на обеих тестовых подвыборках отдельно и сравните результаты с теми, которые были получены в рамках предыдущих пунктов.


[бонус] Используйте другие модели эмбеддингов, доступные, например, в библиотеке Transformers. Какая модель эмбеддингов даст лучшие результаты?

[бонус] Предложите метод аугментации данных и продемонстрируйте его эффективность. 

### 1.

### Experiment with rubert training

In [22]:
#!pip install transformers

In [79]:
from sklearn.linear_model import LogisticRegression
from transformers import BertTokenizer, BertModel
import torch
from tqdm.notebook import tqdm

def tokenize(df, tokenizer):
    question_tokenized = tokenizer(df['question'].tolist(), return_tensors='pt', padding=True, truncation=True,max_length=256, add_special_tokens = True)
    passage_tokenized = tokenizer(df['passage'].tolist(), return_tensors='pt', padding=True, truncation=True,max_length=256, add_special_tokens = True)
    return question_tokenized, passage_tokenized

def get_embeds(df, tokenizer, model, device):
    question_tokenized, passage_tokenized = tokenize(df, tokenizer)
    question_tokenized.to(device)
    passage_tokenized.to(device)
    with torch.no_grad():
        batch_size = 512
        n = question_tokenized['input_ids'].shape[0]
        question_embedding = torch.Tensor()
        passage_embedding = torch.Tensor()
        for i in tqdm(range(int(np.ceil(n / batch_size)))):
            pred = model(input_ids=question_tokenized['input_ids'][i * batch_size:(i + 1) * batch_size],
                  token_type_ids=question_tokenized['token_type_ids'][i * batch_size:(i + 1) * batch_size],
                  attention_mask=question_tokenized['attention_mask'][i * batch_size:(i + 1) * batch_size])['last_hidden_state'].cpu()
            pred = pred.mean(axis=1)
            question_embedding = torch.cat([question_embedding, pred])
            pred = model(input_ids=passage_tokenized['input_ids'][i * batch_size:(i + 1) * batch_size],
                  token_type_ids=passage_tokenized['token_type_ids'][i * batch_size:(i + 1) * batch_size],
                  attention_mask=passage_tokenized['attention_mask'][i * batch_size:(i + 1) * batch_size])['last_hidden_state'].cpu()
            pred = pred.mean(axis=1)
            passage_embedding = torch.cat([passage_embedding, pred])
            torch.cuda.empty_cache()

        embedding = torch.cat([question_embedding, passage_embedding], axis=1)
    torch.cuda.empty_cache()
    return embedding

def evaluate(df_train, df_val, bert, tokenizer, device):
    train_embedding = get_embeds(df_train, tokenizer, bert, device)
    val_embedding = get_embeds(df_val, tokenizer, bert, device)
    torch.cuda.empty_cache()
    model = LogisticRegression(max_iter=1000)
    model.fit(train_embedding.cpu(), df_train['label'])
    pred = model.predict(val_embedding.cpu())
    acc = accuracy_score(df_val['label'], pred)
    return acc

In [80]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"
print(device)

cuda:0


In [81]:
# initialize models:
MODEL_NAME = "DeepPavlov/rubert-base-cased"
tokenizer_rubert = BertTokenizer.from_pretrained(MODEL_NAME)
rubert = BertModel.from_pretrained(MODEL_NAME).to(device)

MODEL_NAME = "bert-base-multilingual-cased"
tokenizer_multiling = BertTokenizer.from_pretrained(MODEL_NAME)
multiling_bert = BertModel.from_pretrained(MODEL_NAME).to(device)

loading file vocab.txt from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/vocab.txt
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/special_tokens_map.json
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/tokenizer_config.json
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/config.json
Model config BertConfig {
  "_name_or_path": "DeepPavlov/rubert-base-cased",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "h

In [82]:
%%time

acc1 = evaluate(df_train, df_val, rubert, tokenizer_rubert, device)
acc2 = evaluate(df_train, df_val, multiling_bert, tokenizer_multiling, device)

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

CPU times: user 2min 1s, sys: 3.84 s, total: 2min 5s
Wall time: 1min 58s


In [83]:
print(f'Accuracy for DeepPavlov/rubert-base-cased:', acc1)
print(f'Accuracy for bert-base-multilingual-cased:', acc2)

Accuracy for DeepPavlov/rubert-base-cased: 0.6029232643118149
Accuracy for bert-base-multilingual-cased: 0.6285018270401949


Качество моделей почти не отличается от fasttext. Multilingual чуть лучше, чем rubert

### 2.

In [84]:
# local version:
# train_path = "data/BoolQ/train.jsonl"
# val_path = "data/BoolQ/dev.jsonl"

# colab version:
train_path = "/content/drive/MyDrive/data/BoolQ/train.jsonl"
val_path = "/content/drive/MyDrive/data/BoolQ/dev.jsonl"

boolq_train_data = read_data(train_path)
boolq_val_data = read_data(val_path)

In [85]:
boolq_df_train = pd.DataFrame.from_records(boolq_train_data)
boolq_df_val = pd.DataFrame.from_records(boolq_val_data)

boolq_df_train['label'] = boolq_df_train['answer'].astype(int)
boolq_df_val['label'] = boolq_df_val['answer'].astype(int)
boolq_df_train = boolq_df_train.drop(['title', 'answer'], axis=1)
boolq_df_val = boolq_df_val.drop(['title', 'answer'], axis=1)

In [86]:
boolq_df_train.head()

Unnamed: 0,question,passage,label
0,do iran and afghanistan speak the same language,"Persian (/ˈpɜːrʒən, -ʃən/), also known by its ...",1
1,do good samaritan laws protect those who help ...,Good Samaritan laws offer legal protection to ...,1
2,is windows movie maker part of windows essentials,Windows Movie Maker (formerly known as Windows...,1
3,is confectionary sugar the same as powdered sugar,"Powdered sugar, also called confectioners' sug...",1
4,is elder scrolls online the same as skyrim,As with other games in The Elder Scrolls serie...,0


In [87]:
%%time

acc = evaluate(boolq_df_train, boolq_df_val, multiling_bert, tokenizer_multiling, device)

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/7 [00:00<?, ?it/s]

CPU times: user 5min 2s, sys: 7.92 s, total: 5min 10s
Wall time: 4min 38s


In [88]:
print(f'Accuracy for BoolQ:', acc)

Accuracy for BoolQ: 0.6321100917431193


Accuracy для BoolQ датасета немного выше, чем для DaNet.

### 3.

In [89]:
acc = evaluate(boolq_df_train, df_val, multiling_bert, tokenizer_multiling, device)

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

In [90]:
print(f'Accuracy on DaNetQA dataset for model trained on BoolQ:', acc)

Accuracy on DaNetQA dataset for model trained on BoolQ: 0.5152253349573691


In [91]:
MODEL_NAME = "bert-base-multilingual-cased"
acc = evaluate(df_train, boolq_df_val, multiling_bert, tokenizer_multiling, device)

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/7 [00:00<?, ?it/s]

In [92]:
print(f'Accuracy on BoolQ dataset for model trained on DaNetQA:', acc)

Accuracy on BoolQ dataset for model trained on DaNetQA: 0.44250764525993885


Применяя модели, обученные на разных датасетах друг к другу, получаем удручающее качество. В случае модели, обученной на boolq и примененной к DaNet, accuracy получается 0.51 - как у константного прогноза. Модель, обученная на DaNet и примененная к BoolQ имеет accuracy 0.44 - значительно хуже константного прогноза.

### 4.

In [93]:
concat_df_train = pd.concat([df_train, boolq_df_train], axis=0)

MODEL_NAME = "bert-base-multilingual-cased"
acc1 = evaluate(concat_df_train, df_val, multiling_bert, tokenizer_multiling, device)
acc2 = evaluate(concat_df_train, boolq_df_val, multiling_bert, tokenizer_multiling, device)

  0%|          | 0/22 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/22 [00:00<?, ?it/s]

  0%|          | 0/7 [00:00<?, ?it/s]

In [94]:
print(f'Accuracy on DaNetQA dataset for model trained on concatination of 2 datasets:', acc1)
print(f'Accuracy on BoolQ dataset for model trained on concatination of 2 datasets:', acc2)

Accuracy on DaNetQA dataset for model trained on concatination of 2 datasets: 0.6017052375152253
Accuracy on BoolQ dataset for model trained on concatination of 2 datasets: 0.6363914373088685


Обучаясь на обоих датасетах и применяя модель к каждому из них по-отдельности, получаем accuracy 0.6 для DaNet и 0.63 для BoolQ. То есть, качество не улучшилось по сравнению со случаем обучения на одном датасете.

## Часть 3. [4 балла] Модель на основе архитектуры Transformer

Выберите две модели на основе архитектуры transformer (BERT, RoBERTa, XLM etc.) - русскоязычную и мультиязычную и дообучите их на корпусах DaNetQA и BoolQ. 

Оцените качество этих моделей для решения задачи. Сравните их работоспособность между собой на основе метрик качества


### DaNet, Ruberta

In [64]:
#!pip install transformers
#!pip install datasets

In [95]:
from datasets import load_dataset, Dataset, DatasetDict
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments, BertTokenizer, BertModel

datasets = DatasetDict({"train": Dataset.from_pandas(df_train),
                                 "validation": Dataset.from_pandas(df_val)})

In [96]:
model_ckpt = "DeepPavlov/rubert-base-cased"
tokenizer = BertTokenizer.from_pretrained(model_ckpt)
danet = datasets.map(lambda x : tokenizer(x['question'], x['passage'], truncation="only_second", return_tensors='pt', padding=True, max_length=256, add_special_tokens = True), batched=True)

model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)


loading file vocab.txt from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/vocab.txt
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/special_tokens_map.json
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/tokenizer_config.json
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/config.json
Model config BertConfig {
  "_name_or_path": "DeepPavlov/rubert-base-cased",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "h

  0%|          | 0/2 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/config.json
Model config BertConfig {
  "_name_or_path": "DeepPavlov/rubert-base-cased",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "transformers_version": "4.25.1",
  "type_vocab_size": 2,
  "use_cache": tru

In [97]:
batch_size = 16
args = TrainingArguments(
    f"test-squad",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=4,
    weight_decay=0.01,
)


trainer = Trainer(
    model,
    args,
    train_dataset=danet["train"],
    eval_dataset=danet["validation"],
    tokenizer=tokenizer,
)

trainer.train()

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
The following columns in the training set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 1749
  Num Epochs = 4
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 440
  Number of trainable parameters = 177854978


Epoch,Training Loss,Validation Loss
1,No log,0.643943
2,No log,0.758869
3,No log,0.800941
4,No log,1.009143


The following columns in the evaluation set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 821
  Batch size = 16
The following columns in the evaluation set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 821
  Batch size = 16
The following columns in the evaluation set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Ru

TrainOutput(global_step=440, training_loss=0.45533502752130683, metrics={'train_runtime': 410.3657, 'train_samples_per_second': 17.048, 'train_steps_per_second': 1.072, 'total_flos': 920362471649280.0, 'train_loss': 0.45533502752130683, 'epoch': 4.0})

In [116]:
from sklearn.linear_model import LogisticRegression
from transformers import BertTokenizer, BertModel
import torch
from tqdm.notebook import tqdm

def tokenize2(df, tokenizer):
    tokenized = tokenizer((df['question'] + ' ' + df['passage']).tolist(), return_tensors='pt', padding=True, truncation=True,max_length=256, add_special_tokens = True)
    return tokenized

def predict(df, tokenizer, model, device):
    tokenized = tokenize2(df, tokenizer)
    tokenized.to(device)
    with torch.no_grad():
        batch_size = 512
        n = tokenized['input_ids'].shape[0]
        preds = torch.Tensor()
        passage_embedding = torch.Tensor()
        for i in tqdm(range(int(np.ceil(n / batch_size)))):
            logits = model(input_ids=tokenized['input_ids'][i * batch_size:(i + 1) * batch_size],
                  token_type_ids=tokenized['token_type_ids'][i * batch_size:(i + 1) * batch_size],
                  attention_mask=tokenized['attention_mask'][i * batch_size:(i + 1) * batch_size])['logits'].cpu()
            probas = torch.softmax(logits, axis=1)
            pred = probas.argmax(axis=1)
            preds = torch.cat([preds, pred])
            torch.cuda.empty_cache()
    
    return preds

In [99]:
MODEL_NAME = "DeepPavlov/rubert-base-cased"
tokenizer_rubert = BertTokenizer.from_pretrained(MODEL_NAME)

preds = predict(df_val, tokenizer_rubert, model, device)

loading file vocab.txt from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/vocab.txt
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/special_tokens_map.json
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/tokenizer_config.json
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--DeepPavlov--rubert-base-cased/snapshots/4036cab694767a299f2b9e6492909664d9414229/config.json
Model config BertConfig {
  "_name_or_path": "DeepPavlov/rubert-base-cased",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "h

  0%|          | 0/2 [00:00<?, ?it/s]

In [100]:
accuracy_score(df_val['label'], preds)

0.6053593179049939

Качество такое же, как в прошлых экспериментах.

### BoolQ, multilingual

In [101]:
datasets = DatasetDict({"train": Dataset.from_pandas(boolq_df_train),
                                 "validation": Dataset.from_pandas(boolq_df_val)})

In [102]:
model_ckpt = "bert-base-multilingual-cased"
tokenizer = BertTokenizer.from_pretrained(model_ckpt)
boolq = datasets.map(lambda x : tokenizer(x['question'], x['passage'], truncation="only_second", return_tensors='pt', padding=True, max_length=256, add_special_tokens = True), batched=True)

model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)


loading file vocab.txt from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/vocab.txt
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at None
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/tokenizer_config.json
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/config.json
Model config BertConfig {
  "_name_or_path": "bert-base-multilingual-cased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "l

  0%|          | 0/10 [00:00<?, ?ba/s]

  0%|          | 0/4 [00:00<?, ?ba/s]

loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/config.json
Model config BertConfig {
  "_name_or_path": "bert-base-multilingual-cased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "transformers_version": "4.25.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size":

In [103]:
batch_size = 16
args = TrainingArguments(
    f"test-squad",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=4,
    weight_decay=0.01,
)


trainer = Trainer(
    model,
    args,
    train_dataset=boolq["train"],
    eval_dataset=boolq["validation"],
    tokenizer=tokenizer,
)

trainer.train()

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
The following columns in the training set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 9427
  Num Epochs = 4
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 2360
  Number of trainable parameters = 177854978


Epoch,Training Loss,Validation Loss
1,0.6421,0.585951
2,0.546,0.580275
3,0.4053,0.660779
4,0.2943,0.815265


Saving model checkpoint to test-squad/checkpoint-500
Configuration saved in test-squad/checkpoint-500/config.json
Model weights saved in test-squad/checkpoint-500/pytorch_model.bin
tokenizer config file saved in test-squad/checkpoint-500/tokenizer_config.json
Special tokens file saved in test-squad/checkpoint-500/special_tokens_map.json
The following columns in the evaluation set don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: passage, question. If passage, question are not expected by `BertForSequenceClassification.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 3270
  Batch size = 16
Saving model checkpoint to test-squad/checkpoint-1000
Configuration saved in test-squad/checkpoint-1000/config.json
Model weights saved in test-squad/checkpoint-1000/pytorch_model.bin
tokenizer config file saved in test-squad/checkpoint-1000/tokenizer_config.json
Special tokens file saved in test-squad/ch

TrainOutput(global_step=2360, training_loss=0.43393100479901847, metrics={'train_runtime': 2148.3047, 'train_samples_per_second': 17.552, 'train_steps_per_second': 1.099, 'total_flos': 4960695837757440.0, 'train_loss': 0.43393100479901847, 'epoch': 4.0})

In [117]:
MODEL_NAME = "bert-base-multilingual-cased"
tokenizer_multilingual = BertTokenizer.from_pretrained(MODEL_NAME)

preds = predict(boolq_df_val, tokenizer_multilingual, model, device)


loading file vocab.txt from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/vocab.txt
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at None
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/tokenizer_config.json
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--bert-base-multilingual-cased/snapshots/fdfce55e83dbed325647a63e7e1f5de19f0382ba/config.json
Model config BertConfig {
  "_name_or_path": "bert-base-multilingual-cased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "l

  0%|          | 0/7 [00:00<?, ?it/s]

In [118]:
accuracy_score(boolq_df_val['label'], preds)

0.6214067278287462

Качество такое же, как в прошлых пунктах

## Часть 4. [1 балл] Итоги
Напишите краткое резюме проделанной работы. Сравните результаты всех разработанных моделей. Что помогло вам в выполнении работы, чего не хватало?

Серьезные и солидные Bert модели уходят по качеству не далеко от fasttext для нашей задачи. 
Однако, качество на Boolq датасете с использованием мультиязычной модели лучше, чем на DaNet датасете. Тем не менее, обучая модель на одном датасете, а проверяя на другом, получаем совсем низкое качество. В то же время, обучаясь на обоих датасетах, качество не становится лучше, чем при обучении на том же датасете, на котором мы собираемся проверять.
При дообучении bert моделей, что rubert, что multilingual, качество остается таким же, как и в подходе с bert без дообучения + logistic regression.