# Домашнее задание 3
## Yes/No Questions

deadline: 4 декабря 2022, 23:59 МСК

В этом домашнем задании вы будете работать с корпусом DaNetQA. Корпус состоит из вопросов, предполагающих бинарный ответ (да / нет), абзацев из Википедии, содержащих ответ на вопрос, и непосредственно ответа (true / false).

Корпус описан в статье:

Glushkova, T., Machnev, A., Fenogenova, A., Shavrina, T., Artemova, E., & Ignatov, D. I. (2020, October). Danetqa: a yes/no question answering dataset for the russian language. In International Conference on Analysis of Images, Social Networks and Texts (pp. 57-68). Springer, Cham.

https://arxiv.org/abs/2010.02605


Корпус (train-val-test split) доступен по ссылке: https://russiansuperglue.com/ru/tasks/task_info/DaNetQA

Используйте для обучения train часть корпуса, для валидации val и тестирования – test часть. 

Каждый бонус пункт оценивается в 1 балл. 

### Пример вопроса: 
question: Был ли человек на луне?

label (answer): true

text (passage): В период с 1969 по 1972 год по программе «Аполлон» было выполнено 6 полётов с посадкой на Луне. Всего на Луне высаживались 12 астронавтов США. Список космонавтов Список космонавтов — участников орбитальных космических полётов Список астронавтов США — участников орбитальных космических полётов Список космонавтов СССР и России — участников космических полётов Список женщин-космонавтов Список космонавтов, посещавших МКС Энциклопедия астронавтики.

## ПРАВИЛА
1. Домашнее задание выполняется в группе до 4-х человек.
2. Домашнее задание оформляется в виде отчета либо в .pdf файле, либо в ipython-тетрадке. При этом ipynb-файл прилагается обязательно. 
3. Отчет должен содержать: нумерацию заданий и пунктов, которые вы выполнили, код решения, и понятное пошаговое описание того, что вы сделали. Отчет должен быть написан в академическом стиле, без излишнего использования сленга и с соблюдением норм русского языка.
4. Не стоит копировать фрагменты лекций, статей и Википедии в ваш отчет.
5. Отчеты, состоящие исключительно из кода, не будут проверены и будут автоматически оценены нулевой оценкой.
6. Плагиат и любое недобросовестное цитирование приводит к обнулению оценки. 

## Часть 1. [1 балл] Эксплоративный анализ
1. Посчитайте долю yes и no классов в корпусе.
2. Оцените среднюю длину вопроса.
3. Оцените среднюю длину параграфа.
4. Предположите, по каким эвристикам были собраны вопросы. Продемонстрируйте, как эти эвристики повлияли на структуру корпуса.

In [22]:
import json
import pandas as pd
import numpy as np

In [23]:
train_path = "data/train.jsonl"
val_path = "data/val.jsonl"
test_path = "data/test.jsonl"

def read_data(path_data):
    with open(path_data, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        data = []
        for line in lines:
            data.append(json.loads(line))
        return data

train_data = read_data(train_path)
val_data = read_data(val_path)
test_data = read_data(test_path)

In [24]:
print(len(train_data))
print(len(val_data))
print(len(test_data))

1749
821
805


In [25]:
df_train = pd.DataFrame.from_records(train_data)
df_val = pd.DataFrame.from_records(val_data)
df_test = pd.DataFrame.from_records(test_data)

In [26]:
df_train.head()

Unnamed: 0,question,passage,label,idx
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,True,0
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",True,1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,True,2
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",True,3
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,False,4


In [27]:
df_train['label'].value_counts()

True     1061
False     688
Name: label, dtype: int64

In [28]:
df_train["label"] = df_train["label"].astype(int)
df_train = df_train.drop(["idx"], axis=1)
df_val["label"] = df_val["label"].astype(int)
df_val = df_val.drop(["idx"], axis=1)
df_test = df_test.drop(["idx"], axis=1)

In [29]:
df_train.head()

Unnamed: 0,question,passage,label
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,1
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,1
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",1
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,0


In [30]:
print(f'mean len for passages: {df_train["passage"].apply(len).mean()}')
print(f'mean len for questions: {df_train["question"].apply(len).mean()}')

mean len for passages: 723.1149228130361
mean len for questions: 41.63064608347627


In [31]:
df_train[["question", "passage"]].head(30)

Unnamed: 0,question,passage
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,..."
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010..."
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...
5,Может ли автомобиль ездить на газу?,Автомобиль на природном газе — один из видов а...
6,Может ли автомобиль ездить на газу?,Для работы на газообразных топливах транспортн...
7,Был ли автомобиль принцессы дианы в дтп?,Несмотря на продолжительные реанимационные поп...
8,Есть ли в индийском океане акулы?,"Обыкновенная акула-молот, или молот-рыба — од..."
9,Есть ли в индийском океане акулы?,Ри́фовая аку́ла — единственный вид рода рифов...


Видим, что вопросы все достаточно похожи по своей структуре. Скорее всего они построены на основе каких-либо шаблонов. Авторы в своей статье пишут, что для создания вопросов они использовали Яндекс Толоку, где указали около 50 шаблонов для создания вопросов к тексту. Ну и плюс они все являются да/нет вопросами из-за этого понятно почему у них более менее схожая структура

In [32]:
train_data[:2]

[{'question': 'Вднх - это выставочный центр?',
  'passage': '«Вы́ставочный центр» — станция Московского монорельса. Расположена между станциями «Улица Академика Королёва» и «Улица Сергея Эйзенштейна». Находится на территории Останкинского района Северо-Восточного административного округа города Москвы. Переход на станцию  ВДНХ Калужско-Рижской линии. Названа в честь Всероссийского выставочного центра — названия ВДНХ с 1992 по 2014 год. 20 ноября 2004 года линия монорельса начала работать в «экскурсионном режиме» и перевезла первых пассажиров .',
  'label': True,
  'idx': 0},
 {'question': 'Вднх - это выставочный центр?',
  'passage': 'Вы́ставка достиже́ний наро́дного хозя́йства  , в 1959—1991 годах — Вы́ставка достиже́ний наро́дного хозя́йства СССР , в 1992—2014 годах — Всеросси́йский вы́ставочный центр ) — выставочный комплекс в Останкинском районе Северо-Восточного административного округа города Москвы, второй по величине выставочный комплекс в городе. Входит в 50 крупнейших выставо

Кажется, что passage взяты с Википедии. Авторы в статье описали каким образом они собирали passage: с помощью Google API они отправляли полученный с толоки вопрос и находили несколько страниц с Wikipedia. Далее с помощью предобученныего Bert они могли извлекать нужный кусок текста для ответа на вопрос.

## Часть 2. [1 балл] Baseline
1. Оцените accuracy совсем простого базового решения: присвоить каждой паре вопрос-ответ в test части самый частый класс из train части.
2. Оцените accuracy чуть более сложного базового решения: fasttext на текстах, состоящих из склеенных вопросов и абзацев (' '.join([question, passage])).

Сравните полученные результаты и опишите, почему они получились именно такими.

In [38]:
## Для test части нет лейблов. Используем валидационную часть.
from sklearn.metrics import accuracy_score

pred = np.ones(df_val.shape[0])
acc = accuracy_score(df_val['label'], pred)
print('Accuracy for constant prediction:', acc)

Accuracy for constant prediction: 0.5018270401948843


In [58]:
df_val['label'].mean()

0.5018270401948843

Качество для константного прогноза равно доле предсказываемого класса в валидационной выборке

In [39]:
df_train

Unnamed: 0,question,passage,label
0,Вднх - это выставочный центр?,«Вы́ставочный центр» — станция Московского мон...,1
1,Вднх - это выставочный центр?,"Вы́ставка достиже́ний наро́дного хозя́йства ,...",1
2,Был ли джиган в black star?,Вместе с этим треком они выступили на церемони...,1
3,Xiaomi конкурент apple?,"Xiaomi — китайская компания, основанная в 2010...",1
4,Был ли автомат калашникова в вов?,Отметив некоторые недостатки и в целом удачную...,0
...,...,...,...
1744,Разрешен ли такой вид ловли акул в настоящее в...,Для человека они потенциально полезны в медици...,1
1745,Закреплено ли Гражданство в Конституции,Гражданство является одним из институтов конст...,1
1746,"Существуют ли примеры, когда не совсем достато...",В философии под эффективностью понимается спос...,1
1747,Решен ли вопрос о подлинности Диалога Тацита?,В XIX веке Диалог считали первым произведением...,0


In [43]:
import fasttext

with open('data.train.txt', 'w', encoding='utf-8') as outfile:
    for _, value in df_train.iterrows():
        outfile.write('__label__' + str(value['label']) + ' ' + ' '.join([value['question'], value['passage']]) + '\n')

In [46]:
df_val['question'] + ' ' + df_val['passage']

0      Есть ли вода на марсе? Гидросфера Марса — это ...
1      Состоит ли англия в евросоюзе? В полночь с 31 ...
2      Действительно ли в ссср не было адвокатов? Сем...
3      Была ли чума в оране? Чума — это и абсурд, что...
4      Был ли кетчуп в читосе? Текущий каталог продук...
                             ...                        
816    Живет ли впч в крови? ДНК вируса многократно д...
817    Вредна ли фотоэпиляция в домашних условиях? Пр...
818    Были ли бездетными мария и иосиф? О жизни его,...
819    Есть ли у луны ядро? Это движение является пре...
820    Был ли в ссср налог на бездетность? Налог на б...
Length: 821, dtype: object

In [54]:
classifier = fasttext.train_supervised('data.train.txt', epoch=30)

data_val = (df_val['question'] + ' ' + df_val['passage']).tolist()
y_pred = classifier.predict(data_val)
acc = accuracy_score(
    np.array(list(map(lambda x : "__label__" + x, df_val['label'].astype(str).tolist()))), np.array(y_pred[0]).squeeze()
)
print('Accuracy:', acc)

Accuracy: 0.5956151035322778


Качество fasttext чуть лучше, чем у константного прогноза.

## Часть 3. [3 балла] Используем эмбеддинги предложений
1. Постройте BERT эмбеддинги вопроса и абзаца на основе двух моделей: векторизации русского языка и multilingual модели векторизации. Обучите логистическую регрессию на конкатенированных эмбеддингах вопроса и абзаца и оцените различия в accuracy моделей, обученных на векторах "разного происхождения". 

2. Векторизуйте данные корпуса BoolQ (https://github.com/google-research-datasets/boolean-questions) с помощью multilingual модели из п. 1 и аналогично обучите логистическую регрессию на конкатенированных эмбеддингах вопроса и абзаца. Оцените её качество (обучаем на train, проверяем на test).

3. Примените модель из п. 2 к данным DaNetQA и наоборот - модель на основе multilingual векторизации, обученную на DaNetQA, к данным BoolQ. Сравните полученные результаты по точности предсказаний.

4. Объедините train в единую обучающую выборку (взять конкатенированные multilingual эмбеддинги) и обучите модель по аналогии с п. 1. Рассчитайте точность на обеих тестовых подвыборках отдельно и сравните результаты с теми, которые были получены в рамках предыдущих пунктов.


[бонус] Используйте другие модели эмбеддингов, доступные, например, в библиотеке Transformers. Какая модель эмбеддингов даст лучшие результаты?

[бонус] Предложите метод аугментации данных и продемонстрируйте его эффективность. 

### 1.

In [196]:
from sklearn.linear_model import LogisticRegression
from transformers import BertTokenizer, BertModel
import torch

def tokenize(df, tokenizer):
    question_tokenized = tokenizer(df['question'].tolist(), return_tensors='pt', padding=True)
    passage_tokenized = tokenizer(df['passage'].tolist(), return_tensors='pt', padding=True)
    return question_tokenized, passage_tokenized

def get_embeds(df, tokenizer, model):
    question_tokenized, passage_tokenized = tokenize(df, tokenizer)
    with torch.no_grad():
        question_embedding = model(**question_tokenized)
        passage_embedding = model(**passage_tokenized)
        question_embedding = question_embedding.last_hidden_state.mean(axis=1)
        passage_embedding = passage_embedding.last_hidden_state.mean(axis=1)
        embedding = torch.cat([question_embedding, passage_embedding], axis=1)
    return embedding

def evaluate(df_train, df_val, MODEL_NAME):
    tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)
    bert = BertModel.from_pretrained(MODEL_NAME)
    train_embedding = get_embeds(df_train, tokenizer, bert)
    val_embedding = get_embeds(df_val, tokenizer, bert)
    model = LogisticRegression()
    model.fit(train_embedding, df_train['label'])
    pred = model.predict(val_embedding)
    acc = accuracy_score(df_val['label'], pred)
    return acc

In [197]:
%%time

MODEL_NAME = "DeepPavlov/rubert-base-cased"
acc1 = evaluate(df_train, df_val, MODEL_NAME)

MODEL_NAME = "bert-base-multilingual-cased"
acc2 = evaluate(df_train, df_val, MODEL_NAME)

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: 

CPU times: total: 2min 36s
Wall time: 42.3 s


In [198]:
print(f'Accuracy for DeepPavlov/rubert-base-cased:', acc1)
print(f'Accuracy for bert-base-multilingual-cased:', acc2)

Accuracy for DeepPavlov/rubert-base-cased: 0.7
Accuracy for bert-base-multilingual-cased: 0.7


In [199]:
## **Вывод на полных данных**

### 2.

In [203]:
train_path = "data/BoolQ/train.jsonl"
val_path = "data/BoolQ/dev.jsonl"

boolq_train_data = read_data(train_path)
boolq_val_data = read_data(val_path)

In [225]:
boolq_df_train = pd.DataFrame.from_records(boolq_train_data)
boolq_df_val = pd.DataFrame.from_records(boolq_val_data)

boolq_df_train['label'] = boolq_df_train['answer'].astype(int)
boolq_df_val['label'] = boolq_df_val['answer'].astype(int)
boolq_df_train = boolq_df_train.drop(['title', 'answer'], axis=1)
boolq_df_val = boolq_df_val.drop(['title', 'answer'], axis=1)

In [226]:
boolq_df_train.head()

Unnamed: 0,question,passage,label
0,do iran and afghanistan speak the same language,"Persian (/ˈpɜːrʒən, -ʃən/), also known by its ...",1
1,do good samaritan laws protect those who help ...,Good Samaritan laws offer legal protection to ...,1
2,is windows movie maker part of windows essentials,Windows Movie Maker (formerly known as Windows...,1
3,is confectionary sugar the same as powdered sugar,"Powdered sugar, also called confectioners' sug...",1
4,is elder scrolls online the same as skyrim,As with other games in The Elder Scrolls serie...,0


In [214]:
%%time

MODEL_NAME = "bert-base-multilingual-cased"
acc = evaluate(boolq_df_train, boolq_df_val, MODEL_NAME)

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


CPU times: total: 1min 8s
Wall time: 20.2 s


In [215]:
print(f'Accuracy for BoolQ:', acc)

Accuracy for BoolQ: 0.6


### 3.

In [218]:
MODEL_NAME = "bert-base-multilingual-cased"
acc = evaluate(boolq_df_train, df_val, MODEL_NAME)

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [219]:
print(f'Accuracy on DaNetQA dataset for model trained on BoolQ:', acc)

Accuracy on DaNetQA dataset for model trained on BoolQ: 0.7


In [216]:
MODEL_NAME = "bert-base-multilingual-cased"
acc = evaluate(df_train, boolq_df_val, MODEL_NAME)

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [217]:
print(f'Accuracy on BoolQ dataset for model trained on DaNetQA:', acc)

Accuracy on BoolQ dataset for model trained on DaNetQA: 0.36


### 4.

In [236]:
concat_df_train = pd.concat([df_train, boolq_df_train], axis=0)

MODEL_NAME = "bert-base-multilingual-cased"
acc1 = evaluate(concat_df_train, df_val, MODEL_NAME)
acc2 = evaluate(concat_df_train, boolq_df_val, MODEL_NAME)

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.se

In [237]:
print(f'Accuracy on DaNetQA dataset for model trained on concatination of 2 datasets:', acc1)
print(f'Accuracy on BoolQ dataset for model trained on concatination of 2 datasets:', acc2)

Accuracy on DaNetQA dataset for model trained on concatination of 2 datasets: 0.7
Accuracy on BoolQ dataset for model trained on concatination of 2 datasets: 0.8


## Часть 3. [4 балла] Модель на основе архитектуры Transformer

Выберите две модели на основе архитектуры transformer (BERT, RoBERTa, XLM etc.) - русскоязычную и мультиязычную и дообучите их на корпусах DaNetQA и BoolQ. 

Оцените качество этих моделей для решения задачи. Сравните их работоспособность между собой на основе метрик качества


## Часть 4. [1 балл] Итоги
Напишите краткое резюме проделанной работы. Сравните результаты всех разработанных моделей. Что помогло вам в выполнении работы, чего не хватало?