<a href="https://colab.research.google.com/github/AI-Front/NTI/blob/main/Train_SQuaD_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# SQuAD System for English

**S**tanford **Q**uestion **A**nswering **D**ataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the corresponding reading passage, or the question might be unanswerable.

SQuAD2.0 combines the 100,000 questions in SQuAD1.1 with over 50,000 unanswerable questions written adversarially by crowdworkers to look similar to answerable ones. To do well on SQuAD2.0, systems must not only answer questions when possible, but also determine when no answer is supported by the paragraph and abstain from answering.

The [Dataset](https://rajpurkar.github.io/SQuAD-explorer/explore/v2.0/dev/)

The [Paper](http://arxiv.org/abs/1806.03822)

Example:
![squad_example.png](https://github.com/AI-Front/ChatBots/blob/master/4-Question_Answering/squad_example.png?raw=1)



The systems that can be used for that are listed on the official [Leaderboard](https://rajpurkar.github.io/SQuAD-explorer/) with human level of 89.4 F1 score

We are going to use [DeepPavlov SQuAD model](http://docs.deeppavlov.ai/en/master/features/models/squad.html#pretrained-models) based on BERT, achieving 88.4 F1 score. 

Dealing with SQuAD model includes:

0. Model installation and interaction with the pretrained model
0. Training the model on your own data
0. Skill example 

# Model installation and interaction

In [1]:
%tensorflow_version 1.14



`%tensorflow_version` only switches the major version: 1.x or 2.x.
You set: `1.14`. This will be interpreted as: `1.x`.


TensorFlow 1.x selected.


In [2]:
!pip install deeppavlov
!python -m deeppavlov install squad_ru

2021-02-09 10:56:17.958 INFO in 'deeppavlov.core.common.file'['file'] at line 32: Interpreting 'squad_ru' as '/usr/local/lib/python3.6/dist-packages/deeppavlov/configs/squad/squad_ru.json'


In [3]:
# downloading the model
from deeppavlov import build_model, configs

model = build_model(configs.squad.squad_ru, download=True)


2021-02-09 10:56:56.970 INFO in 'deeppavlov.core.data.utils'['utils'] at line 94: Downloading from http://files.deeppavlov.ai/deeppavlov_data/squad_model_ru_1.4_cpu_compatible.tar.gz to /root/.deeppavlov/squad_model_ru_1.4_cpu_compatible.tar.gz
100%|██████████| 533M/533M [07:07<00:00, 1.25MB/s]
2021-02-09 11:04:04.724 INFO in 'deeppavlov.core.data.utils'['utils'] at line 268: Extracting /root/.deeppavlov/squad_model_ru_1.4_cpu_compatible.tar.gz archive into /root/.deeppavlov/models
2021-02-09 11:04:14.541 INFO in 'deeppavlov.core.data.utils'['utils'] at line 94: Downloading from http://files.deeppavlov.ai/embeddings/ft_native_300_ru_wiki_lenta_nltk_word_tokenize-char.vec to /root/.deeppavlov/downloads/embeddings/ft_native_300_ru_wiki_lenta_nltk_word_tokenize-char.vec
100%|██████████| 4.52M/4.52M [00:00<00:00, 5.55MB/s]
2021-02-09 11:04:15.549 INFO in 'deeppavlov.core.data.utils'['utils'] at line 94: Downloading from http://files.deeppavlov.ai/embeddings/ft_native_300_ru_wiki_lenta_nltk











2021-02-09 11:22:45.881 INFO in 'deeppavlov.core.layers.tf_layers'['tf_layers'] at line 619: 


The TensorFlow contrib module will not be included in TensorFlow 2.0.
For more information, please see:
  * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md
  * https://github.com/tensorflow/addons
  * https://github.com/tensorflow/io (for I/O related ops)
If you depend on functionality not listed there, please file an issue.

Instructions for updating:
This class is equivalent as tf.keras.layers.GRUCell, and will be replaced by that in Tensorflow 2.0.
Instructions for updating:
This class is equivalent as tf.keras.layers.StackedRNNCells, and will be replaced by that in Tensorflow 2.0.
Instructions for updating:
Please use `keras.layers.RNN(cell)`, which is equivalent to this API
Instructions for updating:
Please use `layer.add_weight` method instead.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Instructions for updating:
Call initializer instance with the dtype argument instead 

2021-02-09 11:22:48.131 INFO in 'deeppavlov.core.layers.tf_layers'['tf_layers'] at line 619: 
2021-02-09 11:22:48.281 INFO in 'deeppavlov.core.layers.tf_layers'['tf_layers'] at line 619: 
2021-02-09 11:22:48.383 INFO in 'deeppavlov.core.layers.tf_layers'['tf_layers'] at line 619: 


Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.

Instructions for updating:
Use keras.layers.Dense instead.
Instructions for updating:
Please use `layer.__call__` method instead.


Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See `tf.nn.softmax_cross_entropy_with_logits_v2`.




Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where

Instructions for updating:
Use standard file APIs to check for files with this prefix.


2021-02-09 11:23:01.437 INFO in 'deeppavlov.core.models.tf_model'['tf_model'] at line 51: [loading model from /root/.deeppavlov/models/squad_model_ru/model]



INFO:tensorflow:Restoring parameters from /root/.deeppavlov/models/squad_model_ru/model


In [4]:
# using the pretrained model
model(['DeepPavlov - это библиотека для обработки естественного языка и диалоговых систем.'], ['Что такое DeepPavlov?'])

[['это библиотека для обработки естественного языка и диалоговых систем'],
 [13],
 [11191.078125]]

Для использования модели необходимо передать вопрос и соответствующий текстовый абзац (где найти ответ)

Вы также можете передать несколько вопросов, тогда индекс каждого вопроса должен соответствовать индексу абзаца:


In [5]:
question = 'Что такое нейронная сеть?'
text = '''Искусственные нейронные сети или коннекционистские системы - это вычислительные системы, смутно вдохновленные биологическими нейронными сетями, составляющими мозг животных. [1]

Структуры данных и функциональность нейронных сетей предназначены для моделирования ассоциативной памяти. Нейронные сети обучаются на примерах обработки, каждый из которых содержит известные «вход» и «результат», образуя между ними взвешенные по вероятности ассоциации, которые хранятся в структуре данных самой сети. («Вход» здесь более точно называется входным набором, поскольку он обычно состоит из нескольких независимых переменных, а не одного значения.) Таким образом, «обучение» нейронной сети из данного примера - это разница в состоянии сети до и после обработки примера. После предоставления достаточного количества примеров сеть становится способной предсказывать результаты на основе входных данных, используя ассоциации, построенные на основе набора примеров. Если в нейронную сеть предоставляется петля обратной связи о точности ее прогнозов, она продолжает уточнять свои связи, что приводит к постоянно растущему уровню точности. Короче говоря, существует прямая зависимость между количеством и разнообразием примеров, обрабатываемых нейронной сетью, и точностью ее прогнозов. Вот почему нейронная сеть со временем становится «лучше». Что интересно в нейронных сетях, так это то, что, поскольку они неизбирательны в том, как они формируют ассоциации, они могут образовывать неожиданные ассоциации и выявлять отношения и зависимости, которые ранее не были известны '''

model([text],[question])

[['разница в состоянии сети до и после обработки примера'],
 [705],
 [757.992431640625]]

Кроме ответа, вы также получаете начало спана ответа в тексте

# Training the model 

**Important:** training with default config requires about 10Gb on GPU. 
Run following command to train the model:



Скачаем для начала обучающие данные и тестовые с платформы: https://onti2020.ai-academy.ru/task/ 

In [6]:
!wget https://onti2020.ai-academy.ru/task/sbersquad_train.json

--2021-02-09 12:05:33--  https://onti2020.ai-academy.ru/task/sbersquad_train.json
Resolving onti2020.ai-academy.ru (onti2020.ai-academy.ru)... 213.159.215.214
Connecting to onti2020.ai-academy.ru (onti2020.ai-academy.ru)|213.159.215.214|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 37803823 (36M) [application/json]
Saving to: ‘sbersquad_train.json’


2021-02-09 12:05:36 (13.3 MB/s) - ‘sbersquad_train.json’ saved [37803823/37803823]



In [7]:
!wget https://onti2020.ai-academy.ru/task/train_test_sbersquad.zip

--2021-02-09 12:06:02--  https://onti2020.ai-academy.ru/task/train_test_sbersquad.zip
Resolving onti2020.ai-academy.ru (onti2020.ai-academy.ru)... 213.159.215.214
Connecting to onti2020.ai-academy.ru (onti2020.ai-academy.ru)|213.159.215.214|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10431266 (9.9M) [application/zip]
Saving to: ‘train_test_sbersquad.zip’


2021-02-09 12:06:04 (9.42 MB/s) - ‘train_test_sbersquad.zip’ saved [10431266/10431266]



In [18]:
!wget https://onti2020.ai-academy.ru/task/sample_submission_file_outofcomp.json

--2021-02-09 12:51:37--  https://onti2020.ai-academy.ru/task/sample_submission_file_outofcomp.json
Resolving onti2020.ai-academy.ru (onti2020.ai-academy.ru)... 213.159.215.214
Connecting to onti2020.ai-academy.ru (onti2020.ai-academy.ru)|213.159.215.214|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2327062 (2.2M) [application/json]
Saving to: ‘sample_submission_file_outofcomp.json’


2021-02-09 12:51:38 (6.57 MB/s) - ‘sample_submission_file_outofcomp.json’ saved [2327062/2327062]



In [10]:
!ls

 __MACOSX      sbersquad_train.json   train_test_sbersquad.zip
 sample_data  'train_test copy'


In [9]:
!unzip  train_test_sbersquad.zip

Archive:  train_test_sbersquad.zip
   creating: train_test copy/
  inflating: __MACOSX/._train_test copy  
  inflating: train_test copy/sbersquad_test.json  
  inflating: __MACOSX/train_test copy/._sbersquad_test.json  
  inflating: train_test copy/sbersquad_train.json  
  inflating: __MACOSX/train_test copy/._sbersquad_train.json  


In [12]:
!ls "./train_test copy"

sbersquad_test.json  sbersquad_train.json


In [13]:
import json

test = json.load(open('./train_test copy/sbersquad_test.json', 'r'))

In [16]:
test.keys()

dict_keys(['paragraphs'])

In [25]:
test['paragraphs'][0]

{'context': 'К 1960-м годам жилищное строительство распространилось на район восточнее Батарейной горы, ранее застроенный, преимущественно, малоэтажными домами, значительная часть которых была разрушена в ходе войны. Застройка шла по типовым проектам жилых и общественных зданий, город приобретал советский облик, свойственный большинству новых районов в городах СССР. Меняется структура транспорта: на смену закрытому в 1957 году трамваю приходит автобус, а паровозы с 1969 года вытесняются электропоездами. Прежде главный двигатель выборгской экономики — Сайменский канал — вновь начал работу только в 1968 году. К 1970 году численность населения Выборга достигла 65 тыс. человек, что всё ещё было ниже довоенного уровня.',
 'qas': [{'answers': [],
   'id': '8ac1590e97dd2d541eba44eb3bcd0eb15e9b9227',
   'question': 'Какой облик, свойственный большинству новых районов в городах СССР, приобретал город, когда застройка шла по типовым проектам жилых и общественных зданий?'},
  {'answers': [],
   '

In [17]:
train = json.load(open('./train_test copy/sbersquad_train.json', 'r'))

In [19]:
sample = json.load(open('./sample_submission_file_outofcomp.json', 'r'))

In [23]:
sample['00036da7f977b03dc4cbef385809a1312552a41b']

'что акционерное общество работников'

In [26]:
def make_answer(context, question):
  results = model([context],[question])
  return results[0][0]

In [27]:
make_answer(test['paragraphs'][0]['context'], test['paragraphs'][0]['qas'][0]['question'])

'советский'

In [None]:
from tqdm import tqdm

new_sample = {}
for i in tqdm(range(len(test['paragraphs']))):
  context = test['paragraphs'][i]['context']
  for j in range(len(test['paragraphs'][i]['qas'])):
    a_id = test['paragraphs'][i]['qas'][j]['id']
    question = test['paragraphs'][i]['qas'][j]['question']
    answer = make_answer(context, question)
    new_sample[a_id] = answer


 21%|██        | 919/4439 [09:22<23:47,  2.47it/s]

In [None]:
json.dump(open('my_submission.json', 'w'))

In [None]:
#http://docs.deeppavlov.ai/en/master/intro/quick_start.html

In [None]:
!python -m deeppavlov train deeppavlov/configs/squad/squad_ru.json

To train on your own data, you need to modify dataset reader path in the train section doc. The data format is specified in the corresponding model doc page.

http://docs.deeppavlov.ai/en/master/intro/configuration.html#Train-config