
<h1><center>Многоязычная классификация текстов на основе BERT</center></h1>

Мы продолжим знакомство с моделями на основе архитектуры Трансформер. 
На этом занятии мы рассмотрим классификатор на основе модели RoBERTa (модель на базе BERT), дообученный для решения задачи Natural Language Inference (NLI). В этой задаче нам требуется предсказать, если ли логическая связь между двумя предложениями: следует ли одного из другого.  Этот классификатор, предобученный на задаче NLI, позволит нам решать задачу классификации в Zero-shot постановке. В такой постановке модели НЕ требуется обучение на размеченных данных, поскольку любую задачу мы можем свести к задаче NLI –- мы рассмотрим, как именно в примерах ниже.

Мы загрузим заранее обученный классификатор и будем использовать его, чтообы классифицировать тексты на нужные нам классы. 

Два важных отличия рассматриваемой сегодня модели от тех, с которыми мы работали на предыдущих занятиях:
- Подход zero-shot не требует обучения модели, нам следует лишь подать классификатору текст и названия нужных нам классов. Модель будет строить предсказание на основе своего внутреннего представления, обученного заранее.
- Данная модель многоязычна. Мы будем работать с текстами, написанными на разных языках.

## Классификация текстов на английском языке

Установим библиотеку transformers и загрузим модуль pipeline, в котором находится нужная нам модель.

In [1]:
!pip install transformers==3.1.0

Collecting transformers==3.1.0
  Using cached transformers-3.1.0-py3-none-any.whl (884 kB)
Collecting tokenizers==0.8.1.rc2
  Using cached tokenizers-0.8.1rc2-cp38-cp38-win_amd64.whl (1.9 MB)

ERROR: After October 2020 you may experience errors when installing or updating packages. This is because pip will change the way that it resolves dependency conflicts.

We recommend you use --use-feature=2020-resolver to test your packages with the new resolver before it becomes the default.

allennlp 1.2.0 requires overrides==3.1.0, but you'll have overrides 2.7.0 which is incompatible.



Installing collected packages: tokenizers, transformers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.9.4
    Uninstalling tokenizers-0.9.4:
      Successfully uninstalled tokenizers-0.9.4
  Attempting uninstall: transformers
    Found existing installation: transformers 4.0.0
    Uninstalling transformers-4.0.0:
      Successfully uninstalled transformers-4.0.0
Successfully installed tokenizers-0.8.1rc2 transformers-3.1.0


In [1]:
from transformers import pipeline

In [2]:
classifier = pipeline("zero-shot-classification")
# classifier = pipeline("zero-shot-classification", device=0) # to utilize GPU

HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=1629486723.0), HTML(value='')))




Some weights of the model checkpoint at facebook/bart-large-mnli were not used when initializing BartForSequenceClassification: ['model.encoder.version', 'model.decoder.version']
- This IS expected if you are initializing BartForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPretraining model).
- This IS NOT expected if you are initializing BartForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [3]:
?pipeline


С помощью этой модели мы можем классифицировать тексты как принадлежащие или не принадлежащие одному из нужных нам классов.

По умолчанию предполагается, что текст принадлежит ровно к одному из объявленных классов, а модель возвращает вероятности каждого из классов, которые в сумме равны 1.

Посмотрим простой пример.

In [4]:
sequence = "Who are you voting for in 2020?"
candidate_labels = ["politics", "public health", "economics"]

classifier(sequence, candidate_labels)

{'sequence': 'Who are you voting for in 2020?',
 'labels': ['politics', 'economics', 'public health'],
 'scores': [0.972518801689148, 0.014584148302674294, 0.01289710309356451]}

Модель также может решать задачу многоклассоовой классификации, определяя для каждого класса, принадлежит ли к нему текст или нет. 
В этом случае модель возвращает вероятности каждого из классов независимо. Нам понадобиться добавить парамерт ```multi_class=True``` в вызов функции. 

In [6]:
sequence = "Who are you voting for in 2020?"
candidate_labels = ["politics", "public health", "economics", "elections"]

classifier(sequence, candidate_labels, multi_class=True)

{'sequence': 'Who are you voting for in 2020?',
 'labels': ['politics', 'elections', 'public health', 'economics'],
 'scores': [0.972069501876831,
  0.967610776424408,
  0.03248727321624756,
  0.00616444693878293]}

Мы можем решать не только задачу классификации по темам, но и задачу классификации по тональности: можно классифицировать отзывы на негативный и позитивный классы.

In [7]:
sequence = "I hated this movie. The acting sucked."
candidate_labels = ["positive", "negative"]

classifier(sequence, candidate_labels)

{'sequence': 'I hated this movie. The acting sucked.',
 'labels': ['negative', 'positive'],
 'scores': [0.9916268587112427, 0.008373180404305458]}


Модель, лежащая в основе данного классификатора, была обучена на задаче Natural Language Inference (NLI). Задача состояла в следующем: по двум входящим текстам требовалось определить, является ли один из них продолжением другого.

Такую модель можно использвать в задаче zero-shot классификации, если свести классификацию к задаче NLI. Для этого модели на вход подаются два текста:
- текст, который нужно классифицировать (*предпосылка*)
- текст шаблона, в который вставлено название нужного класса (*гипотеза*)


Если с точки зрения NLI-модели текст гипотезы продолжает текст предпосылки, то мы можем заключить, что классифицируемый текст относится к соответствующему классу.

По умолчанию заданные метки классов вставляются в шаблон `This example is {class_name}.` 

Во многих случаях такой подход работает достаточно хорошо, но в некоторых задачах качество классификации можно улучшить, используя более подходящий шаблон.

In [8]:
sequences = [
    "I hated this movie. The acting sucked.",
    "This movie didn't quite live up to my high expectations, but overall I still really enjoyed it."
]
candidate_labels = ["positive", "negative"]

classifier(sequences, candidate_labels)

[{'sequence': 'I hated this movie. The acting sucked.',
  'labels': ['negative', 'positive'],
  'scores': [0.9916268587112427, 0.00837317667901516]},
 {'sequence': "This movie didn't quite live up to my high expectations, but overall I still really enjoyed it.",
  'labels': ['negative', 'positive'],
  'scores': [0.8148513436317444, 0.1851486712694168]}]

Второй пример выше несколько сложнее первого, поэтому модель предсказывает негативный класс менее уверенно. 

Попробуем повысить уверенность классификации, используя более подходящий шаблон для данной задачи. Вместо шаблона по умолчанию `This example is {}.`, мы будем использовать `The sentiment of this review is {}.` (здесь `{}` будет заменено на название класса)

In [9]:
sequences = [
    "I hated this movie. The acting sucked.",
    "This movie didn't quite live up to my high expectations, but overall I still really enjoyed it."
]
candidate_labels = ["positive", "negative"]
hypothesis_template = "The sentiment of this review is {}."

classifier(sequences, candidate_labels, hypothesis_template=hypothesis_template)

[{'sequence': 'I hated this movie. The acting sucked.',
  'labels': ['negative', 'positive'],
  'scores': [0.9890093207359314, 0.010990707203745842]},
 {'sequence': "This movie didn't quite live up to my high expectations, but overall I still really enjoyed it.",
  'labels': ['positive', 'negative'],
  'scores': [0.9581230282783508, 0.041876986622810364]}]


Используя более точные и более подходящие к нашему контексту шаблоны, мы можем получить более точную классификацию.

## Многоязычная классификация

Данный классификатор можно использовать не только для английского языка, но и для ряда других. Для этого была обучена кросс-язычная модель на базе модели XLM RoBERTa.

Чтобы использовать эту модель, достаточно добавить дополнительный параметр ```model``` при объявлении классификатора.

In [2]:
classifier = pipeline("zero-shot-classification", model='joeddav/xlm-roberta-large-xnli')

HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=734.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=5069051.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=150.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=25.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=2243942751.0), HTML(value='')))




In [57]:
import fitz
import os
import regex as re
import pandas as pd
from tqdm.notebook import tqdm

In [4]:
mess = pd.read_csv('./Data/collection.txt', quotechar='"')

(60152, 2)

In [52]:
print(mess.iloc[:10,1])

0    Issued: January 2009 Code of Ethics Revised: P...
1    Integrity The integrity of internal auditors e...
2    Objectivity Internal auditors exhibit the high...
3    Internal auditors make a balanced assessment o...
4    Confidentiality Internal auditors respect the ...
5    Competency Internal auditors apply the knowled...
6                                   Rules of Conduct 1
7                       Integrity Internal auditors: 1
8    Shall perform their work with honesty, diligen...
9    Shall observe the law and make disclosures exp...
Name:  Text, dtype: object


In [53]:
question = input()

corporate governance




Модель позволяет использовать любую комбинацию языков. Можно, например, классифицировать русский текст с английскими названиями классов.

In [58]:
probabilities = []
candidate_labels = [question]
hypothesis_template = "This sentence is about {}."
n = len(mess)
for i in tqdm(range(n)):
    sequence = mess.iloc[i, 1]
    result = classifier(sequence, candidate_labels, hypothesis_template=hypothesis_template)
    probabilities.append([result['scores'][0], i])

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=60152.0), HTML(value='')))




KeyboardInterrupt: 

In [60]:
i = max(probabilities)[1]
print(mess.iloc[i])

Doc                                 Standards rus 2017.pdf
 Text    совет директоров, наблюдательный совет или сов...
Name: 803, dtype: object


In [64]:
probabilities.sort(reverse=True)
probabilities[:10]

[[0.9994304776191711, 803],
 [0.9993367195129395, 744],
 [0.9992428421974182, 740],
 [0.9992086887359619, 1540],
 [0.9991915822029114, 1802],
 [0.9991769790649414, 935],
 [0.9991758465766907, 1637],
 [0.9991623759269714, 1156],
 [0.9991623759269714, 47],
 [0.9991306662559509, 709]]

Теперь можно сделать то же самое, только поменять названия классов на французские.

In [6]:
sequence = "За кого вы голосуете в 2020 году?" # translation: "Who are you voting for in 2020?"
candidate_labels = ["Europe", "santé publique", "politique"]

classifier(sequence, candidate_labels)

{'sequence': 'За кого вы голосуете в 2020 году?',
 'labels': ['politique', 'Europe', 'santé publique'],
 'scores': [0.9726155400276184, 0.017128445208072662, 0.010256034322082996]}


Как было отмечено выше, по умолчанию в модели используется шаблон на английском языке, `This text is {}.`
В случае, если мы работаем с другим языком, имеет смысл поменять данный шаблон на аналогичный, написанный на нужном нам языке.

In [7]:
sequence = "¿A quién vas a votar en 2020?"
candidate_labels = ["Europa", "salud pública", "política"]
hypothesis_template = "Este ejemplo es {}."

classifier(sequence, candidate_labels, hypothesis_template=hypothesis_template)

{'sequence': '¿A quién vas a votar en 2020?',
 'labels': ['política', 'Europa', 'salud pública'],
 'scores': [0.9109594225883484, 0.0595475435256958, 0.02949300780892372]}

Модель была дообучена на корпусе XNLI, в состав которого входят тексты на 15 языках: английский, арабский, болгарский, вьетнамский, греческий, испанский, немецкий, русский, суахили, тайский, турецкий, урду, французский и хинди. 

Базовая модель RoBERTa, на основе которой была построена данная модель, была обучена на 100 языках, поэтому для каждого из этих языков эта модель будет также работать в некоторой степени.  

## Итоги

Сегодня мы познакомились с моделью на базе RoBERTa для решения задачи NLI.

Мы научились использовать построенный на основе данной модели классификатор для классификации текстов на разных языках по разным классам, названия которых мы задавали сами.

На следующих занятиях мы продолжим изучение моделей, основанных на архитектуре BERT и рассмотрим другие задачи, которые можем решать с их помощью.