# Twitter Sentiment Extraction

<img src="./giphy.gif" width="500" align="center">

# 1. Введение

**Sentiment Extraction** (рус. выделение эмоциональной окраски) - группа задач из области обработки естественных языков, в которых по данному тексту необходимо предсказать эмоциональную окраску и/или выделить слова, содержащие ее. <br>
В нашем случае, исследованы обе задачи: как выделение фраз, задающих эмоциональную окраску, по эмоциональной окраске текста, так и предсказание самой эмоциональной окраски.

# 2. Используемые данные.

В нашей работе использовался датасет от компании Twitter, предоставленный на платформе для соревнований по машинному обучению Kaggle.

# 3. Метрики

**Для оценки качества моделей будут использоваться следущие метрики:**
* f1-score - для оценки качества классификации текста;
* jaccard score - для оценки качества выделения фраз, обеспечивающих эмоциональную окраску.

Подробнее остановимся на метрике Jaccard score как более редко встречающейся.
Эта метрика используется как мера сходства между двумя множествами и вычисляется по формуле:
![jac_2.png](jac_2.png)

Т.е. мы представляем предложения как множества слов и смотрим, насколько эти множества похожи. Мы не будем писать свою реализацию этой метрики, а будем использовать готовую из nltk.

# 4. Формализация задачи.

Задача определения эмоциональной окраски текста формализуется более просто: по данной последовательности токенов (не обязательно слов, так как некоторые модели трансформеров используют char-based токенизацию, а некоторые - токенизацию N - грамм) предсказать один из трех возможных классов эмоциональной окраски: "нейтральная", "позитивная" и "негативная".

Для задачи выделения слов, определяющих эмоциональную окраску, есть несколько возможных формализаций.
Мы будем использовать две:
1. Named Entity Recognition - выделение именованных сущностей; В нашей задаче мы, по сути, будем предсказывать для предложений бинарные маски, в которых единицы стоят на местах слов, которые важны для понимания эмоциональной окраски текста, и нули - на всех остальных;
2. Question Answering - задача поиска ответа в заданном тексте по заданному вопросу. Как мы увидим позже, эта формализация более продуктивна; причина кроется в том, что используемые модели выделяют непрерывную последовательность в токенов, что совпадает с исходной разметкой датасета, в отличие от NER.

# 5. Модели

**Из оспользованных моделей лучше всего показали себя две::**
* roBERTa (классификация)
* DistilBERT (QA)

Все использованные модели относятся к классу так называмых **трансформеров**. Впервые этот концепт был представлен в [2], и с тех модели, следующие некоторому общему концепту модели, достигают SOTA-результатов в NLP.

Общая идея трансформеров не нова и взята из области Computer Vision. Она заключается в предобучении модели на каком-то большом датасете, в ходе которого модель "понимает" область, с которой ей предстоит работать, и следующее за ним обучение на какую-то конкретную задачу, как правило, на меньшем датасете. Однако в NLP модели для использования концепта Transfer Learning, в отличие от CV, предобучается на неразмеченном тексте, обучаясь как т.н. языковая модель - т. е. учатся предсказывать слова по левому, правому или двухстороннему контексту. 
Расскажем подробнее об архитектуре BERT-based моделей.

# BERT

![bert_1.png](bert_1.png)
![bert_2.png](bert_2.png)
![bert_3.png](bert_3.png)

# 6. Результаты.

Исходный датасет был разделен на две части; 80% были взяты для обучения модели, на оставшихся 20% было проведено тестированное, отраженное здесь.

В результате обучения моделей, описанных выше, были получены следующие результаты: 

1. Классификация:
    * roBERTa: <br>
        * F1 - score: 0.824
2. QA: 
    * DistilBERT: <br>
        * Jaccard score: 0.825
    

# Ссылки

[1] [DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, oct.2019](https://arxiv.org/abs/1910.01108) <br> <br>
[2] [Attention is all you need, 2017](https://arxiv.org/abs/1706.03762) <br> <br>
[3] [roBERTa description from Google AI](https://ai.facebook.com/blog/roberta-an-optimized-method-for-pretraining-self-supervised-nlp-systems/)