# Извлечение мнений и оценка тональности: введение.

### Екатерина Владимировна Еникеева

### 2021

# Основные темы

### 1. Sentiment analysis
выявление / классификация оценочных суждений об объекте

### 2. Opinion mining
*примерно* взаимозаменяемы с 1.
- более широкий контекст
- изначально - выявление суждений об определённой характеристике (аспекте) объекта мнения
- может включать собственно майнинг данных

### 3. Subjectivity detection
выявление субъективной информации: факты vs. мнения/эмоции, ср.:

<span style="color:red">По мнению журнала</span>, американский флот имеет наибольшее число кораблей и самую большую зону ответственности.  

Королевский военно-морской флот Великобритании, насчитывающий 19 фрегатов и эсминцев 


# Единицы анализа

1. Субъект оценки (opinion holder)
2. Объект оценки (opinion target)
3. Аспект (attribute, feature)
4. Ориентация (полярность) оценки

<img src="7_Sentiment/holder_1.png" align=center/>

## Мотивация

> Почему выделяем в отдельную задачу, а не включаем в классификацию текстов?

- тональность - многоуровневое явление
- много разноородных данных - применимо в разных направлениях индустрии
- разные темы (объекты мнения) - разные факторы
- несколько явлений:
  - opinions, sentiments, evaluations, appraisals, attitudes, emotions


# Уровни анализа

### Document-level
документ = мнение об одном объекте $\rightarrow$ оценка

### Sentence-level
документ > предложения $\rightarrow$ оценка $+/-/0$

### Entity and aspect level
(feature-based analysis)

оценка относительно объекта / аспекта

оценка: абсолютная / сравнительная (*Coke tastes better than Pepsi*)

# Уровни анализа

Мне <span style="color:blue">все</span> <span style="color:red">очень понравилось</span>. <span style="color:blue">Официантка</span> <span style="color:red">приветливая</span>. <span style="color:blue">Еда</span> <span style="color:red">вкусная</span>.

Общая оценка:  positive

------------

<span style="color:blue">Все</span> было <span style="color:red">ужасно</span>. <span style="color:blue">Официанты</span> подавали все <span style="color:red">крайне медленно</span>. <span style="color:blue">Еда</span> была <span style="color:red">холодная</red>.

Общая оценка: negative

# Уровни анализа

<img width=600 src="7_Sentiment/sentiru.png"/>

Источник: http://www.dialog-21.ru/evaluation/2015/sentiment/

# Что включается в мнение/opinion?

`Posted by: John Smith    Date: September 10, 2011
“(1) I bought a Canon G12 camera six months ago. (2) I simply love it. 
(3) The picture quality is amazing. (4) The battery life is also long.
(5) However, my wife thinks it is too heavy for her.” `



Один отзыв - несколько мнений 
- обо всём объекте (2)
- об отдельных аспектах (3-4)
- несколько субъектов (opinion holders) (5)

# ABSA - Aspect-based Sentiment Analysis

1. **entity extraction and categorization** - извлечение всех упоминаний объекта (entity) $e$
2. **aspect extraction and categorization** - извлечение всех упоминаний аспектов $a_{e}$ и их кластеризация - к какой категории относится упоминание
3. **opinion holder extraction and categorization** - выделение субъектов мнений $h$
4. **time extraction and standardization** - время $t$
5. **aspect sentiment classification** - приписываем каждому аспекту $a_{e}$ тональность $s$ по заданной шкале
6. **opinion quintuple generation** - для каждого документа получаем пятёрку: 
$$(e, a_{e}, s, h, t)$$

# Итоговая цель SA

Извлекаем __мнения__ из __коллекции__ текстов об одном объекте
- в отличие от _извлечения фактов (NER, fact extraction)_
- мнения субъективны, нужно извлечь обобщённую картину

# Резюме: задачи

- разграничение эмоционально окрашенных (несущих субъективную оценку) и нейтральных текстов (фрагментов текстов);
- определение общей положительной vs. отрицательной оценки, содержащейся в тексте; 
- определение оценки относительно некоторого оцениваемого объекта / аспекта оцениваемого объекта и, соответственно, объекта или аспект оценки;
- создание специальных словарей экспрессивной и оценочной лексики

# Приложения SA

<img width=200 src="7_Sentiment/yamarket.png"/>

Источник: https://m.market.yandex.ru/product--fotoapparat-canon-eos-600d-kit/6988659/reviews?track=ftr_desktop_to_touch&pda-redir=1

# Приложения SA

экономика, социология - корреляция настроения пользователей и состояния рынка ценных бумаг

<img width=600 src="7_Sentiment/dowjones.png"/>

Источник: Johan Bollen, Huina Mao, Xiaojun Zeng. 2011. Twitter mood predicts the stock market,
Journal of Computational Science 2:1, 1-8. doi:10.1016/j.jocs.2010.12.007
https://arxiv.org/pdf/1010.3003.pdf

# Приложения SA
маркетинг — анализируем соцсети на предмет оценки бренда / продукта


<img src="7_Sentiment/social-searcher.png">

Источник: https://www.social-searcher.com/social-buzz/?q5=google+

# Приложения SA
политология — собираем данные из блогов о политических взглядах населения

<img width=700 src="7_Sentiment/polls.png"/>

Источник: Brendan O'Connor, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. 2010. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In ICWSM-2010

# Приложения SA
медицина и психология — определяем депрессию / отслеживаем настроение пользователей во время пандемии и т.д.

<img width=900 src="7_Sentiment/covid.png"/>

Источник: https://arxiv.org/pdf/2007.13169.pdf

# Применение subjectivity detection

1. Фильтрация субъективных фрагментов при:
- извлечении фактов
- автоматическом реферировании

2. Собственно opinion mining

3. Связанные задачи:
- irony detection
- humor detection

Twitter Sentiment Analysis https://alt.qcri.org/semeval2016/task4/

Irony Detection (SemEval'18) https://aclanthology.org/S18-1005.pdf

Humor Assessment https://competitions.codalab.org/competitions/20970

# Данные для SA

1. Text-level sentiment
- [IMDB dataset](https://ai.stanford.edu/~amaas/data/sentiment/)
- [Yelp reviews](https://www.yelp.com/dataset)
- [SemEval Twitter dataset](https://alt.qcri.org/semeval2016/task4/)
- ...

2. Aspect-based sentiment
- [SemEval-2016 ABSA dataset](https://alt.qcri.org/semeval2016/task5/)

А также https://alt.qcri.org/semeval2014/task4/

# Представление данных для SA

### Text-level
текст + оценка ($-/0/+$, 1...5, 1...10 etc.)

### Aspect-level
(пример из SemEval-2016)

```
Review id:RST1 (Restaurant)
S1:I was very disappointed with this restaurant. →
{RESTAURANT#GENERAL, “restaurant”, negative, from="34" to="44"}
S2:I’ve asked a cart attendant for a lotus leaf wrapped rice and she replied back rice and just walked away. →{SERVICE#GENERAL, “cart attendant”, negative, from="12" to="26"}
S3:I had to ask her three times before she finally came back with the dish I’ve requested. →
{SERVICE#GENERAL, “NULL”, negative}
S4:Food was okay, nothing great. →
{FOOD#QUALITY, “Food”, neutral, from="0" to="4"}
```

# Данные для SA (русскоязычные)

- [Imhonet-films](http://romip.ru/ru/collections/imhonet-films.html)

\-\- набор отзывов пользователей рекомендательного портала Imhonet.ru на фильмы различных жанров - **оценка 1...10**
- [Camera reviews](http://romip.ru/ru/collections/ya-market-camera.html)

\-\- набор отзывов пользователей на цифровые фотокамеры с Яндекс.Маркета - **оценка 1...5**
- [SentiRuEval](http://www.dialog-21.ru/evaluation/2015/sentiment/)

\-\- отзывы о ресторанах / автомобилях - **оценка 1...5** + **поаспектная разметка**

# Baseline: Naive Bayes

### Признаки
- мешок слов (bag of words)
- взвешивание (частота / tf\*idf ...)
- фильтрация (только прилагательные / именные группы / ...)
- униграммы + биграммы ...
- дополнения: эмодзи, отрицательные частицы ...



# Baseline: Naive Bayes

### Идея
- независимость признаков (naive assumption)
- учитываем априорную вероятность класса / оценки

Для текста $t$, представленного признаками $x_1...x_n$, и класса $c_j$:

$$P(c_i|t)=P(c_j)*\prod_{i=1}^{n}{P(x_i|c_j)}$$

Вероятности для признаков через частоты:
$$P(x_i|c_j)=\frac{count(x_i,c_j)}{\sum_{x_k\in X}{count(x_k,c_j)}}$$

# Тональный словарь/лексикон: зачем?

### Интерпретируемость
- как основа для SA текстов: поаспектный анализ, выделение в тексте ...
- как результат анализа текстов: какие лексические единицы используются для выражения оценки

### Ограниченный домен  (тема)
- тональные выражения повторяются
- можно собрать в unsupervised режиме на неограниченном домене - применять к конкретному топику

### Более сложные штуки
- выделение эмоций, настроения, черт характера

# Эмоциональные состояния

Источник: (Scherer 1984)

- **Emotion**: brief organically synchronized … evaluation of a major event 

*angry, sad, joyful, fearful, ashamed, proud, elated*
- **Mood**: diffuse non-caused low-intensity long-duration change in subjective feeling

*cheerful, gloomy, irritable, listless, depressed, buoyant*
- **Interpersonal stances**: affective stance toward another person in a specific interaction

*friendly, flirtatious, distant, cold, warm, supportive, contemptuous*
> - **Attitudes**: enduring, affectively colored beliefs, dispositions towards objects or persons

>*liking, loving, hating, valuing, desiring*
- **Personality traits**: stable personality dispositions and typical behavior tendencies: 

*nervous, anxious, reckless, morose, hostile, jealous*

# Примеры лексиконов

### [The General Inquirer](http://www.wjh.harvard.edu/~inquirer)

### [LIWC (Linguistic Inquiry and Word Count)](http://www.liwc.net/)

### [MPQA Subjectivity Cues Lexicon](http://www.cs.pitt.edu/mpqa/subj_lexicon.html) / [MPQA Effect Lexicon](http://mpqa.cs.pitt.edu/lexicons/effect_lexicon/)

###  [SentiWordNet](http://sentiwordnet.isti.cnr.it/)

### [NRC Lexicon / EmoLex](https://www.saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm)

- позитивные vs. негативные леммы (обычно несколько тысяч)
- модификаторы (no, not ...)
- когнитивные процессы (think, feel ...)
- степень оценки (strong vs. weak)
- ...

## Effect WordNet

Yoonjung Choi and Janyce Wiebe (2014) +/-EffectWordNet: Sense-level Lexicon Acquisition for Opinion Inference, Proc. of EMNLP 2014.

<img src="7_Sentiment/effect_wordnet.png"/>

# Статьи:
Stone, P. J., Dunphy, D. C., & Smith, M. S. (1966). The general inquirer: A computer approach to content analysis.
    
Pennebaker, J. W., Francis, M. E., & Booth, R. J. (2001). Linguistic inquiry and word count: LIWC 2001. Mahway: Lawrence Erlbaum Associates, 71(2001), 2001.

Wilson, T., Wiebe, J., & Hoffmann, P. (2005, October). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of human language technology conference and conference on empirical methods in natural language processing (pp. 347-354).

Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May). Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In Lrec (Vol. 10, No. 2010, pp. 2200-2204).

Mohammad, S. M., & Turney, P. D. (2013). Crowdsourcing a word–emotion association lexicon. Computational Intelligence, 29(3), 436-465.

# Для русского
[RuSentiLex](https://www.labinform.ru/pub/rusentilex/index.htm)

# Построение тонального лексикона

> базовое множество лексем (seed): good, bad

как построить seed?
- проблема – слова могут иметь разную полярность в разных доменах / жанрах / в разные исторические периоды
- согласно экспериментам, лучше начинать с большого современного списка, а не с маленького списка, который стабилен исторически
- можно исходить из «общего» списка, а потом тьюнить под область
- можно иметь разные списки для разных областей: твиттер, финансы, etc.


# Построение тонального лексикона

> поиск новых слов на основе seed'а

- два полярных множества - эмбеддинги $E_+$ и $E_-$
- найдем центроиды:
$$V^+=1/n\sum_{i=1}^{n}{E(w_i^+)}$$
$$V^-=1/n\sum_{i=1}^{n}{E(w_i^-)}$$
- тогда для новых кандидатов $w$:
$$score(w)=\cos(E(w),V_{axis})$$

# Построение тонального лексикона
> label propagation - распространение метки

- выделим простые паттерны:

adj + *and* + adj - одна оценка : *Fair and legitimate, corrupt and brutal*

adj +  *but* + adj - противоположные оценки : *fair but brutal*


# Label propagation

<img width=900 src="7_Sentiment/label_prop.png"/>

# Построение тонального лексикона

> Алгоритм Turney (Turney 2002)

- seed: *poor, excellent*
- выделяем фразы с прилагательным: *ADJ + X*
  - положительно-ориентированное словосочетание чаще встречается с *excellent*
  - отрицательное – с *poor*
- сравниваем коллокации: 

$$Polarity(phrase) = PMI(phrase,"excellent")-PMI(phrase,"poor")=...$$

$$...=log_2{\frac{count(phrase,"excellent")*count("poor")}{count(phrase,"poor")*count("excellent")}}$$

- предлагает так же оценивать тональность отзывов в целом

# Построение тонального лексикона

> supervised mode: учитываем оценки текстов

- частоты слов в положительных/отрицательных отзывах
- нормализованные частоты
- log likelihood:

$$\frac{P(w|c)}{P(w)} = \frac{count(w,c)*count(w)}{\sum_{w\in c}{count(w,c)}*N}$$

# Potts' diagrams


<img width=900 src="7_Sentiment/potts.png"/>

# Ссылки

Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. ACL, 174–181

Turney, P. D. (2002). Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. arXiv preprint cs/0212032.

Potts, Christopher. 2011. On the negativity of negation. SALT 20, 636-659.



# Классы лексики

- отдельные оценочные слова и выражения с однозначной ориентацией

*позитивный, успешный, неплохой, высоким качеством, проигрывает, огромное преимущество, блестящие результаты, слабый, улучшение*

- оценочные слова, ориентация которых вычисляется только по отношению того аспекта, относительно которого производится оценка 

*маленький, не доступно, обгоняет, вырасти *(ср. маленький фотоаппарат - позитив, но маленький экран – негатив, обгоняет по преступности, обгоняет по урожайности, выросла прибыль, выросла преступность и т.п.)

- слова, одновременно выражающие и сам процесс оценки, и ее ориентацию

*интересен, очень понравилась* – с одной стороны, указывает, что автор приводит личную субъективную оценку, с другой стороны, то, что эта оценка положительна


# Классы лексики

- интенсификаторы:  слова усиливающие или ослабляющие степень при оценке

*лишь, в большинстве случаев, очень*

- инверторы: отрицание и другие слова и выражения, меняющие полярность

*не имеет преимуществ, лишь в незначительном числе сюжетов*

- нейтрализаторы: слова, языковые выражение и конструкции «нейтрализующие» оценку

*был бы неудачным* – модальные слова, будущее время, условное наклонение 


Sentiment Word Vectors https://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

## Дополнительная литература по SA в целом:

[SA список статей](https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html)

[Sentiment Analysis and Opinion Mining - book](https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf)

[Affect Lexicons - Jurafsky+Martin](https://web.stanford.edu/~jurafsky/slp3/21.pdf)

# Connotation frames

некоторые глаголы влияют на полярность своих актантов:

Например: $США_{[holder]}$ критикует $ИГИЛ_{[target]}*$

* список основных участников ситуации, 
* основные грамматические формы, которыми эти участники могут выражаться по отношению к исходному слову предикату 
* отношения между участниками и отношение автора к каждому из участников (Polarity), 
* позитивные или негативные последствия, которые возникают для каждого участника ситуации (Effect), 
* состояние, в котором находится каждый из участников (State)

Источник: https://arxiv.org/pdf/2006.10973.pdf

# Connotation frames

Топ негативных отношений по корпусу СМИ за  2017 год:

<img width=600 src="7_Sentiment/neg_connotation.png"/>