# Задача классификации в NLP

## Виды

1. Бинарная классификация: $C = \{0, 1\}$ 
2. Многоклассовая классификация [multiclass classification]: $C = \{0, ..., K\}$
3. Многотемная классификация [multi-label classification]: $C = \{0,1\}^K$


* $d \in D$ – документы
* $c \in C$ – классы 

## Примеры

* Фильтрация спама: $C = \{spam, ham\}$ – бинарная классификация
* Классификация по тональности: $C =  \{neutral, positive, negative\}$ – классификация с тремя классами
* Рубрикация: $C \in \{религия, праздники, спорт, фестивали, ... \}$ – классификация на несколько тем
* Определение авторства:
    * Этим ли автором написан текст: $ C = \{0, 1\}$?
    * Кем из этих авторов написан текст: $ C = \{a_1, a_2, a_3, ... \}$?
    * Пол автора: $ C = \{f, m\}$
    
## Методы

### По правилам

* Если в предложении встречается личное местоимение первого лица и глагол с окончанием женского рода, то пол автора = $f$.
* Если доля положительно окрашенных прилагательтельных в отзыве больше доли отрицательно окрашенных прилагательных, то отзыв относится к классу $posititive$.

### С использованием алгоритмов машинного обучения 

$ \gamma : D \rightarrow C$ - алгоритм классификации

$({D^{train}, C^{train}})$ – обучающее множество 

$({D^{test}, C^{test}})$ – тестовое множество 

## Метод наивного Байеса  (Multinomial naive Bayes classifier)

Требуется оценить вероятность принадлежности документа $d \in D$ классу $c \in C$: $p(c|d)$. Каждый документ –  мешок слов, всего слов $|V|$.
	
* $p(c)$ – априорная вероятность класса $c$
* $p(c|d)$ – апостериорная вероятность класса $c$
* $ p(c|d) = \frac{p(d|c)p(c)}{p(d)} $


В мультиномиальной байесовской модели документ – это последовательность событий. Каждое событие – этослучайный выбор одного слова из мешка слов.К огда мы подсчитываем правдоподобие документа, мы перемножаем вероятности того, что мы достали из мешка те самые слова, которые встретились в документе. 

Наивное предположение в том, что мы достаём из мешка разные слова независимо друг от друга, т.е. вероятности признаков внутри класса независимы.

Получается мультиномиальная генеративная модель, которая учитывает количество повторений каждого слова, но не учитывает порядок этих слов, а также каких слов нетв документе.

[Подробнее о различных видах байесовских классификаторов](https://logic.pdmi.ras.ru/~sergey/teaching/mlaptu11/03-classifiers.pdf).

# Векторные модели (начало)

Векторые представления лингвистических объектов (слов, предложений, текстов) являются одним из основных инструментов, используемых в компьютерной лингвистике. Они применяются во всех задачах, связанных с обработкой естественного языка. 

* $d \in D$ – документы
* $w \in V$ – словарь, всего слов |V|

* Традиционное представление: одно слово – одна размерность в векторной модели: $\vec{d_i} = <f_1, ... , f_{|V|}> $
* $f$ – компоненты вектора – могут быть:
    * 0 и 1
    * частотами
    * $tf-idf$ весами
* С использованием распределенных представлений слов *(word embeddings)*:
    * покомпонентное среднее векторов слов, входящих в текст
    * покомпонентный максимум векторов слов, входящих в текст
* С использованием распределенных представлений текстов *(doc embeddings)*:
    * doc2vec
    * fastText
    * снижение размерности в векторной модели, в т. ч. сингулярное разложение [singular value decomposition, SVD]
    
    
### Виды векторизации

* One-hot кодирование
* Модель мешка слов
* tf-idf
* Матрицы совместной встречаемости
* Латентно-семантический анализ (LSA)
* Латентное размещение Дирихле (LDA)
* Распределенное представление слов/документов (embeddings)


### Терм-документная матрица

**Терм-документная матрица** — матрица, которая описывает частоту «терминов» (т.е. слов) в коллекции документов. В терм-документной матрице строки соответствуют терминам, а столбцы — документам в коллекции. Что будет в ячейках матрицы зависит от способа векторизации:

* 0 и 1 при one-hot encoding
* абсолютная/относительная частота при модели мешка слов
* tf-idf веса

![td_matrix](./img/matrix.png)


## Счетные векторные модели

### One-hot кодирование

Самый простой представить слова в векторном виде -- проиндексировать их и закодировать векторами, в которых все компоненты будут равны 0, а компонента, соответствующая индексу слова, равна 1. Иначе говоря, мы работаем с матрицей $W$ размерности $k$, где $k$ это число уникальных слов в корпусе, а в рядах и столбцах находятся все эти слова. Мы ставим в ячейку матрицы 1, если слово в строке и колонке совпадает. 

![OneHot](http://1.bp.blogspot.com/-_c2pVR3A0HQ/VogUStUgFbI/AAAAAAAADQc/6V1M6zmAJmA/s1600/1-hot-vector.png)

Такое представление слов называется *one-hot encoding*. Оно может быть иногда полезно, когда мы хотим работать со словами как с категориальными признаками, но не несёт совершенно никакой информации о значении слов. 

### Мешок слов

**Мешок слов** *(bag of words, BoW)* — это векторная модель, где каждый документ или текст выглядит как неупорядоченный набор слов без сведений о связях между ними. Его можно представить в виде матрицы, каждая строка в которой соответствует отдельному документу или тексту, а каждый столбец — определенному слову. Ячейка на пересечении строки и столбца содержит *количество вхождений слова* в соответствующий документ.

Это значит, что каждое слово или каждая N-грамма задает свою координату в векторном пространстве и никаких дополнительных признаков – например, порядок слов – не использует. 

![bow](./img/bow.png)


## TF-IDF

Ещё один способ работы с текстовыми данными — [TF-IDF](https://en.wikipedia.org/wiki/Tf–idf) *(Term Frequency – Inverse Document Frequency)*. Tf-idf — это модификация мешка слов, которая позволяет учитывать «важность» слова в документе. 

Рассмотрим коллекцию текстов $D$.  Для каждого уникального слова $t$ из документа $d \in D$ вычислим следующие величины:

**1. Term Frequency** – количество вхождений слова в отношении к общему числу слов в тексте:

$\text{tf}(t, d) = \frac{n_{td}}{\sum_{t \in d} n_{td}},$

где $n_{td}$ — количество вхождений слова $t$ в текст $d$. 

То есть по сути это мешок слов, только частота здесь не абсолютная, а относительная (нормированная на длину текста).


**2. Inverse Document Frequency**
$\text{idf}(t, D) = \log \frac{\left| D \right|}{\left| \{d\in D: t \in d\} \right|},$

где $\left| \{d\in D: t \in d\} \right|$ – количество текстов в коллекции, содержащих слово $t$.

Тогда для каждой пары (слово, текст) $(t, d)$ вычислим величину:

$\text{tf-idf}(t,d, D) = \text{tf}(t, d)\cdot \text{idf}(t, D).$

Значение $\text{tf}(t, d)$ корректируется для часто встречающихся общеупотребимых слов при помощи значения $\text{idf}(t, D).$  Если слово встречается в множестве документов, то idf будет близка к 1, а если оно встречается в одном документе или в небольшом количестве документов, то она будет гораздо выше.

Признаковым описанием одного объекта $d \in D$ будет вектор $\bigg(\text{tf-idf}(t,d, D)\bigg)_{t\in V}$, где $V$ – словарь всех слов, встречающихся в коллекции $D$.

Можно записать формулу расчет tf-idf чуть проще:


<img src="./img/tfidf.png" width="400" align="left">

## Совместная встречаемость слов

В предыдущих моделях мы никак не учитывали значение слова. Можно ли его как-то закодировать? Здесь к нам приходит на помощь лингвистическая теория, которая называется дистрибутивной гипотезой. Она утверждает, что значение слова определяется его контекстом — иначе говоря, словами, которые встречаются рядом с этим словом в тексте. Область лингвистики, которая занимается вычислением степени семантической близости между словами/текстами и т.п. на основании их распределения (дистрибуции) в больших массивах данных (текстовых корпусах) назвается **дистрибутивной семантикой**.

Давайте будет подразумевать под контекстом некоторое число $n$ слева и справа от слова. Это число будем называть *окном*. К примеру, в предложении "мама мыла раму" окном размера 1 для слова "мыла" будет набор слов ("мама", "раму").

Пусть теперь мы будем ставить в ячейку 1, если слово из *колонки* хоть раз встретилось внутри окна вокруг слова из *строки* во всём корпусе. 

![Binary](http://4.bp.blogspot.com/-JHmQeFhqgCU/VogqxZ2UdhI/AAAAAAAADQs/-rJ0QYDn_ws/s1600/distributional.png)

Такая матрица называется **бинарной матрицей совместной встречаемости**, и она уже что-то говорит о значении слов. Тем не менее, с помощью неё все ещё трудно отличить слова, которые часто встречаются в похожих контекстах. Здесь довольно логичным кажется переход от бинарных значений к собственно количеству появлений слова $w_1$ в контексте слова $w_2$: иначе говоря, сколько раз в корпусе слово "мыла" встретилась рядом со словом "мама".

### Метрики вероятности совместной встречаемости слов

Бинарная и частотная матрицы это самые простые способы получения информации о контексте слова. Они не очень эффективны и не используют информацию о том, насколько характерно для данного документа само употребление слов в контексте.

Метрика, которая лучше фиксирует эту информацию, называется PMI (Pointwise Mutual Information): здесь способ посчитать связь между двумя словами это узнать, насколько чаще они встречаются в корпусе вместе, чем если бы мы ожидали, что они появляются случайно. Иначе говоря, это мера того, как часто встречаются две случайные величины $w$ и $c$, по сравнению с тем, что мы ожидали бы, если бы они были независимыми:

$$PMI_{w, c} =  \log_2 \frac{P(w, c)}{P(w)P(c)}.$$

Значения PMI варьируются от -$\infty$ до $\infty$. Но отрицательные значения PMI, как правило, ненадежны: они говорят о том, что слова вместе встречаются реже, чем случайно. И если у нас нет очень большого корпуса, то эти редко встречающиеся пары слов будут зашумлять наши данные. По этой причине всегда лучше использовать метрику Positive PMI (сокращённо PPMI), которая заменяет все отрицательные значения PMI на ноль.

$$PPMI_{w, c} = \max(PMI_{w, c}, 0) = PMI_{w, c}^+$$

# Задание №1

## Определение языка

Необходимо решить задачу определения языка на коллекция из 383,108 текстов на 26 языках с помощью наивного байесовского классификатора. Влияет ли способ векторизации на результаты? Сильно ли меняется качество классификации при изменении различных параметров векторизатора и классификатора? Как можно оценить качество работы модели? Необзодимо также визуализировать результаты (например, построить матрицу ошибок).

Чтобы класиифицировать тексты, нужно сначала их векторизовать. В `sklearn` реализованы, например, [модель мешка слов](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) (`CountVectorizer`) и [tf-idf](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) (`TfidfVectorizer`).

Основные параметры:

* lowercase: приводить к нижнему регистру или нет
* ngram_range: например, (1, 3) значит, что будут использованы униграммы, биграммы и триграммы
* analyzer: ‘word’ (слова), ‘char’ (символы), ‘char_wb’ (символы только внутри границ слова)
* tokenizer: можно использовать свой токенизатор, а не встроенный
* token_pattern: для встроенного токенизатора можно задать понятие токена в виде регулярки
* stop_words: список стоп-слов, по умолчанию None
* max_df: максимальная документная частота, от 0.0 до 1.0
* min_df: минимальная документная частота, целое число (например, если min_df=5, то будут учитываться только слова, которые встречаются 5 и более раз)

### Подготовка данных

Для начала посмотрим на [данные](https://www.dropbox.com/s/bybdr0a3fod1j1a/data-lang-id.txt?dl=0). Первая колонка здесь – метка класса (язык), вторая – текст, а разделены они табуляцией.

In [6]:
from sklearn.feature_extraction.text import *
from sklearn.metrics import *
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [2]:
import pandas as pd

data = pd.read_table('./data/data-lang-id.txt', sep='\t')
data.head()

In [None]:
data.groupby('lang').count()

In [3]:
# что-то не так...
data.count()

lang    383111
text    383108
dtype: int64

In [4]:
# выкинем строки, в которых есть пустые значения
# и переназначим индексы

data.dropna(inplace=True)
data.reset_index(drop=True, inplace=True)
data.count()

lang    383108
text    383108
dtype: int64

Теперь нужно разбить данные на тренировочную и тестовую выборку. Кажется, они уже перемешаны, но на всякий случай перемешаем их перед разбиением еще раз.

In [5]:
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split

data = shuffle(data)

train, test = train_test_split(data, test_size=0.2)
train.tail()

Unnamed: 0,lang,text
132941,fr,Le plaisir qu’il y prenait se reflétait sur se...
31184,ru,Алесь привязал коня к забору и медленно пошел ...
255297,en,"Ranged around the building in ring fashion, th..."
198820,pl,"Myślałem o Claire, o wieczorach, które u niej ..."
152289,ru,"Кроме нас двоих, у нее нет никого на земле. Ск..."


Векторизуем данные и обучаем классификатор.

In [4]:
# YOUR CODE HERE

vectorizer = CountVectorizer()
classifier = MultinomialNB()

clf = Pipeline([
    ('vect', vectorizer),
    ('clf', classifier),
])

%time clf.fit(train.text, train.lang)

Смотрим показания классификатора на тестовом множестве. 

In [8]:
# YOUR CODE HERE

predictions = clf.predict(test.text)

Оцениваем качество.

In [3]:
# YOUR CODE HERE

Визуализируем результаты (например, в виде матрицы ошибок).

In [5]:
# YOUR CODE HERE

## Важность признаков

Веса признаков в линейной модели в случае, если признаки отмасштабированы, характеризуют степень их влияния на значение целевой переменной. В задаче классификации текстов, кроме того, признаки являются хорошо интерпретируемыми, поскольку каждый из них соответствует конкретному слову. Изучим влияние конкретных слов на значение целевой переменной.

In [6]:
f_weights = zip(vectorizer.get_feature_names(), classifier.coef_[0])
f_weights = sorted(f_weights, key=lambda i: i[1])
for i in range(1,30):
    print('%s, %.2f' % f_weights[-i])
    
print('...')
for i in reversed(range(1,10)):
    print('%s, %.2f' % f_weights[i])

# Задание №2

## Классификация новостей по темам

Необходимо скачать датасет [20newsgroups](https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html), выбрать несколько тем (не меньше 4, можно и все) и проделать то же самое с ними. В данном случае предсказывать мы будем тему новости, и, поскольку эта задача сложнее, можно сравнить качество при использовании лемматизации и без, при удалении стоп-слов и без, при разных способах векторизации (пока используем только счетные модели). Также необходимо сравнить разные методы классификации (хватит тех, что реализованы в sklearn), т.е. использовать не только NB.