# Классификация текстов

## Постановка задачи

* $d \in D$ – документы
* $c \in C$ – классы 

* Бинарная классификация: $C = \{0, 1\}$ 
* Многоклассовая классификация [multiclass classification]: $C = \{0, ..., K\}$
* Многотемная классификация [multi-label classification]: $C = \{0,1\}^K$

## Примеры

* Фильтрация спама: $C = \{spam, ham\}$ – бинарная классификация
* Классификация по тональности: $C =  \{neutral, positive, negative\}$ – классификация с тремя классами
* Рубрикация: $C \in \{религия, праздники, спорт, фестивали, ... \}$ – классификация на несколько тем
* Определение авторства:
    * Этим ли автором написан текст: $ C = \{0, 1\}$?
    * Кем из этих авторов написан текст: $ C = \{a_1, a_2, a_3, ... \}$?
    * Пол автора: $ C = \{f, m\}$
    
### По правилам

* Если в предложении встречается личное местоимение первого лица и глагол с окончанием женского рода, то пол автора = $f$.
* Если доля положительно окрашенных прилагательтельных в отзыве больше доли отрицательно окрашенных прилагательных, то отзыв относится к классу $posititive$.

### С использованием алгоритмов машинного обучения 

$ \gamma : D \rightarrow C$ – алгоритм классификации

$({D^{train}, C^{train}})$ – обучающее множество 

$({D^{test}, C^{test}})$ – тестовое множество 

## Меры качества бинарной классификации 

<table>
  <tr>
    <th colspan="2" rowspan="2"></th>
    <th colspan="2">gold <br>standart</th>
  </tr>
  <tr>
    <td>positive</td>
    <td>negative</td>
  </tr>
  <tr>
    <td rowspan="2">classification <br>output</td>
    <td>positive</td>
    <td>$tp$</td>
    <td>$fp$</td>
  </tr>
  <tr>
    <td>negative</td>
    <td>$fn$</td>
    <td>$tn$</td>
  </tr>
</table>

$precision = Pr =  \frac{tp}{tp+fp} $ – точность 

$recall = R = \frac{tp}{tp+fn} $ – полнота 

$F_2 = \frac{2 Pr * R}{Pr + R}$ – $F$-мера 

$accuracy = \frac{tp + tn}{tp + fp + fn + tn}$ –  аккуратность  

## Меры качества многоклассовой классификации 

<table>
  <tr>
    <th></th>
    <th></th>
    <th colspan="3">gold <br>standart</th>
  </tr>
  <tr>
    <td></td>
    <td></td>
    <td>$class_1$</td>
    <td>$class_2$</td>
    <td>$class_3$</td>
  </tr>
  <tr>
    <td rowspan="3">classification <br>output</td>
    <td>$class_1$</td>
    <td>$tp_1$</td>
    <td>$fp_{12}$</td>
    <td>$fp_{13}$</td>
  </tr>
  <tr>
    <td>$class_2$</td>
    <td>$fn_{21}$</td>
    <td>$tp_2$</td>
    <td>$fp_{23}$</td>
  </tr>
  <tr>
    <td>$class_3$</td>
    <td>$fn_{31}$</td>
    <td>$fn_{32}$</td>
    <td>$tp_3$</td>
  </tr>
</table>

Микро-усреднение:

$micro-precision = micro-Pr =  \frac{\sum tp_i}{\sum tp_i + \sum fp_i} $ 

$micro-recall = micro-R = \frac{\sum tp_i}{\sum tp_i+ \sum fn_i } $

Макро-усреднение:

$macro-precision = macro-Pr =  \frac{\sum Pr_i}{|C|} $

$macro-recall = macro-R = \frac{\sum R_i}{|C|} $ 





In [1]:
import nltk
import csv

Посмотрим на данные: это отзывы о ресторанах и оценка. Будем решать многоклассовую классификацию

In [2]:
! head -n 2 train.data

Id	Sentiment	Text
0	1	Incredibly disappointing service. I mean really, really bad.\n\nWe placed an order for delivery at 6:30 pm on a Tuesday night, not the busiest night of the week, I'm sure. We were given an estimate of 30-40 minutes. After an hour my husband called to make sure our order wasn't forgotten. The young girl on the phone said that they were very busy and the driver was on his way to our house (less than a mile from the restaurant) at that time and should arrive in 10 minutes. After another 30 minutes we called back and asked to please cancel the order, after 1 1/2 hours we no longer wanted the food. The girl on the phone shouted at my husband that none of this was her fault and was reluctant to cancel our order. She wanted to charge us for food we never received!\n\nThe food is just not good enough for such poor service. If 18 year old college students can't answers phones and take simple orders don't hire them. It's simple.


In [3]:
! wc -l train.data

  102583 train.data


Считаем выборку, поделим на трейн и тест так, чтобы в x_train был raw text

In [4]:
train_file = csv.reader(open('train.data'), delimiter='\t') 
next(train_file) 
train_set = [x for x in train_file]

train_data, train_label = [line[2] for line in train_set], [line[1] for line in train_set]
from sklearn.cross_validation import train_test_split

x_train, x_validate, y_train, y_validate = train_test_split(train_data, train_label, test_size=0.2, random_state=0)



In [5]:
x_train[0]

'I like this location because they have a drive-thru. Even though there is almost always a long line, they get you on your way fast. The staff is friendly and competent. Also, they rarely run out of anything (other locations seem to go through their entire inventory of breakfast sandwiches and scones by 9am).\\n\\nIf you are the type that does not drink your morning coffee inside a moving vehicle, they also have comfy chairs inside and decent patio seating.  The patio faces the parking lot and drive-thru but it does have shade umbrellas so it can be very pleasant in the morning.'

In [6]:
y_train[0]

'3'

Посмотрим что будет, если применить самое простое решение: найти 100 самых частотных слов и использовать их в качестве признаков.

In [7]:
from collections import Counter 

def create_bow_with_freq(data): 
    result = Counter() 
    for s in data:
        result.update(s.strip().split()) 
    return list(result.items())

In [8]:
train_bow = create_bow_with_freq(x_train)
print('Number of unique "words": ', len(train_bow))

Number of unique "words":  484082


In [9]:
most_frequent_word = sorted(train_bow, key=lambda x: x[1], reverse=True)[:100]
most_frequent_word[:10]

[('the', 654951),
 ('and', 492240),
 ('a', 411657),
 ('I', 385802),
 ('to', 359227),
 ('of', 248340),
 ('was', 240102),
 ('is', 184703),
 ('for', 167194),
 ('in', 162966)]

In [10]:
def make_bow_sample(bow, sample): 
    for s in sample: 
        s = s.strip().split() 
        yield { word: (word in s) for (word, _) in bow}  

In [11]:
bow_train = [(x, y) for (x, y) in zip(make_bow_sample(most_frequent_word, x_train), y_train)]
bow_validate = [b for b in make_bow_sample(most_frequent_word, x_validate)] # без категории, только словарь

Воспользуемся наивным байесовским классификатором. 
Плюс данного классификатора - можно посмотреть какиме слова оказались наиболее полезными.

## Метод наивного Байеса  [Multinomial naive Bayes classifier]

Требуется оценить вероятность принадлежности документа $d \in D$ классу $c \in C$: $p(c|d)$. Каждый документ –  мешок слов, всего слов $|V|$.
	
$p(c)$ – априорная вероятность класса $c$
   
$p(c|d)$ – апостериорная вероятность класса $c$
	
$ p(c|d) = \frac{p(d|c)p(c)}{p(d)} $

Пусть документ $d$ описан признаками $f_1, \dots, f_N$.

$ c_{NB} = \arg \max _{c \in C} p (c|d) = \arg \max_{c \in C}  \frac{p(d|c)p(c)}{p(d)} \propto $
	
$ \propto \arg \max_{c \in C} p(d|c)p(c)  = \arg \max_{c \in C} p(f_1, f_2, \dots, f_{N} | c)p(c)$

### Предположение о независимости 

* Мешок слов: порядок слов не имеет значения
* Условная независимость (наивное предположение): вероятности признаков $p(f_i|c_j)$ внутри класса $c_j$ независимы

$p(f_1, f_2, \dots, f_{N} | c) \times  p(c) =   p(f_1|c) \times p(f_2|c) \times \dots \times p(f_{N}|c)  \times p(c)$


$C_{NB}=\arg \max_{c \in C} p(c) \times \prod_{1 \le i \le N} p(f_i|c) $

Допустим, что признаки $f_i$ – слова $w_i$, а $\texttt{positions}$ – все позиции слов в документе.


$C_{NB} = p(c) \times \prod_{i \in \texttt{positions}} p(w_i|c) $

### Обучение наивного Байесовского классификатора

#### ММП оценки вероятностей:
	
$ \widehat{p_(c_j)} = \frac{| \{d| d \in c_j\} |}{|D|} $
	
$ \widehat{p(w_i | c_j)} = \frac{\texttt{count}(w_i, c_j)}{\sum_{w \in V} \texttt{count}(w, c_j)} $
	
Создаем $|C|$ мегадокументов: каждый документ = все документы в одном классе, склеенные в один мегадокумент и вычисляем частоты $w$ в мегадокументах.
	
#### Проблема нулевых вероятностей:  

$\texttt{count}(w_i, c_j)$ может быть равно нулю. 

Допустим, что каждое слово встречается как минимум $\alpha$ раз в мешке слов.
	
Преобразование Лапласа: $ \frac{+\alpha}{+\alpha |V|}$
	
$ \widehat{p(w_i | c_j)} = \frac{\texttt{count}(w_i, c_j) + \alpha}{(\sum_{w \in V} \texttt{count}(w, c_j)) + \alpha |V| } $

### Пример. Тематическая классификация
	
    


<table>
  <tr>
    <th></th>
    <th>документ</th>
    <th>класс</th>
  </tr>
  <tr>
    <td rowspan="4">обучающее<br>множество</td>
    <td>Chinese Beijing Chinese</td>
    <td>c</td>
  </tr>
  <tr>
    <td>Chinese Chinese Shanghai</td>
    <td>c</td>
  </tr>
  <tr>
    <td>Chinese Macao</td>
    <td>c</td>
  </tr>
  <tr>
    <td>Tokyo Japan Chinese</td>
    <td>j</td>
  </tr>
  <tr>
    <td>тестовое<br>множество</td>
    <td>Chinese Chinese Chinese Tokyo Japan</td>
    <td>?</td>
  </tr>
</table>

Какой класс получим? Посчитайте.

### Простой пример применения Наивного Байеса 
см в classification_names.html

### Продолжаем на наших данных:




In [13]:
nb = nltk.NaiveBayesClassifier.train(bow_train)
print(nb.show_most_informative_features())
predicted = [nb.classify(o) for o in bow_validate]

Most Informative Features
                    love = True                5 : 1      =      3.5 : 1.0
                   great = True                5 : 1      =      3.1 : 1.0
                     was = False               5 : 1      =      2.7 : 1.0
                  always = True                5 : 1      =      2.6 : 1.0
                  pretty = True                3 : 1      =      2.5 : 1.0
                      no = True                1 : 5      =      2.4 : 1.0
                      he = True                1 : 4      =      2.4 : 1.0
                      to = False               4 : 1      =      2.3 : 1.0
                  didn't = True                2 : 5      =      2.3 : 1.0
                    nice = True                4 : 1      =      2.2 : 1.0
None


In [14]:
import numpy as np

In [15]:
print ('accuracy', np.mean(np.array([float(x) for x in predicted])== np.array([float(x) for x in y_validate])))

accuracy 0.378760544151


## Примеры других классификаторов
см classification_texts.html

### На наших данных


In [16]:
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import SGDClassifier
import glob

In [17]:
y_train1 = [float(v) for v in y_train]
y_validate1 = [float(v) for v in y_validate]

В этот раз будем действовать умнее:

In [18]:
tfidf = TfidfVectorizer(encoding=u'utf-8', ngram_range=(1, 2), analyzer='word')
Xtrain = tfidf.fit_transform(x_train)
Xtest = tfidf.transform(x_validate)

In [19]:
lr = LogisticRegression(C=1, random_state=3,n_jobs=-1)
lr.fit(Xtrain, y_train1)
lr_pr = lr.predict(Xtest)

In [20]:
print ('accuracy', np.mean(np.array([float(x) for x in lr_pr])== np.array([float(x) for x in y_validate])))

accuracy 0.590472475499


Когда обучаем многоклассовую классификацию для такой задачи, не учитываем то, что метки 1 и 2 более похожи между собой, чем 4 и 5. Как это можно было бы учесть при обучении модели?

# Задание на сейчас
В материалах Кати Черняк https://github.com/echernyak/ML-for-compling/blob/master/l3_classification.ipynb найти другие классификаторы, применить к нашим данным, посчитать микро- и макро- усреднения.

Подсказка: вам может пригодиться следующее преобразование (как минимум для predicted): np.array([float(y) for y in arr])

Если результаты будут низкими, попробуйте объединить (1 и 2) и/или (4 и 5).

Какой алгоритм сработал лучше вcего?