# Классификация текстов

### Data Mining vs Text Mining

Data Mining:   
* извлечение *неочевидной* информации

Text Mining:  
* извлечение *очевидной* информации

Трудности  
* Огромные объемы
* Отстутсвие структуры
	    

## Задачи Text Mining
* Суммаризация текста  
агрегация новостей
* Классификация и кластеризация документов  
категоризация, антиспам, sentiment analysis, opinion mining
* Извлечение метаданных  
определение языка, автора, тегирование
* Выделение сущностей  
места, люди, компании, почтовые адреса


* автоматический перевод
* чат-бот
* поиск точных ответов на вопросы в тексте

## Этапы (простой) обработки текста

<img src="images/textm.png">


## Декодирование


**Def.**  
перевод последовательности байт в последовательность символов

* Распаковка  
*plain/.zip/.gz/...*
* Кодировка  
*ASCII/utf-8/Windows-1251/...*
* Формат  
*csv/xml/json/doc...*

Кроме того: что такое документ?



## Разбиение на токены
**Def.**  
разбиение последовательности символов на части (токены), возможно, исключая из рассмотрения некоторые символы  
Наивный подход: разделить строку пробелами и выкинуть знаки препинания  


*Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.*  


**Проблемы:**  
* example@example.com, 127.0.0.1
* С++, C#
* York University vs New York University
* Зависимость от языка (“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

In [1]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/francuz-v/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [2]:
from nltk.tokenize import RegexpTokenizer


s = "Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру."

tokenizer = RegexpTokenizer("\w+|[^\w\s]+")
for t in tokenizer.tokenize(s): 
    print(t)

Трисия
любила
Нью
-
Йорк
,
поскольку
любовь
к
Нью
-
Йорку
могла
положительно
повлиять
на
ее
карьеру
.


## Стоп-слова
**Def.**  
Наиболее частые слова в языке, не содержащие никакой информации о содержании текста



In [3]:
from nltk.corpus import stopwords


print(" ".join(stopwords.words("russian")[1:20]))

в во не что он на я с со как а то все она так его но да ты


Проблема: “To be or not to be"

## Нормализация
**Def.**  
Приведение токенов к единому виду для того, чтобы избавиться от поверхностной разницы в написании  

Подходы  
* сформулировать набор правил, по которым преобразуется токен  
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
* явно хранить связи между токенами (WordNet – Princeton)  
машина → автомобиль, Windows 6→ window

In [4]:
s = "Нью-Йорк"
s1 = s.lower()
print(s1)

нью-йорк


In [5]:
import re
s2 = re.sub(r"\W", "", s1, flags=re.U)
print(s2)

ньюйорк


In [6]:
s3 = re.sub(r"й", u"и", s2, flags=re.U)
print(s3)

ньюиорк


## Стемминг и Лемматизация
**Def.**  
Приведение грамматических форм слова и однокоренных слов к единой основе (lemma):
* Stemming – с помощью простых эвристических правил
  * Porter (Cambridge – 1980)
        5 этапов, на каждом применяется набор правил, таких как
            sses → ss (caresses → caress)
            ies → i (ponies → poni)

  * Lovins (1968)
  * Paice (1990)
  * другие
* Lemmatization – с использованием словарей и морфологического анализа


## Стемминг

In [7]:
from nltk.stem.snowball import PorterStemmer
from nltk.stem.snowball import RussianStemmer


s = PorterStemmer()
print(s.stem("Tokenization"))
print(s.stem("stemming"))

r = RussianStemmer()
print(r.stem("Авиация"))
print(r.stem("национальный"))

token
stem
авиац
национальн


**Наблюдение**  
для сложных языков лучше подходит лемматизация

## Лемматизация

In [9]:
!pip install pymorphy2

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/a3/33/fff9675c68b5f6c63ec8c6e6ff57827dda28a1fa5b2c2d727dffff92dd47/pymorphy2-0.8-py2.py3-none-any.whl (46kB)
[K     |████████████████████████████████| 51kB 1.3MB/s eta 0:00:01
[?25hCollecting dawg-python>=0.7 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2)
[?25l  Downloading https://files.pythonhosted.org/packages/02/51/2465fd4f72328ab50877b54777764d928da8cb15b74e2680fc1bd8cb3173/pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.whl (7.1MB)
[K     |████████████████████████████████| 7.1MB 8.7MB/s eta 0:00:01     |█▋                              | 348kB 8.7MB/s eta 0:00:01     |███████                         | 1.5MB 8.7MB/s eta 0:00:01     |████████████                    | 2.7MB 8.7MB/s eta 0:00:01     |███████████████▋ 

In [12]:
import pymorphy2


morph = pymorphy2.MorphAnalyzer()
print(morph.parse("придумавший")[0].normal_form)

придумать


## Heaps' law
Эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины.

$$
M = k T^\beta, \;M \text{ -- размер словаря}, \; T \text{ -- количество слов в корпусе}
$$
$$
30 \leq k \leq 100, \; b \approx 0.5
$$

<img src="images/dim.png">
<img src="images/heaps.png">

## Представление документов
**Boolean Model.** Присутствие или отсутствие слова в документе  
**Bag of Words.** Порядок токенов не важен  

*Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?*

Координаты
* Мультиномиальные: количество токенов в документе
* Числовые: взвешенное количество токенов в документе

## Zipf's law
Эмпирическая закономерность распределения частоты слов естественного языка

$t_1, \ldots, t_N$ - токены, отранжированные по убыванию частоты
   	
$f_1, \dots, f_N$ - соответствующие частоты

**Закон Ципфа**
	$$
	f_i = \frac{c}{i^k}
	$$	
	
	Что еще? Посещаемость сайтов, количество друзей, население городов...
<img src="images/zipf.png">


## TF-IDF

Количество вхождений слова $t$ в документе $d$
$$
TF_{t,d} = term\!\!-\!\!frequency(t, d)
$$
Количество документов из $N$ возможных, где встречается $t$
$$
DF_t = document\!\!-\!\!fequency(t)
$$
$$
IDF_t = inverse\!\!-\!\!document\!\!-\!\!frequency(t) = \log \frac{N}{DF_t}
$$
TF-IDF
$$
TF\!\!-\!\!IDF_{t,d} = TF_{t,d} \times IDF_t
$$

Оценивает важность слова в контексте документа, являющегося частью корпуса


## BM25
Функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу. BM25 и его различные более поздние модификации (например, BM25F) представляют собой современные TF-IDF-подобные функции ранжирования, широко используемые на практике в поисковых системах  

$$
score(D, Q) = \sum_{i=1}^{n} IDF(q_i) * \frac{TF(q_i, D) * (k_1 + 1)}{TF(q_i, D) + k_1 * (1 - b + b * \frac{|D|}{avgdl})}
$$
где:  
* $Q$ -- запрос, содержащий слова $q_1, q_2, ..., q_n$;
* $D$ -- документ, $|D|$ -- длина документа;
* $avgdl$ -- средняя длина документа в коллекции;
* $k_1$ и $b$ -- свободные коэффициенты, обычно их выбирают как $k_1=2.0$ и $b=0.75$;

$IDF$ чаще всего сглаженный:
$$
IDF(q_i) = \log{\frac{N - n(q_i) + 0.5}{n(q_i) + 0.5}}
$$

Заметим, что вышеуказанная формула $IDF$ имеет следующий недостаток. Для слов, входящих в более чем половину документов из коллекции, значение IDF отрицательно. Таким образом, при наличии любых двух почти идентичных документов, в одном из которых есть слово, а в другом — нет, второй может получить бо́льшую оценку.  
Иными словами, часто встречающиеся слова испортят окончательную оценку документа. Это нежелательно, поэтому во многих приложениях вышеприведённая формула может быть скорректирована следующими способами:
* Игнорировать вообще все отрицательные слагаемые в сумме (что эквивалентно занесению в стоп-лист и игнорированию всех соответствующих высокочастотных слов);
* Налагать на IDF некоторую нижнюю границу $\varepsilon$ : $IDF(q_i) = \min(IDF(q_i), \varepsilon)$;
* Использовать другую формулу $IDF$, не принимающую отрицательных значений.

## Практический кейс
### Автоматическое определение текста языка

In [13]:
import warnings
warnings.filterwarnings("ignore")

import argparse
import codecs
import unicodedata
import operator

import nltk
import numpy as np

try:
    from sklearn.model_selection import cross_val_score, train_test_split
except:
    from sklearn.cross_validation import cross_val_score, train_test_split

from sklearn.metrics import roc_curve, auc, roc_auc_score
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer, HashingVectorizer
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt

%matplotlib inline

Будем решать задачу определения языка печатного текста. В файле `europarl.test.txt` содержатся записи депатов в Европарламенте. Каждая строка содержит код языка и высказывание на этом языке, например, на болгарском:

`bg	(DE) Г-н председател, след повече от 300 години колониално управление и след като континентът се превърна в арена на Студената война, днес Латинска Америка вече е един от нововъзникващите региони в света.`

Код языка будет целевой переменной, а из высказывания нам предстоит извлечь признаки.

Один из возможных подходов состоит в том, чтобы в качестве признаков использовать тройки из подряд идущих символов, встречающихся в словах. Предположение состоит в том, что для каждого языка список наиболее популярных троек более-менее уникален. Попробуем проверить это предположение.

## Считывание данных

In [14]:
DS_PATH = "./europarl.test.txt" # Path to the data file
N_GRAM = 3 # Extract symbol sequences of length N
TOP_TOKENS = 10 # Number of top selected n-grams for each language

In [15]:
def read_documents(data_path):
    """
    Reads a sequence of documents from the text file
    located on a given path.

    Returns:
        A generator of tuples (LANG_CODE, unicode)
    """
    with codecs.open(data_path, "rU") as data_file:
        for line in data_file:
            lang, doc = line.strip().split("\t")
            yield lang, doc    # generator

In [16]:
def normalise_document(doc):
    """
    Convert document to lower-case and remove accents
    
    Returns:
        A normalised document as unicode
    """
    return "".join(c for c in unicodedata.normalize("NFD", doc.lower()) if not unicodedata.combining(c))

In [17]:
def tokenize_document(doc, n):
    """
    Split document in N-Grams

    Returns:
        Iterable (generator or list) of unicode n-grams
    """
    tokenizer = nltk.WordPunctTokenizer()
    for token in tokenizer.tokenize(doc):
        if len(token) >= n:
            for ngram in nltk.ngrams(token, n):
                yield "".join(ngram)

Первым делом нам необходимо зачитать данные из файла. Будем читать 3 структуры данных:

- docs - список словарей, каждый из которых соответствует одному документу и содержит количество вхождений для каждой n-граммы (токена)
- langs - список, содержащий классы документов (каждому коду языка соответствует числовой класс)
- lang_freq - словарь, который нужен для подсчета ниболее популярных n-грам для каждого языка. Элементы этого словаря: код языка -> (id класса, частоты n-грам (аналогично docs)) 

Для того, чтобы заработал код, зачитывающий данные, необходимо (до) реализовать функции, перечисленные выше.

In [18]:
# A list of dicts, each representing one document in format:
# {token: count1, ...}
docs = []
# Language code for each dict (0-based)
langs = []
# A list of tuples, each tuple corresponds to one language
# First compunent is the code of the language, second is its token frequencies
# Contains entries like {lang_code: (lang_id, {token_frequencies})}
lang_freq = {}

for lang, doc in read_documents(DS_PATH):
    normalized_doc = normalise_document(doc)

    token_freq = {}
    for token in tokenize_document(normalized_doc, N_GRAM):
        token_freq[token] = 1 + token_freq.get(token, 0)
        if lang not in lang_freq:
            lang_freq[lang] = (len(lang_freq), {})
        lang_freq[lang][1][token] = 1 + lang_freq[lang][1].get(token, 0)

    docs.append(token_freq)
    langs.append(lang_freq[lang][0])

In [19]:
docs[:2]

[{'евр': 1,
  'вро': 1,
  'роп': 1,
  'опа': 1,
  '202': 1,
  '020': 1,
  'тря': 1,
  'ряб': 1,
  'ябв': 1,
  'бва': 1,
  'ста': 1,
  'тар': 1,
  'арт': 1,
  'рти': 1,
  'тир': 1,
  'ира': 1,
  'нов': 1,
  'кон': 1,
  'онк': 1,
  'нку': 1,
  'кур': 1,
  'уре': 1,
  'рен': 1,
  'ент': 1,
  'нте': 1,
  'тен': 1,
  'мар': 1,
  'ара': 1,
  'рат': 1,
  'ато': 1,
  'тон': 1,
  'изх': 1,
  'зхо': 1,
  'ход': 1,
  'при': 1,
  'рив': 1,
  'ива': 1,
  'ват': 1,
  'ати': 1,
  'тиз': 1,
  'иза': 1,
  'зац': 1,
  'аци': 1,
  'ция': 1},
 {'наи': 1,
  'гол': 1,
  'оля': 1,
  'лям': 1,
  'яма': 1,
  'мат': 1,
  'ата': 2,
  'нес': 2,
  'есп': 2,
  'спр': 2,
  'пра': 2,
  'рав': 3,
  'аве': 2,
  'вед': 2,
  'едл': 2,
  'дли': 2,
  'лив': 2,
  'иво': 2,
  'вос': 1,
  'ост': 3,
  'сег': 1,
  'ега': 1,
  'гаш': 1,
  'ашн': 1,
  'шна': 1,
  'нат': 1,
  'общ': 1,
  'бща': 1,
  'сел': 1,
  'елс': 1,
  'лск': 1,
  'ско': 1,
  'кос': 1,
  'сто': 2,
  'топ': 1,
  'опа': 1,
  'пан': 1,
  'анс': 1,
  'нск': 1,
  '

In [21]:
lang_freq

{'bg': (0,
  {'евр': 288,
   'вро': 273,
   'роп': 263,
   'опа': 103,
   '202': 3,
   '020': 3,
   'тря': 138,
   'ряб': 138,
   'ябв': 138,
   'бва': 140,
   'ста': 201,
   'тар': 27,
   'арт': 55,
   'рти': 22,
   'тир': 46,
   'ира': 230,
   'нов': 191,
   'кон': 199,
   'онк': 29,
   'нку': 7,
   'кур': 10,
   'уре': 11,
   'рен': 74,
   'ент': 217,
   'нте': 53,
   'тен': 46,
   'мар': 10,
   'ара': 88,
   'рат': 135,
   'ато': 181,
   'тон': 7,
   'изх': 6,
   'зхо': 19,
   'ход': 86,
   'при': 333,
   'рив': 22,
   'ива': 62,
   'ват': 240,
   'ати': 100,
   'тиз': 6,
   'иза': 65,
   'зац': 25,
   'аци': 155,
   'ция': 167,
   'наи': 74,
   'гол': 41,
   'оля': 50,
   'лям': 32,
   'яма': 49,
   'мат': 92,
   'ата': 617,
   'нес': 51,
   'есп': 7,
   'спр': 29,
   'пра': 261,
   'рав': 294,
   'аве': 46,
   'вед': 54,
   'едл': 67,
   'дли': 9,
   'лив': 19,
   'иво': 40,
   'вос': 13,
   'ост': 504,
   'сег': 34,
   'ега': 38,
   'гаш': 4,
   'ашн': 10,
   'шна': 10,
   'нат'

## Отбор признаков

Здесь предстоит выбрать топовые n-граммы для каждого языка (`select_features`) и отфильтровать документы так, чтобы в них остались только отобранные (`keep_only_features`)

In [24]:
def select_features(lang_freq, top_tokens):
    """
    From each language selects top_tokens to be used as features
    
    TODO: Implement this

    Returns:
        set(unicode tokens)
    """
    features = set()

    for lang, (lid, token_freq) in lang_freq.items():
        sorted_dict = sorted(token_freq.items(), key=lambda x: x[1])
        features.update(map(lambda x : x[0], sorted_dict[:token_freq]))
    return features

In [25]:
def keep_only_features(docs, features):
    """
    Removes non-feature tokens from the document representations
    """
    for token_freq in docs:
        for token in list(token_freq.keys()):
            if token not in features:
                del token_freq[token]

In [27]:
# Select top n features for each lang
features = select_features(lang_freq, TOP_TOKENS)
# Remove from documents all features except the selected
keep_only_features(docs, features)

# Transform documents to numpy matrix
dv = DictVectorizer()
x = dv.fit_transform(docs).todense()
y = np.array(langs)
print("Data set shape x=({} x {}) y={}".format(x.shape[0], x.shape[1], len(y)))

TypeError: slice indices must be integers or None or have an __index__ method

## Создание и настройка модели

В этом пункте требуется реализовать модель (NB) и оценить метрику `accuracy` на кросс-валидации.

In [28]:
def create_model():
    """
    Initialise an NB model, supported by Sklearn

    Returns:
        Sklearn model instance
    """
    return LogisticRegression(n_jobs=-1)

In [29]:
def validate_model(model, x, y, folds=10):
    """
    Computes cross-validation score for the given data set and model.
    
    TODO: Implement this

    Returns:
        A numpy.array of accuracy scores.
    """
    return cross_val_score(model, x, y, folds)

In [30]:
def plot_roc(model, x, y, class_ind=0):    
    # Compute ROC curve
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=.5, random_state=0)
    fit = model.fit(x_train, y_train)
    y_prob = fit.predict_proba(x_test)   
    fpr, tpr, _ = roc_curve(y_test, y_prob[:, class_ind], pos_label=class_ind)
    roc_auc = auc(fpr, tpr)
    # Plot ROC curve
    plt.fill_between(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc, alpha=0.3)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.0])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver operating characteristic for class index %s' % class_ind)


_Замечание_ : обратите внимание, что тут нужно реализовать перебор параметров.

In [32]:
# TODO: Implement parameter grid search here
model = create_model()
# Print cross-validated accuracy
scores = validate_model(model, x, y)
print("Model mean accuracy: {}".format(np.mean(scores)))

# Plot ROC
plt.figure(figsize=(8, 8))
plot_roc(model, x, y, 0)
plt.show()

NameError: name 'x' is not defined