<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Классификация текстовых документов</b></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Преобразование TF-IDF</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#1a">Векторизация документов с CountVectorizer и TfidfTransformer</a></li>
                <li><a href="#1b">Векторизация документов с TfidfVectorizer</a></li>
            </ol>
        </li>
        <li><a href="#2">Байесовские классификаторы</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#2a">Модель Бернулли</a></li>
                <li><a href="#2b">Мультиномиальная модель</a></li>
            </ol>
        </li>
        <li><a href="#3">Источники</a></li>
    </ol>
</div>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
%load_ext autoreload
%autoreload 2

import sys
sys.path.insert(0, "../lib/")
from plot_confusion_matrix import plot_confusion_matrix

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Преобразование TF-IDF</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p>Исходный набор документов</p>

In [None]:
docs = ["n\t\ This is an \nexample of how to transform documents to TF-IDF vectors. Transform, transform?",
        "The example is below.", 
        "The example is not so bad"]

<a name="1a"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Векторизация документов с CountVectorizer и TfidfTransformer
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#1b">Далее</a>
            </div>
        </div>
    </div>
</div>

<p><b>Подсчет количества слов в документах</b></p>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer">CountVectorizer</a>

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1), 
                                   stop_words=None, lowercase=True,
                                   binary=False, strip_accents=None)
count_vectorizer

<p>Передаем набор документов для преобразования</p>

In [None]:
count_vectorizer.fit(docs)

<p>Сформированный словарь</p>

In [None]:
count_vectorizer.vocabulary_

<p>Преобразование документов в векторы количества вхождения слов</p>

In [None]:
tf_vectors = count_vectorizer.transform(docs)
tf_vectors.toarray()

<p>Обратное преобразование</p>

In [None]:
count_vectorizer.inverse_transform(tf_vectors)

<p>Использование stop-слов</p>

In [None]:
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1), 
                                   stop_words="english", lowercase=True,
                                   binary=False, strip_accents=None)

In [None]:
count_vectorizer.fit_transform(docs).toarray()

<p>Отображение stop-слов</p>

In [None]:
count_vectorizer.get_stop_words()

<p><b>Преобразование в TF-IDF</b></p>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer">TfidfTransformer</a>

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

In [None]:
tfidf_transformer = TfidfTransformer(norm=None, use_idf=True, smooth_idf=False)
tfidf_transformer

In [None]:
tfidf_model = tfidf_transformer.fit(tf_vectors)

In [None]:
idf = tfidf_model.idf_
idf

In [None]:
tfidf_vectors = tfidf_model.transform(tf_vectors)
tfidf_vectors.toarray()

Нормализация `TF-IDF`

In [None]:
tfidf_transformer = TfidfTransformer(norm="l2", use_idf=True, smooth_idf=False)
tfidf_transformer\
    .fit_transform(tf_vectors)\
    .toarray()

In [None]:
tf_vectors[1].toarray()

In [None]:
from scipy.linalg import norm

# Частота слов документа 1
tf = tf_vectors[1].toarray()

# Вектор TF-IDF документа 1
tf_idf_ = tf * idf

# Нормализованный TF-IDF вектор 
tf_idf = tf_idf_ / norm(tf_idf_)
tf_idf

<a name="1b"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Векторизация документов с TfidfVectorizer
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1a">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html">TfidfVectorizer</a>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

<p><b>TF-IDF</b></p>

In [None]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words=None, 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)                        
vectorizer

<p>Передаем набор документов, на основе которых будут строиться векторы</p>

In [None]:
vectorizer = vectorizer.fit(docs)

<p>Сформированный словарь</p>

In [None]:
vectorizer.vocabulary_

<p>Значения IDF для слов из словаря</p>

In [None]:
vectorizer.idf_

<p>Преобразование документов в векторы TF-IDF</p>

In [None]:
tfidf_vector = vectorizer.transform(docs)
tfidf_vector.toarray()

<p>Обратное преобразование</p>

In [None]:
vectorizer.inverse_transform(tfidf_vector[0])

<p><b>Stop-слова</b></p>

In [None]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words="english", 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)                        
vectorizer

In [None]:
vectorizer = vectorizer.fit(docs)

In [None]:
vectorizer.vocabulary_

In [None]:
vectorizer.idf_

<p>Отображение stop-слов</p>

In [None]:
vectorizer.get_stop_words()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Байесовские классификаторы</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

<p><b>Исходные данные</b></p>

<p>Загрузка исходных данных</p>

In [None]:
data = fetch_20newsgroups(
    subset="all", 
    shuffle=True, 
    remove=("headers", "footers", "quotes"), 
    random_state=123)

<p>Файлы с данными</p>

In [None]:
data.filenames

<p>Описание данных</p>

In [None]:
print(data.DESCR)

<p>Элемент данных</p>

In [None]:
data.data[0]

In [None]:
data.target[0]

In [None]:
len(data.data)

<p>Классы документов</p>

In [None]:
data.target_names, len(data.target_names)

Количество документов в каждом классе

In [None]:
np.unique(data.target, return_counts=True)

<p>Разбиение исходных данных на обучающее и тестовое подмножества</p>

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=0)

<a name="2a"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Модель Бернулли
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2b">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB">BernoulliNB</a>

In [None]:
# Создание преобразователя текстовых документов в бинарные векторы с указанием параметров
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1),
                                   stop_words="english", lowercase=True,
                                   binary=True, strip_accents=None)

# Преобразование текстовых документов в бинарные векторы
train_binary_vectors = count_vectorizer.fit_transform(X_train)
test_binary_vectors = count_vectorizer.transform(X_test)

# Создание и обучение модели
m_bernNB = BernoulliNB(alpha=1, binarize=None).fit(train_binary_vectors, y_train)

# Предсказания для тестового подмножества
y_test_pred = m_bernNB.predict(test_binary_vectors)

# Доля правильных классификаций на тестовом подмножестве
m_bernNB.score(test_binary_vectors, y_test)

<p><b>Выбор модели</b></p>

In [None]:
# Создание pipeline
pipeline = Pipeline([
    ("vectorizer", CountVectorizer(analyzer="word", ngram_range=(1,1),
                                   stop_words="english", lowercase=True,
                                   binary=True, strip_accents=None)), 
    ("classifier", BernoulliNB(binarize=None))
])

# Гиперпараметры и их значения
params = {"classifier__alpha": [1e-10, 0.001, 0.01, 0.1, 1]} # TODO: np.logspace

# Поиск лучшей модели
m_bernNB_grid = GridSearchCV(pipeline, params, cv=4)
m_bernNB_grid.fit(X_train, y_train)

# Лучшая модель
m_best_bernNB = m_bernNB_grid.best_estimator_
# print(m_best_bernNB.best_params_)
print("Параметр лучшей модели:", m_best_bernNB.named_steps["classifier"].alpha)  # или m_bernNB_grid.best_params_

# Тестирование модели
print("Accuracy =", m_bernNB_grid.score(X_test, y_test))

#### Метрики

In [None]:
y_test_pred = m_bernNB_grid.predict(X_test)

In [None]:
print(classification_report(y_test, 
                            y_test_pred, 
                            target_names=data.target_names))

In [None]:
plot_confusion_matrix(y_test, 
                      y_test_pred, 
                      np.array(data.target_names),
                      figsize=[8,8])
plt.show()

In [None]:
def print_top_n_terms(vectorizer, model, target_names, n=10):
    """Print top n terms for each class."""
    terms = np.full(len(vectorizer.vocabulary_), None, dtype=object)
    for key, value in vectorizer.vocabulary_.items():
        terms[value] = key
    for class_name, terms in zip(target_names, terms[np.argsort(model.feature_log_prob_, axis=1)[:,::-1][:,:n]]):
        print("{}:\n{}\n".format(class_name, terms))

In [None]:
# Топ-N термов с наибольшей вероятностью появления для каждого класса
print_top_n_terms(
    vectorizer=m_best_bernNB.named_steps["vectorizer"],
    model=m_best_bernNB.named_steps["classifier"],
    target_names=data.target_names,
    n=20
)

<a name="2b"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Мультиномиальная модель
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2a">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#3">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html">MultinomialNB</a>

In [None]:
# Создание преобразователя текстовых документов в векторы TF-IDF с указанием параметров
vectorizer = TfidfVectorizer(lowercase=True, stop_words="english", 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)     

# Преобразование текстовых документов в векторы TF-IDF
tfidf_train_vectors = vectorizer.fit_transform(X_train)
tfidf_test_vectors = vectorizer.transform(X_test)

# Создание и обучение модели
m_multNB = MultinomialNB(alpha=1).fit(tfidf_train_vectors, y_train)

# Предсказания для тестового подмножества
y_test_pred = m_multNB.predict(tfidf_test_vectors)

# Доля правильных классификаций на тестовом подмножестве
print("Accuracy =", m_multNB.score(tfidf_test_vectors, y_test))

<p><b>Выбор модели</b></p>

In [None]:
# Создание pipeline
pipeline = Pipeline([
    ("vectorizer",  TfidfVectorizer(lowercase=True, stop_words="english", 
                                    use_idf=True, ngram_range=(1,1),
                                    smooth_idf=False)), 
    ("classifier", MultinomialNB())
])

# Гиперпараметры и их значения
params = {"classifier__alpha": [1e-10, 0.001, 0.01, 0.1, 1]}

# Поиск лучшей модели
m_multNB_grid = GridSearchCV(pipeline, params, cv=4)
m_multNB_grid.fit(X_train, y_train)

# Лучшая модель
m_best_multNB = m_multNB_grid.best_estimator_
print("Параметр лучшей модели:", m_best_multNB.named_steps["classifier"].alpha)  # или m_best_multNB.best_params_

# Тестирование модели
print("Accuracy =", m_best_multNB.score(X_test, y_test))

#### Метрики

In [None]:
y_test_pred = m_best_multNB.predict(X_test)

In [None]:
print(classification_report(y_test, y_test_pred, target_names=data.target_names))

In [None]:
plot_confusion_matrix(y_test, 
                      y_test_pred, 
                      np.array(data.target_names),
                      figsize=[8,8])
plt.show()

In [None]:
# Топ-N термов с наибольшей вероятностью появления для каждого класса
print_top_n_terms(
    vectorizer=m_best_multNB.named_steps["vectorizer"],
    model=m_best_multNB.named_steps["classifier"],
    target_names=data.target_names,
    n=20
)

<b>Пример</b>

In [None]:
TEXT_INDX = 1
test_text = X_test[TEXT_INDX]

In [None]:
test_text = '''
Cristiano Ronaldo's benching in Manchester United's 1-1 draw against Chelsea on Sunday prompted a fierce debate between leading pundits Jamie Carragher and Roy Keane.
The pair, who work for British broadcaster Sky Sports, clashed on whether Ronaldo should be given an automatic place in the starting XI due to the accolades he has earned throughout his career.
'''

In [None]:
test_pred = m_best_multNB.predict([test_text])
data.target_names[test_pred[0]]

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a href="http://www.inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/inf2b-learn-note07-2up.pdf">Text Classification using Naive Bayes</a><br>
<a href="http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction">Text feature extraction</a><br>
<a href="http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html">Working With Text Data</a><br>
<a href="http://scikit-learn.org/stable/datasets/twenty_newsgroups.html">The 20 newsgroups text dataset</a>