<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Классификация текстовых документов и </b> <span style="font-weight:bold; color:green">NumPy/SciPy/Sklearn</span></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Преобразование TF-IDF</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#1a">Векторизация документов с CountVectorizer и TfidfTransformer</a></li>
                <li><a href="#1b">Векторизация документов с TfidfVectorizer</a></li>
            </ol>
        </li>
        <li><a href="#2">Байесовские классификаторы</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#2a">Модель Бернулли</a></li>
                <li><a href="#2b">Мультиномиальная модель</a></li>
            </ol>
        </li>
        <li><a href="#3">Источники</a></li>
    </ol>
</div>

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Преобразование TF-IDF</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p>Исходный набор документов</p>

In [None]:
docs = ["n\t\ This is an \nexample of how to transform documents to TF-IDF vectors. Transform, transform?",
        "The example is below.", 
        "The example is not so bad"]

<a name="1a"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Векторизация документов с CountVectorizer и TfidfTransformer
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#1b">Далее</a>
            </div>
        </div>
    </div>
</div>

<p><b>Подсчет количества слов в документах</b></p>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer">CountVectorizer</a>

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1), 
                                   stop_words=None, lowercase=True,
                                   binary=False, strip_accents=None)
count_vectorizer

<p>Передаем набор документов для преобразования</p>

In [None]:
count_model = count_vectorizer.fit(docs)

<p>Сформированный словарь</p>

In [None]:
count_model.vocabulary_

<p>Преобразование документов в векторы количества вхождения слов</p>

In [None]:
tf_vectors = count_vectorizer.transform(docs)
tf_vectors.toarray()

<p>Обратное преобразование</p>

In [None]:
count_model.inverse_transform(tf_vectors)

<p>Использование stop-слов</p>

In [None]:
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1), 
                                   stop_words="english", lowercase=True,
                                   binary=False, strip_accents=None)

In [None]:
count_vectorizer.fit_transform(docs).toarray()

<p>Отображение stop-слов</p>

In [None]:
count_vectorizer.get_stop_words()

<p><b>Преобразование в TF-IDF</b></p>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer">TfidfTransformer</a>

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

In [None]:
tfidf_transformer = TfidfTransformer(use_idf=True, smooth_idf=False)
tfidf_transformer

In [None]:
tfidf_model = tfidf_transformer.fit(tf_vectors)

In [None]:
tfidf_vectors = tfidf_model.transform(tf_vectors)
tfidf_vectors.toarray()

<a name="1b"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Векторизация документов с TfidfVectorizer
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1a">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html">TfidfVectorizer</a>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

<p><b>TF-IDF</b></p>

In [None]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words=None, 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)                        
vectorizer

<p>Передаем набор документов, на основе которых будут строиться векторы</p>

In [None]:
vector_model = vectorizer.fit(docs)

<p>Сформированный словарь</p>

In [None]:
vector_model.vocabulary_

<p>Значения IDF для слов из словаря</p>

In [None]:
vector_model.idf_

<p>Преобразование документов в векторы TF-IDF</p>

In [None]:
tfidf_vector = vector_model.transform(docs)
tfidf_vector.toarray()

<p>Обратное преобразование</p>

In [None]:
vector_model.inverse_transform(tfidf_vector[0])

<p><b>Stop-слова</b></p>

In [None]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words="english", 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)                        
vectorizer

In [None]:
vector_model = vectorizer.fit(docs)

In [None]:
vector_model.vocabulary_

In [None]:
vector_model.idf_

<p>Отображение stop-слов</p>

In [None]:
vector_model.get_stop_words()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Байесовские классификаторы</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import GridSearchCV

<p><b>Исходные данные</b></p>

<p>Загрузка исходных данных</p>

In [None]:
data = fetch_20newsgroups(subset="all", shuffle=True, random_state=123)

<p>Файлы с данными</p>

In [None]:
data.filenames

<p>Описание данных</p>

In [None]:
data.description

<p>Элемент данных</p>

In [None]:
data.data[0]

In [None]:
len(data.data)

<p>Классы документов</p>

In [None]:
data.target_names, len(data.target)

<p>Разбиение исходных данных на обучающее и тестовое подмножества</p>

In [None]:
x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=0)

<a name="2a"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Модель Бернулли
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2b">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB">BernoulliNB</a>

<p>Создание преобразователя текстовых документов в бинарные векторы с указанием параметров</p>

In [None]:
count_vectorizer = CountVectorizer(analyzer="word", ngram_range=(1,1),
                                   stop_words=None, lowercase=True,
                                   binary=True, strip_accents=None)

<p>Преобразование текстовых документов в бинарные векторы</p>

In [None]:
train_binary_vectors = count_vectorizer.fit_transform(x_train)

In [None]:
test_binary_vectors = count_vectorizer.transform(x_test)

<p>Создание и обучение модели</p>

In [None]:
m_bernNB = BernoulliNB(alpha=1, binarize=None).fit(train_binary_vectors, y_train)

<p>Предсказания для тестового подмножества</p>

In [None]:
y_test_pred = m_bernNB.predict(test_binary_vectors)

<p>Доля правильных классификаций на тестовом подмножестве</p>

In [None]:
m_bernNB.score(test_binary_vectors, y_test)

<p><b>Выбор модели</b></p>

<p>Гиперпараметры и их значения</p>

In [None]:
params = {"alpha": [1e-12, 0.001, 0.01, 0.1, 1]}

<p>Базовая модель</p>

In [None]:
bernNB = BernoulliNB(binarize=None)

<p>Поиск лучшей модели</p>

In [None]:
m_bernNB_grid = GridSearchCV(bernNB, params, cv=4)

In [None]:
m_bernNB_grid.fit(train_binary_vectors, y_train)

<p>Вывод итоговой информации по моделям</p>

In [None]:
m_bernNB_grid.cv_results_

<p>Лучшая модель</p>

In [None]:
m_best_bernNB = m_bernNB_grid.best_estimator_
m_best_bernNB

<p>Тестирование модели (без повторного обучения на train_binary_vectors)</p>

In [None]:
m_best_bernNB.score(test_binary_vectors, y_test)

<p><b>Использование Pipeline для выбора модели</b></p>

In [None]:
# TODO: CountVectorizer (ngram_range, stop_words) -> BernoulliNB (alpha)

<a name="2b"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Мультиномиальная модель
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2a">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#3">Далее</a>
            </div>
        </div>
    </div>
</div>

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html">MultinomialNB</a>

<p>Создание преобразователя текстовых документов в векторы TF-IDF с указанием параметров</p>

In [None]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words="english", 
                             use_idf=True, ngram_range=(1,1),
                             smooth_idf=False)                        

<p>Преобразование текстовых документов в векторы TF-IDF</p>

In [None]:
tfidf_train_vectors = vectorizer.fit_transform(x_train)

In [None]:
tfidf_test_vectors = vectorizer.transform(x_test)

<p>Создание и обучение модели</p>

In [None]:
m_multNB = MultinomialNB(alpha=1).fit(tfidf_train_vectors, y_train)

<p>Предсказания для тестового подмножества</p>

In [None]:
y_test_pred = m_multNB.predict(tfidf_test_vectors)

<p>Доля правильных классификаций на тестовом подмножестве</p>

In [None]:
m_multNB.score(tfidf_test_vectors, y_test)

<p><b>Выбор модели</b></p>

<p>Гиперпараметры и их значения</p>

In [None]:
params = {"alpha": [1e-10, 0.001, 0.01, 0.1, 1]}

<p>Базовая модель</p>

In [None]:
multNB = MultinomialNB()

<p>Поиск лучшей модели</p>

In [None]:
m_multNB_grid = GridSearchCV(multNB, params, cv=4)

In [None]:
m_multNB_grid.fit(tfidf_train_vectors, y_train)

<p>Вывод итоговой информации по моделям</p>

In [None]:
m_multNB_grid.cv_results_

<p>Лучшая модель</p>

In [None]:
m_best_multNB = m_multNB_grid.best_estimator_
m_best_multNB

<p>Тестирование модели (без повторного обучения на train_binary_vectors)</p>

In [None]:
m_best_multNB.score(tfidf_test_vectors, y_test)

<p><b>Использование Pipeline для выбора модели</b></p>

In [None]:
# TODO: TfidfVectorizer (ngram_range, stop_words) -> MultinomialNB (alpha)

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a href="http://www.inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/inf2b-learn-note07-2up.pdf">Text Classification using Naive Bayes</a><br>
<a href="http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction">Text feature extraction</a><br>
<a href="http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html">Working With Text Data</a><br>
<a href="http://scikit-learn.org/stable/datasets/twenty_newsgroups.html">The 20 newsgroups text dataset</a>