# Классификация текстов с помощью наивного байесовского классификатора

## Содержание
* [Наивный байесовский классификатор](#Наивный-байесовский-классификатор)
* [Датасет](#Датасет)
* [Векторное представление текста](#Векторное-представление-текста)
* [BernoulliNB](#BernoulliNB)
* [Модель Bag-of-Words](#Модель-Bag-of-Words)
* [MultinomialNB](#MultinomialNB)
* [TF-IDF](#TF-IDF)

## Наивный байесовский классификатор

Пусть $\textbf{x}_i = (x_{i1}, ..., x_{im})$ - вектор признаков для $i$-го элемента датасета, $y_i$ - соответствующий класс. Ключевое предположение наивного байесовского классификатора - независимость признаков при заданном классе, т.е. 
![p(\textbf{x}_i | y_i=c) = p(x_{i1} | y_i=c)\cdot...\cdot p(x_{im} | y_i=c).](https://latex.codecogs.com/gif.latex?%5Cbg_white%20p%28%5Ctextbf%7Bx%7D_i%20%7C%20y_i%3Dc%29%20%3D%20p%28x_%7Bi1%7D%20%7C%20y_i%3Dc%29%5Ccdot...%5Ccdot%20p%28x_%7Bim%7D%20%7C%20y_i%3Dc%29.)

В таком предположении совместная плотность для $i$-го элемента датасета распишется как
![\bg_white p(\textbf{x}_i, y_i) = p(y_i)\prod\limits_{j=1}^{m} p(x_{ij} | y_i) = \prod\limits_{c=1}^{C}\pi_c^{\textrm{I}(y_i=c)}\prod\limits_{j=1}^{m}\prod\limits_{c=1}^{C} p(x_{ij} | \theta_{jc})^{\textrm{I}(y_i=c)}](https://latex.codecogs.com/gif.latex?%5Cbg_white%20p%28%5Ctextbf%7Bx%7D_i%2C%20y_i%29%20%3D%20p%28y_i%29%5Cprod%5Climits_%7Bj%3D1%7D%5E%7Bm%7D%20p%28x_%7Bij%7D%20%7C%20y_i%29%20%3D%20%5Cprod%5Climits_%7Bc%3D1%7D%5E%7BC%7D%5Cpi_c%5E%7B%5Ctextrm%7BI%7D%28y_i%3Dc%29%7D%5Cprod%5Climits_%7Bj%3D1%7D%5E%7Bm%7D%5Cprod%5Climits_%7Bc%3D1%7D%5E%7BC%7D%20p%28x_%7Bij%7D%20%7C%20%5Ctheta_%7Bjc%7D%29%5E%7B%5Ctextrm%7BI%7D%28y_i%3Dc%29%7D)

Для бинарных признаков будем полагать $p(x_{ij} | \theta_{jc})$ распределеинем Бернулли с параметром $\theta_{jc}$, для признаков, принимающих значения в некотором конечном наборе значений, полагаем $p(x_{ij} | \theta_{jc})$ категориальным распределением с параметром  $\theta_{jc}$ в виде вектора.

Для простоты рассмотрим модель с бинарными признаками. Для параметра $\pi$ категориального распределения класса и параметров $\theta_{jc}$ бернулиевских распределений признаков внутри класса выберем соответствующие априорные распределения:

* $p(\pi | \alpha) \sim Dir(\alpha)$
* $p(\theta_{jc} | \beta) \sim Beta(\beta_0, \beta_1)$.

При таком выборе априорных распределений легко получить апостериорные распределения:
* $p(\pi | D) \sim Dir(\alpha_1 + N_1, ... ,\alpha_C + N_C)$
* $p(\theta_{jc} | D) \sim Beta(\beta_0 + N_{jc}, \beta_1 + (N_c - N_{jc}))$,

где $D$ - датасет, $N_c$ - количество элементов датасета, относящихся к классу $c$, $N_{jc}$ - количество наблюдений признака $j$ внутри класса $c$.

Опишем процедуру расчета вероятности $p(y=c|\textbf{x}, D)$:
![p(y=c|\textbf{x}, D) \propto \int p(y=c|\pi)p(\pi | D) \prod\limits_{j=1}^{m} p(\textbf{x}_{jc} | \theta_{jc}) p(\theta_{jc} | D) \textrm{d} \pi \textrm{d} \theta_{jc} = \newline = \int \pi_cp(\pi | D) \textrm{d} \pi \prod\limits_{j=1}^{m} \int \theta_{jc}^{\textrm{I}(x_{jc}=1)}(1 - \theta_{jc})^{\textrm{I}(x_{jc}=0)} p(\theta_{jc} | D) \textrm{d} \theta_{jc}.](https://latex.codecogs.com/gif.latex?p%28y%3Dc%7C%5Ctextbf%7Bx%7D%2C%20D%29%20%5Cpropto%20%5Cint%20p%28y%3Dc%7C%5Cpi%29p%28%5Cpi%20%7C%20D%29%20%5Cprod%5Climits_%7Bj%3D1%7D%5E%7Bm%7D%20p%28%5Ctextbf%7Bx%7D_%7Bjc%7D%20%7C%20%5Ctheta_%7Bjc%7D%29%20p%28%5Ctheta_%7Bjc%7D%20%7C%20D%29%20%5Ctextrm%7Bd%7D%20%5Cpi%20%5Ctextrm%7Bd%7D%20%5Ctheta_%7Bjc%7D%20%3D%20%5Cnewline%20%3D%20%5Cint%20%5Cpi_cp%28%5Cpi%20%7C%20D%29%20%5Ctextrm%7Bd%7D%20%5Cpi%20%5Cprod%5Climits_%7Bj%3D1%7D%5E%7Bm%7D%20%5Cint%20%5Ctheta_%7Bjc%7D%5E%7B%5Ctextrm%7BI%7D%28x_%7Bjc%7D%3D1%29%7D%281%20-%20%5Ctheta_%7Bjc%7D%29%5E%7B%5Ctextrm%7BI%7D%28x_%7Bjc%7D%3D0%29%7D%20p%28%5Ctheta_%7Bjc%7D%20%7C%20D%29%20%5Ctextrm%7Bd%7D%20%5Ctheta_%7Bjc%7D.)

Заметим, что интегралы есть ни что иное, как матожидания по апостериорным распределениям, отсюда
![p(y=c|\textbf{x}, D) \propto \bar\pi_c\prod\limits_{j=1}^{m} \bar\theta_{jc}^{\textrm{I}(x_{jc}=1)}(1 - \bar\theta_{jc})^{\textrm{I}(x_{jc}=0)},](https://latex.codecogs.com/gif.latex?p%28y%3Dc%7C%5Ctextbf%7Bx%7D%2C%20D%29%20%5Cpropto%20%5Cbar%5Cpi_c%5Cprod%5Climits_%7Bj%3D1%7D%5E%7Bm%7D%20%5Cbar%5Ctheta_%7Bjc%7D%5E%7B%5Ctextrm%7BI%7D%28x_%7Bjc%7D%3D1%29%7D%281%20-%20%5Cbar%5Ctheta_%7Bjc%7D%29%5E%7B%5Ctextrm%7BI%7D%28x_%7Bjc%7D%3D0%29%7D%2C)

где
* $\bar\pi_c = \frac{N_c + \alpha_c}{\sum N_j + \sum\alpha_j}$
* $\bar\theta_{jc} = \frac{N_{jc} + \beta_0}{N_c + \beta_0 + \beta_1}$.

Окончательно, для наблюдения $\textbf{x}$ выберем класс с наибольшей вероятностью: $\hat y = \operatorname*{arg\,max}_c p(y=c|\textbf{x}, D)$.

## Датасет

Для знакомства с задачей классификации текстов возьмем популярный датасет [20 Newsgroups](http://qwone.com/~jason/20Newsgroups/), предусмотрительно встроенный в пакет ```sklearn```. Датасет состоит из ~20К текстов, классифицированных на 20 категорий. Датасет разбит на ```train``` и ```test```. Для загрузки используем  модуль ```fetch_20newsgroups```, в параметрах есть смысл указать, что мета информацию о тексте загружать не нужно:

In [1]:
import numpy as np
from sklearn.datasets import fetch_20newsgroups

newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

Выведем список категорий текстов:

In [2]:
newsgroups_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

Атрибут ```traget``` хранит номера категорий для текстов из обучающей выборки:

In [3]:
newsgroups_train.target[:10]

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

Доступ к самим текстам через атрибут ```data```. Выведем текст и категорию первого примера из обучающего датасета:

In [4]:
n = 854
print('Topic = {0}\n'.format(newsgroups_train.target_names[newsgroups_train.target[n]]))
print(newsgroups_train.data[n])

Topic = rec.motorcycles

hey... I'm pretty new to the wonderful world of motorcycles... I just
bought
a used 81 Kaw KZ650 CSR from a friend.... I was just wondering what kind of

saddle bags I could get for it (since I know nothing about them)  are there
bags for the gas tank?  how much would some cost, and how much do they
hold?
thanks for your advice!!!  I may be new to riding, but I love it
already!!!!
:)




## Векторное представление текста

Представим текст как вектор индикаторов вхождений слов из некоторого словаря в текст. Это простейшая модель BOF. 

Сформируем словарь на основе обучающего датасета. Для этого используем модуль ```CountVectorizer```:

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(lowercase=True, stop_words=None, analyzer='word', binary=True)
vectorizer.fit(newsgroups_train.data)

CountVectorizer(analyzer='word', binary=True, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

Количество проиндексированных слов:

In [6]:
len(vectorizer.vocabulary_)

101631

Проиндексированные слова и их индексы:

In [7]:
vectorizer.vocabulary_

{'was': 95844,
 'wondering': 97181,
 'if': 48754,
 'anyone': 18915,
 'out': 68847,
 'there': 88638,
 'could': 30074,
 'enlighten': 37335,
 'me': 60560,
 'on': 68080,
 'this': 88767,
 'car': 25775,
 'saw': 80623,
 'the': 88532,
 'other': 68781,
 'day': 31990,
 'it': 51326,
 'door': 34809,
 'sports': 84538,
 'looked': 57390,
 'to': 89360,
 'be': 21987,
 'from': 41715,
 'late': 55746,
 '60s': 9843,
 'early': 35974,
 '70s': 11174,
 'called': 25492,
 'bricklin': 24160,
 'doors': 34810,
 'were': 96247,
 'really': 76471,
 'small': 83426,
 'in': 49447,
 'addition': 16809,
 'front': 41724,
 'bumper': 24635,
 'separate': 81658,
 'rest': 77878,
 'of': 67670,
 'body': 23480,
 'is': 51136,
 'all': 17936,
 'know': 54632,
 'can': 25590,
 'tellme': 88143,
 'model': 62746,
 'name': 64931,
 'engine': 37287,
 'specs': 84276,
 'years': 99911,
 'production': 73373,
 'where': 96433,
 'made': 59079,
 'history': 46814,
 'or': 68409,
 'whatever': 96395,
 'info': 49932,
 'you': 100208,
 'have': 45885,
 'funky':

Индекс, например, для слова anyone:

In [8]:
vectorizer.vocabulary_.get('anyone')

18915

А теперь преобразуем строку в вектор:

In [9]:
text = 'I was wondering if anyone out there could enlighten me on this car I saw'
x = vectorizer.transform([text])

Какой тип имеет объект, на который указывает ```x```?

In [10]:
type(x)

scipy.sparse.csr.csr_matrix

Разреженная матрица!

### Отступление про разреженные матрицы

Список ненулевых элементов матрицы:

In [11]:
x.data

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int64)

Индексы строк и столбцов для ненулевых элементов:

In [12]:
x.nonzero()

(array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 array([18915, 25775, 30074, 37335, 48754, 60560, 68080, 68847, 80623,
        88638, 88767, 95844, 97181]))

Преобразование к объекту ndarray (именно после приведения к такому виду разреженные матрицы можно подставлять в функции, например, библиотеки Numpy):

In [13]:
x.toarray()

array([[0, 0, 0, ..., 0, 0, 0]], dtype=int64)

Вернемся к словарю. Раскодируем вектор ```x``` в список слов:

In [14]:
vectorizer.inverse_transform(x)

[array(['anyone', 'car', 'could', 'enlighten', 'if', 'me', 'on', 'out',
        'saw', 'there', 'this', 'was', 'wondering'], dtype='<U81')]

Пропало слово ```I```. Но дело в том, что по умолчанию ```CountVectorizer``` отбрасывает последовательности, короче 2 символов. На это указывает параметр ```token_pattern='(?u)\\b\\w\\w+\\b'```.

Переведем весь набор текстов обучающего датасета в набор векторов, получим матрицу ```X_train```:

In [15]:
X_train = vectorizer.fit_transform(newsgroups_train.data)
X_train.shape

(11314, 101631)

О пользе разреженных матриц. Отношение числа ненулевых элементов ко всем элементам матрицы ```X_train```:

In [16]:
X_train.nnz / np.prod(X_train.shape)

0.0009597982275882548

## BernoulliNB

```BernoulliNB``` - байесовский классификатор для бинаризованных признаков:

In [17]:
from sklearn.naive_bayes import BernoulliNB

clf = BernoulliNB(alpha=1).fit(X_train, newsgroups_train.target)

Априорные вероятности для категорий (как получились эти числа?)

In [18]:
np.exp(clf.class_log_prior_)

array([0.04242531, 0.05161747, 0.05223617, 0.05214778, 0.05108715,
       0.05241294, 0.05170585, 0.05250133, 0.05285487, 0.05276648,
       0.05303164, 0.05258971, 0.05223617, 0.05250133, 0.05241294,
       0.05294326, 0.04825879, 0.04984974, 0.04109952, 0.03332155])

Выведем по 10 самых значимых слов в каждой категории:

In [19]:
def show_top10(classifier, vectorizer, categories):
    feature_names = np.asarray(vectorizer.get_feature_names())
    for i, category in enumerate(categories):
        top10 = np.argsort(classifier.feature_log_prob_[i])[-10:]
        print("%s: %s" % (category, " ".join(feature_names[top10])))

show_top10(clf, vectorizer, newsgroups_train.target_names)

alt.atheism: not you in it is and that of to the
comp.graphics: on that it is for in of and to the
comp.os.ms-windows.misc: that windows for of in is and it to the
comp.sys.ibm.pc.hardware: with in that for of it is and to the
comp.sys.mac.hardware: with in for that it of and is to the
comp.windows.x: that this for it in is of and to the
misc.forsale: is have or with of in to and the for
rec.autos: you for that is it in of and to the
rec.motorcycles: you that for is in it of and to the
rec.sport.baseball: have it for is that of in and to the
rec.sport.hockey: on it for is that of in and to the
sci.crypt: for this in it is and that of to the
sci.electronics: you that it for in is of and to the
sci.med: this for that in it is and of to the
sci.space: on for that it is in and of to the
soc.religion.christian: not for it that is in and to of the
talk.politics.guns: you for is it that in and of to the
talk.politics.mideast: you not it is that in and of to the
talk.politics.misc: you for is 

Видим, что в топ попали общеупотребительные слова, неспецифичные для какой-либо категории. С этим еще предстоит разобраться, в пока запустим метод ```predict``` на тестовой части датасета.

Получение тестовой части датасета и формирование матрицы признаков:

In [20]:
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

X_test = vectorizer.transform(newsgroups_test.data)

Запуск метода ```predict```:

In [21]:
predicts = clf.predict(X_test)

Выведем набор метрик классификации:

In [22]:
np.where(newsgroups_test.target == 2)[0].shape, np.where(predicts==2)[0].shape

((394,), (3,))

In [23]:
from sklearn.metrics import classification_report

print(classification_report(newsgroups_test.target, predicts,
                            target_names=newsgroups_test.target_names))

                          precision    recall  f1-score   support

             alt.atheism       1.00      0.01      0.02       319
           comp.graphics       0.60      0.47      0.52       389
 comp.os.ms-windows.misc       0.33      0.00      0.01       394
comp.sys.ibm.pc.hardware       0.45      0.71      0.55       392
   comp.sys.mac.hardware       0.46      0.69      0.55       385
          comp.windows.x       0.83      0.39      0.54       395
            misc.forsale       0.75      0.74      0.75       390
               rec.autos       0.41      0.68      0.51       396
         rec.motorcycles       0.17      0.94      0.28       398
      rec.sport.baseball       0.64      0.80      0.71       397
        rec.sport.hockey       0.99      0.51      0.67       399
               sci.crypt       0.67      0.37      0.47       396
         sci.electronics       0.55      0.53      0.54       393
                 sci.med       0.90      0.35      0.50       396
         

  'precision', 'predicted', average, warn_for)


Модель явно нужно улучшать. В первую очередь, есть смысл обратить внимание на вектор признаков.

## Модель Bag-of-Words

При построении вектора признаков будем учитывать не просто факт вхождения слова в текст, а подсчитывать количество вхождений:

In [24]:
count_vect = CountVectorizer(binary=False)
X_train_counts = count_vect.fit_transform(newsgroups_train.data)

Для примера выведем слова вместе и количеством вхождений для первого текста из обучающего датасета:

In [25]:
dict(zip(count_vect.inverse_transform(X_train_counts[0])[0], X_train_counts[0].data))

{'mail': 1,
 'please': 1,
 'looking': 1,
 'funky': 1,
 'have': 1,
 'you': 1,
 'info': 1,
 'whatever': 1,
 'or': 1,
 'history': 1,
 'made': 1,
 'where': 1,
 'production': 1,
 'years': 1,
 'specs': 1,
 'engine': 1,
 'name': 1,
 'model': 1,
 'tellme': 1,
 'can': 1,
 'know': 1,
 'all': 1,
 'is': 2,
 'body': 1,
 'of': 2,
 'rest': 1,
 'separate': 1,
 'bumper': 1,
 'front': 1,
 'addition': 1,
 'in': 1,
 'small': 1,
 'really': 1,
 'were': 1,
 'doors': 1,
 'bricklin': 1,
 'called': 1,
 '70s': 1,
 'early': 1,
 '60s': 1,
 'late': 1,
 'from': 2,
 'be': 1,
 'to': 1,
 'looked': 1,
 'sports': 1,
 'door': 1,
 'it': 2,
 'day': 1,
 'other': 1,
 'the': 6,
 'saw': 1,
 'car': 4,
 'this': 4,
 'on': 2,
 'me': 1,
 'enlighten': 1,
 'could': 1,
 'there': 1,
 'out': 1,
 'anyone': 2,
 'if': 2,
 'wondering': 1,
 'was': 4}

Подобное предстваление текста называется Bag-of-Words (BOF).

## MultinomialNB

```MultinomialNB``` - байесовский классификатор для категоризованных признаков:

In [26]:
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB().fit(X_train_counts, newsgroups_train.target)

Оценим новую модель на тестовой выборке:

In [27]:
X_test_counts = count_vect.transform(newsgroups_test.data)
predicts = clf.predict(X_test_counts)
print(classification_report(newsgroups_test.target, predicts, target_names=newsgroups_test.target_names))

                          precision    recall  f1-score   support

             alt.atheism       0.65      0.15      0.25       319
           comp.graphics       0.63      0.60      0.62       389
 comp.os.ms-windows.misc       0.33      0.00      0.01       394
comp.sys.ibm.pc.hardware       0.54      0.66      0.60       392
   comp.sys.mac.hardware       0.82      0.42      0.55       385
          comp.windows.x       0.53      0.81      0.64       395
            misc.forsale       0.88      0.55      0.68       390
               rec.autos       0.85      0.54      0.66       396
         rec.motorcycles       0.95      0.40      0.57       398
      rec.sport.baseball       0.97      0.56      0.71       397
        rec.sport.hockey       0.57      0.78      0.66       399
               sci.crypt       0.40      0.79      0.53       396
         sci.electronics       0.70      0.38      0.49       393
                 sci.med       0.82      0.67      0.74       396
         

По-прежнему лидируют неспецифичные слова:

In [28]:
import numpy as np

def show_top10(classifier, vectorizer, categories):
    feature_names = np.asarray(vectorizer.get_feature_names())
    for i, category in enumerate(categories):
        top10 = np.argsort(classifier.feature_log_prob_[i])[-10:]
        print("%s: %s" % (category, " ".join(feature_names[top10])))

show_top10(clf, count_vect, newsgroups_train.target_names)

alt.atheism: not you it in and that is to of the
comp.graphics: that you it in for is of and to the
comp.os.ms-windows.misc: of it is and b8f g9v to the max ax
comp.sys.ibm.pc.hardware: with in that for it of is and to the
comp.sys.mac.hardware: with that for in it is of and to the
comp.windows.x: that on it for in is of and to the
misc.forsale: you is it 00 in of to and for the
rec.autos: for you that it is in of and to the
rec.motorcycles: for you that is in it of and to the
rec.sport.baseball: it for he is that in of and to the
rec.sport.hockey: he it is for that of in and to the
sci.crypt: for be it that in is and of to the
sci.electronics: that for you it in is and of to the
sci.med: you for it that is in and to of the
sci.space: on it that for is in and to of the
soc.religion.christian: you not it in is that and to of the
talk.politics.guns: for you it is that in and of to the
talk.politics.mideast: you they it is that in to and of the
talk.politics.misc: for you it is in that an

Пора от них избавиться, убрав из словаря:

In [29]:
from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS

ENGLISH_STOP_WORDS

frozenset({'a',
           'about',
           'above',
           'across',
           'after',
           'afterwards',
           'again',
           'against',
           'all',
           'almost',
           'alone',
           'along',
           'already',
           'also',
           'although',
           'always',
           'am',
           'among',
           'amongst',
           'amoungst',
           'amount',
           'an',
           'and',
           'another',
           'any',
           'anyhow',
           'anyone',
           'anything',
           'anyway',
           'anywhere',
           'are',
           'around',
           'as',
           'at',
           'back',
           'be',
           'became',
           'because',
           'become',
           'becomes',
           'becoming',
           'been',
           'before',
           'beforehand',
           'behind',
           'being',
           'below',
           'beside',
           'besides'

In [30]:
count_vect = CountVectorizer(stop_words=ENGLISH_STOP_WORDS, binary=False)
X_train_counts = count_vect.fit_transform(newsgroups_train.data)

In [31]:
clf = MultinomialNB().fit(X_train_counts, newsgroups_train.target)

In [32]:
X_test_counts = count_vect.transform(newsgroups_test.data)
predicts = clf.predict(X_test_counts)
print(classification_report(newsgroups_test.target, predicts,
                            target_names=newsgroups_test.target_names))

                          precision    recall  f1-score   support

             alt.atheism       0.65      0.30      0.41       319
           comp.graphics       0.58      0.69      0.63       389
 comp.os.ms-windows.misc       0.40      0.01      0.01       394
comp.sys.ibm.pc.hardware       0.53      0.72      0.61       392
   comp.sys.mac.hardware       0.74      0.56      0.64       385
          comp.windows.x       0.56      0.81      0.66       395
            misc.forsale       0.85      0.69      0.76       390
               rec.autos       0.82      0.70      0.76       396
         rec.motorcycles       0.91      0.62      0.73       398
      rec.sport.baseball       0.94      0.74      0.83       397
        rec.sport.hockey       0.58      0.91      0.71       399
               sci.crypt       0.54      0.79      0.64       396
         sci.electronics       0.71      0.49      0.58       393
                 sci.med       0.81      0.79      0.80       396
         

Еще несколько процентов точности прибавила модель! Теперь в топе более осмысленные слова:

In [33]:
import numpy as np

def show_top10(classifier, vectorizer, categories):
    feature_names = np.asarray(vectorizer.get_feature_names())
    for i, category in enumerate(categories):
        top10 = np.argsort(classifier.feature_log_prob_[i])[-10:]
        print("%s: %s" % (category, " ".join(feature_names[top10])))

show_top10(clf, count_vect, newsgroups_train.target_names)

alt.atheism: atheists believe say atheism does just think don people god
comp.graphics: software images files data use file jpeg edu graphics image
comp.os.ms-windows.misc: 34u windows 1d9 145 pl a86 b8f g9v max ax
comp.sys.ibm.pc.hardware: does bus ide use drives disk controller card scsi drive
comp.sys.mac.hardware: just bit does know like problem use drive apple mac
comp.windows.x: output entry widget motif edu server program use window file
misc.forsale: price 20 shipping offer dos 10 50 sale new 00
rec.autos: think know engine new good don just like cars car
rec.motorcycles: motorcycle time ride good know don dod like just bike
rec.sport.baseball: games like just 00 don think team good game year
rec.sport.hockey: 12 11 season 55 play 25 hockey 10 game team
sci.crypt: keys privacy people clipper government chip use db encryption key
sci.electronics: good does know used ground wire don power like use
sci.med: time com know like medical use health people don edu
sci.space: just shutt

Пойдем дальше по пути улучшения признакового описания.

## TF-IDF

TF-IDF - мера значимости слова для документа, рассчитывается как произведение величины Term Frequency (частота вхождения слова в документ) на величину Inverse Document Frequency (обратная величина к доле документов в датасете, в которых встречается данное слово). Часто в формуле расчета TF-IDF можно встретить логарифмы.

Составим словарь и расчитаем меры IDF для слов обучающего датасета:

In [34]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=ENGLISH_STOP_WORDS).fit(newsgroups_train.data)

Преобразуем тексты обучающего датасета в вектора:

In [35]:
X_train_vectors = vectorizer.transform(newsgroups_train.data)

Ненулевые элементы векторов содержат значения меры TF-IDF для слов из документа:

In [36]:
X_train_vectors[0].data

array([0.09418459, 0.13703598, 0.25808578, 0.16368393, 0.16329311,
       0.11339407, 0.14613089, 0.12706904, 0.12197187, 0.08978258,
       0.1614203 , 0.13037295, 0.10043854, 0.10634736, 0.13520842,
       0.13822597, 0.06961998, 0.11869933, 0.12504221, 0.2245489 ,
       0.20599311, 0.14341273, 0.12667096, 0.17300821, 0.1484788 ,
       0.10526009, 0.46579831, 0.10548299, 0.19644481, 0.24723135,
       0.12937103, 0.14077746, 0.20599311, 0.20797701])

Выведем слова из первого документа в порядке увеличения из меры TF-IDF:

In [37]:
vectorizer.inverse_transform(X_train_vectors[0])[0][np.argsort(X_train_vectors[0].data)]

array(['know', 'really', 'years', 'mail', 'day', 'called', 'looking',
       'small', 'info', 'rest', 'history', 'early', 'saw', 'body',
       'model', 'looked', 'wondering', 'late', 'addition', 'engine',
       'separate', 'door', 'production', 'specs', 'sports', 'doors',
       'bumper', 'enlighten', '70s', '60s', 'funky', 'bricklin', 'tellme',
       'car'], dtype='<U81')

Как и было задумано, в начале списка оказались общеупотребительные слова (know, really, years), а ближе к концу списка  - слова, характерные именно для данного документа (bumper, 60s, bricklin).

Применим модель MultinomialNB (как адаптировать модель MultinomialNB для нецелых признаков?):

In [38]:
clf = MultinomialNB().fit(X_train_vectors, newsgroups_train.target)

Топ-лист слов по категориям:

In [39]:
show_top10(clf, count_vect, newsgroups_train.target_names)

alt.atheism: islam atheists say just religion atheism think don people god
comp.graphics: looking format 3d know program file files thanks image graphics
comp.os.ms-windows.misc: card problem thanks driver drivers use files dos file windows
comp.sys.ibm.pc.hardware: monitor disk thanks pc ide controller bus card scsi drive
comp.sys.mac.hardware: know monitor does quadra simms thanks problem drive apple mac
comp.windows.x: using windows x11r5 use application thanks widget server motif window
misc.forsale: asking email sell price condition new shipping offer 00 sale
rec.autos: don ford new good dealer just engine like cars car
rec.motorcycles: don just helmet riding like motorcycle ride bikes dod bike
rec.sport.baseball: braves players pitching hit runs games game baseball team year
rec.sport.hockey: league year nhl games season players play hockey team game
sci.crypt: people use escrow nsa keys government chip clipper encryption key
sci.electronics: don thanks voltage used know does lik

Метрики модели на тестовом датасете:

In [40]:
X_test_vectors = vectorizer.transform(newsgroups_test.data)
predicts = clf.predict(X_test_vectors)
print(classification_report(newsgroups_test.target, predicts,
                            target_names=newsgroups_test.target_names))

                          precision    recall  f1-score   support

             alt.atheism       0.76      0.18      0.28       319
           comp.graphics       0.67      0.69      0.68       389
 comp.os.ms-windows.misc       0.66      0.58      0.62       394
comp.sys.ibm.pc.hardware       0.60      0.74      0.66       392
   comp.sys.mac.hardware       0.77      0.67      0.71       385
          comp.windows.x       0.81      0.77      0.79       395
            misc.forsale       0.78      0.76      0.77       390
               rec.autos       0.84      0.73      0.78       396
         rec.motorcycles       0.87      0.74      0.80       398
      rec.sport.baseball       0.92      0.80      0.85       397
        rec.sport.hockey       0.57      0.93      0.71       399
               sci.crypt       0.59      0.79      0.67       396
         sci.electronics       0.72      0.52      0.60       393
                 sci.med       0.89      0.76      0.82       396
         

In [41]:
from sklearn.naive_bayes import ComplementNB
clf=ComplementNB().fit(X_train_vectors,newsgroups_train.target)
show_top10(clf,count_vect,newsgroups_train.target_names)

alt.atheism: gipu presupposition presumable dionetics uproarious abducted interrogationum interpretationa abberation elee
comp.graphics: ove outwards criiterion outrunning outputing outliers cricket equalities tw13 visualizer
comp.os.ms-windows.misc: om9xax 82c607 82bbzt _supercharging hix 3958784 auh 395z auie 3iirlj103j1
comp.sys.ibm.pc.hardware: suggeted me2 allister assisatnce 2350 libc 8800cs 02h drdos6 persnickity
comp.sys.mac.hardware: cayman pqrqkcu3 pqxjnlyrlpq3c networkable ezr3 tarrifs efisher am29000 worldscript catchup
comp.windows.x: 8vao est5edt popen_xphigs llat popen_ws fractionally nassestr wellorganized bursty n86pl
misc.forsale: carring morefonts morbius 4x1mb 4x6 removeable xwin isifisher terkel 90x9403
rec.autos: olof citroen olde yjs vavau gearboxes bellevue gearshift opdbs tercel
rec.motorcycles: lotta spooge xz550 sportmax springers sprocket sprockets squeak sported me77
rec.sport.baseball: tantrum tanstaafl riles huckabay slyke dhenderson 30s drayton scoreshee

In [42]:
predicts = clf.predict(X_test_vectors)
print(classification_report(newsgroups_test.target, predicts,target_names=newsgroups_test.target_names))

                          precision    recall  f1-score   support

             alt.atheism       0.31      0.42      0.35       319
           comp.graphics       0.72      0.72      0.72       389
 comp.os.ms-windows.misc       0.70      0.61      0.65       394
comp.sys.ibm.pc.hardware       0.64      0.71      0.67       392
   comp.sys.mac.hardware       0.76      0.73      0.74       385
          comp.windows.x       0.82      0.79      0.81       395
            misc.forsale       0.77      0.74      0.76       390
               rec.autos       0.82      0.75      0.78       396
         rec.motorcycles       0.84      0.77      0.81       398
      rec.sport.baseball       0.92      0.83      0.88       397
        rec.sport.hockey       0.84      0.93      0.89       399
               sci.crypt       0.74      0.81      0.77       396
         sci.electronics       0.70      0.55      0.62       393
                 sci.med       0.83      0.81      0.82       396
         

Прибавили еще несколько процентов. Можно лучше!