**Байесовский классификатор** — широкий класс алгоритмов классификации, основанный на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.

В данном ноутбуке будет использоваться [**полиномиальный наивный байесовский классификатор**](https://jakevdp.github.io/PythonDataScienceHandbook/05.05-naive-bayes.html#Multinomial-Naive-Bayes).

Набор данных - [Twenty Newsgroups](https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html). Данные будут загружены посредством sklearn.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import f1_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
%matplotlib inline

In [2]:
pd.options.display.max_columns = None

In [3]:
data = fetch_20newsgroups()
categories = data.target_names[:10]

In [4]:
train = fetch_20newsgroups(subset='train',
                           remove=('headers', 'footers', 'quotes'),
                           categories=categories)
test = fetch_20newsgroups(subset='test',
                          remove=('headers', 'footers', 'quotes'),
                          categories=categories)

Для дальнейшей работы необходимо выполнить преобразование текста в набор данных, подходящих для статистического анализа. Для этого сформируем вектора tf-idf.

In [5]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(train.data)

In [6]:
clf = MultinomialNB(alpha=.01)
clf.fit(vectors, train.target)

MultinomialNB(alpha=0.01)

In [7]:
vectors_test = vectorizer.transform(test.data)

In [8]:
pred = clf.predict(vectors_test)
f1_score(test.target, pred, average='macro')

0.7458991080746958