# Наивный байесовский классификатор на задаче классификации текста

## Определение

Наи́вный ба́йесовский классифика́тор — простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости.
В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия; другими словами, можно работать с наивной байесовской моделью, не веря в байесовскую вероятность и не используя байесовские методы.

Источник: [wikipedia.org](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80)

Перед тем как перейти к применению данного алгоритма на реальных данных, стоит рассмотреть что из себя представляет **теорема Байеса**.

Пусть событие $A$ может наступить при условии появления одного из несовместных событий $B_1$, $B_2$, ..., $B_n$, образующих полную группу. Поскольку заранее неизвестно, какое из этих событий наступит, их называют *гипотезами*.

*Формула Байеса позволяет переоценить вероятности гипотез после того, как становится известным результат испытания, в итоге которого появилось событие* $A$.

<h3 align="center"> $ P(A|B) = \frac{ P(B|A)P(A) }{ P(B) } $ </h3>

$ P(A) $ — априорная вероятность гипотезы $A$

$ P(B) $ — вероятность того, что событие $B$ истинно (полная вероятность наступления события $B$)

$ P(A|B) $ — вероятность гипотезы $A$ при наступлении события $B$ (апостериорная вероятность)

$ P(B|A) $ — вероятность наступления события $B$ при истинности гипотезы $A$

*Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную — с учётом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учётом данных о событии).*

> Очень **важное допущение**, без которого использование алгоритма наивного байеса не имело бы смысла, заключается в том, что мы будем считать элементы признака независимыми между собой. Зависимость будет иметь место только между элементом признака (словом) и целевой меткой (классом).

В данном случае $A$ - метка класса, $B$ - текст, сотоящий из некоторого набора слов ($B_1$, $B_2$, ..., $B_n$).

Нам необходимо найти такой класс $A$, при котором его вероятность для данной строки была бы максимальна.

<h3 align="center"> $ A = argmax_A P(A|B) $ </h3>


$argmax_x f(x)$ есть значение $x$, при котором $f(x)$ максимальна

Используя теорему Байеса, запишем:

$P(A | B_1, ..., B_n) = \frac{ P(A)P(B_1, ..., B_n | A) }{ P(B_1, ..., B_n) }$

На практике интересен лишь числитель этой дроби, так как знаменатель не зависит от $A$ и значения $B_i$ даны, поэтому знаменатель - константа.

Числитель эквивалентен совместной вероятности модели:

$P(A, B_1, ..., B_n)$, которая может быть переписана следующим образом, используя повторные приложения определений условной вероятности:

$P(A, B_1, ..., B_n) =$

$ = P(A)P(B_1, ..., B_n | A) =$

$ = P(A)P(B_1|A)P(B_2 ..., B_n | A, B_1) =$

$ = P(A)P(B_1 | A)P(B_2|A, B_1)P(B_3, ..., B_n | A, B_1, B_2) =$

$= P(A)P(B_1 | A) \cdot ... \cdot  P(B_n | A, B_1, B_2, ..., B$<sub>n-1</sub>)

и т. д. Теперь можно использовать «наивные» предположения условной независимости: предположим, что каждое свойство $B_i$ условно независимо от любого другого свойства $B_j$ при $j ≠ i$.

Это означает: $P(B_i | A, B_j) = P(B_i | A)$, таким образом, совместная модель может быть выражена как:
$ P(A, B_1, ..., B_n) = P(A)P(B_1 |A) \cdot ... \cdot P(B_n|A)$, что эквивалентно следующей записи:
<h3 align="center"> $ P(A) = \prod_{i=1}^{n} P(B_i | A) $ </h3>

Это означает, что из предположения о независимости, условное распределение по классовой переменной $A$ может быть выражено так:
<h3 align="center"> $P(A | B_1, ..., B_n) = $ </h3>
<h3 align="center"> $ = \frac{1}{Z} P(A)\prod_{i=1}^{n} P(B_i | A)$ </h3>

где $Z = P(B_1, ... , B_n)$ - это масштабный множитель, зависящий только от $B_1, ..., B_n$, то есть константа, если значения переменных известны.


> Стоит отметить, что использование для предсказаний произведения вероятностей может привести к численной нестабильности ввиду возможности наличия нулевых вероятностей. Поэтому часто вместо произведения "чистых" вероятностей используется сумма их логарифмов, что избавляет от возможности "зануления" общей вероятности принадлежности к классу.

Источник: [wiki/Наивный байесовский классификатор](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80)

## Набор данных

Для реализации алгоритма и проверки его работы на реальных данных загрузим набор данных IMDB, содержащий 50 тысяч рецензий на фильмы. Набор предназначен для обработки естественного языка или текстовой аналитики.

Загрузим набор данных с сайта kaggle по ссылке: [IMDB Dataset of 50K Movie Reviews](https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews) (размер архива 27 MB)

Набор данных состоит всего из двух колонок:


1.   Признак **"review"** - содержит текст рецензии на фильм.
2.   Целевая метка **"sentiment"** - содержит два лейбла (*positive* - позитивная рецензия, и *negative* - негативная рецензия).

Необходимо создать модель, которая будет принимать на вход текстовое описание, а на выходе модели мы увидим к какому классу ту или иную рецензию модель отнесет.

In [1]:
# Импортиуем необходимые библиотеки для дальнейшей работы
import pandas as pd
from bs4 import BeautifulSoup
import re
import string

import warnings
warnings.filterwarnings("ignore")

In [2]:
# загрузим csv-файл в pandas DataFrame
# обратите внимание, файл переименован для замены пробела в имени файла,
# оригинальное имя: IMDB Dataset.csv
df_raw = pd.read_csv('IMDB_Dataset.csv')
df_raw.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


In [3]:
# создаем копию датасета для дальнейших манипуляций над ним
# без внесения изменений в исходный
df = df_raw.copy()

## Предварительная обработка набора данных

Так или иначе все наши признаки в дальнейшем нужно будет закодировать, так как модель будет обрабатывать не исходные категориальные признаки и текстовую последовательность, а числовые признаки.

Предлагаю сразу закодировать категориальный признак целевого столбца 'sentiment', где 0 - негативня рецензия, 1 - позитивная рецензия.

In [4]:
# словарь для замены текстовых меток на целочисленные
replace_label = {'positive' : 1,
                 'negative' : 0}

In [5]:
# производим замену целевых меток в датасете на 0 и 1
df['sentiment'] = df['sentiment'].map(replace_label)
df.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,1
1,A wonderful little production. <br /><br />The...,1
2,I thought this was a wonderful way to spend ti...,1
3,Basically there's a family where a little boy ...,0
4,"Petter Mattei's ""Love in the Time of Money"" is...",1


Для начала необходимо произвести проверку на наличие пропусков или дубликатов.
Для наглядности визуализирую все дубликаты, затем мы избавимся от дублирующих строк нашего датасета.

In [6]:
df[df.duplicated(keep=False)].sort_values(by=['review'])

Unnamed: 0,review,sentiment
34058,"""Go Fish"" garnered Rose Troche rightly or wron...",0
47467,"""Go Fish"" garnered Rose Troche rightly or wron...",0
29956,"""Three"" is a seriously dumb shipwreck movie. M...",0
31488,"""Three"" is a seriously dumb shipwreck movie. M...",0
47527,"""Witchery"" might just be the most incoherent a...",0
...,...,...
47876,this movie sucks. did anyone notice that the e...,0
44122,"well, the writing was very sloppy, the directi...",0
23056,"well, the writing was very sloppy, the directi...",0
10163,"when I first heard about this movie, I noticed...",1


In [7]:
df_shape = df.shape[0]
df = df.drop_duplicates(ignore_index=True)
print(f'Удалено дубликатов: {df_shape - df.shape[0]}')
print('-----'*4)
print('Null:')
df.isnull().any()

Удалено дубликатов: 418
--------------------
Null:


review       False
sentiment    False
dtype: bool

In [8]:
# Посмотрим одну из рецензий, мы увидим что текст содержит в себе HTML-теги,
# а также знаки пунктуации, кроме того в тексте присутствуют буквы в верхнем
# регистре
# Cлово "The" и "the" в данном случае будут считаться двумя разными словами,
# для того чтобы этого избежать нужно привести весь текст к нижнему регистру
print(df_raw.review[1])

A wonderful little production. <br /><br />The filming technique is very unassuming- very old-time-BBC fashion and gives a comforting, and sometimes discomforting, sense of realism to the entire piece. <br /><br />The actors are extremely well chosen- Michael Sheen not only "has got all the polari" but he has all the voices down pat too! You can truly see the seamless editing guided by the references to Williams' diary entries, not only is it well worth the watching but it is a terrificly written and performed piece. A masterful production about one of the great master's of comedy and his life. <br /><br />The realism really comes home with the little things: the fantasy of the guard which, rather than use the traditional 'dream' techniques remains solid then disappears. It plays on our knowledge and our senses, particularly with the scenes concerning Orton and Halliwell and the sets (particularly of their flat with Halliwell's murals decorating every surface) are terribly well done.


Кроме того, текст может быть "загрязнен" веб-ссылками, e-mail-адресами, специальными знаками.

Для более лучшей работы модели необходимо стандартизировать входные последовательности. Для этого напишем функцию ниже:

In [9]:
def clean_text(text):
    """
    Функция, которая принимает на вход строку и производит
    чистку от специальных символов, знаков пунктуации, ссылок,
    адресов электронных почт, цифр, HTML-тегов, приводит все
    слова к нижнему регистру, а также удаляет пробелы в начале
    и конце всей строки, и в тех местах, где они могли образоваться
    в результате чистки внутри текста
    """
    soup = BeautifulSoup(text, 'html.parser')
    clean_text = soup.get_text()
    clean_text = re.sub(r'\s+', ' ', clean_text)
    clean_text = re.sub(r'http\S+|www\S+|ftp\S+', '', clean_text)  # Удаление ссылок
    clean_text = re.sub(r'[\w\.-]+@[\w\.-]+', '', clean_text)  # Удаление email
    clean_text = re.sub(r'\d+', '', clean_text)  # Удаление цифр
    clean_text = re.sub(f"[{string.punctuation}]|(?<!\w)-|-(?!\w)", "", clean_text)
    clean_text = clean_text.lower()  # Приведение к нижнему регистру
    clean_text = re.sub(r'\s+', ' ', clean_text.strip())  # Удаление лишних пробелов
    return clean_text

In [10]:
# Применяем функцию к столбцу, который необходимо "почистить"
df['review'] = df['review'].apply(clean_text)

Для сравнения визуализируем как текст выглядел до предварительной обработки и как эта же строка выглядела после применения к ней функции clean_text()

In [11]:
print(df_raw.review[1])
print()
print(df.review[1])

A wonderful little production. <br /><br />The filming technique is very unassuming- very old-time-BBC fashion and gives a comforting, and sometimes discomforting, sense of realism to the entire piece. <br /><br />The actors are extremely well chosen- Michael Sheen not only "has got all the polari" but he has all the voices down pat too! You can truly see the seamless editing guided by the references to Williams' diary entries, not only is it well worth the watching but it is a terrificly written and performed piece. A masterful production about one of the great master's of comedy and his life. <br /><br />The realism really comes home with the little things: the fantasy of the guard which, rather than use the traditional 'dream' techniques remains solid then disappears. It plays on our knowledge and our senses, particularly with the scenes concerning Orton and Halliwell and the sets (particularly of their flat with Halliwell's murals decorating every surface) are terribly well done.



Отлично, наша функция работает, можно приступать к дальнейшим действиям.

Сам набор данных сбалансирован по классам, в других случаях потребуется применение дополнительных техник для того чтобы решить проблему дисбаланса классов.

In [12]:
# проверка баланса классов в столбце с целевыми метками
df.groupby('sentiment').count()

Unnamed: 0_level_0,review
sentiment,Unnamed: 1_level_1
0,24698
1,24884


Для того чтобы наш классификационный алгоритм смог работать с текстовыми данными нам нужно выполнить кодирование признака "review". Так как это демонстрационная рабочая тетрадь, то кодировать будем "вручную", создавая словарь, который будет содержать в качестве ключа - каждое уникальное слово из всего текстового корпуса (все объекты (рецензии) признака (столбца) "review"), а в качестве уникальный индекс для этого слова.

Так делать **не нужно**, в рамках ml-библиотек реализованы:


*   OneHotEncoder
*   CountVectorizer
*   TfidfVectorizer

Вариант ниже *демонстрационный*, написан для понимания как в дальнейшем работает наш алгоритм наивного байеса.


In [13]:
# функция для создания и наполнения словаря уникальными словами
def encode_reviews(df, feature):
    index = 0
    dictionary = {}
    # перебираем все элементы (тексты) признака (в нашем случае это
    # будет "review")
    for i in range(df[feature].shape[0]):
        # итерируемся по каждому слову в конкретном тексте
        for word in df[feature][i].split():
            # если слова нет в словаре - добавляем его и присваиваем индекс
            if word not in dictionary:
                dictionary[word] = index + 1
                index += 1
            else:
                pass
    return dictionary

In [14]:
# кодируем слова
encode_dict = encode_reviews(df, 'review')

In [15]:
print(f'Уникальных слов в словаре: {len(list(encode_dict.keys()))}')
# посмотрим на первые десять уникальных слов в словаре
print('Первые десять слов:')
list(encode_dict.items())[0:10]

Уникальных слов в словаре: 215507
Первые десять слов:


[('one', 1),
 ('of', 2),
 ('the', 3),
 ('other', 4),
 ('reviewers', 5),
 ('has', 6),
 ('mentioned', 7),
 ('that', 8),
 ('after', 9),
 ('watching', 10)]

Теперь нам необходимо произвести кодировку всех слов в датафрейме, для этого напишем функцию замены слов в каждой рецензии на значение ключа из нашего словаря выше.

Напомню ключем является само слово, значением этого ключа является уникальное число. На эти числа мы и будем производить замену всех слов во всем корпусе.

In [16]:
# Функция для замены слов в тексте
def replace_words_with_dict_values(text, dictionary):
    words = text.split()
    replaced_words = [dictionary.get(word) for word in words]
    return replaced_words

In [17]:
# Кодируем
# Примените функцию к колонке 'review'
df['review'] = df['review'].apply(lambda x: replace_words_with_dict_values(x, encode_dict))

Выведем на экран датасет, чтобы убедиться что замена произведена

In [18]:
df.head()

Unnamed: 0,review,sentiment
0,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...",1
1,"[48, 190, 191, 192, 3, 193, 194, 22, 195, 196,...",1
2,"[137, 270, 21, 33, 48, 190, 271, 59, 272, 273,...",1
3,"[347, 348, 48, 349, 84, 48, 191, 350, 351, 352...",0
4,"[394, 395, 396, 42, 3, 273, 2, 397, 22, 48, 39...",1


Теперь наш набор данных выглядит таким образом:

"review" - массив из чисел, вместо строки из слов,
"sentiment" - метка (0 или 1)

Визуализируем любую точку данных в датафрейме:

In [19]:
df.loc[115]

review       [21, 22, 1, 2, 3, 1961, 742, 137, 87, 138, 547...
sentiment                                                    1
Name: 115, dtype: object

На данном этапе подготовка данных завершена, приступаем к реализации алгоритма.

## Реализация алгоритма

In [20]:
from collections import defaultdict
from math import log

# функция для обучения модели
def train(train_data):
    # создаем два словаря, labels будет содержать в качестве ключа - номер класса (0 или 1),
    # а в качестве значения будет содержать общее количество объектов этого класса
    # словарь frequency будет содержать в качестве ключа (номер класса, слово),
    # а в качестве значения количество использования этого слова во всех текстах для каждого
    # из классов
    labels, frequency = defaultdict(lambda:0), defaultdict(lambda:0)
    for sequence, label in train_data:
        # находим лэйбл класса и считаем насколько часто он встречается
        labels[label] += 1
        # sequence - это текст в каждой точке данных (закодированный)
        for word in sequence:
            # проходимся по всем словам и считаем их частоты (кол-во элементов)
            # пример frequency (1, 25311): 32 ). где 1 - класс, 25311 - порядковый
            # индекс уникального слова, 32 - количество раз использования этого слова
            # во всех текстах для класса №1
            frequency[label, word] += 1
    # нормализуем частоты слов и классов
    # распаковываем лейбл и слово из частот, делим на кол-во элементов этого класса
    for label, word in frequency:
        frequency[label, word] /= labels[label] # для получения частоты нормируем на кол-во элементов в классе

    # кол-во элементов для каждого класса делим на кол-во семплов
    for c in labels:
        labels[c] /= len(train_data)

    # мы получили labels - соответсвует априорной вероятности P(A)
    # и frequency - frequency P(B|A) - вероятность натупления события B (B - истина),
    # если A - истина, т.е. вероятность принадлежности слова к конкретному классу
    return labels, frequency

Как и было сказано в определении вместо произведения "чистых" вероятностей используется сумма их логарифмов, что избавляет от возможности "зануления" общей вероятности принадлежности к классу. Дополнительный коэффициент необходим из-за того что значения вероятностей сами по себе очень маленькие, поэтому домножаем на константу.

In [21]:
def predictor(classifier, words):
    labels, prob = classifier
    return min(labels.keys(),
        key = lambda cl: -log(labels[cl]) + sum(-log(prob.get((cl,feat), 10**(-7))) for feat in words) )

Разбиваем датафрейм на обучающую и тестовую выборки

In [22]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df['review'], df['sentiment'],
                                                    test_size=0.3, random_state=42)

In [23]:
features = [(X_train.iloc[i], y_train.iloc[i]) for i in range(len(X_train))]

Обучаем модель

In [24]:
classifier = train(features)

Визуализируем истинный ответ и предсказание модели у для одинакового текста

In [25]:
print('true label', y_test.iloc[200])

true label 0


In [26]:
print('predicted', predictor(classifier, (X_test.iloc[200])))

predicted 0


Для того чтобы прочитать текст рецензии, нам нужно декодировать наш массив из чисел в слова, для этого напишем функцию:

In [27]:
def decode_values(array):
    inverse_dict = {v: k for k, v in encode_dict.items()}
    output = ''
    for num in array:
        output += str(inverse_dict[num]) + ' '
    return output

Визуализируем. Как мы видим, человеку фильм не понравился.

In [28]:
decode_values(X_test.iloc[200])

'the long list of big names in this flick including the ubiquitous john mills didnt bowl me over to the extent that i couldnt judge the film on its actual merits it is full of stereotypes caricatures and standard set scenes from the humble airace hero to the loudmouthed yank flyer the music track was such that at one point about an hour before the end i thought the film was over loud rising crescendo grand flourish and finish then silence but then the movie continued i found no real storyline haphazard writing but smartlypressed uniforms and the pretty jean simmons prenose job with a rousing little ditty i cannot say that this picture has any of the ingredients which make a film great i found it maudlin mawkish and minor '

## Оценка по метрике f1-score macro avg

И в завершении для оценки работы модели в целом, а не на выборочных примерах импортируем classification_report() из библиотеки sklearn

In [29]:
from sklearn.metrics import classification_report

predicted = [predictor(classifier, (X_test.iloc[i])) for i in range(len(X_test))]

In [30]:
print(classification_report(y_test, predicted))

              precision    recall  f1-score   support

           0       0.83      0.83      0.83      7404
           1       0.83      0.83      0.83      7471

    accuracy                           0.83     14875
   macro avg       0.83      0.83      0.83     14875
weighted avg       0.83      0.83      0.83     14875



## Заключение

В этой рабочей тетради мы посмотрели что из себя представляет алгоритм наивного байеса на основе теоремы Байеса с некоторыми строгими допущениями о независимости. Получили некоторое представление о том как можно предобработать текстовые данные перед подачей их на вход модели для дальнейшей её обучения на них. Обучили модель и провели проверку полученных предсказаний модели.

Рузультат 0.83 по метрике f1-score macro avg - это неплохой бейзлайн для этой задачи, учитывая скорость работы данного алгоритма. Данный алгоритм можно использовать не только в задачах бинарной классификации, но и в задачах с многоклассовой классификацией.

В данной рабочей тетради не было цели показать дополнительные приемы для улучшения работы алгоритма. Вы можете ознакомиться с модификациями и реализациями алгоритма нивного байеса (ComplementNB, MultinomialNB, BernoulliNB, CategoricalNB, GaussianNB) в библиотеке [sklearn](https://scikit-learn.org/stable/modules/naive_bayes.html)

Рекомендуется ознакомиться с:


*   [sklearn.feature_extraction.text.CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
*   [sklearn.feature_extraction.text.TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
*   список ["stopwords" библиотеки nltk](https://www.nltk.org/search.html?q=stopwords)