In [None]:
trofimov_BBMO-01-24

### Naive Bayes Classifiers

It is a classification technique based on Bayes’ Theorem with an assumption of independence among predictors. In simple terms, a Naive Bayes classifier assumes that the presence of a particular feature in a class is unrelated to the presence of any other feature.

For example, a fruit may be considered to be an apple if it is red, round, and about 3 inches in diameter. Even if these features depend on each other or upon the existence of the other features, all of these properties independently contribute to the probability that this fruit is an apple and that is why it is known as ‘Naive’.

Naive Bayes model is easy to build and particularly useful for very large data sets. Along with simplicity, Naive Bayes is known to outperform even highly sophisticated classification methods.

Bayes theorem provides a way of calculating posterior probability P(c|x) from P(c), P(x) and P(x|c). Look at the equation below:

Это метод классификации, основанный на теореме Байеса с предположением о независимости предикторов. Проще говоря, наивный байесовский классификатор предполагает, что наличие определенного признака в классе не связано с наличием любого другого признака.

Например, фрукт можно считать яблоком, если он красный, круглый и около 3 дюймов в диаметре. Даже если эти признаки зависят друг от друга или от существования других признаков, все эти свойства независимо вносят вклад в вероятность того, что этот фрукт является яблоком, и именно поэтому он известен как «наивный».

Наивную байесовскую модель легко построить, и она особенно полезна для очень больших наборов данных. Наряду с простотой наивный байесовский классификатор, как известно, превосходит даже очень сложные методы классификации.

Теорема Байеса предоставляет способ вычисления апостериорной вероятности P(c|x) из P(c), P(x) и P(x|c). Посмотрите на уравнение ниже:

### Import Libraries

In [1]:
import numpy as np # для работы с многомерными массивами и матрицами
import pandas as pd #  для манипуляции и анализа данных
import matplotlib.pyplot as plt # для визуализации данных

### Import Dataset

In [6]:
df = pd.read_csv(r'emails.csv') # для чтения данных из CSV файл

In [7]:
df.head()

Unnamed: 0,text,spam,Unnamed: 2,Unnamed: 3
0,Subject: naturally irresistible your corporate...,1,,
1,Subject: the stock trading gunslinger fanny i...,1,,
2,Subject: unbelievable new homes made easy im ...,1,,
3,Subject: 4 color printing special request add...,1,,
4,"Subject: do not have money , get software cds ...",1,,


In [8]:
#  для очистки данных, чтобы оставить только те столбцы, которые имеют значение для анализа, и для проверки структуры загруженных данных
del df['Unnamed: 2']
del df['Unnamed: 3']
df.head()

Unnamed: 0,text,spam
0,Subject: naturally irresistible your corporate...,1
1,Subject: the stock trading gunslinger fanny i...,1
2,Subject: unbelievable new homes made easy im ...,1
3,Subject: 4 color printing special request add...,1
4,"Subject: do not have money , get software cds ...",1


In [10]:
df.isnull().sum() # какие столбцы содержат пропущенные данные и в каком количеств

Unnamed: 0,0
text,0
spam,0


### Separate Dependent & Independent Value

Отдельные зависимые и независимые значения

In [11]:
x = df.text.values # Здесь переменная x получает значения из столбца text DataFrame df
y = df.spam.values # Переменная y получает значения из столбца spam.

### Split Train and Test Dataset

In [12]:
from sklearn.model_selection import train_test_split  # Импортируем функцию train_test_split из модуля sklearn.model_selection для разделения данных на обучающую и тестовую выборки.

In [13]:
#  для разделения данных на обучающую и тестовую выборки
xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3)
#Эта функция разбивает массивы или DataFrame на случайные обучающие и тестовые подмножества. В данном случае она принимает два аргумента: x (входные данные) и y (целевые метки).
# 30% данных будут отведены для тестовой выборки, а оставшиеся 70% — для обучающей выборки

### Data Preprocessing

Предварительная обработка данных

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
# Этот класс преобразует коллекцию текстовых документов в числовую матрицу, где строки представляют собой документы,
# а столбцы — уникальные слова (или токены) из всех документов. Значения в матрице представляют собой количество вхождений каждого слова в соответствующем документе.

In [15]:
cv = CountVectorizer() # создает экземпляр класса

In [16]:
x_train = cv.fit_transform(xtrain)
# Этот метод сначала "обучает" векторизатор на данных, то есть анализирует текст, чтобы определить уникальные слова и их частоты, а затем преобразует текстовые данные в числовую матрицу.
#В результате получается матрица, где строки представляют собой документы, а столбцы — уникальные слова, с количеством вхождений каждого слова в соответствующем документе.

In [17]:
x_train.toarray()
#преобразует разреженную матрицу, полученную из векторизации текстовых данных, в плотный (dense) массив NumPy.

array([[1, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 5, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

### Apply Naive Bayes Classifiers Algorithm

Применить алгоритм наивных байесовских классификаторов

In [18]:
from sklearn.naive_bayes import MultinomialNB
# модель наивного байесовского классификатора, что позволит вам классифицировать новые документы на основе обученных данных.

In [19]:
# # Создание экземпляра модели наивного байесовского классификатора
model = MultinomialNB()

In [20]:
# Обучение модели на обучающем наборе данных
model.fit(x_train,ytrain)

In [21]:
#векторизациz текстовых данных из переменной xtest с помощью метода fit_transform класса CountVectorizer
x_test = cv.fit_transform(xtest)

In [22]:
# gреобразует разреженную матрицу, полученную из векторизации тестовых данных, в плотный (dense) массив NumPy.
x_test.toarray()

array([[6, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [23]:
# Метод score возвращает значение, которое показывает,
# насколько хорошо модель предсказывает целевую переменную (в данном случае ytrain) на основе входных данных (x_train).
model.score(x_train,ytrain)

0.9917685208281367