### Naive Bayes Classifiers

It is a classification technique based on Bayes’ Theorem with an assumption of independence among predictors. In simple terms, a Naive Bayes classifier assumes that the presence of a particular feature in a class is unrelated to the presence of any other feature.

For example, a fruit may be considered to be an apple if it is red, round, and about 3 inches in diameter. Even if these features depend on each other or upon the existence of the other features, all of these properties independently contribute to the probability that this fruit is an apple and that is why it is known as ‘Naive’.

Naive Bayes model is easy to build and particularly useful for very large data sets. Along with simplicity, Naive Bayes is known to outperform even highly sophisticated classification methods.

Bayes theorem provides a way of calculating posterior probability P(c|x) from P(c), P(x) and P(x|c). Look at the equation below:

1) Импортируем библиотеки

In [1]:
import numpy as np # для работы с массивами
import pandas as pd # для работы с табличными данными
import matplotlib.pyplot as plt # для визуализации данных

2) Загружаем данные


In [2]:
df = pd.read_csv(r'emails.csv')

3) Очистка данных

In [3]:
del df['Unnamed: 2'] # удаление ненужного столбца
del df['Unnamed: 3'] # ещё удаление ненужного столбца
df.head() # просмотр первых 5 строк

Unnamed: 0,text,spam
0,Subject: naturally irresistible your corporate...,1
1,Subject: the stock trading gunslinger fanny i...,1
2,Subject: unbelievable new homes made easy im ...,1
3,Subject: 4 color printing special request add...,1
4,"Subject: do not have money , get software cds ...",1


In [6]:
df.isnull().sum() # проверка на отстутствующие значения

Unnamed: 0,0
text,0
spam,0


4) Разделение данных

In [7]:
x = df.text.values # извлечение текстов писем (признаки)
y = df.spam.values # извлечение меток (спам, не спам)

5) Разделение на обучающую и тестовую выборки

In [8]:
from sklearn.model_selection import train_test_split #импорт функции для разделения данных

In [9]:
xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3) # 70 - обучение 30 - тестирования

6) Предобработка текста

In [10]:
from sklearn.feature_extraction.text import CountVectorizer # для преобразования текста в числовой формат

In [11]:
cv = CountVectorizer() # создание объекта для векторизации

In [12]:
x_train = cv.fit_transform(xtrain) # преобразование обучающих данных в матрицу частот слов

In [13]:
x_train.toarray() # просмотр преобразованных данных в виде массива

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

7) Обучение модели Наивного Байеса

In [14]:
from sklearn.naive_bayes import MultinomialNB # импорт навиного байеса

In [15]:
model = MultinomialNB() # создание модели

In [16]:
model.fit(x_train,ytrain) # обучение модели на обучающих данных

8) Подготовка тестовых данных

In [17]:
x_test = cv.fit_transform(xtest) # преобразоване текстовых данных

In [18]:
x_test.toarray() # просмотр тестовых данных в виде массива

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

9) Оценка точности модели

In [19]:
model.score(x_train,ytrain) # проверка точности на обучащих данных

0.9920179595909204