# Наивный Байесовский Классификатор для классификации спам-сообщений

In [None]:
import numpy as np
import pandas as pd

Выгрузим данные

In [None]:
! gdown  1RhiOx5S2ze30tuDRPgCzGZYvCHi27vQH

Downloading...
From: https://drive.google.com/uc?id=1RhiOx5S2ze30tuDRPgCzGZYvCHi27vQH
To: /content/SMSSpamCollection.csv
  0% 0.00/478k [00:00<?, ?B/s]100% 478k/478k [00:00<00:00, 75.0MB/s]


Прочитаем файл (разделителем здесь выступает символ табуляции) и выведем в лог шапку таблицы

In [None]:
file_path = 'https://drive.google.com/uc?id=1RhiOx5S2ze30tuDRPgCzGZYvCHi27vQH'
sms_data = pd.read_csv(file_path, header=None, sep='\t', names=['Label', 'SMS'])
sms_data.head()

Unnamed: 0,Label,SMS
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


Посмотрим, сколько объектов каждого класса присутствует в датасете.

In [None]:
sms_data.groupby('Label').count()

Unnamed: 0_level_0,SMS
Label,Unnamed: 1_level_1
ham,4825
spam,747


Видно, что классы крайне несбалансированны

### Предобработка данных

Удаляем символы, не являющиеся буквами, приводим тексты SMS к нижнему регистру, разбиваем строки на слова.

In [None]:
sms_data_clean = sms_data.copy()

In [None]:
sms_data_clean['SMS'] = sms_data_clean['SMS'].str.replace(r'\W+', ' ', regex=True)

sms_data_clean['SMS'] = sms_data_clean['SMS'].str.replace(r'\s+', ' ', regex=True).str.strip()
sms_data_clean['SMS'] = sms_data_clean['SMS'].str.lower()
sms_data_clean['SMS'] = sms_data_clean['SMS'].str.split()

sms_data_clean['SMS'].head()

Unnamed: 0,SMS
0,"[go, until, jurong, point, crazy, available, o..."
1,"[ok, lar, joking, wif, u, oni]"
2,"[free, entry, in, 2, a, wkly, comp, to, win, f..."
3,"[u, dun, say, so, early, hor, u, c, already, t..."
4,"[nah, i, don, t, think, he, goes, to, usf, he,..."


Смотрим на процентное соотношение двух классов писем СПАМ (spam) и НЕ СПАМ (ham)

In [None]:
sms_data_clean['Label'].value_counts() / sms_data_clean.shape[0] * 100

Unnamed: 0_level_0,count
Label,Unnamed: 1_level_1
ham,86.593683
spam,13.406317


### Разделение на обучающую и тестовую выборки, сохранив пропорции классов

In [None]:
train_data = sms_data_clean.sample(frac=0.8, random_state=42)
test_data = sms_data_clean.drop(train_data.index)

train_data = train_data.reset_index(drop=True)
test_data = test_data.reset_index(drop=True)

Проверяем аналогичное соотношение классов в обучающей выборке

In [None]:
train_data['Label'].value_counts() / train_data.shape[0] * 100

Unnamed: 0_level_0,count
Label,Unnamed: 1_level_1
ham,86.698071
spam,13.301929


In [None]:
train_data.shape

(4458, 2)

Аналогично для тестовой выборки

In [None]:
test_data['Label'].value_counts() / test_data.shape[0] * 100

Unnamed: 0_level_0,count
Label,Unnamed: 1_level_1
ham,86.175943
spam,13.824057


In [None]:
test_data.shape

(1114, 2)

Мы видим, что и в обучающей, и в тестовой выборке содержится примерно 86-87% спама – как и в нашем оригинальном датасете.

### Список слов

Создаём список всех слов, встречающихся в обучающей выборке.

In [None]:
vocabulary = list(set(train_data['SMS'].sum()))

In [None]:
vocabulary[11:20]

['clearing',
 'gudnyt',
 'newspapers',
 'whore',
 'safe',
 'cause',
 '50perwksub',
 'asthma',
 'medical']

In [None]:
len(vocabulary)

7816

### Рассчитаем частоты слов

Для каждого SMS-сообщения посчитаем, сколько раз в нём встречается каждое слово.

In [None]:
word_counts_per_sms = pd.DataFrame([
    [row[1].count(word) for word in vocabulary]
    for _, row in train_data.iterrows()], columns=vocabulary)

word_counts_per_sms.head()

  [row[1].count(word) for word in vocabulary]


Unnamed: 0,utter,canname,fantasy,burgundy,langport,redeemable,wer,entropication,side,3qxj9,...,iriver,nigeria,finishes,halloween,networks,resuming,aslamalaikkum,lower,hopes,83021
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Добавим частоты каждого слова в обучающий датасет.

In [None]:
train_data = pd.concat([train_data, word_counts_per_sms], axis=1)

In [None]:
train_data.head()

Unnamed: 0,Label,SMS,utter,canname,fantasy,burgundy,langport,redeemable,wer,entropication,...,iriver,nigeria,finishes,halloween,networks,resuming,aslamalaikkum,lower,hopes,83021
0,ham,"[squeeeeeze, this, is, christmas, hug, if, u, ...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"[and, also, i, ve, sorta, blown, him, off, a, ...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"[mmm, thats, better, now, i, got, a, roast, do...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,"[mm, have, some, kanji, dont, eat, anything, h...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,"[so, there, s, a, ring, that, comes, with, the...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Видно, что частотная таблица сильно разряжена. В качестве признаков у нас выступают слова, которые встречаются в SMS и по сторкам  размещены объекты (сообщения). Очевидно, что в SMS содержится 5-10 слов, а всего слов как мы видели ранее, около 7 тыс.

### Значения для формулы Байеса

Посчитаем необходимые значения для формулы Байеса. Нормировочный коэффициент возьмем равным 1



In [None]:
alpha = 1

In [None]:
Nvoc = len(vocabulary)
Pspam = train_data['Label'].value_counts()['spam'] / train_data.shape[0]      #отношение всех писем со спамом к общему числу сообщений
Pham = train_data['Label'].value_counts()['ham'] / train_data.shape[0]        #аналогично для не спама
Nspam = train_data.loc[train_data['Label'] == 'spam', 'SMS'].apply(len).sum() #число уникальных слов в спаме
Nham = train_data.loc[train_data['Label'] == 'ham', 'SMS'].apply(len).sum()   #число уникальных слов в НЕ спаме

Рассчитываем вероятности того, что если слово встречается - это спам или не спам

In [None]:
def p_w_spam(word):
    if word in train_data.columns:
        return (train_data.loc[train_data['Label'] == 'spam', word].sum() + alpha) / (Nspam + alpha*Nvoc)
    else:
        return 1

def p_w_ham(word):
    if word in train_data.columns:
        return (train_data.loc[train_data['Label'] == 'ham', word].sum() + alpha) / (Nham + alpha*Nvoc)
    else:
        return 1

### Готовим алгоритм классификации

Определяем вероятности спам/не спам. Проверяем, если вероятность того, что это не спам > это спам => не спам и наоборот. Если вероятности равны, то выдаем в лог информацию о некорректной классификации

In [None]:
def classify(message):
    p_spam_given_message = Pspam
    p_ham_given_message = Pham
    for word in message:
        p_spam_given_message *= p_w_spam(word)
        p_ham_given_message *= p_w_ham(word)
    if p_ham_given_message > p_spam_given_message:
        return 'ham'
    elif p_ham_given_message < p_spam_given_message:
        return 'spam'
    else:
        return 'классификация некорректна'

### Используем тестовые данные

In [None]:
test_data['predicted'] = test_data['SMS'].map(classify)

In [None]:
test_data.head()

Unnamed: 0,Label,SMS,predicted
0,ham,"[u, dun, say, so, early, hor, u, c, already, t...",ham
1,ham,"[nah, i, don, t, think, he, goes, to, usf, he,...",ham
2,spam,"[freemsg, hey, there, darling, it, s, been, 3,...",ham
3,spam,"[had, your, mobile, 11, months, or, more, u, r...",spam
4,ham,"[oh, k, i, m, watching, here]",ham


Оценим долю сообщений, которые определены правильно

In [None]:
correct = (test_data['predicted'] == test_data['Label']).sum() / test_data.shape[0]
print(f"Правильных предсказаний {correct * 100:3f} %")

Правильных предсказаний 98.025135 %


In [None]:
test_data.loc[test_data['predicted'] != test_data['Label']].head()

Unnamed: 0,Label,SMS,predicted
2,spam,"[freemsg, hey, there, darling, it, s, been, 3,...",ham
96,ham,"[waiting, for, your, call]",spam
182,ham,"[26th, of, july]",spam
269,spam,"[sms, ac, jsco, energy, is, high, but, u, may,...",ham
344,ham,"[the, last, thing, i, ever, wanted, to, do, wa...",классификация некорректна


# Наивный байесовский классификатор в sklearn
Ура, мы реализовали наивный байесовский классификатор с нуля!
А теперь посмотрим, как то же самое можно сделать с помощью библиотеки scikit-learn.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB

Прочитаем заново csv-файл и предобработаем данные. Разбивать сообщения на слова в этот раз не нужно, мы сделаем это далее с помощью встроенных инструментов

Преобразуем строки в векторный вид – то есть, снова создадим таблицу с частотами слов. Но в этот раз воспользуемся встроенным в sklearn классов CountVectorizer().

In [None]:
file_path = 'https://drive.google.com/uc?id=1RhiOx5S2ze30tuDRPgCzGZYvCHi27vQH'
df = pd.read_csv(
    file_path, header=None, sep="\t", names=["Label", "SMS"]
)

df["SMS"] = df["SMS"].str.replace(r"\W+", " ", regex=True).str.lower()

df['SMS'] = df['SMS'].str.replace(r'\s+', ' ', regex=True).str.strip()
df['SMS'] = df['SMS'].str.lower()
df.head()

Unnamed: 0,Label,SMS
0,ham,go until jurong point crazy available only in ...
1,ham,ok lar joking wif u oni
2,spam,free entry in 2 a wkly comp to win fa cup fina...
3,ham,u dun say so early hor u c already then say
4,ham,nah i don t think he goes to usf he lives arou...


In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["SMS"])
y = df["Label"]

print(X.shape, y.shape)

(5572, 8713) (5572,)


С помощью функции `train_test_split` из scikit-learn разобьём выборку на обучающую и тестовую в пропорции 80/20. Не забудем сделать стратификацию!

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

In [None]:
clf = MultinomialNB()
clf.fit(X_train, y_train)

y_test_pred = clf.predict(X_test)

print(f"Accuracy: {round(accuracy_score(y_test, y_test_pred)*100, 2)} %")

Accuracy: 98.3 %
