In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
# Loading the data 

def load_data():
    df = pd.read_csv('spam.csv', encoding='latin-1')
    df_for_tests = df.head()    
    
    idx = np.arange(df.shape[0])
    np.random.shuffle(idx)

    train_set_size = int(df.shape[0] * 0.8)

    train_set = df.loc[idx[:train_set_size]]
    test_set = df.loc[idx[train_set_size:]]
    
    return train_set, test_set, df_for_tests

In [3]:
train_set, test_set, df_for_tests = load_data()

In [4]:
# Data analysis

train_set.tail()

Unnamed: 0,v1,v2
1374,spam,"500 New Mobiles from 2004, MUST GO! Txt: NOKIA..."
2417,ham,Oh... Lk tt den we take e one tt ends at cine ...
650,ham,Thats cool! Sometimes slow and gentle. Sonetim...
3326,ham,what number do u live at? Is it 11?
4100,spam,GSOH? Good with SPAM the ladies?U could b a ma...


In [5]:
# Clean the data

def clean_data(message):
    
    """ 
    Returns string which consists of message words
    
    Argument:
    message -- message from dataset; 
        type(message) -> <class 'str'>
    
    Returns:
    result -- cleaned message, which contains only letters a-z, and numbers 0-9, with only one space between words;
        type(clean_data(message)) -> <class 'str'>
    
    """    
    
    # заменяем в строке все одиночные символы (не представленные в паттерне) на пустую строку
    # т.е. удаляем всё кроме латинских букв, цифр и пробелов    
    
    message_temp1 = re.sub(r'[^a-zA-Z0-9\s]', '', message)
    
    # заменяем один или несколько пробелов подряд на один пробел
    message_temp2 = re.sub(r'(?:\s+)', ' ', message_temp1)
    
    message_temp3 = message_temp2.lower()
    
    return message_temp3.strip()

In [6]:
sentence = 'Does, not  \\operate 66.7 after & lt;# & gt; or what'
print('cleaned: ',clean_data(sentence))

cleaned:  does not operate 667 after lt gt or what


In [7]:
# преобразование колонки датафрейма (серии) в список
list(train_set.v1)

['ham',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'spam',
 'ham',
 'ham',
 'spam',
 'spam',
 'ham',
 'spam',
 'ham',
 'spam',
 'ham',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'spam',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'spam',
 'spam',
 'ham',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'spam',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 'ham',
 '

In [8]:
# re.split возвращает список подстрок (слов)

re.split(r'\s', 'does not operate 667 after lt gt or what')

['does', 'not', 'operate', '667', 'after', 'lt', 'gt', 'or', 'what']

In [9]:
# Preparation data for model

def prep_for_model(train_set, test_set):
    
    """ 
    Returns arrays of train/test features(words) and train/test targets(labels)
    
    Arguments:
    train_set -- train dataset, which consists of train messages and labels; 
        type(train_set) -> pandas.core.frame.DataFrame
    test_set -- test dataset, which consists of test messages and labels; 
        type(train_set) -> pandas.core.frame.DataFrame
    
    Returns:
    train_set_x -- array which contains lists of words of each cleaned train message; 
        (type(train_set_x) ->numpy.ndarray[list[str]], train_set_x.shape = (num_messages,))
    train_set_y -- array of train labels (names of classes), 
        (type(train_set_y) -> numpy.ndarray, train_set_y.shape = (num_messages,))
    test_set_x -- array which contains lists of words of each cleaned test message;
        (type(test_set_x) numpy.ndarray[list[str]], test_set_x.shape = (num_messages,)
    test_set_y -- array of test labels (names of classes), 
        (type(test_set_y) -> numpy.ndarray, test_set_y.shape = (num_messages,))
        """
    
   
    # преобразуем колонку датафрейма в массив Numpy
    train_set_y = np.array(list(train_set.v1))
    print(train_set_y.shape)
    test_set_y = np.array(list(test_set.v1))
    print(test_set_y.shape)
    
    # взять каждую строку из списка, очистить её и разбить на подстроки (разделитель - пробел),
    # т.е. создать список подстрок (слов), полученные списки слов добавить в список train_x_list
    train_x_list = []
    for str in list(train_set.v2):
        train_x_list.append(re.split(r'\s', clean_data(str)))    
        
    # взять каждую строку из списка, очистить её и разбить на подстроки (разделитель - пробел),
    # т.е. создать список подстрок (слов), полученные списки слов добавить в список test_x_list
    test_x_list = []    
    for str in list(test_set.v2):
        test_x_list.append(re.split(r'\s', clean_data(str)))
        
    # на базе списка списков создать массивы Numpy
    # поскольку вложенные списки имеют разную длину, то увеличения размерности массива не происходит,
    # отдельные вложенные списки трактуются как отдельные объекты и поэтому
    # получаем одномерный массив Numpy
    train_set_x = np.array(train_x_list)
    print(train_set_x.shape)
    test_set_x = np.array(test_x_list) 
    print(test_set_x.shape)
        
    return train_set_x, train_set_y, test_set_x, test_set_y

train_set_x, train_set_y, test_set_x, test_set_y = prep_for_model(train_set, test_set)
train_set_x

(4457,)
(1115,)
(4457,)
(1115,)


array([list(['it', 'will', 'stop', 'on', 'itself', 'i', 'however', 'suggest', 'she', 'stays', 'with', 'someone', 'that', 'will', 'be', 'able', 'to', 'give', 'ors', 'for', 'every', 'stool']),
       list(['u', 'have', 'a', 'secret', 'admirer', 'who', 'is', 'looking', '2', 'make', 'contact', 'with', 'ufind', 'out', 'who', 'they', 'rreveal', 'who', 'thinks', 'ur', 'so', 'specialcall', 'on', '09058094599']),
       list(['im', 'home']), ...,
       list(['thats', 'cool', 'sometimes', 'slow', 'and', 'gentle', 'sonetimes', 'rough', 'and', 'hard']),
       list(['what', 'number', 'do', 'u', 'live', 'at', 'is', 'it', '11']),
       list(['gsoh', 'good', 'with', 'spam', 'the', 'ladiesu', 'could', 'b', 'a', 'male', 'gigolo', '2', 'join', 'the', 'uks', 'fastest', 'growing', 'mens', 'club', 'reply', 'oncall', 'mjzgroup', '087143423992stop', 'reply', 'stop', 'msg150rcvd'])],
      dtype=object)

In [10]:
test_set_x

array([list(['convey', 'my', 'regards', 'to', 'him']),
       list(['jay', 'wants', 'to', 'work', 'out', 'first', 'hows', '4', 'sound']),
       list(['wait', '4', 'me', 'in', 'sch', 'i', 'finish', 'ard', '5']),
       ...,
       list(['hi', 'do', 'u', 'want', 'to', 'join', 'me', 'with', 'sts', 'later', 'meeting', 'them', 'at', 'five', 'call', 'u', 'after', 'class']),
       list(['hey', 'sorry', 'i', 'didntgive', 'ya', 'a', 'a', 'bellearlier', 'hunny']),
       list(['go', 'fool', 'dont', 'cheat', 'others', 'ok'])],
      dtype=object)

In [11]:
a1, a2, b1, b2 = prep_for_model(df_for_tests.head(3), df_for_tests.tail(2))
print('{}:{}'.format(a2[0], a1[0]))
print('{}:{}'.format(b2[0], b1[0]))

(3,)
(2,)
(3,)
(2,)
ham:['go', 'until', 'jurong', 'point', 'crazy', 'available', 'only', 'in', 'bugis', 'n', 'great', 'world', 'la', 'e', 'buffet', 'cine', 'there', 'got', 'amore', 'wat']
ham:['u', 'dun', 'say', 'so', 'early', 'hor', 'u', 'c', 'already', 'then', 'say']


In [12]:
inds_ham = np.where(a2 == 'ham')
inds_ham

(array([0, 1]),)

In [13]:
inds_ham = np.where(a2 == 'ham')[0]
inds_ham

array([0, 1])

In [14]:
inds_spam = np.where(a2 == 'spam')[0]
inds_spam

array([2])

In [15]:
# Check words in categories

def categories_words(x_train, y_train):
    
    """
    Returns arrays of features(words) in each category and in both categories
    
    Arguments:
    x_train -- array which contains lists of words of each cleaned train message; 
        (type(x_train) -> numpy.ndarray[list[str]], x_train.shape = (num_messages,))
    
    Returns:
    all_words_list -- array of all words in both categories;
        (type(all_words_list) -> numpy.ndarray[str], all_words_list.shape = (num_words,))
    ham_words_list -- array of words in 'ham' class;
        (type(ham_words_list) -> numpy.ndarray[str], ham_words_list.shape = (num_words,))
    spam_words_list -- array of words in 'spam' class;
        (type(spam_words_list) -> numpy.ndarray[str], spam_words_list.shape = (num_words,))        
    """
    all_words_list = []
    ham_words_list = []
    spam_words_list = []    
    
    # берём каждый список из массива x_train, слова из каждого списка добавляем в список all_words_list
    for list_str in x_train:
        all_words_list.extend(list_str)
    
    # получаем массив индексов строк датасета, соответствующих классу ham
    inds_ham = np.where(y_train == 'ham')[0]
    
    # берём из массива x_train каждый список, соответствующий классу ham,
    # слова из каждого такого списка добавляем в список ham_words_list
    for ind in inds_ham:
        ham_words_list.extend(x_train[ind])
        
    # получаем массив индексов строк датасета, соответствующих классу spam
    inds_spam = np.where(y_train == 'spam')[0]
    
    # берём из массива x_train каждый список, соответствующий классу spam,
    # слова из каждого такого списка добавляем в список spam_words_list
    for ind in inds_spam:
        spam_words_list.extend(x_train[ind])    
    
    return np.array(all_words_list), np.array(ham_words_list), np.array(spam_words_list)

all_words_list_a1, ham_words_list_a1, spam_words_list_a1 = categories_words(a1, a2)

In [16]:
print('first five "ham" words of a1: ', ham_words_list_a1[:5])

first five "ham" words of a1:  ['go' 'until' 'jurong' 'point' 'crazy']


In [17]:
list1 = [1, 2, 3, 1, 4, 5, 1, 6, 7]
list1.count(1)

3

In [18]:
list1.count(100)

0

In [23]:
class Naive_Bayes(object):
    """
    Parameters:
    -----------
    alpha: int
        The smoothing coeficient.
    """
    def __init__(self, alpha):
        self.alpha = alpha
        
        self.train_set_x = None
        self.train_set_y = None
        
        self.all_words_list = []
        self.ham_words_list = []
        self.spam_words_list = []
    
    def fit(self, train_set_x, train_set_y):
        
        # Generate all_words_list, ham_words_list, spam_words_list using function 'categories_words'; 
        # Calculate probability of each word in both categories        
        self.train_set_x = train_set_x
        self.train_set_y = train_set_y
        
        self.all_words_list, self.ham_words_list, self.spam_words_list = categories_words(train_set_x, train_set_y)
        
        count_ham = 0
        count_spam = 0
        # определяем общее количество экземпляров для класса ham и для класса spam
        for class_word in train_set_y:
            if class_word == 'ham':
                count_ham += 1
            elif class_word == 'spam':
                count_spam += 1                
                
        # сохраняем количество экземпляров каждого из классов в обучающем датасете
        self.number_ham = count_ham
        print(f'Number of examples of ham = {self.number_ham}')
        self.number_spam = count_spam
        print(f'Number of examples of spam = {self.number_spam}')
        
        # вычисляем и сохраняем априорные вероятности классов        
        self.P_ham = np.log(count_ham / len(train_set_y))
        print(f'P_ham = {np.exp(self.P_ham)}')
        self.P_spam = np.log(count_spam / len(train_set_y))
        print(f'P_spam = {np.exp(self.P_spam)}')
        
        # преобразуем массивы обратно в списки, чтобы иметь возможность вызвать метод count()
        list_ham_words_list = list(self.ham_words_list)
        list_spam_words_list = list(self.spam_words_list)
        # создаём словари, которые будут хранить частотность слов
        # в качестве ключей будем использовать сами слова
        # в словаре dict_count_word_ham будут ключи, соответствующие всем возможным словам
        # в экземплярах ham класса
        # в словаре dict_count_word_spam будут ключи, соответствующие всем возможным словам
        # в экземплярах spam класса
        self.dict_count_word_ham = {}
        self.dict_count_word_spam = {}
        
        for word in self.ham_words_list:
            if word not in self.dict_count_word_ham:
                count_in_ham = list_ham_words_list.count(word)
                self.dict_count_word_ham[word] = count_in_ham
        for word in self.spam_words_list:                
            if word not in self.dict_count_word_spam:
                count_in_spam = list_spam_words_list.count(word)
                self.dict_count_word_spam[word] = count_in_spam    
        
        
    def predict(self, test_set_x):
        
        # Return list of predicted labels for test set; type(prediction) -> list, len(prediction) = len(test_set_y)
        prediction = []        
                
        # test_set_x - это массив списков слов, один список слов для каждого тестового экземпляра
        # задача - отнести каждый список слов к одному из классов
        for list_words in test_set_x:            
            P_likelyhood_ham = 0
            P_likelyhood_spam = 0
            for word in list_words:                              
                # проверяем наличие частотности каждого слова из списка слов тестового экземпляра
                # в словаре dict_count_word_ham. Если в словаре нет такого слова - 
                # устанавливаем для него нулевую частотность, если есть - берём частотность из словаря
                if word not in self.dict_count_word_ham:
                    count_in_ham = 0
                else:
                    count_in_ham = self.dict_count_word_ham[word]
                # проверяем наличие частотности каждого слова из списка слов тестового экземпляра
                # в словаре dict_count_word_spam. Если в словаре нет такого слова - 
                # устанавливаем для него нулевую частотность, если есть - берём частотность из словаря
                if word not in self.dict_count_word_spam:
                    count_in_spam = 0
                else:
                    count_in_spam = self.dict_count_word_spam[word]
                
                # count_in_ham - сколько раз данное слово word встречается в экземплярах обучающего
                # датасета, относящихся к классу ham
                # count_in_spam - сколько раз данное слово word встречается в экземплярах обучающего
                # датасета, относящихся к классу spam
                
                # количество слов (признаков) в данном тестовом экземпляре
                number_of_features = len(list_words)                
                
                count_all = count_in_ham + count_in_spam
                N_ham = count_all
                N_spam = count_all
                
                theta_ham = (count_in_ham + self.alpha) / (N_ham + self.alpha * number_of_features)
                theta_spam = (count_in_spam + self.alpha) / (N_spam + self.alpha * number_of_features)                                      
                
                P_likelyhood_ham += np.log(theta_ham)                
                P_likelyhood_spam += np.log(theta_spam)            
            
            if (self.P_ham + P_likelyhood_ham) > (self.P_spam + P_likelyhood_spam):
                prediction.append('ham')
            else:
                prediction.append('spam')            
        
        return prediction

In [24]:
a = 1
model = Naive_Bayes(alpha=a)
model.fit(train_set_x, train_set_y)

Number of examples of ham = 3851
Number of examples of spam = 606
P_ham = 0.8640341036571685
P_spam = 0.1359658963428315


In [25]:
y_predictions = model.predict(test_set_x)

In [26]:
actual = list(test_set_y)
accuracy = (y_predictions == test_set_y).mean()
print("Accuracy", accuracy)

Accuracy 0.9417040358744395


In [27]:
# Using sklearn for multinomial distribution of data

from sklearn.naive_bayes import MultinomialNB

rng = np.random.RandomState(1)
X = rng.randint(5, size=(6, 10))
y = np.array([1, 2, 3, 4, 5, 6])

clf = MultinomialNB()
clf.fit(X, y)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [28]:
X

array([[3, 4, 0, 1, 3, 0, 0, 1, 4, 4],
       [1, 2, 4, 2, 4, 3, 4, 2, 4, 2],
       [4, 1, 1, 0, 1, 1, 1, 1, 0, 4],
       [1, 0, 0, 3, 2, 1, 0, 3, 1, 1],
       [3, 4, 0, 1, 3, 4, 2, 4, 0, 3],
       [1, 2, 0, 4, 1, 2, 2, 1, 0, 1]])

In [29]:
clf.predict(X[2:3])

array([3])

In [30]:
clf.score(X, y)

1.0

In [31]:
# Using sklearn for normal distribution of data

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
print(type(X))
print(X.shape)
print(type(y))
print(y.shape)
yy = y.reshape(len(y), -1)
print(yy.shape)
df = pd.DataFrame(np.c_[X, yy], columns=['x1', 'x2', 'x3', 'x4', 'y'])
df.tail()

<class 'numpy.ndarray'>
(150, 4)
<class 'numpy.ndarray'>
(150,)
(150, 1)


Unnamed: 0,x1,x2,x3,x4,y
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
149,5.9,3.0,5.1,1.8,2.0


In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)
print("Number of mislabeled points out of a total %d points : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

Number of mislabeled points out of a total 75 points : 4


In [33]:
gnb.score(X, y)

0.96