# Реализация наивного Байесовского классификатора

In [4]:
import pandas as pd

filename = './data/smsspamcollection/SMSSpamCollection'

df = pd.read_csv(
    filename,
    sep='\t',
    encoding='utf8',
    header=None,
    names=['class', 'sms_text']
)

df.head(3)

Unnamed: 0,class,sms_text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...


In [5]:
num_objects, num_features = df.shape
print(num_objects, num_features)

5572 2


In [6]:
df['class']

0        ham
1        ham
2       spam
3        ham
4        ham
        ... 
5567    spam
5568     ham
5569     ham
5570     ham
5571     ham
Name: class, Length: 5572, dtype: object

In [8]:
SPAM_CLASS = 'spam'
NOT_SPAM_CLASS = 'ham'

df['class'] == SPAM_CLASS

0       False
1       False
2        True
3       False
4       False
        ...  
5567     True
5568    False
5569    False
5570    False
5571    False
Name: class, Length: 5572, dtype: bool

In [9]:
spam_sms_num = (df['class'] == SPAM_CLASS).sum()
notspam_sms_num = (df['class'] == NOT_SPAM_CLASS).sum()

print(spam_sms_num, notspam_sms_num)

747 4825


In [10]:
# априорная вероятность класса спам
p_spam = spam_sms_num / num_objects

# априорная вероятность класса не спам
p_notspam = notspam_sms_num / num_objects

print(f'{p_spam:.4f}, {p_notspam:.4f}')

0.1341, 0.8659


In [11]:
test_word = 'Free'.lower()

test_word

'free'

In [13]:
sms_example = df['sms_text'].values[0]

sms_example

'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'

In [14]:
# априорная вероятность класса спам
p_spam = spam_sms_num / num_objects

# априорная вероятность класса не спам
p_notspam = notspam_sms_num / num_objects

print(f'{p_spam:.4f}, {p_notspam:.4f}')

0.1341, 0.8659


In [21]:
# удаляем знаки препинания
import string

print(string.punctuation)

sms_example = ''.join([
    char
    for char in sms_example
    if char not in string.punctuation
])

sms_example

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


'Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat'

In [22]:
# приводим слова к нижнему регистру

#.lower()
sms_example = ' '.join([
    word.lower()
    for word in sms_example.split(sep=' ')
])

sms_example

'go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat'

In [24]:
def text_preprocess(sms_text: str):
    """Преобразование текста для анализа"""
    text_no_punctuation = ''.join([
        char
        for char in sms_text
        if char not in string.punctuation
    ])
    text_lowercase = ' '.join([
        word.lower()
        for word in text_no_punctuation.split(sep=' ')
    ])
    
    return text_lowercase


sms_example = df['sms_text'].values[0]

print(text_preprocess(sms_example))

go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat


In [25]:
df = df.assign(
    processed_text=df['sms_text'].apply(text_preprocess)
)

df.head()

Unnamed: 0,class,sms_text,processed_text
0,ham,"Go until jurong point, crazy.. Available only ...",go until jurong point crazy available only in ...
1,ham,Ok lar... Joking wif u oni...,ok lar joking wif u oni
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,free entry in 2 a wkly comp to win fa cup fina...
3,ham,U dun say so early hor... U c already then say...,u dun say so early hor u c already then say
4,ham,"Nah I don't think he goes to usf, he lives aro...",nah i dont think he goes to usf he lives aroun...


In [35]:
# вероятность встретить слово в спам смс

spam_test_word_entries = df[
    df['class'] == SPAM_CLASS
]['processed_text'].apply(
    lambda row: test_word in row
).sum()

# вероятность встретить слово в не-спам смс
notspam_test_word_entries = df[
    df['class'] == NOT_SPAM_CLASS
]['processed_text'].apply(
    lambda row: test_word in row
).sum()

print(f'P(word="{test_word}"|class=spam)={spam_test_word_entries/spam_sms_num:.4f}')
print(f'P(word="{test_word}"|class=not_spam)={notspam_test_word_entries/notspam_sms_num:.4f}')

P(word="free"|class=spam)=0.2664
P(word="free"|class=not_spam)=0.0137


### Вывод

слово "free" встречается в спам смс с вероятностью $26.6\%$, а в не-спаме с вероятностью $1.3\%$ - т.е. это слово является хорошим "маркером" спама

# Реализовать классификатор

In [36]:
"""имплементация наивного байесовского классификатора"""
class NaiveBayes:
    def __init__(self):
        pass

    def fit(self, data: list, target: list):
        """

        :param data: массив документов, каждый документ - объект типа str
        :param target: массив меток объектов
        :return:
        """
        pass

    def predict(self, data: list):
        """

        :param data: массив документов, для каждого из которых нужно предсказать метку
        :return:
        """
        pass