# Lista 2

## Uczenie maszynowe i sztuczna inteligencja

* [Naiwny klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier) oraz [Naiwny wielomianowy klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes)
* [Tokenizacja](https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization)
* [Multizbiór słów](https://en.wikipedia.org/wiki/Bag-of-words_model)
* [N-gram](https://en.wikipedia.org/wiki/N-gram), [Bigram](https://en.wikipedia.org/wiki/Bigram), [Trigram](https://en.wikipedia.org/wiki/Trigram)

## Wprowadzenie 

Spamowanie jest jednym z najprostszych ataków w przesyłaniu wiadomości e-mail. Użytkownicy często otrzymują irytujące wiadomości spamowe oraz złośliwe wiadomości phishingowe, subskrybując różne strony internetowe, produkty, usługi, katalogi, biuletyny informacyjne oraz inne rodzaje komunikacji elektronicznej. W niektórych przypadkach, spamowe wiadomości e-mail są generowane przez wirusy lub konie trojańskie rozsyłane masowo.

Istnieje wiele rozwiązań do filtrowania spamu, takich jak techniki filtrowania na czarnej i białej liście, podejścia oparte na drzewach decyzyjnych, podejścia oparte na adresach e-mail oraz metody oparte na uczeniu maszynowym. Większość z nich opiera się głównie na analizie tekstu zawartości e-maila. W rezultacie rośnie zapotrzebowanie na skuteczne filtry antyspamowe, które automatycznie identyfikują i usuwają wiadomości spamowe lub ostrzegają użytkowników przed możliwymi wiadomościami spamowymi. Jednak spamerzy zawsze badają luki istniejących technik filtrowania spamu i wprowadzają nowy projekt do rozprzestrzeniania spamu w szerokim zakresie np. atak tokenizacji czasami wprowadza w błąd filtry antyspamowe, dodając dodatkowe spacje. Dlatego też treści e-maili muszą być strukturalizowane. Ponadto, pomimo posiadania najwyższej dokładności w wykrywaniu spamu za pomocą uczenia maszynowego, fałszywe pozytywy (False Positive, FP) stanowią problem z powodu jednorazowego wykrywania zagrożeń e-mailowych. Aby zaradzić problemom z fałszywymi pozytywami oraz zmianom w różnych projektach ataków, z tekstu usuwane są słowa kluczowe oraz inne niepożądane informacje przed dalszą analizą. Po wstępnym przetwarzaniu, te teksty przechodzą przez liczne metody ekstrakcji cech, takie jak word2vec, word n-gram, character n-gram oraz kombinacje n-gramów o zmiennych długościach. Różne techniki uczenia maszynowego, takie jak support vector machine (SVM), decision tree (DT), logistic regression (LR) oraz multinomial naıve bayes (MNB), są stosowany aby dokonać klasyfikacji e-maili.

Na tej liste skoncentrujemy się tylko na metodzie naiwnego klasyfikatora bayesowskiego przedstawionego na wykładzie wraz z wersją [wielomianową](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes).

#### **Uwaga**

**Wszystkie implementacje klasyfikatorów należy napisać samemu. Na tej liście nie korzystamy z implementacji klasyfikatorów istniejących w popularnych bibliotekach.**


# Klasyfikatory Naiwnego Bayesa (NB)

W naszych eksperymentach po wstępnym przetworzeniu każda wiadomość jest ostatecznie reprezentowana jako wektor $\mathbf{x}=(x_1, \ldots , x_m)$, gdzie $x_1, \ldots , x_m$ są wartościami atrybutów $X_1, \ldots , X_m$ , a każdy atrybut dostarcza informacje o określonym tokenie wiadomości. W najprostszym przypadku wszystkie atrybuty są wartościami boolowskimi: $X_i = 1$, jeśli wiadomość zawiera dany token; w przeciwnym razie, $X_i = 0$. Alternatywnie, ich wartości mogą być częstotliwościami tokenów (TF), pokazującymi, ile razy odpowiadający token występuje w wiadomości. Atrybuty z wartościami TF przenoszą więcej informacji niż atrybuty boolowskie.

Z twierdzenia Bayesa wynika, że prawdopodobieństwo, że wiadomość o wektorze $\mathbf{x} = (x_1, \ldots, x_m)$ należy do kategorii $c$, wynosi: 

$$
p(c | \mathbf{x}) = \frac{p(c) \cdot p(\mathbf{x} | c)}{p(\mathbf{x})}
$$

Ponieważ mianownik nie zależy od kategorii, klasyfikator NB klasyfikuje każdą wiadomość do kategorii, która maksymalizuje $p(c) \cdot p(\mathbf{x} | c)$. W przypadku filtrowania spamu oznacza to klasyfikowanie wiadomości jako spamu, gdy: 

$$
\frac{p(c_s) \cdot p(\mathbf{x} | c_s)}{p(c_s) \cdot p(\mathbf{x} | c_s) + p(c_h) \cdot p(\mathbf{x} | c_h)} > T
$$

gdzie $T = 0.5$, a $c_h$ i $c_s$ oznaczają kategorie ham i spam. Zmieniając $T$, można zdecydować się na więcej prawdziwych negatywów (poprawnie sklasyfikowane wiadomości ham) kosztem mniej prawdziwych pozytywów (poprawnie sklasyfikowane wiadomości spam), lub odwrotnie. Prawdopodobieństwa a priori $p(c)$ są zwykle szacowane przez podzielenie liczby treningowych wiadomości kategorii $c$ przez łączną liczbę treningowych wiadomości. Prawdopodobieństwa $p(\mathbf{x} | c)$ są szacowane w różny sposób w każdej wersji NB - patrz wykład.

# Naiwny klasyfikator bayesowski wielomianowy (MNB)

Klasyfikator [wielomianowy](https://en.wikipedia.org/wiki/Multinomial_distribution) bayesowski z atrybutami TF traktuje każdą wiadomość $d$ jako [multizbiór]((https://en.wikipedia.org/wiki/Bag-of-words_model)) tokenów, zawierający każdy token $t_i$ tyle razy, ile występuje w $d$. Dlatego $d$ można przedstawić jako $\mathbf{x} = (x_1, ..., x_m)$, gdzie każde $x_i$ to teraz liczba wystąpień $t_i$ w $d$. Ponadto, każda wiadomość $d$ z kategorii $c$ jest postrzegana jako wynik niezależnego wyboru $|d|$ tokenów z $F=\{t_1,\ldots,t_m\}$ z powtórzeniami, z prawdopodobieństwem $p(t_i | c)$ dla każdego $t_i$. Wówczas $p(\mathbf{x} | c)$ jest rozkładem wielomianowym:

$$
p(\mathbf{x} \mid c) = p(|d|) \cdot |d|! \cdot \prod_{i=1}^{d} \frac{p(t_i \mid c)^{x_i}}{x_i !}
$$

gdzie zakładamy, że $|d|$ nie zależy od kategorii $c$. Jest to dodatkowe uproszczające założenie, które jest bardziej dyskusyjne w filtrowaniu spamu. Na przykład, prawdopodobieństwo otrzymania bardzo długiej wiadomości spamowej wydaje się mniejsze niż prawdopodobieństwo otrzymania równie długiej wiadomości ham. Kryterium klasyfikacji wiadomości jako spamu staje się:

$$
\frac{p(c_s) \cdot \prod_{i=1}^{m} p(t_i \mid c_s)^{x_i}}{p(c_s)\cdot\prod_{i=1}^{m} p(t_i \mid c_s)^{x_i} + p(c_h)\cdot\prod_{i=1}^{m} p(t_i \mid c_h)^{x_i}}  > T
$$

gdzie każde $p(t_i | c)$ jest szacowane jako:

$$
p(t \mid c) = \frac{\alpha + N_{t,c}}{\alpha \cdot m + N_c}
$$
gdzie $N_{t,c}$ to liczba wystąpień tokena $t$ w treningowych wiadomościach kategorii $c$, podczas gdy $N_c = \sum_{i=1}^{m} N_{t_i,c}$ to łączna liczba wiadomości treningowych kategorii $c$. W praktyce dodaje się jeszcze parametr $\alpha$ który reprezentuje wygładzenie (smoothing) i rozwiązuje problem zerowego prawdopodobieństwa, patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html) (np. $\alpha=1$).


### Przykładowe dane wielomianowe

Zatem każda wiadomość $d$  składa się z różnych tokenów $t_i$, a każde z tych $t_i$ należy do słownika $\mathcal{V}$. Jeśli $\mathcal{V}$ zawiera np. $8$ tokenów, $t_1,t_2,...,t_8$, a wiadomość to: $t_1 t_2 t_2 t_6 t_3 t_2 t_8$, reprezentacja tej wiadomości będzie następująca:

| |$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|
|---|---|---|---|---|---|---|---|---|
|$\mathbf{x}$| 1|3 |1 | 0| 0|1 | 0|1 |

Po dodaniu kilku innych losowych wiadomości, zbiór danych wygląda tak:

|$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|$c$|
|---|---|---|---|---|---|---|---|---|
| 1|3 |1 | 0| 0|1 | 0|1 | spam|
| 1|0 |0 | 0| 1|1 | 1|3 | ham|
| 0|0 |0 | 0| 0|2 | 1|2 | spam|

Przyjmując klasy ($1$-spam,$0$-ham) mamy $c = [1,0,1]$. Teraz, porównując z równaniem powyżej,

- $N_{t_i,c}$ to liczba wystąpień cechy $t_i$ w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_{t_1,c}=1, N_{t_6,c}=3$
- $N_c$ to całkowita liczba wystąpień wszystkich cech w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_c=12$
- $m=8$ to całkowita liczba cech
- $\alpha=1$ jest znany jako parametr wygładzania. Jest on potrzebny do problemu zerowego prawdopodobieństwa (patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html))

# Niedomiar zmiennoprzecinkowy (floating point underflow)

Aby uniknąć problemu niedomiaru zmiennoprzecinkowego, mnożenie zbioru małych prawdopodobieństw, czyli po prostu iloczyn stanie się zbyt mały, aby go reprezentować i zostanie zastąpiony przez 0. Zamiast obliczać
$$
P(c) \prod_{i=1}^m P(t_i | c)
$$
co może spowodować niedomiar, rozważmy obliczenie logarytmu tego wyrażenia,
$$
\log\left(P(c) \prod_{i=1}^m P(t_i | c)\right)
$$
co równoważnie można zapisać jako
$$
\log(P(c))+ \sum_{i=1}^m \log(P(t_i | c))
$$
Następnie zauważ, że jeśli
$$
\log(P(c_s))+ \sum_{i=1}^m \log(P(t_i | c_s)) > \log(P(c_h))+ \sum_{i=1}^m \log(P(t_i | c_h))
$$
wtedy, ponieważ $\log(x) > \log(y)$ iff $x > y$, to
$$
P(c_s) \prod_{i=1}^m P(t_i | c_s) > P(c_h) \prod_{i=1}^m P(t_i | c_h)
$$


## Zadanie 1 (10pt)

### Klasyfikator oparty na algorytmie NB

#### Cel:
Zbudować prosty klasyfikator spamu oparty na NB, który będzie w stanie wykryć i odfiltrować niechciane wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tokenizację słów i usuń zbędne znaki interpunkcyjne.
3. Zaimplementuj NB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam na podstawie występujących słów.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator NB na danych treningowych.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i przedstaw wnioski.



In [11]:
import math
import os


# tokenization
def words(filename):
    # Get list of lines
    infile = open(filename, 'rb')
    lines = infile.readlines()
    infile.close()

    # For each line, delimit word by space 
    # and add to list of words. Also, convert
    # all words to lowercase for convenience
    return [word.strip().decode('utf-8', 'ignore').lower() for line in lines for word in line.split()]


# makes a distribution of words based on a training set
def lexicon(k):
    # Extract training directories
    spam_training_directory = '/Users/wiktoriapazdzierniak/Documents/Studia /8_SEM/UMSI/umsi/Lista2/spamtraining'

    ham_training_directory = '/Users/wiktoriapazdzierniak/Documents/Studia /8_SEM/UMSI/umsi/Lista2/hamtraining'

    # Create spam distribution
    spam_distribution = {}
    files = os.listdir(spam_training_directory)
    for file in files:
        list_of_words = words(spam_training_directory + '/' + file)
        for word in list_of_words:
            if word in spam_distribution:
                spam_distribution[word] += 1
            else:
                spam_distribution[word] = 1

    # Create ham distribution
    ham_distribution = {}
    files = os.listdir(ham_training_directory)
    for file in files:
        list_of_words = words(ham_training_directory + '/' + file)
        for word in list_of_words:
            if word in ham_distribution:
                ham_distribution[word] += 1
            else:
                ham_distribution[word] = 1

    # Remove all key,value pairs that
    # have a value less than k; warning, we have to use the copy of spam and ham distribution to 
    # delete element at given key

    spamkeys = spam_distribution.copy().keys()
    hamkeys = ham_distribution.copy().keys()

    for key in spamkeys:
        if spam_distribution[key] < k:
            del spam_distribution[key]

    for key in hamkeys:
        if ham_distribution[key] < k:
            del ham_distribution[key]

    return ham_distribution, spam_distribution


def probability(word, category, ham_distribution, spam_distribution, m):
    # Compute P(w = word | category), smoothing the result
    # with Laplacian Smoothing with parameter m

    distribution = ham_distribution if category == 'ham' else spam_distribution

    V = len(distribution)

    keys = distribution.keys()

    numerator = (distribution[word] + m if word in keys else m)  # number of occurrences of the word + m
    denominator = sum([distribution[key] for key in
                       keys]) + m * V  # number of all word occurrences in the distribution + m*dictionary length

    return numerator / float(denominator)


def classify_email(email, ham_distribution, spam_distribution, m):
    email_words = words(email)

    ham_probability = 0
    spam_probability = 0

    for word in email_words:
        ham_probability += math.log(probability(word, 'ham', ham_distribution, spam_distribution, m))
        spam_probability += math.log(probability(word, 'spam', ham_distribution, spam_distribution, m))

    return 'ham' if ham_probability > spam_probability else 'spam'


def test_filter(hamtesting, spamtesting, k, m):
    ham_distribution, spam_distribution = lexicon(k)  # make a dictionaries based on a TRAINING sets

    # files that have benn classified incorrectly
    spam_as_ham = []
    ham_as_spam = []

    ham_hit = 0
    ham_total = 0
    ham_testing_files = os.listdir(hamtesting)
    for file in ham_testing_files:
        if classify_email(hamtesting + '/' + file, ham_distribution, spam_distribution, m) == 'ham':
            ham_hit += 1
        else:
            ham_as_spam.append(file)
        ham_total += 1

    spam_hit = 0
    spam_total = 0
    spam_testing_files = os.listdir(spamtesting)
    for file in spam_testing_files:
        if classify_email(spamtesting + '/' + file, ham_distribution, spam_distribution, m) == 'spam':
            spam_hit += 1
        else:
            spam_as_ham.append(file)
        spam_total += 1

    ham_hit_ratio = ham_hit / float(ham_total)
    spam_hit_ratio = spam_hit / float(spam_total)

    return ham_hit_ratio, spam_hit_ratio, ham_total, spam_total, ham_as_spam, spam_as_ham


# ---------- CODE STARTS HERE ----------

spamtesting = '/Users/wiktoriapazdzierniak/Documents/Studia /8_SEM/UMSI/umsi/Lista2/spamtesting'
hamtesting = '/Users/wiktoriapazdzierniak/Documents/Studia /8_SEM/UMSI/umsi/Lista2/hamtesting'

ham_hit_ratio, spam_hit_ratio, ham_total, spam_total, ham_as_spam, spam_as_ham = test_filter(hamtesting, spamtesting,
                                                                                             k=5, m=1)

print()
print("Correct Ham Percentage:     ", ham_hit_ratio * 100)
print("Correct Spam Percentage:    ", spam_hit_ratio * 100)
print("Correct Overall Percentage: ",
      (ham_hit_ratio * ham_total + spam_hit_ratio * spam_total) / (ham_total + spam_total) * 100)

print("\nHam Incorrectly Labelled as Spam:")
for file in ham_as_spam:
    print("\t" + file)

print("\nSpam Incorrectly Labelled as Ham:")
for file in spam_as_ham:
    print("\t" + file)
print


Correct Ham Percentage:      94.0
Correct Spam Percentage:     81.0
Correct Overall Percentage:  87.5

Ham Incorrectly Labelled as Spam:
	2151.2000-09-05.farmer.ham.txt
	3933.2001-03-22.farmer.ham.txt
	4731.2001-07-09.farmer.ham.txt
	5095.2001-12-02.farmer.ham.txt
	5067.2001-11-13.farmer.ham.txt
	0637.2000-03-20.farmer.ham.txt

Spam Incorrectly Labelled as Ham:
	1489.2004-07-03.GP.spam.txt
	2111.2004-09-10.GP.spam.txt
	1717.2004-07-27.GP.spam.txt
	3110.2004-12-08.GP.spam.txt
	2803.2004-11-12.GP.spam.txt
	2827.2004-11-16.GP.spam.txt
	0130.2004-01-01.GP.spam.txt
	0567.2004-02-24.GP.spam.txt
	2110.2004-09-10.GP.spam.txt
	4787.2005-06-29.GP.spam.txt
	2953.2004-11-26.GP.spam.txt
	0032.2003-12-19.GP.spam.txt
	2287.2004-09-26.GP.spam.txt
	2348.2004-10-02.GP.spam.txt
	0838.2004-04-13.GP.spam.txt
	3614.2005-01-29.GP.spam.txt
	4270.2005-04-16.GP.spam.txt
	1196.2004-05-24.GP.spam.txt
	3963.2005-03-03.GP.spam.txt


<function print(*args, sep=' ', end='\n', file=None, flush=False)>

## Zadanie 2 (15pt)

### Klasyfikator oparty na n-gramach MNB

#### Cel:
Zbudować klasyfikator spamu, wykorzystując n-gramy w połączeniu MNB, aby poprawić skuteczność klasyficji wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tworzenie n-gramów z treści wiadomości e-mail tzn. unigramy, bigramy, trigramy.
3. Zaimplementuj MNB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam, wykorzystując n-gramy jako cechy.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator MNB na danych treningowych, wykorzystując n-gramy jako cechy.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i porównaj je z wynikami klasyfikatora opartego na słowach.
8. Przedstaw wnioski dotyczące skuteczności klasyfikatora opartego na n-gramach oraz wpływu różnych typów n-gramów na skuteczność klasyfikacji.



In [5]:
import pandas as pd
import re
import numpy as np
import matplotlib.pylab as plt
from sklearn.feature_extraction.text import CountVectorizer

# Wczytywanie danych i zapisywanie ich w Data Frame
sms_df = pd.read_csv('umsi/Lista2/sms+spam+collection/SMSSpamCollection', delimiter='\t', names=['label', 'text'])
sms_df.head()

Unnamed: 0,label,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [64]:
# funkcja przeksztalca tekst zawarty w obiekcie df na macierz cech, która reprezentuje liczbę wystąpień n-gramów w każdym dokumencie
def get_n_grams(df, n):
    model = CountVectorizer(ngram_range=(n, n))
    X = model.fit_transform(df['text'])  # Wynikowa macierz X będzie miała kształt (liczba dokumentów,liczba n-gramow)
    return model, X


model, X = get_n_grams(sms_df, 3)
#df_output = pd.DataFrame(data = X, columns = model.get_feature_names_out())
#df_output.T.tail(5)
model.get_feature_names_out()  # zwraca liste n-gramow (kolumny w macierzy cech)



array(['00 in our', '00 sub 16', '00 subs 16', ..., 'zouk with nichols',
       'zyada kisi ko', 'ú1 20 poboxox36504w45wq'], dtype=object)

In [65]:
class MultinomialNaiveBayes:
    # kostruktor przyjmuje 2 parametry: dlugosc n-gramu i parametr wygladzenia ustawiony domyslnie na 1
    def __init__(self, gram_len, alpha=1):
        self.class_probs = {}
        self.cond_probs = {}
        self.n = gram_len
        self.alpha = alpha

    def train(self, df):
        # oblicza prawdopodobienstwo a priori i tworzy slownik z ppb dla odpowiedniej z klas(ham/spam)
        self.class_probs = {
            'ham': sum(df['label'] == 'ham') / len(df),
            'spam': sum(df['label'] == 'spam') / len(df)
        }

        self.model, X = get_n_grams(df, self.n)
        feature_names = self.model.get_feature_names_out()  # uzyskuje liste unikalnych n-gramow
        m = len(feature_names)

        # obliczamy ile razy każdy n-gram wystąpił w klasach ham i spam
        N_c_ham = sum(X[df['label'] == 'ham'].toarray().ravel())
        N_c_spam = sum(X[df['label'] == 'spam'].toarray().ravel())

        for token in feature_names:  #przechodzimy przez liste wszystkich n-gramow
            token_idx = np.where(feature_names == token)[0][0]  # szukamy indeksu danego n-gramu w liscie feature_names
            # dla kazdego n-gramu obliczamy sume liczności tego n-gramu dla klas 'ham' i 'spam'.
            N_tc_ham = X[df['label'] == 'ham', token_idx].sum()
            N_tc_spam = X[df['label'] == 'spam', token_idx].sum()

            # obliczamy warunkowe prawdopodobieństwa dla każdej klasy 'ham' i 'spam' dla danego n-gramu 
            # patrz wzor: p(t|c) = (alpha+N_t,c)/(alpha*m+N_c)
            self.cond_probs[token] = {
                'ham': (self.alpha + N_tc_ham) / (self.alpha * m + N_c_ham),
                'spam': (self.alpha + N_tc_spam) / (self.alpha * m + N_c_spam)
            }

    # funkcja przewiduje czy wiadomosc jest spamem czy nie
    def predict(self, message):

        X = self.model.transform([message])
        feature_names = self.model.get_feature_names_out()

        # to avoid floating point underflow use log
        ham_prob = np.log(self.class_probs['ham'])
        spam_prob = np.log(self.class_probs['spam'])

        # Funkcja przechodzi po wszystkich n-gramach w nowej wiadomości i dla każdego n-gramu, sprawdza już wcześniej 
        # obliczone prawdopodobieństwa warunkowe dla każdej klasy ('ham' i 'spam')
        for token_idx in X.indices:
            token1 = feature_names[token_idx]
            ham_prob += np.log(self.cond_probs[token1]['ham'])
            spam_prob += np.log(self.cond_probs[token1]['spam'])

        if spam_prob > ham_prob:
            return 'spam'
        else:
            return 'ham'




In [58]:
def properties(nb, df):
    # true values, then how predicted
    values = {'ham': {'ham': 0, 'spam': 0},
              'spam': {'ham': 0, 'spam': 0}}
    true_vals = df['label']
    pred_vals = df['text'].apply(nb.predict)
    for (true_val, pred_val) in zip(true_vals, pred_vals):
        values[true_val][pred_val] += 1

    accuracy = (values['ham']['ham'] + values['spam']['spam']) / len(df)
    precision = values['spam']['spam'] / (values['spam']['spam'] + values['ham']['spam'])
    recall = values['spam']['spam'] / (values['spam']['spam'] + values['spam']['ham'])
    f1 = 2 * (precision * recall) / (precision + recall)
    result = {'accuracy': accuracy,
              'precision': precision,
              'recall': recall,
              'f1': f1}
    return result



In [70]:
# dzielimy dane na zbior treningowy i testowy
mask = np.random.rand(len(sms_df)) < 0.7
train = sms_df[mask]
test = sms_df[~mask]

# trenujemy nasz model
nb = MultinomialNaiveBayes(1)
nb.train(train)
result_train = properties(nb, train)
result_test = properties(nb, test)
#print(result_test)
#print(result_train)

result_test_df = pd.DataFrame(result_test, index=[0])
result_train_df = pd.DataFrame(result_train, index=[0])
combined_results_df = pd.concat([result_test_df, result_train_df], keys=['Test', 'Train'])

combined_results_df.to_csv('combined_results.csv', mode='a', header=False)