# Lista 2

## Uczenie maszynowe i sztuczna inteligencja

* [Naiwny klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier) oraz [Naiwny wielomianowy klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes)
* [Tokenizacja](https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization)
* [Multizbiór słów](https://en.wikipedia.org/wiki/Bag-of-words_model)
* [N-gram](https://en.wikipedia.org/wiki/N-gram), [Bigram](https://en.wikipedia.org/wiki/Bigram), [Trigram](https://en.wikipedia.org/wiki/Trigram)

## Wprowadzenie 

Spamowanie jest jednym z najprostszych ataków w przesyłaniu wiadomości e-mail. Użytkownicy często otrzymują irytujące wiadomości spamowe oraz złośliwe wiadomości phishingowe, subskrybując różne strony internetowe, produkty, usługi, katalogi, biuletyny informacyjne oraz inne rodzaje komunikacji elektronicznej. W niektórych przypadkach, spamowe wiadomości e-mail są generowane przez wirusy lub konie trojańskie rozsyłane masowo.

Istnieje wiele rozwiązań do filtrowania spamu, takich jak techniki filtrowania na czarnej i białej liście, podejścia oparte na drzewach decyzyjnych, podejścia oparte na adresach e-mail oraz metody oparte na uczeniu maszynowym. Większość z nich opiera się głównie na analizie tekstu zawartości e-maila. W rezultacie rośnie zapotrzebowanie na skuteczne filtry antyspamowe, które automatycznie identyfikują i usuwają wiadomości spamowe lub ostrzegają użytkowników przed możliwymi wiadomościami spamowymi. Jednak spamerzy zawsze badają luki istniejących technik filtrowania spamu i wprowadzają nowy projekt do rozprzestrzeniania spamu w szerokim zakresie np. atak tokenizacji czasami wprowadza w błąd filtry antyspamowe, dodając dodatkowe spacje. Dlatego też treści e-maili muszą być strukturalizowane. Ponadto, pomimo posiadania najwyższej dokładności w wykrywaniu spamu za pomocą uczenia maszynowego, fałszywe pozytywy (False Positive, FP) stanowią problem z powodu jednorazowego wykrywania zagrożeń e-mailowych. Aby zaradzić problemom z fałszywymi pozytywami oraz zmianom w różnych projektach ataków, z tekstu usuwane są słowa kluczowe oraz inne niepożądane informacje przed dalszą analizą. Po wstępnym przetwarzaniu, te teksty przechodzą przez liczne metody ekstrakcji cech, takie jak word2vec, word n-gram, character n-gram oraz kombinacje n-gramów o zmiennych długościach. Różne techniki uczenia maszynowego, takie jak support vector machine (SVM), decision tree (DT), logistic regression (LR) oraz multinomial naıve bayes (MNB), są stosowany aby dokonać klasyfikacji e-maili.

Na tej liste skoncentrujemy się tylko na metodzie naiwnego klasyfikatora bayesowskiego przedstawionego na wykładzie wraz z wersją [wielomianową](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes).

#### **Uwaga**

**Wszystkie implementacje klasyfikatorów należy napisać samemu. Na tej liście nie korzystamy z implementacji klasyfikatorów istniejących w popularnych bibliotekach.**


# Klasyfikatory Naiwnego Bayesa (NB)

W naszych eksperymentach po wstępnym przetworzeniu każda wiadomość jest ostatecznie reprezentowana jako wektor $\mathbf{x}=(x_1, \ldots , x_m)$, gdzie $x_1, \ldots , x_m$ są wartościami atrybutów $X_1, \ldots , X_m$ , a każdy atrybut dostarcza informacje o określonym tokenie wiadomości. W najprostszym przypadku wszystkie atrybuty są wartościami boolowskimi: $X_i = 1$, jeśli wiadomość zawiera dany token; w przeciwnym razie, $X_i = 0$. Alternatywnie, ich wartości mogą być częstotliwościami tokenów (TF), pokazującymi, ile razy odpowiadający token występuje w wiadomości. Atrybuty z wartościami TF przenoszą więcej informacji niż atrybuty boolowskie.

Z twierdzenia Bayesa wynika, że prawdopodobieństwo, że wiadomość o wektorze $\mathbf{x} = (x_1, \ldots, x_m)$ należy do kategorii $c$, wynosi: 

$$
p(c | \mathbf{x}) = \frac{p(c) \cdot p(\mathbf{x} | c)}{p(\mathbf{x})}
$$

Ponieważ mianownik nie zależy od kategorii, klasyfikator NB klasyfikuje każdą wiadomość do kategorii, która maksymalizuje $p(c) \cdot p(\mathbf{x} | c)$. W przypadku filtrowania spamu oznacza to klasyfikowanie wiadomości jako spamu, gdy: 

$$
\frac{p(c_s) \cdot p(\mathbf{x} | c_s)}{p(c_s) \cdot p(\mathbf{x} | c_s) + p(c_h) \cdot p(\mathbf{x} | c_h)} > T
$$

gdzie $T = 0.5$, a $c_h$ i $c_s$ oznaczają kategorie ham i spam. Zmieniając $T$, można zdecydować się na więcej prawdziwych negatywów (poprawnie sklasyfikowane wiadomości ham) kosztem mniej prawdziwych pozytywów (poprawnie sklasyfikowane wiadomości spam), lub odwrotnie. Prawdopodobieństwa a priori $p(c)$ są zwykle szacowane przez podzielenie liczby treningowych wiadomości kategorii $c$ przez łączną liczbę treningowych wiadomości. Prawdopodobieństwa $p(\mathbf{x} | c)$ są szacowane w różny sposób w każdej wersji NB - patrz wykład.

# Naiwny klasyfikator bayesowski wielomianowy (MNB)

Klasyfikator [wielomianowy](https://en.wikipedia.org/wiki/Multinomial_distribution) bayesowski z atrybutami TF traktuje każdą wiadomość $d$ jako [multizbiór]((https://en.wikipedia.org/wiki/Bag-of-words_model)) tokenów, zawierający każdy token $t_i$ tyle razy, ile występuje w $d$. Dlatego $d$ można przedstawić jako $\mathbf{x} = (x_1, ..., x_m)$, gdzie każde $x_i$ to teraz liczba wystąpień $t_i$ w $d$. Ponadto, każda wiadomość $d$ z kategorii $c$ jest postrzegana jako wynik niezależnego wyboru $|d|$ tokenów z $F=\{t_1,\ldots,t_m\}$ z powtórzeniami, z prawdopodobieństwem $p(t_i | c)$ dla każdego $t_i$. Wówczas $p(\mathbf{x} | c)$ jest rozkładem wielomianowym:

$$
p(\mathbf{x} \mid c) = p(|d|) \cdot |d|! \cdot \prod_{i=1}^{d} \frac{p(t_i \mid c)^{x_i}}{x_i !}
$$

gdzie zakładamy, że $|d|$ nie zależy od kategorii $c$. Jest to dodatkowe uproszczające założenie, które jest bardziej dyskusyjne w filtrowaniu spamu. Na przykład, prawdopodobieństwo otrzymania bardzo długiej wiadomości spamowej wydaje się mniejsze niż prawdopodobieństwo otrzymania równie długiej wiadomości ham. Kryterium klasyfikacji wiadomości jako spamu staje się:

$$
\frac{p(c_s) \cdot \prod_{i=1}^{m} p(t_i \mid c_s)^{x_i}}{p(c_s)\cdot\prod_{i=1}^{m} p(t_i \mid c_s)^{x_i} + p(c_h)\cdot\prod_{i=1}^{m} p(t_i \mid c_h)^{x_i}}  > T
$$

gdzie każde $p(t_i | c)$ jest szacowane jako:

$$
p(t \mid c) = \frac{\alpha + N_{t,c}}{\alpha \cdot m + N_c}
$$
gdzie $N_{t,c}$ to liczba wystąpień tokena $t$ w treningowych wiadomościach kategorii $c$, podczas gdy $N_c = \sum_{i=1}^{m} N_{t_i,c}$ to łączna liczba wiadomości treningowych kategorii $c$. W praktyce dodaje się jeszcze parametr $\alpha$ który reprezentuje wygładzenie (smoothing) i rozwiązuje problem zerowego prawdopodobieństwa, patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html) (np. $\alpha=1$).


### Przykładowe dane wielomianowe

Zatem każda wiadomość $d$  składa się z różnych tokenów $t_i$, a każde z tych $t_i$ należy do słownika $\mathcal{V}$. Jeśli $\mathcal{V}$ zawiera np. $8$ tokenów, $t_1,t_2,...,t_8$, a wiadomość to: $t_1 t_2 t_2 t_6 t_3 t_2 t_8$, reprezentacja tej wiadomości będzie następująca:

| |$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|
|---|---|---|---|---|---|---|---|---|
|$\mathbf{x}$| 1|3 |1 | 0| 0|1 | 0|1 |

Po dodaniu kilku innych losowych wiadomości, zbiór danych wygląda tak:

|$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|$c$|
|---|---|---|---|---|---|---|---|---|
| 1|3 |1 | 0| 0|1 | 0|1 | spam|
| 1|0 |0 | 0| 1|1 | 1|3 | ham|
| 0|0 |0 | 0| 0|2 | 1|2 | spam|

Przyjmując klasy ($1$-spam,$0$-ham) mamy $c = [1,0,1]$. Teraz, porównując z równaniem powyżej,

- $N_{t_i,c}$ to liczba wystąpień cechy $t_i$ w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_{t_1,c}=1, N_{t_6,c}=3$
- $N_c$ to całkowita liczba wystąpień wszystkich cech w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_c=12$
- $m=8$ to całkowita liczba cech
- $\alpha=1$ jest znany jako parametr wygładzania. Jest on potrzebny do problemu zerowego prawdopodobieństwa (patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html))

# Niedomiar zmiennoprzecinkowy (floating point underflow)

Aby uniknąć problemu niedomiaru zmiennoprzecinkowego, mnożenie zbioru małych prawdopodobieństw, czyli po prostu iloczyn stanie się zbyt mały, aby go reprezentować i zostanie zastąpiony przez 0. Zamiast obliczać
$$
P(c) \prod_{i=1}^m P(t_i | c)
$$
co może spowodować niedomiar, rozważmy obliczenie logarytmu tego wyrażenia,
$$
\log\left(P(c) \prod_{i=1}^m P(t_i | c)\right)
$$
co równoważnie można zapisać jako
$$
\log(P(c))+ \sum_{i=1}^m \log(P(t_i | c))
$$
Następnie zauważ, że jeśli
$$
\log(P(c_s))+ \sum_{i=1}^m \log(P(t_i | c_s)) > \log(P(c_h))+ \sum_{i=1}^m \log(P(t_i | c_h))
$$
wtedy, ponieważ $\log(x) > \log(y)$ iff $x > y$, to
$$
P(c_s) \prod_{i=1}^m P(t_i | c_s) > P(c_h) \prod_{i=1}^m P(t_i | c_h)
$$


## Zadanie 1 (10pt)

### Klasyfikator oparty na algorytmie NB

#### Cel:
Zbudować prosty klasyfikator spamu oparty na NB, który będzie w stanie wykryć i odfiltrować niechciane wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tokenizację słów i usuń zbędne znaki interpunkcyjne.
3. Zaimplementuj NB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam na podstawie występujących słów.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator NB na danych treningowych.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i przedstaw wnioski.



In [1]:
import pandas as pd
import re

sms_spam = pd.read_csv(
    "SMSSpamCollection", sep="\t", header=None, names=["Label", "SMS"]
)

print(sms_spam.shape)
sms_spam.head()

(5572, 2)


Unnamed: 0,Label,SMS
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [2]:
# Randomize the dataset
data_randomized = sms_spam.sample(frac=1, random_state=42069)

# Calculate index for split
training_test_index = round(len(data_randomized) * 0.7)

# Training/Test split
training_set = data_randomized[:training_test_index].reset_index(drop=True)
test_set = data_randomized[training_test_index:].reset_index(drop=True)

print(training_set.shape)
print(test_set.shape)

(3900, 2)
(1672, 2)


In [3]:
# Clean the data
print("before:")
print(training_set["SMS"].head())

# Remove all punctuation and change to lowercase
training_set["SMS"] = training_set["SMS"].map(lambda x: re.sub('\W', ' ', x))
training_set["SMS"] = training_set["SMS"].str.lower()

print("after:")
print(training_set["SMS"].head())

before:
0    Probably not, I'm almost out of gas and I get ...
1    Goodmorning, today i am late for 2hrs. Because...
2                  Vikky, come around  &lt;TIME&gt; ..
3    Today is ACCEPT DAY..U Accept me as? Brother S...
4    Can u look 4 me in da lib i got stuff havent f...
Name: SMS, dtype: object
after:
0    probably not  i m almost out of gas and i get ...
1    goodmorning  today i am late for 2hrs  because...
2                  vikky  come around   lt time gt    
3    today is accept day  u accept me as  brother s...
4    can u look 4 me in da lib i got stuff havent f...
Name: SMS, dtype: object


In [4]:
training_set["SMS"] = training_set["SMS"].str.split() # split the words

In [5]:
vocabulary = set()

for sms in training_set["SMS"]:
    for word in sms:
        vocabulary.add(word)

vocabulary = list(vocabulary)
vocabulary.sort()

len(vocabulary)


7226

In [6]:
# initialize the dictionary
words_per_sms = {
    unique_word: [0] * len(training_set["SMS"]) for unique_word in vocabulary
}

for index, sms in enumerate(training_set["SMS"]):
    for word in sms:
        words_per_sms[word][index] = 1

words = pd.DataFrame(words_per_sms)

training_set_clean = pd.concat([training_set, words], axis=1)
training_set_clean.head()

Unnamed: 0,Label,SMS,0,00,000,000pes,008704050406,0089,0121,01223585334,...,zeros,zindgi,zoe,zoom,zyada,èn,é,ü,〨ud,鈥
0,ham,"[probably, not, i, m, almost, out, of, gas, an...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"[goodmorning, today, i, am, late, for, 2hrs, b...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"[vikky, come, around, lt, time, gt]",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,"[today, is, accept, day, u, accept, me, as, br...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,"[can, u, look, 4, me, in, da, lib, i, got, stu...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [7]:
# Isolate spam and ham messages first
spam_messages = training_set_clean[training_set_clean["Label"] == "spam"]
ham_messages = training_set_clean[training_set_clean["Label"] == "ham"]

# P(Spam) and P(Ham)
p_spam = len(spam_messages) / len(training_set_clean)
p_ham = len(ham_messages) / len(training_set_clean)

# N_Spam
n_words_per_spam_message = spam_messages["SMS"].apply(len)
n_spam = n_words_per_spam_message.sum()

# N_Ham
n_words_per_ham_message = ham_messages["SMS"].apply(len)
n_ham = n_words_per_ham_message.sum()

# N_Vocabulary
n_vocabulary = len(vocabulary)

# Laplace smoothing
alpha = 1

# Initiate parameters
parameters_spam = {unique_word: 0 for unique_word in vocabulary}
parameters_ham = {unique_word: 0 for unique_word in vocabulary}

# Calculate parameters (train the model)
for word in vocabulary:
    n_word_given_spam = spam_messages[word].sum()
    p_word_given_spam = (n_word_given_spam + alpha) / (n_spam + alpha * n_vocabulary)
    parameters_spam[word] = p_word_given_spam

    n_word_given_ham = ham_messages[word].sum()
    p_word_given_ham = (n_word_given_ham + alpha) / (n_ham + alpha * n_vocabulary)
    parameters_ham[word] = p_word_given_ham

In [8]:
import math as m

def classify_test_set(message):
    message = re.sub("\W", " ", message)
    message = message.lower().split()
    message = list(set(message))

    p_spam_given_message = m.log(p_spam)
    p_ham_given_message = m.log(p_ham)

    for word in message:
        if word in parameters_spam:
            p_spam_given_message += m.log(parameters_spam[word])

        if word in parameters_ham:
            p_ham_given_message += m.log(parameters_ham[word])

    if p_ham_given_message >= p_spam_given_message:
        return "ham"
    else:
        return "spam"

In [9]:
test_set["predicted"] = test_set["SMS"].apply(classify_test_set)
test_set.head()

Unnamed: 0,Label,SMS,predicted
0,ham,"Oh, i will get paid. The most outstanding one ...",ham
1,ham,Ha ha ha good joke. Girls are situation seekers.,ham
2,ham,Okie...,ham
3,ham,Think + da. You wil do.,ham
4,ham,Were somewhere on Fredericksburg,ham


In [10]:
# Calculate the accuracy
correct = 0
total = test_set.shape[0]

for row in test_set.iterrows():
    row = row[1]
    if row["Label"] == row["predicted"]:
        correct += 1

print("Correct:", correct)
print("Incorrect:", total - correct)
print("Accuracy:", correct/total)

Correct: 1645
Incorrect: 27
Accuracy: 0.9838516746411483


In [11]:
# Calcuate precision and recall
true_positives = len(test_set[(test_set["Label"] == "spam") & (test_set["predicted"] == "spam")])
true_negatives = len(test_set[(test_set["Label"] == "ham") & (test_set["predicted"] == "ham")])
false_positives = len(test_set[(test_set["Label"] == "ham") & (test_set["predicted"] == "spam")])
false_negatives = len(test_set[(test_set["Label"] == "spam") & (test_set["predicted"] == "ham")])

precision = true_positives / (true_positives + false_positives) # true positives / total predicted positives
recall = true_positives / (true_positives + false_negatives) # true positives / total actual positives

print("Precision:", precision)
print("Recall:", recall)

Precision: 0.9734513274336283
Recall: 0.9128630705394191


In [12]:
# Calculate the F1 score
f1 = 2 * (precision * recall) / (precision + recall)
print("F1 Score:", f1)

F1 Score: 0.9421841541755888


## Zadanie 2 (15pt)

### Klasyfikator oparty na n-gramach MNB

#### Cel:
Zbudować klasyfikator spamu, wykorzystując n-gramy w połączeniu MNB, aby poprawić skuteczność klasyficji wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tworzenie n-gramów z treści wiadomości e-mail tzn. unigramy, bigramy, trigramy.
3. Zaimplementuj MNB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam, wykorzystując n-gramy jako cechy.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator MNB na danych treningowych, wykorzystując n-gramy jako cechy.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i porównaj je z wynikami klasyfikatora opartego na słowach.
8. Przedstaw wnioski dotyczące skuteczności klasyfikatora opartego na n-gramach oraz wpływu różnych typów n-gramów na skuteczność klasyfikacji.



In [13]:
# Multinomial Naive Bayes

sms_spam = pd.read_csv(
    "SMSSpamCollection", sep="\t", header=None, names=["Label", "SMS"]
)

print(sms_spam.shape)
sms_spam.head()

# Randomize the dataset
data_randomized = sms_spam.sample(frac=1, random_state=42069)

# Calculate index for split
training_test_index = round(len(data_randomized) * 0.7)

# Training/Test split
training_set = data_randomized[:training_test_index].reset_index(drop=True)
test_set = data_randomized[training_test_index:].reset_index(drop=True)

print(training_set.shape)
print(test_set.shape)


# create n-grams from the messages
def create_ngrams(message, n):
    message = re.sub("\W", " ", message)
    message = message.lower().split()
    ngrams = []
    for i in range(len(message) - n + 1):
        ngrams.append(" ".join(message[i:i+n]))
    return ngrams

# create 1-gram, 2-gram, and 3-gram and add to the training set
training_sets = []

for n in range(1, 4):
    training_set_copy = training_set.copy()
    training_set_copy["n-gram"] = training_set_copy["SMS"].apply(create_ngrams, n=n)
    training_sets.append(training_set_copy)

# create a vocabulary for each n-gram
vocabulary = [set() for n in range(1, 4)]

for n in range(1, 4):
    for message in training_sets[n - 1]["n-gram"]:
        for ngram in message:
            vocabulary[n - 1].add(ngram)

vocabulary = [sorted(list(vocabulary[n - 1])) for n in range(1, 4)]

# count the frequency of each n-gram
ngram_counts = {n: {ngram: [0] * len(training_set) for ngram in vocabulary[n - 1]} for n in range(1, 4)}

for n in range(1, 4):
    for index, message in enumerate(training_sets[n - 1]["n-gram"]):
        for ngram in message:
            ngram_counts[n][ngram][index] += 1

# create a dataframe for each n-gram
ngram_dataframes = {n: pd.DataFrame(ngram_counts[n]) for n in range(1, 4)}

# concatenate the n-gram dataframes with the training set
training_sets_clean = []
for n in range(1, 4):
    training_set_clean = pd.concat([training_sets[n - 1], ngram_dataframes[n]], axis=1)
    training_sets_clean.append(training_set_clean)

training_sets_clean[0].head()

(5572, 2)
(3900, 2)
(1672, 2)


Unnamed: 0,Label,SMS,n-gram,0,00,000,000pes,008704050406,0089,0121,...,zeros,zindgi,zoe,zoom,zyada,èn,é,ü,〨ud,鈥
0,ham,"Probably not, I'm almost out of gas and I get ...","[probably, not, i, m, almost, out, of, gas, an...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"Goodmorning, today i am late for 2hrs. Because...","[goodmorning, today, i, am, late, for, 2hrs, b...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"Vikky, come around &lt;TIME&gt; ..","[vikky, come, around, lt, time, gt]",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,Today is ACCEPT DAY..U Accept me as? Brother S...,"[today, is, accept, day, u, accept, me, as, br...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,Can u look 4 me in da lib i got stuff havent f...,"[can, u, look, 4, me, in, da, lib, i, got, stu...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [14]:
training_sets_clean[1].head()

Unnamed: 0,Label,SMS,n-gram,0 for,0 key,00 per,00 sub,00 subs,000 bonus,000 cash,...,ü v,ü wait,ü wan,ü willing,ü wkg,ü yet,ü yup,ü ü,〨ud evening,鈥 〨ud
0,ham,"Probably not, I'm almost out of gas and I get ...","[probably not, not i, i m, m almost, almost ou...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"Goodmorning, today i am late for 2hrs. Because...","[goodmorning today, today i, i am, am late, la...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"Vikky, come around &lt;TIME&gt; ..","[vikky come, come around, around lt, lt time, ...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,Today is ACCEPT DAY..U Accept me as? Brother S...,"[today is, is accept, accept day, day u, u acc...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,Can u look 4 me in da lib i got stuff havent f...,"[can u, u look, look 4, 4 me, me in, in da, da...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [15]:
training_sets_clean[2].head()

Unnamed: 0,Label,SMS,n-gram,0 for games,0 key for,00 sub 16,00 subs 16,000 bonus caller,000 cash await,000 homeowners tenants,...,ü wan call,ü wan come,ü wan meet,ü wan to,ü willing to,ü wkg on,ü yet right,ü yup i,ü ü wan,鈥 〨ud evening
0,ham,"Probably not, I'm almost out of gas and I get ...","[probably not i, not i m, i m almost, m almost...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"Goodmorning, today i am late for 2hrs. Because...","[goodmorning today i, today i am, i am late, a...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"Vikky, come around &lt;TIME&gt; ..","[vikky come around, come around lt, around lt ...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,Today is ACCEPT DAY..U Accept me as? Brother S...,"[today is accept, is accept day, accept day u,...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,Can u look 4 me in da lib i got stuff havent f...,"[can u look, u look 4, look 4 me, 4 me in, me ...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [16]:
# Isolate spam and ham messages first
spam_messages = training_sets_clean[0][training_sets_clean[0]["Label"] == "spam"]
ham_messages = training_sets_clean[0][training_sets_clean[0]["Label"] == "ham"]

# P(Spam) and P(Ham)
p_spam = len(spam_messages) / len(training_sets_clean[0])
p_ham = len(ham_messages) / len(training_sets_clean[0])

# Initiate parameters
parameters_spam = [
    {unique_word: 0 for unique_word in vocabulary[n - 1]} for n in range(1, 4)
]
parameters_ham = [{unique_word: 0 for unique_word in vocabulary[n - 1]} for n in range(1, 4)]

for n in range(1, 4):
    # Isolate spam and ham messages first
    spam_messages = training_sets_clean[n - 1][training_sets_clean[n - 1]["Label"] == "spam"]
    ham_messages = training_sets_clean[n - 1][training_sets_clean[n - 1]["Label"] == "ham"]

    # N_Spam for n-gram
    n_words_per_spam_message = spam_messages["n-gram"].apply(len)
    n_spam = n_words_per_spam_message.sum()

    # N_Ham
    n_words_per_ham_message = ham_messages["n-gram"].apply(len)
    n_ham = n_words_per_ham_message.sum()

    # N_Vocabulary
    n_vocabulary = len(vocabulary[n - 1])

    # Laplace smoothing
    alpha = 1

    # Calculate parameters (train the model)
    for word in vocabulary[n - 1]:
        n_word_given_spam = spam_messages[word].sum()
        p_word_given_spam = (n_word_given_spam + alpha) / (n_spam + alpha * n_vocabulary)
        parameters_spam[n - 1][word] = p_word_given_spam

        n_word_given_ham = ham_messages[word].sum()
        p_word_given_ham = (n_word_given_ham + alpha) / (n_ham + alpha * n_vocabulary)
        parameters_ham[n - 1][word] = p_word_given_ham

In [17]:
def classify_test_set(message, n):
    # tokenize the message into n-grams
    message = create_ngrams(message, n)

    p_spam_given_message = m.log(p_spam)
    p_ham_given_message = m.log(p_ham)

    for word in message:
        if word in parameters_spam[n - 1]:
            p_spam_given_message += m.log(parameters_spam[n - 1][word])

        if word in parameters_ham[n - 1]:
            p_ham_given_message += m.log(parameters_ham[n - 1][word])

    if p_ham_given_message >= p_spam_given_message:
        return "ham"
    else:
        return "spam"

In [18]:
test_sets = []
for n in range(1, 4):
    test_set_copy = test_set.copy()
    test_set_copy["predicted"] = test_set_copy["SMS"].apply(classify_test_set, n=n)
    test_sets.append(test_set_copy)

# Calculate the accuracy
correct = [0] * 3
total = test_set.shape[0]

for n in range(1, 4):
    for row in test_sets[n - 1].iterrows():
        row = row[1]
        if row["Label"] == row["predicted"]:
            correct[n - 1] += 1
                
    print("N =", n)
    print("Correct:", correct[n - 1])
    print("Incorrect:", total - correct[n - 1])
    print("Accuracy:", correct[n - 1] / total)
    print()

# Calcuate precision and recall
true_positives = [0] * 3
true_negatives = [0] * 3
false_positives = [0] * 3
false_negatives = [0] * 3

for n in range(1, 4):
    true_positives[n - 1] = len(test_sets[n - 1][(test_sets[n - 1]["Label"] == "spam") & (test_sets[n - 1]["predicted"] == "spam")])
    true_negatives[n - 1] = len(test_sets[n - 1][(test_sets[n - 1]["Label"] == "ham") & (test_sets[n - 1]["predicted"] == "ham")])
    false_positives[n - 1] = len(test_sets[n - 1][(test_sets[n - 1]["Label"] == "ham") & (test_sets[n - 1]["predicted"] == "spam")])
    false_negatives[n - 1] = len(test_sets[n - 1][(test_sets[n - 1]["Label"] == "spam") & (test_sets[n - 1]["predicted"] == "ham")])

precision = [0] * 3
recall = [0] * 3

for n in range(1, 4):
    precision[n - 1] = true_positives[n - 1] / (true_positives[n - 1] + false_positives[n - 1]) # true positives / total predicted positives
    recall[n - 1] = true_positives[n - 1] / (true_positives[n - 1] + false_negatives[n - 1]) # true positives / total actual positives

    print("N =", n)
    print("Precision:", precision[n - 1])
    print("Recall:", recall[n - 1])
    print()

# Calculate the F1 score
f1 = [0] * 3

for n in range(1, 4):
    f1[n - 1] = 2 * (precision[n - 1] * recall[n - 1]) / (precision[n - 1] + recall[n - 1])

    print("N =", n)
    print("F1 Score:", f1[n - 1])
    print()

N = 1
Correct: 1644
Incorrect: 28
Accuracy: 0.9832535885167464

N = 2
Correct: 1635
Incorrect: 37
Accuracy: 0.9778708133971292

N = 3
Correct: 1610
Incorrect: 62
Accuracy: 0.9629186602870813

N = 1
Precision: 0.9650655021834061
Recall: 0.91701244813278

N = 2
Precision: 0.9678899082568807
Recall: 0.8755186721991701

N = 3
Precision: 0.994475138121547
Recall: 0.7468879668049793

N = 1
F1 Score: 0.9404255319148936

N = 2
F1 Score: 0.9193899782135075

N = 3
F1 Score: 0.8530805687203791

