# Lista 2

## Uczenie maszynowe i sztuczna inteligencja

* [Naiwny klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier) oraz [Naiwny wielomianowy klasyfikator bayesowski](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes)
* [Tokenizacja](https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization)
* [Multizbiór słów](https://en.wikipedia.org/wiki/Bag-of-words_model)
* [N-gram](https://en.wikipedia.org/wiki/N-gram), [Bigram](https://en.wikipedia.org/wiki/Bigram), [Trigram](https://en.wikipedia.org/wiki/Trigram)

## Wprowadzenie 

Spamowanie jest jednym z najprostszych ataków w przesyłaniu wiadomości e-mail. Użytkownicy często otrzymują irytujące wiadomości spamowe oraz złośliwe wiadomości phishingowe, subskrybując różne strony internetowe, produkty, usługi, katalogi, biuletyny informacyjne oraz inne rodzaje komunikacji elektronicznej. W niektórych przypadkach, spamowe wiadomości e-mail są generowane przez wirusy lub konie trojańskie rozsyłane masowo.

Istnieje wiele rozwiązań do filtrowania spamu, takich jak techniki filtrowania na czarnej i białej liście, podejścia oparte na drzewach decyzyjnych, podejścia oparte na adresach e-mail oraz metody oparte na uczeniu maszynowym. Większość z nich opiera się głównie na analizie tekstu zawartości e-maila. W rezultacie rośnie zapotrzebowanie na skuteczne filtry antyspamowe, które automatycznie identyfikują i usuwają wiadomości spamowe lub ostrzegają użytkowników przed możliwymi wiadomościami spamowymi. Jednak spamerzy zawsze badają luki istniejących technik filtrowania spamu i wprowadzają nowy projekt do rozprzestrzeniania spamu w szerokim zakresie np. atak tokenizacji czasami wprowadza w błąd filtry antyspamowe, dodając dodatkowe spacje. Dlatego też treści e-maili muszą być strukturalizowane. Ponadto, pomimo posiadania najwyższej dokładności w wykrywaniu spamu za pomocą uczenia maszynowego, fałszywe pozytywy (False Positive, FP) stanowią problem z powodu jednorazowego wykrywania zagrożeń e-mailowych. Aby zaradzić problemom z fałszywymi pozytywami oraz zmianom w różnych projektach ataków, z tekstu usuwane są słowa kluczowe oraz inne niepożądane informacje przed dalszą analizą. Po wstępnym przetwarzaniu, te teksty przechodzą przez liczne metody ekstrakcji cech, takie jak word2vec, word n-gram, character n-gram oraz kombinacje n-gramów o zmiennych długościach. Różne techniki uczenia maszynowego, takie jak support vector machine (SVM), decision tree (DT), logistic regression (LR) oraz multinomial naıve bayes (MNB), są stosowany aby dokonać klasyfikacji e-maili.

Na tej liste skoncentrujemy się tylko na metodzie naiwnego klasyfikatora bayesowskiego przedstawionego na wykładzie wraz z wersją [wielomianową](https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Multinomial_naive_Bayes).

#### **Uwaga**

**Wszystkie implementacje klasyfikatorów należy napisać samemu. Na tej liście nie korzystamy z implementacji klasyfikatorów istniejących w popularnych bibliotekach.**


# Klasyfikatory Naiwnego Bayesa (NB)

W naszych eksperymentach po wstępnym przetworzeniu każda wiadomość jest ostatecznie reprezentowana jako wektor $\mathbf{x}=(x_1, \ldots , x_m)$, gdzie $x_1, \ldots , x_m$ są wartościami atrybutów $X_1, \ldots , X_m$ , a każdy atrybut dostarcza informacje o określonym tokenie wiadomości. W najprostszym przypadku wszystkie atrybuty są wartościami boolowskimi: $X_i = 1$, jeśli wiadomość zawiera dany token; w przeciwnym razie, $X_i = 0$. Alternatywnie, ich wartości mogą być częstotliwościami tokenów (TF), pokazującymi, ile razy odpowiadający token występuje w wiadomości. Atrybuty z wartościami TF przenoszą więcej informacji niż atrybuty boolowskie.

Z twierdzenia Bayesa wynika, że prawdopodobieństwo, że wiadomość o wektorze $\mathbf{x} = (x_1, \ldots, x_m)$ należy do kategorii $c$, wynosi: 

$$
p(c | \mathbf{x}) = \frac{p(c) \cdot p(\mathbf{x} | c)}{p(\mathbf{x})}
$$

Ponieważ mianownik nie zależy od kategorii, klasyfikator NB klasyfikuje każdą wiadomość do kategorii, która maksymalizuje $p(c) \cdot p(\mathbf{x} | c)$. W przypadku filtrowania spamu oznacza to klasyfikowanie wiadomości jako spamu, gdy: 

$$
\frac{p(c_s) \cdot p(\mathbf{x} | c_s)}{p(c_s) \cdot p(\mathbf{x} | c_s) + p(c_h) \cdot p(\mathbf{x} | c_h)} > T
$$

gdzie $T = 0.5$, a $c_h$ i $c_s$ oznaczają kategorie ham i spam. Zmieniając $T$, można zdecydować się na więcej prawdziwych negatywów (poprawnie sklasyfikowane wiadomości ham) kosztem mniej prawdziwych pozytywów (poprawnie sklasyfikowane wiadomości spam), lub odwrotnie. Prawdopodobieństwa a priori $p(c)$ są zwykle szacowane przez podzielenie liczby treningowych wiadomości kategorii $c$ przez łączną liczbę treningowych wiadomości. Prawdopodobieństwa $p(\mathbf{x} | c)$ są szacowane w różny sposób w każdej wersji NB - patrz wykład.

# Naiwny klasyfikator bayesowski wielomianowy (MNB)

Klasyfikator [wielomianowy](https://en.wikipedia.org/wiki/Multinomial_distribution) bayesowski z atrybutami TF traktuje każdą wiadomość $d$ jako [multizbiór]((https://en.wikipedia.org/wiki/Bag-of-words_model)) tokenów, zawierający każdy token $t_i$ tyle razy, ile występuje w $d$. Dlatego $d$ można przedstawić jako $\mathbf{x} = (x_1, ..., x_m)$, gdzie każde $x_i$ to teraz liczba wystąpień $t_i$ w $d$. Ponadto, każda wiadomość $d$ z kategorii $c$ jest postrzegana jako wynik niezależnego wyboru $|d|$ tokenów z $F=\{t_1,\ldots,t_m\}$ z powtórzeniami, z prawdopodobieństwem $p(t_i | c)$ dla każdego $t_i$. Wówczas $p(\mathbf{x} | c)$ jest rozkładem wielomianowym:

$$
p(\mathbf{x} \mid c) = p(|d|) \cdot |d|! \cdot \prod_{i=1}^{d} \frac{p(t_i \mid c)^{x_i}}{x_i !}
$$

gdzie zakładamy, że $|d|$ nie zależy od kategorii $c$. Jest to dodatkowe uproszczające założenie, które jest bardziej dyskusyjne w filtrowaniu spamu. Na przykład, prawdopodobieństwo otrzymania bardzo długiej wiadomości spamowej wydaje się mniejsze niż prawdopodobieństwo otrzymania równie długiej wiadomości ham. Kryterium klasyfikacji wiadomości jako spamu staje się:

$$
\frac{p(c_s) \cdot \prod_{i=1}^{m} p(t_i \mid c_s)^{x_i}}{p(c_s)\cdot\prod_{i=1}^{m} p(t_i \mid c_s)^{x_i} + p(c_h)\cdot\prod_{i=1}^{m} p(t_i \mid c_h)^{x_i}}  > T
$$

gdzie każde $p(t_i | c)$ jest szacowane jako:

$$
p(t \mid c) = \frac{\alpha + N_{t,c}}{\alpha \cdot m + N_c}
$$
gdzie $N_{t,c}$ to liczba wystąpień tokena $t$ w treningowych wiadomościach kategorii $c$, podczas gdy $N_c = \sum_{i=1}^{m} N_{t_i,c}$ to łączna liczba wiadomości treningowych kategorii $c$. W praktyce dodaje się jeszcze parametr $\alpha$ który reprezentuje wygładzenie (smoothing) i rozwiązuje problem zerowego prawdopodobieństwa, patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html) (np. $\alpha=1$).


### Przykładowe dane wielomianowe

Zatem każda wiadomość $d$  składa się z różnych tokenów $t_i$, a każde z tych $t_i$ należy do słownika $\mathcal{V}$. Jeśli $\mathcal{V}$ zawiera np. $8$ tokenów, $t_1,t_2,...,t_8$, a wiadomość to: $t_1 t_2 t_2 t_6 t_3 t_2 t_8$, reprezentacja tej wiadomości będzie następująca:

| |$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|
|---|---|---|---|---|---|---|---|---|
|$\mathbf{x}$| 1|3 |1 | 0| 0|1 | 0|1 |

Po dodaniu kilku innych losowych wiadomości, zbiór danych wygląda tak:

|$t_1$|$t_2$|$t_3$|$t_4$|$t_5$|$t_6$|$t_7$|$t_8$|$c$|
|---|---|---|---|---|---|---|---|---|
| 1|3 |1 | 0| 0|1 | 0|1 | spam|
| 1|0 |0 | 0| 1|1 | 1|3 | ham|
| 0|0 |0 | 0| 0|2 | 1|2 | spam|

Przyjmując klasy ($1$-spam,$0$-ham) mamy $c = [1,0,1]$. Teraz, porównując z równaniem powyżej,

- $N_{t_i,c}$ to liczba wystąpień cechy $t_i$ w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_{t_1,c}=1, N_{t_6,c}=3$
- $N_c$ to całkowita liczba wystąpień wszystkich cech w każdej unikalnej klasie $c$. Na przykład, dla $c=1$, $N_c=12$
- $m=8$ to całkowita liczba cech
- $\alpha=1$ jest znany jako parametr wygładzania. Jest on potrzebny do problemu zerowego prawdopodobieństwa (patrz [http://www.paulgraham.com/spam.html](http://www.paulgraham.com/spam.html))

# Niedomiar zmiennoprzecinkowy (floating point underflow)

Aby uniknąć problemu niedomiaru zmiennoprzecinkowego, mnożenie zbioru małych prawdopodobieństw, czyli po prostu iloczyn stanie się zbyt mały, aby go reprezentować i zostanie zastąpiony przez 0. Zamiast obliczać
$$
P(c) \prod_{i=1}^m P(t_i | c)
$$
co może spowodować niedomiar, rozważmy obliczenie logarytmu tego wyrażenia,
$$
\log\left(P(c) \prod_{i=1}^m P(t_i | c)\right)
$$
co równoważnie można zapisać jako
$$
\log(P(c))+ \sum_{i=1}^m \log(P(t_i | c))
$$
Następnie zauważ, że jeśli
$$
\log(P(c_s))+ \sum_{i=1}^m \log(P(t_i | c_s)) > \log(P(c_h))+ \sum_{i=1}^m \log(P(t_i | c_h))
$$
wtedy, ponieważ $\log(x) > \log(y)$ iff $x > y$, to
$$
P(c_s) \prod_{i=1}^m P(t_i | c_s) > P(c_h) \prod_{i=1}^m P(t_i | c_h)
$$


In [1]:
# Preparation

import requests
import zipfile

dataset_url = "https://archive.ics.uci.edu/static/public/228/sms+spam+collection.zip"
zipped_filename = "sms_spam_collection.zip"
dataset_filename = "SMSSpamCollection"

r = requests.get(dataset_url, allow_redirects=True)
with open(zipped_filename, 'wb') as file:
    file.write(r.content)

with zipfile.ZipFile(zipped_filename, 'r') as zip_ref:
    zip_ref.extractall()

In [2]:
from dataclasses import dataclass
import re

HAM=0
SPAM=1

only_spam = []
only_ham = []

def preprocess_line(text_: str) -> str:
    text_ = re.sub(r'\W', ' ', text)
    text_ = re.sub(r'\s+', ' ', text, flags=re.I).lower()  
    return text_

with open(dataset_filename) as file:
    for msg in file.readlines():
        splitted = msg.split("\t")
        kind = splitted[0]
        text = splitted[1]
        text = preprocess_line(text[:-1]) # remove newline in the end
        if kind == 'ham':
            only_ham.append(text)
        else:
            only_spam.append(text)   
            
all_content = only_spam + only_ham
labels = [SPAM]*len(only_spam) + [HAM]*len(only_ham)


In [3]:
import random
from sklearn.model_selection import train_test_split # type: ignore
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np


In [22]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

class Classifier:
    def __init__(self) -> None:
        self.threshold=0.99
        self.classes = None
        self.class_probs = None
        self.token_counts_per_class = {}
        self.total_tokens_per_class = {}
    
    def fit(self, X, y):
        self.classes, class_counts = np.unique(y, return_counts=True)
        self.class_probs = class_counts / len(y)

        for cls in self.classes:
            X_cls = X[np.where(y == cls)]
            # sumujemy wystapienia we wszystkich wiadomosciach
            self.token_counts_per_class[cls] = np.sum(X_cls, axis=0) + 0.01 # by pozniej wartosc dla 0 byla git
            # sumujemy wszystkie tokeny w wiadomosciach
            self.total_tokens_per_class[cls] = np.sum(self.token_counts_per_class[cls])
    
    def probability_of_x_condition_c(self, x, c) -> float: # type: ignore
        pass
        
    def softmax(self, values):
        max_val = np.max(values)
        exp_vals = np.exp(values - max_val)
        return exp_vals / np.sum(exp_vals)

    
    def predict(self, X):
        predictions = []
        for x in X:
            probs = [
                self.probability_of_x_condition_c(x, c)
                for c in self.classes # type: ignore
            ]
            probs = self.softmax(probs)
            predictions.append(SPAM if probs[SPAM] > self.threshold else HAM)
        return predictions
    
def test(classifier: Classifier, 
         ngram_range: tuple[int, int], 
         X_train,
         y_train,
         X_test,
         y_test
):
    vectorizer=CountVectorizer(ngram_range=ngram_range)
    X_train_counts = vectorizer.fit_transform(X_train)
    X_test_counts = vectorizer.transform(X_test)
    
    classifier.fit(X_train_counts.toarray(), y_train) # type: ignore
    predictions = classifier.predict(X_test_counts.toarray()) # type: ignore
    
    Accuracy = round(accuracy_score(y_test, predictions), 4)
    Precision = round(precision_score(y_test, predictions), 4) # type: ignore
    Recall = round(recall_score(y_test, predictions), 4) # type: ignore
    F1_Score = round(f1_score(y_test, predictions), 4) # type: ignore
    
    column_width=9
    print(f"""Results for Classifier:{type(classifier).__name__}, {ngram_range=}
{'Accuracy'.ljust(column_width, ' ')} | {'Precision'.ljust(column_width, ' ')} | {'Recall'.ljust(column_width, ' ')} | {'F1_Score'.ljust(column_width, ' ')}
{str(Accuracy).ljust(column_width)} | {str(Precision).ljust(column_width)} | {str(Recall).ljust(column_width)} | {str(F1_Score).ljust(column_width)}""")
    
            
        

In [23]:
X_train, X_test, y_train, y_test = train_test_split(all_content, labels, test_size=0.3, random_state=42)

## Zadanie 1 (10pt)

### Klasyfikator oparty na algorytmie NB

#### Cel:
Zbudować prosty klasyfikator spamu oparty na NB, który będzie w stanie wykryć i odfiltrować niechciane wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tokenizację słów i usuń zbędne znaki interpunkcyjne.
3. Zaimplementuj NB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam na podstawie występujących słów.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator NB na danych treningowych.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i przedstaw wnioski.



In [24]:
class NBClassifier(Classifier):
    def __init__(self) -> None:
        super().__init__()
        
    def probability_of_x_condition_c(self, x, c) -> float:
        log_p = np.log(self.class_probs[c]) # type: ignore
        for token in x.nonzero()[0]:
            am_token = self.token_counts_per_class[c][token] 
            log_p += np.log(am_token) 
            log_p -= np.log(self.total_tokens_per_class[c])
        return log_p

test(NBClassifier(), (1,1), X_train, y_train, X_test, y_test)

Results for Classifier:NBClassifier, ngram_range=(1, 1)
Accuracy  | Precision | Recall    | F1_Score 
0.9815    | 0.9957    | 0.8851    | 0.9371   


## Zadanie 2 (15pt)

### Klasyfikator oparty na n-gramach MNB

#### Cel:
Zbudować klasyfikator spamu, wykorzystując n-gramy w połączeniu MNB, aby poprawić skuteczność klasyficji wiadomości e-mail.

#### Opis:
1. Zbierz zbiór danych zawierający etykiety (spam/nie-spam) oraz treść wiadomości e-mail np. [Enron-Spam](http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html) lub [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) lub [E-mail Spam](https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv) lub ...
2. Przygotuj dane poprzez tworzenie n-gramów z treści wiadomości e-mail tzn. unigramy, bigramy, trigramy.
3. Zaimplementuj MNB, który będzie w stanie klasyfikować wiadomości jako spam lub nie-spam, wykorzystując n-gramy jako cechy.
4. Podziel dane na zbiór treningowy i testowy (np. 70% do treningu, 30% do testu).
5. Wytrenuj klasyfikator MNB na danych treningowych, wykorzystując n-gramy jako cechy.
6. Przetestuj klasyfikator na danych testowych i oceniaj jego skuteczność przy użyciu metryk: [precision i recall](https://en.wikipedia.org/wiki/Precision_and_recall), [f1-score](https://en.wikipedia.org/wiki/F-score) oraz [accuracy](https://en.wikipedia.org/wiki/Accuracy_and_precision).
7. Dokonaj analizy wyników i porównaj je z wynikami klasyfikatora opartego na słowach.
8. Przedstaw wnioski dotyczące skuteczności klasyfikatora opartego na n-gramach oraz wpływu różnych typów n-gramów na skuteczność klasyfikacji.



In [25]:
class PNBClassifier(Classifier):
    def __init__(self) -> None:
        super().__init__()
        
    def probability_of_x_condition_c(self, x, c) -> float:
        log_p = np.log(self.class_probs[c]) # type: ignore
        for token in x.nonzero()[0]:
            am_token = self.token_counts_per_class[c][token] 
            log_p += np.log(am_token) * x[token]
            log_p -= np.log(self.total_tokens_per_class[c])
        return log_p

test(PNBClassifier(), (1,1), X_train, y_train, X_test, y_test)
test(PNBClassifier(), (2,2), X_train, y_train, X_test, y_test)
test(PNBClassifier(), (3,3), X_train, y_train, X_test, y_test)

Results for Classifier:PNBClassifier, ngram_range=(1, 1)
Accuracy  | Precision | Recall    | F1_Score 
0.9809    | 0.9957    | 0.8812    | 0.935    
Results for Classifier:PNBClassifier, ngram_range=(2, 2)
Accuracy  | Precision | Recall    | F1_Score 
0.9791    | 0.9871    | 0.8774    | 0.929    
Results for Classifier:PNBClassifier, ngram_range=(3, 3)
Accuracy  | Precision | Recall    | F1_Score 
0.9647    | 0.9903    | 0.7816    | 0.8737   
