In [None]:
import random

# **Podpunkt 1.a**

In [74]:
def edit_distance(x: str, y: str, costs: list):

    insert_cost, delete_cost, replace_cost, swap_cost = costs  # Przypisujemy koszty z wektora

    m, n = len(x), len(y)
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Inicjalizacja pierwszego wiersza i pierwszej kolumny
    for i in range(m + 1):
        dp[i][0] = i * delete_cost
    for j in range(n + 1):
        dp[0][j] = j * insert_cost

    # Wypełnianie macierzy DP
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if x[i - 1] == y[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # Bez kosztu, jeśli znaki są takie same
            else:
                dp[i][j] = min(
                    dp[i - 1][j] + delete_cost,  # Usunięcie znaku
                    dp[i][j - 1] + insert_cost,  # Wstawienie znaku
                    dp[i - 1][j - 1] + replace_cost  # Zamiana znaku
                )

    return dp[m][n]

# Przykład użycia
# Lista kosztów: [insert_cost, delete_cost, replace_cost, transposition_cost]
costs = [1, 1, 1, 1]

x = "kot"
y = "aforyzm"
cost = edit_distance(x, y, costs)
print(f"Minimalny koszt przekształcenia '{x}' w '{y}' z zamianą sąsiednich znaków: {cost}")


Minimalny koszt przekształcenia 'kot' w 'aforyzm' z zamianą sąsiednich znaków: 6


# **Podpunkt 1.b**

In [None]:
def edit_distance_with_transposition(x: str, y: str, costs: list, verbose = True):

    insert_cost, delete_cost, replace_cost, swap_cost = costs  # Przypisujemy koszty z wektora

    m, n = len(x), len(y)
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Inicjalizacja pierwszego wiersza i pierwszej kolumny
    for i in range(m + 1):
        dp[i][0] = i * delete_cost
    for j in range(n + 1):
        dp[0][j] = j * insert_cost

    # Wypełnianie macierzy DP
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if x[i - 1] == y[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # Bez kosztu, jeśli znaki są takie same
             # Sprawdzamy możliwość transpozycji
            elif i > 1 and j > 1 and x[i - 1] == y[j - 2] and x[i - 2] == y[j - 1]:
                dp[i][j] = min(dp[i][j], dp[i - 2][j - 2] + swap_cost)
            else:
                dp[i][j] = min(
                    dp[i - 1][j] + delete_cost,  # Usunięcie znaku
                    dp[i][j - 1] + insert_cost,  # Wstawienie znaku
                    dp[i - 1][j - 1] + replace_cost  # Zamiana znaku
                )

    if verbose:
        print("Macierz kosztów transformacji:")
        for row in dp:
            print(row)

    return dp[m][n]

# Lista kosztów: [insert_cost, delete_cost, replace_cost, transposition_cost]
costs = [1, 1, 2, 1]

x = "babcia"
y = "album"
cost = edit_distance_with_transposition(x, y, costs)
print(f"Minimalny koszt przekształcenia '{x}' w '{y}' z zamianą sąsiednich znaków: {cost}")


Macierz kosztów transformacji:
[0, 1, 2, 3, 4, 5]
[1, 1, 2, 2, 3, 4]
[2, 1, 2, 3, 3, 4]
[3, 2, 2, 2, 3, 4]
[4, 3, 3, 3, 3, 4]
[5, 4, 4, 4, 4, 4]
[6, 5, 5, 5, 5, 5]
Minimalny koszt przekształcenia 'babcia' w 'album' z zamianą sąsiednich znaków: 5


# **Zadanie 2**

In [76]:
x = "algorytm"
y = "aforyzm"
cost = edit_distance_with_transposition(x, y, costs)
print(f"Minimalny koszt przekształcenia '{x}' w '{y}' z zamianą sąsiednich znaków: {cost}")

Macierz kosztów transformacji:
[0, 1, 2, 3, 4, 5, 6, 7]
[1, 0, 1, 2, 3, 4, 5, 6]
[2, 1, 1, 2, 3, 4, 5, 6]
[3, 2, 2, 2, 3, 4, 5, 6]
[4, 3, 3, 2, 3, 4, 5, 6]
[5, 4, 4, 3, 2, 3, 4, 5]
[6, 5, 5, 4, 3, 2, 3, 4]
[7, 6, 6, 5, 4, 3, 3, 4]
[8, 7, 7, 6, 5, 4, 4, 3]
Minimalny koszt przekształcenia 'algorytm' w 'aforyzm' z zamianą sąsiednich znaków: 3


# **Zadanie 3**

In [77]:
import random

def generateWords(amount: int, baseWord: str, max_cost: int, costs: list):

    insert_cost, delete_cost, replace_cost, swap_cost = costs
    examples = set()
    letters = list(baseWord)

    for _ in range(amount):
        current_word = letters.copy()
        cost = max_cost

        while cost > 0:
            action = random.randint(1, 3)

            if action == 1:  # Insert
                insert_position = random.randint(0, len(current_word))
                insert_char = random.choice('abcdefghijklmnopqrstuvwxyz')
                current_word.insert(insert_position, insert_char)
                cost -= insert_cost

            elif action == 2:  # Delete
                if len(current_word) > 0:
                    delete_position = random.randint(0, len(current_word) - 1)
                    current_word.pop(delete_position)
                    cost -= delete_cost

            else:  # Replace
                if len(current_word) > 0:
                    replace_position = random.randint(0, len(current_word) - 1)
                    replace_char = random.choice('abcdefghijklmnopqrstuvwxyz')
                    current_word[replace_position] = replace_char
                    cost -= replace_cost

            examples.add(''.join(current_word))

    return examples


In [78]:
# Lista kosztów: [insert_cost, delete_cost, replace_cost, transposition_cost]
costs = [1, 1, 2, 1]

generated_words = generateWords(5, "hello", 2, costs)

# Wypisanie wygenerowanych słów
for word in generated_words:
    print(word)

yhelo
hezlo
yhello
helo
hezllo
hmllo
henlo
helfo


# **Zadanie 4**

In [1]:
import random

def load_dictionary(filename: str) -> set:
    with open(filename, 'r', encoding='utf-8') as file:
        return {line.strip().lower() for line in file}

def generateWords(amount: int, baseWord: str, max_cost: int, costs: list, dictionary: set):
    insert_cost, delete_cost, replace_cost, swap_cost = costs
    valid_words = set()
    letters = list(baseWord)

    while len(valid_words) < amount:
        current_word = letters.copy()
        cost = max_cost

        while cost > 0:
            possible_actions = []
            if cost >= insert_cost:
                possible_actions.append(1)  # Insert
            if cost >= delete_cost and len(current_word) > 0:
                possible_actions.append(2)  # Delete
            if cost >= replace_cost and len(current_word) > 0:
                possible_actions.append(3)  # Replace

            if not possible_actions:
                break

            action = random.choice(possible_actions)

            if action == 1:  # Insert
                insert_position = random.randint(0, len(current_word))
                insert_char = random.choice('abcdefghijklmnopqrstuvwxyz')
                current_word.insert(insert_position, insert_char)
                cost -= insert_cost

            elif action == 2:  # Delete
                delete_position = random.randint(0, len(current_word) - 1)
                current_word.pop(delete_position)
                cost -= delete_cost

            else:  # Replace
                replace_position = random.randint(0, len(current_word) - 1)
                replace_char = random.choice('abcdefghijklmnopqrstuvwxyz')
                current_word[replace_position] = replace_char
                cost -= replace_cost

        word = ''.join(current_word)
        if word in dictionary and word != baseWord:
            valid_words.add(word)
    
    return valid_words


In [2]:
dictionary = load_dictionary("slowa.txt")

costs = [1, 1, 2, 1]

generated_words = generateWords(3, "hello", 2, costs, dictionary)

for word in generated_words:
    print(word)

hel
elo
hallo


# **Zadanie 5**

In [86]:
import numpy as np
import pandas as pd
import time
from sklearn.datasets import load_files
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import f1_score, accuracy_score, confusion_matrix


In [82]:
file_path = "SMSSpamCollection"

df = pd.read_csv(file_path, sep="\t", header=None, names=["label", "message"])
df['label'] = df['label'].map({'ham': 0, 'spam': 1})

print(df.head())

X_train, X_test, y_train, y_test = train_test_split(df["message"], df["label"], test_size=0.2, random_state=42)

# Użyjmy CountVectorizer do przekształcenia danych tekstowych w cechy
vectorizer = CountVectorizer(stop_words='english')
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

   label                                            message
0      0  Go until jurong point, crazy.. Available only ...
1      0                      Ok lar... Joking wif u oni...
2      1  Free entry in 2 a wkly comp to win FA Cup fina...
3      0  U dun say so early hor... U c already then say...
4      0  Nah I don't think he goes to usf, he lives aro...


In [93]:
# Trening SVM
start_time = time.time()
svm_model = SVC(kernel='rbf', C=2.0, gamma='scale')
svm_model.fit(X_train_vec, y_train)
svm_train_time = time.time() - start_time

svm_predictions = svm_model.predict(X_test_vec)

svm_f1_score = f1_score(y_test, svm_predictions)
svm_accuracy = accuracy_score(y_test, svm_predictions)

print(f"SVM Training Time: {svm_train_time:.4f} seconds")
print(f"SVM F1-Score: {svm_f1_score:.4f}")
print(f"SVM accuracy: {svm_accuracy:.4f}")

SVM Training Time: 1.6172 seconds
SVM F1-Score: 0.9544
SVM accuracy: 0.9883


In [89]:
# Trening Naive Bayes
start_time = time.time()
nb_model = MultinomialNB()
nb_model.fit(X_train_vec, y_train)
nb_train_time = time.time() - start_time

nb_predictions = nb_model.predict(X_test_vec)

nb_f1_score = f1_score(y_test, nb_predictions)
nb_accuracy = accuracy_score(y_test, svm_predictions)

print(f"Naive Bayes Training Time: {nb_train_time:.4f} seconds")
print(f"Naive Bayes F1-Score: {nb_f1_score:.4f}")
print(f"SVM accuracy: {nb_accuracy:.4f}")

Naive Bayes Training Time: 0.0101 seconds
Naive Bayes F1-Score: 0.9559
SVM accuracy: 0.9857


f1-score jest podobny w obu przypadkach, delikatnie większy dla NB, jednakże czasowo NB odskakuje od SVM co moze być spowodowane mniej skomplikowanymi obliczeniami na bazie prawdopodobieństw jednak zaklada ze cechy są niezależne(naive), model SVC posiada dużo większą złożoność obliczeniową, ze względu na maksymalizację marginesu granicy decyzyjnej

# **Zadanie 6**

Klasa CA: $\{1, 1, 2, 2, 3\}$

Klasa CB: $\{3, 4, 4, 5, 5\}$

Słownik cech: $V = \{1, 2, 3, 4, 5\}$


# **6.1 Funkcje częstości cech.**
$f(x_i, C_k), \text{gdzie }  x_i \in V  (\text{czyli wartości z słownika cech} )  \text{i} \ C_k  \text{to klasa}.$

---

Klasa CA:
$f(1, CA) = 2 \quad (\text{występuje dwa razy})$  
$f(2, CA) = 2 \quad (\text{występuje dwa razy})$  
$f(3, CA) = 1 \quad (\text{występuje raz})$  
$f(4, CA) = 0 \quad (\text{nie występuje})$  
$f(5, CA) = 0 \quad (\text{nie występuje})$

Klasa CB:

$f(1, CB) = 0 \quad (\text{nie występuje})$  
$f(2, CB) = 0 \quad (\text{nie występuje})$  
$f(3, CB) = 1 \quad (\text{występuje raz})$  
$f(4, CB) = 2 \quad (\text{występuje dwa razy})$  
$f(5, CB) = 2 \quad (\text{występuje dwa razy})$

# **6.2 Warunkowe prawdopodobieństwo.**

$Prawdopodobieństwo warunkowe ( P(x_i \mid C_k) ) obliczamy zgodnie z wzorem:$

$P(x_i \mid C_k) = \frac{f(x_i, C_k) + \alpha}{N_{C_k} + \alpha \cdot |V|}$

gdzie:

- $( N_{C_k} ) to całkowita liczba wystąpień cech w klasie  (C_k) ,$
- $( |V| ) to liczba unikalnych cech w słowniku ( V ),$
- $( \alpha = 1 ) to parametr wygładzania Laplace’a.$

---

Dla CA:

$f(1, CA) = \frac{2 + 1}{5 + 1 \cdot 5} = \frac{3}{10} = 0.3 $  
$f(2, CA) = \frac{2 + 1}{5 + 1 \cdot 5} = \frac{3}{10} = 0.3 $  
$f(3, CA) = \frac{1 + 1}{5 + 1 \cdot 5} = \frac{2}{10} = 0.2 $  
$f(4, CA) = \frac{0 + 1}{5 + 1 \cdot 5} = \frac{1}{10} = 0.1 $  
$f(5, CA) = \frac{0 + 1}{5 + 1 \cdot 5} = \frac{1}{10} = 0.1 $


Dla CB:

$f(1, CB) = \frac{0 + 1}{5 + 1 \cdot 5} = \frac{1}{10} = 0.1 $  
$f(2, CB) = \frac{0 + 1}{5 + 1 \cdot 5} = \frac{1}{10} = 0.1 $  
$f(3, CB) = \frac{1 + 1}{5 + 1 \cdot 5} = \frac{2}{10} = 0.2 $  
$f(4, CB) = \frac{2 + 1}{5 + 1 \cdot 5} = \frac{3}{10} = 0.3 $  
$f(5, CB) = \frac{2 + 1}{5 + 1 \cdot 5} = \frac{3}{10} = 0.3 $


Granica decyzyjna to punkt, w którym klasyfikator nie ma preferencji między klasami, czyli:

$
P(x \mid C_A) = P(x \mid C_B)
$

Z danych:

$
P(x \mid C_A) = \frac{f(x, C_A) + 1}{5 + 5}
$
$
P(x \mid C_B) = \frac{f(x, C_B) + 1}{5 + 5}
$

Po podstawieniu wartości dla $( f(x, C_A) )$ i $( f(x, C_B) )$ z poprzednich obliczeń, otrzymujemy:
$
\frac{f(x, C_A) + 1}{10} = \frac{f(x, C_B) + 1}{10}
$

---


1. Dla $(x = 1)$:

$
P(1 \mid C_A) = \frac{2 + 1}{10} = \frac{3}{10} = 0.3
$

$
P(1 \mid C_B) = \frac{0 + 1}{10} = \frac{1}{10} = 0.1
$

$
P(1 \mid C_A) \neq P(1 \mid C_B)
$

2. Dla $(x = 2)$:
$
P(2 \mid C_A) = \frac{2 + 1}{10} = \frac{3}{10} = 0.3
$
$
P(2 \mid C_B) = \frac{0 + 1}{10} = \frac{1}{10} = 0.1
$
$
P(2 \mid C_A) \neq P(2 \mid C_B)
$

3. Dla $(x = 3)$:
$
P(3 \mid C_A) = \frac{1 + 1}{10} = \frac{2}{10} = 0.2
$
$
P(3 \mid C_B) = \frac{1 + 1}{10} = \frac{2}{10} = 0.2
$
$
P(3 \mid C_A) = P(3 \mid C_B)
$

4. Dla $(x = 4)$:
$
P(4 \mid C_A) = \frac{0 + 1}{10} = \frac{1}{10} = 0.1
$
$
P(4 \mid C_B) = \frac{2 + 1}{10} = \frac{3}{10} = 0.3
$
$
P(4 \mid C_A) \neq P(4 \mid C_B)
$

5. Dla $(x = 5)$:
$
P(5 \mid C_A) = \frac{0 + 1}{10} = \frac{1}{10} = 0.1
$
$
P(5 \mid C_B) = \frac{2 + 1}{10} = \frac{3}{10} = 0.3
$
$
P(5 \mid C_A) \neq P(5 \mid C_B)
$


$( P(x \mid C_A) = P(x \mid C_B) )$ jest spełnione tylko dla $( x = 3 )$.

To oznacza, że punkt $( x = 3 )$ jest granicą decyzyjną.

Dla wartości mniejszych niż 3 klasyfikator przypisuje próbki do klasy $( C_A )$, a dla wartości większych niż 3 przypisuje je do klasy $( C_B )$.


**Pyt 1.**

Wygładzanie Laplace’a jest stosowane, aby uniknąć problemu zerowych prawdopodobieństw, które mogą pojawić się, gdy cecha nie występuje w danej klasie.

Bez wygładzenia model mógłby uznać klasę za niemożliwą do przypisania, co może prowadzić do błędnych klasyfikacji

**Pyt 2.**

Nowe cechy nie znajdując się w słowniku $V$ obliczy prawdopodobieństwo, które wynosiłoby zero, gdybyśmy nie użyli wygładzenia Laplaca.


**Pyt 3.**

Większa ilość cech wydłużyłaby czas potrzebny na wykonanie obliczeń prawdopodobieństwa przynależnośći do danej klasy, jednak słownik byłby bardziej złożony, w niektórych przypadkach może to polepszyć dokładność klasyfikacji do danych klas