# Laboratorium 11 - Optymalizacja
## Błażej Naziemiec i Szymon Żuk
### 17 czerwca 2025
## Wstęp
W tym laboratorium zajmiemy się optymalizacją kosztu obliczeń funkcji. W tym celu wykonamy dwa zadania. Pierwsze z nich polega na porównaniu rozwiązania problemu predykcji typu komórek nowotworowych za pomocą metody najmniejszych kwadratów oraz regresje liniową. W drugim zadaniu musimy stworzyć algorytm, który jak najmniejszym kosztem znajdzie ścieżkę dla robota z punktu startowego do punktu końcowego.

## Zadanie 1
Na początku zaimportowaliśmy dane odnośnie komórek nowotowrowych, które otrzymaliśmy od prowadzącego w laboratorium 2. Następnie zaimportowaliśmy funkcję `least_square`, która wykorzystując metodę najmniejszych kwadratów predykuje nam rodzaj nowotworu. Funkcja ta zwraca czteroelementową krotkę z wynikami predykcji dla macierzy: liniowej, kwadratowej, lambda oraz SVD. W tych wynikach znajdują się wartości $\textit{true positive}$, $\textit{true negative}$, $\textit{false positive}$, $\textit{false nagative}$ oraz $\textit{accuracy}$

In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy
from time import time

In [11]:
with open("dataset/breast-cancer.labels", "r") as f:
    labels = [line.strip() for line in f.readlines()]
train_data = pd.io.parsers.read_csv("dataset/breast-cancer-train.dat", names=labels)
validate_data = pd.io.parsers.read_csv("dataset/breast-cancer-validate.dat", names=labels)
train_data_malignant = train_data[train_data["Malignant/Benign"] == "M"]
train_data_benign = train_data[train_data["Malignant/Benign"] == "B"]

In [12]:
def least_square():
    linear_train = train_data.drop(["patient ID", "Malignant/Benign"], axis=1).values
    linear_validate = validate_data.drop(["patient ID", "Malignant/Benign"], axis=1).values

    def create_quadratic_representation(data):
        df = data.copy()
        for i in range(len(quad_columns)):
            df[f"{i}^2"] = data[quad_columns[i]] ** 2
        for i in range(len(quad_columns)):
            for j in range(i + 1, len(quad_columns)):
                df[f"{i}_{j}"] = data[quad_columns[i]] * data[quad_columns[j]]
        return df.values

    quad_columns = ["radius (mean)", "perimeter (mean)", "area (mean)", "symmetry (mean)"]
    quadratic_train = create_quadratic_representation(train_data[quad_columns])
    quadratic_validate = create_quadratic_representation(validate_data[quad_columns])

    b_training = np.where(train_data[['Malignant/Benign']] == "M", 1, -1)
    b_validate = np.where(validate_data[['Malignant/Benign']] == "M", 1, -1)

    cov_mat_lin = linear_train.T @ linear_train
    cov_mat_quad = quadratic_train.T @ quadratic_train

    weights_linear = np.linalg.solve(cov_mat_lin, linear_train.T @ b_training)
    weights_quadratic = np.linalg.solve(cov_mat_quad, quadratic_train.T @ b_training)

    λ = 0.01
    svd = scipy.linalg.lstsq(cov_mat_lin + λ * np.eye(cov_mat_lin.shape[0]), linear_train.T @ b_training)

    p_lin = linear_validate @ weights_linear
    p_quad = quadratic_validate @ weights_quadratic
    p_lambda = linear_validate @ weights_linear
    p_svd = linear_validate @ svd[0]
    def calc_acc(p_vec, b_vec):
        tp = np.sum([1 for p, b in zip(p_vec, b_vec) if p > 0 and b > 0])
        tn = np.sum([1 for p, b in zip(p_vec, b_vec) if p <= 0 and b < 0])
        fp = np.sum([1 for p, b in zip(p_vec, b_vec) if p > 0 and b <= 0])
        fn = np.sum([1 for p, b in zip(p_vec, b_vec) if p <= 0 and b > 0])
        return int(tp), int(tn), int(fp), int(fn), float((tp + tn) / (tp + tn + fp + fn))

    tp_lin, tn_lin, fp_lin, fn_lin, acc_lin = calc_acc(p_lin, b_validate)
    tp_quad, tn_quad, fp_quad, fn_quad, acc_quad = calc_acc(p_quad, b_validate)
    tp_lambda, tn_lambda, fp_lambda, fn_lambda, acc_lambda = calc_acc(p_lambda, b_validate)
    tp_svd, tn_svd, fp_svd, fn_svd, acc_svd = calc_acc(p_svd, b_validate)
    return (tp_lin, tn_lin, fp_lin, fn_lin, acc_lin), (tp_quad, tn_quad, fp_quad, fn_quad, acc_quad), (tp_lambda, tn_lambda, fp_lambda, fn_lambda, acc_lambda),(tp_svd, tn_svd, fp_svd, fn_svd, acc_svd)

In [13]:
def gradient_descent(eps=0.0001, n_iterations=100000):
    A = train_data.drop(["patient ID", "Malignant/Benign"], axis=1).values
    A = np.c_[np.ones(A.shape[0]), A]

    A_validate = validate_data.drop(["patient ID", "Malignant/Benign"], axis=1).values
    A_validate = np.c_[np.ones(A_validate.shape[0]), A_validate]

    b = np.where(train_data[['Malignant/Benign']] == "M", 1, -1)
    b_validate = np.where(validate_data[['Malignant/Benign']] == "M", 1, -1)
    
    b = b.flatten()

    AtA = A.T @ A

    eigv = scipy.linalg.eigvals(AtA)
    real_eigv = np.real(eigv)

    lambda_max = np.max(real_eigv)
    lambda_min = np.min(real_eigv)

    alpha = 1 / (lambda_max + lambda_min)
    
    def calc_gradient(A, x, b):
        return 2 * A.T @ (A @ x - b)
    
    n_samples, n_features = A.shape
    
    x = np.zeros(n_features)
    
    k = 1
    
    while k < n_iterations:
        x_next = x - alpha * calc_gradient(A, x, b)
        if np.linalg.norm(x_next - x) < eps:
            break
        x = x_next
        k += 1
        
    p = A_validate @ x

    def calc_acc(p_vec, b_vec):
        tp = np.sum([1 for p, b in zip(p_vec, b_vec) if p > 0 and b > 0])
        tn = np.sum([1 for p, b in zip(p_vec, b_vec) if p <= 0 and b < 0])
        fp = np.sum([1 for p, b in zip(p_vec, b_vec) if p > 0 and b <= 0])
        fn = np.sum([1 for p, b in zip(p_vec, b_vec) if p <= 0 and b > 0])
        total = tp + tn + fp + fn
        accuracy = float((tp + tn) / total) if total > 0 else 0.0
        return int(tp), int(tn), int(fp), int(fn), accuracy

    tp, tn, fp, fn, accuracy = calc_acc(p, b_validate.flatten())

    return (tp, tn, fp, fn, accuracy), k

In [14]:
print("Wyniki otrzymane z kodu z laboratorium 2:")
start_time = time()
least_square_results = least_square()
end_time = time()
print(f"Czas wykonania: {end_time - start_time:.4f} sekund")
least_square_results

Wyniki otrzymane z kodu z laboratorium 2:
Czas wykonania: 0.0532 sekund


((58, 194, 6, 2, 0.9692307692307692),
 (55, 185, 15, 5, 0.9230769230769231),
 (58, 194, 6, 2, 0.9692307692307692),
 (55, 199, 1, 5, 0.9769230769230769))

| Rodzaj metody | true positive | true negative | false positive | false negative | accuracy |
|---------------|---------------|----------------|-----------------|-----------------|----------|
| Liniowa       | 58           | 194            | 6             | 2             | 96.92%      |
| Kwadratowa    | 55           | 185            | 15             | 5             | 92.31%      |
| Lambda        | 58           | 194            | 6             | 2             | 96.92%      |
| SVD           | 55           | 199            | 1             | 5             | 97.69%      |

*Tabela 1. Wyniki predykcji typu komórek nowotworowych dla różnych macierzy metody najmniejszych kwadratów*

Analizując wyniki z tabeli 1 możemy zauważyć, że najlepsze wyniki uzyskaliśmy dla macierzy SVD i jego dokładność wynosi 97.69%. Następnie wykonaliśmy operację regresji liniowej dla tych samych danych, a wyniki przedstawiliśmy w tabeli 2.

In [15]:
start_time = time()
grad_result, grad_iterations = gradient_descent()
print("Wyniki otrzymane z gradientu:")
end_time = time()
print(f"Czas wykonania: {end_time - start_time:.4f} sekund")
grad_result, grad_iterations

Wyniki otrzymane z gradientu:
Czas wykonania: 2.6469 sekund


((58, 177, 23, 2, 0.9038461538461539), 100000)

| true positive | true negative | false positive | false negative | accuracy | liczba iteracji |
|---------------|----------------|-----------------|-----------------|----------|-----------------|
| 58            | 177            | 23               | 2               | 90.38%   | 100000           |

*Tabela 2. Wyniki regresji logistycznej dla danych komórek nowotworowych*
  

Z tabeli 2 wynika, że dokładność regresji logistycznej wynosi 90.38%, co jest gorszym wynikiem niż w przypadku metody najmniejszych kwadratów dla każdego typu macierzy. W związku z tym możemy stwierdzić, że metoda najmniejszych kwadratów jest lepsza w tym przypadku. Warto również zwrócić uwagę na teoretyczne złożoności czasowe obu rozwiązań. Metoda najmniejszych kwadratów ma złożoność $O(nm^2+m^3)$, gdzie złożoność regresji liniowej to $O(knm)$, gdzie $k$ to liczba iteracji. Patrząc po powyższych wynikach można zauważyć, że metoda najmniejszych kwadratów, mimo iż liczyła dla 4 różnych macierzy, to i tak wykonała się szybciej niż regresja logistyczna. Jest to spowodowane dużą liczbą iteracji, która została wykonana. 