# Uczenie maszynowe

## Metody wektorów nośnych

Zastosowanie: klasyfikacja.

Metoda: uczenie nadzorowane.

### Maszyna wektorów nośnych (SVM)

Maszyna wektorów nośnych to algorytm klasyfikacyjny, którego celem jest wyznaczenie granicy decyzyjnej w postaci hiperpowierzchni. Położenie obiektów względem tej hiperpowierzchni determinuje przypisanie ich do odpowiednich klas. SVM powstało jako odpowiedź na ograniczenia innych algorytmów, takich jak klasyfikator maksymalizujący margines oraz klasyfikator wektorów nośnych (klasyfikator miękkiego marginesu). Aby w pełni zrozumieć działanie SVM, warto najpierw poznać te algorytmy, na których bazuje.

Wszystkie trzy algorytmy wykorzystują pojęcie marginesu, czyli odległości między granicą decyzyjną a najbliższymi obiektami treningowymi. W każdym przypadku dąży się do maksymalizacji marginesu, ale różnią się one sposobem definiowania granicy decyzyjnej:

1. **Klasyfikator maksymalizujący margines**:
   - Wyznacza hiperpłaszczyznę rozdzielającą obiekty na dwie klasy.
   - Może być używany tylko dla danych liniowo separowalnych, co znacznie ogranicza jego zastosowanie.

2. **Klasyfikator miękkiego marginesu (soft margin)**:
   - Bazuje na koncepcji liniowej separacji, ale pozwala na obecność pewnych obiektów w obszarze marginesu, a nawet błędne klasyfikacje.
   - Dzięki temu może być stosowany do danych nieliniowo separowalnych, choć wciąż używa liniowej granicy decyzyjnej. Dla danych wyraźnie nieliniowych może generować duże błędy klasyfikacyjne.

3. **Maszyna wektorów nośnych (SVM)**:
   - Rozszerza możliwości klasyfikatora miękkiego marginesu, umożliwiając tworzenie nieliniowych granic decyzyjnych dzięki zastosowaniu odpowiednich przekształceń przestrzeni wejściowej (tzw. funkcji jądrowych).
   - W razie potrzeby SVM może również korzystać z miękkiego marginesu.

### Geometryczna interpretacja

Działanie algorytmów można łatwiej zrozumieć, analizując ich geometryczną interpretację. W tej perspektywie obiekty w zbiorze treningowym są punktami w przestrzeni wejściowej oznaczonymi etykietami \(y^{(j)} \in \{-1, 1\}\), gdzie \(j = 1, \dots, N\). Zbiór treningowy można zapisać jako:

$$
X = \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(N)}, y^{(N)}) \in \mathbb{R}^d \times \{-1, 1\}\}.
$$

W przypadku klasyfikatora liniowego granica decyzyjna to hiperpłaszczyzna opisana równaniem:

$$
w^T x + w_0 = 0,
$$

gdzie \(w = [w_1, \dots, w_d]^T\).

Funkcja decyzyjna, na podstawie której dokonuje się klasyfikacji, jest zdefiniowana jako:

$$
h(x) =
\begin{cases}
1, & \text{jeśli } w^T x + w_0 \geq 0, \\
-1, & \text{jeśli } w^T x + w_0 < 0.
\end{cases}
$$

Maszyna wektorów nośnych pozwala rozszerzyć ten model, umożliwiając klasyfikację danych, które nie są liniowo separowalne, dzięki odpowiednim transformacjom przestrzeni i użyciu miękkiego marginesu, jeśli jest to konieczne.

### Margines w klasyfikacji

W kontekście klasyfikacji za pomocą ustalonej granicy decyzyjnej można zdefiniować tzw. margines:

$$
\epsilon = \min_{j=1,\dots,N} \epsilon^{(j)},
$$

gdzie \(\epsilon^{(j)}\) oznacza odległość obiektu \(x^{(j)}\) od hiperpłaszczyzny rozdzielającej.

Odległość \(\epsilon^{(j)}\) dla obiektu \(x^{(j)}\) odpowiada długości wektora prostopadłego do hiperpłaszczyzny i łączącego punkt \(x^{(j)}\) z tą hiperpłaszczyzną. Korzystając z metody mnożników Lagrange’a, można udowodnić następujące twierdzenie dotyczące odległości punktu od hiperpłaszczyzny:

---

**Twierdzenie o odległości punktu od hiperpłaszczyzny**  
Dla punktu \(x^{(j)} = (x_1^{(j)}, x_2^{(j)}, \dots, x_d^{(j)})\) w przestrzeni euklidesowej oraz hiperpłaszczyzny opisanej równaniem:

$$
w^T x + w_0 = 0, 
$$

gdzie \(w^T = [w_1, \dots, w_d]\), odległość punktu \(x^{(j)}\) od hiperpłaszczyzny wynosi:

$$
\epsilon^{(j)} = \frac{|w^T x^{(j)} + w_0|}{||w||}.
$$

---

Z funkcji decyzyjnej \(h_{w, w_0}(x)\) wynika, że:
- Dla punktów należących do klasy \(y = 1\), zachodzi \(w^T x^{(j)} + w_0 \geq 0\),
- Dla punktów należących do klasy \(y = -1\), zachodzi \(w^T x^{(j)} + w_0 < 0\).

Dlatego odległość punktu \(x^{(j)}\) od hiperpłaszczyzny można zapisać jako:

$$
\epsilon^{(j)} = y^{(j)} \frac{(w^T x^{(j)} + w_0)}{||w||}.
$$

---

### Wyznaczanie marginesu

Wyznaczenie marginesu polega na znalezieniu takiej hiperpłaszczyzny, która maksymalizuje odległość od najbliższych obiektów z każdej klasy. Te najbliższe obiekty nazywane są **wektorami nośnymi** (ang. *support vectors*). Są one kluczowe dla określenia granicy decyzyjnej, ponieważ to one „wspierają” hiperpłaszczyznę i wyznaczają maksymalny margines między obiektami należącymi do różnych klas.

### Klasyfikator maksymalizujący margines (Maximal Margin Classifier, MMC)

Celem algorytmu maksymalizującego margines jest znalezienie równania hiperpłaszczyzny, która najlepiej rozdziela dane na klasy. Kluczowym założeniem algorytmu jest maksymalizacja marginesu, czyli odległości pomiędzy granicą decyzyjną a najbliższymi obiektami treningowymi dla danego zbioru \(X\). Problem optymalizacyjny można sformułować jako:

$$
\max \epsilon_{w, w_0}
$$

pod warunkiem, że dla \(j = 1, \dots, N\):

$$
\epsilon^{(j)} = y^{(j)} \left( \frac{w^T}{||w||} x^{(j)} + \frac{w_0}{||w||} \right) \geq \epsilon,
$$

Ten zapis gwarantuje spełnienie warunku z definicji marginesu, czyli:

$$
\epsilon = \min_{j=1, \dots, N} \epsilon^{(j)}.
$$

---

### Uwaga  
Koncepcja maksymalizacji marginesu opiera się na założeniu, że im dalej obiekt znajduje się od granicy decyzyjnej, tym bardziej pewna jest jego klasyfikacja.

---

### Przekształcenie problemu optymalizacyjnego
Powyższy warunek można zapisać jako:

$$
y^{(j)} (w^T x^{(j)} + w_0) \geq \epsilon \cdot ||w||.
$$

Ustalając \(\epsilon \cdot ||w|| = E\), problem optymalizacyjny przyjmuje postać:

$$
\max_{w, w_0} \frac{E}{||w||}
$$

pod warunkiem, że dla \(j = 1, \dots, N\):

$$
y^{(j)} (w^T x^{(j)} + w_0) \geq E.
$$

Przeskalowanie \(w\) i \(w_0\) nie zmienia wyniku optymalizacji, dlatego zakładamy \(E = 1\). Wtedy problem można uprościć do:

$$
\max_{w, w_0} \frac{1}{||w||},
$$

co jest równoważne minimalizacji:

$$
\min ||w|| \quad \text{lub} \quad \min \frac{1}{2} ||w||^2.
$$

Ostateczny problem optymalizacyjny:

$$
\min_{w, w_0} \frac{1}{2} ||w||^2
$$

pod warunkiem, że dla \(j = 1, \dots, N\):

$$
y^{(j)} (w^T x^{(j)} + w_0) - 1 \geq 0.
$$

---

### Wypukłość problemu  
Jest to kwadratowy problem optymalizacyjny, a jego funkcja celu ma dokładnie jedno minimum, co oznacza, że uzyskane rozwiązanie jest globalne. Rozwiązanie problemu można znaleźć za pomocą metody mnożników Lagrange’a, co prowadzi do wyznaczenia optymalnej hiperpłaszczyzny maksymalizującej margines:

$$
w^T x + w_0 = 0,
$$

gdzie:

$$
w = \sum_{j \in S} \alpha_j y^{(j)} x^{(j)}
$$

$$
w_0 = \frac{w^T x^* - w^T x^{**}}{2}, \quad j \in S,
$$

a \(S\) to zbiór wektorów nośnych. Parametr \(w_0\) wyznacza położenie hiperpłaszczyzny i umiejscawia ją między hiperpłaszczyznami opartymi na wektorach nośnych dla obu klas.

---

### Reguła decyzyjna
Reguła klasyfikacyjna dla nowego obiektu \(x\) przyjmuje postać:

$$
f(x) = \text{sgn} \left( \sum_{j \in S} \alpha_j y^{(j)} x^{(j)} x + w_0 \right).
$$

Rysunek przedstawia przykładową hiperpłaszczyznę oraz margines dla zbioru danych z dwoma atrybutami i etykietami decyzyjnymi należącymi do zbioru \(\{-1, 1\}\).

### Klasyfikator wektorów nośnych (ang. Support Vector Classifier, SVC)

W większości przypadków dane nie są idealnie liniowo separowalne, co oznacza, że nie istnieje hiperpłaszczyzna, która rozdzieliłaby wszystkie obiekty bezbłędnie. W takich sytuacjach algorytm maksymalizacji marginesu nie znajduje rozwiązania. W odpowiedzi na te ograniczenia stosuje się **klasyfikator wektorów nośnych**, który pozwala znaleźć hiperpłaszczyznę rozdzielającą większość obiektów, a nie wszystkie. Kluczową koncepcją tego algorytmu jest wprowadzenie **marginesu miękkiego** (ang. soft margin).

Margines miękki umożliwia wyznaczenie hiperpłaszczyzny, która toleruje pewne błędy klasyfikacyjne. W tym celu wprowadza się:
- **Parametr regulacyjny \(C \geq 0\)**, który kontroluje liczbę dopuszczalnych błędów,
- **Parametry luzu \(\delta_j\)** (ang. slack parameters), które pozwalają na naruszenie marginesu przez niektóre obiekty.

Zapis problemu optymalizacyjnego prowadzącego do znalezienia hiperpłaszczyzny można wyrazić jako:

$$
\max_{w, w_0, \delta_1, \dots, \delta_N} \epsilon, 
$$

przy warunkach:

$$
y^{(j)} (w^T x^{(j)} + w_0) \geq \epsilon (1 - \delta_j),
$$

$$
||w|| = 1,
$$

$$
\delta_j \geq 0,
$$

$$
\sum_{i=1}^N \delta_j \leq C.
$$

---

### Interpretacja parametrów

Po rozwiązaniu powyższego problemu optymalizacyjnego otrzymujemy hiperpłaszczyznę, która jest wykorzystywana do klasyfikacji nowych obiektów. Podobnie jak w klasyfikatorze maksymalizującym margines, klasyfikacja odbywa się na podstawie znaku wartości hiperpłaszczyzny w punkcie reprezentującym dany obiekt.

**Parametry \(\delta_j\)** informują o położeniu obiektów względem hiperpłaszczyzny i marginesu:
- Jeśli \(\delta_j = 0\), obiekt \(x^{(j)}\) znajduje się po właściwej stronie marginesu.
- Jeśli \(0 < \delta_j \leq 1\), obiekt narusza margines.
- Jeśli \(\delta_j > 1\), obiekt znajduje się po złej stronie hiperpłaszczyzny.

**Parametr regulacyjny \(C\)** ogranicza sumę wszystkich \(\delta_j\), kontrolując maksymalną liczbę naruszeń marginesu i błędów klasyfikacyjnych:
- Dla \(C = 0\), żadnemu obiektowi nie wolno naruszyć marginesu – problem sprowadza się do klasyfikatora maksymalizującego margines.
- Dla \(C > 0\), dopuszczalna jest maksymalnie suma \(C\) naruszeń marginesu i błędów klasyfikacyjnych.

Wraz ze wzrostem wartości \(C\), klasyfikator staje się mniej wrażliwy na naruszanie marginesu i błędne klasyfikacje, co prowadzi do bardziej elastycznego modelu. Natomiast mniejsze wartości \(C\) powodują, że klasyfikator działa bardziej restrykcyjnie.

---

### Dobór parametru \(C\)

Parametr \(C\) jest hiperparametrem, który należy ustalić na etapie konfiguracji modelu. Jego wartość często dobiera się za pomocą metody sprawdzianu krzyżowego, co pozwala znaleźć optymalne ustawienie dostosowane do konkretnego zbioru danych. Wartości \(C\) mogą być różne w zależności od charakterystyki danych i wymagań dotyczących dokładności modelu.

### Maszyna wektorów nośnych (ang. Support Vector Machine, SVM)

Aby zrozumieć działanie maszyny wektorów nośnych, warto najpierw omówić sposób przekształcania klasyfikatora liniowego w klasyfikator z nieliniową granicą decyzyjną. Automatyzacja tego procesu odbywa się za pomocą maszyny wektorów nośnych.

Załóżmy, że \( X = \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(N)}, y^{(N)}) \in \mathbb{R}^d \times \{-1, 1\}\} \) to zbiór danych z nieliniową granicą między klasami. W takim przypadku hiperpłaszczyzna utworzona za pomocą narzędzi opisanych wcześniej nie będzie efektywnym klasyfikatorem. Dla danych nieliniowo separowalnych można zastosować przekształcenie do przestrzeni o wyższym wymiarze poprzez dodanie nowych cech, które są funkcjami oryginalnych zmiennych. Często stosowane są funkcje wielomianowe, np. \( x_1^2, x_2^2, \dots, x_d^2 \).

Granica decyzyjna w wyższej przestrzeni może być opisana równaniem:

$$
\sum_{i=1}^d v_i x_i + \sum_{i=1}^d w_i x_i^2 + w_0 = 0.
$$

W tym przypadku problem optymalizacyjny dla maszyny wektorów nośnych przyjmuje postać:

$$
\max_{\epsilon, w, v, w_0, \delta_1, \dots, \delta_N} \epsilon,
$$

przy warunkach:

$$
y^{(j)} \left( \sum_{i=1}^d v_i (x_i^{(j)})^2 + \sum_{i=1}^d w_i x_i^{(j)} + w_0 \right) \geq \epsilon (1 - \delta_j),
$$

$$
\sum_{i=1}^d v_i + \sum_{i=1}^d w_i = 1,
$$

$$
\delta_j \geq 0,
$$

$$
\sum_{i=1}^N \delta_j \leq C.
$$

---

### Przekształcenie do przestrzeni wyższego wymiaru

Wprowadzenie dodatkowych cech, takich jak wielomiany czy interakcje między zmiennymi (\( x_i x_j \), gdzie \( i \neq j \)), pozwala na lepsze dopasowanie granicy decyzyjnej. Jednak zbyt duża liczba cech może prowadzić do przekleństwa wymiarowości i przetrenowania modelu, co skutkuje niską zdolnością generalizacji na nowych danych.

Można uogólnić tę ideę, stosując funkcję przekształcającą 

$$ 
\phi : \mathbb{R}^d \to \mathbb{R}^m
$$

, która przenosi dane do przestrzeni o wyższym wymiarze (\( m > d \)). W nowej przestrzeni problem optymalizacyjny zapisuje się jako:

$$
\max_{w, w_0, \delta_1, \dots, \delta_N} \epsilon,
$$

przy warunkach:

$$
y^{(j)} \left(w^T \phi(x^{(j)}) + w_0\right) \geq \epsilon (1 - \delta_j),
$$

$$
||w|| = 1,
$$

$$
\delta_j \geq 0,
$$

$$
\sum_{i=1}^N \delta_j \leq C.
$$

---

### Sztuczka jądra (ang. Kernel Trick)

Zamiast bezpośrednio przekształcać dane za pomocą funkcji \( \phi(x) \), można wykorzystać funkcję jądra \( K(x, x') \), która pozwala obliczać iloczyn skalarny \( \phi(x) \cdot \phi(x') \) bez wyraźnego znajomości funkcji \( \phi \). Funkcja jądra jest symetryczna i nieujemnie określona. Przykłady popularnych jąder to:

1. **Jądro liniowe**: \( K(x, x') = x^T x' \),
2. **Jądro wielomianowe**: \( K(x, x') = (x^T x' + 1)^m \), gdzie \( m \) to stopień wielomianu,
3. **Jądro gaussowskie (RBF)**: \( K(x, x') = \exp\left(-\frac{||x - x'||^2}{2\sigma^2}\right) \), gdzie \( \sigma > 0 \).

Dzięki sztuczce jądra reguła decyzyjna maszyny wektorów nośnych ma postać:

$$
f(x) = \text{sgn} \left( \sum_{j \in S} \alpha_j y^{(j)} K(x^{(j)}, x) + w_0 \right).
$$

To podejście pozwala uzyskać optymalną hiperpowierzchnię dyskryminacyjną w przestrzeni wyższych wymiarów bez wyraźnego definiowania przekształcenia \( \phi(x) \).

### Maszyna wektorów nośnych w klasyfikacji wieloklasowej

Dotychczas omawiane algorytmy wykorzystujące wektory nośne odnosiły się jedynie do klasyfikacji binarnej, w której atrybut decyzyjny przyjmował jedną z dwóch wartości, \( Y = \{-1, 1\} \). Jednak maszyna wektorów nośnych może być również używana w zadaniach klasyfikacji wieloklasowej. Najczęściej w tym celu stosuje się podejście polegające na wykorzystaniu wielu klasyfikatorów binarnych, w ramach których zestawia się pary klas lub jedną klasę przeciwko wszystkim pozostałym. Tego typu metody to odpowiednio **jeden kontra jeden** (ang. *one-versus-one*) oraz **jeden kontra wszystkie** (ang. *one-versus-all*). 

W literaturze można znaleźć także inne strategie łączenia binarnych maszyn wektorów nośnych, które pozwalają na skuteczną klasyfikację wieloklasową (Vapnik, 1998).

### Kroki algorytmu: Jeden kontra wszystkie

Niech 
$$ 
X = \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(N)}, y^{(N)}) \in \mathbb{R}^d \times \{1, 2, \dots, p\} \} 
$$ 
będzie zbiorem treningowym, gdzie wartości atrybutu decyzyjnego należą do \( p \)-elementowego zbioru klas (\( p > 2 \)).

1. Ustaw \( i := 1 \).
2. Podziel zbiór:
   $$ A = \{(x^{(j)}, y^{(j)}) : y^{(j)} = i\}, $$
   $$ B = X - A. $$
3. Przypisz nowe wartości atrybutu decyzyjnego:
   - W zbiorze \( A \) przypisz wartość \( 1 \),
   - W zbiorze \( B \) przypisz wartość \( -1 \).
4. Traktuj \( A \cup B \) jako zbiór treningowy i zbuduj maszynę wektorów nośnych, uzyskując regułę \( f_i(x) \).
5. Sprawdź liczbę kroków:
   - Jeśli \( i < p \), zwiększ \( i \) o 1 i wróć do kroku 2,
   - Jeśli \( i = p \), przejdź do kroku 6.
6. Określ regułę decyzyjną klasyfikacji wieloklasowej:
   $$
   f(x) = \arg\max_{i=1, \dots, p} f_i(x).
   $$

---

### Kroki algorytmu: Jeden kontra jeden

Niech 
$$ 
X = \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(N)}, y^{(N)}) \in \mathbb{R}^d \times \{1, 2, \dots, p\} \} 
$$ 
będzie zbiorem treningowym, gdzie wartości atrybutu decyzyjnego należą do \( p \)-elementowego zbioru klas (\( p > 2 \)).

1. Zdefiniuj zbiory dla każdej klasy:
   $$
   Z_i = \{(x^{(j)}, y^{(j)}) : y^{(j)} = i\} \quad \text{dla } i = 1, 2, \dots, p.
   $$
2. Utwórz wszystkie możliwe pary klas \( \{Z_k, Z_l\} \), gdzie \( k \neq l \). Liczba takich kombinacji wynosi 
   $$
   \binom{p}{2}.
   $$
   Dla każdej pary:
   - Połącz zbiory \( Z_k \cup Z_l \), aby uzyskać nowe zbiory treningowe \( G_n \), gdzie 
   $$
   n = 1, 2, \dots, \binom{p}{2}.
   $$
   - Każda z \( p \) klas występuje w \( p-1 \) parach.
3. Ustaw \( n := 1 \).
4. Traktuj zbiór \( G_n \) jako treningowy i zbuduj maszynę wektorów nośnych, uzyskując regułę \( f_n(x) \).
   - **Uwaga:** Wartości atrybutu decyzyjnego w zbiorze \( G_n \) muszą być zmienione na \( 1 \) i \( -1 \), ale po zakończeniu klasyfikacji należy przywrócić oryginalne oznaczenia klas \( k \) i \( l \).
5. Sprawdź liczbę kroków:
   - Jeśli 
   $$
   n < \binom{p}{2},
   $$
   zwiększ \( n \) o 1 i wróć do kroku 4,
   - Jeśli 
   $$
   n = \binom{p}{2},
   $$
   przejdź do kroku 6.
6. Ustal regułę decyzyjną klasyfikacji wieloklasowej:
   - Przypisz nowy obiekt do klasy, która została najczęściej wskazana przez 
   $$
   \binom{p}{2}
   $$
   klasyfikatory binarne.

## Przykład: Automatyczny dobór leków w oparciu o parametry fizjologiczne pacjenta

Dane dostępne pod adresem: [https://www.kaggle.com/datasets/prathamtripathi/drug-classification](https://www.kaggle.com/datasets/prathamtripathi/drug-classification) zostaną wykorzystane do zademonstrowania działania algorytmu SVM. Zbiór danych zawiera sześć zmiennych opisujących pacjentów:

1. **Age** – wiek pacjenta,
2. **Sex** – płeć pacjenta,
3. **Blood Pressure Levels (BP)** – poziom ciśnienia krwi,
4. **Cholesterol Levels** – poziom cholesterolu,
5. **Na to Potassium Ratio** – stosunek stężenia sodu do stężenia potasu we krwi,
6. **Drug type** – rodzaj przepisanego leku.

Analizując wartości pięciu pierwszych zmiennych (czyli parametrów fizjologicznych), można z dużym prawdopodobieństwem przewidzieć, który lek będzie odpowiedni dla danego pacjenta.

#### Przygotowanie danych

Przed rozpoczęciem uczenia modelu, dane muszą zostać odpowiednio przygotowane:

1. **Wczytanie danych**: Dane zostaną załadowane do struktury `DataFrame`.
2. **Czyszczenie danych**: Wiersze z brakującymi wartościami zostaną usunięte.
3. **Kodowanie zmiennych kategorialnych**: Zarówno etykiety, jak i niektóre parametry są zmiennymi kategorialnymi. 
   - Do zakodowania parametrów zostanie wykorzystana funkcja `OrdinalEncoder`.
   - Do zakodowania etykiet (rodzaj leku) zostanie użyta funkcja `LabelEncoder`.
4. **Podział danych**: Dane zostaną podzielone na zbiór uczący i testowy.
5. **Standaryzacja danych**: Dane numeryczne zostaną przeskalowane, aby zapewnić, że wszystkie cechy będą miały ten sam zakres wartości, co ułatwi trening modelu. 

Tak przygotowane dane będą gotowe do zastosowania algorytmu SVM, który pozwoli przewidzieć odpowiedni lek na podstawie parametrów pacjenta.

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, LabelEncoder
from sklearn.model_selection import train_test_split

# Wczytanie danych i usunięcie brakujących wartości
df = pd.read_csv('drug200.csv')
df.dropna(inplace=True)

# Utworzenie wektora etykiet i macierzy parametrów
columns = df.columns
data = df[columns[:-1]].to_numpy()
labels = df['Drug'].to_numpy()

# Zakodowanie zmiennych kategorialnych na liczby
enc = OrdinalEncoder()
data = enc.fit_transform(data)

label_enc = LabelEncoder()
labels = label_enc.fit_transform(labels)

# Podział danych na zbiór uczący i testowy
X_train, X_test, y_train, y_test = train_test_split(
    data, labels,
    stratify=labels,
    random_state=42
)

# Standaryzacja danych
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


Następnym krokiem jest analiza liczebności poszczególnych klas. To, czy dane są równomiernie rozłożone między klasy, czy też mamy do czynienia z ich nierównowagą, wpływa na wybór metryk sukcesu, które najlepiej ocenią skuteczność wytrenowanego klasyfikatora.

Do zbadania liczebności klas zostanie wykorzystana funkcja `Counter` z biblioteki `collections`, która umożliwia zliczenie liczby obiektów w każdej klasie. Dodatkowo zostanie wygenerowany wykres, który graficznie przedstawi rozkład liczebności między klasami.

In [None]:
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

# Wyświetlenie liczebności poszczególnych klas
print(Counter(labels))

# Wizualizacja rozkładu klas
plt.figure(figsize=(8, 6))
plt.hist(
    labels,
    bins=np.arange(len(np.unique(labels)) + 1) - 0.5,
    rwidth=0.8
)

# Przygotowanie etykiet osi X
drugs_names = label_enc.inverse_transform(np.unique(labels))
plt.xticks(np.unique(labels), drugs_names, ha='center', fontsize=16)
plt.yticks(fontsize=16)

# Wyświetlenie wykresu
plt.show()


Jak można zauważyć, rozkład liczebności klas jest wyraźnie nierównomierny – leki B i C pojawiają się jedynie 16 razy, podczas gdy lek Y występuje aż 91 razy. Taka nierównowaga powinna zostać uwzględniona podczas procesu trenowania i oceny modelu, szczególnie w trakcie optymalizacji hiperparametrów. Wybór niewłaściwej metryki może prowadzić do stworzenia modelu o bardzo niskiej czułości dla mniej licznych klas.

Na początek zostanie przeprowadzony trening modelu z domyślnymi wartościami hiperparametrów. Do inicjalizacji klasyfikatora wektorów nośnych wykorzystana zostanie klasa `SVC` dostępna w bibliotece scikit-learn. Proces treningu i dokonywania predykcji na danych testowych zostanie zrealizowany przy użyciu metod `fit` oraz `predict`.

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, classification_report

# Inicjalizacja i trening modelu SVM
svm = SVC()
svm.fit(X_train_scaled, y_train)

# Predykcja na zbiorze testowym
preds = svm.predict(X_test_scaled)

# Wyświetlenie raportu klasyfikacji i macierzy pomyłek
print(classification_report(y_test, preds))
print(confusion_matrix(y_test, preds))

### Analiza wyników i optymalizacja modelu SVC

Przeglądając wyniki klasyfikacji wygenerowane za pomocą funkcji `classification_report`, można zauważyć, że najniższa skuteczność dotyczy klasyfikacji leku B. Wartość czułości dla tej klasy wynosi zaledwie 0,5, co oznacza, że połowa obiektów należących do tej klasy w zbiorze testowym została błędnie zaklasyfikowana. Warto jednak podkreślić, że z uwagi na bardzo małą liczebność tej klasy w zbiorze testowym znalazły się jedynie cztery obiekty. W związku z tym wszelkie wnioski dotyczące wyników klasyfikacji dla tej klasy powinny być formułowane z dużą ostrożnością, ponieważ parametry cechujące te obiekty mogą nie być reprezentatywne dla całej populacji.

Kolejnym krokiem jest optymalizacja hiperparametrów modelu SVC. Proces ten obejmie cztery kluczowe hiperparametry:

1. **C** – parametr regularyzacji, który kontroluje siłę karania za błędy klasyfikacji;
2. **max_iter** – maksymalna liczba iteracji, podczas których algorytm dąży do znalezienia optymalnych wag. W przypadku braku zbieżności proces optymalizacji zostaje przerwany, a przyjmowany jest najlepszy dotychczasowy wynik;
3. **kernel** – funkcja jądra stosowana w algorytmie SVM;
4. **degree** – stopień wielomianu w przypadku użycia wielomianowej funkcji jądra.

Pełną listę możliwych hiperparametrów modelu można znaleźć w dokumentacji klasy SVC: [sklearn.svm.SVC documentation](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html).

W trakcie optymalizacji jako metrykę ewaluacyjną wybrano wskaźnik **F1**, który uwzględnia zarówno precyzję, jak i czułość modelu. Jest to odpowiedni wybór w przypadku pracy z niezrównoważonymi zbiorami danych. Ponieważ dane zawierają więcej niż dwie klasy, konieczne było określenie metody obliczania średniej wartości F1. Przy dużych dysproporcjach liczebności klas zaleca się stosowanie średniej ważonej, dlatego zdecydowano się na użycie tej metody.

In [None]:
import optuna
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.metrics import make_scorer, f1_score
import numpy as np
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

# Definicja metryki scoringowej
scoring = {'F1': make_scorer(f1_score, average='weighted')}

# Funkcja celu
def objective(trial, model, get_space, X, y):
    model_space = get_space(trial)
    mdl = model(**model_space)
    scores = cross_validate(
        mdl, X, y,
        scoring=scoring,
        cv=StratifiedKFold(n_splits=5),
        return_train_score=True
    )
    return np.mean(scores['test_F1'])

# Przestrzeń hiperparametrów
def get_space(trial):
    space = {
        "C": trial.suggest_uniform("C", 0, 2),
        "max_iter": trial.suggest_int("max_iter", 100, 1000),
        "kernel": trial.suggest_categorical(
            "kernel", ["linear", "poly", "rbf", "sigmoid"]
        ),
        "degree": trial.suggest_int("degree", 2, 5)
    }
    return space

# Liczba prób optymalizacji
trials = 120
model = SVC

# Optymalizacja
study = optuna.create_study(direction='maximize')
study.optimize(
    lambda x: objective(x, model, get_space, X_train_scaled, y_train),
    n_trials=trials
)

# Wyświetlenie najlepszych wartości hiperparametrów
print('params:', study.best_params)

# Trening modelu z optymalnymi hiperparametrami
svm = model(**study.best_params)
svm.fit(X_train_scaled, y_train)

# Ewaluacja modelu
preds = svm.predict(X_test_scaled)
print(classification_report(y_test, preds))
print(confusion_matrix(y_test, preds))


Po przeprowadzeniu optymalizacji hiperparametrów modelu zaobserwowano poprawę wyników na zbiorze testowym. Lek A został zaklasyfikowany poprawnie we wszystkich przypadkach, podczas gdy wcześniej jeden obiekt był błędnie przypisany. Dodatkowo poprawie uległy wyniki dla najmniej licznych klas – lek B został poprawnie sklasyfikowany w trzech z czterech przypadków, co oznacza wzrost czułości modelu o 25 punktów procentowych. Jedynym wyjątkiem był lek X, gdzie po optymalizacji jeden obiekt został błędnie zaklasyfikowany, co pogorszyło wyniki dla tej klasy. Mimo to, biorąc pod uwagę ogólną poprawę dokładności klasyfikacji oraz wzrost skuteczności dla pozostałych klas, można stwierdzić, że optymalizacja hiperparametrów przyczyniła się do uzyskania modelu o lepszych zdolnościach klasyfikacyjnych.

## Zadanie: Klasyfikacja gwiazd na podstawie klasy jasności

Dane dotyczące gwiazd różnych klas jasności znajdują się pod adresem: [https://www.kaggle.com/datasets/deepu1109/star-dataset](https://www.kaggle.com/datasets/deepu1109/star-dataset). Każda gwiazda jest opisana przez sześć parametrów:

1. **Absolute Temperature (K)** – temperatura w kelwinach,
2. **Relative Luminosity (L/Lo)** – jasność względna w odniesieniu do jasności Słońca,
3. **Relative Radius (R/Ro)** – promień względny w odniesieniu do promienia Słońca,
4. **Absolute Magnitude (Mv)** – absolutna wielkość gwiazdowa,
5. **Star Color** – kolor gwiazdy,
6. **Spectral Class** – typ widmowy.

Klasy jasności gwiazd zapisane w kolumnie `star type` są oznaczone następującymi wartościami:

- **0** – brązowy karzeł (*brown dwarf*),
- **1** – czerwony karzeł (*red dwarf*),
- **2** – biały karzeł (*white dwarf*),
- **3** – gwiazda ciągu głównego (*main sequence*),
- **4** – nadolbrzym (*supergiant*),
- **5** – hiperolbrzym (*hypergiant*).

---

### Instrukcja

Aby przeprowadzić klasyfikację gwiazd na podstawie ich klasy jasności, wykonaj poniższe kroki:

1. **Wczytanie danych**: Pobierz dane i załaduj je do struktury `DataFrame`.
2. **Przygotowanie danych**:
   - Usuń brakujące wartości.
   - Zakoduj zmienne kategorialne na zmienne numeryczne.
   - Podziel dane na zbiór uczący i testowy.
   - Ustandaryzuj dane numeryczne.
3. **Trening i ewaluacja modelu bazowego**:
   - Przeprowadź trening klasyfikatora SVC z domyślnymi wartościami hiperparametrów.
   - Dokonaj ewaluacji wyników na zbiorze testowym.
4. **Optymalizacja hiperparametrów**:
   - Przeprowadź optymalizację hiperparametrów modelu, wybierając odpowiednią metrykę ewaluacyjną.
   - Wykonaj ponowny trening modelu z optymalnymi wartościami hiperparametrów i przeprowadź ewaluację.
   - Ustal, która metryka ewaluacyjna (np. F1, ROC AUC) najlepiej pasuje do tego zadania i uzasadnij swój wybór.
5. **Analiza wyników**:
   - Porównaj wyniki modelu przed i po optymalizacji.
   - Oceń, czy optymalizacja poprawiła zdolności predykcyjne modelu.