# **Support Vector Machines (SVM)**  
### *Maszyny wektorów nośnych*

---

## **English**

Support Vector Machines (SVMs) are powerful, versatile machine learning models capable of performing linear or nonlinear classification, regression, and even outlier detection. They are particularly well suited for classification of complex small- or medium-sized datasets.

### **Key Concepts**

1. **Support Vectors**: Training instances that lie closest to the decision boundary
2. **Hyperplane**: Decision boundary that separates classes in feature space
3. **Margin**: Distance between the decision boundary and closest training instances
4. **Kernel Trick**: Technique to efficiently compute dot products in high-dimensional space
5. **Soft Margin**: Allows some misclassifications to handle non-separable data

### **Mathematical Foundation**

#### **Linear SVM Decision Function**
The decision function for a linear SVM is:
$$
h_{\mathbf{w}, b}(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
$$

Where:
- $\mathbf{w}$ is the weight vector
- $b$ is the bias term
- Classification: $\hat{y} = \text{sign}(h_{\mathbf{w}, b}(\mathbf{x}))$

#### **Optimization Objective**
SVM aims to maximize the margin by minimizing:
$$
\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2
$$

Subject to:
$$
y^{(i)}(\mathbf{w}^T \mathbf{x}^{(i)} + b) \geq 1, \quad \forall i
$$

#### **Soft Margin SVM**
For non-separable data, we introduce slack variables $\zeta^{(i)}$:
$$
\min_{\mathbf{w}, b, \zeta} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^{m} \zeta^{(i)}
$$

Where $C$ is the regularization parameter controlling the trade-off between margin maximization and classification errors.

### **Kernel Functions**

#### **Linear Kernel**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = \mathbf{x}^{(i)T} \mathbf{x}^{(j)}
$$

#### **Polynomial Kernel**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = (\gamma \mathbf{x}^{(i)T} \mathbf{x}^{(j)} + r)^d
$$

#### **Gaussian RBF Kernel**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = \exp(-\gamma \|\mathbf{x}^{(i)} - \mathbf{x}^{(j)}\|^2)
$$

### **Types of SVM**

1. **Linear SVM**: For linearly separable data
2. **Nonlinear SVM**: Uses kernel trick for non-linear boundaries
3. **SVM Regression (SVR)**: For regression tasks
4. **Nu-SVM**: Alternative formulation with different parameterization

### **Advantages**
- **Memory Efficient**: Uses subset of training points (support vectors)
- **Versatile**: Different kernel functions for different data types
- **Works Well**: Effective in high-dimensional spaces
- **Robust**: Less prone to overfitting with proper regularization

### **Disadvantages**
- **No Probabilistic Output**: Doesn't provide probability estimates directly
- **Sensitive to Feature Scaling**: Requires feature normalization
- **Slow on Large Datasets**: Computational complexity is high for large datasets
- **Hyperparameter Sensitivity**: Performance depends on proper parameter tuning

---

## **Polish**

Maszyny wektorów nośnych (SVM) to potężne, wszechstronne modele uczenia maszynowego zdolne do wykonywania klasyfikacji liniowej lub nieliniowej, regresji, a nawet wykrywania wartości odstających. Są szczególnie dobrze dostosowane do klasyfikacji złożonych małych lub średnich zbiorów danych.

### **Kluczowe pojęcia**

1. **Wektory nośne**: Instancje treningowe leżące najbliżej granicy decyzyjnej
2. **Hiperpłaszczyzna**: Granica decyzyjna oddzielająca klasy w przestrzeni cech
3. **Margines**: Odległość między granicą decyzyjną a najbliższymi instancjami treningowymi
4. **Trik jądrowy**: Technika efektywnego obliczania iloczynów skalarnych w przestrzeni wysokowymiarowej
5. **Miękki margines**: Pozwala na niektóre błędne klasyfikacje dla danych nierozdzielnych

### **Podstawy matematyczne**

#### **Funkcja decyzyjna liniowego SVM**
Funkcja decyzyjna dla liniowego SVM to:
$$
h_{\mathbf{w}, b}(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
$$

Gdzie:
- $\mathbf{w}$ to wektor wag
- $b$ to składnik bias
- Klasyfikacja: $\hat{y} = \text{sign}(h_{\mathbf{w}, b}(\mathbf{x}))$

#### **Cel optymalizacji**
SVM dąży do maksymalizacji marginesu przez minimalizację:
$$
\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2
$$

Przy ograniczeniach:
$$
y^{(i)}(\mathbf{w}^T \mathbf{x}^{(i)} + b) \geq 1, \quad \forall i
$$

#### **SVM z miękkim marginesem**
Dla danych nierozdzielnych wprowadzamy zmienne luzu $\zeta^{(i)}$:
$$
\min_{\mathbf{w}, b, \zeta} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^{m} \zeta^{(i)}
$$

Gdzie $C$ to parametr regularyzacji kontrolujący kompromis między maksymalizacją marginesu a błędami klasyfikacji.

### **Funkcje jądrowe**

#### **Jądro liniowe**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = \mathbf{x}^{(i)T} \mathbf{x}^{(j)}
$$

#### **Jądro wielomianowe**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = (\gamma \mathbf{x}^{(i)T} \mathbf{x}^{(j)} + r)^d
$$

#### **Jądro Gaussowskie RBF**
$$
K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = \exp(-\gamma \|\mathbf{x}^{(i)} - \mathbf{x}^{(j)}\|^2)
$$

### **Typy SVM**

1. **Liniowy SVM**: Dla danych liniowo rozdzielnych
2. **Nieliniowy SVM**: Używa triku jądrowego dla nieliniowych granic
3. **Regresja SVM (SVR)**: Do zadań regresji
4. **Nu-SVM**: Alternatywne sformułowanie z inną parametryzacją

### **Zalety**
- **Efektywność pamięciowa**: Używa podzbioru punktów treningowych (wektory nośne)
- **Wszechstronność**: Różne funkcje jądrowe dla różnych typów danych
- **Działa dobrze**: Skuteczny w przestrzeniach wysokowymiarowych
- **Odporność**: Mniej skłonny do przeuczenia przy odpowiedniej regularyzacji

### **Wady**
- **Brak wyjścia probabilistycznego**: Nie dostarcza bezpośrednio oszacowań prawdopodobieństwa
- **Wrażliwość na skalowanie cech**: Wymaga normalizacji cech
- **Wolny na dużych zbiorach**: Wysoka złożoność obliczeniowa dla dużych zbiorów danych
- **Wrażliwość na hiperparametry**: Wydajność zależy od odpowiedniego tuningu parametrów
