### Maszyny wektorów nośnych (Support Vector Machines, SVM)

1. Definicja
- Maszyny wektorów nośnych (SVM) to algorytm uczenia maszynowego używany do klasyfikacji i regresji.
- SVM działa przez znajdowanie hiperpłaszczyzny, która najlepiej rozdziela dane na różne klasy.
- W przypadku danych liniowo nierozdzielnych, SVM może używać funkcji jądrowych ("kernel functions") do przekształcenia danych do przestrzeni o większej liczby wymiarów, gdzie dane mogą być liniowo rozdzielne.

2. Podstawowe koncepcje

- Hiperpłaszczyzna:

 - W przestrzeni dwuwymiarowej, hiperpłaszczyzna jest linią.
 - W przestrzeni trójwymiarowej, hiperpłaszczyzna jest płaszczyzną.
 - W przestrzeni wielowymiarowej, hiperpłaszczyzna jest uogólnieniem powyższych pojęć.

- Wektory nośne:

 - Są to punkty danych, które leżą najbliżej hiperpłaszczyzny i mają największy wpływ na jej położenie.

- Margines:

 - Odległość między hiperpłaszczyzną a najbliższymi punktami danych (wektorami nośnymi).
 - SVM dąży do maksymalizacji marginesu.

- Funkcje jądrowe:

 - Używane do przekształcenia danych do wyższej wymiarowości, gdzie dane mogą być liniowo rozdzielne.
 - Popularne funkcje jądrowe to liniowa, wielomianowa, radialna (RBF) i sigmoidalna.

3. Zastosowania

- Klasyfikacja obrazów: Rozpoznawanie obiektów na zdjęciach.
- Klasyfikacja tekstu: Klasyfikacja dokumentów, analiza sentymentu.
- Bioinformatyka: Klasyfikacja sekwencji DNA.
- Finanse: Przewidywanie ryzyka kredytowego, klasyfikacja transakcji.

In [1]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Wczytanie przykładowego zbioru danych (iris)
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standaryzacja danych
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Utworzenie modelu SVM z jądrem RBF
model = SVC(kernel='rbf', C=1.0, gamma='scale')

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

# Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')


Accuracy: 1.0


Opis kodu

1. Zbiór danych:

- Używamy zbioru danych iris z biblioteki sklearn.datasets.

2. Podział danych:

- Dzielimy dane na zbiór treningowy i testowy za pomocą train_test_split.

3. Standaryzacja danych:

- Standaryzujemy dane za pomocą StandardScaler, co jest ważne dla SVM, ponieważ algorytm jest wrażliwy na skalę danych.

4. Utworzenie modelu SVM:

- Tworzymy model SVM z jądrem RBF (kernel='rbf').
 - Parametr *C* kontroluje tzw. margines, a parametr *gamma* kontroluje zakres wpływu pojedynczego punktu treningowego.

5. Trenowanie modelu:

- Trenujemy model na zbiorze treningowym za pomocą fit.

6. Przewidywanie:

- Przewidujemy etykiety dla zbioru testowego za pomocą predict.

7. Ocena modelu:

- Oceniamy dokładność modelu za pomocą *accuracy_score*.

8. Szczegółowe informacje

- Parametr C:
 - Kontroluje margines. Mniejsze wartości C powodują większy margines, ale mogą prowadzić do bardziej złożonych modeli.

- Parametr gamma:
 - Kontroluje zakres wpływu pojedynczego punktu treningowego.
 - Mniejsze wartości gamma powodują, że każdy punkt treningowy ma większy zakres wpływu.

- Funkcje jądrowe:

 - linear: Liniowa hiperpłaszczyzna.
 - poly:  Hiperpłaszczyzna wielomianowa.
 - rbf: Radialna funkcja bazowa (Gaussian).
 - sigmoid: Sigmoidalna funkcja.

In [2]:
# Importing required libraries
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# Load Iris dataset
iris = datasets.load_iris()
X = iris.data  # Features
y = iris.target  # Target labels

# For binary classification, select only two classes
X = X[y != 2]
y = y[y != 2]

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create and train an SVM model with RBF kernel
svm_model = SVC(kernel='rbf', C=1.0, gamma='scale')
svm_model.fit(X_train, y_train)

# Make predictions
y_pred = svm_model.predict(X_test)

# Evaluate the model
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))


Accuracy: 1.0

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       1.00      1.00      1.00        13

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

