# ლექცია #7

## კოდების გაშვებისთვის საჭირო ბიბლიოთეკების იმპორტები

ამ ნოუთბუქის გაშვებამდე არ დაგავიწყდეთ საჭირო დამოკიდებულებების (dependencies) დაინსტალირება, რომლებიც მოცემულია `requirements.txt` ფაილში. მარტივად, ტერმინალიდან გაუშვით:

```bash
pip install -r requirements.txt
```

In [1]:
import pandas as pd
from sklearn.datasets import load_breast_cancer, load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC, LinearSVC

## Support Vector Machines (SVMs)

Support Vector Machine (SVM) არის supervised learning-ის ალგორითმი, რომელიც აკლასიფიცირებს მონაცემებს ოპტიმალური წრფის ან ჰიპერსიბრტყის (hyperplane) აღმოჩენით, რომელიც მაქსიმალურად ზრდის თითოეულ კლასს შორის მანძილს N-განზომილებიან სივრცეში.

SVM-ები შემუშავდა 1990-იან წლებში ვლადიმერ ნ. ვაპნიკისა და მისი კოლეგების მიერ და მათ გამოაქვეყნეს ნაშრომი სათაურით ["Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing"](https://proceedings.neurips.cc/paper_files/paper/1996/hash/4f284803bd0966cc24fa8683a34afc6e-Abstract.html) 1995 წელს.

SVM-ები საკმაოდ ხშირად გამოიყენება კლასიფიკაციის პრობლემების გადასაჭრელად. ისინი ორ კლასს ერთმანეთისგან განასხვავებენ ოპტიმალური ჰიპერსიბრტყის პოვნის გზით, რომელიც მაქსიმალურად ზრდის დაშორებას/ზღვარს (margin) საპირისპირო კლასების მონაცემთა უახლოეს წერტილებს შორის. შემავალი მახასიათებლების რაოდენობა განსაზღვრავს ჰიპერსიბრტყის ტიპს - იქნება ის წრფე ორგანზომილებიან სივრცეში თუ სიბრტყე N-განზომილებიან სივრცეში. ვინაიდან კლასების განსხვავებისთვის შესაძლებელია მრავალი ჰიპერსიბრტყე არსებობდეს, წერტილებს შორის მანძილის მაქსიმიზაცია საშუალებას აძლევს ალგორითმს, იპოვოს საუკეთესო გადაწყვეტილების ზღვარი (decision boundary) კლასებს შორის. SVM-ის კონტექსტში, ზღვარი არის მანძილი ჰიპერსიბრტყესა (გადაწყვეტის ზღვარს) და უახლოეს მონაცემთა წერტილებს შორის თითოეული კლასიდან. ეს, თავის მხრივ, საშუალებას აძლევს ალგორითმს კარგად განაზოგადოს ნასწავლი კანონზომიერებები ახალ მონაცემებზე და გააკეთოს ზუსტი პროგნოზები. წრფეები, რომლებიც მდებარეობენ ოპტიმალური ჰიპერსიბრტყის მიმდებარედ მოიხსეინება როგორც დამხმარე ვექტორები, რადგან ეს ვექტორები გადიან მონაცემთა წერტილებზე, რომლებიც განსაზღვრავენ მაქსიმალურ ზღვარს.

![Support Vector Machine](https://editor.analyticsvidhya.com/uploads/729834.png)

SVM ალგორითმი შესაძლებელია გამოვიყენოთ წრფივ და არაწრფივ კლასიფიკაციების ამოცანებზე. როდესაც მონაცემები არ არის წრფივად განცალკევებადი, კერნელის ფუნქციები გამოიყენება მონაცემთა უფრო მაღალგანზომილებიანი სივრცეში ტრანსფორმირებისთვის, რათა მოხდეს წრფივი განცალკევება. კერნელის ფუნქციების ამგვარ გამოყენებას ვუწოდებთ "kernel trick". კერნელი (წრფივი კერნელი, პოლინომიური კერნელი, რადიალური საფუძვლის ფუნქციის კერნელი (radial basis function - RBF) ან სიგმოიდური კერნელი) დამოკიდებულია მონაცემთა მახასიათებლებზე და კონკრეტულ ამოცანაზე.

## მაგალითები

In [2]:
cancer_dataset = load_breast_cancer()

In [3]:
pd.DataFrame(cancer_dataset.data).describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
0,569.0,14.127292,3.524049,6.981,11.7,13.37,15.78,28.11
1,569.0,19.289649,4.301036,9.71,16.17,18.84,21.8,39.28
2,569.0,91.969033,24.298981,43.79,75.17,86.24,104.1,188.5
3,569.0,654.889104,351.914129,143.5,420.3,551.1,782.7,2501.0
4,569.0,0.09636,0.014064,0.05263,0.08637,0.09587,0.1053,0.1634
5,569.0,0.104341,0.052813,0.01938,0.06492,0.09263,0.1304,0.3454
6,569.0,0.088799,0.07972,0.0,0.02956,0.06154,0.1307,0.4268
7,569.0,0.048919,0.038803,0.0,0.02031,0.0335,0.074,0.2012
8,569.0,0.181162,0.027414,0.106,0.1619,0.1792,0.1957,0.304
9,569.0,0.062798,0.00706,0.04996,0.0577,0.06154,0.06612,0.09744


In [4]:
X_train, X_valid, y_train, y_valid = train_test_split(
    cancer_dataset.data,
    cancer_dataset.target,
    train_size=0.8,
    random_state=10,
    stratify=cancer_dataset.target,
)

In [5]:
print("სატრენინგო მონაცემების ზომა:", X_train.shape, y_train.shape)
print("ვალიდაციის მონაცემების ზომა:", X_valid.shape, y_valid.shape)

სატრენინგო მონაცემების ზომა: (455, 30) (455,)
ვალიდაციის მონაცემების ზომა: (114, 30) (114,)


In [6]:
scaler = StandardScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_valid_scaled = scaler.transform(X_valid)

### Linear SVMs

წრფივი SVM-ები გამოიყენება წრფივად განცალკევებადი მონაცემების კლასიფიკაციისთვის. ეს ნიშნავს, რომ მონაცემებს არ სჭირდება რაიმე ტრანსფორმაცია, რომ კლასების განცალკევება მოხდეს.

მოცემული გვაქვს ბინარული კლასიფიკაციის მონაცემები 2 მახასიათებლით, რომელთაც თუ გამოვსახავთ გრაფიკულად მივიღებთ შემდეგ გრაფიკს:

![Data scatter plot](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*5O5o1rnJTODujaNsg7cX0g.png)

ვინაიდან ეს არის ორგანზომილებიანი სივრცე, ჩვენ შეგვიძლია მარტივად გამოვყოთ ეს ორი კლასი წრფეების გამოყენებით. მაგრამ შეიძლება არსებობდეს მრავალი წრფე, რომელსაც შეუძლია ამ კლასების გამიჯვნა:

![Hyperplanes - lines](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*yMeShLrk8IvF3K3Q9xho7Q.png)

SVM მოძებნის ისეთ წრფეს, სადაც ზღვარი არის მაქსიმალური: 

![Linear SVM](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*FkOCrw7eg_3pIXfxDv0uUw.png)

წრფივი კერნელის მქონე SVM-ისთვის ორი მოდელის გამოყენება შეგვიძლია `scikit-learn`-ში:

1. `LinearSVC` "hinge" დანაკარგის ფუნქციით
2. `SVC` "linear" კერნელის ფუნქციით

In [7]:
linear_svm = LinearSVC(loss="hinge", dual="auto", max_iter=5000, random_state=42)
linear_svm.fit(X_train_scaled, y_train)

In [8]:
train_preds = linear_svm.predict(X_train_scaled)
valid_preds = linear_svm.predict(X_valid_scaled)

print(
    "აკურატულობა სატრენინგო მონაცემებზე: "
    f"{accuracy_score(y_train, train_preds) * 100:.2f}%"
)
print(
    "აკურატულობა ვალიდაციის მონაცემებზე: "
    f"{accuracy_score(y_valid, valid_preds) * 100:.2f}%"
)

აკურატულობა სატრენინგო მონაცემებზე: 98.68%
აკურატულობა ვალიდაციის მონაცემებზე: 95.61%


In [9]:
linear_svm_2 = SVC(kernel="linear", random_state=42)
linear_svm_2.fit(X_train_scaled, y_train)

In [10]:
train_preds = linear_svm_2.predict(X_train_scaled)
valid_preds = linear_svm_2.predict(X_valid_scaled)

print(
    "აკურატულობა სატრენინგო მონაცემებზე: "
    f"{accuracy_score(y_train, train_preds) * 100:.2f}%"
)
print(
    "აკურატულობა ვალიდაციის მონაცემებზე: "
    f"{accuracy_score(y_valid, valid_preds) * 100:.2f}%"
)

აკურატულობა სატრენინგო მონაცემებზე: 98.68%
აკურატულობა ვალიდაციის მონაცემებზე: 95.61%


###  Nonlinear SVMs 

რეალური სამყაროს მონაცემები წრფივად განცალკევებადი ძალიან იშვიათ შემთხვევაშია. ამიტომაც SVM-ების სხვადასხვა კერნელი გვეხმარება მონაცემები გადავიყვანოთ უფრო მაღალი განზომილებიანი მახასიათებლების სივრცეში, სადაც ის შეიძლება იყოს წრფივად განცალკევებადი.

![Not linearly separable data](https://gregorygundersen.com/image/kerneltrick/idea.png)

ასეთ შემთხვევაში შეგვიძლია გამოვიყენოთ არაწრფივი კერნელის ფუნქციები:

* პოლინომიალური
* რადიალური საფუძვლის ფუნქცია
* სიგმოიდური

In [11]:
for kernel in ["poly", "rbf", "sigmoid"]:
    print("კერნელის ფუნქცია:", kernel)
    
    non_linear_svm = SVC(kernel=kernel, random_state=42)
    non_linear_svm.fit(X_train_scaled, y_train)

    train_preds = non_linear_svm.predict(X_train_scaled)
    valid_preds = non_linear_svm.predict(X_valid_scaled)

    print(
        "\tაკურატულობა სატრენინგო მონაცემებზე: "
        f"{accuracy_score(y_train, train_preds) * 100:.2f}%"
    )
    print(
        "\tაკურატულობა ვალიდაციის მონაცემებზე: "
        f"{accuracy_score(y_valid, valid_preds) * 100:.2f}%"
    )
    print()

კერნელის ფუნქცია: poly
	აკურატულობა სატრენინგო მონაცემებზე: 92.53%
	აკურატულობა ვალიდაციის მონაცემებზე: 85.96%

კერნელის ფუნქცია: rbf
	აკურატულობა სატრენინგო მონაცემებზე: 98.46%
	აკურატულობა ვალიდაციის მონაცემებზე: 96.49%

კერნელის ფუნქცია: sigmoid
	აკურატულობა სატრენინგო მონაცემებზე: 96.48%
	აკურატულობა ვალიდაციის მონაცემებზე: 95.61%



## დამატებითი მასალები

* [SVM მაგალითი - წრფივად განცალკევებადი](https://machinelearningmastery.com/method-of-lagrange-multipliers-the-theory-behind-support-vector-machines-part-1-the-separable-case/)
* [SVM მაგალითი - წრფივად განცალკევება შეუძლებელია](https://machinelearningmastery.com/method-of-lagrange-multipliers-the-theory-behind-support-vector-machines-part-2-the-non-separable-case/)
* [ლაგრანჟის მამრავლები - ინგლისურად](https://www.khanacademy.org/math/multivariable-calculus/applications-of-multivariable-derivatives/constrained-optimization/a/lagrange-multipliers-single-constraint)
* [ლაგრანჟის მამრავლები - ქართულად](https://ka.khanacademy.org/math/multivariable-calculus/applications-of-multivariable-derivatives/constrained-optimization/a/lagrange-multipliers-single-constraint)
* [SVM-ის მოკლე მიმოხილვა - scikit-learn](https://scikit-learn.org/stable/modules/svm.html)
* [კლასიფიკაციის ზღვრები სხვადასხვა კერნელის გამოყენების შემთხვევაში](https://scikit-learn.org/stable/auto_examples/svm/plot_svm_kernels.html#sphx-glr-auto-examples-svm-plot-svm-kernels-py)
* [Support Vector Regression (SVR) წრფივი და არაწრფივი კერნელებით](https://scikit-learn.org/stable/auto_examples/svm/plot_svm_regression.html)
* [Support Vector Regression (SVR) - მარტივი მაგალითი](https://medium.com/@niousha.rf/support-vector-regressor-theory-and-coding-exercise-in-python-ca6a7dfda927)