# Дәріс 9: Метрикалық әдістер (KNN) және Тірек векторлар әдісі (SVM)

**Дәріс мақсаты:**
1.  **K-ең жақын көршілер (KNN)** мысалында классификацияның **метрикалық әдістерімен** танысу.
2.  Ең қуатты классикалық алгоритмдердің бірі — **Тірек векторлар әдісін (SVM)** зерттеу.
3.  Осы алгоритмдердің негізінде жатқан математикалық негіздерді талдау.
4.  Python және Scikit-Learn кітапханасын қолдана отырып, бинарлық және көп класты классификация есептерінде осы модельдерді қолдануды, баптауды және салыстыруды үйрену.

## 1-бөлім: K-ең жақын көршілер әдісі (K-Nearest Neighbors, KNN)

KNN **метрикалық алгоритмдерге** жатады, олардың негізінде **ықшамдылық гипотезасы** жатыр. Ол бойынша, бір класқа жататын нысандар белгілер кеңістігінде бір-біріне жақын орналасып, "ықшам" кластерлер құрайды.

### 1.1. Интуиция және математикалық негіздер

KNN интуициясы өте қарапайым: **жаңа нысанның класы оның ең жақын көршілері арасында қай класстың басым екеніне байланысты анықталады.**

![k=3](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/knn_illustration_k3.png)
![k=5](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/knn_illustration_k5.png)

"Ең жақын" көршілерді табу үшін бізге қашықтықты өлшей білу керек. Ол үшін [**метрикалар**](http://lightcone.ru/manhattan/?ysclid=mhu3mmwtkq673949565) қолданылады

#### Минковский метрикасы
Бұл n-өлшемді кеңістіктегі екі $x$ және $x_i$ векторлары арасындағы қашықтықтың жалпыланған метрикасы. Ол келесі түрге ие:

$$ p(x, x_i) = \left( \sum_{j=1}^{n} \omega_j |x^j - x_i^j|^p \right)^{1/p} $$

мұндағы:
- $n$ — белгілер саны (кеңістік өлшемі).
- $p > 0$ — метриканың түрін анықтайтын параметр.
- $\omega_j$ — белгілердің салмақтары. Олар белгілердің әртүрлі масштабы немесе маңыздылығы болғанда маңызды. Іс жүзінде, белгілердің әсерін теңестіру үшін деректерді әрқашан **масштабтайды**.

![Разница между метриками расстояния](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/distance_metrics.png)

Минковский метрикасының екі ең танымал жеке жағдайы:

1.  **Евклидтік қашықтық (p=2 болғанда):** Бізге үйреншікті "тікелей" қашықтық.
$$ p(x, x_i) = \sqrt{ \sum_{j=1}^{n} (x^j - x_i^j)^2 } $$

2.  **Манхэттендік қашықтық (p=1 болғанда):** "Қалалық кварталдар қашықтығы", координаталар айырмашылықтарының модульдерінің қосындысы.
$$ p(x, x_i) = \sum_{j=1}^{n} |x^j - x_i^j| $$

### 1.2. KNN алгоритмі

Жаңа $x$ нысанын жіктеу үшін алгоритм келесі қадамдарды орындайды:
1.  **K таңдау** — біз сүйенетін көршілер саны.
2.  **Қашықтықтарды есептеу** — таңдалған метрика арқылы $x$-тен оқыту жиынтығындағы әрбір $x_i$ нысанына дейінгі қашықтықты есептеу.
3.  **K көршіні табу** — оқыту жиынтығынан $x$-ке ең аз қашықтықта орналасқан K нысанды таңдау.
4.  **Класты анықтау** — $x$ нысанының класы табылған K көршілер арасында басым болатын класс бойынша анықталады (көпшілік дауыс беру).

Математикалық тұрғыдан, егер $y^{(i)}$ — $k$ ең жақын көршінің $i$-ші көршісінің класы болса, онда жаңа нысанның $a(x)$ класы былай табылады:

$$ a(x, X^l) = \arg\max_{y \in Y} \sum_{i=1}^{k} [y^{(i)} = y] $$

### 1.3. KNN артықшылықтары мен кемшіліктері

#### Артықшылықтары:
*   **Қарапайымдылық және интуитивтілік:** Алгоритмді түсіну және жүзеге асыру оңай.
*   **Икемділік:** Регрессия есептеріне оңай бейімделеді (көршілердің мәндерін орташалау арқылы, ол үшін `scikit-learn`-де **`KNeighborsRegressor`** модулі қолданылады).
*   **Оқыту кезеңі жоқ:** KNN "жалқау" алгоритм болып табылады. Ол модель құрмайды, тек бүкіл оқыту жиынтығын жаттап алады. Оқыту лезде жүреді.

#### Кемшіліктері:
*   **Болжау кезеңіндегі есептеу күрделілігі:** Бір жаңа нысанды жіктеу үшін оқыту жиынтығындағы барлық нысандарға дейінгі қашықтықты есептеу керек, бұл үлкен деректерде өте баяу болуы мүмкін.
*   **Белгілердің масштабына сезімталдығы:** Деректерді міндетті түрде масштабтауды қажет етеді.
*   **K таңдауына сезімталдығы:** Нәтиже осы гиперпараметрге қатты тәуелді.
*   **Жадқа талапшылдық:** Бүкіл оқыту жиынтығын сақтау қажет.

## 2-бөлім: Тірек векторлар әдісі (Support Vector Machines, SVM)

SVM — ең қуатты және танымал жіктеу алгоритмдерінің бірі. Оның негізгі идеясы — жай ғана бөлу шекарасын емес, **оңтайлы бөлуші гипержазықтықты** табу.

### 2.1. Интуиция және математикалық негіздер

#### Гипержазықтық
Гипержазықтық — бұл түзудің (2D үшін) және жазықтықтың (3D үшін) кез келген өлшемді кеңістікке жалпылануы. Бұл өлшемі бастапқы кеңістіктен бірге кем ішкі кеңістік.

![Примеры гиперплоскостей в разных размерностях](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/hyperplanes.png)

Гипержазықтық теңдеуі келесі түрде беріледі:

$$ w^T x - b = 0 \quad \text{немесе} \quad \langle w, x \rangle - b = 0 $$

мұндағы:
- $w$ — оның бағытын анықтайтын салмақтар векторы (гипержазықтыққа нормаль).
- $x$ — нысанның белгілер векторы.
- $b$ — гипержазықтықтың орналасуын анықтайтын ығысу (bias).

#### Аралықты (Margin) барынша арттыру
SVM әр класстың ең жақын нысандарынан максималды қашықтықта орналасқан гипержазықтықты іздейді. Бұл аралық **margin** деп аталады. Осы аралықтың шекараларында жатқан нысандар **тірек векторлар** (support vectors) деп аталады, өйткені дәл солар гипержазықтықты "қолдап", оның орналасуын анықтайды.

![Оптимальная разделяющая гиперплоскость](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/оптимальная_разделяющая_гиперплоскость.png)


**Сызықтық бөлінетін** жағдай үшін SVM есебі квадраттық бағдарламалау есебіне келеді: біз барлық нүктелердің дұрыс жіктелгені шартымен салмақтар векторының нормасын **минималдауды** (бұл аралықты максималдауға тең) қалаймыз.

$$ \frac{1}{2} ||w||^2 \rightarrow \min_{w,b} $$
Шектеу кезінде:
$$ y_i(\langle w, x_i \rangle - b) \ge 1, \quad i=1, \dots, l $$

**Бұл формуланы талдап көрейік:**
1.  **$\langle w, x_i \rangle - b$ өрнегі** — бұл $x_i$ нүктесі үшін "есеп". Оның таңбасы нүктенің орталық сызықтан қай жақта екенін көрсетеді.
2.  **$y_i$-ге көбейту** (класс белгісі, `+1` немесе `-1`) — бұл бір айла. Егер нүкте дұрыс жіктелсе, осы көбейтіндінің нәтижесі әрқашан оң болады.
3.  **$\ge 1$ талабы** — ең бастысы. Біз әр нүктенің орталықтан дұрыс жақта (`> 0`) ғана емес, өз аралығының шекарасында (`= 1`) немесе одан да алыс (`> 1`) болуын талап етеміз. Бұл кластар арасында "бос аймақ" жасайды, оның енін біз барынша арттыруға тырысамыз.

### 2.2. "Тірек Векторлар" деген не?

"Тірек Векторлар Әдісі" атауы өзі-өзіне жауап беріп тұр. **Тірек векторлар** — бұл оңтайлы бөлуші гипержазықтықтың орналасуы мен бағытын анықтайтын оқыту жиынтығындағы негізгі нүктелер.

**Тұжырымдама:** Үстелдегі екі түрлі тиынды сызғышпен бөліп жатырсыз деп елестетіңіз. Аралық максималды болуы үшін, сіз сызғышты екі жақтан да бірнеше тиынға тірелгенше жылжытасыз. Сызғышты "тіреп тұрған" осы тиындар — **тірек векторлар**. Алыста орналасқан қалған барлық тиындар сызғыштың орналасуына әсер етпейді.

**Анықтама:**
1.  **Идеалды жағдайда (Hard Margin):** Тірек векторлар болып тек **дәл аралықтың шекараларында жатқан** нүктелер саналады (мұнда $ y_i(\langle w, x_i \rangle - b) = 1 $).
2.  **Нақты жағдайда (Soft Margin):** Тірек векторлар болып **барлық бұзушы-нүктелер** саналады: аралықтың шекарасында, оның ішінде жатқандар немесе дұрыс жіктелмегендер.

**Бұл неліктен маңызды?**
- **Тиімділік:** Оқытудан кейін SVM моделі жадында бүкіл оқыту жиынтығын емес, **тек тірек векторларды** сақтайды. Жаңа нысанды болжау үшін ол оны **тек осы тірек векторлармен** салыстырады, бұл SVM-ді болжау кезеңінде өте жылдам етеді.

#### Жұмсақ аралық (Soft Margin) және бөлінбейтін деректер
Шындығында, деректерді мінсіз бөлуге жиі болмайды. Мұндай жағдайлар үшін "жұмсақ аралық" тұжырымдамасы енгізіледі. Біз кейбір нүктелерге аралық шекараларын бұзуға немесе тіпті дұрыс жіктелмеуге рұқсат етеміз.

![Пример мягкого зазора (Soft Margin)](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/пример_мягкого_зазора_(soft_margin).png)

Бұл үшін $i$-ші нысанның шекараны қаншалықты бұзатынын көрсететін **әлсіз айнымалылар** (slack variables) $\xi_i \ge 0$ енгізіледі.

Оңтайландыру есебі күрделенеді: енді біз тек салмақтар векторының нормасын ғана емес, сонымен қатар жалпы қатені ($\xi_i$ қосындысын) де минималдаймыз:\n$$ \frac{1}{2} ||w||^2 + C \sum_{i=1}^{l} \xi_i \rightarrow \min_{w,b,\xi} $$
Шектеу әлсірейді:
$$ y_i(\langle w, x_i \rangle - b) \ge 1 - \xi_i, \quad \xi_i \ge 0, \quad i=1, \dots, l $$

*   Егер $\xi_i = 0$ болса, нүкте аралықтың сыртында орналасқан (бәрі дұрыс).
*   Егер $0 < \xi_i \le 1$ болса, нүкте аралықтың ішіне түскен, бірақ дұрыс жіктелген.
*   Егер $\xi_i > 1$ болса, нүкте дұрыс жіктелмеген.

Модель бір уақытта **аралықты максималдауға** ($||w||^2$-ны минималдау) және **жалпы қатені минималдауға** ($\sum \xi_i$-ны минималдау) тырысады. Осы екі мақсат арасындағы тепе-теңдік **`C` гиперпараметрімен** бақыланады.

**`C` гиперпараметрі** — бұл реттеу (регуляризация) параметрі. Ол аралықты максималдау мен қателер санын минималдау арасындағы тепе-теңдікті бақылайды:
- **Кішкентай `C`**: Біз оқыту жиынтығында көбірек қателіктерге әкелсе де, кең аралықты қалаймыз. Модель қарапайым, қайта оқытуға аз бейім (жоғары ығысу, төмен дисперсия).
- **Үлкен `C`**: Біз қателіктер үшін қатты айыппұл саламыз, сондықтан модель әр нүктені аралықты тарылту арқылы болса да, дұрыс жіктеуге тырысады. Модель күрделірек және қайта оқытуға бейім (төмен ығысу, жоғары дисперсия).

#### Ядро айласы (Kernel Trick)

Егер деректер жұмсақ аралықпен де бөлінбейтін болса (мысалы, бір класс екіншісінің ішінде орналасқан)? Идея деректерді өлшемі жоғарырақ белгілер кеңістігіне ауыстыруда, онда олар сызықтық бөлінетін болуы мүмкін.

![Визуализация трюка с ядром](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/kernel_trick_visualization.png)



#### SVM қалай болжам жасайды (Екі жақты форма)

SVM болжау формуласын $w$ векторына емес, тікелей тірек векторларға тәуелді түрде жазуға болады екен:

$$ \text{болжау}(x) = \text{sign} \left( \sum_{i \in SV} \alpha_i y_i \langle x_i, x \rangle - b \right) $$

мұндағы:
- $x$ — біз жіктегіміз келетін жаңа нысан.
- $x_i$ — модель оқыту кезінде жаттап алған $i$-ші **тірек вектор**.
- $\alpha_i$ және $y_i$ — осы тірек вектордың салмағы мен класы.
- $\langle x_i, x \rangle$ — жаңа нысанның $i$-ші тірек векторға "ұқсастығын" өлшейтін скалярлық көбейтінді.

**Қарапайым сөзбен:** жаңа нысанды жіктеу үшін, SVM оның жаттап алынған тірек векторлардың әрқайсысына ұқсастығын өлшейді, осы ұқсастықтарды салмақтармен қосады және қорытынды таңба негізінде шешім шығарады.

#### Ядро деген не?

**Ядро — бұл есептеу айласы.** Бұл $K(x_i, x)$ функциясы, ол бізге жаңа, өте күрделі кеңістіктегі скалярлық көбейтіндінің нәтижесін алуға мүмкіндік береді, **осы кеңістікке түрлендіруді орындамай-ақ.**

Біз болжау формуласындағы $\langle x_i, x \rangle$-ты жай ғана $K(x_i, x)$-ке ауыстырамыз:

$$ \text{болжау}(x) = \text{sign} \left( \sum_{i \in SV} \alpha_i y_i K(x_i, x) - b \right) $$

**Танымал ядролар:**
1.  **Сызықтық:** $K(x_i, x) = \langle x_i, x \rangle$.
2.  **Полиномдық:** $K(x_i, x_j) = (\gamma \langle x_i, x_j \rangle + r)^d$. Гиперпараметрлер: $d$ дәрежесі, $\gamma$ коэффициенті, $r$ бос мүшесі.
3.  **Радиалды базистік функция (RBF):** $K(x_i, x) = \exp(-\gamma ||x_i - x||^2)$. Гаусс функциясы негізінде "ұқсастықты" есептейді. `gamma` параметрімен бақыланады. Кішкентай `gamma` үлкен әсерді білдіреді (тегіс шекара), үлкен `gamma` — жергілікті әсерді білдіреді (өте күрделі, ирек шекара).

### 2.3. 'Ядро айласының' іс жүзіндегі демонстрациясы

Қарапайым, көрнекі мысал арқылы ядролардың неліктен соншалықты маңызды екенін көрейік. Біз түзу сызықпен бөлу мүмкін емес синтетикалық деректер жиынтығын жасаймыз.

In [None]:
from sklearn.datasets import make_circles
import matplotlib.pyplot as plt
import numpy as np

# Деректерді жасаймыз: бір класс (0) екінші класстың (1) ішінде шеңбер түрінде
X, y = make_circles(n_samples=100, noise=0.1, factor=0.5, random_state=42)

# Визуализациялаймыз
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='winter')
plt.title('Сызықтық бөлінбейтін деректер (шеңберлер)')
plt.show()

Көріп отырғанымыздай, бұл деректерді бір түзу сызықпен бөлу мүмкін емес. Екі түрлі ядросы бар SVM-ді оқытып көрейік.

**№1 талпыныс: Сызықтық ядро**

In [None]:
from sklearn.svm import SVC

# Бөлу бетін сызуға арналған көмекші функция
def plot_decision_boundary(model, X, y):
    x_min, x_max = X[:, 0].min() - 0.1, X[:, 0].max() + 0.1
    y_min, y_max = X[:, 1].min() - 0.1, X[:, 1].max() + 0.1
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100),
                           np.linspace(y_min, y_max, 100))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.3, cmap='winter')
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap='winter', edgecolors='k')
    plt.title(f'Ядро: {model.kernel}')

# Сызықтық ядромен модельді оқытамыз
linear_svm = SVC(kernel='linear').fit(X, y)

# Нәтижені визуализациялаймыз
plt.figure(figsize=(8, 6))
plot_decision_boundary(linear_svm, X, y)
plt.show()
print(f"Сызықтық SVM дәлдігі: {linear_svm.score(X,y):.2f}")

Сызықтық ядро сәтсіздікке ұшырады. Модель кластарды нашар бөлетін түзу сызық жүргізді, және дәлдік өте төмен.

**№2 талпыныс: Сызықтық емес RBF ядросы**

In [None]:
# RBF ядросымен модельді оқытамыз (әдепкі бойынша қолданылады)
rbf_svm = SVC(kernel='rbf', C=1, gamma='auto').fit(X, y)

# Нәтижені визуализациялаймыз
plt.figure(figsize=(8, 6))
plot_decision_boundary(rbf_svm, X, y)
plt.show()
print(f"RBF SVM дәлдігі: {rbf_svm.score(X,y):.2f}")

**Қорытынды:** RBF ядросы тапсырманы сәтті орындады! Ол кластарды мінсіз бөлген сызықтық емес, шеңберлі шекара салды, және дәлдік 100% болды. Бұл мысал "ядро айласының" SVM-ге бір ғана гиперпараметрді өзгерту арқылы күрделі, сызықтық емес есептерді шешуге қалай мүмкіндік беретінін айқын көрсетеді.

### 2.4. SVM артықшылықтары мен кемшіліктері

#### Артықшылықтары:
*   **Жоғары өлшемді кеңістіктердегі тиімділік:** Белгілер көп болғанда тамаша жұмыс істейді.
*   **Жад бойынша тиімділік:** Модель құру үшін оқыту нүктелерінің тек бір бөлігін (тірек векторларды) пайдаланады.
*   **Икемділік:** Ядролардың арқасында өте күрделі сызықтық емес бөлу беттерін құра алады.
*   **Берік математикалық негіздемесі бар**, дөңес оңтайландыру есебі түрінде, бұл ғаламдық минимумды табуға кепілдік береді.

#### Кемшіліктері:
*   **Ядроны және оның гиперпараметрлерін (`C`, `gamma`) таңдауға сезімталдығы:** `GridSearchCV` көмегімен мұқият таңдауды қажет етеді.
*   **Есептеу күрделілігі:** Өте үлкен деректер жиындарында оқыту ұзақ болуы мүмкін.
*   **Түсіндірудің қиындығы:** Сызықтық емес ядросы бар модель "қара жәшік" болып табылады, оның шешімдерін түсіндіру қиын.

### 2.5. Регрессия есептері үшін SVM-ді қолдану (SVR)

Тірек векторлар әдісін регрессия есептерін шешу үшін де талғампаз түрде бейімдеуге болады. Бұл тәсіл **Тірек-векторлық регрессия (Support Vector Regression, SVR)** деп аталады.

#### Интуиция: "максималды аралықтан" "мүмкіндігінше кең көшеге" дейін

Еске түсірейік, классификацияда SVM кластар арасында **максималды аралыққа** ие болатын гипержазықтықты іздеді. Регрессияда кластар жоқ, бізде үздіксіз мақсатты айнымалы бар.

SVR-дің негізгі идеясы — керісінше әрекет ету. Нүктелерді бір-бірінен алшақтатудың орнына, біз айналасында мүмкіндігінше көп нүктелері бар "көше" немесе "дәліз" құруға болатын функцияны (гипержазықтықты) тапқымыз келеді.

* **Мақсат:** Регрессия сызығын көптеген нүктелерге мүмкіндігінше жақын болатындай етіп жүргізу.  
* **"Көше" (Дәліз):** Біз регрессия сызығымыздың айналасында ені $2ε$ (екі эпсилон) болатын дәлізді анықтаймыз.  
* **Ереже:** Егер деректер нүктелері осы дәліздің **ішіне** түссе, біз модельге **айыппұл салмаймыз**. Айыппұл тек **сыртта** қалған нүктелер үшін ғана есептеледі.

![SVR жұмыс істеу принципі](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/svr_illustration.png)

#### Математикалық қойылым

SVR есебі, SVM сияқты, дөңес оңтайландыру есебіне келеді. Біз тағы да салмақтар векторының $||w||^2$ нормасын минималдауды қалаймыз (бұл модельді "тегіс" етеді), бірақ басқа шектеулермен.

Біз $ε$-нан аз ауытқуларды "кешіре отырып", нақты $y_i$ мәндерінен ең аз ауытқуы бар $f(x) = \langle w, x \rangle + b$ функциясын тапқымыз келеді.

Бұл келесі минималдау есебіне әкеледі ("бастапқы" форма):

$$ \frac{1}{2} ||w||^2 + C \sum_{i=1}^{l} (\xi_i + \xi_i^*) \rightarrow \min_{w,b,\xi,\xi^*} $$

Шектеулер:
$$ y_i - (\langle w, x_i \rangle + b) \le ε + \xi_i \quad (\text{дәлізден жоғары нүктелер үшін}) $$
$$ (\langle w, x_i \rangle + b) - y_i \le ε + \xi_i^* \quad (\text{дәлізден төмен нүктелер үшін}) $$
$$ \xi_i, \xi_i^* \ge 0 $$

* $ε$ (эпсилон) — сызықтан бір жаққа қарай "сезімтал емес аймақтың" ені.  
* $\xi_i$ және $\xi_i^*$ — $x_i$ нүктесінің дәлізден жоғары немесе төмен **қаншалықты** "шығып кеткенін" өлшейтін әлсіз айнымалылар.  
* `C` — модельдің "тегістігі" мен қателер саны арасындағы тепе-теңдікті бақылайтын реттеу параметрі.

#### Екі жақты (дуальды) форма және SVR-дегі тірек векторлардың рөлі

Классификациядағы сияқты, практикалық есептеулер (және ядроларды пайдалану) үшін "екі жақты" форма қолданылады. Болжауға арналған қорытынды формула келесідей:

$$ \text{болжау}(x) = \left( \sum_{i \in SV} (\alpha_i - \alpha_i^*) K(x_i, x) \right) + b $$

**Осы негізгі формуланы талдап көрейік:**
* **$K(x_i, x)$** — бұл жаңа $x$ нысанының $x_i$ тірек векторына "ұқсастығын" өлшейтін ядро.  
* **$SV$** — бұл **тірек векторлар** жиыны, яғни тек $ε$-дәлізінің шекарасында немесе оның сыртында жатқан нүктелер.  
* **$\alpha_i$ және $\alpha_i^*$** — бұл **Лагранж көбейткіштері**, оларды интуитивті түрде тірек векторлардың регрессия сызығын өздеріне "тартатын" "күштері" ретінде елестетуге болады.  
  * **$\alpha_i > 0$** (және $\alpha_i^*=0$) дәлізден **жоғары** орналасқан нүктелер үшін. Олар сызықты **жоғары қарай** тартады.  
  * **$\alpha_i^* > 0$** (және $\alpha_i=0$) дәлізден **төмен** орналасқан нүктелер үшін. Олар сызықты **төмен қарай** тартады.  
  * Дәліздің **ішіндегі** барлық нүктелер үшін $\alpha_i=0$ және $\alpha_i^*=0$. Олар қорытынды модельге **әсер етпейді**.  
* **$(\alpha_i - \alpha_i^*)$** өрнегі — бұл $i$-ші тірек вектордың модельдегі қорытынды **"салмағы"**. Егер нүкте жоғары тартса, ол оң, ал төмен тартса, теріс болады.

**Қарапайым сөзбен:** қорытынды регрессиялық қисық жаңа нысанның барлық бұзушы-нүктелермен (тірек векторлармен) "ұқсастықтарының" салмақталған қосындысы ретінде құрылады.

#### Scikit-Learn-де іске асыру

`scikit-learn`-де тірек векторлар әдісімен регрессия жасауға арналған бірнеше класс бар:

1. **`sklearn.svm.SVR`**  
   * Ядролардың барлық түрлерін (`linear`, `poly`, `rbf`) қолдайтын ең әмбебап іске асыру.  
   * **Негізгі гиперпараметрлер:**  
     * `kernel`: Ядро түрі. Әдепкі бойынша `'rbf'`.  
     * `C`: Реттеу параметрі.  
     * `gamma`: `rbf` және `poly` ядролары үшін коэффициент.  
     * `epsilon`: $ε$-дәлізінің ені.  

2. **`sklearn.svm.LinearSVR`**  
   * **Тек сызықтық ядро үшін** мамандандырылған және жылдам іске асыру.  
   * Үлкен деректерде `SVR(kernel='linear')`-ге қарағанда әлдеқайда жылдам.  
   * **Қашан қолдану керек:** Деректердегі тәуелділік сызықтық болғанда және жылдамдық маңызды болғанда.  

3. **`sklearn.svm.NuSVR`**  
   * `C`-ның орнына `nu` параметрін қолданатын баламалы іске асыру.  
   * `nu` (0-ден 1-ге дейін) тірек векторлардың үлесін бақылайды.  

**`SVR` мен `LinearSVR`-дің негізгі айырмашылығы** — `SVR` ядролардың арқасында сызықтық емес модельдер құруға мүмкіндік береді, ал `LinearSVR` тек сызықтық есептер үшін оңтайландырылған.


## 3-бөлім: Модельді бағдарламалау схемасы (Workflow)

Таңдалған алгоритмге (KNN, SVM немесе басқа) қарамастан, оны кодта қолдану процесі стандартты схема бойынша жүреді. Бұл үшін біз қуатты Python кітапханаларын қолданамыз: `pandas` деректермен жұмыс істеу үшін, `matplotlib` және `seaborn` визуализация үшін, және `scikit-learn` машиналық оқыту үшін.

#### 1-қадам: Деректерді жүктеу және дайындау
*   **Не істейміз:** Деректерді жүктейміз (мысалы, CSV-ден) және барлау талдауын (EDA) жүргіземіз.
*   **Кітапханалар:** `import pandas as pd`, `import seaborn as sns`
*   **Мысал:** `df = pd.read_csv('data.csv')`, `sns.countplot(x=df['target'])`

#### 2-қадам: Белгілерді (X) және мақсатты (y) анықтау
*   **Не істейміз:** Датафреймді `X` белгілер матрицасына және `y` мақсатты айнымалы векторына бөлеміз.
*   **Мысал:** `X = df.drop('target', axis=1)`, `y = df['target']`

#### 3-қадам: Оқыту және тест жиынтықтарына бөлу
*   **Не істейміз:** Модель оқытылмайтын деректердің бір бөлігін оның сапасын әділ бағалау үшін бөліп аламыз.
*   **Кітапханалар:** `from sklearn.model_selection import train_test_split`
*   **Мысал:** `X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)`

#### 4-қадам: Белгілерді масштабтау
*   **Не істейміз:** Барлық белгілерді бірыңғай масштабқа келтіреміз. **KNN және SVM үшін өте маңызды!**
*   **Кітапханалар:** `from sklearn.preprocessing import StandardScaler`
*   **Мысал:** `scaler = StandardScaler()`, `X_train_scaled = scaler.fit_transform(X_train)`, `X_test_scaled = scaler.transform(X_test)`
*   **Маңызды:** `fit` әдісі (орташа және стандартты ауытқуды есептеу) тесттен ақпараттың ағып кетуін болдырмау үшін **тек оқыту деректерінде** шақырылады!

#### 5-қадам: Модельді құру және оқыту
*   **Не істейміз:** Модель данасын құрып, оны масштабталған оқыту деректерінде оқытамыз.
*   **Кітапханалар:** `from sklearn.neighbors import KNeighborsClassifier`, `from sklearn.svm import SVC`
*   **Мысал:** `model = SVC(C=1.0, kernel='rbf')`, `model.fit(X_train_scaled, y_train)`

#### 6-қадам: Болжау және сапаны бағалау
*   **Не істейміз:** Тест деректерінде болжамдар жасаймыз және оларды нақты мәндермен салыстырамыз.
*   **Кітапханалар:** `from sklearn.metrics import classification_report, confusion_matrix`
*   **Мысал:** `predictions = model.predict(X_test_scaled)`, `print(classification_report(y_test, predictions))`

#### Оңтайландыру: Pipeline және GridSearchCV
4-6 қадамдарды автоматтандыру және ең жақсы гиперпараметрлерді табу үшін `Pipeline` (қадамдарды конвейерге біріктіреді) және `GridSearchCV` (параметрлерді тор бойынша тексереді) қолданылады.

## 4-бөлім: Python-дағы практикалық мысалдар

In [None]:
# Барлық қажетті кітапханаларды импорттаймыз
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.datasets import load_wine

# Жақсырақ визуализация үшін баптаулар
sns.set_style('whitegrid')

### 1-мысал: Бинарлық классификация (Шараптың жалғандығы)

**Мәселе:** Химиялық талдау негізінде шараптың нағыз (`Legit`) немесе жалған (`Fraud`) екенін анықтау.

In [None]:
# Деректерді жүктейміз
df_fraud = pd.read_csv('https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/data/wine_fraud.csv')

# EDA
print('Деректер жинағы туралы ақпарат:')
df_fraud.info()
print('\nКластардың балансы:')
print(df_fraud['quality'].value_counts())
sns.countplot(x='quality', data=df_fraud)
plt.title('Шарап туралы деректер жинағындағы кластардың балансы')
plt.show()

# Деректерді дайындау
X = df_fraud.drop('quality', axis=1)
# Ыңғайлылық үшін 'Legit'/'Fraud' мәндерін 0/1-ге айналдырамыз
y = df_fraud['quality'].map({'Legit': 0, 'Fraud': 1})

# 'type' категориялық белгісін өңдеу
X = pd.get_dummies(X, columns=['type'], drop_first=True)

# Деректерді бөлу
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=101)

#### Бинарлық классификацияға арналған KNN моделі

In [None]:
# Pipeline жасаймыз: алдымен масштабтау, содан кейін KNN моделі
knn_pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier())
])

# Іріктеуге арналған параметрлер торын белгілейміз: ең жақсы k-ны іздейміз
k_values = list(range(1, 20))
param_grid_knn = {'knn__n_neighbors': k_values}

# GridSearchCV құрып, оқытамыз
grid_knn = GridSearchCV(knn_pipe, param_grid_knn, cv=5, scoring='accuracy')
grid_knn.fit(X_train, y_train)

print(f"KNN үшін ең жақсы параметр: {grid_knn.best_params_}")

# KNN моделін бағалау
knn_preds = grid_knn.predict(X_test)
print("\n--- KNN моделінің сапасы бойынша есеп ---")
print(classification_report(y_test, knn_preds))

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
 
cm = confusion_matrix(y_test, knn_preds)
 
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Legit', 'Fraud'], yticklabels=['Legit', 'Fraud'])
plt.xlabel('Болжанған класс')
plt.ylabel('Нақты класс')
plt.title('KNN моделі үшін қателіктер матрицасы')
plt.savefig("confusion_matrix_heatmap.png")
plt.show()

#### Бинарлық классификацияға арналған SVM моделі

In [None]:
# SVM үшін Pipeline жасаймыз
svm_pipe = Pipeline([
    ('scaler', StandardScaler()),
    # class_weight='balanced' көмегімен кластардың теңгерімсіздігін ескереміз
    ('svm', SVC(class_weight='balanced'))
])

# SVM үшін параметрлер торы. C және gamma - RBF ядросының негізгі параметрлері
param_grid_svm = {
    'svm__C': [0.1, 1, 10],
    'svm__gamma': ['scale', 'auto', 0.1]
}

# GridSearchCV құрып, оқытамыз
grid_svm = GridSearchCV(svm_pipe, param_grid_svm, cv=5, scoring='accuracy')
grid_svm.fit(X_train, y_train)

print(f"SVM үшін ең жақсы параметрлер: {grid_svm.best_params_}")

# SVM моделін бағалау
svm_preds = grid_svm.predict(X_test)
print("\n--- SVM моделінің сапасы бойынша есеп ---")
print(classification_report(y_test, svm_preds))

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
 
cm = confusion_matrix(y_test, svm_preds)
 
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Legit', 'Fraud'], yticklabels=['Legit', 'Fraud'])
plt.xlabel('Болжанған класс')
plt.ylabel('Нақты класс')
plt.title('SVM моделі үшін қателіктер матрицасы')
plt.savefig("confusion_matrix_heatmap.png")
plt.show()

#### Бинарлық классификация есебінде KNN мен SVM-ді салыстыру

**Қорытындылар:**
1.  **Метрикалар:** `classification_report` есептерін салыстырыңыз. Қай модель `Fraud` класы (белгі 1) үшін жоғарырақ `f1-score` береді? Алаяқтықты немесе ақауларды іздеу есептерінде көбінесе **толықтық (recall)** маңыздырақ, яғни жалған оң нәтижелердің есебінен болса да, алаяқтық жағдайларын мүмкіндігінше көбірек табу.
2.  **Өнімділік:** Бұл деректер жинағында SVM жақсырақ нәтиже көрсетуі ықтимал. Максималды аралықпен күрделі шекара құру қабілетінің арқасында ол кластарды тиімдірек бөледі.
3.  **Күрделілік:** SVM-ді баптау гиперпараметрлердің көптігіне (`C`, `gamma`, ядро түрі) байланысты қиынырақ, бірақ `GridSearchCV` бұл процесті автоматтандырады.

### 2-мысал: Көп класты классификация (Шарап сорттары)

**Мәселе:** 13 химиялық белгі негізінде шарапты үш сорттың біріне жіктеу.

#### Алгоритмдер көп класты есепті қалай шешеді?
-   **KNN:** Табиғи түрде. Ол жай ғана K ең жақын көршіні тауып, 3+ кластың қайсысы басым екенін қарайды.
-   **SVM:** SVM табиғаты бойынша бинарлық классификатор болып табылады. Көп класты есепті шешу үшін ол стратегиялардың бірін қолданады:
    -   **One-vs-Rest (OvR):** N классификатор оқытылады, мұндағы N — кластар саны. Әр классификатор "өз" класын қалғандарынан (`Rest`) ажыратуды үйренеді.
    -   **One-vs-One (OvO):** Әрбір мүмкін класс жұбы үшін N * (N-1) / 2 классификатор оқытылады. Жаңа нысан көптеген "жекпе-жектерде" "жеңген" класспен жіктеледі. **Scikit-learn бұл стратегияны `SVC` үшін әдепкі бойынша қолданады**, себебі ол жиі тиімдірек болады.


In [None]:
# sklearn-нен деректерді жүктеу
wine_data = load_wine()
X = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)
y = pd.Series(wine_data.target)

# EDA
print("Шарап сорттары деректер жинағының өлшемдері:", X.shape)
print("\nКластардың балансы:")
print(y.value_counts())

# Деректерді бөлу
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=101)

#### Көп класты классификацияға арналған KNN моделі

In [None]:
# Бұрынғыдай Pipeline қолданамыз
grid_knn_multi = GridSearchCV(knn_pipe, param_grid_knn, cv=5, scoring='accuracy')
grid_knn_multi.fit(X_train, y_train)

print(f"KNN үшін ең жақсы параметр: {grid_knn_multi.best_params_}")

# Бағалау
knn_preds_multi = grid_knn_multi.predict(X_test)
print("\n--- KNN моделінің сапасы бойынша есеп (көп класты) ---")
print(classification_report(y_test, knn_preds_multi))

print("Қателіктер матрицасы:")
print(confusion_matrix(y_test, knn_preds_multi))

#### Көп класты классификацияға арналған SVM моделі

In [None]:
# Кластар теңгерімді болғандықтан, SVM үшін class_weight-сіз Pipeline
svm_pipe_multi = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVC())
])

param_grid_svm_multi = {
    'svm__C': [0.1, 1, 10, 100],
    'svm__gamma': ['scale', 'auto', 0.1, 0.01]
}

grid_svm_multi = GridSearchCV(svm_pipe_multi, param_grid_svm_multi, cv=5, scoring='accuracy')
grid_svm_multi.fit(X_train, y_train)

print(f"SVM үшін ең жақсы параметрлер: {grid_svm_multi.best_params_}")

svm_preds_multi = grid_svm_multi.predict(X_test)
print("\n--- SVM моделінің сапасы бойынша есеп (көп класты) ---")
print(classification_report(y_test, svm_preds_multi))

print("Қателіктер матрицасы:")
print(confusion_matrix(y_test, svm_preds_multi))

#### Көп класты классификация есебінде салыстыру

**Қорытындылар:**
1.  **Метрикаларды түсіндіру:** Есепте енді үш кластың (0, 1, 2) әрқайсысы үшін жолдар және орташаланған мәндер (`macro avg`, `weighted avg`) бар.
2.  **Қателіктер матрицасы:** Енді бұл 3x3 матрица. `i` жолы мен `j` бағанының қиылысындағы элемент нақты `i` класындағы нысандардың қаншасы `j` класы ретінде болжанғанын көрсетеді. Диагональдық элементтер — дұрыс жіктелген нысандар. Диагональдан тыс элементтер — қателер. Бұл матрицаны талдау модельдің қай кластарды бір-бірімен шатастыратынын түсінуге көмектеседі.
3.  **Нәтиже:** Бұл классикалық деректер жинағында екі модель де өте жоғары, 100% дәлдікке жақын нәтижелер көрсетуі ықтимал, бірақ дұрыс таңдалған параметрлері бар SVM жиі сәл дәлірек болады.

## Қорытынды

Біз табиғаты бойынша өте әртүрлі, бірақ қуатты екі классификация алгоритмін қарастырдық.

| Сипаттама | K-ең жақын көршілер (KNN) | Тірек векторлар әдісі (SVM) |
| :--- | :--- | :--- |
| **Негізгі идея** | Көршілердің көпшілік дауысы бойынша жіктеу | Оңтайлы бөлуші гипержазықтықты іздеу |
| **Модель түрі** | Метрикалық, "жалқау" (модель құрмайды) | Геометриялық, нақты модель құрады |
| **Негізгі параметрлер** | `n_neighbors` (көршілер саны) | `C` (реттеу), `kernel`, `gamma` (RBF үшін) |
| **Талаптар** | Деректерді **міндетті** түрде масштабтау | Деректерді **міндетті** түрде масштабтау |
| **Ең жақсы сәйкес келеді** | Жылдам прототиптерге, деректер "таза" және жақсы топтастырылған кезде | Сызықтық емес шекаралары бар күрделі есептерге, жоғары өлшемді кеңістіктерде |
| **Түсіндірілуі** | Жоғары (көршілерге қарауға болады) | Төмен (әсіресе сызықтық емес ядролармен) |