# Метод опорных векторов - Support Vector Machines
---

## Гиперплоскости и зазоры

В N-мерном пространстве **гиперплоскость** - это подпространство размерности N-1.

Например:
* **В 1-мерном пространстве**, когда у нас всего один признак X, у нас есть одномерная ось x в этом случае - **гиперплоскость - это точка**, которая делит всю ось на две части слева и справа от этой точки:

  ![image.png](attachment:842f0f91-9459-4194-b829-7127ed6127a1.png)
  
* **В 2-мерном пространстве** у нас есть два признака X1 и X2, в этом случае - **гиперплоскость - это линия**, которая делит всё двумерное пространство на две части:

  ![image.png](attachment:47cc4bc3-722a-4f7e-b521-28612c1df6aa.png)
  
* **В 3-мерном пространстве гиперплоскость - это плоская поверхность**, которая делит всё трёхмерное пространство на две части:

  ![image.png](attachment:ab795b14-adb5-47f4-9bdf-1ba1803e656e.png)
  
* В пространствах большей размерности уже сложно представить визуально как выглядит гиперплоскость, но идея будет та же самая - понижаем размерность на 1 и получаем нечто вроде линии, которая разделяет всё пространство на две части.

**Основная идея метода опорных векторов** состоит в том, что мы **можем найти гиперплоскость, отделяющую классы друг от друга**. Когда новые точки оказываются по ту или иную сторону этой гиперплоскости, мы можем назначать этим точкам классы.

Представим набор данных с одним признаком и бинарной целевой переменной. Например: *признак - вес цыплят*, *целевая переменная - пол цыплят*. Как это будет выглядеть визуально?

Мы возьмём те точки, для которых известны истинные значения пола и нанесём их на ось x, где по оси x - откладываем вес цыплят. Эти данные - это наш обучающий набор данных. *В данном примере два класса можно идеально отделить друг от друга, что не всегда возможно в случае реальных данных.*

![image.png](attachment:7967e047-5a93-43c9-aff4-4836fed6df5c.png)

**Идея вектора опорных векторов** состоит в том, чтобы **выбрать такую гиперплоскоть, которая отделит два класса друг от друга**. Для одномерного пространства такая гиперплоскость - это точка:

![image.png](attachment:2e1ef7e1-fb3a-45ff-8628-6cad17ec99f1.png)

То есть мы выбираем такую точку, которая будет разделять наши классы. Если позднее к нам придёт какая-то **новая точка**, то ей **будет присваиваться класс на основе того, где эта новая точка находится относительно разделяющей гиперплоскости**. В нашем примере если точка будет находиться справа от разделяющей точки, то мы скажем что пол мужской:

![image.png](attachment:c4762219-3d39-446e-8332-77df510e16ed.png)

Если же точка будет находиться слева от разделяющей точки, то мы скажем что пол женский:

![image.png](attachment:173ba045-0e4c-428d-a074-0792257cf59f.png)

### Как лучше выбрать разделяющую гиперплоскость между классами?

В рассмотренном выше примере, классы - идеально отделимы друг от друга, поэтому можно поместить разделяющую точку в любом месте где-то посередине: 

![image.png](attachment:2df9e7ee-dfe1-4f6a-b5d9-5a5694c68500.png)

Любая из этих точек будет идеально разделять эти два класса. Но как в итоге выбрать лучшую из этих точек?

Нужен критерий, который позволит численно выбрать наилучшую точку. Здесь в качестве такого критерия можно выбрать такую точку, которая **максимизирует зазоры(margins) между классами**:

![image.png](attachment:5e4ac649-f098-4aed-aed6-c6d721151c5a.png)

В нашем случае, мы видим, что такая точка находится ровно посередине между двумя классами. Эта точка имеет максимальное расстояние до обоих классов. Такой метод разделения называется **классификатор максимального зазора(maximal margin classifier).**

Такая же идея применима и для случая n-признаков в N-мерном пространстве.

**Для случая 2-мерного пространства признаков:**

![image.png](attachment:6f46e121-2fdc-420c-9701-f44108c3acf7.png)

Здесь у нас уже **два признака - рост и вес цыплят**. В итоге мы получаем два набора точек.

Для начала рассмотрим случай, когда эти два класса можно идеально отделить друг от друга:

![image.png](attachment:6cc46446-5542-49e0-943a-56b9bf572fd5.png)

**В двумерном пространстве гиперплоскость - это линия.** Но эту линию можно провести самыми разными способами:

![image.png](attachment:d414ba67-762b-4395-bc3e-418088fe8755.png)

Каждая из этих линий будет идеально разделять наши обучающие данные на два класса. Поэтому опять возникает вопрос - какую из этих линий выбрать?

**Выбираем линию, максимизируя зазоры:**

![image.png](attachment:164a947b-99c0-47b2-87fb-fa076e979917.png)

Когда мы говорим о **классификаторе максимального зазора**, то **эта линия будет проходить таким образом, чтобы расстояние от линии до каждого из классов было максимальным**. В итоге, мы как раз получим такую линию, которая проходит как бы посередине между двумя классами.

### Откуда берётся термин *"опорные вектора"*?

В нашем примере, каждая точка в математической терминологии - это двухмерный вектор, состоящий из двух компонент - рост и вес. Именно отсюда берется слово **вектор**. Далее, когда мы выбираем разделяющую гиперплоскость, то эта гиперплоскость как бы опирается на те точки, которые являются ближайшими к этой гиперплоскости:

![image.png](attachment:c1ed73ea-1a64-4e6a-bf45-0ba150ac1450.png)

Поскольку эти точки служат **опорой** для гиперплоскости и эти точки являются **векторами**, то мы получаем термин - **опорные вектора**.

### Что если классы не разделяются идеально?

![image.png](attachment:47f3f6fd-fc67-4145-a3d1-f350d5663f7a.png)

Здесь мы видим такие две точки, которые находятся как бы не по порядку. Из-за них уже нельзя найти какую-то разделяющую точку, которая бы идеально разделила все данные на два класса. Если мы возьмём любую разделяющую точку, мы всегда получим какие-то точки, которые были классифицированы неправильно:

![image.png](attachment:bb2568bc-9c92-4837-9406-e6b97f28d38c.png)

или

![image.png](attachment:506eb2f0-e72a-4f12-8544-8232d307c634.png)

По сути это будет баланс между смещением и дисперсией("bias-variance") при выборе разделяющей гиперплоскости. Он будет зависеть от того, где именно мы поместим разделяющую гиперплоскость.

В данном примере, мы разделяем всю ось x на два диапазона:

![image.png](attachment:eaa39915-7575-4f5e-af61-673dfc05a6d6.png)

Всё что слева - классифицируется как женский пол, всё что справа - как мужской. Здесь мы неправильно определили класс для одной красной точки.

Если выбрать разделяющую точку в другом месте: 

![image.png](attachment:eacc555e-252f-49a9-ac94-ab7f2154b69c.png)

То мы неправильно определим класс для одной синей точки.

Такое разделение выглядит как высокая дисперсия(variance) на обучающих данных, из-за шума в данных. Т.е. наша модель слишком сильно учитывает шум в данных и слишком сильно отклоняется в сторону синих точек.

Представим себе новую точку:

![image.png](attachment:d0eee2f4-8c25-4d8e-9e65-c085ec53cd9c.png)

Она находится вдалеке от большинства красных точек, поэтому логически, скорее всего, мы должны сказать что это синяя точка, поскольку она находится рядом с синими точками. Однако, наша разделяющая точка говорит о том, что эту новую точку мы будем классифицировать как красную точку.

В итоге, хотелось бы сделать следующее - найти такую разделяющую гиперплоскость, которая позволит найти хороший баланс между смещением и дисперсией. **Мы бы хотели немного увеличить смещение, но при этом существенно снизить дисперсию.**

Если закрыть глаза на одну красную точку среди синих точек, то можно поместить разделяющую точку примерно посередине между двумя кластерами точек. В таком случае, модель будет лучше работать для новых данных в будущем, но всё-таки такая разделяющая точка будет неправильно классифицировать одну точку.

Как только мы **допускаем, что некоторые точки могут быть классифицированы неправильно**, то мы будем называть **расстояние между разделителем и точками - мягким зазором(soft margin):**

![image.png](attachment:1806967d-69bf-48c3-a0f7-f7f49908a1dd.png)

Теперь у нас  могут быть точки, которые находятся внутри этого зазора - это те точки, которые мы можем классифицировать неправильно. В итоге мы добавляем в нашу модель немного смещения в надежде на то, что существенно уменьшим дисперсию.

**Когда мы допускам мягкие зазоры, то у нас может быть множество разделяющих точек.** Это уже не просто классификатор максимального зазора, а здесь уже необходимо подумать над тем, какой диапазон для неправильной классификации точек мы допускаем. Для этого, можно сделать перебор различных вариантов с помощью кросс-валидации, чтобы найти такой размер зазоров, который будет оптимален для всей модели:

![image.png](attachment:16c5220e-4ce4-462c-9735-71864b8075ae.png)

### Как может выглядеть мягкий зазор для случая двух переменных

У нас есть два набора точек, в котором одна из красных точек, по каким-то причинам, находится рядом с синими точками:

![image.png](attachment:8490c9cb-4e06-4b46-894c-5fedeaca9856.png)

В этом примере эти два класса можно идеально отделить друг от друга с помощью прямой линии:

![image.png](attachment:ba278c85-a646-4976-83f6-c50ccfa59b4f.png)

Т.е., если мы применим обычный метод максимального зазора, без мягких зазоров, то получим такую линию, как на графике выше. В итоге мы получаем разделение всего пространства на два диапазона по одну и по другую сторону гиперплоскости:

![image.png](attachment:4c2dd57d-2117-4806-b921-08b78ecdd424.png)

Такая линия хоть и работает идеально на обучающих данных, но она находится слишком близко к синим точкам - так что если новые точки будут находиться очень близко от этой линии, но справа от нее - такие точки будут классифицироваться как красные, хотя, возможно, их было бы лучше называть синими, потому что они в целом находятся рядом со многими синими точками.

Если мы допустим мягкие зазоры, т.е. какие-то точки будут классифицироваться неправильно, то мы проведём такую линию между классами, которая сможет лучше работать для новых точек:

![image.png](attachment:3b459fc4-ed0a-4eba-a108-c7b7d74c3dd1.png)

**Такая модель называется Support Vector Classifier - классификатор опорных векторов.** Здесь мы увеличили смещение, но зато уменьшили дисперсию. Хоть одна из точек и была классифицирована неправильно, в целом мы получили более удачную модель, которая, как мы надеемся, будет лучше себя вести на новых данных:

![image.png](attachment:5c0204cd-f7ad-44b7-8600-fb771e40337e.png)

Мы рассматривали только случаи, когда классы легко разделяются с помощью гиперплоскости. Допуская несколько неправильно определённых классов, мы в общем получали хорошие результаты. Но что если гиперплоскость показывает плохие результаты, даже если мы разрешаем неправильно определять классы?

Например на графике ниже одна гиперплоскость не может правильно разбить классы - будет очень много неправильно классифицированных точек:

![image.png](attachment:669a2b39-1630-44a8-9ebb-7e0c1d002ffa.png)

Рассматривать несколько разделяющих плоскостей нельзя, так как это может создать дополнительные сложности в многомерном пространстве. Для примера посмотрим на двумерное пространство:

![image.png](attachment:724c7d91-4758-4016-a4cd-41adb051594a.png)

Здесь опять нельзя провести линию, которая могла бы разделить классы друг от друга. Если же мы возьмём не одну, а несколько линий:

![image.png](attachment:f0d1ce38-9818-4b07-b9c8-a86038345052.png)

Это тоже не позволит отделить классы друг от друга. Чтобы решить задачу для таких случаев, в методе опорных векторов используются **ядра(kernels)**. С их помощью данные проецируются в пространство большей размерности, и уже в нём применяется гиперплоскость для разделения данных на классы. Такой переход в пространство большей размерности называется **kernel trick**.

---
---
## Теория ядра

**Ядра(kernels)** позволят перейти от классификатора опорных векторов к полноценному методу опорных векторов. Существует множество разных ядер, с помощью которых можно спроецировать данные в пространство большей размерности.

Все, что мы видели раньше - это был либо *классификатор максимального зазора(когда классы можно разделить идеально)*, либо *классификатор опорных векторов(когда допускаются мягкие зазоры)*.

Вспомним наш 1-мерный пример, в котором не получилось разделить данные гиперплоскостью: 

![image.png](attachment:0a408d7d-d4f2-4a10-ad3d-32831aef5c96.png)

Здесь у нас есть ось x и два класса - DEFAULT и NO DEFAULT. Какую бы разделяющую точку мы не выбрали, мы всегда получим много неправльно классифицированных точек.

### Полиномиальное ядро

Для рассматриваемого примера можно применить полиномиальное ядро, чтобы добавить измерение $X^2$:

![image.png](attachment:7f04fc3f-9d2a-4017-9636-59906fce65b1.png)

В таком случае, мы получаем не одномерное, а двумерное пространство - по горизонтальной оси отложено x, а по вертикальной - $x^2$. Теперь, если перенести исходные точки в двумерное пространство, то получим график следующего вида:

![image.png](attachment:2a2ecce8-8600-4bfb-9eb7-9ae3e9c2a697.png)

На нем уже возможно провести линию, которая сможет разделить два класса между собой:

![image.png](attachment:6ea1905f-a55e-4e44-9ef2-6bdc6c27f16c.png)

Это будет сделано либо с помощью *классификатора максимального зазора*, либо с помощью *классификатора опорных векторов с добавлением мягких зазоров*.

**Важно: мы проводим эту разделяющую гиперплоскость не в исходном одномерном пространстве, а в новом двумерном пространстве.**

![image.png](attachment:2d9eb0d9-2cf8-44c3-9d51-a5392c84b4d6.png)

В итоге мы получаем возможность разделить наши *обучающие данные*, а также создать модель для определения классов для *новых точек*:

![image.png](attachment:6e6533af-c3e2-4a9e-b19b-7844b716f774.png)

Теперь, когда у нас появится новая точка на оси x, мы перенесём эту точку в двумерное пространство и уже здесь, с помощью разделяющей гиперплоскости, определим какой класс присвоить этой новой точке.

**С помощью ядра, получилось решить задачу разделения классов.**

### Как это может выглядеть в 2-мерном пространстве

Допустим, у нас есть набор точек, которые мы не можем разделить на два класса с помощью разделяющей линии, даже если мы добавим мягкие зазоры:

![image.png](attachment:13131df6-c431-4f5b-b6fe-685845a21b4c.png)

Чтобы решить эту задачу с помощью вектора опорных векторов, можно добавить ещё одно измерение и перейти от 2-мерного пространства к 3-мерному.

![image.png](attachment:b5091b6f-33ce-4b39-bb79-28ee0044151b.png)

По третьему измерению мы поднимим точки аналогично тому, как это было сделано в примере с одномерным простанством:

![image.png](attachment:3746e1e1-d153-4c6f-9fb1-3aad79f25556.png)

Мы наметим центр фигуры и чем дальше от центра будут находиться точки, тем больше они приподнимаются по третьему измерению. В итоге в трехмерном пространстве уже можно будет провести такую гиперплоскость, которая сможет разделить эти точки на два разных класса:

![image.png](attachment:117b37d5-491f-4ac7-b734-086b4a4c83a0.png)

---
---
## Теория *"kernel trick"* и математика

### Как можно описать гиперплоскости с помощью математических формул

Рассмотрим случай **двумерного пространства**, здесь **гиперплоскость - это прямая линия**:

![image.png](attachment:966a0482-d8b5-4166-b2cd-c2ee0ec67ca3.png)

Такую линию можно описать с помощью следующего уравнения:$$\beta_0 + \beta_1X_1 + \beta_2X_2 = 0$$
Такое же уравнение можно записать и для P-мерного пространства:$$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... +\beta_pX_p = 0$$ 
Здесь $p$ - количество переменных.

### Разделяющие гиперплоскости

Вся идея метода опорных векторов состоит в том, что всё пространство разбивается на два класса с помощью разделяющей гиперплоскости:

![image.png](attachment:a13e8ae6-a1c2-4019-b5af-0e0e4044ad10.png)

В итоге мы получаем следующее, все значения признаков X, которые находятся выше этой гиперплоскости:

![image.png](attachment:e426e47d-9df0-4c56-a013-9992c9fb4bf2.png)

относятся к одному классу, для этих точек выражение, которое описывает линию гиперплоскости, больше нуля: $$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... +\beta_pX_p > 0$$

По аналогии, все точки ниже этой гиперплоскости:

![image.png](attachment:eacaa1d8-b55d-47a2-9e27-2de2ad48d2f4.png)

относятся к другому классу, и для них, указанное здесь выражение, меньше нуля : $$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... +\beta_pX_p < 0$$

Мы получаем набор уравнений с помощью которых можно понять для любой точки, по какую сторону гиперплоскости находится та или иная точка.

Кроме гиперплоскости нам понадобятся сами точки с данными:

![image.png](attachment:24b221a5-5efa-4fba-a6b2-e8fd8275b9e9.png)

$x_1 = \begin{pmatrix} x_{11} \\ \vdots \\ x_{1p} \\ \end{pmatrix},\text{ }...,\text{ }x_n = \begin{pmatrix} x_{n1} \\ \vdots \\ x_{np} \\ \end{pmatrix}$

Обычно, при описании точек, отдельные координаты $x$ описываются в виде не обычной, а транспонированной матрицы $x$, здесь числа $\text{от }1\text{ до }n$ описывают количество точек, а числа $\text{от }1\text{ до }p$ описывают количество признаков.

Если сравнить это с тем, как обычно представляются данные в *pandas*, то здесь эти данные представлены в транспонированной форме. Но по сути - это те же самые данные, просто колонки и строки поменялись местами. В изображенном выше пример у нас два признака и шесть точек. Когда бы мы работали в *pandas* - у нас бы было две колонки(для двух признаков) и шесть строк(для шести точек).

### Классификатор максимального зазора

Его цель, максимизировать расстояние M - коридор вдоль гиперплоскости, в котором нет ни одной точки:

![image.png](attachment:a97117f2-6b76-4fbe-8146-c41bfb6a092e.png)

Наша задача найти такие значения коэффициентов $\beta$, для которых это расстояние M будет максимальным, но унас есть дополнительное условие - для каждой из наших шести точек, если мы вычислим для любой из этмх точек $y_i$ и линейную комбинацию признаков с коэффициентами $\beta$ - то это выражение будет $\geq M$:
$$\text{при условии } \sum_{j=1}^{p}\beta^2_j = 1$$
$$y_i = (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_px_{ip})\geq M \quad \forall \; i=1,...,n.$$

Таким образом мы описываем то условие, что эти точки находятся либо выше, либо ниже указанных здесь пунктирных линий:

![image.png](attachment:c00807c5-861a-4454-9d80-5170c17bce40.png)

Другими словами - никакая точка не находится между этими двумя пунктирными линиями. Кроме этого, есть условие на сумму квадратов $\beta-\text{коэффициентов}$ - она равна единице. Оно означает следующее: если сумма квадратов $\beta-\text{коэффициентов}$ равна единице, то мы можем взять для какой-то точки выражение $y_i$ и линейную комбинацию признаков и **это будет расстояние от точки до гиперплоскости** - зелёные стрелки на графике:

![image.png](attachment:3c00dbd2-1890-4f19-89d8-ea0e64e9417c.png)

Эти расстояния должны быть по крайней мере такие же большие, как и величина зазора M. Другими словами - ограничение на сумму квадратов $\beta-\text{коэффициентов}$ позволяет убедиться, что мы вычисляем расстояние от линии до точки с помощью указанного выражения.

### Классификатор опорных векторов

Отличие от предыдущего случая в том, что здесь мы позволяем некоторым точкам находиться внутри зазора:

![image.png](attachment:764ba20b-5ced-454d-b23c-f06958d667f5.png)

Мы по-прежнему хотим максимизировать расстояние M, а также будем соблюдать условие на сумму квадратов $\beta-\text{коэффициентов}$. Но на этот раз мы допускаем некоторые ошибки в классификации точек. Чтобы описать возможные ошибки - добавляем некоторые числа $\epsilon$ сумма которых не должна быть больше чем некоторое число C. С помощью числа C мы ограничиваем суммарно допустимый объём ошибок. Остальное уравнение остается тем же самым, но допускается некоторое отклонение $\epsilon$ в правой части этого уравнения.

$$\text{при условии } \sum_{j=1}^{p}\beta^2_j = 1$$
$$\epsilon_i \geq 0, \sum_{i=1}^{n}\epsilon_i \leq C$$
$$y_i = (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_px_{ip})\geq M(1-\epsilon_i)$$

Число C является некоторой константой - это гиперпараметр нашей модели, оно будет определяться с помощью кросс-валидации.

Если мы считаем что C - константа, то для конкретного значения этой константы с помощью подбора $\beta-\text{коэффициентов}$, находим максимальное значение M.  
Далее для конкретного значения C можно вычислить такие метрики как accuracy, precision, recall - а далее, с помощью перебора по сетке и кросс-валидации, можно найти такое значение C, которое будет оптимизировать какую-то из метрик(accuracy, precision, recall)

**Замечание: в данных формулах подразумевается следующее - чем большее значение C будет указано, тем большая ошибка может быть допущена.**   
В Scikit-Learn же, параметр C является обратно пропорциональным тому коэффициенту C, который приводится в формуле. Причина в том, что это позволяет трактовать параметр C одинаковым образом для разных моделей.

---
---
## Метод опорных векторов

Для примера рассмотрим такой набор точек, который мы не можем разделить на классы с помощью гиперплоскости:

![image.png](attachment:568fca69-007d-4c4d-8467-2f1c128c5232.png)

Чтобы решить такую задачу, будем переходить в пространство большей размерности. 
$$X_1, X_2, ..., X_p$$
$$X_1, X^2_1, X_2, X^2_2, ..., X_p, X^2_p$$

Мы будем искать гиперплоскость в этом пространстве с увеличенным количеством измерений:

![image.png](attachment:7b07bca7-73e4-4629-9522-e6b31f633e59.png)

В математическом виде это будет выглядеть следующим образом:

![image.png](attachment:7f346ddb-792d-49ed-a104-6c71968aca32.png)

Пока это всё частный случай метода опорных векторов, когда мы добавляем полиномы второго порядка. В общем случае - можно добавлять другие слагаемые или другие ядра.

Мы допускаем некоторое количество неправильных классификаций, поэтому у нас есть слагаемые $\epsilon$, которые суммарно ограничены константой C. В итоге мы надеемся, что сможем найти такую гиперплоскость, в пространстве большей размерности, которая позволит разбить точки на классы:

![image.png](attachment:76cb4b5d-d7af-4445-8aca-78ae1e0c3b52.png)

При росте порядка полиномов растёт и вычислительная трудоёмкость для поиска зазоров. Эту сложность помогает решить *"kernel trick"*, который использует скалярное произведение векторов(dot product).

### Скалярное произведение векторов

![image.png](attachment:8bafd009-056e-4150-92b0-cfa1bcc9d5a7.png)

$\langle a,b \rangle = \sum_{i=1}^{r}a_ib_i$

$a*b = a_1*b_1 + a_2*b_2$

Скалярное произведение векторов - сумма произведений отдельных компонентов этих векторов. В примере с двумя измерениями, можно разложить каждый из этих векторов на его компоненты - отдельно для оси x(компоненты $a_1, b_1$) и отдельно для оси y(компоненты $a_2, b_2$):

![image.png](attachment:575526b3-e234-45bf-b1cf-2df76feba103.png)

При переходе в пространство большей размерности просто добавляются дополнительные компоненты для всех дополнительных измерений.

Скалярное произведение можно также записать с помощью следующей формулы:

$a*b = |a||b|\cos(\theta)$

![image.png](attachment:ec29599c-65e9-4596-89b4-2c0c20ef72f0.png)

Эта формула позволяет рассматривать скалярное произведение векторов как "похожесть" векторов друг на друга, т.е. насколько они направлены в одном и том же направлении.

Линейный классификатор можно переписать так:

![image.png](attachment:02b5b954-33a5-4fc0-bcc4-6ade4b56858d.png)

![image.png](attachment:a0040d85-06e5-4f76-b738-686260c942b2.png)

Опорные вектора - это желтые точки. По сути, нам важно лишь то, насколько близко или далеко находятся желтые точки.

Поэтому можно сократить количество коэффициентов $\alpha$ и рассматривать не все точки от 1 до *n*, а только некоторое множество точек(обозначенное S):

![image.png](attachment:74ee400c-47da-4efa-b49f-d426837b9188.png)

В итоге мы сокращаем необходимое количество вычислений.

## Функция ядра

Ядро - функция, численно описывающая похожесть двух наблюдений:

$K(x_i,x_{i'}) = \sum_{j=1}^px_{ij}x_{i'j}$

Мы можем подставить функцию ядра(которая по сути будет описывать похожесть двух векторов) в формулу линейного классификатора:

![image.png](attachment:22861baf-3f6a-400c-b4ef-9bcb8baeb89d.png)

Функции ядра могут быть разными, можно вместо линейной функции, например, взять полиномиальную:

![image.png](attachment:a32caeb2-8381-40b0-8cec-1dd112ddd75a.png)

В таком случае выигрыш по сокращению количества вычислений состоит в том, что можно вычислять только эту функцию ядра и не выполнять исходные вычисления в пространстве увеличенной размерности.

Также, одной из часто используемых функций является радиальная базисная функция ядра:

![image.png](attachment:2e31ffaa-8d15-4a6d-bb34-ff0f6f0e7216.png)

Здесь мы суммируем сумму квадратов для разницы между отдельными компонентами векторов. Это очень похоже на формулу расстояния между двумя точками.

Применение функций ядра ещё называют *"kernel trick"*. Ядра позволяют избежать вычислений в увеличенном пространстве признаков, выполняя только вычисления для каждой различной пары обучающих точек.

**Скалярное произведение можно представить как меру похожести между векторами.**

**Функции ядра можно представить себе как меру похожести между исходным пространством признаков и увеличенным пространством признаков.**

---