В этом модуле мы продолжаем знакомство с моделями МО в области обучения с учителем. На этот раз поговорим о задаче классификации. Вспомним, где находится классификация на нашей карте машинного обучения:

<img src = 'img/dst3-ml1-3_2.jpg'>

Вначале мы снова обратимся к классу линейных моделей и рассмотрим `логистическую регрессию`.

Затем поговорим о `деревьях решений` для задачи классификации и научимся строить из этих деревьев целый лес.

Цели данного модуля:

- Познакомиться с принципами работы модели логистической регрессии для решения задачи классификации. 
- Рассмотреть метрики классификации и научиться оценивать качество моделей, решающих данную задачу.
- Узнать принципы построения деревьев решений.
- Изучить основы ансамблевых моделей типа бэггинг на примере случайного леса.
- Научиться применять деревья решений и случайные леса для решения задачи классификации.

Ранее мы обсуждали модель линейной регрессии, которая предназначена для решения задачи регрессии. Теперь нам предстоит разобраться с тем, как преобразовать данную модель, чтобы она решала задачу классификации.

Для начала вспомним, что такое `классификация`.

Задача `классификации (classification)` — задача, в которой мы пытаемся `предсказать класс объекта` на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

Когда `классов`, которые мы хотим предсказать, только `два`, классификация называется `бинарной`. Например, мы можем предсказать, болен ли пациент раком, является ли изображение человеческим лицом, является ли письмо спамом и т. д.

Когда `классов`, которые мы хотим предсказать, `более двух`, классификация называется `мультиклассовой (многоклассовой)`. Например, предсказание модели самолёта по радиолокационным снимкам, классификация животных на фотографиях, определение языка, на котором говорит пользователь, разделение писем на группы.

> Для простоты мы пока разберёмся с бинарной классификацией, а в следующем юните обобщим результат на мультиклассовую


Что вообще означает «решить задачу классификации»? Это значит построить разделяющую поверхность в пространстве признаков, которая делит пространство на части, каждая из которых соответствует определённому классу. 

Ниже представлены примеры разделяющих поверхностей, которые производят бинарную классификацию. Красным и синим цветом обозначены классы, зелёным — собственно поверхность, которая делит пространство признаков на две части. В каждой из этих частей находятся только наблюдения определённого класса.

<img src='img/dst3-ml1-3_4.jpg'>

> `Модели`, которые `решают задачу классификации`, называются `классификаторами` (classifier).

Если взять в качестве разделяющей поверхности некоторую плоскость (ровная поверхность на первом рисунке), то мы получаем модель логистической регрессии, которая тесно связана с рассмотренной нами ранее линейной регрессией.

Давайте для начала вспомним, как выглядит уравнение модели линейной регрессии в общем случае:

$\hat{y} = w_0 + w_1x_1 + w_2x_2 + ... + w_mx_m = w_0 + \sum_{j+1}^{m} w_jx_j$

В общем случае это уравнение гиперплоскости, которая стремится приблизить зависимость целевой переменной от $m$ факторов.

- Когда фактор всего один, уравнение задаёт прямую:

$\hat{y} = w_0 + w_1x$

- Когда факторов два, уравнение задаёт плоскость:

$\hat{y} = w_0 + w_1x_1 + w_2x_2$

Но всё это работает `только` `в` том `случае`, когда `целевой признак` , который мы хотим предсказать, является `числовым`, например цена, вес, время аренды и т. д.

Что же делать с этой моделью, когда целевой признак $y$ является категориальным? Например, является письмо спамом или обычным письмом?

Можно предположить, что, раз у нас есть две категории, мы можем обозначить категории за $y = 1$ (Спам) и $y=0$ (Не спам) и обучить линейную регрессию предсказывать 0 и 1.

Но результат будет очень плохим. Выглядеть это будет примерно так:

<img src='img/dst3-ml1-3_5.jpg'>

Для больших значений $x$ прямая будет выдавать значения больше 1, а для очень маленьких — меньше 0. Что это значит? Непонятно. Непонятно и то, что делать со значениями в диапазоне от 0 до 1. Да, можно относить значения на прямой выше 0.5 к классу 1, а меньше либо равным 0.5 — к классу 0, но это всё «костыли».

> Идея! Давайте переведём задачу классификации в задачу регрессии. Вместо предсказания класса будем предсказывать вероятность принадлежности к этому классу. 

Модель должна выдавать некоторую вероятность $P$, которая будет определять, принадлежит ли данный объект к классу 1: например, вероятность того, что письмо является спамом. При этом вероятность того, что письмо является обычным письмом (класс 0), определяется как $Q = 1 - P$.

Когда модель будет обучена на предсказание вероятности, мы зададим некоторый `порог вероятности`. Если предсказанная вероятность будет выше этого порога, мы определим объект к классу 1, а если ниже — к классу 0.

Например, стандартный порог равен 0.5. То есть если вероятность $P > 0.5$ , мы будем считать письмо спамом, а если $P \leq 0.5 $ — обычным информативным письмом.

Однако остался главный вопрос: как научить модель предсказывать вероятности, ведь они должны лежать строго в диапазоне от 0 до 1, а предсказания линейной регрессии лежат в диапазоне от $-\infty$ до $+\infty$? 

Тут-то мы и приходим к модели логистической регрессии — `регрессии вероятностей`.

#### ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

> `Логистическая регрессия` (Logistic Regression) — одна из простейших моделей для решения задачи классификации. Несмотря на простоту, модель входит в топ часто используемых алгоритмов классификации в `Data Science`.

В основе логистической регрессии лежит логистическая функция (logistic function) $\sigma (z)$ — отсюда и название модели. Однако более распространённое название этой функции — `сигмόида` (sigmoid). Записывается она следующим образом:

$\sigma (z) = \frac{1}{1+e^{-z}}$

> **Примечание**. Здесь $e$ — экспонента или `число Эйлера`. Это число является бесконечным, а его значение обычно принимают равным 2.718... Почитать о нём подробнее вы можете [здесь](https://dzen.ru/a/XKW4kcYE3AId802p).

А вот график зависимости сигмоиды от аргумента $z$:

<img src='img/dst3-ml1-3_6.jpg'>

> В чём преимущество этой функции?

> У сигмоиды есть два очень важных для нас свойства:

> Значения сигмоиды $\sigma (z)$ лежат в диапазоне от 0 до 1 при любых значения аргумента $z$: какой бы $z$ вы ни подставили, число меньше 0 или больше 1 вы не получите.

> Сигмоида выдаёт значения $\sigma (z) > 0.5$ при её аргументе $z > 0$, $\sigma (z) < 0.5$ — при $z < 0$ и 0.5 — при $z = 0$;.

Это ведь и есть свойства вероятности! Выходом сигмоиды является число от 0 до 1, которое можно интерпретировать как вероятность принадлежности к классу 1. Её мы и пытаемся предсказать.

Основная идея модели логистической регрессии: возьмём модель линейной регрессии (обозначим её выход за $z$)

$z = w_0 + \sum_{j+1}^{m} w_jx_j$

и подставим выход модели $z$ в функцию сигмоиды, чтобы получить искомые оценки вероятности (в математике принято писать оценочные величины с «шапкой» наверху, а истинные значения — без «шапки», это чистая формальность):

$\hat{P} = \sigma(z) = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-w_0 -\sum_{j+1}^{m} w_jx_j}} = \frac{1}{1+e^{\bar{w}\cdot\bar{x}}}$

> `Примечание`. Далее в модуле мы будем называть оценки вероятности $\hat{P}$ просто вероятностью, но только для краткости. Это не значит, что эти оценки являются истинными вероятностями принадлежности к каждому из классов (их нельзя сосчитать, так как для этого нужна выборка бесконечного объёма). Если вы употребляете термин «вероятности» на собеседованиях, обязательно предварительно укажите, что вы подразумеваете `оценку вероятности`.

Обучать будем всё в совокупности, пытаясь получить наилучшую оценку вероятности $\hat{P}$. Если вероятность $\hat{P} > 0.5$, относим объект к классу 1, а если $\hat{P} \leq 0.5$, относим объект к классу 0. 

Математически это записывается следующей формулой:

$$
\hat{y} = I[\hat{P}] = \left\{
  \begin{array}{ll}
    1, & \hat{P} > 0.5 \\
    0, & \hat{P} \leq 0.5
  \end{array}
\right.
$$

> `Примечание`. В данном выражении $I[\hat{P}]$ называется индикаторной функцией. Она возвращает 1, если её значение больше какого-то порога, и 0 — в противном случае. Математики часто записывают просто квадратные скобки, опуская символ $I$: $[\hat{P}]$.

##### Чего мы добились таким преобразованием?

Если мы обучим модель, то есть подберём  коэффициенты $w_0, w_1, w_2, ..., w_m$ (как их найти, обсудим чуть позже) таким образом, что для объектов класса 1 модель линейной регрессии начнёт выдавать положительное число, а для класса 0 — выдавать отрицательное число, то тогда, подставив предсказание линейной регрессии $z$ в сигмоиду, мы сможем получать вероятности принадлежности к каждому из классов в диапазоне от 0 до 1.

Далее по порогу вероятности мы сможем определять, к какому классу принадлежит объект.

Это и есть наша цель. Мы свели задачу классификации к задаче регрессии для предсказания вероятностей. 

Для бинарной классификации описанное выше будет выглядеть следующим образом:
<img src='img/dst3-ml1-3_7.jpg'>

Рассмотрим, как это работает, на примере.

Пусть мы каким-то образом обучили модель линейной регрессии предсказывать положительные числа для спам-писем и отрицательные — для обычных писем.

Подаём характеристики письма $x_1, x_2, ..., x_m$ в выражение для линейной регрессии и получаем ответ модели, например $z = 1.5$. Тогда, подставив его в сигмоиду, получим:

$\hat{P} = \sigma (z) = \frac{1}{1+e^{-1.5}} = 0.82$

Таким образом, вероятность того, что данный объект принадлежит классу спама, равна 0.82, что больше порогового значения 0.5. То есть мы относим данное письмо к спаму: $\hat{y} = 1$ .

Пусть теперь мы подали на вход модели характеристики другого письма и получили $z = -0.91$. Тогда, подставив этот результат в сигмоиду, получим:

$\hat{P} = \sigma (z) = \frac{1}{1+e^{0.91}} = 0.28$

Вероятность того, что данный объект принадлежит классу спама, равна 0.28, что меньше порогового значения 0.5. Мы относим данное письмо к обычным письмам: $\hat{y} = 0$.

Кстати, вероятность того, что это письмо будет обычным, равна противоположной вероятности: $Q = 1 - 0.28 = 0.72$ 

Полученное выражение для оценки вероятности $\hat{P}$ и будет называться моделью логистической регрессии:

$\hat{P} = \frac{1}{1+e^{-w_0-\sum_{j=1}^{m}w_jx_j}}$

$\hat{y} = I[\hat{P}]$

##### Разберёмся с геометрией

Возьмём частный случай, когда класс объекта зависит от двух признаков — $x_1$ и $x_2$.

Рассмотрим пример.

Мы пытаемся предсказать поступление студента в аспирантуру в зависимости от результатов двух экзаменов. Целевой признак  $y$ — результат поступления (`admission outcome`) с двумя возможными значениями: `поступил` или `не поступил`. Факторы: $x_1$ — результат сдачи первого экзамена (Exam1 Score) и $x_2$ — результат сдачи второго (Exam 2 Score). Будем предсказывать вероятность поступления с помощью логистической регрессии.

Изобразим зависимость в пространстве двух факторов (вид сверху) в виде диаграммы рассеяния, а целевой признак отобразим в виде точек (непоступившие) и крестиков (поступившие).

Если рассматривать уравнение линейной регрессии отдельно от сигмоиды, то геометрически построить логистическую регрессию на основе двух факторов — значит найти такие коэффициенты $w_0$, $w_1$ и $w_2$ уравнения плоскости, при которых наблюдается наилучшее разделение пространства на две части.

$z = w_0 + w_1x_1 + w_2x_2$

Тогда выражение для $z$ будет задавать в таком пространстве плоскость (в проекции вида сверху — прямую), которая разделяет всё пространство на две части. Над прямой вероятность поступления будет > 0.5, а под прямой < 0.5>:

<img src='img/dst3-ml1-3_8.jpg'>

<div style="border: 1px solid yellow; padding: 10px;">
<table>
    <td>Кулинарная аналогия

Возьмите по пригоршне риса и гречки и рассыпьте крупы на столе. Попытайтесь наложить лист бумаги вертикально на плоскость стола так, чтобы максимально качественно отделить виды круп друг от друга.

Лист бумаги и будет разделяющей плоскостью. Вам необходимо найти такое расположение листа, при котором разделение будет наилучшим.</td>
    <td><img src='img/dst3-ml3-2_6.png'></td>
</table>
</div>

Коэффициенты построенной выше плоскости равны (как их найти, обсудим позже):

$$
    w_0 = -25.05 \\
    w_1 = 0.205 \\
    w_2 = 0.2
$$

Тогда модель логистической регрессии будет иметь вид:

$$
    z = -25.05 + 0.205x_1 + 0.2x_2 \\

    \hat{P} = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Появляется новый абитуриент, и мы хотим предсказать вероятность его поступления. Баллы студента: $x_1 = 67$, $x_2 = 53$. Заметьте, что точка с такими координатами находится ниже нашей плоскости (то есть абитуриент, скорее всего, не поступит).

Тогда:

$$
    z = -25.05 + 0.205 \cdot 67 +0.2 \cdot 53 = -0.71\\
    \hat{P} = \sigma(z) = \frac{1}{1 + e^{0.71}} = 0.32
$$

Итак, оценка вероятности поступления студента составляет 0.32, то есть его шанс поступления составляет 32%.

А что если мы возьмём точку, лежащую выше прямой?

Например, появился абитуриент с баллами $x_1 = 80$, $x_2 = 75$. Подставим его баллы в нашу модель логистической регрессии, чтобы понять, какова оценочная вероятность поступления:

$$
    z = -25.05 + 0.205 \cdot 80 +0.2 \cdot 75 = 6.34\\
    \hat{P} = \sigma(z) = \frac{1}{1 + e^{-6.34}} = 0.99
$$

Таким образом, оценка вероятности поступления абитуриента составляет 0.99, шанс поступления — 99 %.

В чём математический секрет?

Математически подстановка в уравнение плоскости точки, которая не принадлежит ей (находится ниже или выше), означает вычисление расстояния от этой точки до плоскости.

- Если точка находится ниже плоскости, расстояние будет отрицательным ($z<0$).
- Если точка находится выше плоскости, расстояние будет положительным ($z>0$).
- Если точка находится на самой плоскости, $z = 0$ .

Мы знаем, что подстановка отрицательных чисел в сигмоиду приведёт к вероятности $\hat{P} = 0.5$, а постановка положительных — к вероятности $\hat{P} > 0.5$ . 

<div style="border: 1px solid yellow; padding: 10px;">
    Таким образом, ключевым моментом в предсказании логистической регрессии является расстояние от точки до разделяющей плоскости в пространстве факторов. Это расстояние в литературе часто называется **отступом (margin)**. 
</div>

В этом и состоит секрет работы логистической регрессии.

> Чем больше расстояние от точки, находящейся выше разделяющей плоскости, до самой плоскости, тем больше оценка вероятности принадлежности к классу 1

Попробуйте подставить различные координаты точек в модель логистической регрессии и убедитесь в этом.

Можно построить тепловую карту, которая показывает, чему равны вероятности в каждой точке пространства:

<img src='img/dst3-ml1-3_9.jpg'>

На рисунке точки, которые относятся к классу непоступивших абитуриентов, лежащие ниже разделяющей плоскости, находятся в красной зоне. Чем насыщеннее красный цвет, тем ниже вероятность того, что абитуриент поступит в аспирантуру. И наоборот, точки, которые относятся к классу поступивших абитуриентов, лежащие выше разделяющей плоскости, находятся в синей зоне. Чем насыщеннее синий цвет, тем выше вероятность того, что абитуриент поступит в аспирантуру.

Для случая зависимости целевого признака $y$ от трёх факторов $x_1, x_2\text{ и }x_3$, например от баллов за два экзамена и рейтинга университета, из которого выпустился абитуриент, выражение для $z$ будет иметь вид:

$z = w_0 + w_1x_1 + w_2x_2 + w_3x_3$

Уравнение задаёт плоскость в четырёхмерном пространстве. Но если вспомнить, что $y$ — категориальный признак и классы можно обозначить цветом, то получится перейти в трёхмерное пространство. Разделяющая плоскость будет выглядеть следующим образом:

<img src='img/dst3-ml1-3_10.jpg'>

В общем случае, когда у нас есть зависимость от  факторов, линейное выражение, находящееся под сигмоидой, будет обозначать разделяющую **гиперплоскость**.

$z = w_0 + w_1x_1 + w_2x_2 + ... + w_mx_m = w_0 + \sum_{j=1}^{m} w_jx_j$

#### ПОИСК ПАРАМЕТРОВ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

Итак, мы разобрались с тем, как выглядит модель логистической регрессии и что она означает в геометрическом смысле.

> Но остался один главный вопрос: как найти такие коэффициенты $w = (w_1, w_2,..., w_m)$, чтобы гиперплоскость разделяла пространство наилучшим образом? 

Вновь обратимся к нашей схеме минимизации эмпирического риска:

<img src='img/dst3-ml1-3_11.jpg'>

Можно предположить, что стоит использовать метод наименьших квадратов. Введём функцию ошибки — средний квадрат разности `MSE` между истинными классами  и предсказанными классами  и попытаемся его минимизировать.

Сразу можно достоверно предсказать, что результат такого решения будет плохим, поэтому воздержимся от его использования.

Здесь нужен другой подход. Это метод `максимального правдоподобия` (Maximum Likelihood Estimation — `MLE`). 

> Правдоподобие — это оценка того, насколько вероятно получить истинное значение целевой переменной $y$ при данных $x$ и параметрах $w$.

Данный метод позволяет получить функцию правдоподобия.

Цель метода — найти такие параметры $w = (w_1, w_2,..., w_m)$, в которых наблюдается максимум функции правдоподобия. Подробнее о выводе формулы вы можете прочитать [здесь](https://habr.com/ru/post/485872/).

А мы пока что опустим математические детали метода и приведём только конечную формулу:

$likilihood = \sum_i^n(y_i log(\hat{P}_i)+(1-y_i) log(1 - \hat{P}_i)) \rightarrow max_w $

Не пугайтесь. Давайте разберёмся, что есть что и как работает эта функция.

- $n$ — количество наблюдений.
- $y_i$ — это истинный класс (1 или 0) для $i$-ого объекта из набора данных.
- $\hat{P}_i = \sigma(z_i)$ — предсказанная с помощью логистической регрессии вероятность принадлежности к классу 1 для $i$-ого объекта из набора данных.
$z_i$ — результат подстановки $i$-ого объекта из набора данных в уравнение разделяющей плоскости $z_i = \bar{w} \cdot \bar{x}_i$.
-$\log$ — логарифм (обычно используется натуральный логарифм по основанию $ e - ln$).

<div style="border: 1px solid yellow; padding: 10px;">
<b>Пример расчёта функции правдоподобия</b>

Вернёмся к примеру с абитуриентами. Пусть у нас есть выборка из четырёх студентов с оценками по двум экзаменам:  и . Возьмём уравнение разделяющей плоскости, которое мы использовали ранее:
$$
    z = -25.05 + 0.205x_1 + 0.2x_2
$$

Мы взяли всех студентов из выборки в формулу сигмоиды и получили оценочную вероятность поступления каждого из студентов:

<table>
<tr>
    <td>i</td>
    <td>1</td>
    <td>2</td>
    <td>3</td>
    <td>4</td>
</tr>
<tr>
    <td>$\hat{P}_i$ — оценка вероятности </td>
    <td>0.2</td>
    <td>0.8</td>
    <td>1</td>
    <td>0.6</td>
</tr>
<tr>
    <td>$y_i$ - истинный класс</td>
    <td>0</td>
    <td>0</td>
    <td>1</td>
    <td>1</td>
</tr>
</table>

Подсчитаем, чему равна функция правдоподобия при данных предсказаниях вероятностей:

$$
likilihood = \sum_i^n(y_i log(\hat{P}_i)+(1-y_i) log(1 - \hat{P}_i)) = \\
((0log(0.2)+(1-0)log(1-0.2))+\\
(0log(0.8)+(1+0)log(1-0.8))+\\
(1log(1)+(1-1)log(1-1))+\\
(1log(0.6)+(1-1)log(1-0.6)))=\\
(log(0.8)+log(0.2)+log(1)+log(0.6)) = -2.34 
$$
</div>

Такие расчёты можно производить для любых значений параметров, меняется только оценка вероятности $\hat{P}_i$.

> **Примечание**. К сожалению, функция `likelihood` не имеет интерпретации, то есть нельзя сказать, что значит число -2.34 в контексте правдоподобия.

Цель — найти такие параметры, при которых наблюдается максимум этой функции.

Теперь пора снова применить магию математики, чтобы привести задачу к привычному нам формату минимизации эмпирического риска. По правилам оптимизации, если поставить перед функцией минус, то задача оптимизации меняется на противоположную: был поиск максимума — станет поиском минимума.

Таким образом мы получим функцию потерь $L(w)$, которая носит название `«функция логистических потерь»`, или `logloss`. Также часто можно встретить название `кросс-энтропия`, или `cross-entropy loss`:

$$L(w) = logloss = - \sum_i^n(y_i log(\hat{P}_i)+(1-y_i) log(1 - \hat{P}_i)) \rightarrow min_w \\
\hat{P}_i = \frac{1}{1+e^{-w_0-\sum_{j-1}^mw_jx_j}}
$$

Вот эту функцию мы и будем минимизировать в рамках поиска параметров логистической регрессии. Мы должны найти такие параметры разделяющей плоскости $w$, при которых наблюдается минимум `logloss`.

Знакомая задача? Всё то же самое, что и с линейной регрессией, только функция ошибки другая.

> К сожалению, для такой функции потерь аналитическое решение оптимизационной задачи найти не получится: при расчётах получается, что его попросту не существует.

Но мы помним, что, помимо аналитических решений, есть и численные.

Например, для поиска параметров можно использовать знакомый нам градиентный спуск. Вспомним, как выглядит итерационная формула данного метода:

$$
w^{k+1} = w^{(k)} - \eta \nabla L \left( \omega^{(k)} \right)
$$

Повторим её смысл: 
новое значение параметров $w^{k+1}$ получается путём сдвига текущих $w^{(k)}$ в сторону вектора антиградиента $\nabla L \left( \omega^{(k)} \right)$, умноженного на темп обучения $\eta$.

Математическую реализацию вычисления градиента для `logloss` мы обсудим далее в курсе, а пока нас интересует исключительно его смысл.

> Мы уже знаем, что для того, чтобы повысить шанс пройти мимо локальных минимумов функции потерь, используется не сам градиентный спуск, а его модификации: например, можно использовать уже знакомый нам стохастический градиентный спуск (`SGD`).

> Помним, что применение градиентного спуска требует предварительного масштабирования данных (стандартизации/нормализации). В реализации логистической регрессии в `sklearn` предусмотрено ещё несколько методов оптимизации, для которых масштабирование не обязательно. О них мы упомянем в практической части модуля.

Во избежание переобучения модели в функцию потерь логистической регрессии традиционно добавляется регуляризация. В реализации логистической регрессии в `sklearn` она немного отличается от той, что мы видели ранее для линейной регрессии.

При L1-регуляризации мы добавляем в функцию потерь $L(w)$ штраф из суммы модулей параметров, а саму функцию `logloss` умножаем на коэффициент $C$:

$$
L(w) = C \cdot logloss + \sum_{j=1}^{m}|w_j| \rightarrow min_w
$$

А при L2-регуляризации — штраф из суммы квадратов параметров:

$$
L(w) = C \cdot logloss + \sum_{j=1}^{m}(w_j)^2 \rightarrow min_w
$$

Значение коэффициента $C$ — коэффициент, обратный коэффициенту регуляризации. Чем **больше** $C$, тем **меньше** «сила» регуляризации.

Предлагаем вам посмотреть на то, как будет меняться форма сигмоиды, разделяющей плоскости при минимизации функции потерь logloss (она обозначена как cross-entropy в виде концентрических кругов — вид сверху), с помощью обычного градиентного спуска (не стохастического) в виде анимации.


<video src='img/dst3-ml1-3_11.mp4' controls autoplay loop>

[Источник](https://medium.com/swlh/from-animation-to-intuition-linear-regression-and-logistic-regression-f641a31e1caf) 

Не волнуйтесь, все громоздкие формулы уже реализованы в классических библиотеках, таких как `sklearn`. Но нам важно понимать принцип того, что происходит «под капотом», чтобы верно интерпретировать результат и по возможности управлять им.

далее смотри [ноутбук](ML-3._Логистическая_регрессия.ipynb)