# <center>Логистическая регрессия</center>

**Задача классификации (classification)** — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

* Когда классов, которые мы хотим предсказать, только два, классификация называется **бинарной**.

* Когда классов, которые мы хотим предсказать, более двух, классификация называется **мультиклассовой (многоклассовой)**. 

Что вообще означает «решить задачу классификации»? Это значит построить разделяющую поверхность в пространстве признаков, которая делит пространство на части, каждая из которых соответствует определённому классу. 

Модели, которые решают задачу классификации, называются **классификаторами (classifier)**.

Модель должна выдавать некоторую вероятность $P$, которая будет определять, принадлежит ли данный объект к классу 1: например, вероятность того, что письмо является спамом. При этом вероятность того, что письмо является обычным письмом (класс 0), определяется как $Q=1-P$.  

Когда модель будет обучена на предсказание вероятности, мы зададим некоторый порог вероятности. Если предсказанная вероятность будет выше этого порога, мы определим объект к классу 1, а если ниже — к классу 0.

Например, стандартный порог равен 0.5. То есть если вероятность $P>0.5$, мы будем считать письмо спамом, а если $P \leq 0.5$ — обычным информативным письмом.

В итоге мы добьёмся того, что будем предсказывать не дискретный категориальный, а непрерывный числовой признак, который лежит в диапазоне [0, 1]. А это уже знакомая нам задача регрессии.

Остался главный вопрос: как научить модель предсказывать вероятности, ведь они должны лежать строго в диапазоне от 0 до 1, а предсказания линейной регрессии лежат в диапазоне от $-\infty$ до $+\infty$? 

Тут-то мы и приходим к модели логистической регрессии — **регрессии вероятностей**.

**Логистическая регрессия (Logistic Regression)** — одна из простейших моделей для решения задачи классификации. Несмотря на простоту, модель входит в топ часто используемых алгоритмов классификации в Data Science.

В основе логистической регрессии лежит **логистическая функция (logistic function) $\sigma(z)$** — отсюда и название модели. Однако более распространённое название этой функции — **сигмόида (sigmoid)**. Записывается она следующим образом:

$$\sigma(z) = \frac{1}{1+e^{-z}}$$

Здесь $e$ — экспонента или число Эйлера. Это число является бесконечным, а его значение обычно принимают равным 2.718...

График зависимости сигмоиды от аргумента $z$:

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml3-2_3.png)

У сигмоиды есть два очень важных для нас свойства:

* Значения сигмоиды $\sigma(z)$ лежат в диапазоне от 0 до 1 при любых значения аргумента $z$: какой бы $z$ вы ни подставили, число меньше 0 или больше 1 вы не получите.

* Сигмоида выдаёт значения $\sigma(z)>0.5$ при её аргументе $z>0$, $\sigma(z)<0.5$ — при $z<0$ и $\sigma(z)=0.5$ — при $z=0$.

В математике принято писать оценочные величины с «шапкой» наверху, а истинные значения — без «шапки», это чистая формальность.

Мы будем называть оценки вероятности ($\hat{P}$) просто вероятностью, но только для краткости. Это не значит, что эти оценки являются истинными вероятностями принадлежности к каждому из классов (их нельзя сосчитать, так как для этого нужна выборка бесконечного объёма). Если вы употребляете термин «вероятности» на собеседованиях, обязательно предварительно укажите, что вы подразумеваете оценку вероятности.

Основная идея модели логистической регрессии: возьмём модель линейной регрессии (обозначим её выход за $z$):

$$z=w_{0}+\sum_{j=1}^{m} w_{j} x_{j}$$

И подставим выход модели $z$ в функцию сигмоиды, чтобы получить искомые оценки вероятности:\

$$\hat{P}=\sigma(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-w_{0}-\sum_{j=1}^{m} w_{j} x_{j}}}=\frac{1}{1+e^{-\bar{w} \cdot \bar{x}}}$$

Обучать будем всё в совокупности, пытаясь получить наилучшую оценку вероятности $\hat{P}$. Если вероятность $\hat{P} > 0.5$, относим объект к классу 1, а если $\hat{P} \leq 0.5$, относим объект к классу 0. 

Математически это записывается следующей формулой:

$$\hat{y}=I[\hat{P}]=\left\{\begin{array}{l} 1, \hat{P}>0.5 \\ 0, \hat{P} \leq 0.5 \end{array}\right.$$

В данном выражении $I[ \hat{P}]$ называется **индикаторной функцией**. Она возвращает 1, если её значение больше какого-то порога, и 0 — в противном случае. Математики часто записывают просто квадратные скобки, опуская символ $I$: $[\hat{P}]$.

Если мы обучим модель, то есть подберём  коэффициенты таким образом, что для объектов класса 1 модель линейной регрессии начнёт выдавать положительное число, а для класса 0 — выдавать отрицательное число, то тогда, подставив предсказание линейной регрессии $z$ в сигмоиду, мы сможем получать вероятности принадлежности к каждому из классов в диапазоне от 0 до 1.

Далее по порогу вероятности мы сможем определять, к какому классу принадлежит объект.

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml3-2_4.png)

Ключевым моментом в предсказании логистической регрессии является расстояние от точки до разделяющей плоскости в пространстве факторов. Это расстояние в литературе часто называется **отступом (margin)**. 

Чем больше расстояние от точки, находящейся выше разделяющей плоскости, до самой плоскости, тем больше оценка вероятности принадлежности к классу 1.

В общем случае, когда у нас есть зависимость от  факторов, линейное выражение, находящееся под сигмоидой, будет обозначать разделяющую гиперплоскость.

$$z = w_{0} + w_{1}x_{1} + w_{2}x_{2} + ...+ w_{m}x_{m} = w_{0} + \sum_{j=1}^{m} w_{j}x_{j}$$

# <center>Поиск параметров логистической регрессии</center>

Это **метод максимального правдоподобия (Maximum Likelihood Estimation — MLE)**. 

**Правдоподобие** — это оценка того, насколько вероятно получить истинное значение целевой переменной $y$ при данных $x$ и параметрах $w$. 

Данный метод позволяет получить функцию правдоподобия. Цель метода — найти такие параметры $w=(w_{0}, w_{1}, w_{2}, ..., w_{m})$, в которых наблюдается максимум функции правдоподобия.

Конечная формула:

$$likelihood = \sum_{i}^{n} (y_{i} log (\hat{P_{i}}) + (1-y_{i}) log (1-\hat{P_{i}})) \rightarrow max_{w}$$

* $n$ — количество наблюдений.

* $y_{i}$ — это истинный класс (1 или 0) для $i$-ого объекта из набора данных.

* $\hat{P_{i}} = \sigma(z_{i})$ — предсказанная с помощью логистической регрессии вероятность принадлежности к классу 1 для $i$-ого объекта из набора данных.

* $z_{i}$ — результат подстановки $i$-ого объекта из набора данных в уравнение разделяющей плоскости $z_{i}= \bar{w} \cdot \bar{x_{i}}$.

* $log$ — логарифм (обычно используется натуральный логарифм по основанию $e - ln$).

К сожалению, функция *likelihood* не имеет интерпретации, то есть нельзя сказать, что значит число -2.34 в контексте правдоподобия.

Цель — найти такие параметры, при которых наблюдается максимум этой функции.

По правилам оптимизации, если поставить перед функцией минус, то задача оптимизации меняется на противоположную: был поиск максимума — станет поиском минимума.

Таким образом мы получим функцию потерь $L(w)$, которая носит название *«функция логистических потерь»*, или *logloss*. Также часто можно встретить название *кросс-энтропия*, или *cross-entropy loss*:

$$L(w) = \text { logloss } =-\sum_{i}^{n} (y_{i} log (\hat{P_{i}}) + (1-y_{i}) log (1-\hat{P_{i}})) \rightarrow min_{w}$$

$$\hat{P_{i}}=\frac{1}{1+e^{-w_{0}-\sum_{j=1}^{m} w_{j} x_{j}}}$$

Мы должны найти такие параметры разделяющей плоскости  $w$, при которых наблюдается минимум *logloss*.

К сожалению, для такой функции потерь аналитическое решение оптимизационной задачи найти не получится: при расчётах получается, что его попросту не существует.

Но мы помним, что, помимо аналитических решений, есть и численные.

Во избежание переобучения модели в функцию потерь логистической регрессии традиционно добавляется регуляризация. В реализации логистической регрессии в `sklearn` она немного отличается от той, что мы видели ранее для линейной регрессии.

При *L1*-регуляризации мы добавляем в функцию потерь $L(w)$ штраф из суммы модулей параметров, а саму функцию *logloss* умножаем на коэффициент $C$:

$$L(w)=C \cdot \log \operatorname{loss}+\sum_{j=1}^{m}\left|w_{j}\right| \rightarrow \min_{w}$$

А при *L2*-регуляризации — штраф из суммы квадратов параметров:

$$L(w)=C \cdot \log \operatorname{loss}+\sum_{j=1}^{m}\left(w_{j}\right)^{2} \rightarrow \min _{w}$$

Значение коэффициента $C$ — коэффициент, обратный коэффициенту регуляризации. Чем больше $C$, тем меньше «сила» регуляризации. Коэффициент $C$ — это коэффициент, обратный коэффициенту регуляризации $\alpha$.

# <center>Логистическая регрессия в Sklearn</center>

*P.S. Смотри блокнот "extra", часть 1*

# <center>Метрики классификации</center>

## <center>Ошибки I и II рода</center>

Для унификации терминологии в машинном обучении в большинстве задач объекты класса 1 считаются объектами с наличием некоторого эффекта (болезнь есть / задолженность погашена / клиент ушёл / устройство отказало и т. д.), а объекты класса 0 — объектами с отсутствием этого эффекта (болезни нет / задолженность не погашена / клиент не ушёл / устройство работает без отказов и т. д.).

Пусть у нас есть некоторый пациент $x_i$, и мы хотим понять, болен ли он диабетом. С точки зрения задачи классификации мы хотим предсказать истинный класс ($y_i$) пациента.

Нулевая гипотеза будет состоять в отсутствии эффекта (пациент не болен диабетом), то есть $y_i=0$, а альтернативная — в его наличии (пациент болен диабетом) , то есть $y_i=1$. В терминах статистических гипотез это будет записано так:

* $H_0$: Пациент $x_i$ не болеет диабетом $y_i=0$.
* $H_1$: Пациент $x_i$ болеет диабетом $y_i=1$.

*<u>Ошибка I (первого) рода ($\alpha$-ошибка)</u>*: отклонение нулевой гипотезы, когда она на самом деле верна, или **ложноположительный результат**. То есть мы предсказали, что пациент болен диабетом, хотя это не так.

*<u>Ошибка II (второго) рода ($\beta$-ошибка)</u>*: принятие нулевой гипотезы, когда она на самом деле ложна, или **ложноотрицательный результат**. То есть мы предсказали, что пациент здоров, хотя на самом деле он болен диабетом.

Как вы можете понять, в диагностических задачах для нас критичнее ошибка II рода. Последствия будут более серьёзными, если мы примем больного пациента за здорового, чем если мы примем здорового за больного. Нам важно охватить всех потенциально больных пациентов, чтобы сделать дополнительный анализ и удостовериться в результате.

## <center>Метрики классификации</center>

Случайным образом выбрали десять пациентов из нашей таблицы и моделью `log_reg_full` предсказали для них ответы:

$$y=(1, 0, 1, 1, 0, 1, 1, 0, 1, 1)$$

$$\hat{y}=(1, 1, 0, 1, 0, 0, 1, 1, 0, 1)$$

1) **Матрица ошибок (confusion matrix)** показывает все возможные исходы совпадения и несовпадения предсказания модели с действительностью. Используется для расчёта других метрик.

    * **Истинно положительные (True Positive, TP)** — это объекты, обозначенные моделью как класс 1 ($\hat{y}=1$) и действительно принадлежащие к классу 1 ($y=1$).

    * **Ложноположительные (False Positive, FP)** — это объекты, обозначенные моделью как класс 1 ($\hat{y}=1$), но в действительности принадлежащие к классу 0 ($y=0$). То есть это объекты, для которых модель совершила ошибку I рода.

    * **Истинно отрицательные (True Negative, TN)** — это объекты, обозначенные моделью как класс 0 ($\hat{y}=0$) и действительно принадлежащие к классу 0 ($y=0$).

    * **Ложноотрицательные (False Negative, FN)** — это объекты, обозначенные моделью как класс 0 ($\hat{y}=0$), но в действительности принадлежащие к классу 1 ($y=1$). То есть это объекты, для которых модель совершила ошибку II рода.

Общий вид матрицы ошибок:

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@ML_3_3_1.png)

Формально матрица ошибок не является метрикой, но на её основе составляются сами метрики классификации.

2) **Accuracy (достоверность/аккуратность)** — доля правильных ответов модели среди всех ответов. Правильные ответы — это истинно положительные (*True Positive*) и истинно отрицательные ответы (*True Negative*):

$$accuracy = \frac{TP + TN}{TP + TN + FN + FP}$$

*Интерпретация*: как много (в долях) модель угадала ответов.

Метрика изменяется в диапазоне от 0 до 1. Чем ближе значение к 1, тем больше ответов модель «угадала». *Accuracy* — самая простая и самая понятная метрика классификации, но у неё есть один существенный недостаток. Она бесполезна, если классы сильно несбалансированы.

3) **Precision (точность)**, или **PPV (Positive Predictive Value)** — это доля объектов, названных классификатором положительными и при этом действительно являющихся таковыми, по отношению ко всем названным положительными объектам.

$$precision = \frac{TP}{TP+FP}$$

Метрика также изменяется от 0 до 1. 

*Интерпретация*: способность отделить класс 1 от класса 0. Чем больше *precision*, тем меньше ложных попаданий. То есть **чем ближе *precision* к 1, тем меньше вероятность модели допустить ошибку I рода**.

*Precision* нужен в задачах, где от нас требуется минимум ложных срабатываний. Чем выше «цена» ложноположительного результата, тем выше должен быть *precision*. 

В предельном случае (когда *precision* равен 1) у модели отсутствуют ложноположительные срабатывания. Важно понимать, что данный вывод справедлив только для выборки, на которой мы оцениваем метрику, то есть это не означает, что модель вовсе не может допустить ложноположительных результатов. Однако чем больше выборка, на которой мы тестируем алгоритм, тем ближе к истине будет данный вывод.

4) **Recall (полнота)**, или **TPR (True Positive Rate)** — это доля объектов, названных классификатором положительными и при этом действительно являющихся таковыми, по отношению ко всем объектам положительного класса.

$$recall = \frac{TP}{TP + FN}$$

Метрика изменяется от 0 до 1.

*Интерпретация*: способность модели обнаруживать класс 1 вообще, то есть охват класса 1. Заметьте, что метрика зависит от количества ложноотрицательных срабатываний. То есть чем ближе *recall* к 1, тем меньше вероятность модели допустить ошибку II рода.

*Recall* очень хорошо себя показывает в задачах, где важно найти как можно больше объектов, принадлежащих к классу 1. 

Предельный случай (когда *recall* равен 1) означает, что модель нашла все объекты класса 1, например всех действительно больных пациентов. Однако метрика ничего не скажет о том, с какой точностью мы это сделали. Важно понимать, что данный вывод справедлив только для выборки, на которой мы оцениваем метрику, то есть это не означает, что модель вовсе не может допустить ложноотрицательных исходов. Однако чем больше выборка, на которой мы тестируем алгоритм, тем данный вывод будет ближе к истине.

> Метрики *precision* и *recall* не зависят от сбалансированности классов и в совокупности дают довольно исчерпывающее представление о классификаторе. Однако на практике часто бывает так, что увеличение одной из метрик может привести к уменьшению другой.

5) **$F_{\beta}$ (F-мера)** — это **взвешенное среднее гармоническое** между *precision* и *recall*:

$$F_{\beta} = (1+\beta^{2})\frac{precision \cdot recall}{(\beta^{2} precision) + recall}$$

$\beta$ - это вес *precision* в метрике: чем больше $\beta$, тем больше вклад.

В частном случае, когда $\beta=1$, мы получаем равный вклад для *precision* и *recall*, а формула будет выражать простое среднее гармоническое, или метрику $F_{1}$ ($F_{1}$-мера):

$$F_{1} = 2\frac{precision \cdot recall}{precision + recall}$$

Метрика равна своему максимуму (1), если и *precision*, и *recall* равны 1 (то есть когда отсутствуют как ложноположительные, так и ложноотрицательные срабатывания). Но если хотя бы одна из метрик будет близка к 0, то и $F_{1}$ будет близка к 0. 

> Ещё одно небольшое, но очень важное замечание: все суждения, которые мы привели по отношению к *precision*, *recall* и *$F$-мере*, относятся только к классу 1, так как эти метрики по умолчанию считаются для класса 1. Для решения большинства задач знания о значении этих метрик для класса 1 более чем достаточно, так как обычно нас интересует именно наличие некоторого эффекта.

> Однако если вам по каким-то причинам необходимо рассчитать *precision*, *recall* и *$F$-меру* для класса 0, для этого достаточно сделать перекодировку классов — поменять их обозначения местами или (при расчёте метрик с помощью библиотеки `sklearn`) изменить значение специального параметра `pos_label` на 0.

|Название|Функция в модуле metrics|
|--------|:-----------------------|
|Accuracy (достоверность)|accuracy_score()|
|Precision (точность)|precision_score()|
|Recall (полнота)|recall_score()|
|$F_{1}$-мера|f1_score()|

## <center>Расчёт метрик на Python</center>

*P.S. Смотри блокнот "extra", часть 2*

## <center>Достоинства и недостатки логистической ррегресии</center>

**<u>Достоинства:</u>**

* Простой, интерпретируемый, но в то же время эффективный алгоритм.

* Поиск параметров линейный или квадратичный (в зависимости от метода оптимизации), то есть ресурсозатратность алгоритма очень низкая.

* Не требует подбора внешних параметров (гиперпараметров), так как практически не зависит от них.

**<u>Недостатки:</u>**

* Алгоритм работает хорошо, только когда классы линейно разделимы, что в реальных задачах бывает очень редко. Поэтому обычно данная модель используется в качестве *baseline*.

> Недостаток с линейной разделимостью классов можно побороть с помощью введения полиномиальных признаков, тем самым снизив смещение модели. Тогда логистическая регрессия вместо разделяющей плоскости будет означать выгнутую разделяющую поверхность сложной структуры. Однако мы знаем, что с этим трюком стоит быть аккуратным, так как можно получить переобученную модель. Поэтому в комбинации с полиномиальными признаками стоит подобрать наилучший параметр регуляризации.

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml3-3_18.png)

In [5]:
# Задание 3.6

from sklearn import metrics #метрики

y_true = [0, 0, 1, 1, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1, 1, 0, 1]

print('Precision: {:.2f}'.format(metrics.precision_score(y_true, y_pred)))

Precision: 0.75


In [6]:
# Задание 3.7

y_true = [0, 0, 1, 1, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1, 1, 0, 1]

print('Recall: {:.2f}'.format(metrics.recall_score(y_true, y_pred)))

Recall: 0.60


In [7]:
# Задание 3.8

y_true = [0, 0, 1, 1, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1, 1, 0, 1]

print('F1 score: {:.2f}'.format(metrics.f1_score(y_true, y_pred)))

F1 score: 0.67


# <center>Мультиклассовая классификация</center>

Что делать, когда классов, на которые необходимо разделить данные, больше 2? В таком случае используется очень простой подход, который называется **«один против всех» (one-vs-over)**.

Идея этого подхода очень простая. Если у нас есть $k$ различных классов ($k>2$), давайте обучим $k$ классификаторов, каждый из которых будет предсказывать вероятности принадлежности каждого объекта к определённому классу.

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@ML_3_4_1.png)

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml3-3_10.png)

В результате у нас получится три различных пространства вероятностей, что-то вроде трёх параллельных реальностей. Чтобы собрать всё это воедино, мы выбираем в каждой точке пространства максимум из вероятностей. Получим следующую картину:

![image.png](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml3-3_11.png)

Модель логистической регрессии легко обобщается на случай мультиклассовой классификации. Пусть мы построили несколько разделяющих плоскостей с различными наборами параметров $k$, где $k$ — номер классификатора. То есть имеем $K$ разделяющих плоскостей:

$$z_{k}=w_{0 k}+\sum_{j=1}^{m} w_{j k} x_{j}=w_{k} \cdot x$$

Чтобы преобразовать результат каждой из построенных моделей в вероятности в логистической регрессии, используется функция **softmax** — многомерный аналог сигмоиды:

$$\hat{P}_{k}=\operatorname{softmax}\left(z_{k}\right)=\frac{\exp \left(\hat{y}_{k}\right)}{\sum_{k=1}^{K} \exp \left(\hat{y}_{j k}\right)}$$

Данная функция выдаёт нормированные вероятности, то есть в сумме для всех классов вероятность будет равна 1.

## <center>Мультиклассовая классификация на Python</center>

*P.S. Смотри блокнот "extra_2"*

# <center>Практика</center>

*P.S. Смотри блокнот "extra_3", часть 1*

In [18]:
#импорт библиотек
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации

from sklearn import linear_model #линейные модели
from sklearn import tree #деревья решений
from sklearn import ensemble #ансамбли
from sklearn import metrics #метрики
from sklearn import preprocessing #предобработка
from sklearn.model_selection import train_test_split #сплитование выборки

%matplotlib inline
# plt.style.use('seaborn')