# P1. Бинарная кросс-энтропия

В сегодняшней домашней работе вам предлагается самостоятельно написать и обучить модель логистической регрессии для решения задачи бинарной классификации.
Реализация логистической регрессии с имеющимся заранее вектором весов $\overrightarrow{ω}$ - задача достаточно простая. Вся загадка кроется в вопросе о том, как подобрать оптимальный вектор весов $\overrightarrow{ω}$. Прежде чем перейти к вопросу о подборе этого вектора необходимо определиться с тем, в каком смысле мы понимаем его оптимальность. То есть что является критерием его оптимальности? Как сказать, что один вектор $\overrightarrow{ω_1}$ более оптимален, чем другой $\overrightarrow{ω}$?

Для определения того, насколько хорош некоторый вектор параметров для решения нашей конкретной задачи, вводится понятие функции потерь (Loss-функции). Значение этой функции обратно пропорционально качеству решения нашей задачи. То есть оптимальным вектором параметров мы теперь можем назвать тот, при котором значение Loss-функции будет наименьшим из всех возможных. Таким образом мы сводим решение задачи машинного обучения к решению задачи оптимизации.

Для задачи бинарной классификации очень популярна функция потерь, называемая бинарной кросс-энтропией. Эта функция пришла в машинное обучение из теории информации. Она имеет следующий вид:
 
$$H(y,p)=−(y⋅ln(p)+(1−y)⋅ln(1−p))$$

Где y - верный ответ (0 или 1), а $p$ - наше предположение, выраженное в оцененной степени принадлежности очередного объекта x классу 1.
Для обучения модели мы решим воспользоваться алгоритмом градиентного спуска
В связи с этим, нам необходимо предварительно посчитать все производные функции H по параметрам модели $\overrightarrow{ω_0} ... \overrightarrow{ω_n}$.

Выведите формулы этих производных и посчитайте производную функции H в точке

$$ω_0 = 0 \\
ω_1 = 2 \\
ω_2 = -1$$

По каждому из этих параметров, если рассматриваемый объект $x$, имеющий координаты векторного представления $x_1 = 1 и x_2 = 2$ принадлежит классу 1.

В ответ в контесте внесите значение произведения 
$\frac{\partial H}{\partial ω_0}$ $\frac{\partial H}{\partial ω_1}$ $\frac{\partial H}{\partial ω_2}$
​	
 
# Формат ввода

В качестве ответа введите получившееся значение в виде десятичной дроби, в качестве знака десятичной запятой используйте точку. Ограничьтесь двумя значащими цифрами после запятой.

## Примечания

### Логистическая регрессия

Логистическая регрессия - алгоритм мягкой бинарной классификации, суть которого состоит в построении разделяющей гиперплоскости и оценке вероятности принадлежности объекта одному из двух классов на основе значения отступа объекта от построенной гиперплоскости.

Построение разделяющей гиперплоскости производится при помощи подбора оптимальных коэффициентов при условии, что решающая функция имеет вид:
$$F(x) = [b_\alpha (\overrightarrow{x}) ≥ 0] = [ω_0 + ω_1 x_1+ ... +ω_n x_n ≥ 0]$$

По знаку выражения в квадратных скобках принимается решение отнести объект к классу 0 или 1.

Логистическая регрессия считает степень принадлежности объекта классу 0 и классу 1. Модуль функции 
$b_ω (\overrightarrow{x})$ задает расстояние от точки, заданной вектором $\overrightarrow{x}$ до разделяющей гиперплоскости, заданной совокупностью параметров $\overrightarrow{ω_0} ... \overrightarrow{ω_n}$. Монотонное отображение значения $b_ω (\overrightarrow{x})$ на отрезок [0,1] позволит нам интерпретировать выход этой модели как степень принадлежности (аналог вероятности) объекта x классу 1.

Таким отображением традиционно стала сигмоидальная функция:
$σ(x) = \frac{1}{1 + e^{-x}} $
​	
Таким образом, окончательная формула, задающая логистическую регрессию, следующая:
$$LR(\overrightarrow{x}) = \sigma(\omega_0 + \omega_1x_1 + ... + \omega_nx_n) $$

# Решение

# Логистическая регрессия

Мы можем также потребовать другое интересное свойство: пусть наш алгоритм возвращает не просто номер класса, а **вероятность принадлежности объекта** тому или иному классу. Тогда мы получаем алгоритм, который носит название логистической регрессии.

Идея состоит в том, что наш классификатор должен теперь выдавать не строгие ответы 1/0, а лишь **вероятность** принадлежности объекта классу 1, при этом оставаясь линейным классификатором.

Такой способ классификации называется **мягкой классификацией**, то есть классификацией, при которой алгоритм возвращает степень принадлежности объекта одному из классов. Альтернативный более привычный нам способ классификации - **жёсткая классификация**, при которой алгоритм однозначно возвращает нам один из классов.

Для того чтобы сделать это, мы воспользуемся очень известной функцией, которую обычно называют [сигмоидой](https://colab.research.google.com/drive/1BODfwl4F3c7h0CE-t88zavkZWyNe8n5G#scrollTo=v2VSpP-GGtSq):

$$σ(x) = \frac{1}{1 + e^{-x}}$$




Сигмоида обладает рядом хороших свойств:

1) Значения сигмоиды, как нетрудно убедиться, лежат в диапазоне от 0 до 1

2) Ось Y график сигмоиды пересекает в точке 0.5

3) Функция стремится к 1 на бесконечности и к 0 - на минус бесконечности

Пусть алгоритм будет следующим:

Вместо обычного вычисления функции $(w,x) + w_0$, по знаку которой мы делаем вывод о принадлежности к классу 0 или классу 1, мы применим к полученному значению функцию сигмоиды.

То есть $a(x) = σ((w,x) + w_0)$

Обратим внимание вот на что:

- Когда наш классификатор принял решение отнести объект к классу 1, $(w,x) + w_0 > 0$, то есть $σ((w,x) + w_0) > 0.5$, а когда объект отнесен к классу 0 - $σ((w,x) + w_0) < 0.5$. То есть 0.5 для нас теперь граница принятия решения
- Классификатор теперь выдает нам любое число от 0 до 1
- Чем больше отступ, то есть, чем увереннее модель, тем больше будет значение $a(x)$.

Все это дает нам повод воспринимать выход $a(x)$ именно как вероятность принадлежности объекта классу 1!
Когда эта вероятность больше 0.5 - мы относим объект к классу 1, но эта же ситуация соответствует случаю, когда и модель обычного линейного классификатора, дала нам значение класса 1. Аналогично с 0. При этом выполняются все свойства вероятности.

Простое навешивание сигмоиды помогло превратить нашу модель линейного классификатора в модель, возвращающую вероятности. Такая модель называется **логистической регрессией**



# Обучение модели

Для всех этих моделей нам необходимо подобрать оптимальный вектор параметров $\vec{w}$ (и ${w_0}$). В случае SVM мы упомянули, что этот вектор можно найти при помощи некоторой аналитической процедуры, в подробности которой мы вникать не стали. В случае логистической регрессии процедуры, позволяющей определить точный минимум функции ошибки, просто не существует.

________________________
**Напоминание.**
Функция ошибки (Loss-функция, функция потерь) - это функция, зависящая от параметров модели, показывающая насколько сильно эта модель ошибается.

Loss-функция зависит не столько от самой модели, сколько от задачи, которую мы решаем.

На прошлой лекции мы рассматривали задачу регрессии в контексте метрических методов и обсуждали, что эту задачу можно решать исходя из условия минимизации среднего квадрата ошибки предсказания модели. Это классический пример loss-функции.

В задаче бинарной классификации в качестве loss-функции обычно используется бинарная кросс-энтропия (Binary Cross-Entropy, BCE). Эта функция зависит от настоящих меток $y$ и предсказаний алгоритма $a(x) = p$, и выглядит следующим образом:

$$H(p, y) = - (y \cdot ln(p) +(1 - y) \cdot ln(1-p))$$

Эту функцию выбирают исходя из теоретико-информационных соображений.
________________________

Ясно, что задача обучения модели сводится к подбору таких параметров $\vec{w}$, которые доставляют минимум ожидаемой функции потерь, в математической записи $\vec{w} = argmin(Loss_{expected}(\vec{x}, \vec{w}))$. Значит, нам нужна какая-то процедура, позволяющая этот минимум найти даже тогда, когда не существует аналитических путей поиска этого минимума. Один из самых популярных алгоритмов такого рода - градиентный спуск.

# Градиентный спуск


Поиск минимума функции можно сравнить с хождением по горам.

Представьте себе, что вы - путешественник, идущий по горе и стремящийся спуститься вниз. В реальности вы будете выбирать свой путь исходя из обзора окружающей местности. Но в случае поиска минимума функции мы можем посчитать только характеристики функции в конкретной точке, поэтому правильной ассоциацией будет случай, когда прежде чем подняться на гору, вы завязали себе глаза. Вы знаете высоту, на которой находитесь, и чувствуете, какой наклон поверхности горы там, где вы находитесь. 

Что вы будете делать в этом случае? С каждым шагом вы будете идти в ту сторону, куда наклон поверхности наиболее крутой.

Эту идею можно распространить на математическую модель поиска минимума. Из математического анализа известно, что если мы имеем функцию $F = F(x_1 ... x_n)$, то вектор [частных производных](https://colab.research.google.com/drive/1BODfwl4F3c7h0CE-t88zavkZWyNe8n5G#scrollTo=aGVowH1ufYP_) этой функции (называемый градиентом), $$\vec{grad(F)} = \vec{∇F} = (\frac{\partial F(x_1)}{\partial x_1} ... \frac{\partial F(x_n)}{\partial x_n})$$

направлен в сторону **наискорейшего роста функции**. Вектор же **антиградиента**, соответственно, направлен в направлении наискорейшего убывания функции. Если мы хотим *шаг за шагом* приближаться к минимуму функции, мы должны каждый раз делать небольшой шажок в направлении антиградиента. Математически эту идею можно записать в виде следующей формулы: $$\vec{x_{n+1}} = \vec{x_n} - λ\vec{∇F(x)}$$ Где $λ$ характеризует размер нашего шага.

Применив эту идею для поиска минимума Loss-функции по параметрам нашей модели $\vec{w}$, мы найдем оптимальный (или почти оптимальный) вектор параметров модели, который и будем использовать при классификации. Запомним эту идею! 


# Производные $\frac{\partial H}{\partial \omega_i}$

В рамках алгоритма градиентного спуска нам необходимо посчитать [производные](https://colab.research.google.com/drive/1BODfwl4F3c7h0CE-t88zavkZWyNe8n5G#scrollTo=1m66zhVnUv9w) функции бинарной кросс-энтропии по параметрам модели, чтобы делать шаги градиентного спуска.

Покажем, как можно посчитать эту производную.

Рассмотрим случай, когда нам необходимо посчитать производные всего для одного примера. То есть мы имеем единственный объект $x$ с истинной меткой $y$ и гипотезой нашего алгоритма $p$. Тогда $$H(p, y) = - (y \cdot ln(p) +(1 - y) \cdot ln(1-p))$$

Причем $p = σ(ω_1 \cdot x_1 + ... + ω_{n} \cdot x_n + ω_0 ⋅ 1)$

Вспомним простое правило из математического анализа о вычисленнии [производной сложной функции](https://colab.research.google.com/drive/1BODfwl4F3c7h0CE-t88zavkZWyNe8n5G#scrollTo=qny-9SFZUibG):

$$\frac{∂ H}{∂ ω_i} = \frac{∂ H}{∂ p} \cdot \frac{∂ p}{∂ ω_i}$$
Посчитаем первое и второе слагаемое по отдельности.
- $\frac{∂ H}{∂ p} = -y ⋅ \frac{1}{p} + (1-y) \cdot \frac{1}{1 - p}$

Вспомним одно из основных свойств сигмоидальной функции (его доказательство - полезное упражнение, рекомендуется выполнить его самостоятельно):
$σ' = σ \cdot (1 - σ)$
- $\frac{∂ p}{∂ ω_i} = p⋅(1 - p)⋅x_i$, если $i \neq 0$
- $\frac{∂ p}{∂ ω_0} = p⋅(1 - p)$

Введём обозначение $x_0 ≡ 1$

Тогда оба равенства можно записать $\frac{∂ p}{∂ ω_i} = p⋅(1 - p)⋅x_i$

Перемножим полученные результаты:

$$\frac{∂ H}{∂ ω_i} = p⋅(1 - p)⋅x_i ⋅ (-y ⋅ \frac{1}{p} + (1-y) \cdot \frac{1}{1 - p}) = x_i((1 - y)⋅p - y⋅(1-p))$$

## Подставляя в эту формулу данные из условия задачи, получаем что ответ -0.25