## *Data analysis theoretical questions and tasks for colloquium and answers for them*

## 1. Expected and empirical risk minimization. Discriminant functions. Write out discriminant functions for multiclass linear classifier and K-NN.  

**Ожидаемый риск** определяется как математическое ожидание функции потерь:
$$
\mathit{\int}\int\mathit{\mathcal{L}(f_{\theta}(\mathbf{x}),y) \cdot p(\mathbf{x},y)d\mathbf{x}dy\to\min_{\theta}}
$$
В общем случае ожидаемый риск не может быть вычислен, поскольку распределение $p(x, y)$ неизвестно для обучающего алгоритма. Однако мы можем вычислить приближение, называемое **эмпирическим риском**, путём усреднения функции потерь на тренировочном множестве:
$$
L(\theta|X,Y)=\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(f_{\theta}(\mathbf{x}_{n}),\,y_{n})
$$
*Метод минимизации эмпирического риска* заключается в выборе модели, минимизирующей *эмпирический риск*:
$$
\widehat{\theta}=\arg\min_{\theta}L(\theta|X,Y)
$$
**Discriminant function** - функция, с помощью которой принимается решения в задачах классификации.
$$
c=\arg\min_{i}g_c \text{ или } c=\arg\max_{i}g_c
$$
*Discriminant function* для многоклассовой линейной классификации:
$$
g_{c}(x)=w_{c}^{T}x+w_{c0}
$$
Тогда:
$$
\widehat{y}(x)=\arg\max_{c}g_{c}(x)
$$
*Discriminant function* для K-NN
$$
\begin{align*}
g_{c}(x) & =\sum_{k=1}^{K}\mathbb{I}[y_{i_{k}}=c],\quad c=1,2,...C.\\
\widehat{y}(x) & =\arg\max_{c}g_{c}(x)
\end{align*}
$$

## 2. Describe model evaluation with train/test sets, cross validation and leave-one-out techniques. Over-fitting and under-fitting. How expected train/test loss changes with train set size and complexity of the model?

Для оценки моделей с помощью деления на **train/test** наборы, мы делим объекты на две группы и обучаемся на *train*, а оцениваем модель на *test* наборе, тем самым проверяя обобщающую способность модели.

При **кросс-валидации** выборка делится на $K$ частей. И $K$ раз одну часть берем для оценки, а остальные для обучения.

<img src="img/cross_validation.png" width="500">

Итоговая оценка модели вычисляется как среднее арифметическое всех оценок:

$$
\widehat{L}_{total}=\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(f_{\widehat{\theta}^{-k(n)}}(x_{n}),\,y_{n})
$$

Когда $K=N$, то это называется **leave-one-out**

**Переобучение** - случай, когда модель очень сильно подстраивается под обуччающий набор данных и имеет плохую обобщающую способность
**Недообучение** - случай, при котором модель оказывается слишком простой, чтобы отображать некоторый *закон природы*

<img src="img/o_and_ufitting.png" width="400">

## 3. What is one-hot-encoding? Give feature normalization methods. Why all these feature transformations are important?


**One-hot-encoding** - способ представления категориальных признаков, при котором один категориальный признак разбивается на несколько бинарных (на один меньше, чем значений), каждый из которых отвечает за одно значение первоначального признака. Он необходим для коректного интерпретации категориальных признаков моделью. 

**Методы нормализации признаков**:
1. *Minmax-нормализация*
$$
x'= \frac{x-min(x)}{max(x)-min(x)}
$$
2. *Стандартизация*
$$
x' = \frac{x-\overline{x}}{\sigma}
$$

Данные методы необходимы в случаях, когда алгоритмы машинного обучения не работают верно без нормализации. Например, классификаторы могут считать Евклидово расстояние между двумя объектами, и если один из признаков будет другого масштаба, то расстояние будет во многом зависить от этого признака.
Так же градиетный спуск работает быстрее при отнормированных признаках.

## 4. How do K-NN and decision tree methods change when they are applied in classification and in regression context?


**K-NN**:
* Классификация: среди $K$ ближайших соседей выбирается преобладающий класс;
* Регрессия: среди $K$ ближайших берется среднее значение.  

**Решающее дерево**:
* Классификация: при обучении в листьях дерева выбирается преобладающий класс;
* Регрессия: при обучении в листьях дерева берется среднее значение попавших туда объектов.  

## 5. Give definition of the following methods and explain why or why not feature scaling can affect their performance: linear regression estimated with least squares minimization, linear regression with regularization, CART decision trees, logistic regression without regularization. 

1. **Линейная регрессия с МНК** - модель регрессии, которая стремится минимизировать сумма квадратов разности предсказанных значений и действительных:
$$
L(\beta_0,\beta_1,\dots) = \frac{1}{2N}\sum^{N}_{n=1}(\hat{y}_{n} - y_{n})^2 = \frac{1}{2N}\sum^{N}_{n=1}\left(\sum_{d=0}^{D}\beta_{d}x_{n}^{d}-y_{n}\right)^{2}  \rightarrow \min\limits_{\beta}
$$
Если матрица $X^\top X$ невырождена и выборка не очень большая, то решается данная задача так:
$$
\beta = (X^\top X)^{-1} X^\top y
$$
*Масштабирование* ограничит влияние определенных признаков.

2. **Линейная регрессия с регуляризацией**
Регуляризация - техника, которая уменьшает сложность модели во избежание переобучения. В общем виде:
$$
\sum_{n=1}^{N}\left(x_{n}^{T}\beta-y_{n}\right)^{2}+\lambda R(\beta)\to\min_{\beta}
$$
$$
\begin{array}{ll}
\mbox{Lasso regression} & R(\beta)=||\beta||_{1} \\
\text{Ridge regression} & R(\beta)=||\beta||_{2}^{2} \\
\text{Elastic net} & R(\beta)=\alpha||\beta||_{1}+(1-\alpha)||\beta||_{2}^{2}\to\min_{\beta} 
\end{array}
$$
*Масштабирование* ускорит градиентный спуск.

3. **CART деревья** - это бинарные деревья решений, где в каждой вершине объекты делятся по одному значению одного признака (*threshold*). На деревья *масштабирование* не влияет.

4. **Логистическая регрессия без регуляризации** - модель классификации, которая разделяет объекты гиперплоскостью. 
Формула нахождения принадлежности классу в бинарной классификации:
$$
\widehat{y}(x)= sign\left(w^{T}x+w_{0}\right)
$$
Функция потерь *logloss*:
$$
L(w) = - \sum_{n=1}^N \mathbb{I}[y_n = +1]\cdot\ln{\sigma(w^{T}x_n+w_0))} + \mathbb{I}[y_n = -1]\cdot\ln{(1-\sigma(w^{T}x_n+w_0))} \rightarrow \min_w
$$
*Discriminant function*:
$$
score(y=+1|x)=w^{T}x + w_0 = g(x)
$$
*Вероятность принадлежности классу*:
$$
p(y=+1|x)=\sigma(w^{T}x + w_0)
$$
*Сигмоид*:
$$
\sigma(z)=\frac{1}{1+e^{-z}}
$$
*Масштабирование* ускорит градиентный спуск и ограничит влияние определенных признаков.

## 6. Explain idea of weighted K-NN. Give examples of weights. Will feature scaling affect predictions of K-NN? 

**Взвешанный K-NN**: среди ближайших соседей приоритетный класс (значение) выбирается с учетом весов:
* Классификация:
$$
\begin{align*}
g_{c}(x) & =\sum_{k=1}^{K}w(k,\,\rho(x,x_{i_{k}}))\mathbb{I}[y_{i_{k}}=c],\quad c=1,2,...C.\\
\widehat{y}(x) & =\arg\max_{c}g_{c}(x)
\end{align*}
$$
* Регрессия
$$
\widehat{y}(x)=\frac{\sum_{k=1}^{K}w(k,\,\rho(x,x_{i_{k}}))y_{i_{k}}}{\sum_{k=1}^{K}w(k,\,\rho(x,x_{i_{k}}))}
$$

**Примеры весов**:
1. Веса, зависящие от индекса:
$$
w_{k}=\alpha^{k},\quad\alpha\in(0,1)
$$
$$
w_{k}=\frac{K+1-k}{K}
$$
2. Веса, зависящие от расстояния, где 
$z_i$ - $i$-ый ближайший сосед: 
$$
w_{k}=\begin{cases}
\frac{\rho(z_{K},x)-\rho(z_{k},x)}{\rho(z_{K},x)-\rho(z_{1},x)}, & \rho(z_{K},x)\ne\rho(z_{1},x)\\
1 & \rho(z_{K},x)=\rho(z_{1},x)
\end{cases}
$$
$$
w_{k}=\frac{1}{\rho(z_{k},x)}
$$

*Масштабирование* сильно влияет на предсказания модели, так как позволяет каждому признаку в равной степени влиять на прогноз.

## 7. Give definition discriminant functions and margin for classification. What is its intuition?

**Discriminant function** - функция, с помощью которой принимается решения в задачах классификации.
$$
c=\arg\min_{i}g_c \text{ или } c=\arg\max_{i}g_c
$$
**Margin** - оценка того, насколько верно мы предсказали класс для объекта (расстояние от объекта до гиперплоскости).

*Margin* в линейной классификации:
$$
M(x,y) =y\cdot\left(w^{T}x+w_{0}\right)
$$
$$
y \in \{-1,+1\}
$$
$M(x,y|w)>0 \Leftrightarrow$ объект верно классифицирован

<img src="img/margin.png" width="500">

## 8. Definition of decision tree. Definition of impurity function. Examples of impurity function. Splitting rule selection for CART trees.

**Решающее дерево** - модель, совершающая прогнозы на основе дереве $T$ (ориентированного, связного графа без циклов).

**Типы веришн**:
1. Корень дерева
2. Внутрениие веришны, каждая из которых имеет $\ge2$ детей (задается параметром $K$)
3. Листья, которые не имеют дочерних узлов, но имеют связанные значения прогнозирования


- Каждая нетерминальная вершина $t$ связана с *функцией проверки* (*check-fuction*) $Q_{t}(x)$
- Каждое ребро $r_{t}(1),...r_{t}(K_{t})$ связано с набором значений *функции проверки* $Q_{t}(x)$: $S_{t}(1),...S_{t}(K_{t})$ таким, что:
    - $\bigcup_{k}S_{t}(k)=range[Q_{t}]$
    - $S_{t}(i)\cap S_{t}(j)=\emptyset$  $\forall i\ne j$
    
**Критерий информативности** (*Impurity function*) - функция, на основе которой осуществляется разбиение выборки в каждой вершине. Для случая классификации функция $\phi(t)=\phi(p_{1},p_{2},...p_{C})$, где $p_{1},...p_{C}$ -вероятность классов в вершине $t$, должна удовлетворять следующим условиям:
1. $\phi$ определена для $p_j \ge 0$ и  $\sum_{j}p_{j}=1$
2. $\phi$ достигает максимума при $p_j = 1/C$
3. $\phi$ достигает минимума $\exists j:\,p_{j}=1,\,p_{i}=0$ $\forall i\ne j$
4. $\phi$ симметричная функция для $p_{1},p_{2},...p_{C}$

**Примеры критериев информативности для случая классификации**:
1. *Критерий Джини* (*Gini criterion*) - вероятность сделать ошибку, когда случайно предсказываешь класс с веротностями классов $[p(\omega_{1}|t),...p(\omega_{C}|t)]$: 
$$
I(t)=\sum_{i}p(\omega_{i}|t)(1-p(\omega_{i}|t))=1-\sum_{i}[p(\omega_{i}|t)]^{2}
$$
2. *Энтропия* (*Entropy*) - мера неопределенности случайной величины:
$$
I(t)=-\sum_{i}p(\omega_{i}|t)\ln p(\omega_{i}|t)
$$
3. Ошибка классификации (*Classification error*) - частота ошибок при классификации преобладающим классом:
$$
I(t)=1-\max_{i}p(\omega_{i}|t)
$$

**Примеры критериев информативности для случая регрессии:**
$$
\begin{align*}
\phi(t) & =\frac{1}{K}\sum_{i\in I}\left(y_{i}-\mu\right)^{2}\quad \text{(MSE)}\\
\phi(t) & =\frac{1}{K}\sum_{i\in I}|y_{i}-\mu|\quad \text{(MAE)}
\end{align*}
$$
где $I=\{i_{1},...i_{K}\}$ - объекты, попадающие в вершину $t$, а $\mu$ - среднее  или медиана всех $y_i$

**Выбор критерия разбиения (splitting rule selection):**
- $\Delta I(t)$ - мера качества разбиения вершины $t$ в дочерние вершины $t_{1},...t_{C}$ (в случае, если используется энтропия, то называется *information gain*)
$$
\Delta I(t)=I(t)-\sum_{i=1}^{C}I(t_{i})\frac{N(t_{i})}{N(t)}
$$
$$
\Delta I(t)=I(t)-\left(I(t_{L})\frac{N(t_{L})}{N(t)} + I(t_{R})\frac{N(t_{R})}{N(t)}\right)
$$

**CART оптимизация:** выбор признака $i_t$ и порога (*threshold*) $h_t$, который максимизирует $\Delta I(t)$
$$
i_{t},\,h_{t}=\arg\max_{k,h}\Delta I(t)
$$
И получаются новые вершины:
$$
\begin{cases}
\text{left child }t_{1}, & \text{if }x^{i_{t}}\le h_{t}\\
\text{right child }t_{2}, & \text{if }x^{i_{t}}>h_{t}
\end{cases}
$$

## 9. Propose stopping rules for setting tree node to leaf node based on: class distribution, number of samples in the leaf, impurity function, change in impurity function from splitting this node

1. **Распределение класса**: если в вершине частота элементов одного класса больше некоторого значения, то вершина становится листом;
2. **Количество элемнтов в листе**: если количество элементов в вершине меньше некоторого значения, то вершина становится листом;
3. **Критерий информативности**: если критерий информативности в веришне меньше определееного значения, то вершина становится листом;
4. **Изменение критерия информативности после разбиения вершины**: если разница критериев информативности у вершины и ее дочерней вершины меньше определенного значения, то дочерняя вершина становится листом.

## 10. Linear regression estimated with ordinary least squares - derive its solution. RIDGE and LASSO regularizations - write them out. Which of them selects features and why?


**МНК:**
$$
L(\beta_0,\beta_1,\dots) = \frac{1}{2N}\sum^{N}_{n=1}(\hat{y}_{n} - y_{n})^2 = \frac{1}{2N}\sum^{N}_{n=1}\left(\sum_{d=0}^{D}\beta_{d}x_{n}^{d}-y_{n}\right)^{2}  \rightarrow \min\limits_{\beta}
$$
В матричной форме:
$$
L(\beta) = \frac{1}{2N}(\hat{y} - y)^{\top}(\hat{y} - y) = \frac{1}{2N}(X\beta - y)^{\top}(X\beta - y) \rightarrow \min\limits_{\beta}
$$
Раскроем:
$$
\begin{align*} 
L(\beta) & = \frac{1}{2N}(X\beta - y)^{\top}(X\beta - y) \\
         & = \frac{1}{2N}\left( \beta^\top X^\top X \beta - 2 (X\beta)^\top y + y^\top y \right)
\end{align*}
$$
Правила производных (напоминания):
$$
\begin{array}{rcl} \frac{\partial}{\partial x} x^T a &=& a \\ \frac{\partial}{\partial x} x^T A x &=& \left(A + A^T\right)x \\ \frac{\partial}{\partial A} x^T A y &=& xy^T \end{array}
$$
Возьмем производную:
$$ 
\nabla L(\beta) = \left(\frac{\partial L(\beta)}{\partial\beta_i} \right)_{i=0\dots d}  = \frac{1}{2N}\left(2X^\top X \beta -2X^\top y\right) = 0 
$$

$$
X^{\top}X\beta-X^{T}y = 0
$$

$$
\beta = (X^\top X)^{-1} X^\top y \quad\text{(Normal Equation)}
$$

**Регуляризация:**
$$
\sum_{n=1}^{N}\left(x_{n}^{T}\beta-y_{n}\right)^{2}+\lambda R(\beta)\to\min_{\beta}
$$
$$
\begin{array}{ll}
\mbox{Lasso regression} & R(\beta)=||\beta||_{1} \\
\text{Ridge regression} & R(\beta)=||\beta||_{2}^{2} \\
\end{array}
$$

*Дополнительно: Аналитическое решение Ridge регрессии*

$$
\sum_{n=1}^{N}\left(x_{n}^{T}\beta-y_{n}\right)^{2}+\lambda\beta^{T}\beta\to\min_{\beta}
$$
$$
\begin{gathered}2\sum_{n=1}^{N}x_{n}\left(x_{n}^{T}\beta-y_{n}\right)+2\lambda\beta=0\\
2X^{T}(X\beta-y)+\lambda\beta=0\\
\left(X^{T}X+\lambda I\right)\beta=X^{T}y
\end{gathered}
$$
И в итоге:
$$
\widehat{\beta}=(X^{T}X+\lambda I)^{-1}X^{T}y
$$

Основное отличие *лассо* и *гребневой* регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю.

Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб ($|\beta_1| + |\beta_2| \le t$), в случае гребневой регрессии — круг ($\beta_1^2 + \beta_2^2 \le t^2$). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на $\beta$. Из рисунка интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.

<img src="img/reg.png" width="500">

## 11. Definition of linear classifier for two and multiple classes.

**Линейная классификация** - модель классификации, которая разделяет объекты гиперплоскостью. 
Формула нахождения принадлежности классу в бинарной классификации:
$$
\widehat{y}(x)= sign\left(w^{T}x+w_{0}\right)
$$

**Margin (Отступ)** показывает то, насколько верно мы предсказали класс для объекта (расстояние от объекта до гиперплоскости).

*Margin* в линейной классификации:
$$
M(x,y) =y\cdot\left(w^{T}x+w_{0}\right)
$$
$$
y \in \{-1,+1\}
$$
$M(x,y|w)>0 \Leftrightarrow$ объект верно классифицирован

Цель модели: минимизировать *misclassification rate*:
$$
\frac{1}{N}\sum_{n=1}^{N}\mathbb{I}[M(x_{n},y_{n}|w)<0]\to\min_{w}
$$
Для того, чтобы эффективнее искать минимум вводятся функции $\mathcal{L}(M)$ такие, что $\mathbb{I}[M]\le\mathcal{L}(M)$, и их можно дифферинцировать. 
$$
\begin{gathered}\begin{gathered}\text{MISCLASSIFICATION RATE}\end{gathered}
=\frac{1}{N}\sum_{n=1}^{N}\mathbb{I}[M(x_{n},y_{n}|w)<0]\\
\le\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(M(x_{n},y_{n}|w))=L(w)
\end{gathered}
$$
В случае многоклассовой классификации используется два подхода:
1. Подход **One-vs-Rest** принимает один класс как положительный, а остальные все как отрицательный и обучает классификатор. Таким образом, для данных, имеющих $n$ классов, он обучает $n$ классификаторов. На этапе классификации каждый классификатор предсказывает вероятность того, что выбран определенный класс, и выбирается класс с наибольшей вероятностью.
2. **One-vs-One** рассматривает каждую пару классов и обучает классификатор на подмножестве данных, содержащих эти классы. Тренируется всего $n(n-1)/2$ классификаторов. На этапах классификации каждый классификатор прогнозирует один класс. (Это отличает от *One-vs-Rest*, где каждый классификатор предсказывает вероятность). И класс, который был предсказан больше всего раз, является ответом.

## 12. Show that for linearly dependent features vector of coefficients of linear regression is not uniquely defined. What is dummy variable trap? Given two linearly dependent features which of them will be eliminated by LASSO?

**Доказательство неопределенности $\widehat{\beta}$, если присутствуют линейно-зависимые признаки:**

Допустим у нас есть линейно-зависимые признаки: $\exists\alpha:\,x^{T}\alpha=0\,\forall x$

А так же вектор $\beta$ - решение линейной регрессии $y=x^{T}\beta$.

Тогда: $x^{T}\beta\equiv x^{T}\beta+kx^{T}\alpha\equiv x^{T}(\beta+k\alpha)$, поэтому $\beta+k\alpha$ тоже решение! Значит, вектор $\widehat{\beta}$ - не определен однозначно.

**Dummy variable trap** - случай, при котором при one-hot-encoding признак разбивается на то же количество бинарых признаков, что и значений в данном признаке. При этом возникает линейная зависимость между новыми dummy переменными (бинарными признаками), что приводит к неопределенности ответа.

Среди двух линейно-зависимых признаков Лассо удалит тот, у которого масштаб меньше, так как признаку с бОльшим масштабом будет необходим меньший коэффициент. 

## 13. How to estimate parameters of linear classifier? Write out the optimization task for different loss functions. Compare qualitatively typical loss functions.

Оценить параметры можно **методом максимального правдоподобия**:

Веорятности каждого класса в зависимости от отступа:
$$
p(y=+1|x)=\sigma(w^{T}x + w_0)
$$
$$
p(y=-1|x)=1 - p(y=+1|x)=\sigma(-w^{T}x - w_0)
$$

(*так как $(1-\sigma(z)=\sigma(-z))$*)

Значит:
$$
p(y|x)=\sigma(y(\langle w,x\rangle + w_0))
$$
Функция правдоподобия будет выглядеть так:
$$
\prod_{n=1}^{N}\sigma(y_n(\langle w,x_n\rangle + w_0)) = \prod_{n=1}^{N}\sigma(y_n g(x_n)) \to\max_{w}
$$
Что эквивалетно:
$$
\sum_{n=1}^{N}\ln(1+e^{-y_ng(x_n)})\to\min_{w}
$$

**Задача оптимизации функции потерь:**

**Margin** - оценка того, насколько верно мы предсказали класс для объекта (расстояние от объекта до гиперплоскости).

**Задача:**  выбрать такой вектор $w$, чтобы увеличить $M(x_{n},y_{n}|w)$ для всех $n$.

Формализованно:
$$
\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}\left(M(x_{n},y_{n}|w)\right)\to\min_{w}
$$

**Распространенные функции потерь:**

<img src="img/loss_func_linreg.png" width="500">

## 14. Optimization criteria to find weight of binary linear classifier with L1 and L2 regularization on weights. Which of regularizer has feature selection capability? Why?


$$
\frac{1}{N}\sum_{n=1}^{N}\ln(1+e^{-y_ng(x_n)}) + \gamma||w||_{1}+\beta||w||_{2}^{2}\to\min_{w}
$$

L1-регуляризатор может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю. Объяснение см. вопрос 10

## 15. Multiclass logistic regression. How to find weights? What is Softmax function? 

Кажому классу определяется своя оценка:
$$
\begin{cases}
score(\omega_{1}|x)=w_{1}^{T}x + w_{0,1} \\
score(\omega_{2}|x)=w_{2}^{T}x + w_{0,2}\\
\cdots\\
score(\omega_{C}|x)=w_{C}^{T}x + w_{0,C}
\end{cases}
$$

Причем предполагается такая связь оценок и вероятности класса:
$$
p(\omega_{c}|x)=softmax(\omega_c|W, x)=\frac{exp(w_{c}^{T}x + w_{0,c})}{\sum_{i}exp(w_{i}^{T}x + w_{0,i})}
$$

Получается такая функция правдоподобия:
$$
\prod_{n=1}^{N}\prod_{c=1}^{C} softmax(\omega_c|W, x_n)^{\mathbb{I}[y_n = w_c]}
$$
И мы получаем *cross-entropy loss function*
$$
L(w) = - \sum_{n=1}^N\sum_{c=1}^{C} \mathbb{I}[y_n = w_c]\cdot\ln{\sigma(w_c^{T}x_n+w_{c,0}))}
$$

## 16. Give definition of gradient descent and stochastic gradient descent. Motivation for stochastic gradient. Write out pseudo code for both methods for one of the following losses: 
$$L(M) = [−M]_+$$ 
$$L(M) = [1 − M]_+$$
$$L(M) = log(1 + e^{−M})$$

**Градиентный спуск** - метод нахождения локального экстремума функции (потерь) с помощью движения вдоль *градиента* (вектора частных производных)

Пример вычисления *градиента* для $L(\beta_0, \beta_1)$:
$$
\frac{\partial L}{\partial \beta_0} = \frac{1}{N}\sum^{N}_{i=1}(\beta_0 + \beta_1x_{n}^1 - y^{n})
$$
$$
\frac{\partial L}{\partial \beta_1} = \frac{1}{N}\sum^{N}_{i=1}(\beta_0 + \beta_1x_{n}^1 - y^{n})x^1_{n}
$$

Или в матричной форме:
$$
\nabla_{\beta}L(\beta) = \frac{1}{N} X^\top(X\beta - y)
$$

Тогда обновление очередного решения:
$$
\beta := \beta - \alpha\nabla_{\beta}L(\beta)
$$
Где $\alpha$ - скорость спуска

Стохастический градиетный спуск отличается от обычного тем, что на каждой итерации частные производный считаются не по всем элементам. А берётся некоторая случайная подвыборка. Это дает нам ускорение алгоритма.

Градиент для 3-ей функции:

$$
\frac{\partial}{\partial w_{j}}L(w) = \frac{1}{N} \sum_i^N \frac{-exp(-y_i(w^Tx_i))(y_ix{_i}_j)}{1+\exp(-y_i(w^\top x_i))}
$$


Псевдокод:
GD:
```
function gd(X, alpha, epsilon):
    
    initialise beta 
    
    do: 
        
        Beta = new_beta
        
        new_Beta = Beta - alpha*grad(X, beta)
        
    until dist(new_beta, beta) < epsilon
    
    return beta
```
SGD:
```
function sgd(X, alpha, epsilon):

    initialise beta 
    
    do: 
    
        X = shuffle(X)
        
        for x in X:
        
            Beta = new_beta
            
            new_Beta = Beta - alpha*grad(x, beta)
            
    until dist(new_beta, beta) < epsilon
    
    return beta
```

## 17. Definition of confusion matrix. How to calculate error rate, accuracy with it? What is the relationship between TPR, FPR, FNR and TNR?

**Confusion matrix** - матрица, которая используется для описания производительности модели классификации на наборе тестовых данных, для которых известны истинные значения.

<img src="img/confusion_matrix.png" width="300">

<img src="img/binary_conf.png" width="300">

- TP (true positive) - правильно предсказанные positive
- FP (false positive) - неверно предсказанные negatives (ошибка 1-ого рода)
- FN (false negative) - неверно предсказанные positives (ошибка 2-ого рода)
- TN (true negative) - правильно предсказанные negatives
- Pos (Neg) - количество positives (negatives)
- $\text{accuracy} = \frac{TP + TN}{Pos+Neg}$
- $\text{error rate} = 1 -\text{accuracy}$