# ML exam, теория

## Постановка задачи классификации

Пусть $X$ --- множество объектов, $Y$ --- множество ответов, $y:X\to Y$ --- неизвестная зависимость. 

Дано: обучающая выборка --- $\mathsf{(x_1,\ldots, x_n) \subset X}$, $\mathsf{y_i=y(x_i), ~i=1,\ldots,n}$ --- известные ответы. 

Найти: $\mathsf{a:X\to Y}$ --- функцию (decision function), приближающую $\mathsf{y}$ на всем множестве $\mathsf{X}$. 
   
Вероятностная постановка задачи: имеется неизвестное распределение на множестве $\mathsf{X\times Y}$ с плотностью $\mathsf{p(x,y)}$, из которого случайно выбираются $\mathbb{X}_\mathsf{n}=\mathsf{(x_i,y_i)_{i=1}^n}$ (независимые). 

Задача классификации: 
 
 $\mathsf{Y}=\{-1,+1\}$ --- классификация на 2 класса
 
 $\mathsf{Y}=\{1,\ldots,K\}$ --- классификация на $K$ классов

Классификатор будем строить $a(x,w) = \text{sign}~ f(x,w)$, где $f(x,w)$ --- разделяющая функция.
$\mathsf{M_i(w)=y_if(x_i,w)}$ --- отступ объекта $\mathsf{x_i}$. 

Задача: минимизировать число ошибок классификации (отрицательных отступов)
$$ Q(\mathsf{w)=\sum \limits_{i=1}^n [M_i(w)<0]}\le \tilde Q(\mathsf{w)=\sum \limits_{i=1}^n \mathcal{L}(M_i(w)) \to \min \limits_{w}}$$

Линейный классификатор: $\mathsf{a(x,w)=\text{sign}~ (\sum\limits_{j=1}^pw_jf_j(x)-w_0),~~~w_0,w_1,\ldots,w_p\in\mathbb{R}}$.

Пусть $\mathsf{f_0=-1}$, тогда

 $$\mathsf{a(x,w)=\text{sign}~\langle w,x\rangle ,~ x,w\in\mathbb{R}^{p+1}}.$$
 
 
 $\mathsf{M_i(x)=y_i\langle w,x_i\rangle}$ --- отступ объекта $\mathsf{x_i}$. 
 
Задача: $$\mathsf{Q(w)=\sum \limits_{i=1}^n [y_i\langle w,x_i\rangle <0] \le \sum \limits_{i=1}^n \mathcal{L}(y_i\langle w,x_i\rangle) \to \min \limits_{w}}$$


# Логистическая регрессия.

2 эквивалентных подхода: через функцию риска и через модель для вероятности в распределении Бернулли.

### 1 подход (минимизация функции потерь)

Линейная модель классификации: $\mathsf{a(x)=\text{sign}~ \langle w,x\rangle,~~~ x,w\in \mathbb{R}^p,~~ M=\langle w,x \rangle y}$ --- отступ. 

В качестве аппроксимации пороговой функции потерь берется логарифмическая функция потерь $\mathcal{L}(\mathsf{M})=\log(1+e^{-\mathsf{M}})$ и задача выглядит следующим образом: 
$$\mathsf{Q(w)=\sum \limits_{i=1}^n \log (1+\exp{(-y_i\langle w,x_i\rangle)}) \to \min \limits_{w}}.$$

Способы решения задачи минимизации: метод стохастического градиента, метод Ньютона-Рафсона.

### 2 подход (вероятностный подход)

Хотим оценить вероятности принадлежности какому-то классу.

Пусть $Y =\{0,1\}.$ Пусть $P(y=1|x) = \frac{e^{w_0+w_1x_1+\ldots+w_px_p}}{1+e^{w_0+w_1x_1+\ldots+w_px_p}} = \sigma_w(x).$ (Делается предположение о том, что вероятность наступления события y=1 такова) 

($f(z) = \frac{1}{1+e^{-z}}$ --- сигмоидная функция.)

Тогда вероятность принять значение 0 равна: $P(y=0)=1-\sigma_w(x).$

Тогда $\mathsf{P(y|x;w)=(\sigma_w(x))^y(1-\sigma_w(x))^{1-y}}.$

Фактически, это есть распределение Бернулли с параметром, равным $\sigma_w(x).$

Выписываем функцию правдоподобия: 
$$\mathsf{Q(w)=-\log L(w)=-\log \prod\limits_{i=1}^n(\sigma_w(x_i))^{y_i}(1-\sigma_w(x_i))^{1-y_i}}= =\mathsf{-\sum\limits_{i=1}^n [y_i\log (\sigma_w(x_i)+(1-y_i))\log (1-\sigma_w(x_i))]\to \min\limits_{w}} $$

Если несколько классов, $Y=\{1,\ldots,K\}.$ Тогда линейный классификатор: $\mathsf{a(x,w)=\text{argmax}_{y\in Y}\langle w_y,x \rangle,~~~x,w_y\in\mathbb{R}^p },$

Вероятность того, что объект $\mathsf{x}$ относится к классу $\mathsf{i}$:
	$\mathsf{P(y=i|x;w)=\frac{\exp{\langle w_y,x \rangle}}{\sum\limits_{z\in Y}\exp{\langle w_z,x \rangle}}=\frac{e^{w_i^{\mathrm{T}}x}}{\sum\limits_{k=1}^Ke^{w_k^{\mathrm{T}}x}} }.$
    
Задача:	$\mathsf{Q(w)=-\sum\limits_{i=1}^n\log P(y_i|x_i;w)\to \min\limits_w }$
	

### Задача с регуляризацией: 

$$Q(\mathsf{w;\mathbb{X}_n)=\sum\limits_{i=1}^n \ln p(x_i,y_i|w)+\frac{1}{C}\sum\limits_{j=1}^pw_j^2 \to \min\limits_{w,C}}  ~~~(L2~ регуляризация)$$
$$Q(\mathsf{w;\mathbb{X}_n)=\sum\limits_{i=1}^n \ln p(x_i,y_i|w)+\frac{1}{C}\sum\limits_{j=1}^p|w_j| \to \min\limits_{w,C}} ~~~ (L1~ регуляризация)$$

При уменьшении $C$ регуляризация сильнее. 



## Функция в python

class sklearn.linear_model.LogisticRegression(penalty='l2',   dual=False,   tol=0.0001,   C=1.0,   fit_intercept=True, intercept_scaling=1,   class_weight=None,   random_state=None,   solver='lbfgs',   max_iter=100,   multi_class='auto', verbose=0,   warm_start=False,   n_jobs=None,   l1_ratio=None)


In the multiclass case, the training algorithm uses the one-vs-rest (OvR) scheme if the ‘multi_class’ option is set to ‘ovr’, and uses the cross-entropy loss if the ‘multi_class’ option is set to ‘multinomial’. (Currently the ‘multinomial’ option is supported only by the ‘lbfgs’, ‘sag’, ‘saga’ and ‘newton-cg’ solvers.)

This class implements regularized logistic regression using the ‘liblinear’ library, ‘newton-cg’, ‘sag’, ‘saga’ and ‘lbfgs’ solvers. Note that regularization is applied by default. It can handle both dense and sparse input. Use C-ordered arrays or CSR matrices containing 64-bit floats for optimal performance; any other input format will be converted (and copied).

The ‘newton-cg’, ‘sag’, and ‘lbfgs’ solvers support only L2 regularization with primal formulation, or no regularization. The ‘liblinear’ solver supports both L1 and L2 regularization, with a dual formulation only for the L2 penalty. The Elastic-Net regularization is only supported by the ‘saga’ solver.


### Parameters

- penalty: {‘l1’, ‘l2’}, default=’l2’ --- вид регуляризации, “lbfgs”и “newton-cg” поддреживают только L2 регуляризвцию.


- dual: bool, default=False --- прямая или дуальная задача оптимизации. Дуальная формулировка поддерживается только с liblinear. Лучше использовать dual=False, когдаn_samples>n_features.


- tol: float, default=1e-4 --- Tolerance for stopping criteria.


- C: float, default=1.0 --- параметр регуляризации (inverse of regularization strength), должен быть положительным float. Меньшее С обеспечивает более сильную регуляризацию.


- fit_intercept: bool, default=True --- определяет добавлять ли константу к решающей функции.


- intercept_scaling: float, default=1 --- Useful only when the solver ‘liblinear’ is used and self.fit_intercept is set to True. In this case, x becomes [x, self.intercept_scaling], i.e. a “synthetic” feature with constant value equal to intercept_scaling is appended to the instance vector. The intercept becomes intercept_scaling * synthetic_feature_weight.


- class_weight: dict or ‘balanced’, default=None --- Weights associated with classes in the form {class_label: weight}. If not given, all classes are supposed to have weight one. The “balanced” mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as n_samples / (n_classes * np.bincount(y)). Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified.


- random_state: int, RandomState instance, default=None 

- solver: {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, default=’lbfgs’ --- Algorithm to use in the optimization problem.

For small datasets, ‘liblinear’ is a good choice, whereas ‘sag’ and ‘saga’ are faster for large ones.

For multiclass problems, only ‘newton-cg’, ‘sag’, ‘saga’ and ‘lbfgs’ handle multinomial loss; ‘liblinear’ is limited to one-versus-rest schemes.

‘newton-cg’, ‘lbfgs’, ‘sag’ and ‘saga’ handle L2 or no penalty

‘liblinear’ and ‘saga’ also handle L1 penalty

‘saga’ also supports ‘elasticnet’ penalty

‘liblinear’ does not support setting penalty='none'

Note that ‘sag’ and ‘saga’ fast convergence is only guaranteed on features with approximately the same scale. You can preprocess the data with a scaler from sklearn.preprocessing.


- max_iter: int, default=100 --- Maximum number of iterations taken for the solvers to converge.


- multi_class: {‘auto’, ‘ovr’, ‘multinomial’}, default=’auto’
If the option chosen is ‘ovr’, then a binary problem is fit for each label. For ‘multinomial’ the loss minimised is the multinomial loss fit across the entire probability distribution, even when the data is binary. ‘multinomial’ is unavailable when solver=’liblinear’. ‘auto’ selects ‘ovr’ if the data is binary, or if solver=’liblinear’, and otherwise selects ‘multinomial’.


- verbose: int, default=0
For the liblinear and lbfgs solvers set verbose to any positive number for verbosity.


- warm_start: bool, default=False
When set to True, reuse the solution of the previous call to fit as initialization, otherwise, just erase the previous solution. Useless for liblinear solver. See the Glossary.


- n_jobs: int, default=None
Number of CPU cores used when parallelizing over classes if multi_class=’ovr’”. This parameter is ignored when the solver is set to ‘liblinear’ regardless of whether ‘multi_class’ is specified or not. None means 1 unless in a joblib.parallel_backend context. -1 means using all processors. See Glossary for more details.


- l1_ratio: float, default=None --- The Elastic-Net mixing parameter, with 0 <= l1_ratio <= 1. Only used if penalty='elasticnet'. Setting 'l1_ratio=0 is equivalent to using penalty='l2', while setting l1_ratio=1 is equivalent to using penalty='l1'. For 0 < l1_ratio <1, the penalty is a combination of L1 and L2.

## Бустинг

Последовательное обучение базовых алгоритмов; каждый следующий исправляет ошибки предыдущих; за счет этого достаточно простых базовых алгоритмов. 

Постановка задачи:

Пусть $X$ --- множество объектов, $Y$ --- множество ответов
$y: X \to Y$ --- неизвестная зависимость.

Дано: обучающая выборка --- $X^n = (x_i,y_i)_{i=1}^n $, $y_i = y(x_i), i = 1,\ldots,n$ --- известные ответы.

Требуется построить алгоритм $a(x) = C(b(x))$, аппроксимирующий целевую зависимость $y$ на всём множестве $X$.

$b: X\to R$ --- базовый алгоритм, $C: R\to Y$ --- рещающее правило, $R$ --- пространство оценок. (Сначала оцениваем степень принадлежности объекта классу, а затем решаем, к какому классу его отнести. 

Изменение постановки задачи: вместо одного базового алгоритма $b$ рассматривается несколько алгоритмов $b_1(x), \ldots , b_T (x)$. И строим композицию базовых алгоритмов $a(x)=C(F(b_1(x),\ldots,b_T(x))),$ где $F:R^T\to R$ --- корректирующая операция. (Пространство оценок R вводится для того, чтобы расширить множество допустимых корректирующих операций)

В качестве базовых алгоритмов обычно выступают:
   решающие деревья (неглубокие 2-8) — используются чаще всего;
   пороговые правила (data stumps).

Примеры корректирующих операций:

 - Простое голосование (Simple Voting):
$$F(b_1(x), \ldots , b_T(x))= \frac{1}{T} \sum_{t=1}^{T} b_t(x), \quad x \in X.$$

 - Взвешенное голосование (Weighted Voting):
$$F(b_1(x), \ldots , b_T(x))= \sum_{t=1}^{T} \alpha_t b_t(x), \quad x \in X, \quad \alpha_t \in R.$$

 - Смесь алгоритмов (Mixture of Experts):
$$F(b_1(x), \ldots , b_T(x))= \sum_{t=1}^{T} g_t(x)b_t(x), \quad x \in X, \quad g_t: X \to  \mathbb R.$$  


Последовательное обучение:
Хотим минимизировать функцию потерь, 
$$Q(b,X^n) = \sum \limits_{i=1}^n \mathcal{L}(b(x_i),y_i).$$

Итерации: 
   - обучим простой алгоритм: $b_1(x) = \arg \min \limits_{b \in \mathcal{B}} Q(b,X^n)$;
   
   - хотим добавить еще один алгоритм:  $b_2(x) = \arg \min \limits_{b,F} Q(F(b_1,b),X^n) $ 
   - $\ldots$ 
   - $b_T(x) = \arg \min \limits_{b,F} Q(F(b_1,\ldots,b_{T-1},b),X^n)$
   
  Такие задачи решать неудобно, и утверждается, что задачу можно свести к следующей: $b_t = \arg \min \limits_{b} \sum \limits_{i=1}^n w_i \tilde{\mathcal{L}}(b(x_i),y_i).$
  
  ### Adaboost
  
  Пусть $Y=\{-1,+1\},~ C(b) = sign(b),~ b_t:X\to \{-1,0,1\}$ (имеются отказы). Композиция имеет вид $$ a(x) = C(F(b_1(x),\ldots, b_T(x)) = sign (\sum\limits_{t=1}^T \alpha_t b_t(x)).$$
  
  Функционал качества ошибок классификации: $$Q_T = \sum_{i=1}^{n} [y_i \sum\limits_{t=1}^T \alpha_t b_t(x)<0].$$
  Используется аппроксимация функции потерь: $e^{-M}.$
  
   $$Q_T \leq \widetilde {Q}_T =\sum_{i=1}^{n} \exp \left(-y_i \sum_{t=1}^{T} \alpha_t b_t(x_i) \right) =
 -\sum_{i=1}^{n}  \underbrace{\exp \left(-y_i \sum_{t=1}^{T-1} \alpha_t b_t(x_i) \right)}_{\omega_i} e^{−y_i\alpha_T b_T(x_i)}$$


Заметим, что введённые здесь веса объектов $\omega_i$ не зависят от $\alpha_T b_T$ и могут быть вычислены перед построением базового алгоритма $b_T$.

Введём вектор нормированных весов $\widetilde W^n = \widetilde{\omega}_1, \ldots, \widetilde{\omega}_n$, где $\widetilde{\omega}_i = \omega_i / \sum_{j=1}^{n} \omega_j$.


Определим два функционала качества алгоритма классификации $b$ на обучающей выборке  $X^n = (x_i,y_i)_{i=1}^n$ с нормированным вектором весов объектов $U^n = (u_1, \ldots , u_n)$: суммарный вес ошибочных (negative) классификаций $N(b; U^n)$ и суммарный вес правильных (positive) классификаций $P(b; U^n)$:
$$N(b; U^n) = \sum_{i=1}^{n} u_i [b(x_i)=-y_i],$$
$$P(b; U^n) = \sum_{i=1}^{n} u_i [b(x_i)=y_i].$$

Заметим, что $1 - N - P$ есть суммарный вес отказов от классификации. Если отказов нет, то $N + P = 1$.   


Основная теорема бустинга (для AdaBoost).
Пусть $\mathcal{B}$ --- достаточно богатое семейство базовых алгоритмов, то есть для любого нормированного вектора весов $U^n$ существует алгоритм $b \in \mathcal{B}$, классифицирующий выборку хотя бы немного лучше, чем наугад: $P(b; U^n)>N(b; U^n)$.

Тогда минимум функционала $\widetilde {Q}_T$ достигается при
$$b_T = \arg \max \limits_{b \in \mathcal{B}} \sqrt{P(b; \widetilde{W}^n)}-\sqrt{N(b; \widetilde {W}^n)},$$
$$a_t = \frac{1}{2} \ln \frac{P(b_t; \widetilde{W}^n)}{N(b_t; \widetilde{W}^n)}.$$

Алгоритм Adaboost:

Вход: $X^n = (x_i,y_i)_{i=1}^n$ - обучающая выборка, $T$ - максимальное число базовых алгоритмов.
Выход: базовые алгоритмы и их веса $\alpha_t b_t$, $t = 1, \ldots, T$.

1. инициализация весов объектов: $\omega_i := 1/n$, $i = 1, \ldots, n$;

2. для всех $t=1,\ldots,T$, пока не выполнен критерий остановки:

 a. обучить базовый алгоритм: $b_t := \arg \min \limits_{b \in \mathcal{B}} N(b; W^n)$;
 
 b.  $\alpha_t := \frac{1}{2} \ln \frac{1-N(b_t; W^n)}{N(b_t; W^n)}$;
 
 c. пересчет весов объектов: $\omega_i := \omega_i e^{−\alpha_t y_i b_t(x_i)}$, $i = 1, \ldots, n$;
 
 d. нормировка весов объектов: $\omega_0 := \sum_{j=1}^{n} \omega_j$; $\omega_i:=\omega_i/\omega_0$, $i = 1, \ldots, n$.
 
 ### Обобщение бустинга
 
 $$Q_T \leq \widetilde {Q}_T =\sum_{i=1}^{n} \mathcal{L} (M_{T-1}(x_i) + y_i \alpha_T b_T(x_i)) \to \min \limits_{\alpha, b \in \mathcal{B}}.$$
 
 Линеаризуем $\mathcal{L}$ в окресности $\alpha = 0$,

$$\widetilde {Q}_T \approx \sum_{i=1}^{n} \mathcal{L} (M_{T-1}(x_i)) - \alpha \sum_{i=1}^{n} \underbrace{ - \mathcal{L}' (M_{T-1}(x_i))}_{w_i} y_i b(x_i) \to \min \limits_{b \in \mathcal{B}},$$
где $w_i$ — веса объектов.

Минимизация линеаризованного $\widetilde {Q}_T$ при фиксированном $\alpha$:
$$\widetilde {Q}_T \approx \sum_{i=1}^{n} \mathcal{L} (M_{T-1}(x_i)) - \alpha \sum_{i=1}^{n} \omega_i y_i b(x_i) \to \min \limits_{b \in \mathcal{B}}$$
приводит к принципу явной максимизации отступов (direct optimization of margin, DOOM):
$$\sum_{i=1}^{n} \omega_i y_i b(x_i) \to \max \limits_{b \in \mathcal{B}}.$$

Затем $\alpha$ определяется путём одномерной минимизации $\widetilde {Q}_T$.

Итерации этих двух шагов приводят к алгоритму AnyBoost.

Вход: $X^n = (x_i,y_i)_{i=1}^n$ - обучающая выборка, $T$ - максимальное число базовых алгоритмов.
Выход: базовые алгоритмы и их веса $\alpha_t b_t$, $t = 1, \ldots, T$.

1. инициализация отступов: $M_i := 0$, $i = 1, \ldots, n$;

2. для всех $t=1,\ldots,T$, пока не выполнен критерий остановки:

 a. вычислить веса объектов: $\omega_i = -\mathcal{L}'(M_i)$, $i = 1, \ldots, n$;
 
 b. обучить базовый алгоритм согласно принципу DOOM: $b_t := \arg \max \limits_{b \in \mathcal{B}} \sum_{i=1}^{n} \omega_i y_i b(x_i)$;
 
 c. решить задачу одномерной минимизации: $a_t := \arg \max \limits_{\alpha} \sum_{i=1}^{n} \mathcal{L} (M_i+\alpha b_t(x_i) y_i)$;
 
 d. пересчет отступов: $M_i := M_i +\alpha b_t(x_i) y_i$; $i = 1, \ldots, n$.

## Функции в python

## Adaboost

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm='SAMME.R', random_state=None)

An AdaBoost classifier is a meta-estimator that begins by fitting a classifier on the original dataset and then fits additional copies of the classifier on the same dataset but where the weights of incorrectly classified instances are adjusted such that subsequent classifiers focus more on difficult cases.


### Parameters

- base_estimator: object, optional (default=None) --- базовый алгоритм. 
The base estimator from which the boosted ensemble is built. Support for sample weighting is required, as well as proper classes_ and n_classes_ attributes. If None, then the base estimator is DecisionTreeClassifier(max_depth=1).


- n_estimators: int, optional (default=50) --- максимальное количество базовых алгоритмов. 
The maximum number of estimators at which boosting is terminated. In case of perfect fit, the learning procedure is stopped early.


- learning_rate: float, optional (default=1.)
Learning rate shrinks the contribution of each classifier by learning_rate. There is a trade-off between learning_rate and n_estimators.


- algorithm{‘SAMME’, ‘SAMME.R’}, optional (default=’SAMME.R’)
If ‘SAMME.R’ then use the SAMME.R real boosting algorithm. base_estimator must support calculation of class probabilities. If ‘SAMME’ then use the SAMME discrete boosting algorithm. The SAMME.R algorithm typically converges faster than SAMME, achieving a lower test error with fewer boosting iterations.


- random_state: int, RandomState instance or None, optional (default=None)
If int, random_state is the seed used by the random number generator; If RandomState instance, random_state is the random number generator; If None, the random number generator is the RandomState instance used by np.random.

## XGBoost

### Параметры

Одна из самых популярных библиотек при работе с бустингом -- xgboost. Он реализует алгоритм градиентного бустинга в довольно общем виде.

Рассмотрим параметры XGboost. Выделяют три группы параметров:

- Общие параметры, отвечающие за базовый алгоритм для бустинга и распараллеливание.
- Параметры выбранного базового алгоритма.
- Параметры обучения, отвечающие за функцию потерь и метрику качества на валидации.

 Общие параметры:
 
- booster - тип базового алгоритма для бустинга: дерево решений gbtree или линейная модель gblinear, dart.
- silent(/verbosity) - выдавать (silent=0) или нет (silent=1) сообщения по ходу работы алгоритма. (Valid values are 0 (silent) - 3 (debug).)
- nthread (/n_jobs)- число нитей доступных для параллельной работы xgboost.

Параметры базового алгоритма:

Дерево решений:
- eta (/learning_rate) - темп обучения, перед добавлением дерева в композицию оно умножается на eta. Используется для предотвращения переобучения за счёт "сокращения" весов базовых алгоритмов, делая модель более консервативной. Чем меньше eta, тем больше нужно итераций num_boost_round для обучения модели с хорошим качеством. Диапазон: $[0, 1]$

- gamma - минимальное снижение значения функции потерь, необходимое для дальнейшего разбиения вершины дерева. Большие значения gamma > 0 приводят к более консервативным моделям. Диапазон: $[0, \infty)$.

- max_depth - максимальная глубина дерева. Диапазон: [1, $\infty$).

- min_child_weight - минимальное необходимое (взвешенное) число примеров в каждой вершине. Чем больше, тем более консервативна итоговая модель. Диапазон: $[0, \infty)$.

- max_delta_step - обычно равен нулю. Положительные значения используются при несбалансированных классах для ускорения сходимости. Диапазон $[0, \infty)$.

- subsample - доля выборки, используемая для обучения каждого дерева. Если subsample < 1, то выбирается случайная подвыборка, что помогает в борьбе с переобучением. Диапазон: $(0, 1]$

- colsample_bytree - доля признаков, используемая для обучения каждого дерева. Диапазон: $(0, 1]$

- lambda (/reg_lambda) - коэффициент перед $L_2$-регуляризатором в функции потерь.

- alpha (/reg_alpha) - коэффициент перед $L_1$-регуляризатором в функции потерь.

Линейная модель:

- lambda - коэффициент перед $L_2$-регуляризатором вектора весов в функции потерь.

- alpha - коэффициент перед $L_1$-регуляризатором вектора весов в функции потерь.

- lambda_bias - коэффициент перед $L_2$-регуляризатором смещения (свободного члена) в функции потерь.

Параметры задачи обучения:

- objective - используемая при обучении функция потерь:

"reg:linear" – линейная регрессия. "reg:logistic" – логистическая регрессия. "binary:logistic" – логистическая регрессия для бинарной классификации, на выходе - вероятность. "binary:logitraw" – то же самое, но на выходе - значение до его преобразования логистической функцией. "count:poisson" – регрессия Пуассона (используется для оценки числа каких-то событий, счётный признак), на выходе - матожидания распределения Пуассона. В этом случае max_delta_step автоматически устанавливается равным 0.7. "multi:softmax" – обобщение логистической регрессии на многоклассовый случай. При этом нужно задать параметр num_class. "multi:softprob" – то же самое, но на выходе - вектор размера ndata * nclass, который можно преобразовать в матрицу, содержащую вероятности отнесения данного объекта к данному классу. "rank:pairwise" – используется для задач ранжирования.

- base_score [default=0.5] - инициализация значения модели для всех примеров, глобальное смещение.

- eval_metric [default according to objective] - метрика качества на валидационной выборке (по умолчанию соответствует функции потерь: rmse - для регрессии, error - для классификации, mean average precision - для ранжирования). Выбрать можно одну из следующих метрик: "rmse": root mean square error. "logloss": минус логарифм правдоподобия. "error": доля ошибок для бинарной классификации. "merror": то же самое для многоклассовой классификации. "mlogloss": logloss для многоклассовой классификации. "auc": AUC. "ndcg": Normalized Discounted Cumulative Gain. "map": Mean average precision. "ndcg@n",”map@n”: здесь n - целое число, первые n позиций в списке не учитываются. "ndcg-",”map-”,”ndcg@n-”,”map@n-”: списку из всех положительных примеров будет присвоено значение 0 (вместо 1).

- seed (/random_state) - для воспроизводимости "случайности".

Эти параметры используются при вызове, например, методов XGBClassifier() и XGBRegressor().

# Нейронные сети

Пусть $X$ --- множество объектов, $Y$ --- множество ответов. Пусть есть обучающая выборка $X^n = (x_i, y_i)_{i=1}^{n},$ $x_i \in \mathbb{R}^p$. Обозначим $(x^1,\ldots,x^p)\in \mathbb{R}^p$ --- вектор признаков объекта $x\in X$. Рассмотрим следующую задачу построения предсказывающей модели:
	\begin{equation*}
	Q(a, X^n) = \frac{1}{n} \sum_{i=1}^{n} \mathcal{L}(a,x_i,y_i) \rightarrow \min_w,
	\end{equation*}
	где алгоритм $a$ зададим следующим образом (рассмотрим особый класс функций):
	\begin{equation*}
	a(x, w) = \sigma( \langle w,x \rangle ) = \sigma\left(\sum_{j=1}^{p} w_j x^j - w_0 \right),
	\end{equation*}
	где $w_k \in \mathbb{R}$, $k=0,\ldots,p$ --- параметры; 
	$\sigma: \mathbb{R} \rightarrow  \mathbb{R} $ --- функция активации;
	$\mathcal{L}(a,x_i,y_i)$ --- функция потерь, $i=1,\ldots,n$. Такой класс функций включает в себя, например, линейную классификацию и линейную регрессию.
    
 Возникает вопрос --- насколько богатый класс функций может быть реализован нейроном? 

Теорема [Цыбенко, 1989]
	Пусть $\sigma(x)$ --- непостоянная, ограниченная и монотонно возрастающая непрерывная функция; $C(I_{p_0})$ --- множество непрерывных функций на $[0,1]^{p_0}$.
	
Тогда $\forall f \in C(I_{p_0})$ и $\forall \varepsilon > 0$  $\exists ~p_1 \in \mathbb{Z}$ и  $\alpha_i$, $b_i$, $w_{ij} \in \mathbb{R}$, $i=1,\ldots,p_1$, $j=1,\ldots, p_0$, такие что для любого $x=(x^1, \ldots, x^{p_0}) \in I_{p_0}$ выполняется
	$$| F(x^1, \ldots, x^{p_0}) - f(x^1, \ldots, x^{p_0})| < \varepsilon$$,
	где 
	$$F(x^1, \ldots, x^{p_0})=\sum_{i=1}^{p_1} \alpha_i \, \sigma \left(\sum_{j=1}^{p_0} w_{ij} x^j + b_i   \right).$$

Из этой теоремы можно сделать вывод, что любую непрерывную функцию можно приблизить нейронной сетью с любой желаемой точностью. А также, что для этой сети требуется один скрытый слой и одна нелинейная функция активации. 

Верно следующее:

- Двухслойная сеть в $\{0,1\}^n$ позволяет реализовать любую булеву функцию. 

- Двухслойная сеть в $\mathbb{R}^n$ позволяет реализовать любой выпуклый многогранник. 

- Трехслойная сеть в $\mathbb{R}^n$ позволяет отделить любую многогранную область, не обязательно выпуклую и не обязательно связную. 

- С помощью линейных операций и одной нелинейной функции активации можно приблизить любую непрерывную функцию с любой точностью. 


В качестве функций активации чаще всего используются следующие функции:

- Сигмоидная функция: $\sigma(z) = \frac{1}{1+e^{-a\,z}}$, $a \in \mathbb{R}$;
	
- Softmax: $SM_i(z)  = \frac{e^{z_i}}{\sum_{k=1}^{K}e^{z_k}}$;

- Гиперболический тангенс: $\sigma(z) = \frac{e^{a\,z} - e^{-a\,z}}{e^{a\,z} + e^{-a\,z}}$, $a \in \mathbb{R}$;

- Выпрямитель: $ReLU(p) = \max (0,p)$;

Последняя чаще всего используется для нейронных сетей с большим количеством слоев.
    
Возьмем для простоты двухслойную нейронную сеть. Из-за большого количества параметров посчитать градиент в градиентных методах достаточно трудоемко. Для решения этой проблемы используем алгоритм обратного распространения ошибки. Идея состоит в том, чтобы при вычислении сети сохранять некоторые величины, которые впоследствии помогут быстро посчитать градиент. 

Алгоритм back-propagation.

Вход: $\mathbb{X}^n=\{x_i, y_i\}_{i=1}^n$ --- обучающая выборка, $x_i \in \mathbb{R}^p$, $y_i \in \mathbb{R}^M$, $H$ --- число нейронов на скрытом слое, $\eta$ --- темп обучения, параметр $\lambda$

Выход: $w_{jh}, w_{hm}$ --- веса
	
1. Инициализация весов $w_{jh},~ w_{hm}$;
2.	Повторять, пока $Q$ не сойдется:

	a.	Выбираем $x_i$ из $\mathbb{X}^n$;
    
	b.	Прямой ход: 
    
		$$u^h:=\sigma_h(\sum\limits_{j=0}^n w_{jh}x_i^j), ~~~ h=1,\ldots,H;$$  
		$$a^m:=\sigma_m(\sum\limits_{h=0}^H w_{hm}u_i^h),~~ \varepsilon_i^m:=a_i^m-y_i^m, ~~~ m=1,\ldots,M;$$     
		$$\mathcal{L}_i:=\sum\limits_{m=1}^M (\varepsilon_i^m)^2;$$
        
    c. Обратный ход: $$\varepsilon_i^h:= \sum\limits_{m=1}^M \varepsilon_i^m\sigma_m' w_{hm}, ~~~ h=1,\ldots,H;$$
    
	d. Градиентный шаг: 
		$$w_{hm}:=w_{hm}-\eta \varepsilon_i^m \sigma_m' u^h(x_i), ~~~~~~ h=0,\ldots,H, ~ m=1,\ldots,M;$$      
		$$w_{jh}:=w_{jh}-\eta \varepsilon_i^h \sigma_h' f^j(x_i), ~~~~~~ j=0,\ldots,p, ~ h=1,\ldots,H;$$ 
       
    e. $Q:=(1-\lambda)Q+\lambda\mathcal{L}_i$;		




## Функция в python