# Бэггинг и случайный лес

### Простое голосование классификаторов
Обучающая выборка: $X^l=(x_i, y_i)_{i=1} ^l,\ x_i \in X,\ y_i \in \{-1, +1\}$    
Базовые классификаторы: $b_1(x),...,b_T(x),\ b_t:X \to \{-1, +1\}$

Простое голосование базовых классификаторов: $a(x)=\sum_{t=1}^Tb_t(x)$
Композиция a(x) ожет быть лучше базовых $b_1(x),...,b_T(x)$, если они лучше случайного гадания и достаточно различны

Способы повышения различности базовыз классификаторов:
- обучение по случайным подвыборкам
- обучение по выборке со случайными весами объектов
- обучение по случайным подмножествам признаков
- использование различных моделей классификации
- использование различных начальных приближений
- использование рандомизации при обучении классификаторов


### Бэггинг и метод случайных подпространств
Бэггинг (bootstrap aggregating): $b_t(x)$ обучаются независимо по случайным подвыборкам длины l с повторениями, доля объектов, попадающих в выборку: $(1-\frac{1}{e})\supset0.632$

Метод случайных подпространств: $b_t(x)$ обучаются независимо по случайным подмножествам n' признаков

Совмещение обеих идей в одном алгоритме: $\mathscr{J}=\{f_1,...,f_n\}$ - признаки, $\mu(\mathscr{F}, U)$ - метод обучения алгоритма по подвыборке $U\subseteq X^l$, использующий только признаки из $\mathscr{F}\subseteq\mathscr{J}$


### Бэггинг и метод случайных подпространств
Вход: обучающая выборка $X^l$, параметры: T, l'-длина обучающий подвыборок, n'-длина признакового подописания, $\epsilon_1$-порог качества базовых алгоритмов на обучении, $\epsilon_2$-порог качества базовых алгоритмов на контроле
Выход: базовые алгоритмы $b_t,\ t=1,...,T$

1) для всех $t=1,...,T$:   
2) $U_t:=случайное\ подмножество\ X^l\ длины\ l'$    
3) $\mathscr{F}:=случайное\ подмножество\ \mathscr{J}\ длины\ n'$      
4) $b_t:=\mu(\mathscr{F}_t, U_t)$      
5) if $Q(b_t, U_t)>\epsilon_1$ или $Q(b_t, X^l|U_t)>\epsilon_2$     
6) не включать $b_t$ в композицию   

Композиция - простое голосование: $a(x)=sign\sum_{t=1}^Tb_t(x)$


### Случайный лес
Обучение случайного леса:
- бэггинг над решающими деревьями
- усечение дерева не производится
- признак в каждой вершине дерева выбирается
- признак в каждой вершине дерева выбирается из случайного подмножества k из n признаков
- для регрессии рекмендуется k=[n\3]
- для классификации рекомендуется $k=[\sqrt{n}]$

Подбор числа деревьев Т по критерию out-of-bag - число ошибок на объектах $x_i$, если не учитывать голоса деревьев, для которых $x_i$ был обучающим: $out-of-bag(a)=\sum_{i=1}^l[sign(\sum_{t=1}^T[x_i\notin U_t]b_t(x_i))\neq y_i]\to min$ - несмещенная оценка обобщающей способности


# Градиентный бустинг

### Линейные композиции для классификации и регрессии
Задача восстановления зависимости y: $X \to Y$ по точкам обучающей выборки $(x_i, y_i),\ y_i=y(x_i),\ i=1,...,l$

Определение: линейной композицией базовых алгоритмов $a_t(x)=C(b_t(x)),\ t=1,...,T$ называется суперпозиция функций $a(x)=C\sum_{t=1}^Ta_t b_t(x),\ C:\mathbb{R}\to Y$ - решающее правило, $a_t\geq0$

Для классификации на 2 класса: C(b)=sign(b), a(x)=sign(b(x))
Для регрессии: C(b)=b, a(x)=b(x)


### Градиентный бустинг
Линейная композиция базовых алгоритмов: $b(x)=\sum_{t=1}^Ta_tb_t(x),\ x\in X,\ a_t \in \mathbb{R}_+$
Функционал качества с произвольной функцией потерь $\mathcal{L}(b,y)$: $Q(a, b)=\sum_{i=1}^l\mathcal{L}(\sum_{t=1}^{T-1}a_tb_t(x_i)+ab(x_i), y_i)\to min_{a,b}$
Ищем вектор $u=(b(x_i))_{i=1}^l\ из\ R^l$ минимизирующий Q(a, b). Текущее положение вектора u: $u_{T-1}=(u_{T-1,i})_{i=1}^l$. Следующее положение вектора u: $u_{T}=(u_{T,i})_{i=1}^l$.


### Параметрическая аппроксимация градиентного шага
Градиентный метод минимизации $Q(u)\to min,\ u\in \mathbb{R}^l$: $u_0:=$ начальное приближение, $u_{T,i}:=u_{T,i-1}-\alpha g_i,\ i=1,...,l$, $g_i=\mathcal{L}'(u_{T-1,i}, y_i)$ - компоненты вектора градиента, $\alpha$ - градиентный шаг

Добавление базового алгоритма $b_T$: $u_{T,i}:=u_{T,i-1}-\alpha b_T(x_i),\ i=1,...,l$

Ищем такой базовый алгоритм $b_T$, чтобы вектор $(b_T(x_i))_{i=1}^l$ приближал вектор антиградиента $(-g_i)_{i=1}^l$: $b_T:=argmax_b\sum_{i=1}^l(b(x_i)+g_i)^2$


### Алгоритм градиентного бустинга
Вход: обучающая выборка $X^l$, параметр Т
Выход: базовые алгоритмы и их веса $\alpha_tb_t,\ t=1,...,T$
1) инициализация: $u_i:=0,\ i=1,...,l$   
2) для всех t=1,...,T   
3) найти базовый алгоритм, приближающий градиент $b_t:=argmin_b\sum_{i=1}^l(b(x_i)+\mathcal{L}'(u_i,y_i))^2$   
4) решить задачу одномерной минимизации: $\alpha_t:=argmin_{\alpha>0}\sum_{i=1}^l\mathcal{L}(u_i+\alpha b_t(x_i),y_i)$    
5) обновить значения композиции на объектах выборки: $u_i:=u_i+\alpha_tb_t(x_i),\ i=1,...,l$  












# Градиентный бустинг: модификации и эвристики

### Стохастический градиентный бустинг
Рандомизация может повышать качество композиции за счет повышения различности базовых алгоритмов

В шагах 3-5 использовать не всю выборку, а случайную подвыборку с повторениями как в бэггинге (см алгоритм выше)

Преимущества:
- улучшается качество
- улучшается сходимость
- уменьшается время обучения


### Частный случай - алгоритм AdaBoost
$\mathcal{L}(b(x_i), y_i)=e^{-b(x_i)y_i}$ - экспоненциальная функция потерь, убывающая функция отступа $M_i=b(x_i)y_i$

Преимущества:
- для обучения $b_t$ на каждом шаге t решается стандартная задача минимизации взвешанного эмпирического риска
- задача оптимизации $\alpha_t$ решается аналитически

Недостаток:
- слишком чувствителен к выбросам из-за экспоненциального роста функции потерь при $M_i<0$


### Градиентный бустинг над деревьями
Решающее дерево имеет кусочно-постоянную функцию: $b(x)=\sum_{t=1}^T\alpha_t[x\in\Omega_t]$, T- число листьев, $\Omega_t$- область t-го листа, $\alpha_t$- прогноз в t-ом листе

Каждый лист - базовый алгоритм $b_t(x)=[x\in\Omega_t]$, градиентным шагом определяется прогноз $\alpha_t$ в t-ом листе: $\alpha_t=argmin_{\alpha>0}\sum_{x_i\in\Omega_t}\mathcal{L}(u_{t-1,i}+\alpha, y_i)$. После определения всех $\alpha_t$ можно добавить в композицию следующее дерево, оптимизировав его структору по среднеквадратичной ошибке


Для некоторых функций потерь решение находится аналитически:
- средний квадрат ошибок, $\mathcal{L}(b, y)=(b-y)^2$: $\alpha_t=\frac{1}{\Omega_t}\sum_{x_i\in \Omega_t}(y_i-u_{t1-,i})$
- средняя абсолютная ошибка, $\mathcal{L}(b, y)=|b-y|$: $\alpha_t=median_{x_i\in \Omega_t}{y_i-u_{t-1,i}}$

В общем случае аналитического решения нет

# Нейронные сети. Введение

### Линейная модель нейрона МакКаллока-Питтса
$f_j:X\to \mathbb{R}, j=1,...,n$ - числовые признаки, $x^j=f_j(x)$    
$a(x, w)=\sigma(\langle w, x \rangle)=\sigma(\sum_{j=1} ^nw_jf_j(x)-w_0),\ w_0,...,w_n\in\mathbb{R}$ - веса признаков, $\sigma(s)$ - функция активации


### Часто используемые функции активации $\sigma(z)$
$\theta(z)=[z\leq0]$ - пороговая функция Хевисайда    
$\sigma(z)=(1+e^{-z})^{-1}$ - сигмоидная функция    
$th(z)=2\sigma(2z)-1$ - гиперболический тангенс    
$ln(z+\sqrt(z^2+1))$ - логарифмическая функция    
$e^{-\frac{z^2}{2}}$ - гаусовская функция   
z - линейная функция


### Линейные алгоритмы классификации и регрессии
Задача классификации: $Y={\pm1},\ a(x, w)=sign\langle w, x_i \rangle$, $Q(w, X^l)=\sum_{i=1}^l\mathcal{L}(\langle w, x_i \rangle y_i)\to min_w$

Задача регрессии: $Y=\mathbb{R},\ a(x, w)=\sigma(\langle w, x_i \rangle)$, $Q(w, X^l)=\sum_{i=1}^l(\sigma(\langle w, x_i \rangle)-y_i)^2\to min_w$


### Нейронная реализация логических функций
Функции И, ИЛИ, НЕ от бинарных переменных $x^1$ и $x^2$:
- $x^1 \land x^2=[x^1+x^2-\frac{3}{2}>0]$
- $x^1 \lor x^2=[x^1+x^2-\frac{1}{2}>0]$
- $\neg x^1=[-x^1+\frac{1}{2}>0]$


### Логическая функция XOR (исключающее или)
Функция $x^1 \oplus x^2=[x^1\neq x^2]$ не реализуема одним нейроном. Два способа реализации:
- Добавление нелинейного признака: $x^1 \land x^2=[x^1+x^2-2x^1x^2-\frac{1}{2}>0]$
- Сетью (двуслойной суперпозицией) функций И, ИЛИ, НЕ: $x^1 \land x^2=[(x^1\lor x^2)-(x^1\land x^2)-\frac{1}{2}>0]$


### Представление функции нейросетью
- Двухслойная сеть в $\{0,1\}^n$ позволяет реализовать произвольную булеву функцию 
- Двухслойная сеть в $\mathbb{R}$ позволяет отделить произвольный выпуклый многогранник
- Трехслойная сеть в $\mathbb{R}$ позволяет отделить произвольную многогранную область, не обязательно выпуклую, и даже не обязательно связную
- С помощью линейных операций и одной нелинейной фукнции активации $\phi$ можно приблизить любую непрерывную функцию с любой желаемой точностью

Практические рекомендации:
- Двух-трех слоев обычно достаточно
- Можно достраивать нейроны в произвольных местах сети по необходимости, вообще не заботясь о числе слоев


# Нейронные сети. Метод обратного распространения ошибки

### Многослойная нейронная сеть
Пусть $Y=\mathbb{R}$, для простоты слоев только два: $a^m(x,w)=\sigma_m(\sum_{h=0}^Hw_{hm}\sigma_h(\sum_{j=0}^nw_{jh}f_j(x_i)))$, на входной слой подается n признаков, скрытый слой состоит из H нейронов, выходной слой состоит из М нейронов


### Алгоритм SG (Stochastic Gradient)
Вход: выборка $X^l$, темп обучения $\eta$, темп забывания $\lambda$   
Выход: вектор весов $w\equiv(w_{jh}, w_{hm})\in \mathbb{R}^{H(n+M+1)+M}$    
Задача минимизации суммарных потерь: $Q(w):=\sum_{i=1}^l\mathcal{L}_i(w)\to min_{w}$

1) инициализировать веса $w_j, j=0,...,n$ и текущую оценку функционала $\bar{Q}$   
2) повторять    
3) выбрать объект $x_i$ из $X^l$ случайным образом     
4) вычислить потерю $\mathscr{L}_i:=\mathscr{L}_i(w)$   
5) сделать градиентный шаг $w:=w-\eta\nabla\mathscr{L}_i(w)$    
6) оценить функционал $\bar{Q}:=(1-\lambda)Q+\lambda\mathscr{L}_i$  
7) пока значение $\bar{Q}$ и/или веса w не сойдутся


### Задача дифференцирования суперпозиции функций
Выходные значения сети $a^m(x_i),\ m=1,...,M$ на объекте $x_i$: $a^m(x_i)=\sigma_m\sum_{h=0}^Hw_{hm}u^h(x_i),\ u^h(x_i)=\sigma_h\sum_{j=0}^Jw_{jh}f_j(x_i)$

Пусть для конкретности $\mathcal{L}_i(w)$ - средний квадра ошибки: $\mathcal{L}_i(w)=\frac{1}{2}\sum_{m=1}^{M}(a^m(x_i)-y_i^m)^2$

Промежуточная задача: найти частные производные $\frac{\partial\mathcal{L}_i(w)}{\partial a^m},\ \frac{\partial\mathcal{L}_i(w)}{\partial u^h}$


### Быстрое вычисление градиента
Промежуточная задача: частные производные $\frac{\partial\mathcal{L}_i(w)}{\partial a^m}=a^m(x_i)-y^m_i=\epsilon_i^m$ - ошибка на выходном слое, $\frac{\partial\mathcal{L}_i(w)}{\partial u^h}=\sum_{m=1}^M(a^m(x_i)-y_i^m)\sigma_m'w_{hm}=\sum_{m_1}^M\epsilon_i^m\sigma_m'w_{hm}=\epsilon_i^h$ - ошибка на скрытом слое

Похоже, что $\epsilon_i^h$ вычисляется по $\epsilon_i^m$ путем его пропускания через сеть в обраном направлении


### Быстрое вычисление градиента
Имея частные производные $\mathcal{L}_i(w)$ по $a^m$ и $u^h$, легко выписать градиент $\mathcal{L}_i(w)$ по весам w:  
$\frac{\partial\mathcal{L}_i(w)}{\partial w_{hm}}=\frac{\partial\mathcal{L}_i(w)}{\partial a^m}\frac{\partial a^m}{\partial w_{hm}}=\epsilon_i^m\sigma_m'u^h(x_i),\ m=1,...,M,\ h=0,...,H$,    
$\frac{\partial\mathcal{L}_i(w)}{\partial w_{jh}}=\frac{\partial\mathcal{L}_i(w)}{\partial u^h}\frac{\partial u^h}{\partial w_{jh}}=\epsilon_i^h\sigma_h'f_j(x_i),\ h=1,...,M,\ j=0,...,n$


### Алгоритм обратного распространения ошибки BackProp:
1) инициировать веса $w_{jh},\ w_{hm}$   
2) повторять   
3) выбрать объект $x_i$ из $X^l$  
4) прямой ход:  
    -$u_i^h=\sigma_h(\sum_{j=0}^Jw_{jh}x^j_i),\ h=1,...,H$  
    -$a^m_i=\sigma_m(\sum_{h=0}^Hw_{hm}u_i^h),\ \epsilon_i^m=a_i^m-y_i^m,\ m=1,...,M$  
    -$\mathcal{L}_i=\sum_{m=1}^M(\epsilon^m_i)^2$  
5) обратный ход: $\epsilon_i^h=\sum_{m=1}^M\epsilon_i^m\sigma_m'w_{hm},\ h=1,...,H$    
6) градиентный шаг:    
    -$w_{hm}=w_{hm}-\eta\epsilon^m_i\sigma_m'u_i^h,\ h=0,...,H,\ m=1,...,M$     
    -$w_{jh}=w_{jh}-\eta\epsilon^h_i\sigma_h'x^j_i,\ j=0,...,n,\ h=1,...,H$   
7) $Q=(1-\lambda)Q+\lambda\mathcal{L}_i$   
8) пока Q не стабилизируется

Преимущества:
- быстрое вычисление градиента
- метод легко обобщается на любые $\sigma,\ \mathcal{L}$
- возможно динамическое обучение
- на сверхбольших выборках не обязательно брать все значения
- возможность расспараллеливания

Недостатки:
- возможна медленная сходимость
- застревание в локальных минимумах
- проблема паралича сети (горизонтальные ассимптоты $\sigma$)
- проблема переобучения
- подбор комплекса эвристик является искусством

# Нейронные сети. Стандартные эвристики

### Стандартные эвристики для метода стохастического градиента
Эвристики:
- инициализация весов
- порядок предъявления объектов
- оптимизация величины градиентного шага
- регулярзация

Дополнительные проблемы при обучении:
- выбор функции активации в каждом нейроне
- выбор числа слоев и числа нейронов
- выбор значисых связей


### Ускорение сходимости
1) Начальное приближение - послойное обучение сети. Нейроны настраиваются как отдельные линейные алгоритмы, тем самым обеспечивая различность нейронов: по случайной подвыборке, по случайному подмножеству входов, из различных случайных приближений
2) Выбивание из локальных минимумов
3) Адаптивный градиентный шаг
4) Метод сопряженных градиентов и chunking - разбиение суммы $Q(w)=\sum_{i=1}^l\mathcal{L}_i(w)$ по подмножествам объектов


### Диагональный метод Левенберга-Марквардта
Метод Ньютона-Рафсона (второго порядка): $w=w-\eta(\mathcal{L}_i''(w))^{-1}\mathcal{L}_i'(w)$, где $\mathcal{L}_i''(w)=\frac{\partial^2\mathcal{L}_i(w)}{\partial w_{jh}\partial w_{j'h'}}$ - гессианн размера $(H(n+M+1)+M)^2$

Эвристика: считаем, что гессиан диагонален $w_{jh}=w_{jh}-\eta(\frac{\partial^2\mathcal{L}_i(w)}{\partial w_{jh}^2}+\mu)^{-1}\frac{\partial\mathcal{L}_i(w)}{\partial w_{jh}}$, $\eta$ - темп обучения, $\mu$ - параметр, предотвращающий обнуление знаменателя

Отношение $\frac{\eta}{\mu}$ темп обучения на ровных участках функционала $\mathcal{L}_i(w)$ где вторая производная обнуляется


### Динамическое наращивание сети
Обучение прри заведомо недостаточном числе нейронов H. После стабилизации Q(w) - добавление нового нейрона и его инициализация путем обучения:
- по случайной подвыборке
- по объектам с наибольшим значением потерь
- по случайному подмножеству входов
- из различных начальных приближений   
Продолжать итерации BackProp

В таком варианте общее время больше примерно в 2 раза чем если бы обучение происходило сразу по нужному числу нейронов. Полезная информация не теряется сетью при добавлении новых нейронов


### Прореживание сети (Optimal Brain Damage)
Пусть w - локальный минимум Q(w), тогда Q(w) можно аппроксимировать квадратичной формой: $Q(w+\delta)=Q(w)+\frac{1}{2}\delta^TQ''(w)\delta+o(||\delta||^2)$, $Q''(w)=\frac{\partial^2 Q(w)}{\partial w_{jh}\partial w_{j'h'}}$- гессиан, размера $(H(n+M+1)+M)^2$

Эвристика: считаем что гессиан диагонален, тогда $\delta^TQ''(w)\delta=\sum_{j=1}^n\sum_{h=1}^H \delta^2_{jh}\frac{\partial^2 Q(w)}{\partial w_{jh}^2}+\sum_{h=0}^H\sum_{m=0}^M\delta^2_{hm}\frac{\partial^2 Q(w)}{\partial w_{hm}^2}$


Обнуляем вес: $w_{jh}+\delta_{jh}=0$

Значимость веса $w_{jh}$ - это изменение функционала Q(w) при его обнулениии: $S_{jh}=w_{jh}^2\frac{\partial^2 Q(w)}{\partial w_{jh}^2}$

В BackProp вычислять вторые производные $\frac{\partial^w Q}{\partial w_{jh}^2},\ \frac{\partial^w Q}{\partial w_{hm}^2}$

Если процесс минимизации Q(w) пришел в минимум, то 
- упорядочить веса по убыванию $S_{jh}$
- удалить N связей с наименьшей значимостью
- снова запустиь BackProp

Если $Q(w, X^l),\ Q(w,X^k)$ существенно ухудшился, то вернуть последние удаленные связи и выйти

Отбор признаков: с помощью OBD аналогично. суммарная значимсоть признаков: $S_j=\sum_{h=1}^H S_{jh}$

Результат постепенного прореживания обычно лучше, чем BackProp изначально прореженной сети