# Spider и SpiderBoost

#### стохастические алгоритмы с уменьшенной дисперсией


## Введение

Здесь рассмотрен вычислительный метод SPIDER, применимый для различных задач, а также использование этого на примере алгоритма SpiderBoost

# Spider

#### техника решения задачи невыпуклой оптимизации

## Постановка задачи

Рассматривается задача оптимизации


$$\min_{\mathbf{x} \in \mathbb{R}^d} f(\mathbf{x}) \equiv \mathbb{E}(F(\mathbf{x}, \zeta))$$

Здесь $F(\mathbf{x}, \zeta)$ – гладкая, в общем случае невыпуклая,

$\zeta$ – случайный вектор, индексирующий функцию

В частности, рассматривается задача с конечным числом индексов:

$$\min_{\mathbf{x} \in \mathbb{R}^d} f(\mathbf{\mathbf{x}}) = \frac{1}{n}\Sigma^n_{i = 1}f_i(\mathbf{\mathbf{x}})$$

Для простоты записи так будем обозначать задачи как в оффлайн случае (с конечным набором функций), так и в онлайн случае (с бесконечным набором, заданным $\zeta$)


## Мотивация

SpiderBoost предполагает скорость сходимости $O(\min(n^{\frac{1}{2}}\epsilon^{-2}, \epsilon^{-3}))$ в смысле суммарного количества подсчитанных градиентов. Для класса функций стоимость подсчета не может быть улучшена 

SGD добивается только скорости $O(\min(n\epsilon^{-2}, \epsilon^{-4}))$

SVRG имеет стоимость $O(\min(n^{\frac{2}{3}}\epsilon^{-2}, \epsilon^{-3.(3)}))$






## Основная идея SPIDER

SPIDER – метод первого порядка, основанный на аппарате SGD за исключением особенностей:

1. На некоторых итерациях будем просчитывать градиент полностью, как в алгоритме GD

2. На всех остальных шагах (таких будет большинство) мы станем отслеживать предварительно введенную функцию $\nu$, зависящую от градиента мини-батча (вместо самого градиента, как предполагает SGD)

Наша задача добиться таким образом, с одной стороны, хорошей точности результата посредством (1), и, с другой стороны, высокой производительности посредством (2).

## Оценка погрешности метода 

Воспользуемся вспомогательной оценкой. 

Пусть $B(\mathbf{x})$ отображает $\mathbf{x} \in \mathbb{R}^d$ на случайную  функцию $B_i(\mathbf{x})$: в алгоритмах под $B(x)$ будет подразумеваться градиент

1. Пусть функция $\nu$ такова, что

$$\mathbb{E}[B(\mathbf{x}^k) - B(\mathbf{x}^{k - 1}) \mid \mathbf{x}_{0:k}] = \nu^k - \nu^{k - 1}$$

где $\mathbf{x}_{0:k} = \mathbf{x}_1 \dots \mathbf{x}_k$

2. Пусть также выполнено

$$\mathbb{E} \Arrowvert B_i(x) - B_i(y) \Arrowvert^2 \leq L_B^2\Arrowvert x - y \Arrowvert^2$$

для $\Arrowvert \mathbf{x}^k - \mathbf{x}^{k-1} \Arrowvert \leq \epsilon_1$, $ \forall k \in 1 \dots K$

3. Наконец, пусть 

$$\nu: \nu^k = {B_{S_*}(\mathbf{x}^k) - {B_{S_*}(\mathbf{x^{k-1}}) + \nu^{k - 1}$$

здесь $S_*$ –  мощность батча

тогда имеет место:

#### Оценка для ошибки $\nu^k$ в терминах дисперсии

$$\mathbb{E}\Arrowvert \nu^k - B(\mathbf{x}^k) \Arrowvert^2 \leq \frac{k L^2_B \epsilon^2_1}{S_*} + \mathbb{E}\Arrowvert \nu^0 - B(\mathbf{x}^0) \Arrowvert^2$$

ВАЖНО: т.е. при удачном выборе функции $\nu$, а также шага в зависимости от $L_B$ значение построенной функции $\nu^k$ с хорошей точностью приближается к значению, получаемом при GD: $B(\mathbf{x}^k)$; и есть предпосылка сэкономить на скорости вычисления $\nu$ вместо вычисления полного градиента.

Скорости сходимости метода зависят от выбора функции $\nu$, в следующей секции рассмотрим алгоритм, в котором $\nu$ хорошо подобрана:


# SpiderBoost 

#### Алгоритм решения задачи невыпуклой оптимизации посредством Spider

## Постановка задачи

Рассматривается задача оптимизации на конечном наборе функций:

$$\min_{\mathbf{x} \in \mathbb{R}^d} f(\mathbf{\mathbf{x}}) = \frac{1}{n}\Sigma^n_{i = 1}f_i(\mathbf{\mathbf{x}})$$

где функции $f_i(\mathbf{x})$ в общем случае невыпуклые



## Мотивация 



#### допустимый шаг для SpiderBoost

$\eta = O(\frac{1}{L})$, это значение превосходит оценки для других известных алгоритмов основанных на Spider: $\eta = O(\frac{\epsilon}{L})$

#### оценка сложности алгоритма SpiderBoost: 

$O(\sqrt{n}\epsilon^{-2} + n)$ -- минимальное возможное значение при соблюдении $n \leq O(\epsilon^{-4})$


## Алгоритм SpiderBoost

### Основная идея

Воспользуемся методом предложенным в Spider выбрав функцию $\nu:$

1. $\nu_0 = \nabla f(x_0)$

2. $\nu_k = \frac{1}{\mid S\mid} \Sigma_{i \in S} [\nabla f_i(x_k) - \nabla f_i(x_{k - 1}) + \nu_{k - 1}]$

более подробно: 

### Описание алгоритма 

– $\mathbf{input}: \eta = \frac{1}{2L}; q, K, \mid S \mid \in \mathbb{N}$

– $\mathbf{for}$ $k \in 1 \dots K$:

– – $\mathbf{if}$ $\mod(k, q) = 0 \Rightarrow \nu_k = \nabla f(x_k)$

– – $\mathbf{else} \Rightarrow$ $\mathbf{draw} \mid S \mid$ samples with replacement, $\mathbf{compute}$ $\nu_k$

– $\mathbf{calculate}$ $x_{k+1} = x_k - \eta \nu_k$

– $\mathbf{return}$ $x_{\xi}, \xi \stackrel{Unif}{\sim} \{ 0 \dots K - 1 \}$


### Ограничения на целевую функцию

1. Функция ограничена снизу $\exists\inf f(\mathbf{x}) > -\infty$ 

2. Каждый градиент $\nabla f_i$ – $L$-Липшицовый: $\forall x, y \in \mathbb{R}^d, \Arrowvert \nabla f_i(x) - \nabla f_i(y) \Arrowvert \leq L \Arrowvert x - y\Arrowvert \forall I \in 1 \dots n$