# ProxSkip

## Постановка задачи

Рассмотрим следующую задачу минимизации:
$$ \min_{x \in \mathbb{R}^d} (f(x) + \psi(x))\ \ \ \ \ \ \ \ (1)$$
где $f: \mathbb{R}^d \rightarrow \mathbb{R}$ - выпуклая функция, $\psi: \mathbb{R}^d \rightarrow \mathbb{R} \cup \{\infty\}$ - регуляризатор.

### Proximal Gradient Descent
Proximal Gradient Descent - подход к решению задачи $(1)$. Это итеративный алгоритм со следующим шагом:
$$ x_{t+1} = prox_{\gamma_t \psi}(x_t  - \gamma_t \nabla f(x_t)) $$
Где:
1. $x_t$ - приближение ответа в момент времени $t$.
2. $\gamma_t$ - шаг в момент времени $t$.
3. $prox_{\gamma \psi} := argmin_{y \in \mathbb{R}^d} \left( \frac12 \|y-x\|^2 + \gamma \psi(y) \right)$ - оператор приближения.

Как правило, вычисление градиента в Proximal Gradient Descent является более вычислительно сложным, чем вычисление оператора приближения. Однако в данной статье рассматривается ситуация, когда оператор приближения по сложности вычисления сравним с градиентом.

### Распределенные вычисления
Рассмотрим следующую задачу. Пусть есть $n$ кластеров/нод/вычислительных клиентов, и $i$-ый кластер вычисляет функцию $f_i: \mathbb{R}^d \rightarrow \mathbb{R}$. Рассмотрим задачу минимизации функции $f(x) := \frac1n \sum\limits_{i=1}^n f_i(x)$:
$$ \min_{x \in \mathbb{R}^d} f(x) $$
Эта задача актуальна для современного машинного обучения, т.к. является абстракцией над задачей минимизации эмпирического риска. \
Посмотрим на частный случай задачи $(1)$ в распределенном виде:
$$ \min_{x_1, \dots, x_n \in \mathbb{R}^d} \frac1n \sum\limits_{i=1}^{n} f_i(x_i) + \psi(x_1, \dots, x_n)$$
где $\psi(x_1, \dots, x_n) = 0$ при $x_1 = \dots = x_n$, $+\infty$ иначе. \
При такой задаче локальный подсчет функции $f_i$ на $i$-ом кластере - не очень сложная вычислительная задача, а главная трудность кроется в коммуникации между кластерами. \
Подобные задачи возникают в федеративном обучении. Разрабатываются алгоритмы для сокращения коммуникации и достижения хорошего временного соотношения для коммуникации и вычислений. Бегло посмотрим на вклад данной статьи в решении подобных задач.

### Идеи и обощения ProxSkip
ProxSkip - обобщение метода Proximal Gradient Descent для решения задачи $(1)$. Суть метода заключается в том, что вместо вычисления значения оператора $prox$ на каждом шаге, он вычисляется с некоторой вероятностью $p \in (0, 1]$. \
Для того, чтобы эффективность метода была доказуема, используется валидационное слагаемое $h_t$. \
В статье описывается Scaffnew - метод применения ProxSkip к задачам федеративного обучения. 

Так же рассматриваются следующие **расширения** этого метода:
1. Переход от детерминированного вычисления градиента к стохастическому.
2. Переход от вычислений с центральным сервером к децентрализованным вычислениям.

## Реализация в коде и эксперименты

Для реализации методов из статьи нам понадобится считать градиент функции $f$.