### Проблема и примеры возникновения

Современные мобильные устройства имеют доступ к обширным данным, пригодным для обучения моделей, что в свою очередь может значительно улучшить пользовательский опыт на устройстве. Например, языковые модели могут улучшить распознавание речи и ввод текста, а модели изображений могут автоматически выбирать хорошие фотографии. Однако эти богатые данные часто являются конфиденциальными, имеют большой объем или и то, и другое, что может исключить возможность регистрации в центре обработки данных и обучения там с использованием традиционных методов.


### Федеративное обучение

Альтернативный подход, который предполагает оставление распределенных данных для обучения на мобильных устройствах и обучение общей модели путем агрегирования локальных вычисленных обновлений.

### Более конкретные свойства задач для федеративного обучения:

1)Обучение на реальных данных с мобильных устройств предоставляет явное преимущество перед обучением на заменительных данных, которые обычно доступны в центре обработки данных.

2)Эти данные являются конфиденциальными или имеют большой размер (по сравнению с размером модели), поэтому предпочтительно не регистрировать их в центре данных исключительно для целей обучения модели (в соответствии с принципом фокусированной коллекции).

3)Для задач с учителем, метки на данных могут естественно выводиться из взаимодействия пользователя.





### Постановка задачи:

Задача: минимизация суммы стохастических функций, имея доступ только к стохастическим выборкам:

$$\min\limits_{x \in R^d} \{ f(x) := \frac{1}{N} \sum\limits_{i=1}^{N}(f_i(x) := \mathbb{E}_{\zeta_i} [f_i(x, \zeta_i)])\}$$

Функции $f_i$ представляют функцию потерь на клиенте. Все наши результаты могут быть легко расширены на случай взвешенных функций.

Предполагаем, что функция $f$ ограничена снизу значением $f^*$, а функция $f_i$ является $\beta$-гладкой. Кроме того, предполагаем, что $g_i(x) := \nabla f_i(x; \zeta_i)$ является несмещенным стохастическим градиентом $f_i$ с дисперсией, ограниченной $\sigma^2$. Для некоторых результатов мы предполагаем, что $\mu \geq 0$ (сильная) выпуклость. $\sigma$ ограничивает дисперсию внутри клиентов. Вводим два термина, нестандартные для данного контекста.

**Условие 1:** (G, B)-BGD, или ограниченная диссимиларность градиента: существуют константы $G \geq 0$ и $B \geq 1$ такие, что

$
\frac{1}{N} \sum_{i=1}^{N} \lVert \nabla f_i(x) \rVert^2 \leq G^2 + B^2 \lVert \nabla f(x) \rVert^2, \quad \forall x.
$

Если $f_i$ являются выпуклыми, мы можем усилить предположение до

$
\frac{1}{N} \sum_{i=1}^{N} \lVert \nabla f_i(x) \rVert^2 \leq G^2 + 2\beta B^2 (f(x) - f^*), \quad \forall x.
$

**Условие 2:** $\delta$-BHD, или ограниченная диссимиларность гессиана:

$
\lVert \nabla^2 f_i(x) - \nabla^2 f(x) \rVert \leq \delta, \quad \forall x.
$

Кроме того, $f_i$ является $\delta$-слабо выпуклой, то есть $\nabla^2 f_i(x) \succeq -\delta I$.

Предположения из условия 1 и 2 ортогональны — возможно иметь $G = 0$ и $\delta = 2\beta$, или $\delta = 0$, но $G > 1$.

### Основная идея статьи

В статье рассказывается про новый алгоритм для федеративного обучения SCAFFOLD, доказывается его превосходство над прошлым решением - алгоритмом FEDAVG.

FEDAVG стал алгоритмом выбора для федеративного обучения из-за своей простоты и низкой стоимости коммуникации. Однако, его производительность не полностью понята. Были получены точные скорости сходимости для FEDAVG и доказано, что он страдает от "дрейфа клиента"(модель, обученная на данных одного участника (клиента), показывает низкую эффективность или неустойчивость при применении к данным другого клиента), когда данные имеют различные характеристики, структуры или распределения в разных частях набора данных, что приводит к нестабильной и медленной сходимости.

В статье же в качестве решения предлагается новый алгоритм SCAFFOLD, который использует управляемые переменные (снижение дисперсии), чтобы скорректировать "дрейф клиента" в его локальных обновлениях.

Кроме того, в статье доказывается, что SCAFFOLD требует значительно меньше раундов коммуникации и не подвержен проблемам на данных, которые имеют различные характеристики, структуры или распределения в разных частях набора.

Также SCAFFOLD для квадратичных функций может воспользоваться схожестью данных клиента, что приводит к еще более быстрой сходимости.

### Еще немного про федеративное обучение и еще один пример использовани(это описание и пример взяты [отсюда](https://habr.com/ru/companies/piter/articles/458800/))

Идея федеративного обучения зародилась из того, что многие данные, содержащие полезную информацию для решения задач (например, для диагностики онкологических заболеваний с использованием МРТ), трудно получить в количествах, достаточных для обучения мощной модели глубокого обучения. Кроме полезной информации, необходимой для обучения модели, наборы данных содержат также другие сведения, не имеющие отношения к решаемой задаче, но их раскрытие кому-либо потенциально может нанести вред.

Федеративное обучение — это методика заключения модели в защищенную среду и ее обучение без перемещения данных куда-либо. Рассмотрим пример.


#### Обучаем выявлять спам

Допустим, нам нужно обучить модель определять спам по электронным письмам людей

В данном случае мы говорим о классификации электронной почты. Нашу первую модель мы обучим на общедоступном наборе данных с названием Enron. Это огромный корпус электронных писем, опубликованных в ходе слушаний по делу компании Enron (теперь это стандартный аналитический корпус электронной почты)

### Давайте реализуем дальше код этой задачи для выявления спама:



In [6]:
import numpy as np
from collections import Counter
import random
import sys
import codecs

np.random.seed(12345)

with codecs.open('spam.txt',"r",encoding='utf-8',errors='ignore') as f:
      raw = f.readlines()

vocab, spam, ham = (set(["<unk>"]), list(), list())
for row in raw:
     spam.append(set(row[:-2].split(" ")))
     for word in spam[-1]:
          vocab.add(word)

with codecs.open('ham.txt',"r",encoding='utf-8',errors='ignore') as f:
     raw = f.readlines()

for row in raw:
     ham.append(set(row[:-2].split(" ")))
     for word in ham[-1]:
          vocab.add(word)

vocab, w2i = (list(vocab), {})
for i,w in enumerate(vocab):
     w2i[w] = i

def to_indices(input, l=500):
    indices = list()
    for line in input:
          if(len(line) < l):
              line = list(line) + ["<unk>"] * (l - len(line))
              idxs = list()
              for word in line:
                   idxs.append(w2i[word])
              indices.append(idxs)
    return indices

In [7]:
spam_idx = to_indices(spam)
ham_idx = to_indices(ham)

train_spam_idx = spam_idx[0:-1000]
train_ham_idx = ham_idx[0:-1000]

test_spam_idx = spam_idx[-1000:]
test_ham_idx = ham_idx[-1000:]

train_data = list()
train_target = list()

test_data = list()
test_target = list()

for i in range(max(len(train_spam_idx),len(train_ham_idx))):
     train_data.append(train_spam_idx[i%len(train_spam_idx)])
     train_target.append([1])

     train_data.append(train_ham_idx[i%len(train_ham_idx)])
     train_target.append([0])

for i in range(max(len(test_spam_idx),len(test_ham_idx))):
     test_data.append(test_spam_idx[i%len(test_spam_idx)])
     test_target.append([1])

     test_data.append(test_ham_idx[i%len(test_ham_idx)])
     test_target.append([0])

def train(model, input_data, target_data, batch_size=500, iterations=5):
     n_batches = int(len(input_data) / batch_size)
     for iter in range(iterations):
          iter_loss = 0
          for b_i in range(n_batches):

               model.weight.data[w2i['<unk>']] *= 0
               input = Tensor(input_data[b_i*bs:(b_i+1)*bs], autograd=True)
               target = Tensor(target_data[b_i*bs:(b_i+1)*bs], autograd=True)

               pred = model.forward(input).sum(1).sigmoid()
               loss = criterion.forward(pred,target)
               loss.backward()
               optim.step()

               iter_loss += loss.data[0] / bs

               sys.stdout.write("\r\tLoss:" + str(iter_loss / (b_i+1)))
          print()
     return model

def test(model, test_input, test_output):

     model.weight.data[w2i['<unk>']] *= 0

     input = Tensor(test_input, autograd=True)
     target = Tensor(test_output, autograd=True)
     pred = model.forward(input).sum(1).sigmoid()
     return ((pred.data > 0.5) == target.data).mean()

Сделаем модель федеративной

Выше было выполнено самое обычное глубокое обучение. Теперь добавим конфиденциальности

В предыдущем разделе мы реализовали пример анализа электронной почты. Теперь поместим все электронные письма в одно место. Это старый добрый метод работы (который все еще широко используется во всем мире). Для начала сымитируем окружение федеративного обучения, в котором имеется несколько разных коллекций писем:


In [21]:
bob = (train_data[0:1500], train_target[0:1500])
alice = (train_data[1500:], train_target[1500:])

In [13]:
!pip install torch



In [20]:
import torch.nn as nn
model = nn.Embedding(len(vocab), 1)
model.weight.data *= 0
criterion = nn.MSELoss()

Давайте теперь реализуем собственно сам наш метод оптимизации

Будем использовать torch для написания

In [None]:
from torch.optim import Optimizer
import torch