## Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning

Yuanlong Li, Yonggang Wen, Kyle Guan, and Dacheng Tao

https://arxiv.org/abs/1709.05077

### Задача

Авторы хотят решить задачу экономии электроэнергии в рамках отдельно взятого датацентра (или совокупности датацентов). Более конкретно, стоит задача оптимизации расхода электроэнергии в системе охлаждения.

Есть классические подходы к решению этой задачи. Они основаны на построении физической модели процессов, происходящих в датацентре, с использованием законов термодинамики, электричества и механики. Проблемы: сложность моделирования и решения. Кроме того, для каждого нового датацентра нужно строить новую модель и решать её.

Авторы предлагают решать задачу методами ML, а точнее, RL.

### Параметры модели

Состояние:
* $T_{amb}(t)$ — внешняя температура;
* $H(t)$ — количество теплоты, выделяемое источниками тепла в датацентре (оборудование, освещение, персонал).

Действия — изменение параметров системы охлаждения. В модельной задаче — установка значений температуры $5$ охлаждающих устройств.

Награда — функция параметров
* $\epsilon$ — потреблённая энергия;
* $T_z$ — температура в датацентре.

$$
r = -y
$$
$$
y = \epsilon + \lambda \ln (1 + \exp(T_z - \phi))
$$

$Q = r,$ так как авторы положили $\gamma = 0.$

### Архитектура

Методика: off-policy алгоритм, адаптированный вариант <a href="https://spinningup.openai.com/en/latest/algorithms/ddpg.html">Deep Deterministic Policy Gradient</a>

Две нейронные сети:
* $Q$ network — предсказывает награду как функцию состояния и действия;
* $\mu$ network (policy network) — выбирает действие в зависимости от текущего состояния и, возможно, истории.

![Архитектура нейронных сетей](fig3.png "Архитектура нейронных сетей")

* $y_r$ -- предсказания $(\epsilon, T_z)$
* $y$ -- минимизируемая функция потерь

### Алгоритм

Обучение минибатчами
* Обучаем Q-network, минимизируя MSE относительно реальных $\epsilon$ и $T_z$: $\sum (y_r - (\epsilon, T_z))^2$
* Обучаем $\mu$-network, минимизируя $y$, зависящий от $a$.

### Результаты
* Симулятор
  * 11% экономии электроэнергии по сравнению с baseline.
* Реальные данные
  * До 15% экономии электроэнергии в зависимости от порога температуры.
* Production
  * На момент написания статьи алгоритм не использовался в production.