## Ray

#### Was ist Ray?

Den ganzen Kurs √ºber haben wir das Ray-Paket benutzt:

In [1]:
import ray.rllib

![](img/ray-logo.png)

Was ist Ray? Aus den [docs](https://docs.ray.io/en/latest/):

&gt; Ray ist ein universell einsetzbares, verteiltes Computing-Framework.

Ray ist auch:

- Ein [aktives Open-Source-Projekt](https://github.com/ray-project/ray) mit √ºber 20k Sternen auf GitHub ü§©
- Unterst√ºtzt von dem Einhorn-Startup [Anyscale](https://www.anyscale.com/), das diesen Kurs produziert hat ü¶Ñ

Anmerkungen:

Aber zur√ºck zum verteilten Rechnen.

#### Was ist verteiltes Rechnen?

_Verteiltes Rechnen_ ist das Rechnen mit mehreren Rechnern (Knoten), die √ºber ein Netzwerk verteilt sind.

![](img/supercomputer.png)

Vorteile:

- Massiv verbesserte F√§higkeiten

Nachteile/Herausforderungen:

- Synchronisation
- Misserfolg
- ...

#### Ray macht verteiltes Rechnen einfach

- Das Ziel von Ray ist es, verteiltes Rechnen einfach und zug√§nglich zu machen.
- Ray √ºbernimmt die meisten Herausforderungen f√ºr die Nutzer.
- RLlib, tune und die anderen Unterpakete wurden auf der Grundlage von Ray entwickelt.
- Das bedeutet, dass _RLlib und tune automatisch √ºber verteilte F√§higkeiten verf√ºgen._

Anmerkungen:

√úberraschung! RLlib ist einfach zu benutzen und implementiert viele moderne RL-Algorithmen, aber es hat noch einen weiteren Vorteil, den wir bisher nicht erw√§hnt haben: nat√ºrliche verteilte Berechnungsm√∂glichkeiten. Damit ist sie konkurrierenden Paketen weit voraus, wenn es darum geht, die Berechnungen zu verteilen.

#### RLlib, verteilt

- In diesem Kurs haben wir viele Algorithmus-Konfigurationen erstellt.
- Aber es gibt einige Parameter, die wir noch nicht verwendet haben:

In [2]:
from ray.rllib.algorithms.ppo import PPOConfig

In [3]:
ppo_config = (
    PPOConfig()
    .framework("torch")
    .rollouts(num_rollout_workers=4, num_envs_per_worker=2)
    .resources(num_gpus=0)
)

Du kannst mehr √ºber die Angabe von Ressourcen [hier](https://docs.ray.io/en/master/rllib/rllib-training.html#specifying-resources) und √ºber Skalierung [hier](https://docs.ray.io/en/master/rllib/rllib-training.html#scaling-guide) lesen.

Aber... was ist ein "Rollout Worker"?

#### Rollout Arbeiter

- Rollout Worker sammeln parallel Daten aus der Environment (Simulator).
- F√ºr die meisten Simulatorumgebungen kann man die Environment in einem Cluster replizieren.
- So kannst du viel schneller Daten sammeln und Engp√§sse beim Training vermeiden.
- Egal, mit welchem Cluster Ray im Backend verbunden ist, `num_rollout_workers=4` funktioniert nahtlos.

Anmerkungen:

Wenn du beim √ºberwachten Lernen wartest, wei√üt du, dass du wahrscheinlich darauf wartest, dass das Modell trainiert wird. Im RL k√∂nnte der Engpass die Datensammlung oder die Modellaktualisierung sein. Die M√∂glichkeit, Rollouts zu parallelisieren, lindert den Engpass bei der Datenerfassung 

#### Ray tune, revisited

- Vergiss nicht, dass das Abstimmen von Hyperparametern wie die Rastersuche auch leicht verteilt werden kann.
- Gl√ºcklicherweise ist `tune` auch Teil von Ray und k√ºmmert sich, wie RLlib, f√ºr dich darum! 
- Wie du siehst, ist Ray + tune + RLlib eine ziemlich m√§chtige Kombination.

#### Treiber

In allen unseren Konfigurationen haben wir

```python
create_env_on_driver = True
```

Das bedeutet, dass wir die Environmentsvariable auf denselben "Treiber"-Prozess setzen, der das Training ausf√ºhrt.

#### Zusammenfassung

- Ray ist unglaublich m√§chtig, und wir haben nur die Spitze des Eisbergs angekratzt.
- Einige andere Ressourcen:
  - [ray.io](https://www.ray.io/)
  - [Learning Ray](https://www.oreilly.com/library/view/learning-ray/9781098117214/) (Buch)

#### Lass uns das Gelernte anwenden!

## Was ist Ray?
<!-- multiple choice -->

Was ist Ray?

- [ ] Das Unternehmen, das RLlib entwickelt. | Du denkst vielleicht an Anyscale, die Firma hinter Ray!
- [Ein Unterpaket der RLlib, das sich mit verteiltem Rechnen besch√§ftigt.
- [Ein allgemeines Paket, das die RLlib enth√§lt, die sich mit verteiltem Rechnen befasst.
- [x] Ein Algorithmus f√ºr Reinforcement Learning 

## RLlib verteilen
<!-- multiple choice -->

Wie nutzt RLlib in erster Linie die M√∂glichkeiten des verteilten Rechnens?

- [x] Verteilte Rollout-Worker generieren Daten von Environmentsklonen, die in den Lernalgorithmus eingespeist werden 
- [Das Training des neuronalen Netzwerks wird auf mehrere Knotenpunkte verteilt.
- [Jeder Knoten verf√ºgt √ºber ein separates neuronales Netzwerk, das unabh√§ngig auf seinem eigenen Knoten trainiert wird.

## Experimentieren mit Rollout-Arbeitern
<!-- coding exercise -->

Der folgende Code erstellt zwei Instanzen des PPO-Algorithmus: eine, die zwei Rollout-Worker mit zwei Environmenten pro Worker verwenden soll, und eine, die nur einen Rollout-Worker mit einer Environment pro Worker verwendet. Anschlie√üend wird die Zeit ausgedruckt, die f√ºr das Training der beiden Instanzen f√ºr 5 Iterationen ben√∂tigt wurde. Vervollst√§ndige den Code, f√ºhre ihn aus und vergleiche dann die Zeiten 

Hinweis: Dieses Experiment funktioniert _normalerweise_. Allerdings l√§uft dieser Code auf einem Server, der m√∂glicherweise von mehreren Lernenden gleichzeitig genutzt wird. Au√üerdem ist dieser Server kein richtiger Cluster, sodass die Parallelisierung auf einem Rechner nur funktioniert, wenn mehrere CPU-Kerne zur Verf√ºgung stehen.

In [4]:
# EXERCISE

from ray.rllib.algorithms.ppo import PPOConfig
import time
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

ppo_config_many = (
    PPOConfig()
    .framework("torch")
    .____(____)
    .training(model={"fcnet_hiddens" : [32,32]})
)

ppo_config_single = (
    PPOConfig()
    .framework("torch")
    .____(num_rollout_workers=1, num_envs_per_worker=1)
    .training(model={"fcnet_hiddens" : [32,32]})
)

ppo_many = ppo_config_many.build(env="FrozenLake-v1")
t = time.time()
for i in range(5):
    ppo_many.train()
print(f"Elapsed time with 2 workers, 2 envs each: {time.time()-t:.1f}s.")
ppo_many.stop()

ppo_single = ppo_config_single.build(env="FrozenLake-v1")
t = time.time()
for i in range(5):
    ppo_single.train()
print(f"Elapsed time with 1 worker, 1 env: {time.time()-t:.1f}s.")
ppo_single.stop()

AttributeError: 'PPOConfig' object has no attribute '____'

In [5]:
# SOLUTION

from ray.rllib.algorithms.ppo import PPOConfig
import time
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

ppo_config_many = (
    PPOConfig()
    .framework("torch")
    .rollouts(num_rollout_workers=2, num_envs_per_worker=2)
    .training(model={"fcnet_hiddens" : [32,32]})
)

ppo_config_single = (
    PPOConfig()
    .framework("torch")
    .rollouts(num_rollout_workers=1, num_envs_per_worker=1)
    .training(model={"fcnet_hiddens" : [32,32]})
)

ppo_many = ppo_config_many.build(env="FrozenLake-v1")
t = time.time()
for i in range(5):
    ppo_many.train()
print(f"Elapsed time with 2 workers, 2 envs each: {time.time()-t:.1f}s.")
ppo_many.stop()

ppo_single = ppo_config_single.build(env="FrozenLake-v1")
t = time.time()
for i in range(5):
    ppo_single.train()
print(f"Elapsed time with 1 worker, 1 env: {time.time()-t:.1f}s.")
ppo_single.stop()

2022-08-27 17:02:42,927	INFO worker.py:1490 -- Started a local Ray instance.


Elapsed time with 2 workers, 2 envs each: 11.3s.




Elapsed time with 1 worker, 1 env: 18.0s.
