## Reinforcement Learning

Erlernen von einem Prozess, während des Prozesses

Im Gegensatz zum konventionellen Machine Learning gibt es bei RL kein vorgegebenes Datenset

Während des Prozesses wird das Datenset erzeugt

z.B.: Roboter in der Realität laufen beibringen und währenddessen Hindernissen ausweichen

Begriffe:

- Prozess
    - Eine andauernde Aufgabe die kontinuierlich Daten erzeugt
    - Diese Daten werden in das entsprechende Model hineingegeben

- Umgebung
    - Behälter für den Prozess + ML Model + Agenten + ...
    - "Das Ganze"
 
- Agent
    - Kennt die Regeln des Prozesses
    - Führt den Prozess aus (-> verantwortlich für das Lernen)

Packages: Gym(nasium), Stable Baselines 3

In [1]:
import gymnasium as gym

### Vordefinierte Umgebungen

Es gibt verschiedene vorgegebene Umgebungen zum Testen von RL

https://github.com/openai/gym/blob/master/gym/envs/classic_control/cartpole.py

In [22]:
env = gym.make("CartPole-v1", render_mode="human")

### Definition des Lernprozesses

Während des Prozesses sammelt der Agent Punkte

Diese Punkte geben Auskunft über die Performance des Agenten (wie viele Aktionen der Agent richtig macht)

Inhalte einer Umgebung:

- \_\_init__(): Setup der Umgebung
- step(): Führt einen Schritt der Umgebung aus, und gibt alle möglichen Daten der Umgebung zurück
    - Diese Daten können später im ML-Model verarbeitet werden
    - state, reward, done, terminate, info
- reset(): Setzt die Umgebung auf den Ausgangszustand zurück
- render(): Zeichnet die Umgebung (falls möglich)
- close(): Beendet die Umgebung

In [23]:
durchgaenge = 50
for x in range(durchgaenge):
    state = env.reset()  # Umgebung auf den Anfangszustand zurücksetzen
    score = 0  # Variable um die Performance des Algorithmus' zu speichern
    done = False  # Beschreibt, ob der Agent noch "im Spiel" ist

    while not done:
        env.render()
        # Action Space: Liste von möglichen Aktionen (hier links und rechts)
        # Random Action aus dem Action Space entnehmen
        action = env.action_space.sample()
        state, reward, done, term, info = env.step(action)
        score += reward  # reward: Gibt dem Agenten für korrekte Aktionen +Punkte, oder keine Punkte

    print(f"Durchgang {x + 1}, Score: {score}")
env.close()

Durchgang 1, Score: 22.0
Durchgang 2, Score: 19.0
Durchgang 3, Score: 20.0
Durchgang 4, Score: 17.0
Durchgang 5, Score: 28.0
Durchgang 6, Score: 8.0
Durchgang 7, Score: 12.0
Durchgang 8, Score: 18.0
Durchgang 9, Score: 28.0
Durchgang 10, Score: 10.0
Durchgang 11, Score: 21.0
Durchgang 12, Score: 26.0
Durchgang 13, Score: 27.0
Durchgang 14, Score: 16.0
Durchgang 15, Score: 23.0
Durchgang 16, Score: 17.0
Durchgang 17, Score: 15.0
Durchgang 18, Score: 12.0
Durchgang 19, Score: 17.0
Durchgang 20, Score: 31.0
Durchgang 21, Score: 23.0
Durchgang 22, Score: 11.0
Durchgang 23, Score: 15.0
Durchgang 24, Score: 14.0
Durchgang 25, Score: 19.0
Durchgang 26, Score: 13.0
Durchgang 27, Score: 14.0
Durchgang 28, Score: 45.0
Durchgang 29, Score: 21.0
Durchgang 30, Score: 35.0
Durchgang 31, Score: 19.0
Durchgang 32, Score: 44.0
Durchgang 33, Score: 11.0
Durchgang 34, Score: 10.0
Durchgang 35, Score: 16.0
Durchgang 36, Score: 12.0
Durchgang 37, Score: 12.0
Durchgang 38, Score: 18.0
Durchgang 39, Score: 2

### RL Modell trainieren

Random Actions sind für einen möglichst hohen Score etwas unpraktisch

Wir wollen jetzt ein Model definieren, welches anhand des Game States die beste Action auswählt

- observation_space: Die Daten, welche ausschlaggebend sind für die Umgebung
    - Die beiden enthaltenen Arrays müssen als Bereiche interpretiert werden
    - Der Observation Space wird für das ML verwendet
- action_space: Mögliche Aktionen innerhalb der Umgebung

In [34]:
env.observation_space  # Box: Stellt X Bereiche dar, die Array Indizes korrenspondieren miteinander um Bereiche zu bilden

Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)

In [31]:
print(env.observation_space.low)
print(env.observation_space.high)

[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38]
[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38]


| Num | Observation           | Min                 | Max               |
|-----|-----------------------|---------------------|-------------------|
| 0   | Cart Position         | -4.8                | 4.8               |
| 1   | Cart Velocity         | -Inf                | Inf               |
| 2   | Pole Angle            | ~ -0.418 rad (-24°) | ~ 0.418 rad (24°) |
| 3   | Pole Angular Velocity | -Inf                | Inf               |

In [33]:
env.action_space  # Discrete: X verschiedene Werte (hier 2)

Discrete(2)

| Num | Action                 |
|-----|------------------------|
| 0   | Push cart to the left  |
| 1   | Push cart to the right |

### Stable Baselines 3

Wir können das Lernen auch per Tensorflow machen, aber SB3 hat einige vordefinierte Algorithmen

- https://stable-baselines.readthedocs.io/en/master/guide/algos.html

PPO: Proximal Policy Optimization

- https://stable-baselines.readthedocs.io/en/master/modules/policies.html

In [4]:
from stable_baselines3 import PPO

In [36]:
env = gym.make("CartPole-v1")
model = PPO("MlpPolicy", env, verbose=1)  # MLP: Multilayer Perceptron -> Effektiv Dense Layers (2x64)

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.


In [37]:
model.learn(total_timesteps=100_000)

---------------------------------
| rollout/           |          |
|    ep_len_mean     | 22.6     |
|    ep_rew_mean     | 22.6     |
| time/              |          |
|    fps             | 1753     |
|    iterations      | 1        |
|    time_elapsed    | 1        |
|    total_timesteps | 2048     |
---------------------------------
-----------------------------------------
| rollout/                |             |
|    ep_len_mean          | 28.3        |
|    ep_rew_mean          | 28.3        |
| time/                   |             |
|    fps                  | 994         |
|    iterations           | 2           |
|    time_elapsed         | 4           |
|    total_timesteps      | 4096        |
| train/                  |             |
|    approx_kl            | 0.008974922 |
|    clip_fraction        | 0.109       |
|    clip_range           | 0.2         |
|    entropy_loss         | -0.686      |
|    explained_variance   | -0.000498   |
|    learning_rate        | 0.

<stable_baselines3.ppo.ppo.PPO at 0x1f140e50cb0>

In [38]:
model.save("Models/CartPoleModel")



In [15]:
env = gym.make("CartPole-v1", render_mode="human")

In [16]:
model = PPO.load("../Models/CartPoleModel", env)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.


In [19]:
durchgaenge = 5
for x in range(durchgaenge):
    observation = env.reset()  # Umgebung auf den Anfangszustand zurücksetzen
    score = 0  # Variable um die Performance des Algorithmus' zu speichern
    done = False  # Beschreibt, ob der Agent noch "im Spiel" ist
    observation = observation[0].reshape(1, 4)

    while not (done or term):
        env.render()
        
        # Jetzt nehmen wir anstatt einer Random Action die Vorhersage des Models
        action, _ = model.predict(observation)
        if action.ndim == 1:
            action = action[0]
        
        observation, reward, done, term, info = env.step(action)
        score += reward  # reward: Gibt dem Agenten für korrekte Aktionen +Punkte, oder keine Punkte

    print(f"Durchgang {x + 1}, Score: {score}")
env.close()

Durchgang 1, Score: 500.0
Durchgang 2, Score: 500.0
Durchgang 3, Score: 500.0
Durchgang 4, Score: 500.0
Durchgang 5, Score: 500.0
