## Reinforcement Learning

ML ohne vorgegebenes Datenset

Das Datenset wird während des Prozesses erzeugt

In [1]:
import gymnasium as gym

### Vordefinierte Umgebungen

Es gibt von OpenAI vorgegebene Umgebungen, welche per RL automatisiert werden sollen

https://github.com/openai/gym/blob/master/gym/envs/classic_control/cartpole.py

In [2]:
env = gym.make("CartPole-v1", render_mode="human")

### Inhalte einer Umgebung

- Action Space: Möglichen Aktionen, die der Agent ausführen darf (hier 0 und 1, links und rechts)
- Observation Space: Beschreibt den Aufbau der Daten, die für das ML verwendet werden (hier siehe unten)

| Num | Observation           | Min                 | Max               |
|-----|-----------------------|---------------------|-------------------|
| 0   | Cart Position         | -4.8                | 4.8               |
| 1   | Cart Velocity         | -Inf                | Inf               |
| 2   | Pole Angle            | ~ -0.418 rad (-24°) | ~ 0.418 rad (24°) |
| 3   | Pole Angular Velocity | -Inf                | Inf               |

In [9]:
anz = 5
for x in range(anz):
    env = gym.make("CartPole-v1", render_mode="human")
    state = env.reset()  # Startzustand
    score = 0  # Reward Summe
    done = False
    
    while not done:
        env.render()  # Zeichnet die GUI
        action = env.action_space.sample()
        state, reward, done, _, _ = env.step(action)
        score += reward
    env.close()
    
    print(f"Punkte: {score}")

Punkte: 29.0
Punkte: 11.0
Punkte: 30.0
Punkte: 17.0
Punkte: 14.0


### RL Modell trainieren

Für das RL Modell benötigen wir einen Algorithmus

Dieser wird hier PPO sein (stable-baselines3)

Policy: Mlp (Multilayer Perceptron)

MLP: Tensorflow Modell mit 2x 64 Dense Nodes

In [13]:
from stable_baselines3 import PPO
import numpy as np

In [3]:
env = gym.make("CartPole-v1")

In [4]:
model = PPO("MlpPolicy", env, verbose=1)

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.


In [5]:
model.learn(total_timesteps=100_000)

---------------------------------
| rollout/           |          |
|    ep_len_mean     | 23       |
|    ep_rew_mean     | 23       |
| time/              |          |
|    fps             | 2362     |
|    iterations      | 1        |
|    time_elapsed    | 0        |
|    total_timesteps | 2048     |
---------------------------------
-----------------------------------------
| rollout/                |             |
|    ep_len_mean          | 29.7        |
|    ep_rew_mean          | 29.7        |
| time/                   |             |
|    fps                  | 1500        |
|    iterations           | 2           |
|    time_elapsed         | 2           |
|    total_timesteps      | 4096        |
| train/                  |             |
|    approx_kl            | 0.007850382 |
|    clip_fraction        | 0.0952      |
|    clip_range           | 0.2         |
|    entropy_loss         | -0.687      |
|    explained_variance   | -0.00264    |
|    learning_rate        | 0.

<stable_baselines3.ppo.ppo.PPO at 0x2785e2c62a0>

In [6]:
model.save("Models/CartPole")



In [26]:
env = gym.make("CartPole-v1")
model = PPO.load("Models/CartPole", env)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.


In [27]:
anz = 5
for x in range(anz):
    state = env.reset()[0]  # Startzustand
    score = 0  # Reward Summe
    done = False
    term = False
    
    while (not done) and (not term):
        # env.render()  # Zeichnet die GUI
        action, _ = model.predict(state)
        state, reward, done, term, _ = env.step(action)
        score += reward
    # env.close()
    
    print(f"Punkte: {score}")

Punkte: 500.0
Punkte: 500.0
Punkte: 500.0
Punkte: 500.0
Punkte: 500.0
