# Kapitel 3: Grundlagen zu Reinforcement Learning (RL)

In diesem Kapitel werden die grundlegenden Konzepte des Reinforcement Learnings (RL) vorgestellt. Dazu gehören Markov-Prozesse, Markov-Entscheidungsprozesse (MDPs), Wertfunktionen und die Bellman-Gleichung. Diese Konzepte bilden die Grundlage für das Verständnis und die Implementierung von RL-Algorithmen.

In [4]:
import numpy as np

## Markov-Prozess (MDP) - Zustände, Aktionen und Belohnungen

Defintion der Zustände, Aktionen und Belohnungen in einem einfachen MDP.

In [1]:
STATES = ["a", "b"]
ACTIONS = ["a", "b"]
REWARDS = {"a": {"a": 0, "b": 7}, "b": {"a": -5, "b": 0}}

Initialisierung der Anfangswerte für Zustand, Belohnung und Gesamtbelohnung.

In [2]:
state = "a"
reward = 0
total_reward = 0

# Ausgabe des Startzustands und der Startbelohnung
print(f"Start-State: {state} Start-Reward: {reward}\n\n")

Start-State: a Start-Reward: 0




Simulation von 10 Iterationen, in denen der Benutzer Aktionen auswählt und die entsprechenden Belohnungen und Gesamtbelohnungen berechnet werden.

In [3]:
# Simuliere 10 Iterationen
for i in range(1, 11):
    print(f"State: {state} - Iteration: {i}")
    action = input("Action: ")
    if action in ACTIONS:
        reward = REWARDS[state][action]
        total_reward += reward
        state = action
        print(
            f"New State: {state} "
            f"Reward: {reward} "
            f"Total-Reward: {total_reward}",
        )


State: a - Iteration: 1
New State: a Reward: 0 Total-Reward: 0
State: a - Iteration: 2
New State: a Reward: 0 Total-Reward: 0
State: a - Iteration: 3
New State: b Reward: 7 Total-Reward: 7
State: b - Iteration: 4
New State: b Reward: 0 Total-Reward: 7
State: b - Iteration: 5
New State: a Reward: -5 Total-Reward: 2
State: a - Iteration: 6
New State: b Reward: 7 Total-Reward: 9
State: b - Iteration: 7
New State: a Reward: -5 Total-Reward: 4
State: a - Iteration: 8
New State: b Reward: 7 Total-Reward: 11
State: b - Iteration: 9
New State: a Reward: -5 Total-Reward: 6
State: a - Iteration: 10
New State: b Reward: 7 Total-Reward: 13


Ein schlauer Agent wird in der Lage sein, eine Strategie zu entwickeln, um die Gesamtbelohnung zu maximieren.

Strategie: 

Wechsel zwischen den Zuständen "a" und "b", um die Belohnung zu maximieren.

a -> b -> a -> b -> a -> b -> a -> b -> a -> b


## Markov reward process (MRP) - Makrovorgang mit Belohnung

Hinzunahme von Wahrscheinlichkeiten für Zustandsübergänge und Berechnung der erwarteten Belohnung.

$ G_t = R_{t+1} + γR_{t+2} + γ^2R_{t+3} + ... = Σ (γ^k * R_{t+k+1}) $


Definition der Zustände, Aktionen, Belohnungen und Übergangswahrscheinlichkeiten in einem MRP.


In [5]:
# Zustände
STATES = ["a", "b"]
# Aktionen
ACTIONS = ["a", "b"]
# Belohnungen für Aktionen in Zuständen
REWARDS = {"a": {"a": 0, "b": 7}, "b": {"a": -5, "b": 0}}
# Wahrscheinlichkeiten für Zustandsübergänge (entspricht der Policy)
TRANSITIONS = {"a": {"a": 0.1, "b": 0.9}, "b": {"a": 0.9, "b": 0.1}}

Initialisierung der Anfangswerte für Zustand, Belohnung und Gesamtbelohnung.

In [6]:
state = "a"
all_states = state
reward = 0
total_reward = 0

print(f"Start-State: {state} Start-Reward: {reward}\n\n")

Start-State: a Start-Reward: 0




Markov reward process (MRP) - Makrovorgang mit Belohnung (10 Iterationen=Episode)

In [8]:
for i in range(1, 11):
    print(f"State: {state} - Iteration: {i}")
    action = input("Action: ")
    if action in ACTIONS:
        t = np.random.choice(
            len(STATES),
            p=list(TRANSITIONS[state].values()),
        )
        transition = STATES[t]
        reward = REWARDS[state][transition]
        total_reward += reward
        state = transition
        all_states += " -> " + state
        print(
            f"New State: {state} "
            f"Reward: {reward} "
            f"Total-Reward: {total_reward}",
        )

State: a - Iteration: 1
New State: b Reward: 7 Total-Reward: 15
State: b - Iteration: 2
New State: a Reward: -5 Total-Reward: 10
State: a - Iteration: 3
New State: b Reward: 7 Total-Reward: 17
State: b - Iteration: 4
New State: b Reward: 0 Total-Reward: 17
State: b - Iteration: 5
New State: a Reward: -5 Total-Reward: 12
State: a - Iteration: 6
New State: b Reward: 7 Total-Reward: 19
State: b - Iteration: 7
New State: a Reward: -5 Total-Reward: 14
State: a - Iteration: 8
New State: b Reward: 7 Total-Reward: 21
State: b - Iteration: 9
New State: a Reward: -5 Total-Reward: 16
State: a - Iteration: 10
New State: b Reward: 7 Total-Reward: 23


## Markov Decision process (MDP) - Zustände, Aktionen, Belohnungen und Übergangswahrscheinlichkeiten

Formel zu Berechnung der diskontierten Belohnung bei Bekanntheit der Rewards und des Discount-Faktors (gamma).
:

In [9]:
def discounted_reward(rewards: list, gamma: float) -> float:
    result = 0.0
    for t in range(len(rewards)):
        result += gamma**t * rewards[t]
    return result


Wie wirkt sich der Discount-Faktor (gamma) auf die Berechnung der diskontierten Belohnung aus?

Die Rewards sind bekannt und werden mit zunehmender Zeit weniger wertvoll, je kleiner gamma ist.

In [18]:
gamma = 0.7  # [0, 1]
rewards = [1, 1, 1, -1, -1, 1, -1]

discounted_reward_value = discounted_reward(rewards, gamma)
print(f"gamma: {gamma}")
print(f"rewards: {rewards}")
print(f"discounted_reward_value: {discounted_reward_value}")

gamma: 0.7
rewards: [1, 1, 1, -1, -1, 1, -1]
discounted_reward_value: 1.657321
