# Einheit 2: Q-Learning mit FrozenLake-v1 ⛄ und Taxi-v3 🚕

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/thumbnail.jpg" alt="Unit 2 Thumbnail">

In diesem Notizbuch **programmieren Sie Ihren ersten Reinforcement Learning-Agenten von Grund auf**, um FrozenLake ❄️ mit Q-Learning zu spielen, ihn mit der Community zu teilen und mit verschiedenen Konfigurationen zu experimentieren.

⬇️ Hier ist ein Beispiel dafür, was **Sie in nur wenigen Minuten erreichen werden.** ⬇️


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/envs.gif" alt="Umgebungen"/>

### 🎮 Umgebungen:

- [FrozenLake-v1](https://gymnasium.farama.org/environments/toy_text/frozen_lake/)
- [Taxi-v3](https://gymnasium.farama.org/environments/toy_text/taxi/)

### 📚 RL-Library:

- Python und NumPy
- [Gymnasium](https://gymnasium.farama.org/)

Wir sind ständig bemüht, unsere Tutorials zu verbessern. **Wenn Sie also Probleme in diesem Notizbuch finden**, öffnen Sie bitte [einen Fehler im GitHub Repo](https://github.com/huggingface/deep-rl-class/issues).

## Ziele dieses Notizbuchs 🏆

Am Ende des Notizbuchs werden Sie:

- In der Lage sein, **Gymnasium**, die Umgebungsbibliothek, zu benutzen.
- In der Lage sein, einen Q-Learning-Agenten von Grund auf zu programmieren.
- In der Lage sein, **Ihren trainierten Agenten und den Code auf den Hub** mit einer schönen Videowiedergabe und einer Bewertung zu pushen 🔥.




## Dieses Notizbuch stammt aus dem Kurs Deep Reinforcement Learning

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/deep-rl-course-illustration.jpg" alt="Deep RL Course illustration"/>

In diesem kostenlosen Kurs lernen Sie:

- 📖 Deep Reinforcement Learning in **Theorie und Praxis** studieren.
- 🧑‍💻 Lernen Sie, **berühmte Deep RL-Bibliotheken** wie Stable Baselines3, RL Baselines3 Zoo, CleanRL und Sample Factory 2.0 zu verwenden.
- 🤖 Trainieren Sie **Agenten in einzigartigen Umgebungen**.

Und mehr, siehe 📚 den Lehrplan 👉 https://simoninithomas.github.io/deep-rl-course

Vergessen Sie nicht, sich **<a href="http://eepurl.com/ic5ZUD">für den Kurs anzumelden</a>** (wir sammeln Ihre E-Mail, um Ihnen **die Links zu senden, wenn die einzelnen Einheiten veröffentlicht werden, und Sie über die Herausforderungen und Aktualisierungen zu informieren).**


Der beste Weg, um in Kontakt zu bleiben, ist, unserem Discord-Server beizutreten, um sich mit der Community und mit uns auszutauschen 👉🏻 https://discord.gg/ydHrjt3WP5

# Einführung in das Q-Learning

In der ersten Einheit dieses Kurses haben wir etwas über Reinforcement Learning (RL), den RL-Prozess und die verschiedenen Methoden zur Lösung eines RL-Problems gelernt. Wir haben auch **unsere ersten Agenten trainiert und sie in den Hugging Face Hub hochgeladen.**

In dieser Einheit werden wir **eine der Methoden des Reinforcement Learning vertiefen: wertbasierte Methoden** und unseren ersten RL-Algorithmus untersuchen: **Q-Learning.**

Wir werden auch **unseren ersten RL-Agenten von Grund auf** implementieren, einen Q-Learning-Agenten, und ihn in zwei Umgebungen trainieren:

1. Frozen-Lake-v1 (rutschfeste Version): Hier muss unser Agent **vom Startzustand (S) zum Zielzustand (G)** gelangen, indem er nur auf gefrorenen Kacheln (F) läuft und Löcher (H) vermeidet.
2. Ein autonomes Taxi: Unser Agent muss **lernen, sich in einer Stadt zurechtzufinden**, um **seine Fahrgäste von Punkt A nach Punkt B zu befördern**.


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/envs.gif" alt="Umgebungen"/>

Konkret werden wir:

- Lernen Sie **wertbasierte Methoden** kennen.
- Lernen Sie die **Unterschiede zwischen Monte Carlo und Temporal Difference Learning** kennen.
- Studium und Implementierung **unseres ersten RL-Algorithmus**: Q-Lernen.

Diese Einheit ist **grundlegend, wenn Sie in der Lage sein wollen, an Deep Q-Learning** zu arbeiten: der erste Deep RL-Algorithmus, der Atari-Spiele spielte und bei einigen von ihnen das menschliche Niveau schlug (Breakout, Space Invaders, etc.).

Also lasst uns anfangen! 🚀



# Was ist RL? Eine kurze Zusammenfassung

In RL bauen wir einen Agenten, der **kluge Entscheidungen** treffen kann. Zum Beispiel einen Agenten, der **lernt, ein Videospiel zu spielen** oder einen Handelsagenten, der **lernt, seinen Gewinn zu maximieren**, indem er entscheidet, **welche Aktien er kaufen und wann er verkaufen soll**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/rl-process.jpg" alt="RL-Prozess"/>


Um intelligente Entscheidungen zu treffen, lernt unser Agent von der Umwelt, indem er **durch Versuch und Irrtum** mit ihr interagiert und (positive oder negative) Belohnungen **als einzigartiges Feedback** erhält.

Sein Ziel **ist es, seine erwartete kumulative Belohnung** zu maximieren (aufgrund der Belohnungshypothese).

**Der Entscheidungsprozess des Agenten wird als Policy π bezeichnet:** In einem gegebenen Zustand gibt eine Policy eine Aktion oder eine Wahrscheinlichkeitsverteilung über Aktionen aus. Das heißt, bei einer Beobachtung der Umgebung gibt eine Strategie eine Aktion (oder mehrere Wahrscheinlichkeiten für jede Aktion) vor, die der Agent ausführen sollte.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/policy.jpg" alt="Policy"/>

**Unser Ziel ist es, eine optimale Strategie π* ** zu finden, d. h. eine Strategie, die zur besten erwarteten kumulativen Belohnung führt.

Und um diese optimale Policy zu finden (und damit das RL-Problem zu lösen), gibt es **zwei Haupttypen von RL-Methoden**:

- *Policybasierte Methoden*: **Direktes Trainieren der Strategie**, um zu lernen, welche Aktion bei einem bestimmten Zustand zu ergreifen ist.
- *Wertbasierte Methoden*: **Trainieren eine Wertfunktion**, um zu lernen, **welcher Zustand wertvoller ist**, und verwenden diese Wertfunktion **um die Aktion zu ergreifen, die zu diesem Zustand führt**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/two-approaches.jpg" alt="Zwei RL-Ansätze"/>

Und in dieser Einheit **werden wir tiefer in die wertbasierten Methoden eintauchen**.

# Die Bellman-Gleichung: Vereinfachung der Wertberechnung

Die Bellman-Gleichung **vereinfacht unsere Zustandswert- oder Zustands-Aktionswert-Berechnung**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman.jpg" alt="Bellman equation"/>

Mit dem, was wir bisher gelernt haben, wissen wir, dass wir, wenn wir \\(V(S_t)\\) (den Wert eines Zustands) berechnen, die Belohnung ab diesem Zustand berechnen und dann die Strategie für immer weiter verfolgen müssen. **(Die Policy, die wir im folgenden Beispiel definiert haben, ist eine Greedy-Policy; zur Vereinfachung lassen wir die Belohnung unberücksichtigt).

Um also \\(V(S_t)\\) zu berechnen, müssen wir die Summe der erwarteten Belohnungen berechnen. Daraus folgt:
<figure>
  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman2.jpg" alt="Bellman equation"/>
  <figcaption>To calculate the value of State 1: the sum of rewards if the agent started in that state and then followed the greedy policy (taking actions that leads to the best states values) for all the time steps.</figcaption>
</figure>
Zur Berechnung von \\(V(S_{t+1})\\) müssen wir dann die Belohnung ab diesem Zustand \\(S_{t+1}\) berechnen.

<figure>
  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman3.jpg" alt="Bellman equation"/>
  <figcaption>To calculate the value of State 2: the sum of rewards <b>if the agent started in that state</b>, and then followed the <b>policy for all the time steps.</b></figcaption>
</figure>

Sie haben vielleicht bemerkt, dass wir die Berechnung des Wertes der verschiedenen Zustände wiederholen, was mühsam sein kann, wenn Sie dies für jeden Zustandswert oder Zustandsaktionswert tun müssen.

Anstatt die erwartete Belohnung für jeden Zustand oder jedes Zustands-Aktionspaar zu berechnen, **können wir die Bellman-Gleichung verwenden** (Hinweis: Wenn Sie wissen, was Dynamische Programmierung ist, ist dies sehr ähnlich! wenn Sie nicht wissen, was es ist, keine Sorge!)

Die Bellman-Gleichung ist eine rekursive Gleichung, die wie folgt funktioniert: Anstatt für jeden Zustand von vorne zu beginnen und die Belohnung zu berechnen, können wir den Wert eines jeden Zustands als:

**Die unmittelbare Belohnung \\(R_{t+1}\) + der Rabattierte Wert des darauf folgenden Zustands ( \\(gamma * V(S_{t+1}) \\) ) .**

<figure>
  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman4.jpg" alt="Bellman equation"/>
</figure>

Wenn wir zu unserem Beispiel zurückkehren, können wir sagen, dass der Wert von Zustand 1 gleich der erwarteten kumulativen Belohnung ist, wenn wir bei diesem Zustand beginnen.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman2.jpg" alt="Bellman equation"/>


Um den Wert von Zustand 1 zu berechnen: die Summe der Belohnungen, **wenn der Agent in diesem Zustand 1** beginnen und dann die **Policy für alle Zeitschritte verfolgen würde.**

Dies ist äquivalent zu \\(V(S_{t})\\) = Sofortige Belohnung \\(R_{t+1}\\) + Rabattierter Wert des nächsten Zustands \\(\gamma * V(S_{t+1})\\\)


<figure>
  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/bellman6.jpg" alt="Bellman equation"/>
  <figcaption>For simplification, here we don’t discount so gamma = 1.</figcaption>
</figure>

Der Einfachheit halber wird hier nicht Rabattiert, also ist gamma = 1.
Sie werden jedoch im Abschnitt Q-Learning dieser Einheit ein Beispiel mit gamma = 0,99 untersuchen.

- Der Wert von \\(V(S_{t+1}) \\) = unmittelbare Belohnung \\(R_{t+2}\) + Rabattierter Wert des nächsten Zustands ( \\\(gamma * V(S_{t+2})\\\) ).
- Und so weiter.





Zusammenfassend lässt sich sagen, dass die Idee der Bellman-Gleichung darin besteht, dass wir, anstatt jeden Wert als Summe der erwarteten Belohnung zu berechnen, **was ein langwieriger Prozess ist**, den Wert als **die Summe der unmittelbaren Belohnung + des Rabattierten Wertes des folgenden Zustands berechnen.**

Bevor wir zum nächsten Abschnitt übergehen, denken Sie über die Rolle von Gamma in der Bellman-Gleichung nach. Was passiert, wenn der Wert von gamma sehr niedrig ist (z. B. 0,1 oder sogar 0)? Was passiert, wenn der Wert 1 ist? Was passiert, wenn der Wert sehr hoch ist, z. B. eine Million?

## Voraussetzungen 🏗️

Bevor Sie sich mit dem Notebook beschäftigen, müssen Sie:

🔲 📚 **Studieren Sie [Q-Learning by reading Unit 2](https://huggingface.co/deep-rl-course/unit2/introduction)** 🤗

## Eine kleine Zusammenfassung von Q-Learning

*Q-Learning* **ist der RL-Algorithmus, der**:

- Eine *Q-Funktion* trainiert, eine **Aktionswertfunktion**, die im internen Speicher durch eine *Q-Tabelle* **kodiert wird, die alle Werte der Zustands-Aktionspaare enthält**.

- Wenn ein Zustand und eine Aktion gegeben sind, sucht unsere Q-Funktion **in der Q-Tabelle nach dem entsprechenden Wert**.
    
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function-2.jpg" alt="Q-Funktion" width="100%"/>

- Wenn das Training abgeschlossen ist, **haben wir eine optimale Q-Funktion, also eine optimale Q-Tabelle.**
    
- Und wenn wir **eine optimale Q-Funktion** haben, haben wir
haben wir eine optimale Policy, da wir **für jeden Zustand die beste Aktion kennen, die zu ergreifen ist.**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/link-value-policy.jpg" alt="Link value policy" width="100%"/>


Aber am Anfang ist unsere **Q-Tabelle nutzlos, da sie für jedes Zustands-Aktionspaar einen beliebigen Wert angibt (meistens initialisieren wir die Q-Tabelle mit 0 Werten)**. Aber wenn wir die Umgebung erkunden und unsere Q-Tabelle aktualisieren, wird sie uns immer bessere Annäherungen liefern

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/q-learning.jpeg" alt="q-learning.jpeg" width="100%"/>

Dies ist der Pseudocode für das Q-Learning:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>


# Monte Carlo vs. Temporales Differenzlernen

Der letzte Punkt, den wir besprechen müssen, bevor wir uns dem Q-Learning zuwenden, sind die beiden Lernstrategien.

Denken Sie daran, dass ein RL-Agent **durch die Interaktion mit seiner Umgebung lernt.** Die Idee ist, dass **der Agent aufgrund der Erfahrung und der erhaltenen Belohnung seine Wertfunktion oder Strategie aktualisiert.**

Monte Carlo und Temporal Difference Learning sind zwei verschiedene **Strategien, wie wir unsere Wertfunktion oder unsere Policy-Funktion trainieren können.** Beide **nutzen Erfahrung, um das RL-Problem zu lösen.**

Auf der einen Seite verwendet Monte Carlo **eine ganze Episode an Erfahrung, bevor es lernt.** Auf der anderen Seite verwendet Temporal Difference **nur einen Schritt ( \\(S_t, A_t, R_{t+1}, S_{t+1}\) ) zum Lernen.**

Wir werden beide Methoden anhand eines Beispiels für eine wertbasierte Methode erläutern.

## Monte Carlo: Lernen am Ende der Episode

Monte Carlo wartet bis zum Ende der Episode, berechnet \\(G_t\\) (Rückgabe) und verwendet es als **Ziel für die Aktualisierung von \\(V(S_t)\\).**

Es ist also eine **vollständige Episode der Interaktion erforderlich, bevor wir unsere Wertfunktion aktualisieren können.**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/monte-carlo-approach.jpg" alt="Monte Carlo"/>


Wenn wir ein Beispiel nehmen:

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-2.jpg" alt="Monte Carlo"/>


- Wir beginnen die Episode immer **am gleichen Startpunkt.**
- **Der Agent unternimmt Aktionen unter Verwendung der Policy**. Zum Beispiel mit einer Epsilon Greedy Strategy, einer Strategie, die zwischen Exploration (zufällige Aktionen) und Ausbeutung wechselt.
- Wir erhalten **die Belohnung und den nächsten Zustand**.
- Wir beenden die Episode, wenn die Katze die Maus frisst oder wenn sich die Maus > 10 Schritte bewegt.

- Am Ende der Episode haben wir **eine Liste von Zustands-, Aktions-, Belohnungs- und Folgezustands-Tupeln**
Zum Beispiel [[Zustandskachel 3 unten, Nach links gehen, +1, Zustandskachel 2 unten], [Zustandskachel 2 unten, Nach links gehen, +0, Zustandskachel 1 unten]...]

- **Der Agent wird die Gesamtbelohnungen \\(G_t\\)** addieren (um zu sehen, wie gut er abgeschnitten hat).
- Dann **aktualisiert er \\(V(s_t)\\) anhand der Formel**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-3.jpg" alt="Monte Carlo"/>

- Dann **starten Sie ein neues Spiel mit diesem neuen Wissen**

Indem man mehr und mehr Episoden durchführt, **lernt der Agent, immer besser zu spielen**.

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-3p.jpg" alt="Monte Carlo"/>

Wenn wir zum Beispiel eine Zustandswertfunktion mit Monte Carlo trainieren:

- Wir initialisieren unsere Wertfunktion **so, dass sie für jeden Zustand den Wert 0 liefert**
- Unsere Lernrate (lr) ist 0,1 und unsere Abzinsungsrate ist 1 (= keine Abzinsung)
- Unsere Maus **erforscht die Umgebung und führt zufällige Aktionen aus**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-4.jpg" alt="Monte Carlo"/>


- Die Maus hat mehr als 10 Schritte gemacht, also endet die Episode .

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-4p.jpg" alt="Monte Carlo"/>



- Wir haben eine Liste von Zustand, Aktion, Belohnungen, nächster_Zustand, **wir müssen die Rückgabe berechnen \\(G{t=0}\)**

\\(G_t = R_{t+1} + R_{t+2} + R_{t+3} ...\\\) (der Einfachheit halber lassen wir die Belohnungen unberücksichtigt)

\\(G_0 = R_{1} + R_{2} + R_{3}...\\\)

\\(G_0 = 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0\\)

\\(G_0 = 3\\)

- Wir können nun das **neue** \\(V(S_0)\\) berechnen:

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-5.jpg" alt="Monte Carlo"/>

\\(V(S_0) = V(S_0) + lr * [G_0 - V(S_0)]\\)

\\(V(S_0) = 0 + 0,1 * [3 - 0]\\)

\\(V(S_0) = 0,3\\)


  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-5p.jpg" alt="Monte Carlo"/>


## Temporal Difference Learning: Lernen bei jedem Schritt 

**Temporal Difference hingegen wartet nur auf eine Interaktion (einen Schritt) \\\(S_{t+1}\\)**, um ein TD-Ziel zu bilden und \\(V(S_t)\\) unter Verwendung von \\\(R_{t+1}\) und \\\( \gamma * V(S_{t+1})\\\) zu aktualisieren.

Die Idee bei **TD ist, das \\(V(S_t)\\) bei jedem Schritt zu aktualisieren.

Da wir aber nicht eine ganze Episode erlebt haben, verfügen wir nicht über \\(G_t\\) (erwartete Belohnung). Stattdessen **schätzen wir \\(G_t\\), indem wir \\(R_{t+1}\) und den Rabattierten Wert des nächsten Zustands addieren.**

Dies wird Bootstrapping genannt. Es wird so genannt, **weil TD seine Aktualisierung zum Teil auf eine bestehende Schätzung \\(V(S_{t+1})\\) und nicht auf eine vollständige Stichprobe \\(G_t\\) stützt.**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-1.jpg" alt="Temporal Difference"/>


Diese Methode wird TD(0) oder **einschrittige TD (Aktualisierung der Wertfunktion nach jedem einzelnen Schritt) genannt.**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-1p.jpg" alt="Temporal Difference"/>

Wenn wir das gleiche Beispiel nehmen,

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-2.jpg" alt="Temporal Difference"/>

- Wir initialisieren unsere Wertfunktion so, dass sie für jeden Zustand den Wert 0 zurückgibt.
- Unsere Lernrate (lr) ist 0,1, und unsere Abzinsungsrate ist 1 (keine Abzinsung).
- Unsere Maus beginnt, die Umgebung zu erkunden und führt eine zufällige Aktion aus: **nach links gehen**
- Sie erhält eine Belohnung \\(R_{t+1} = 1\\), da **sie ein Stück Käse isst**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-2p.jpg" alt="Temporal Difference"/>


  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-3.jpg" alt="Temporal Difference"/>

Wir können nun \\(V(S_0)\\) aktualisieren:

Neu \\(V(S_0) = V(S_0) + lr * [R_1 + \gamma * V(S_1) - V(S_0)]\\)

Neu \\(V(S_0) = 0 + 0,1 * [1 + 1 * 0-0]\\)

Neu \\(V(S_0) = 0,1\\)

Wir haben also gerade unsere Wertfunktion für den Zustand 0 aktualisiert.

Jetzt fahren wir damit fort, mit unserer aktualisierten Wertfunktion mit dieser Umgebung zu interagieren.

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-3p.jpg" alt="Temporal Difference"/>

  Um es zusammenzufassen:

  - Mit *Monte Carlo* aktualisieren wir die Wertfunktion aus einer kompletten Episode, und so **verwenden wir die tatsächliche genaue Rabattierte Belohnung dieser Episode.**
  - Mit *TD Learning* aktualisieren wir die Wertfunktion aus einem Schritt, und wir ersetzen \\(G_t\\), das wir nicht kennen, mit **einer geschätzten Belohnung, die TD-Ziel genannt wird.**

  <img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Summary.jpg" alt="Zusammenfassung"/>


# Mid-way Recap
Bevor wir uns mit Q-Learning beschäftigen, sollten wir das eben Gelernte noch einmal zusammenfassen.

Wir haben zwei Arten von wertbasierten Funktionen:

- Zustandswertfunktion: gibt den erwarteten Ertrag aus, wenn **der Agent in einem bestimmten Zustand startet und danach für immer gemäß der Strategie handelt**.
- Aktionswertfunktion: gibt den erwarteten Ertrag aus, wenn **der Agent in einem bestimmten Zustand startet, in diesem Zustand eine bestimmte Aktion ausführt** und danach für immer entsprechend der Strategie handelt.
- Bei wertbasierten Methoden wird die Strategie nicht erlernt, sondern **man definiert die Strategie von Hand** und lernt eine Wertfunktion. Wenn wir eine optimale Wertfunktion haben, haben wir **eine optimale Strategie**.

Es gibt zwei Arten von Methoden zur Aktualisierung der Wertfunktion:

- Bei der *Monte-Carlo-Methode* aktualisieren wir die Wertfunktion anhand einer vollständigen Episode, d. h. wir **verwenden die tatsächliche Rabattierte Belohnung dieser Episode**.
- Mit *der TD-Learning-Methode* aktualisieren wir die Wertfunktion aus einem Schritt, wobei wir die unbekannte Belohnung durch **eine geschätzte Belohnung, die TD-Zielvorgabe, ersetzen.**


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/summary-learning-mtds.jpg" alt="Zusammenfassung"/>

# Einführung in das Q-Learning 
## Was ist Q-Learning?

Q-Learning ist eine **off-policy wertbasierte Methode, die einen TD-Ansatz verwendet, um ihre Aktionswertfunktion zu trainieren:**

- *Off-policy*: wir werden am Ende dieser Einheit darüber sprechen.
- *Wertbasierte Methode*: Findet die optimale Policy indirekt durch das Training einer Wert- oder Aktionswertfunktion, die uns **den Wert jedes Zustands oder jedes Zustands-Aktionspaares* liefert.
- *TD-Ansatz:* **Aktualisiert seine Aktions-Wert-Funktion bei jedem Schritt statt am Ende der Episode.**

**Q-Learning ist der Algorithmus, mit dem wir unsere Q-Funktion** trainieren, eine **Aktionswertfunktion**, die den Wert eines bestimmten Zustands und einer bestimmten Aktion in diesem Zustand bestimmt.

<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function.jpg" alt="Q-function"/>
  <figcaption>Given a state and action, our Q Function outputs a state-action value (also called Q-value)</figcaption>
</figure>
Das **Q kommt von "der Qualität" (dem Wert) dieser Handlung in diesem Zustand.

Erinnern wir uns an den Unterschied zwischen Wert und Belohnung:

- Der *Wert eines Zustands* oder eines *Zustands-Aktions-Paars* ist die erwartete kumulative Belohnung, die unser Agent erhält, wenn er in diesem Zustand (oder Zustands-Aktions-Paar) startet und dann entsprechend seiner Strategie handelt.
- Die *Belohnung* ist die **Rückmeldung, die ich von der Umwelt erhalte**, nachdem ich eine Aktion in einem Zustand ausgeführt habe.

Intern wird unsere Q-Funktion durch **eine Q-Tabelle kodiert, eine Tabelle, in der jede Zelle einem Wert für ein Zustands-Aktionspaar entspricht.** Stellen Sie sich diese Q-Tabelle als **den Speicher oder Spickzettel unserer Q-Funktion** vor.

Gehen wir ein Beispiel für ein Labyrinth durch.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Maze-1.jpg" alt="Labyrinth Beispiel"/>

Die Q-Tabelle wird initialisiert. Deshalb sind alle Werte = 0. Diese Tabelle **enthält für jeden Zustand und jede Aktion die entsprechenden Zustands-Aktions-Werte.** 
In diesem einfachen Beispiel ist der Zustand nur durch die Position der Maus definiert. Daher haben wir 2*3 Zeilen in unserer Q-Tabelle, eine Zeile für jede mögliche Position der Maus. In komplexeren Szenarien könnte der Zustand mehr Informationen als die Position des Akteurs enthalten.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Maze-2.jpg" alt="Maze example"/>

Hier sehen wir, dass der **Zustandsaktionswert des Ausgangszustands und des Aufstiegs 0 ist:**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Maze-3.jpg" alt="Labyrinth-Beispiel"/>

Also: Die Q-Funktion verwendet eine Q-Tabelle, **die den Wert jedes Zustands-Aktions-Paares enthält.** Gegeben einen Zustand und eine Aktion, **sucht unsere Q-Funktion in ihrer Q-Tabelle, um den Wert auszugeben.**

<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function-2.jpg" alt="Q-function"/>
</figure>

Wenn wir rekapitulieren, ist *Q-Lernen* **der RL-Algorithmus, der:**

- eine *Q-Funktion* (eine **Aktionswertfunktion**) trainiert, die intern eine **Q-Tabelle ist, die alle Werte des Zustands-Aktionspaares enthält.**
- Wenn ein Zustand und eine Aktion gegeben sind, **sucht unsere Q-Funktion in ihrer Q-Tabelle nach dem entsprechenden Wert**.
- Wenn das Training abgeschlossen ist, **haben wir eine optimale Q-Funktion, was bedeutet, dass wir eine optimale Q-Tabelle haben.**
- Und wenn wir **eine optimale Q-Funktion** haben, haben wir **eine optimale Policy**, da wir **die beste Aktion für jeden Zustand kennen.**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/link-value-policy.jpg" alt="Link value policy"/>


Am Anfang ist **unsere Q-Tabelle nutzlos, da sie beliebige Werte für jedes Zustands-Aktions-Paar enthält** (meistens initialisieren wir die Q-Tabelle mit 0). Wenn der Agent **die Umgebung erkundet und wir die Q-Tabelle aktualisieren, wird sie uns eine immer bessere Annäherung** an die optimale Strategie liefern.

<figure class="image table text-center m-0 w-full">
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-1.jpg" alt="Q-learning"/>
  <figcaption>We see here that with the training, our Q-table is better since, thanks to it, we can know the value of each state-action pair.</figcaption>
</figure>

Da wir nun wissen, was Q-Learning, Q-Funktionen und Q-Tabellen sind, **können wir uns nun näher mit dem Q-Learning-Algorithmus** beschäftigen.

## Der Q-Learning-Algorithmus [[q-learning-algo]]

Dies ist der Pseudocode des Q-Learning-Algorithmus; lassen Sie uns jeden Teil studieren und **an einem einfachen Beispiel sehen, wie er funktioniert, bevor wir ihn implementieren**. Lassen Sie sich davon nicht einschüchtern, es ist einfacher als es aussieht! Wir werden jeden Schritt durchgehen.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-learning"/>

### Schritt 1: Wir initialisieren die Q-Tabelle [[Schritt1]]

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-3.jpg" alt="Q-learning"/>


Wir müssen die Q-Tabelle für jedes Zustands-Aktionspaar initialisieren. ** Meistens initialisieren wir mit Werten von 0.

### Schritt 2: Wählen Sie eine Aktion mit Hilfe der Epsilon-Greedy-Strategie [[step2]]

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-4.jpg" alt="Q-learning"/>


Die Epsilon-Greedy-Strategie ist eine Strategie, die den Kompromiss zwischen Erkundung und Ausbeutung behandelt.

Die Idee ist, dass bei einem Anfangswert von ɛ = 1,0:

- Mit einer Wahrscheinlichkeit von 1 - ɛ*: **Ausbeutung** (d. h. unser Agent wählt die Aktion mit dem höchsten Wert des Zustands-Aktionspaares).
- Mit der Wahrscheinlichkeit ɛ: **wir machen Exploration** (wir versuchen eine zufällige Aktion).

Zu Beginn des Trainings wird **die Wahrscheinlichkeit der Exploration sehr groß sein, da ɛ sehr hoch ist, also werden wir die meiste Zeit explorieren**. Aber wenn das Training weitergeht und folglich unsere **Q-Tabelle in ihren Schätzungen immer besser wird, verringern wir schrittweise den Epsilon-Wert**, da wir immer weniger Exploration und mehr Ausbeutung brauchen werden.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-5.jpg" alt="Q-learning"/>


### Schritt 3: Führe Aktion At aus, erhalte Belohnung Rt+1 und nächsten Zustand St+1 [[Schritt3]]

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-6.jpg" alt="Q-learning"/>

### Schritt 4: Aktualisiere Q(St, At) [[Schritt4]]

Erinnern Sie sich daran, dass wir beim TD-Lernen unsere Policy oder Wertfunktion (je nach der von uns gewählten RL-Methode) **nach einem Schritt der Interaktion** aktualisieren.

Um unser TD-Ziel zu erzeugen, **benutzen wir die unmittelbare Belohnung \\(R_{t+1}\) plus den Rabattierten Wert des nächsten Zustands**, der berechnet wird, indem wir die Aktion finden, die die aktuelle Q-Funktion im nächsten Zustand maximiert. (Wir nennen das Bootstrap).

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-7.jpg" alt="Q-learning"/>

Daher lautet unsere \\(Q(S_t, A_t)\\) **Aktualisierungsformel wie folgt aus: **

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-8.jpg" alt="Q-learning"/>


Das heißt, um unser \\(Q(S_t, A_t)\\) zu aktualisieren:

- Wir brauchen \\(S_t, A_t, R_{t+1}, S_{t+1}\\).
- Um unseren Q-Wert bei einem bestimmten Zustands-Aktionspaar zu aktualisieren, verwenden wir das TD-Ziel.

Wie bilden wir das TD-Ziel?
1. Wir erhalten die Belohnung \\(R_{t+1}\), nachdem wir die Aktion \\(A_t\\) ausgeführt haben.
2. Um den **besten Wert des Zustands-Aktionspaares** für den nächsten Zustand zu erhalten, verwenden wir eine gierige Strategie, um die nächstbeste Aktion auszuwählen. Beachten Sie, dass es sich hierbei nicht um eine Epsilon-Greedy-Policy handelt, die immer die Aktion mit dem höchsten Zustands-Aktionswert wählt.

Wenn die Aktualisierung dieses Q-Wertes abgeschlossen ist, beginnen wir in einem neuen Zustand und wählen unsere Aktion **wieder mit einer Epsilon-Greedy-Strategie aus.**

**Aus diesem Grund sagen wir, dass Q-Learning ein Off-Policy-Algorithmus ist.**

## Off-Policy vs. On-Policy [[off-vs-on]]

Der Unterschied ist subtil:

- *Off-policy*: Verwendung **einer anderen Policy für das Handeln (Inferenz) und Aktualisieren (Training).**

Beim Q-Learning beispielsweise unterscheidet sich die Epsilon-Greedy-Policy (acting policy) von der Greedy-Policy, die **zur Auswahl des besten Aktionswerts für den nächsten Zustand verwendet wird, um unseren Q-Wert zu aktualisieren (updating policy).**

<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-1.jpg" alt="Off-on policy"/>
  <figcaption>Acting Policy</figcaption>
</figure>

Unterscheidet sich von der Richtlinie, die wir während des Trainingsteils verwenden:


<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-2.jpg" alt="Off-on policy"/>
  <figcaption>Updating policy</figcaption>
</figure>

- *On-Policy:* Verwendung derselben **Policy zum Handeln und Aktualisieren.

Bei Sarsa, einem anderen wertbasierten Algorithmus, wählt beispielsweise **die Epsilon-Greedy-Policy das nächste State-Action-Paar aus, nicht eine Greedy-Policy.**

<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-3.jpg" alt="Off-on policy"/>
    <figcaption>Sarsa</figcaption>
</figure>

<figure>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-4.jpg" alt="Off-on policy"/>
</figure>

# Ein Q-Learning-Beispiel [[q-learning-example]]

Um Q-Learning besser zu verstehen, wollen wir ein einfaches Beispiel nehmen:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Maze-Example-2.jpg" alt="Labyrinth-Beispiel"/>

- Du bist eine Maus in diesem kleinen Labyrinth. Du **begannst immer am gleichen Startpunkt**.
- Das Ziel ist es, **den großen Käsehaufen in der rechten unteren Ecke** zu fressen und das Gift zu vermeiden. Denn wer mag schon keinen Käse?
- Die Episode endet, wenn wir das Gift essen, **den großen Käsestapel essen** oder wenn wir mehr als fünf Schritte gehen.
- Die Lernrate beträgt 0,1
- Die Rabattierungsrate (Gamma) ist 0,99

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-1.jpg" alt="Labyrinth-Beispiel"/>


Die Belohnungsfunktion sieht folgendermaßen aus:

- **+0:** Erreichen eines Zustands, in dem kein Käse liegt.
- **+1:** Erreichen eines Zustands mit einem kleinen Käse darin.
- **+10:** Erreichen des Zustands mit dem großen Käsehaufen.
- **-10:** In den Staat mit dem Gift gehen und somit sterben.
- **+0** Wenn wir mehr als fünf Schritte gehen.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-2.jpg" alt="Labyrinth-Beispiel"/>

Um unseren Agenten auf eine optimale Strategie zu trainieren (also eine Strategie, die nach rechts, rechts, unten geht), **werden wir den Q-Learning-Algorithmus** verwenden.

## Schritt 1: Initialisieren der Q-Tabelle [[Schritt1]]

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Example-1.jpg" alt="Maze-Beispiel"/>

Für den Moment ist **unsere Q-Tabelle nutzlos**; wir müssen **unsere Q-Funktion mit dem Q-Learning-Algorithmus trainieren**.

Tun wir dies für 2 Trainingszeitschritte:

Trainingszeitschritt 1:

## Schritt 2: Wählen Sie eine Aktion mit der Epsilon Greedy Strategy [[step2]]

Da Epsilon groß ist (= 1,0), wähle ich eine zufällige Aktion. In diesem Fall gehe ich nach rechts.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-3.jpg" alt="Maze-Beispiel"/>


## Schritt 3: Führe Aktion At aus, erhalte Rt+1 und St+1 [[Schritt3]]

Wenn ich nach rechts gehe, bekomme ich einen kleinen Käse, also R_{t+1} = 1\\) und ich bin in einem neuen Zustand.


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-4.jpg" alt="Labyrinth-Beispiel"/>


## Schritt 4: Q(St, At) aktualisieren [[Schritt4]]

Wir können nun \\(Q(S_t, A_t)\\) mit unserer Formel aktualisieren.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-5.jpg" alt="Maze-Beispiel"/>
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Example-4.jpg" alt="Labyrinth-Beispiel"/>

Trainingszeitschritt 2:

## Schritt 2: Wähle eine Aktion mit der Epsilon Greedy Strategy [[step2-2]]

**Ich nehme wieder eine zufällige Aktion, da epsilon=0,99 groß ist**. (Beachten Sie, dass wir epsilon ein wenig vermindern, da wir mit fortschreitendem Training immer weniger erforschen wollen).

Ich habe die Aktion 'nach unten' gewählt. **Dies ist keine gute Aktion, da sie mich zum Gift führt**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-6.jpg" alt="Labyrinth-Beispiel"/>


## Schritt 3: Führe Aktion At aus, erhalte Rt+1 und St+1 [[Schritt3-3]]

Da ich Gift gegessen habe, bekomme ich **(R_{t+1} = -10}), und ich sterbe**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-7.jpg" alt="Labyrinth-Beispiel"/>

## Schritt 4: Q(St, At) aktualisieren [[step4-4]]

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/q-ex-8.jpg" alt="Labyrinth-Beispiel"/>

Weil wir tot sind, beginnen wir eine neue Episode. Aber was wir hier sehen, ist, dass **mit zwei Erkundungsschritten mein Agent schlauer geworden ist.**

Wenn wir weiterhin die Umgebung erforschen und ausnutzen und die Q-Werte anhand des TD-Ziels aktualisieren, wird uns die **Q-Tabelle eine immer bessere Annäherung liefern. Am Ende des Trainings erhalten wir eine Schätzung der optimalen Q-Funktion.**

# Q-Learning Rekapitulation


*Q-Learning* **ist der RL-Algorithmus, der** :

- Eine *Q-Funktion* trainiert, eine **Aktionswertfunktion**, die im internen Speicher durch eine *Q-Tabelle* **kodiert ist, die alle Werte des Zustands-Aktionspaares enthält**.

- Angesichts eines Zustands und einer Aktion sucht unsere Q-Funktion **in ihrer Q-Tabelle nach dem entsprechenden Wert**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function-2.jpg" alt="Q-Funktion" width="100%"/>

- Wenn das Training abgeschlossen ist, **haben wir eine optimale Q-Funktion, oder, äquivalent, eine optimale Q-Tabelle**.

- Und wenn wir **eine optimale Q-Funktion** haben, haben wir
haben wir eine optimale Policy, da wir **für jeden Zustand die beste Aktion kennen, die zu ergreifen ist.**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/link-value-policy.jpg" alt="Link value policy" width="100%"/>

Am Anfang ist unsere **Q-Tabelle jedoch nutzlos, da sie für jedes Zustands-Aktionspaar beliebige Werte angibt (meistens initialisieren wir die Q-Tabelle mit 0 Werten)**. Aber wenn wir die Umgebung erforschen und unsere Q-Tabelle aktualisieren, wird sie uns eine immer bessere Annäherung liefern.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/q-learning.jpeg" alt="q-learning.jpeg" width="100%"/>

Dies ist der Pseudocode für Q-Learning:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>

# Programmieren wir unseren ersten Reinforcement Learning Algorithmus 🚀.

Um dieses Hands-On für den [Zertifizierungsprozess] (https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process) zu validieren, müssen Sie Ihr trainiertes Taximodell an den Hub senden und **ein Ergebnis von >= 4,5** erhalten.

Um Ihr Ergebnis zu finden, gehen Sie zur [Bestenliste] (https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard) und suchen Sie Ihr Modell, **das Ergebnis = mean_reward - std of reward**

Weitere Informationen über den Zertifizierungsprozess finden Sie in diesem Abschnitt 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process

## Abhängigkeiten installieren und einen virtuellen Bildschirm erstellen 🔽.

Im Notebook müssen wir ein Wiederholungsvideo erstellen. Dazu benötigen wir mit Colab **einen virtuellen Bildschirm, um die Umgebung zu rendern** (und somit die Bilder aufzunehmen).

Daher wird die folgende Zelle die Bibliotheken installieren und einen virtuellen Bildschirm erstellen und starten 🖥

Wir werden mehrere Bibliotheken installieren:

- `gymnasium`: Enthält die Umgebungen FrozenLake-v1 ⛄ und Taxi-v3 🚕.
- pygame": Wird für die FrozenLake-v1- und Taxi-v3-Benutzeroberfläche verwendet.
- `numpy`: Wird für die Handhabung unserer Q-Tabelle verwendet.

Der Hugging Face Hub 🤗 dient als zentraler Ort, an dem jeder Modelle und Datensätze teilen und erforschen kann. Er bietet Versionierung, Metriken, Visualisierungen und andere Funktionen, die eine einfache Zusammenarbeit mit anderen ermöglichen.

Sie können alle verfügbaren Deep-RL-Modelle (sofern sie Q Learning verwenden) hier sehen 👉 https://huggingface.co/models?other=q-learning

In [None]:
!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit2/requirements-unit2.txt

In [None]:
!sudo apt-get update
!sudo apt-get install -y python3-opengl
!apt install ffmpeg xvfb
!pip3 install pyvirtualdisplay

Um sicherzustellen, dass die neu installierten Bibliotheken verwendet werden, **ist es manchmal erforderlich, die Laufzeit des Notebooks neu zu starten**. Die nächste Zelle wird die **Laufzeitumgebung zum Absturz bringen, so dass Sie eine neue Verbindung herstellen und den Code von hier aus ausführen müssen**. Dank dieses Tricks **können wir unseren virtuellen Bildschirm ausführen**.

In [None]:
import os
os.kill(os.getpid(), 9)

In [None]:
# Virtual display
from pyvirtualdisplay import Display

virtual_display = Display(visible=0, size=(1400, 900))
virtual_display.start()

## Importieren Sie die Pakete 📦

Zusätzlich zu den installierten Bibliotheken verwenden wir auch:

- `random`: Um Zufallszahlen zu erzeugen (die für die Epsilon-Greedy-Policy nützlich sind).
- `imageio`: Zur Erzeugung eines Wiederholungsvideos.

In [None]:
import numpy as np
import gymnasium as gym
import random
import imageio
import os
import tqdm

import pickle5 as pickle
from tqdm.notebook import tqdm

Wir sind jetzt bereit, unseren Q-Learning-Algorithmus zu programmieren 🔥.

# Teil 1: Gefrorener See ⛄ (nicht rutschige Version)

## Erstellen und verstehen [FrozenLake-Umgebung ⛄]((https://gymnasium.farama.org/environments/toy_text/frozen_lake/)
---

💡 Eine gute Angewohnheit, wenn Sie anfangen, eine Umgebung zu benutzen, ist es, ihre Dokumentation zu überprüfen

👉 https://gymnasium.farama.org/environments/toy_text/frozen_lake/

---

Wir werden unseren Q-Learning-Agenten darauf trainieren, **vom Startzustand (S) zum Zielzustand (G) zu navigieren, indem wir nur auf gefrorenen Kacheln (F) laufen und Löcher (H)** vermeiden.

Wir können zwei Größen von Umgebungen haben:

- `map_name="4x4"`: eine 4x4-Gitterversion
- `map_name="8x8"`: eine 8x8-Gitterversion


Die Umgebung hat zwei Modi:

- `is_slippery=False`: Der Agent bewegt sich immer **in die beabsichtigte Richtung**, da der gefrorene See nicht rutschig ist (deterministisch).
- is_slippery=True`: Der Agent **bewegt sich aufgrund der glatten Beschaffenheit des gefrorenen Sees nicht immer in die beabsichtigte Richtung** (stochastisch).

Für den Moment halten wir es einfach mit der 4x4 Karte und nicht rutschig.
Wir fügen einen Parameter namens `render_mode` hinzu, der angibt, wie die Umgebung visualisiert werden soll. In unserem Fall, weil wir **am Ende ein Video der Umgebung aufnehmen wollen, müssen wir render_mode auf rgb_array** setzen.

Wie [in der Dokumentation erklärt](https://gymnasium.farama.org/api/env/#gymnasium.Env.render) "rgb_array": Gibt ein einzelnes Bild zurück, das den aktuellen Zustand der Umgebung darstellt. Ein Frame ist ein np.ndarray mit der Form (x, y, 3), das RGB-Werte für ein x-mal-y-Pixelbild darstellt.

In [None]:
# Create the FrozenLake-v1 environment using 4x4 map and non-slippery version and render_mode="rgb_array"
env = gym.make() # TODO use the correct parameters

### Lösung

In [None]:
env = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False, render_mode="rgb_array")

Sie können Ihr eigenes benutzerdefiniertes Raster wie dieses erstellen:

```python
desc=["SFFF", "FHFH", "FFFH", "HFFG"]
gym.make('FrozenLake-v1', desc=desc, is_slippery=True)
```

aber wir werden vorerst die Standardumgebung verwenden.

### Mal sehen, wie die Umwelt aussieht:


In [None]:
# We create our environment with gym.make("<name_of_the_environment>")- `is_slippery=False`: The agent always moves in the intended direction due to the non-slippery nature of the frozen lake (deterministic).
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space", env.observation_space)
print("Sample observation", env.observation_space.sample()) # Get a random observation

Mit "Observation Space Shape Discrete(16)" sehen wir, dass die Beobachtung eine ganze Zahl ist, die die **aktuelle Position des Agenten als current_row * ncols + current_col darstellt (wobei sowohl row als auch col bei 0 beginnen)**.

Zum Beispiel kann die Zielposition in der 4x4-Karte wie folgt berechnet werden: 3 * 4 + 3 = 15. Die Anzahl der möglichen Beobachtungen ist abhängig von der Größe der Karte. **Die 4x4-Karte hat zum Beispiel 16 mögliche Beobachtungen**.


So sieht zum Beispiel der Zustand = 0 aus:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/frozenlake.png" alt="FrozenLake">

In [None]:
print("\n _____ACTION SPACE_____ \n")
print("Action Space Shape", env.action_space.n)
print("Action Space Sample", env.action_space.sample()) # Take a random action

Der Aktionsraum (die Menge der möglichen Aktionen, die der Agent ausführen kann) ist diskret mit 4 verfügbaren Aktionen 🎮:
- 0: LINKS GEHEN
- 1: ABWÄRTS GEHEN
- 2: RECHTS GEHEN
- 3: NACH OBEN GEHEN

Belohnungsfunktion 💰:
- Erreichen des Ziels: +1
- Loch erreichen: 0
- Gefrorenes Ziel erreichen: 0

## Erstellen und Initialisieren der Q-Tabelle 🗄️

(👀 Schritt 1 des Pseudocodes)

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>


Es ist an der Zeit, unsere Q-Tabelle zu initialisieren! Um zu wissen, wie viele Zeilen (Zustände) und Spalten (Aktionen) wir verwenden sollen, müssen wir den Aktions- und Beobachtungsraum kennen. Wir kennen ihre Werte bereits von früher, aber wir wollen sie programmatisch erhalten, damit unser Algorithmus für verschiedene Umgebungen verallgemeinert werden kann. Gym bietet uns eine Möglichkeit, dies zu tun: `env.action_space.n` und `env.observation_space.n`


In [None]:
state_space =
print("There are ", state_space, " possible states")

action_space =
print("There are ", action_space, " possible actions")

In [None]:
# Let's create our Qtable of size (state_space, action_space) and initialized each values at 0 using np.zeros. np.zeros needs a tuple (a,b)
def initialize_q_table(state_space, action_space):
  Qtable =
  return Qtable

In [None]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

### Lösung

In [None]:
state_space = env.observation_space.n
print("There are ", state_space, " possible states")

action_space = env.action_space.n
print("There are ", action_space, " possible actions")

In [None]:
# Let's create our Qtable of size (state_space, action_space) and initialized each values at 0 using np.zeros
def initialize_q_table(state_space, action_space):
  Qtable = np.zeros((state_space, action_space))
  return Qtable

In [None]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

## Definieren Sie die gierige Policy 🤖.

Denken Sie daran, dass wir zwei Strategien haben, da Q-Learning ein **off-policy** Algorithmus ist. Das bedeutet, dass wir eine **unterschiedliche Strategie für das Handeln und die Aktualisierung der Wertfunktion** verwenden.

- Epsilon-Greedy-Strategie (handelnde Strategie)
- Greedy-Policy (AktualisierungsPolicy)

Die Greedy-Policy wird auch die endgültige Policy sein, die wir haben, wenn der Q-Learning-Agent das Training abgeschlossen hat. Die Greedy-Policy wird verwendet, um eine Aktion anhand der Q-Tabelle auszuwählen.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-4.jpg" alt="Q-Learning" width="100%"/>


In [None]:
def greedy_policy(Qtable, state):
  # Exploitation: take the action with the highest state, action value
  action =

  return action

#### Lösung

In [None]:
def greedy_policy(Qtable, state):
  # Exploitation: take the action with the highest state, action value
  action = np.argmax(Qtable[state][:])

  return action

## Definieren Sie die Epsilon-Greedy-Policy 🤖.

Epsilon-Greedy ist die Trainingsstrategie, die den Kompromiss zwischen Erkundung und Ausbeutung behandelt.

Die Idee mit Epsilon-Greedy:

- Mit *Wahrscheinlichkeit 1 - ɛ* : **wir machen Exploitation** (d.h. unser Agent wählt die Aktion mit dem höchsten Wert des Zustands-Aktionspaares).

- Mit *Wahrscheinlichkeit ɛ*: **Exploration** (wir versuchen eine zufällige Aktion).

Mit fortschreitendem Training wird der Epsilon-Wert schrittweise **verringert, da wir immer weniger Exploration und mehr Exploitation benötigen**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-4.jpg" alt="Q-Learning" width="100%"/>


In [None]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # Randomly generate a number between 0 and 1
  random_num =
  # if random_num > greater than epsilon --> exploitation
  if random_num > epsilon:
    # Take the action with the highest value given a state
    # np.argmax can be useful here
    action =
  # else --> exploration
  else:
    action = # Take a random action

  return action

#### Lösung

In [None]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # Randomly generate a number between 0 and 1
  random_num = random.uniform(0,1)
  # if random_num > greater than epsilon --> exploitation
  if random_num > epsilon:
    # Take the action with the highest value given a state
    # np.argmax can be useful here
    action = greedy_policy(Qtable, state)
  # else --> exploration
  else:
    action = env.action_space.sample()

  return action

## Definieren Sie die Hyperparameter ⚙️

Die Hyperparameter, die sich auf die Exploration beziehen, gehören zu den wichtigsten Parametern.

- Wir müssen sicherstellen, dass unser Agent **genug vom Zustandsraum erforscht**, um eine gute Wertannäherung zu lernen. Um dies zu erreichen, müssen wir einen progressiven Verfall von epsilon haben.
- Wenn man epsilon zu schnell verringert (zu hohe decay_rate), **geht man das Risiko ein, dass der Agent feststeckt**, da er den Zustandsraum nicht ausreichend erforscht hat und daher das Problem nicht lösen kann.

In [None]:
# Training parameters
n_training_episodes = 10000  # Total training episodes
learning_rate = 0.7          # Learning rate

# Evaluation parameters
n_eval_episodes = 100        # Total number of test episodes

# Environment parameters
env_id = "FrozenLake-v1"     # Name of the environment
max_steps = 99               # Max steps per episode
gamma = 0.95                 # Discounting rate
eval_seed = []               # The evaluation seed of the environment

# Exploration parameters
max_epsilon = 1.0             # Exploration probability at start
min_epsilon = 0.05            # Minimum exploration probability
decay_rate = 0.0005            # Exponential decay rate for exploration prob

## Erstellen Sie die Trainingsschleifenmethode

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>

Die Trainingsschleife sieht folgendermaßen aus:

```
Für eine Episode in der Gesamtheit der Trainingsepisoden:

Epsilon reduzieren (da wir immer weniger Erkundung brauchen)
Die Umgebung zurücksetzen

  Für Schritt in maximalen Zeitschritten:    
    Wählen Sie die Aktion At mit epsilon gierig Policy
    Ausführen der Aktion (a) und Beobachten des Ergebniszustands (s') und der Belohnung (r)
    Aktualisierung des Q-Wertes Q(s,a) unter Verwendung der Bellman-Gleichung Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
    Wenn fertig, beende die Episode
    Unser nächster Zustand ist der neue Zustand
```

In [None]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # Reduce epsilon (because we need less and less exploration)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # Reset the environment
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # repeat
    for step in range(max_steps):
      # Choose the action At using epsilon greedy policy
      action =

      # Take action At and observe Rt+1 and St+1
      # Take the action (a) and observe the outcome state(s') and reward (r)
      new_state, reward, terminated, truncated, info =

      # Update Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      Qtable[state][action] =

      # If terminated or truncated finish the episode
      if terminated or truncated:
        break

      # Our next state is the new state
      state = new_state
  return Qtable

#### Lösung

In [None]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # Reduce epsilon (because we need less and less exploration)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # Reset the environment
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # repeat
    for step in range(max_steps):
      # Choose the action At using epsilon greedy policy
      action = epsilon_greedy_policy(Qtable, state, epsilon)

      # Take action At and observe Rt+1 and St+1
      # Take the action (a) and observe the outcome state(s') and reward (r)
      new_state, reward, terminated, truncated, info = env.step(action)

      # Update Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      Qtable[state][action] = Qtable[state][action] + learning_rate * (reward + gamma * np.max(Qtable[new_state]) - Qtable[state][action])

      # If terminated or truncated finish the episode
      if terminated or truncated:
        break

      # Our next state is the new state
      state = new_state
  return Qtable

## Trainieren Sie den Q-Learning-Agenten 🏃.

In [None]:
Qtable_frozenlake = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_frozenlake)

## Mal sehen, wie unsere Q-Learning-Tabelle jetzt aussieht 👀.

In [None]:
Qtable_frozenlake

## Die Bewertungsmethode 📝

- Wir haben die Auswertungsmethode definiert, mit der wir unseren Q-Learning-Agenten testen werden.

In [None]:
def evaluate_agent(env, max_steps, n_eval_episodes, Q, seed):
  """
  Evaluate the agent for ``n_eval_episodes`` episodes and returns average reward and std of reward.
  :param env: The evaluation environment
  :param max_steps: Maximum number of steps per episode
  :param n_eval_episodes: Number of episode to evaluate the agent
  :param Q: The Q-table
  :param seed: The evaluation seed array (for taxi-v3)
  """
  episode_rewards = []
  for episode in tqdm(range(n_eval_episodes)):
    if seed:
      state, info = env.reset(seed=seed[episode])
    else:
      state, info = env.reset()
    step = 0
    truncated = False
    terminated = False
    total_rewards_ep = 0

    for step in range(max_steps):
      # Take the action (index) that have the maximum expected future reward given that state
      action = greedy_policy(Q, state)
      new_state, reward, terminated, truncated, info = env.step(action)
      total_rewards_ep += reward

      if terminated or truncated:
        break
      state = new_state
    episode_rewards.append(total_rewards_ep)
  mean_reward = np.mean(episode_rewards)
  std_reward = np.std(episode_rewards)

  return mean_reward, std_reward

## Bewerten Sie unseren Q-Learning-Agenten 📈

- Normalerweise sollte man eine mittlere Belohnung von 1,0 haben.
- Die **Umgebung ist relativ einfach**, da der Zustandsraum sehr klein ist (16). Man kann versuchen, sie durch die schlüpfrige Version zu ersetzen (https://gymnasium.farama.org/environments/toy_text/frozen_lake/), was Stochastizität einführt und die Umgebung komplexer macht.

In [None]:
# Evaluate our Agent
mean_reward, std_reward = evaluate_agent(env, max_steps, n_eval_episodes, Qtable_frozenlake, eval_seed)
print(f"Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")

## Veröffentliche unser trainiertes Modell auf dem Hub 🔥

Nun, da wir nach dem Training gute Ergebnisse gesehen haben, **können wir unser trainiertes Modell mit einer Zeile Code auf dem Hub 🤗 veröffentlichen**.

Hier ist ein Beispiel für eine Model Card:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/modelcard.png" alt="Modellkarte" width="100%"/>


Unter der Haube verwendet der Hub Git-basierte Repositories (keine Sorge, wenn Sie nicht wissen, was Git ist), was bedeutet, dass Sie das Modell mit neuen Versionen aktualisieren können, wenn Sie experimentieren und Ihren Agenten verbessern.

#### Dieser Code darf nicht verändert werden

In [None]:
from huggingface_hub import HfApi, snapshot_download
from huggingface_hub.repocard import metadata_eval_result, metadata_save

from pathlib import Path
import datetime
import json

In [None]:
def record_video(env, Qtable, out_directory, fps=1):
  """
  Generate a replay video of the agent
  :param env
  :param Qtable: Qtable of our agent
  :param out_directory
  :param fps: how many frame per seconds (with taxi-v3 and frozenlake-v1 we use 1)
  """
  images = []
  terminated = False
  truncated = False
  state, info = env.reset(seed=random.randint(0,500))
  img = env.render()
  images.append(img)
  while not terminated or truncated:
    # Take the action (index) that have the maximum expected future reward given that state
    action = np.argmax(Qtable[state][:])
    state, reward, terminated, truncated, info = env.step(action) # We directly put next_state = state for recording logic
    img = env.render()
    images.append(img)
  imageio.mimsave(out_directory, [np.array(img) for i, img in enumerate(images)], fps=fps)

In [None]:
def push_to_hub(
    repo_id, model, env, video_fps=1, local_repo_path="hub"
):
    """
    Evaluate, Generate a video and Upload a model to Hugging Face Hub.
    This method does the complete pipeline:
    - It evaluates the model
    - It generates the model card
    - It generates a replay video of the agent
    - It pushes everything to the Hub

    :param repo_id: repo_id: id of the model repository from the Hugging Face Hub
    :param env
    :param video_fps: how many frame per seconds to record our video replay
    (with taxi-v3 and frozenlake-v1 we use 1)
    :param local_repo_path: where the local repository is
    """
    _, repo_name = repo_id.split("/")

    eval_env = env
    api = HfApi()

    # Step 1: Create the repo
    repo_url = api.create_repo(
        repo_id=repo_id,
        exist_ok=True,
    )

    # Step 2: Download files
    repo_local_path = Path(snapshot_download(repo_id=repo_id))

    # Step 3: Save the model
    if env.spec.kwargs.get("map_name"):
        model["map_name"] = env.spec.kwargs.get("map_name")
        if env.spec.kwargs.get("is_slippery", "") == False:
            model["slippery"] = False

    # Pickle the model
    with open((repo_local_path) / "q-learning.pkl", "wb") as f:
        pickle.dump(model, f)

    # Step 4: Evaluate the model and build JSON with evaluation metrics
    mean_reward, std_reward = evaluate_agent(
        eval_env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"]
    )

    evaluate_data = {
        "env_id": model["env_id"],
        "mean_reward": mean_reward,
        "n_eval_episodes": model["n_eval_episodes"],
        "eval_datetime": datetime.datetime.now().isoformat()
    }

    # Write a JSON file called "results.json" that will contain the
    # evaluation results
    with open(repo_local_path / "results.json", "w") as outfile:
        json.dump(evaluate_data, outfile)

    # Step 5: Create the model card
    env_name = model["env_id"]
    if env.spec.kwargs.get("map_name"):
        env_name += "-" + env.spec.kwargs.get("map_name")

    if env.spec.kwargs.get("is_slippery", "") == False:
        env_name += "-" + "no_slippery"

    metadata = {}
    metadata["tags"] = [env_name, "q-learning", "reinforcement-learning", "custom-implementation"]

    # Add metrics
    eval = metadata_eval_result(
        model_pretty_name=repo_name,
        task_pretty_name="reinforcement-learning",
        task_id="reinforcement-learning",
        metrics_pretty_name="mean_reward",
        metrics_id="mean_reward",
        metrics_value=f"{mean_reward:.2f} +/- {std_reward:.2f}",
        dataset_pretty_name=env_name,
        dataset_id=env_name,
    )

    # Merges both dictionaries
    metadata = {**metadata, **eval}

    model_card = f"""
  # **Q-Learning** Agent playing1 **{env_id}**
  This is a trained model of a **Q-Learning** agent playing **{env_id}** .

  ## Usage

  ```python

  model = load_from_hub(repo_id="{repo_id}", filename="q-learning.pkl")

  # Don't forget to check if you need to add additional attributes (is_slippery=False etc)
  env = gym.make(model["env_id"])
  ```
  """

    evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

    readme_path = repo_local_path / "README.md"
    readme = ""
    print(readme_path.exists())
    if readme_path.exists():
        with readme_path.open("r", encoding="utf8") as f:
            readme = f.read()
    else:
        readme = model_card

    with readme_path.open("w", encoding="utf-8") as f:
        f.write(readme)

    # Save our metrics to Readme metadata
    metadata_save(readme_path, metadata)

    # Step 6: Record a video
    video_path = repo_local_path / "replay.mp4"
    record_video(env, model["qtable"], video_path, video_fps)

    # Step 7. Push everything to the Hub
    api.upload_folder(
        repo_id=repo_id,
        folder_path=repo_local_path,
        path_in_repo=".",
    )

    print("Your model is pushed to the Hub. You can view your model here: ", repo_url)

### .

Mit "push_to_hub" **werten Sie aus, zeichnen ein Replay auf, generieren eine Modellkarte Ihres Agenten und schieben sie an den Hub**.

This way:
- Sie können **unsere Arbeit vorführen** 🔥.
- Sie können **Ihren Agenten beim Spielen visualisieren** 👀
- Du kannst **einen Agenten mit der Community teilen, den andere nutzen können** 💾
- Sie können **auf eine Bestenliste zugreifen 🏆 um zu sehen, wie gut Ihr Agent im Vergleich zu Ihren Klassenkameraden abschneidet** 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard


Um Ihr Modell mit der Gemeinschaft teilen zu können, sind drei weitere Schritte erforderlich:

1️⃣ (Falls noch nicht geschehen) Erstellen Sie ein Konto für HF ➡ https://huggingface.co/join

2️⃣ Melde dich an und speichere dann dein Authentifizierungs-Token von der Hugging Face Website.
- Erstellen Sie ein neues Token (https://huggingface.co/settings/tokens) **mit Schreibrolle**


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/create-token.jpg" alt="HF-Token erstellen">


In [None]:
from huggingface_hub import notebook_login
notebook_login()

Wenn Sie kein Google Colab oder ein Jupyter Notebook verwenden möchten, müssen Sie stattdessen diesen Befehl verwenden: `huggingface-cli login` (oder `login`)

3️⃣ Wir sind jetzt bereit, unseren trainierten Agenten mit der Funktion "push_to_hub()" an den 🤗 Hub 🔥 zu senden.

- Erstellen wir **das Modellwörterbuch, das die Hyperparameter und die Q_table** enthält.

In [None]:
model = {
    "env_id": env_id,
    "max_steps": max_steps,
    "n_training_episodes": n_training_episodes,
    "n_eval_episodes": n_eval_episodes,
    "eval_seed": eval_seed,

    "learning_rate": learning_rate,
    "gamma": gamma,

    "max_epsilon": max_epsilon,
    "min_epsilon": min_epsilon,
    "decay_rate": decay_rate,

    "qtable": Qtable_frozenlake
}

Füllen wir die Funktion "push_to_hub":

- `repo_id`: der Name des Hugging Face Hub Repository, das erstellt/aktualisiert werden soll `
(repo_id = {Benutzername}/{repo_name})`
💡 Eine gute `repo_id` ist `{username}/q-{env_id}`
- model": unser Modellwörterbuch mit den Hyperparametern und der Q-Tabelle.
- `env`: die Umgebung.
- `commit_message`: die Nachricht der Übergabe

In [None]:
model

In [None]:
username = "" # FILL THIS
repo_name = "q-FrozenLake-v1-4x4-noSlippery"
push_to_hub(
    repo_id=f"{username}/{repo_name}",
    model=model,
    env=env)

Herzlichen Glückwunsch 🥳 Sie haben soeben Ihren ersten Reinforcement Learning Agent von Grund auf implementiert, trainiert und hochgeladen.
FrozenLake-v1 no_slippery ist eine sehr einfache Umgebung, versuchen wir eine schwierigere 🔥.

# Teil 2: Taxi-v3 🚖

## Erstellen und verstehen [Taxi-v3 🚕](https://gymnasium.farama.org/environments/toy_text/taxi/)
---

💡 Eine gute Angewohnheit, wenn du anfängst, eine Umgebung zu benutzen, ist es, ihre Dokumentation zu überprüfen.

👉 https://gymnasium.farama.org/environments/toy_text/taxi/

---

In `Taxi-v3` 🚕 gibt es vier bestimmte Orte in der Gitterwelt, die mit R(ed), G(reen), Y(ellow) und B(lue) bezeichnet werden.

Zu Beginn der Episode **startet das Taxi an einem zufälligen Platz** und der Fahrgast befindet sich an einem zufälligen Ort. Das Taxi fährt zum Standort des Fahrgastes, **nimmt den Fahrgast auf**, fährt zum Zielort des Fahrgastes (einem anderen der vier angegebenen Orte) und setzt den Fahrgast dann **ab**. Sobald der Fahrgast abgesetzt ist, endet die Episode.


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/taxi.png" alt="Taxi">


In [None]:
env = gym.make("Taxi-v3", render_mode="rgb_array")

Es gibt **500 diskrete Zustände, da es 25 Taxipositionen, 5 mögliche Standorte des Fahrgastes** (einschließlich des Falles, in dem sich der Fahrgast im Taxi befindet) und **4 Zielstandorte** gibt.


In [None]:
state_space = env.observation_space.n
print("There are ", state_space, " possible states")

In [None]:
action_space = env.action_space.n
print("There are ", action_space, " possible actions")

Der Aktionsraum (die Menge der möglichen Aktionen, die der Agent ausführen kann) ist diskret mit **6 verfügbaren Aktionen 🎮**:

- 0: nach Süden gehen
- 1: nach Norden ziehen
- 2: nach Osten ziehen
- 3: nach Westen fahren
- 4: Fahrgast aufnehmen
- 5: Fahrgast absetzen

Belohnungsfunktion 💰:

-1 pro Schritt, wenn keine andere Belohnung ausgelöst wird.
- +20 Fahrgast abliefern.
-10 Unerlaubtes Ausführen der Aktionen "Abholen" und "Absetzen".

In [None]:
# Create our Q table with state_size rows and action_size columns (500x6)
Qtable_taxi = initialize_q_table(state_space, action_space)
print(Qtable_taxi)
print("Q-table shape: ", Qtable_taxi .shape)

## Definieren Sie die Hyperparameter ⚙️

⚠ VERÄNDERN SIE NICHT EVAL_SEED: Das eval_seed-Array **ermöglicht es uns, Ihren Agenten mit denselben Taxistartpositionen für jeden Klassenkameraden zu bewerten**

In [None]:
# Training parameters
n_training_episodes = 25000   # Total training episodes
learning_rate = 0.7           # Learning rate

# Evaluation parameters
n_eval_episodes = 100        # Total number of test episodes

# DO NOT MODIFY EVAL_SEED
eval_seed = [16,54,165,177,191,191,120,80,149,178,48,38,6,125,174,73,50,172,100,148,146,6,25,40,68,148,49,167,9,97,164,176,61,7,54,55,
 161,131,184,51,170,12,120,113,95,126,51,98,36,135,54,82,45,95,89,59,95,124,9,113,58,85,51,134,121,169,105,21,30,11,50,65,12,43,82,145,152,97,106,55,31,85,38,
 112,102,168,123,97,21,83,158,26,80,63,5,81,32,11,28,148] # Evaluation seed, this ensures that all classmates agents are trained on the same taxi starting position
                                                          # Each seed has a specific starting state

# Environment parameters
env_id = "Taxi-v3"           # Name of the environment
max_steps = 99               # Max steps per episode
gamma = 0.95                 # Discounting rate

# Exploration parameters
max_epsilon = 1.0             # Exploration probability at start
min_epsilon = 0.05           # Minimum exploration probability
decay_rate = 0.005            # Exponential decay rate for exploration prob


## Trainieren Sie unseren Q-Learning-Agenten 🏃.

In [None]:
Qtable_taxi = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_taxi)
Qtable_taxi

## Erstellen Sie ein Modellwörterbuch 💾 und veröffentlichen Sie unser trainiertes Modell auf dem Hub 🔥.

- Wir erstellen ein Modell-Wörterbuch, das alle Trainings-Hyperparameter für die Reproduzierbarkeit und die Q-Tabelle enthalten wird.


In [None]:
model = {
    "env_id": env_id,
    "max_steps": max_steps,
    "n_training_episodes": n_training_episodes,
    "n_eval_episodes": n_eval_episodes,
    "eval_seed": eval_seed,

    "learning_rate": learning_rate,
    "gamma": gamma,

    "max_epsilon": max_epsilon,
    "min_epsilon": min_epsilon,
    "decay_rate": decay_rate,

    "qtable": Qtable_taxi
}

In [None]:
username = "" # FILL THIS
repo_name = "" # FILL THIS
push_to_hub(
    repo_id=f"{username}/{repo_name}",
    model=model,
    env=env)

Jetzt, wo es auf dem Hub ist, kannst du die Ergebnisse deines Taxi-v3 mit deinen Klassenkameraden in der Bestenliste vergleichen 🏆 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/taxi-leaderboard.png" alt="Taxi-Rangliste">

# Teil 3: Laden vom Hub 🔽.

Das Erstaunliche an Hugging Face Hub 🤗 ist, dass du ganz einfach leistungsstarke Modelle aus der Community laden kannst.

Das Laden eines gespeicherten Modells aus dem Hub ist wirklich einfach:

1. Du gehst auf https://huggingface.co/models?other=q-learning, um die Liste aller gespeicherten q-learning-Modelle zu sehen.
2. Sie wählen eines aus und kopieren seine repo_id

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/copy-id.png" alt="ID kopieren">

3. Dann müssen wir nur `load_from_hub` mit verwenden:
- Die Repo_id
- Der Dateiname: das gespeicherte Modell innerhalb der Repo.

#### Dieser Code darf nicht verändert werden

In [None]:
from urllib.error import HTTPError

from huggingface_hub import hf_hub_download


def load_from_hub(repo_id: str, filename: str) -> str:
    """
    Download a model from Hugging Face Hub.
    :param repo_id: id of the model repository from the Hugging Face Hub
    :param filename: name of the model zip file from the repository
    """
    # Get the model from the Hub, download and cache the model on your local disk
    pickle_model = hf_hub_download(
        repo_id=repo_id,
        filename=filename
    )

    with open(pickle_model, 'rb') as f:
      downloaded_model_file = pickle.load(f)

    return downloaded_model_file

### .

In [None]:
model = load_from_hub(repo_id="ThomasSimonini/q-Taxi-v3", filename="q-learning.pkl") # Try to use another model

print(model)
env = gym.make(model["env_id"])

evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

In [None]:
model = load_from_hub(repo_id="ThomasSimonini/q-FrozenLake-v1-no-slippery", filename="q-learning.pkl") # Try to use another model

env = gym.make(model["env_id"], is_slippery=False)

evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

## Einige zusätzliche Herausforderungen 🏆

Die beste Art zu lernen **ist, Dinge selbst auszuprobieren**! Wie Sie gesehen haben, ist der derzeitige Agent nicht besonders gut. Als ersten Vorschlag können Sie für mehr Schritte trainieren. Bei 1.000.000 Schritten haben wir tolle Ergebnisse gesehen!

In der [Rangliste] (https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard) findest du deine Agenten. Können Sie sich an die Spitze setzen?

Hier sind einige Ideen, um in der Rangliste aufzusteigen:

* Trainiere mehr Schritte
* Probiere verschiedene Hyperparameter aus, indem du dir ansiehst, was deine Klassenkameraden gemacht haben.
* Pushe dein neu trainiertes Modell** auf dem Hub 🔥.

Sind Ihnen das Laufen auf Eis und das Fahren von Taxis zu langweilig? Versuche, die **Umgebung** zu verändern, warum nicht die rutschige Version von FrozenLake-v1 benutzen? Schau dir an, wie sie funktionieren [mit Hilfe der Turnhallendokumentation] (https://gymnasium.farama.org/) und hab Spaß 🎉.

_____________________________________________________________________
Herzlichen Glückwunsch 🥳, Sie haben soeben Ihren ersten Reinforcement Learning Agent implementiert, trainiert und hochgeladen.

Das Verständnis von Q-Learning ist ein **wichtiger Schritt zum Verständnis wertbasierter Methoden**.

In der nächsten Einheit mit Deep Q-Learning werden wir sehen, dass das Erstellen und Aktualisieren einer Q-Tabelle zwar eine gute Strategie war - **aber nicht skalierbar ist.**

Stellen Sie sich zum Beispiel vor, Sie erstellen einen Agenten, der lernt, Doom zu spielen.

<img src="https://vizdoom.cs.put.edu.pl/user/pages/01.tutorial/basic.png" alt="Doom"/>

Doom ist eine große Umgebung mit einem riesigen Zustandsraum (Millionen von verschiedenen Zuständen). Das Erstellen und Aktualisieren einer Q-Tabelle für diese Umgebung wäre nicht effizient.

Deshalb werden wir uns in der nächsten Einheit mit Deep Q-Learning beschäftigen, einem Algorithmus, **bei dem wir ein neuronales Netz verwenden, das bei einem bestimmten Zustand die verschiedenen Q-Werte für jede Aktion annähert**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit4/atari-envs.gif" alt="Umgebungen"/>


Wir sehen uns in Referat 3! 🔥

## Lernt weiter, bleibt fantastisch 🤗