#

Prompt:
Ich bin Dozent für Reinforcement Learning und meine Studenten sind Ingenieure, die das Thema lernen wollen. Bitte erkläre die Methode XXX in einer einfachen strukturierten Art und weise auf die wesentlichen Punkte dieser Methode hin.

# Model Based Learing

### Grundidee
Der Agent lernt nicht nur eine Policy, sondern zusätzlich ein Modell der Umwelt:
- Transitionsmodell: Wie verändert sich der Zustand?
$$\hat {s}_{t+1}=f_{\theta }(s_t,a_t)$$
- Rewardmodell: Welcher Reward entsteht?
$$\hat {r}_t=g_{\theta }(s_t,a_t)$$
Mit diesem Modell kann der Agent in Gedanken simulieren, bevor er in der echten Umgebung handelt.
Merksatz
Model‑Based RL = Lernen + Planen. Der Agent baut sich seine eigene Welt im Kopf.


### Nutzen
- Weniger reale Interaktionen nötig → hohe Sample‑Effizienz
- Planung möglich → ähnlich wie MPC (Model Predictive Control)
- Sicherheit → riskante Aktionen können im Modell getestet werden
- Generalisation → das Modell kann für viele Policies wiederverwendet werden

### Die drei Hauptbausteine
(A) Modell lernen
Der Agent sammelt Daten und trainiert ein dynamisches Modell:
- oft neuronale Netze
- manchmal Ensembles (für Unsicherheit)
(B) Planung im Modell
Der Agent nutzt das Modell, um Aktionen zu simulieren:
- Rollouts
- Monte‑Carlo‑Planung
- Model Predictive Control
- Cross‑Entropy Method (CEM)
(C) Policy verbessern
Die Policy wird optimiert, indem sie im Modell ausprobiert wird:
- Policy‑Gradient im Modell
- Evolutionäre Suche
- Trajectory Optimization

### Typische Herausforderungen
Model‑Based RL ist mächtig, aber nicht trivial:
- Modellfehler akkumulieren sich bei langen Rollouts
- Unsicherheit muss berücksichtigt werden
- Planung kann rechenintensiv sein
- Trade‑off: kurze, zuverlässige Rollouts vs. lange, informative Rollouts

### Moderne, erfolgreiche Ansätze
Diese Methoden zeigen, wie gut Model‑Based RL heute funktioniert:
- Dreamer / DreamerV2 / DreamerV3
Weltmodell + Latent‑Space‑Planung
- MBPO (Model‑Based Policy Optimization)
Kurze Rollouts → sehr stabil
- PETS (Probabilistic Ensembles + Trajectory Sampling)
Unsicherheitsmodellierung über Ensembles
- PlaNet
Latent‑Space‑Dynamikmodell

### Kurzfassung
Model‑Based RL ist wie ein lernender MPC: Der Agent baut sich ein Modell der Welt und plant damit seine Aktionen, bevor er sie ausführt.

Der Agent lernt ein Modell der Umwelt und plant damit.
Beispiele
- Dyna‑Q
- MBPO (Model‑Based Policy Optimization)
- PETS (Probabilistic Ensembles with Trajectory Sampling)
- Dreamer / DreamerV2 / DreamerV3
- PlaNet
Warum interessant?
- Extrem sample‑effizient
- Ermöglicht Planung, Imagination, Rollouts im Modell
- Grundlage moderner Roboter‑RL‑Systeme


# Hierachical RL (HRL)

### Grundidee
Statt eine einzige Policy zu lernen, lernt der Agent eine Hierarchie von Policies:
- High‑Level Policy („Manager“)
- entscheidet was getan werden soll
- wählt Ziele, Subtasks oder „Options“
- Low‑Level Policies („Worker“)
- entscheiden wie das Ziel ausgeführt wird
- steuern konkrete Aktionen
Merksatz
HRL zerlegt komplexe Aufgaben in überschaubare Teilaufgaben – wie ein Ingenieur, der ein System in Module gliedert.


### Nutzen
- Komplexe Aufgaben werden beherrschbar
- Lange Zeithorizonte werden einfacher
- Wiederverwendbare Skills entstehen
- Effizientere Exploration durch strukturierte Subtasks
- Bessere Generalisierung auf neue Aufgaben

### Die zwei zentralen Konzepte
(A) Options / Skills / Sub‑Policies
Eine Option ist ein „Skill“, der aus drei Teilen besteht:
- Initiation Set: Wann darf der Skill gestartet werden
- Policy: Wie der Skill ausgeführt wird
- Termination Condition: Wann der Skill endet
Beispiele:
- „Greife nach Objekt“
- „Gehe zum Zielpunkt“
- „Steige eine Treppe hoch“
(B) High‑Level Controller
Der High‑Level‑Agent wählt:
- welchen Skill er ausführt
- wann er ihn wechselt
- welche Subziele verfolgt werden

### Typische Herausforderungen
HRL ist mächtig, aber bringt eigene Schwierigkeiten mit:
- Subziele müssen sinnvoll definiert werden
- Koordination zwischen Ebenen ist nicht trivial
- Credit Assignment über lange Zeithorizonte bleibt anspruchsvoll
- Training kann instabil sein, wenn Ebenen nicht harmonieren

### Moderne, erfolgreiche Ansätze
- Options Framework
Klassische Theorie für Skills und Sub‑Policies
- FeUdal Networks (FuN)
High‑Level gibt Zielvektoren vor, Low‑Level folgt ihnen
- HIRO (Hierarchical Reinforcement Learning with Off‑Policy Correction)
Sehr erfolgreich in kontinuierlichen Steuerungsaufgaben
- HAC (Hierarchical Actor‑Critic)
Mehrere Ebenen von Actor‑Critic‑Policies

### Kurzfassung

Hierarchical RL ist wie ein mehrschichtiges Steuerungssystem: oben wird geplant, unten wird ausgeführt.

Der Agent lernt auf mehreren Abstraktionsebenen.
Beispiele
- Options Framework
- FeUdal Networks (FuN)
- HIRO (Hierarchical Reinforcement Learning with Off‑policy Correction)
Warum interessant?
- Löst Langzeit‑Abhängigkeitsprobleme
- Ermöglicht Skills, Sub‑Policies, Macro‑Actions
- Sehr gut für Robotik und Navigation


# Meta Reinforcement Learning

### Grundidee
Meta‑RL versucht nicht nur eine Policy für eine Aufgabe zu lernen, sondern eine Policy, die sich schnell an neue Aufgaben anpassen kann.
Der Agent lernt also zwei Dinge:
- Meta‑Wissen: Wie man effizient lernt
- Task‑spezifisches Wissen: Wie man eine konkrete Aufgabe löst
Merksatz
Meta‑RL ist RL mit eingebauter Lernfähigkeit: Der Agent lernt, wie man lernt.


### Nutzen
- Schnelle Anpassung an neue Umgebungen
- Wenige Samples nötig (Few‑Shot Learning)
- Robustheit gegenüber Variationen in Dynamik oder Rewards
- Generalisation über viele Aufgaben hinweg
Das ist besonders relevant für Robotik, autonome Systeme und adaptive Steuerungen.

### Die zwei zentralen Ansätze
(A) Gradient‑basiertes Meta‑Learning (z. B. MAML‑RL)
Die Idee:
- Der Agent lernt Initialparameter, die sich mit wenigen Gradienten‑Schritten an eine neue Aufgabe anpassen lassen.
- Meta‑Training: viele Aufgaben → gemeinsame Startparameter
- Meta‑Test: neue Aufgabe → wenige Updates reichen
Vorteil: Sehr schnelle Anpassung
Nachteil: Rechenintensiv, empfindlich gegenüber Hyperparametern

(B) Recurrent / Memory‑based Meta‑RL (z. B. RL²)
Die Idee:
- Der Agent bekommt eine RNN‑Policy, die über Episoden hinweg Informationen speichert.
- Das RNN lernt, wie es aus Rewards und Beobachtungen die neue Aufgabe erkennt.
Vorteil: Keine expliziten Gradienten‑Updates nötig
Nachteil: Training kann instabil sein, da alles in der RNN‑Dynamik steckt

### Typische Herausforderungen
Meta‑RL ist mächtig, aber anspruchsvoll:
- Viele Trainingsaufgaben nötig, um Meta‑Wissen zu lernen
- Instabilität, wenn Aufgaben zu unterschiedlich sind
- Exploration muss intelligent sein, um die Aufgabe schnell zu erkennen
- Hohe Rechenlast bei gradient‑basierten Methoden

### Moderne, erfolgreiche Ansätze
- MAML‑RL (Model‑Agnostic Meta‑Learning)
Meta‑Gradienten für schnelle Anpassung
- RL² („RL‑Squared“) RNN‑Policy, die Lernen als Teil ihrer Dynamik implementiert
- PEARL Probabilistischer Kontext für schnelle Task‑Inference
- VariBAD Bayesianer Ansatz für Task‑Uncertainty

### Kurzfassung

Meta‑RL ist wie ein adaptiver Regler, der nicht nur die Regelung optimiert, sondern auch lernt, wie er sich bei neuen Aufgaben blitzschnell neu einstellt.

Der Agent lernt, wie man lernt.
Beispiele
- MAML‑RL (Model‑Agnostic Meta‑Learning)
- RL² (RL‑Squared)
- PEARL
Warum interessant?
- Schnell anpassbare Policies
- Wenige Samples für neue Aufgaben
- Grundlage für „Generalist Agents“


# Offline/Batch RL

### Grundidee
Offline RL (auch Batch RL) bedeutet:
Der Agent lernt ausschließlich aus aufgezeichneten Daten,
ohne jemals mit der echten Umgebung zu interagieren.
Die Daten stammen z. B. aus:
- Logfiles eines Roboters
- Fahrdaten eines autonomen Fahrzeugs
- Produktionsdaten aus einer Anlage
- Demonstrationen von Experten
Merksatz
Offline RL ist RL ohne Exploration – der Agent lernt nur aus vorhandenen Daten.


### Nutzen
- Sicherheit: Keine riskanten Aktionen im echten System
- Kostenersparnis: Keine teuren Interaktionen (Robotik, Industrieanlagen)
- Nutzung vorhandener Daten: Wie im klassischen Machine Learning
- Industrie‑tauglich: Besonders relevant für Medizin, Fertigung, autonome Systeme
Offline RL ist damit eine Brücke zwischen kontrollierter Datenverarbeitung und lernenden Steuerungen.

### Die zentrale Herausforderung
Der Agent darf keine Aktionen ausprobieren, die nicht im Datensatz vorkommen.
Das führt zu zwei Problemen:
(A) Distribution Shift
Die Policy erzeugt Aktionen, die außerhalb der Datenverteilung liegen → das Q‑Modell extrapoliert falsch.
(B) Overestimation
Q‑Funktionen neigen dazu, unbekannte Aktionen zu überschätzen → führt zu instabilen Policies.
Merksatz
Offline RL scheitert nicht am Lernen, sondern an falschen Schätzungen für nie gesehene Aktionen.


### Die drei Lösungsstrategien
(A) Conservative Learning
Die Q‑Funktion wird absichtlich „vorsichtig“ gemacht:
- CQL (Conservative Q‑Learning)
Bestraft Q‑Werte für nicht beobachtete Aktionen
(B) Action Constraints
Die Policy wird gezwungen, nahe an den Daten zu bleiben:
- BCQ (Batch‑Constrained Q‑Learning)
Policy darf nur Aktionen wählen, die ein generatives Modell als „wahrscheinlich“ einstuft
- BEAR
Minimiert die KL‑Distanz zur Daten‑Policy
(C) Implicit Methods
Die Policy wird indirekt aus den Daten gelernt:
- IQL (Implicit Q‑Learning)
Sehr stabil, da keine explizite Policy‑Constraint nötig ist

### Moderne, erfolgreiche Ansätze
- BCQ
Verhindert Out‑of‑Distribution‑Aktionen
- CQL
Konservativer Q‑Lerner, sehr robust
- IQL
State‑of‑the‑art für viele Offline‑Benchmarks
- AWAC
Kombination aus Advantage‑Learning und Behavior Cloning
- Decision Transformers
Transformer‑basierte Sequenzmodelle für Offline RL

### Kurzfassung
Offline RL ist wie das Trainieren eines Reglers nur aus historischen Daten — ohne jemals das echte System zu berühren.

Der Agent lernt ausschließlich aus aufgezeichneten Daten – ohne Interaktion.
Beispiele
- BCQ (Batch‑Constrained Q‑Learning)
- CQL (Conservative Q‑Learning)
- IQL (Implicit Q‑Learning)
Warum interessant?
- Relevanz für Industrie (Robotik, Medizin, autonome Fahrzeuge)
- Kein Risiko durch Exploration
- Nutzt große Datensätze wie supervised learning


# Multi-Agent Reinforcement Learning

### Grundidee
Statt nur einen Agenten zu trainieren, lernen mehrere Agenten gleichzeitig, die:
- kooperieren,
- konkurrieren,
- oder gemischte Ziele verfolgen.
Jeder Agent hat:
- eigene Beobachtungen
- eigene Aktionen
- eigene (oder gemeinsame) Rewards
Merksatz
MARL ist RL für Systeme mit mehreren intelligenten Akteuren, die miteinander interagieren.


### Nutzen
- Realistische Modellierung komplexer Systeme
- Koordination zwischen Robotern, Fahrzeugen oder Maschinen
- Skalierbarkeit auf große verteilte Systeme
- Robustheit durch dezentrale Entscheidungen
MARL ist damit ein Schlüsselkonzept für moderne autonome Systeme.

### Die drei zentralen Herausforderungen
(A) Non‑Stationarity
Während ein Agent lernt, ändern sich die Policies der anderen → die Umgebung ist nicht mehr stationär.
(B) Credit Assignment
Wie verteilt man den Reward fair auf mehrere Agenten?
(C) Skalierbarkeit
Mehr Agenten → exponentiell mehr Interaktionen → Lernprozess wird komplex.
Merksatz
In MARL ist die Welt ständig in Bewegung, weil alle gleichzeitig lernen.


### Die wichtigsten Lösungsansätze
(A) Centralized Training, Decentralized Execution (CTDE)
Während des Trainings:
- alle Agenten teilen Informationen
- ein zentrales Modell hilft beim Lernen
Während der Ausführung:
- jeder Agent handelt autonom
- keine zentrale Instanz nötig
Beispiele: QMIX, MADDPG, MAPPO

(B) Value Decomposition
Der gemeinsame Team‑Reward wird in individuelle Beiträge zerlegt.
Beispiele:
- VDN (Value Decomposition Networks)
- QMIX (monotone Zerlegung)

(C) Opponent Modeling
Agenten lernen Modelle der anderen Agenten:
- Vorhersage ihrer Aktionen
- Strategische Anpassung
Beispiele:
- LOLA (Learning with Opponent‑Learning Awareness)

(D) Kommunikation zwischen Agenten
Agenten lernen, Informationen auszutauschen:
- explizite Nachrichten
- latente Kommunikationskanäle
Beispiele:
- CommNet
- DIAL (Differentiable Inter-Agent Learning)

### Moderne, erfolgreiche MARL‑Methoden
- MADDPG
Multi‑Agent‑Version von DDPG, sehr beliebt in kontinuierlichen Umgebungen
- QMIX
Wertzerlegung für kooperative Teams
- MAPPO
Multi‑Agent‑Variante von PPO, sehr stabil
- VDN
Einfache additive Zerlegung von Team‑Rewards
- HATRPO / HAPPO
Trust‑Region‑Methoden für Multi‑Agent‑Settings

### Kurzfassung

Multi‑Agent RL ist wie ein Team aus autonomen Reglern, die gleichzeitig lernen, miteinander zu kooperieren oder zu konkurrieren.

Mehrere Agenten interagieren, kooperieren oder konkurrieren.
Beispiele
- MADDPG (Multi‑Agent DDPG)
- QMIX
- VDN (Value Decomposition Networks)
- MAPPO (Multi‑Agent PPO)
Warum interessant?
- Modelliert reale Systeme: Verkehr, Roboterschwärme, Spiele
- Komplexe Dynamiken: Kooperation, Konkurrenz, Kommunikation


# Imitation Learning und Inverse Learning

Imitation Learning & Inverse Reinforcement Learning – Die Essenz in klarer Struktur
### Grundidee
Beide Methoden nutzen Demonstrationen eines Experten, z. B.:
- Fahrdaten eines menschlichen Fahrers
- Bewegungen eines Roboters
- Bedienabläufe einer Maschine
Der Unterschied:
- Imitation Learning (IL):
Der Agent lernt direkt das Verhalten des Experten nachzuahmen.
- Inverse Reinforcement Learning (IRL):
Der Agent versucht zuerst herauszufinden, welche Belohnungsfunktion der Experte optimiert hat — und lernt dann selbst.
Merksatz
IL imitiert das Verhalten. IRL rekonstruiert die Motivation.


### Nutzen
- Keine gefährliche Exploration nötig
- Schnelles Lernen aus vorhandenen Daten
- Einfacher Einstieg in RL für reale Systeme
- Übertragbarkeit von Expertenwissen auf autonome Systeme
Besonders relevant für Robotik, autonome Fahrzeuge, Fertigung, Medizin.

### Imitation Learning (IL)
#### Grundidee
Der Agent lernt eine Policy, die möglichst gut die Expertenaktionen reproduziert.
Zwei Hauptformen:
(A) Behavior Cloning (BC)
- Supervised Learning:
$$\pi (a|s)\approx \pi _{\mathrm{Expert}}(a|s)$$
- Einfach, schnell, aber anfällig für Fehlerakkumulation.
(B) DAgger (Dataset Aggregation)
- Der Agent sammelt eigene Daten
- Der Experte korrigiert Fehler
- Sehr robust, deutlich besser als BC
Vorteile
- Sehr einfach
- Keine RL‑Instabilitäten
- Funktioniert gut bei klaren Demonstrationen
Nachteile
- Kein Verständnis der Zielsetzung
- Fehler verstärken sich über Zeit (bei BC)

### Inverse Reinforcement Learning (IRL)
#### Grundidee
Der Agent versucht herauszufinden:
Welche Belohnungsfunktion muss der Experte optimiert haben, damit sein Verhalten optimal erscheint?

Erst danach wird eine Policy gelernt.
Warum das sinnvoll ist?
- Experten demonstrieren oft Ziele, nicht nur Aktionen
- IRL extrahiert Motivation, nicht nur Verhalten
- Dadurch kann der Agent besser generalisieren
Wichtige Methoden:
(A) MaxEnt IRL (Maximum Entropy IRL)
- Beliebteste klassische Methode
- Sucht die Reward‑Funktion, die das Expertenverhalten am wahrscheinlichsten macht
(B) AIRL (Adversarial IRL)
- Nutzt GAN‑ähnliche Architektur
- Sehr leistungsfähig, gut für komplexe Umgebungen
(C) GAIL (Generative Adversarial Imitation Learning)
- Verbindet IL und IRL
- Lernt direkt eine Policy, ohne explizite Reward‑Funktion
- Sehr erfolgreich in Robotik‑Benchmarks

### Typische Herausforderungen
Imitation Learning
- Fehlerakkumulation
- Schlechte Generalisierung außerhalb der Demonstrationen
Inverse RL
- Reward‑Identifikation ist oft nicht eindeutig
- Rechenintensiv
- Benötigt viele Demonstrationen

### Moderne, erfolgreiche Ansätze
- GAIL
GAN‑basiertes Imitation Learning, sehr stabil
- AIRL
Liefert explizite Reward‑Funktionen
- BC + RL Fine‑Tuning
Erst imitieren, dann optimieren
- Diffusion‑based Imitation Learning
Moderne generative Modelle für komplexe Bewegungen

### Kurzfassung

Imitation Learning kopiert das Verhalten eines Experten, während Inverse RL versucht zu verstehen, warum der Experte so handelt — und daraus eine eigene optimale Policy ableitet.

Der Agent lernt aus Demonstrationen.
Beispiele
- GAIL (Generative Adversarial Imitation Learning)
- AIRL (Adversarial Inverse RL)
- DAgger
Warum interessant?
- Sehr praxisrelevant (Robotik, autonome Systeme)
- Weniger Trial‑and‑Error
- Verbindung zu Supervised Learning


# Generalists / Foundation RL

### Grundidee
Generalist RL verfolgt das Ziel, einen einzigen Agenten zu trainieren, der:
- viele verschiedene Aufgaben lösen kann
- in verschiedenen Umgebungen
- mit verschiedenen Modalitäten (Bilder, Text, Aktionen, Sprache, Roboterbefehle)
- ohne für jede Aufgabe neu trainiert zu werden
Der Agent wird also nicht für eine Aufgabe optimiert, sondern für eine ganze Klasse von Aufgaben.
Merksatz
Generalist RL ist ein universeller Agent, der viele Aufgaben beherrscht — ähnlich wie ein Mensch.


### Nutzen
- Ein Modell für viele Aufgaben statt viele spezialisierte Modelle
- Transferfähigkeit zwischen Aufgaben
- Robustheit gegenüber Variationen
- Skalierbarkeit durch große Datensätze
- Realwelt‑Tauglichkeit für Robotik, autonome Systeme, Fertigung
Generalist RL ist ein Schritt in Richtung General Intelligence im technischen Sinne.

### Die drei zentralen Prinzipien
(A) Multi‑Task Learning
Der Agent wird gleichzeitig auf vielen Aufgaben trainiert:
- Navigation
- Greifen
- Manipulation
- Spiele
- Sprachbefehle
Dadurch lernt er generelle Strategien, nicht nur Speziallösungen.

(B) Multi‑Modalität
Generalist Agents verarbeiten verschiedene Eingaben:
- Bilder
- Text
- Sensordaten
- Aktionssequenzen
- Sprache
Und erzeugen verschiedene Ausgaben:
- Aktionen
- Text
- Steuerbefehle

(C) Sequenzmodellierung
Viele Generalist‑Ansätze nutzen Transformer‑Modelle, die RL als Sequenzproblem formulieren:
- Zustand → Aktion → Reward → nächster Zustand
- Alles wird als Token‑Sequenz behandelt
Das ermöglicht:
- große Datensätze
- einheitliche Architektur
- starke Generalisierung

### Typische Herausforderungen
(A) Datenvielfalt
Generalist Agents benötigen riesige, diverse Datensätze.
(B) Skalierung
Training ist rechenintensiv und erfordert große Modelle.
(C) Konsistenz
Der Agent muss lernen, wann welche Fähigkeit relevant ist.
(D) Sicherheit
Generalist Agents müssen zuverlässig und vorhersehbar handeln.

### Moderne, erfolgreiche Ansätze
(A) Gato (DeepMind)
- Ein Modell für 600+ Aufgaben
- Steuerung von Robotern, Spielen, Textverarbeitung
- Transformer‑basiert
(B) RT‑1 / RT‑2 (Google Robotics Transformer)
- Roboter, die aus multimodalen Daten lernen
- RT‑2 verbindet Vision, Sprache und Aktionen
- Sehr leistungsfähig in realen Robotik‑Tasks
(C) Decision Transformer
- RL als Sequenzmodellierung
- Kein Value‑Learning nötig
- Funktioniert gut in Offline‑RL‑Settings
(D) Generalist Agents für Spiele
- Multi‑Game‑Agents
- Multi‑Modal‑Policies
- Zero‑shot‑Transfer zwischen Spielen

### Kurzfassung

Generalist RL ist wie ein universeller Steuerungsagent, der aus vielen Aufgaben lernt und sein Wissen flexibel auf neue Situationen überträgt.

Große Modelle, die viele Aufgaben gleichzeitig lösen.
Beispiele
- Gato (DeepMind)
- RT‑1 / RT‑2 (Google Robotics Transformer)
- OpenAI Gym‑Generalist Agents
Warum interessant?
- Verbindung von RL, Transformers und großen Datensätzen
- Richtung „General Intelligence“


# Übersicht
| Kategorie | Beispiele | Kernidee | Nutzen |
|----------|-----------|----------|--------|
| Model‑Based RL | Dreamer, MBPO, PETS | Weltmodell + Planung | Sample‑Effizienz, Robotik |
| Distributional RL | C51, QR‑DQN, IQN | Return‑Verteilung statt Erwartungswert | Stabilität, Exploration |
| Hierarchical RL | Options, HIRO, FuN | Skills, Sub‑Policies | Langzeitplanung |
| Meta‑RL | MAML‑RL, RL², PEARL | Lernen zu lernen | Schnell adaptierbare Policies |
| Offline RL | BCQ, CQL, IQL | Lernen aus Daten ohne Interaktion | Industrie‑relevant |
| Multi‑Agent RL | MADDPG, QMIX, MAPPO | Mehrere Agenten | Kooperation/Konkurrenz |
| Exploration | RND, ICM, Go‑Explore | Intrinsische Motivation | Sparse Rewards |
| Imitation / IRL | GAIL, AIRL, DAgger | Lernen aus Demonstrationen | Robotik, autonome Systeme |
| Generalist RL | Gato, RT‑2 | Multi‑Task‑Agents | Richtung AGI |

# Evolutionary Learning