## Philosophie dieses Dokuments: Eine lebendige Werkbank

Dieses Dokument ist mehr als nur eine statische Beschreibung; es ist eine **aktive Werkbank** für die Weiterentwicklung des Agenten. Es dient drei Zielen:

1.  **Verstehen:** Es erklärt die aktuelle Architektur, die Ziele und die Funktionsweise des Systems.
2.  **Einordnen:** Es kontextualisiert das Projekt im Vergleich zu anderen Ansätzen und zeigt unsere spezifische Nische auf.
3.  **Planen:** Es dient als strategische Roadmap, in der wir Schwächen analysieren, Ideen sammeln und die nächsten konkreten Schritte zur Verbesserung des Agenten definieren.

**Wie Sie mit diesem Dokument arbeiten:**

Fühlen Sie sich ermutigt, hier direkt Anmerkungen, Ideen und Vorschläge zu hinterlassen. Nutzen Sie die Notiz-Vorlage, um Ihre Gedanken festzuhalten und dieses Dokument als gemeinsames, wachsendes Gehirn für die Agenten-Entwicklung zu nutzen.

---### Vorlage für persönliche Notizen:

```html
<div style="border: 2px solid #e53935; padding: 10px; background-color: #ffebee; border-radius: 5px; margin-top: 15px; margin-bottom: 15px;">
    <b style="color: #c62828;">Meine Notiz:</b>
    <p style="color: #d32f2f; margin-bottom: 0;">
        *Hier können Sie Ihre persönliche Notiz eintragen...*
    </p>
</div>
```
---

# Agent Development Plan
**Strategie und Roadmap für ein autonomes, lernendes Agenten-System**

**Version: 1.1.0** (Überarbeitung zur lebendigen Strategie-Datei)

## 1. Projektziele

Das Projekt verfolgt zwei miteinander verbundene Hauptziele:

1.  **Funktionale Autonomie:** Die Entwicklung eines Agenten, der komplexe, abstrakt definierte Aufgaben (z.B. "Erstelle ein Spiel") selbstständig in konkrete Schritte zerlegen, ausführen, testen und dokumentieren kann.

2.  **Evolutionäre Kompetenz (Lernfähigkeit):** Die Schaffung eines Systems, das mit jeder Aufgabe und jedem Fehler lernt und seine Fähigkeiten verbessert. Langfristig soll so ein immer fähigerer und robusterer autonomer Entwickler entstehen.

## 2. Kernarchitektur

Die Architektur basiert auf einem definierten Arbeitsablauf, klarer Versionierung, einem automatisierten Git-Workflow und einem strukturierten Lernmechanismus.

### 2.1 Arbeitsablauf: `agent_manual.md`

Das Herzstück des Agentenverhaltens ist im `agent_manual.md` definiert. Es schreibt einen strengen, testgetriebenen Entwicklungszyklus vor und fungiert als das "Betriebssystem" des Agenten.

### 2.2 Versionierung

Ein einfaches Versionierungssystem (`VERSION` und `.agent_version` Dateien) stellt die Nachvollziehbarkeit sicher, nach welchem "Rezept" ein Projekt erstellt wurde.

### 2.3 Git-Workflow: Automatische Feature-Commits

Jedes fertiggestellte Feature wird automatisch als atomarer, lokaler Commit gespeichert. Dies sorgt für eine saubere, nachvollziehbare Git-Historie.

### 2.4 Der Lernmechanismus: Incident-Knowledge-Loop

Der aktuelle Lernmechanismus ist ein erster Schritt zu einem intelligenten System. Er ist darauf ausgelegt, aus Fehlern zu lernen und dieses Wissen für zukünftige Projekte nutzbar zu machen.

#### Die zwei Ebenen des Lernens

Wie von Ihnen angemerkt, findet das Lernen auf zwei unterschiedlichen Ebenen statt, deren saubere Trennung und Verbindung entscheidend für den Erfolg ist:

**Ebene 1: Domänen-Wissen (Projekt-spezifisch)**
- **Was es ist:** Wissen über die spezifische Domäne eines Projekts. Beispiele: Wie implementiert man eine Schwerkraft-Physik für ein Jump'n'Run-Spiel? Wie authentifiziert man einen Benutzer über eine REST-API?
- **Wie es funktioniert:** Dieses Wissen wird aktuell im `knowledge_base`-Ordner in Form von `Incident Reports` gespeichert. Ein Fehler in *Spiel A* führt zu einem Eintrag, der bei der Planung von *Spiel B* konsultiert wird.
- **Ziel:** Die Vermeidung von wiederholten Fehlern innerhalb derselben Problem-Domäne.

**Ebene 2: Prozess-Wissen (Meta-Ebene)**
- **Was es ist:** Wissen darüber, *wie* man Software am besten entwickelt, unabhängig von der Domäne. Beispiele: Wie schreibt man gute, wartbare Tests? Wie strukturiert man ein Projektverzeichnis? Welche Refactoring-Techniken sind effektiv?
- **Wie es funktioniert:** Dieses Wissen wird aktuell in der zentralen `meta_learnings.md` und durch direkte Anpassungen am `agent_manual.md` erfasst. Es ist oft das Ergebnis einer manuellen Analyse der Agenten-Performance über mehrere Projekte hinweg.
- **Ziel:** Die kontinuierliche Verbesserung der Effizienz, Qualität und Robustheit des Agenten selbst.

#### Herausforderung und nächste Schritte

Die größte Herausforderung besteht darin, den Übergang von Ebene 1 zu Ebene 2 zu automatisieren. Aktuell ist menschliche Abstraktionsleistung nötig, um aus einem spezifischen Bug (z.B. "Kollisionserkennung ist fehlerhaft") eine allgemeine Prozessverbesserung (z.B. "Führe immer einen Test für Kantenfälle bei Kollisionen ein") abzuleiten. Ein zukünftiges System könnte versuchen, Muster in den `Incident Reports` zu erkennen, um selbstständig Vorschläge für die Anpassung des `agent_manual.md` zu machen.

## 3. Aktive Herausforderungen & Ideen-Backlog

Dies ist eine lebendige Liste unserer aktuellen Schwächen, formuliert als handlungsorientierte Herausforderungen.

**1. Reaktive Fehlererkennung (Der "blinde" Agent)**
- **Problem:** Der Agent kann nicht "sehen" oder "ausprobieren", ob seine erstellte Anwendung funktioniert. Er ist auf menschliches Feedback angewiesen.
- **Konkreter nächster Schritt:** Implementierung eines ersten, einfachen "Smoke-Tests" für Web-Projekte. Der Agent könnte via Playwright oder Puppeteer einen Headless Browser starten und prüfen, ob die JavaScript-Konsole Fehler ausgibt.

**2. Rudimentäre Wissens-Suche**
- **Problem:** Die Keyword-basierte Suche in der `knowledge_base` ist ungenau und kann konzeptionelle Ähnlichkeiten nicht erkennen.
- **Konkreter nächster Schritt:** Entwicklung eines Proof-of-Concept für die RAG-Implementierung (siehe Roadmap). Ein Skript könnte alle `.md`-Dateien im `knowledge_base`-Ordner einlesen, mit einem Embedding-Modell vektorisieren und in einer lokalen Vektor-Datenbank (z.B. ChromaDB) speichern.

**3. Begrenzte Test-Tiefe**
- **Problem:** TDD sichert die Logik, aber nicht die User Experience (UX) oder visuelle Aspekte.
- **Idee für die Zukunft:** Könnte ein VLM (Visual Language Model) Screenshots bewerten? Der Agent könnte einen Screenshot machen und dem VLM Fragen stellen wie: "Ist auf dieser Seite Text überlappend dargestellt?" oder "Sieht das Layout zerstört aus?"

**4. Fehlende Selbst-Reflexion über den Prozess**
- **Problem:** Der Agent folgt seinem `agent_manual.md` starr, auch wenn der Prozess ineffizient ist.
- **Idee für die Zukunft:** Einführung einer "Meta-Analyse"-Phase nach jedem Projekt. Der Agent könnte Metriken analysieren (z.B. "Wie viele Code-Änderungen waren nach dem ersten Test-Pass nötig?") und bei Abweichungen von der Norm eine Überprüfung des relevanten Prozess-Schritts vorschlagen.

## 4. Roadmap: Der Pfad zu größerer Autonomie

Basierend auf den Herausforderungen schlagen wir folgende Entwicklungs-Epics vor.

### 4.1 Epic 1: Proaktive Verifikation & Selbst-Korrektur

- **Ziel:** Der Agent soll die Fähigkeit erlangen, seine eigene Arbeit grundlegend zu überprüfen und einfache Fehler selbstständig zu erkennen.
- **Implementierungs-Skizze:**
    1. Erweitere den `agent_manual.md` um eine neue Phase: `7. Automated Verification`.
    2. Diese Phase wird nach der Implementierung aller Features ausgeführt.
    3. Für Web-Projekte führt der Agent einen Befehl aus (z.B. `npm run smoke-test`), der einen Headless Browser startet.
    4. Das Test-Skript prüft auf Ladefehler und Konsolen-Fehler.
    5. Wenn ein Fehler gefunden wird, erstellt der Agent selbstständig einen neuen `[BUG]`-Eintrag in der `roadmap.md` und startet einen Korrektur-Zyklus.
- **Offene Fragen & Risiken:** Wie stellen wir sicher, dass die Testumgebung (z.B. Node-Version, Abhängigkeiten) für den Headless-Test korrekt konfiguriert ist? Das Risiko besteht in einer komplexen und fehleranfälligen Konfiguration.

### 4.2 Epic 2: Implementierung eines echten RAG-Systems

- **Ziel:** Ersetzen der Keyword-Suche durch eine semantische Suche, um die Relevanz der abgerufenen Informationen drastisch zu erhöhen.
- **Implementierungs-Skizze:**
    1. **Indexing:** Erstelle ein Skript, das bei jeder Änderung im `knowledge_base`-Ordner die Markdown-Dateien liest, sie in Chunks aufteilt, vektorisiert und in einer lokalen ChromaDB-Instanz speichert.
    2. **Retrieval:** Passe den `agent_manual.md` an. In der Planungsphase formuliert der Agent seine Projektziele als semantische Suchanfrage.
    3. **Synthesis:** Die Top-k-Ergebnisse aus der Vektor-Datenbank werden dem LLM als zusätzlicher Kontext für die Erstellung der `roadmap.md` zur Verfügung gestellt.
- **Offene Fragen & Risiken:** Wie gut ist die Qualität der Suchergebnisse? Welches Embedding-Modell bietet den besten Kompromiss aus Leistung und Kosten? Das Risiko ist, dass schlechte Suchergebnisse zu schlechterer Planung führen.

### 4.3 Epic 3: Multi-Agenten-Architektur (Spezialisierung)

- **Ziel:** Übergang von einem "Generalisten"-Agenten zu einem Team von spezialisierten Agenten, um die Komplexität zu bewältigen und die Code-Qualität zu erhöhen.
- **Implementierungs-Skizze (Gedankenexperiment):**
    1. **`Projekt-Manager-Agent`:** Interagiert mit dem Benutzer, zerlegt die Aufgabe und pflegt die `roadmap.md`.
    2. **`Entwickler-Agent`:** Nimmt eine `[TODO]`-Aufgabe, schreibt den Code und die zugehörigen Tests.
    3. **`QA-Agent`:** Führt die Tests aus, führt die Verifikations-Phase durch und meldet Bugs an den Projekt-Manager.
    4. Die Kommunikation erfolgt über die `roadmap.md` und standardisierte Datei-Schnittstellen.
- **Offene Fragen & Risiken:** Der Kommunikations- und Koordinations-Overhead zwischen den Agenten ist die größte Herausforderung. Wie werden Konflikte gelöst? Wie wird sichergestellt, dass die Agenten ein gemeinsames Verständnis des Ziels haben?

## 5. Einordnung in die KI-Landschaft

Eine ehrliche Einordnung hilft uns, unsere Nische zu verstehen und unsere Stärken gezielt auszubauen.

### Unsere Nische: Prozess-getriebene vs. Open-Ended Agenten

Die aktuelle Forschung zu autonomen Agenten lässt sich grob in zwei Lager teilen. Wir positionieren uns bewusst in einem davon.

| Kriterium | Prozess-getriebener Ansatz (Dieses Projekt) | Open-Ended Ansatz (z.B. AutoGPT, GPT-Engineer) |
|---|---|---|
| **Grundprinzip** | Ein rigider, vordefinierter Prozess (`agent_manual.md`) strukturiert jeden Schritt des Agenten. | Der Agent erhält ein Ziel und eine Reihe von Werkzeugen und entscheidet bei jedem Schritt selbst, was als Nächstes zu tun ist. |
| **Vorteile** | **Vorhersehbar, robust, hohe Qualität.** Der Prozess erzwingt Best Practices wie TDD und Dokumentation. Die Ergebnisse sind nachvollziehbar und weniger anfällig für Zufall. | **Flexibel, kreativ, potenziell schnellere Lösungen.** Kann unerwartete Lösungswege finden und benötigt weniger menschliches Prozess-Engineering im Voraus. |
| **Nachteile** | **Weniger flexibel, langsamere Iteration.** Der Agent kann nicht von seinem Pfad abweichen. Änderungen am Prozess sind aufwändig. | **Anfällig für Schleifen, unvorhersehbar, oft geringere Code-Qualität.** Kann in Sackgassen geraten oder suboptimale, nicht wartbare Lösungen produzieren. |
| **Ideal für...** | **Komplexe Aufgaben, bei denen Qualität und Wartbarkeit entscheidend sind.** Erstellung von produktionsnahen Prototypen, Refactoring von Legacy-Code. | **Schnelle Exploration und einfache Aufgaben.** Generierung von Boilerplate-Code, Brainstorming von Lösungsansätzen. |

**Strategische Schlussfolgerung:** Unser Ziel ist nicht, den kreativsten oder schnellsten Agenten zu bauen, sondern den **zuverlässigsten und diszipliniertesten**. Wir sehen den `agent_manual.md` nicht als Krücke, sondern als das zentrale Asset, das wir schrittweise durch intelligentere, gelernte Fähigkeiten ersetzen.

## 6. Zukünftige Optimierung: Dynamische Modellauswahl

Eine weitere wichtige Dimension zur Optimierung ist die intelligente Nutzung der verfügbaren KI-Modelle. Nicht jede Aufgabe erfordert das leistungsstärkste Modell.

- **Konzept:** Aufgabenbasierte Modellzuweisung (z.B. Gemini Pro für Architektur, Gemini Flash für Dokumentation).
- **Implementierungsansatz:** Eine vorgeschaltete "Router"-Logik könnte Aufgaben anhand von Tags in der `roadmap.md` klassifizieren und an die entsprechende Modell-API weiterleiten.
- **Voraussetzung:** Die Inferenz-API muss den programmatischen Wechsel des Modells erlauben. Dies muss im Detail geprüft werden.