![My Image](https://raw.githubusercontent.com/ralf-42/Image/main/genai-banner-2.jpg)

<p><font size="5" color='grey'> <b> Chat & Memory </b></font> </br></p>

---

In [None]:
#@title üîß Umgebung einrichten{ display-mode: "form" }
!uv pip install --system -q git+https://github.com/ralf-42/Python_Modules
from genai_lib.utilities import check_environment, get_ipinfo, setup_api_keys, mprint, install_packages
setup_api_keys(['OPENAI_API_KEY', 'HF_TOKEN'], create_globals=False)
print()
check_environment()
print()
get_ipinfo()
# Bei Bedarf: Trennen zwischen Installationsname () und Importname (f√ºr Python) beide Angaben in Klammern
# install_packages([('markitdown[all]', 'markitdown'), 'langchain_chroma', ]

# 1 | Intro
---


Ein Gespr√§ch mit jemandem zu f√ºhren, der nach jedem Satz vergisst, was zuvor gesagt wurde, w√§re √§u√üerst frustrierend. Genau dieses Problem l√∂st **Memory** in der K√ºnstlichen Intelligenz.

**Warum braucht KI ein Ged√§chtnis?**

Large Language Models wie GPT sind von Natur aus **zustandslos** ‚Äì sie verf√ºgen √ºber kein eingebautes Ged√§chtnis. Jede Anfrage wird isoliert verarbeitet, ohne Bezug zu vorherigen Interaktionen. F√ºr sinnvolle Gespr√§che und intelligente Assistenten ist dies jedoch unbrauchbar.


Dieses Kapitel behandelt drei fundamentale Memory-Typen ‚Äì vom einfachen Zwischenspeicher bis zu ausgekl√ºgelten Wissensdatenbanken. Dabei werden konkrete Technologien und Implementierungsans√§tze vorgestellt, die sich unmittelbar in eigenen Projekten einsetzen lassen.



Die folgenden Abschnitte f√ºhren systematisch durch die Welt von Chat & Memory und deren praktische Anwendung.


[Kontextfenster](https://editor.p5js.org/ralf.bendig.rb/full/tLnUgyZRK)

| Typ               | Beschreibung                  | Beispiel                                                           | Technologie - Beispiele                                                     | Speicherort      |
| ----------------- | ----------------------------- | ------------------------------------------------------------------ | --------------------------------------------------------------------------- | ---------------- |
| Kurzzeit-Memory<br> (tempor√§r) | Innerhalb einer Sitzung       | ChatGPT erinnert sich an das, was du vor 3 Nachrichten gesagt hast | `Python Liste`<br><br>`ConversationBufferMemory`<br><br>`ConversationSummaryMemory` | nur im RAM       |
| Langzeit-Memory   | √úber mehrere Sitzungen hinweg | KI merkt sich deinen Namen, Interessen etc.                        | JSON-Datei + `ConversationChain`                                            | Festplatte       |
| Externes Memory   | Via Datenbanken, Dateien etc. | RAG-Systeme, Notizsysteme                                          | `Chroma` + `RetrievalQA`                                                    | Wissensdatenbank |

# 2 | Kurzzeit-Memory
---

Tempor√§res Memory bildet die Grundlage jeder KI-Konversation. Es speichert den unmittelbaren Gespr√§chsverlauf einer Sitzung und erm√∂glicht es der KI, auf vorherige Nachrichten Bezug zu nehmen.
Funktionsweise
Das System h√§lt die letzten Nachrichten im Arbeitsspeicher vor und f√ºgt sie bei jeder neuen Anfrage als Kontext hinzu. Dadurch entsteht der Eindruck eines zusammenh√§ngenden Gespr√§chs, obwohl das zugrundeliegende Modell weiterhin zustandslos arbeitet.

## 2.1 | Python Liste

In [None]:
# Importe
from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage, AIMessage, SystemMessage
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers.string import StrOutputParser

In [None]:
# Konstanten & Propmpt-Template
model_name = "gpt-4o-mini"
temperature = 0

system_prompt = "Du bist ein hilfreicher und humorvoller KI-Assistent"

# Die Chat-Prompt definieren mit drei Variablen: system_prompt, chat_history, question
prompt = ChatPromptTemplate.from_messages([
    ("system", "{system_prompt}"),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{user_input}")
])

In [None]:
# LLM definieren
llm = ChatOpenAI(model=model_name, temperature=temperature)

# Parser
parser = StrOutputParser()

# Die Konversationskette definieren
chain = prompt | llm | parser

In [None]:
# Funktion definieren
def interact_with_ai(system_prompt, chat_history, user_input):
    """F√ºhrt eine einzelne Interaktion mit der KI durch."""

    # Aufruf der Kette
    parameter = {
        'system_prompt': system_prompt,
        'chat_history': chat_history,
        'user_input': user_input
    }
    response = chain.invoke(parameter)

    # Ausgabe
    mprint("### üßë‚Äçü¶± Mensch:")
    mprint(user_input)

    mprint("### ü§ñ KI:")
    mprint(response)

    # Memory-Management
    chat_history.extend([
        HumanMessage(content=user_input),
        AIMessage(content=response)
    ])

    return chat_history

In [None]:
# Abschnitt 5: Hauptprogramm

# Historie wird initialisiert
chat_history = [SystemMessage(content=system_prompt)]

# Liste mit user-input
user_input = "Mein Name ist Ralf"
interact_with_ai(system_prompt, chat_history, user_input)

# Liste mit user-input
user_input = "Hast Du Dir meinen Namen gemerkt?"
interact_with_ai(system_prompt, chat_history, user_input)

In [None]:
# Python Liste
chat_history

## 2.2 | CoversationBufferMemory

In [None]:
# Importe LangChain
from langchain_openai import ChatOpenAI
from langchain.memory import ConversationBufferMemory, ConversationSummaryMemory
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers.string import StrOutputParser

In [None]:
# Tempor√§rer Speicher & Prompt-Template & Parser
memory = ConversationBufferMemory(return_messages=True)

# Prompt-Vorlage mit Platzhalter f√ºr den bisherigen Chat-Verlauf
prompt = ChatPromptTemplate.from_messages([
    ('system', "Du bist ein hilfreicher und humorvoller KI-Assistent"),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{user_input}")
])

In [None]:
# LLM & Chain definieren
model_name = "gpt-4o-mini"
temperature = 0
llm = ChatOpenAI(model=model_name, temperature=temperature)

# Parser
parser = StrOutputParser()

chain = prompt | llm | parser

In [None]:
# Beispiel-Interaktionen

# 1. Eingabe speichern
user_input = "Hallo, ich bin Ralf."

parameter = {}
parameter['chat_history'] = memory.chat_memory.messages
parameter['user_input'] = user_input
response = chain.invoke(parameter)

mprint(f">>ü§ñ {response}")

memory.chat_memory.add_user_message(user_input)
memory.chat_memory.add_ai_message(response)

In [None]:
# 2. Folgeeingabe
user_input = "Wei√üt du noch, wie ich hei√üe?",

parameter = {}
parameter['chat_history'] = memory.chat_memory.messages
parameter['user_input'] = user_input
response = chain.invoke(parameter)

mprint(response)

memory.chat_memory.add_user_message(user_input)
memory.chat_memory.add_ai_message(response)

In [None]:
# Memory
memory.chat_memory.messages

## 2.3 | ConversationSummaryMemory

In [None]:
# Memory & Propmt-Template & Parser
memory = ConversationSummaryMemory(llm=llm, return_messages=True)

# # Prompt mit chat_history-Placeholder!
# prompt = ChatPromptTemplate.from_messages([
#     ('system', "Du bist ein hilfreicher und humorvoller KI-Assistent."),
#     MessagesPlaceholder(variable_name="chat_history"),
#     ("human", "{user_input}")
# ])

In [None]:
# Chain (manuell gebaut)
# chain = prompt | llm | parser

In [None]:
# Interaktion mit Memory-Nutzung
def interact_with_ai(memory, input):
    # Verlauf laden
    history_vars = memory.load_memory_variables({})

    # Ausgabe anzeigen
    mprint(f"###üßë‚Äçü¶± Mensch:\n {user_input}")

    # Chain mit Kontext aus Memory aufrufen
    parameter = {}
    parameter['chat_history'] = history_vars["history"]
    parameter['user_input'] = user_input
    response = chain.invoke(parameter)


    # response = chain.invoke({
    #     "input": question,
    #     "chat_history": history_vars["history"]
    # })

    mprint(f"### ü§ñ KI:\n {response}\n")

    # neuen Dialog abspeichern
    memory.save_context({"input": input}, {"output": response})

In [None]:
# Test-Dialog
user_input_list = [
    "Mein Name ist Ralf",
    "Warum ist der Himmel blau?",
    "Warum ist er manchmal rot?",
    "Wie hei√üe ich?"
]

for user_input in user_input_list:
    interact_with_ai(memory, user_input)

In [None]:
# Summary
memory.load_memory_variables({})['history']

# 3 | Langzeit-Memory
---

Ein Langzeit-Memory erm√∂glicht es einer KI, √ºber mehrere Sitzungen hinweg Informationen zu behalten ‚Äì √§hnlich wie ein Mensch sich an fr√ºhere Gespr√§che oder Fakten erinnert.

In [None]:
# Import LangChain
from langchain.memory import ConversationBufferMemory
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from langchain.schema import messages_to_dict

# Import Dateiformat
import json

In [None]:
# Funktionen f√ºr Memory-Verwaltung & Chat
def load_memory():
    """L√§dt gespeicherte Chat-Historie aus JSON-Datei"""
    try:
        with open("chat_memory.json", "r") as f:
            return messages_from_dict(json.load(f))
    except:
        return []


def save_memory(messages):
    """Speichert Chat-Historie in JSON-Datei"""
    with open("chat_memory.json", "w") as f:
        json.dump(messages_to_dict(messages), f)


def chat(memory, chain):
    """ Hauptfunktion f√ºr den Chat """

    print("ü§ñ Chat gestartet. 'exit' zum Beenden.\n")

    # Chat-Schleife
    while True:
        user_input = input("üßë Frage: ")

        # Exit-Bedingung pr√ºfen
        if user_input.lower() in ["exit", "quit"]:
            print("üëã Tsch√ºss!")
            break

        # Antwort generieren
        response = chain.invoke({
            "user_input": user_input,
            "chat_history": memory.chat_memory.messages
        })

        print(f"ü§ñ {response}\n")

        # Memory aktualisieren und speichern
        memory.save_context({"user_input": user_input}, {"output": response})
        save_memory(memory.chat_memory.messages)

In [None]:
# Memory initialisieren und laden
memory = ConversationBufferMemory(return_messages=True)
memory.chat_memory.messages = load_memory()

# Prompt-Template erstellen
prompt = ChatPromptTemplate.from_messages([
    ("system", "Du bist ein hilfreicher Assistent."),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{user_input}")
])

# Modell initialisieren
llm = ChatOpenAI(temperature=0)

# Parser erstellen
parser = StrOutputParser()

# Chain aus Komponenten zusammensetzen
chain = prompt | llm | parser

In [None]:
# Chat - Teil 1
chat(memory, chain)

In [None]:
# Chat - Teil 2
chat(memory, chain)

[json-Formatter](https://jsonformatter.info/)

# 4 | Externes Memory
---


Ein externes Memory bedeutet, dass sich ein KI-System nicht alles selbst merken muss, sondern bei Bedarf Wissen von au√üen abruft. Das wird h√§ufig mit einer Vektor-Datenbanken umgesetzt ‚Äì das Herzst√ºck vieler moderner Chatbots mit ‚ÄûLangzeitwissen‚Äú.

Eine Vektordatenbank speichert Texte, Bilder oder andere Inhalte in einer numerischen Form (sogenannte Embeddings), damit sie schnell durchsucht werden k√∂nnen.

In [None]:
# Import LangChain
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

In [None]:
# Datenbank vorbereiten
texte = [
    "Python ist eine vielseitige Programmiersprache.",
    "K√ºnstliche Intelligenz bezeichnet die Simulation menschlicher Intelligenz durch Maschinen."
]

# Embedding & Chroma-Vektordatenbank
embedding = OpenAIEmbeddings()
vectordb = Chroma.from_texts(texte, embedding=embedding, persist_directory="chroma_db")

In [None]:
# LLM + Retriever
model_name = "gpt-4o-mini"
temperature = 0
llm = ChatOpenAI(model=model_name, temperature=temperature)

retriever = vectordb.as_retriever()

In [None]:
# RetrievalQA-Chain mit invoke-kompatiblem Format
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=False
)

In [None]:
# Beispiel-Konversation mit invoke()
user_input_list = [
                "Was ist Python?",
                "Und was ist KI?",
                "Was wei√üt du √ºber Java?"  # Nicht in Datenbank enthalten
]

for user_input in user_input_list:
    mprint(f"###üßë‚Äçüíª Mensch:\n {user_input}")
    response = qa_chain.invoke({"query": user_input})
    mprint(f"###ü§ñ KI:\n {response}\n")

# 5 | Langzeit vs. Externes Memory
---




| **Aspekt** | **Langzeit-Memory** | **Externes Memory** |
|------------|---------------------|---------------------|
| **Zweck** | Pers√∂nliche Erinnerungen an Gespr√§chsverlauf | Geteiltes Wissen und Dokumentation |
| **Speicherart** | Chronologischer Chat-Verlauf | Semantisch durchsuchbare Wissensbasis |
| **Technologie** | `ConversationBufferMemory` + JSON-Datei | Vektor-Datenbank (Chroma) + `RetrievalQA` |
| **Multi-User-Zugriff** | ‚ùå Nein (benutzerspezifisch) | ‚úÖ **Ja (gemeinsam nutzbar)** |
| **Speicherort** | Festplatte (z.B. `chat_memory.json`) | Wissensdatenbank mit Embeddings |
| **Inhalt** | "Du hei√üt Ralf", "Du magst Python" | "Python ist eine Programmiersprache" |
| **Zugriffsmethode** | Chronologisch, sequenziell | Semantische Suche nach Relevanz |
| **Skalierbarkeit** | Begrenzt durch Chat-L√§nge | Sehr skalierbar (gro√üe Datenmengen) |
| **Anwendungsfall** | Personalisierte Chatbots, Assistenten | Firmenwiki, Support-Systeme, RAG |
| **Beispiel aus Notebook** | "KI merkt sich deinen Namen" | "RAG-Systeme, Notizsysteme" |
| **Datenformat** | Nachrichten-Objekte (HumanMessage, AIMessage) | Text-Chunks mit Vektorisierung |
| **Persistierung** | `load_memory()` / `save_memory()` | `Chroma(persist_directory="...")` |
| **Kontext-Nutzung** | Gesamter bisheriger Chat-Verlauf | Nur relevante Dokumente werden abgerufen |
| **Update-H√§ufigkeit** | Nach jeder User-Interaktion | Bei Bedarf (neue Dokumente hinzuf√ºgen) |
| **Typische Gr√∂√üe** | Klein bis mittel (wenige KB bis MB) | Gro√ü (GB bis TB m√∂glich) |


# 6 | Mehr Tokens ‚â† Bessere Chat-Memory
---

Mehr Tokens in einem Kontextfenster eines Large Language Models (LLMs) bedeuten nicht automatisch eine bessere Verarbeitung. Dies ist besonders relevant im Kontext von **Chat & Memory**, wo Modelle versuchen, l√§ngere Gespr√§chsverl√§ufe oder gespeicherte Erinnerungen zu nutzen.



1. **Rauschen und Irrelevanz**
   Ein gr√∂√üeres Kontextfenster erlaubt zwar die Verarbeitung l√§ngerer Chat-Historien, aber nicht alle Informationen sind f√ºr die aktuelle Anfrage relevant. Das Modell muss wichtige Details von unwichtigen trennen, was mit wachsendem Kontext schwieriger wird.

2. **Abnehmende Aufmerksamkeit**
   LLMs nutzen Aufmerksamkeitsmechanismen. Bei sehr langen Chat-Kontexten verteilt sich die Aufmerksamkeit √ºber viele Tokens, sodass entscheidende Informationen weniger stark gewichtet werden k√∂nnen.

3. **Fehlerakkumulation**
   In Chats k√∂nnen kleine Missverst√§ndnisse oder falsche Annahmen durch l√§ngere Kontexte verst√§rkt werden. Dies kann zu Antworten f√ºhren, die auf alten, irrelevanten Informationen basieren.

4. **Verarbeitungsgrenzen und Latenz**
   Gr√∂√üere Kontextfenster f√ºhren zu mehr Rechenaufwand, l√§ngeren Antwortzeiten und h√∂herem Ressourcenverbrauch ‚Äì ohne dass die Qualit√§t proportional steigt.

5. **Warum das Thema weiterhin wichtig ist**
   Mit der zunehmenden Nutzung von **Memory-Funktionen** in Chatbots stellt sich die Frage, wie Erinnerungen strukturiert, gefiltert und priorisiert werden. Nur durch intelligentes Kontext- und Memory-Management lassen sich wirklich relevante Informationen nutzen, ohne das Modell mit unn√∂tigen Daten zu √ºberfluten.




<p><font color='darkblue' size="4">
‚ÑπÔ∏è <b>Fazit</b>
</font></p>

Ein gro√ües Kontextfenster allein l√∂st nicht die Herausforderungen von Chat & Memory. Entscheidend sind clevere Strategien, um Informationen zu selektieren, zusammenzufassen und zielgerichtet einzusetzen.


# A | Aufgaben
---




Die Aufgabestellungen unten bieten Anregungen, Sie k√∂nnen aber auch gerne eine andere Herausforderung angehen.


<p><font color='black' size="5">
KI-gest√ºtztes Notizbuch mit automatischer Kategorisierung
</font></p>


Entwickeln Sie ein KI-Notizbuch, das Eingaben von Nutzern speichert, automatisch kategorisiert (z. B. "Technologie", "Privat", "Aufgaben") und kontextbezogene Vorschl√§ge liefert. Verwenden Sie dazu ein LangChain Memory-Konzept, z.B. ConversationBufferMemory, f√ºr eine effiziente Verwaltung.



<p><font color='black' size="5">
Chatbot: Nachrichten- vs. Summary-Speicher
</font></p>


Erstellen Sie einen einfachen Chatbot mit LangChain, der zwischen Nachrichten- und Summary-Speicher unterscheidet. Analysieren Sie, wie sich die Speichertypen auf die Qualit√§t der Antworten auswirken.



<p><font color='black' size="5">
Automatische Protokollerstellung f√ºr Meetings
</font></p>


Entwickeln Sie ein System, das Gespr√§chsverl√§ufe speichert und automatisch eine zusammenfassende Chat-Notiz erstellt. Nutzen Sie z.B. ConversationSummaryMemory, um die wichtigsten Punkte aus langen Gespr√§chen zu extrahieren.



<p><font color='black' size="5">
Virtuelle Assistenten mit eigenem Ged√§chtnis
</font></p>


Eine Datei wird bereitgestellt, die ein Gespr√§ch zwischen zwei virtuellen Assistenten enth√§lt. Jede Antwort soll aus genau einem Satz bestehen. Die Datei ist folgenderma√üen aufgebaut:

|Assistent|Eingabe|
|---|---|
|botA|Ich hei√üe Max.|
|botB|Mein Name ist Emma.|
|botA|Ich wohne in Berlin.|
|botB|Ich lebe in Hamburg.|
|botA|Wo wohne ich und wie hei√üe ich?|
|botB|Wo lebe ich?|

**Aufgabe**  
Schreiben Sie ein Programm, das zwei virtuelle Assistenten simuliert, die jeweils ein eigenes Ged√§chtnis haben. Die Eingaben aus der Datei werden an den jeweiligen Assistenten geschickt, und ihre Antworten sollen in einer neuen Datei gespeichert werden.

**Erwartete Ausgabe**  
Die erwartete Ausgabe k√∂nnte wie folgt aussehen:

|Assistent|Antwort|
|---|---|
|botA|Hallo Max.|
|botB|Hallo Emma.|
|botA|Danke f√ºr diese Information.|
|botB|Danke f√ºr diese Information.|
|botA|Hallo Max, du wohnst in Berlin und dein Name ist Max.|
|botB|Hallo Emma, du lebst in Hamburg.|

**Hinweise**

- Die Antworten m√ºssen nicht exakt mit der Beispielausgabe √ºbereinstimmen, sollten aber sinngem√§√ü √§hnlich sein.
- Jeder Assistent hat ein eigenes Ged√§chtnis und sollte sich nur an seine eigenen Informationen erinnern.
- Das Programm soll die Antworten in einer neuen Datei im gleichen Tabellenformat speichern.