
# # üìö RAG-System mit LangChain, ChromaDB und Gemini 2
# Dieses Notebook implementiert ein einfaches Retrieval-Augmented Generation (RAG) System.
# Es verwendet ChromaDB zur Dokumentenspeicherung, LangChain f√ºr Workflow-Management und das Modell `gemini-2.0-flash`.


# üì• Bibliotheken importieren

In [1]:
from langchain_community.document_loaders import WebBaseLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
#from langchain.embeddings import GooglePalmEmbeddings
from langchain.vectorstores import Chroma
from langchain.memory import ConversationBufferMemory
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.chains import ConversationalRetrievalChain

import os
#from langchain_huggingface import HuggingFaceEmbeddings
#from langchain.embeddings import OpenAIEmbeddings
from langchain_community.embeddings import HuggingFaceEmbeddings
#from langchain.embeddings import HuggingFaceEmbeddings

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [2]:
os.environ["USER_AGENT"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"

# ## üåê Schritt 1: Wikipedia-Seite laden

In [3]:
url = "https://en.wikipedia.org/wiki/2025_in_science"
loader = WebBaseLoader(url)
documents = loader.load()

# ## ‚úÇÔ∏è Schritt 2: Text in Chunks aufteilen

In [4]:
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100
)
chunks = splitter.split_documents(documents)
print(f"Anzahl der Chunks: {len(chunks)}")

Anzahl der Chunks: 89


# ## üß† Schritt 3: Vektorisierung und Speicherung in ChromaDB

In [7]:
embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")

  embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
  from .autonotebook import tqdm as notebook_tqdm


In [8]:
#embedding = GooglePalmEmbeddings()
#embedding =OpenAIEmbeddings()  

persist_directory = "chroma_db"
if os.path.exists(persist_directory) and os.listdir(persist_directory):
    vectorstore = Chroma(persist_directory=persist_directory, embedding_function=embedding)
else:
    vectorstore = Chroma.from_documents(
        documents=chunks,
        embedding=embedding,
        persist_directory=persist_directory
    )
    vectorstore.persist()


  vectorstore = Chroma(persist_directory=persist_directory, embedding_function=embedding)



# ## üí¨ Schritt 4: Dialogsystem mit Ged√§chtnis (Memory)

In [9]:
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

retriever = vectorstore.as_retriever()
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash")

rag_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=retriever,
    memory=memory
)

# ## üß™ Schritt 5: Beispiel-Dialog

In [10]:

fragen = [
    "Welche wissenschaftlichen Ereignisse sind f√ºr 2025 geplant?",
    "Gibt es Missionen der NASA in diesem Jahr?",
    "Wie h√§ngen diese Ereignisse mit der Raumfahrt zusammen?"
]

for frage in fragen:
    antwort = rag_chain.run(frage)
    print(f"\nüôã Frage: {frage}\nü§ñ Antwort: {antwort}")


  antwort = rag_chain.run(frage)



üôã Frage: Welche wissenschaftlichen Ereignisse sind f√ºr 2025 geplant?
ü§ñ Antwort: Die Vereinten Nationen haben 2025 zum Internationalen Jahr der Quantenwissenschaft und -technologie erkl√§rt.

üôã Frage: Gibt es Missionen der NASA in diesem Jahr?
ü§ñ Antwort: Ja, die NASA hat mehrere Missionen geplant, die 2025 starten sollen. Dazu geh√∂ren die Pandora-Mission, die im September 20 Sterne und ihre 39 Exoplaneten beobachten soll, und die IMAP-Sonde, die zum Lagrange-Punkt 1 starten soll, um interstellaren Staub zu sammeln und das Weltraumwetter zu untersuchen.

üôã Frage: Wie h√§ngen diese Ereignisse mit der Raumfahrt zusammen?
ü§ñ Antwort: Die NASA wird im September 2025 ihre Pandora-Mission starten, die darauf abzielt, 20 Sterne und ihre 39 Exoplaneten zu beobachten. Die IMAP-Sonde der NASA wird 2025 gestartet, um interstellaren Staub einzufangen.
