# Setup

In [1]:
import requests
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
import nest_asyncio
from dotenv import load_dotenv
from langchain_core.messages import (
    HumanMessage,
    SystemMessage,
)
from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
from langchain_ollama.llms import OllamaLLM
from langchain_openai import ChatOpenAI


nest_asyncio.apply()

# Load environment variables from .env file
load_dotenv()

False

# DIP Data

In [2]:
base_url = "https://search.dip.bundestag.de/api/v1"
api_key = "I9FKdCn.hbfefNWCY336dL6x62vfwNKpoN2RZ1gp21"

In [3]:
# Get all documents metadata
metadata_endpoint = "plenarprotokoll"
headers = { "Authorization": f"ApiKey {api_key}"}

metadata_url = f"{base_url}/{metadata_endpoint}"
metadatas = requests.get(metadata_url, headers=headers).json()["documents"]

In [4]:
# Get Text of one document
fulltext_endpoint = "plenarprotokoll-text"
params = {"format": "xml"}
def get_text(document_id: str) -> str:
    fulltext_url = f"{base_url}/{fulltext_endpoint}/{document_id}"
    response = requests.get(fulltext_url, headers=headers, params=params)
    return response.content


In [82]:
from bs4 import BeautifulSoup
import re

xml_url = metadatas[4]["fundstelle"]["xml_url"]
xml_content = requests.get(xml_url).content

soup = BeautifulSoup(xml_content, features='xml')

def get_tagesordnungspunkt_tags(soup):  
    pattern = re.compile(r'^Tagesordnungspunkt \d+:')
    return soup.find_all('ivz-block-titel', string=pattern)

def get_all_redner_for_tagesordnungspunkt(tagesordnungspunkt_tag):
    return tagesordnungspunkt_tag.parent.find_all("redner")

def get_rede_for_redner(soup, redner_tag):
    redner_block = redner_tag.find_parent('ivz-eintrag')
    xref_tag = redner_block.find_all('xref')[0] # TODO: Check if there are more or less
    rid_value = xref_tag.get('rid')
    return soup.find('rede', {'id': rid_value})
    

all_data = []
tagesordnungspunkt_tags = get_tagesordnungspunkt_tags(soup)

for tagesordnungspunkt_tag in tagesordnungspunkt_tags:
    tagesordnungspunkt_tag_text = tagesordnungspunkt_tag.text
    redner_tags = get_all_redner_for_tagesordnungspunkt(tagesordnungspunkt_tag)
    all_reden = []
    for redner_tag in redner_tags:
        try:
            rede_tag = get_rede_for_redner(soup, redner_tag)
            first_name = redner_tag.find('vorname').text
            last_name = redner_tag.find('nachname').text
            party = redner_tag.find('fraktion').text if redner_tag.find('fraktion') else None # This happens if i.e. Bundeskanzler speaks
            person = {
                "last_name": last_name,
                "first_name": first_name,
                "party": party
            }
            all_reden.append({"redner": person, "rede": rede_tag.text})
        except IndexError as idx_error:
            print(f"Did not find 'Rede' for {redner_tag}. Reason could be 'Zwischenruf', which is not a 'Rede'")
    all_data.append({"tagesordnungspunkt": tagesordnungspunkt_tag_text, "reden": all_reden})
    


Did not find 'Rede' for <redner id="11004731"><name><vorname>Kay</vorname><nachname>Gottschalk</nachname><fraktion>AfD</fraktion></name></redner>. Reason could be 'Zwischenruf', which is not a 'Rede'
Did not find 'Rede' for <redner id="11004682"><name><vorname>Sebastian</vorname><nachname>Brehm</nachname><fraktion>CDU/CSU</fraktion></name></redner>. Reason could be 'Zwischenruf', which is not a 'Rede'
Did not find 'Rede' for <redner id="11004792"><name><titel>Dr.</titel><vorname>Rainer</vorname><nachname>Kraft</nachname><fraktion>AfD</fraktion></name></redner>. Reason could be 'Zwischenruf', which is not a 'Rede'
Did not find 'Rede' for <redner id="11004752"><name><vorname>Karsten</vorname><nachname>Hilse</nachname><fraktion>AfD</fraktion></name></redner>. Reason could be 'Zwischenruf', which is not a 'Rede'


In [83]:
all_data

[{'tagesordnungspunkt': 'Tagesordnungspunkt 7:',
  'reden': [{'redner': {'last_name': 'Kaddor',
     'first_name': 'Lamya',
     'party': 'BÜNDNIS\xa090/DIE GRÜNEN'},
    'rede': "\nLamyaKaddorBÜNDNIS\xa090/DIE GRÜNENLamya Kaddor (BÜNDNIS\xa090/DIE GRÜNEN):\nSehr geehrte Frau Präsidentin! Sehr geehrter Herr Bundespräsident! Sehr geehrter Herr Botschafter Prosor! Sehr geehrte Damen und Herren! Sehr geehrte Kolleginnen und Kollegen! Seit dem Überfall der Hamas auf Israel hört das Grauen nicht mehr auf. Der 7.\xa0Oktober ist mittlerweile ein 368\xa0Tage andauernder Albtraum für die Opfer dieses Massakers an Männern, Kindern, vor allem auch an Frauen, für die Geiseln und ihre Angehörigen, für die Binnenflüchtlinge, eigentlich für alle Jüdinnen und Juden, für alle Israelis sowie alle Freundinnen und Freunde des Staates Israel weltweit. Darüber hinaus steht der 7.\xa0Oktober für das Leid und Elend in Gaza, der Westbank und im Libanon, für den Tod von mehr als 40\u202f000 Menschen.\nAusgelöst

In [48]:
def get_reden_for_all_redner()

redner_block = redner_tags[0].parent.parent
xref_tags = redner_block.find_all('xref')

# Loop through each <xref> tag and print its "rid" attribute
for xref in xref_tags:
    rid_value = xref.get('rid')
rede_tag = soup.find('rede', {'id': rid_value})
rede_tag

Found <xref> tag with rid: ID2019100100


<rede id="ID2019100100">
<p klasse="redner"><a id="r1"/><redner id="11005095"><name><vorname>Lamya</vorname><nachname>Kaddor</nachname><fraktion>BÜNDNIS 90/DIE GRÜNEN</fraktion></name></redner>Lamya Kaddor (BÜNDNIS 90/DIE GRÜNEN):</p>
<p klasse="J_1">Sehr geehrte Frau Präsidentin! Sehr geehrter Herr Bundespräsident! Sehr geehrter Herr Botschafter Prosor! Sehr geehrte Damen und Herren! Sehr geehrte Kolleginnen und Kollegen! Seit dem Überfall der Hamas auf Israel hört das Grauen nicht mehr auf. Der 7. Oktober ist mittlerweile ein 368 Tage andauernder Albtraum für die Opfer dieses Massakers an Männern, Kindern, vor allem auch an Frauen, für die Geiseln und ihre Angehörigen, für die Binnenflüchtlinge, eigentlich für alle Jüdinnen und Juden, für alle Israelis sowie alle Freundinnen und Freunde des Staates Israel weltweit. Darüber hinaus steht der 7. Oktober für das Leid und Elend in Gaza, der Westbank und im Libanon, für den Tod von mehr als 40 000 Menschen.</p>
<p klasse="J">Ausgelöst habe

In [40]:
print(soup)

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE dbtplenarprotokoll SYSTEM "dbtplenarprotokoll.dtd">
<dbtplenarprotokoll herausgeber="Deutscher Bundestag" herstellung="H. Heenemann GmbH  Co. KG, Buch- und Offsetdruckerei, Bessemerstraße 83–91, 12103 Berlin, www.heenemann-druck.de" issn="0722-7980" sitzung-datum="10.10.2024" sitzung-ende-uhrzeit="23:12" sitzung-naechste-datum="11.10.2024" sitzung-nr="191" sitzung-ort="Berlin" sitzung-start-uhrzeit="9:00" start-seitennr="24783" vertrieb="Bundesanzeiger Verlag GmbH, Postfach 1 0 05 34, 50445 Köln, Telefon (02 21) 97 66 83 40, Fax (02 21) 97 66 83 44, www.bundesanzeiger-verlag.de" wahlperiode="20">
<vorspann>
<kopfdaten>
<plenarprotokoll-nummer>Plenarprotokoll <wahlperiode>20</wahlperiode>/<sitzungsnr>191</sitzungsnr></plenarprotokoll-nummer>
<herausgeber>Deutscher Bundestag</herausgeber>
<berichtart>Stenografischer Bericht</berichtart>
<sitzungstitel><sitzungsnr>191</sitzungsnr>. Sitzung</sitzungstitel>
<veranstaltungsdaten><ort>Berlin</o

# RAG

In [5]:
# Create ParentDocumentRetriever
embedding_model = "sentence-transformers/all-MiniLM-L6-v2"
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
vectorstore = Chroma(
    collection_name="split_parents", embedding_function=HuggingFaceEmbeddings(model_name=embedding_model)
)
store = InMemoryStore()

retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)

  from tqdm.autonotebook import tqdm, trange


In [6]:
def get_langchain_document_from_protocol_id(protocol_id: str) -> Document:
    metadata_url = f"{base_url}/{metadata_endpoint}/{protocol_id}"
    metadata = requests.get(metadata_url, headers=headers).json()
    

    retrieval_metadata = {
        "dokument_id": protocol_id,
        "dokument_art": metadata["dokumentart"],
        "dokument_nummer": metadata["dokumentnummer"],
        "titel": metadata["titel"],
        "datum": metadata["datum"],
    }
    retrieval_text = get_text(document_id=protocol_id)

    return Document(page_content=retrieval_text, metadata=retrieval_metadata)

In [7]:
# Ingest one protocol
index = 10
protocol_id = metadatas[index]["id"]

document = get_langchain_document_from_protocol_id(protocol_id=protocol_id)
retriever.add_documents(documents=[document])

In [8]:
# Load Generation Model
llama_model_3 = "meta-llama/Llama-3.2-3B-Instruct"
mixtral_model = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llama_2b_70b = "meta-llama/Llama-2-70b-chat-hf"
openai_gpt_3_5 = "gpt-3.5-turbo"

llm = HuggingFaceEndpoint(
    repo_id=mixtral_model,
    task="text-generation",
    max_new_tokens=1024,
)

chat_model = ChatOpenAI(model=openai_gpt_3_5)
#chat_model = ChatHuggingFace(llm=llm)
fact_check_model = ChatHuggingFace(llm=llm)
#chat_model = OllamaLLM(model="mistral")
#fact_check_model = OllamaLLM(model="llama3.2:1b")


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/tim/.cache/huggingface/token
Login successful


In [9]:
def format_docs(documents: list[Document]) -> str:
    return "\n\n".join(document.page_content for document in documents)

In [16]:
def get_rag_answer(prompt: str):
    documents = retriever.invoke(prompt, k=4)
    context = format_docs(documents=documents)

    simple_rag_prompt = (
        "Beantworte die Frage mit Hilfe der folgenden Kontextinformationen. "
        "Wenn du die Antwort nicht weißt, sag einfach, dass du die Antwort nicht kennst. "
        "Verwende zu Beantwortung nur die Informationen im Kontext. Verwende kein externes Wissen. "
        "Verwende maximal fünf Sätze und fasse die Antwort kurz zusammen."
        f"Frage: {prompt}"
        f"Kontext: {context}"
        "Antwort: " 
        )

    simple_system_prompt =  "Du bist ein Assistent für die Beantwortung von Fragen bezüglich Plenarsitzungen des Deutschen Bundestags."

    messages = [
        SystemMessage(content=simple_system_prompt),
        HumanMessage(
            content=simple_rag_prompt
        ),
    ]

    answer = chat_model.invoke(messages).content
    return (answer, documents)

In [17]:
# Self Fact-Checking
def check_facts(answer:str, documents: list[Document])-> tuple[bool, str]:
    context = format_docs(documents=documents)

    fact_checking_prompt = (
        "Du hast die Aufgabe, herauszufinden, ob die Hypothese begründet ist und mit den Beweisen übereinstimmt. "
        "Verwende nur den Inhalt der Beweise und stütze dich nicht auf externes Wissen. "
        f"Antworte mit ja/nein. Beweise: {context} "
        f"Hypothese: {answer}: "
        "Antwort: "
    )

    ai_msg = fact_check_model.invoke([
        HumanMessage(
            content=fact_checking_prompt
        ),
    ]).content
    is_okay = ai_msg.lower().strip().startswith("ja")
    return (is_okay, ai_msg)


In [19]:
# Ask RAG
prompt = "Wer nannte Herrn Steffen einen Hetzer?"
(answer, documents) = get_rag_answer(prompt=prompt)
(is_based_on_facts, fact_checking_answer) = check_facts(answer=answer, documents=documents)

print(f"Fact-Check: {'OKAY' if is_based_on_facts else 'NOT OKAY'}")
print(answer)

{}
Fact-Check: OKAY
Stephan Brandner (AfD) nannte Herrn Steffen einen "Hetzer".


In [13]:
fact_checking_answer

' Ja, die Hypothese wird bestätigt. Aus dem Stenografischen Bericht geht hervor, dass Stephan Brandner (AfD) Herrn Steffen als "Hetzer" bezeichnet hat.'

In [None]:
# Build Evaluation Dataset

evaluation_questions = [
    "Wer nannte Herrn Steffen einen Hetzer?"
]

evaluation_answers = [
    "Stephan Brandner (AfD) nannte Herrn Steffen einen 'Hetzer'."
]