# Triple-Extraktor f√ºr fr√ºhneuzeitliche Briefe

**Version:** 1.0.0.1

Dieses Notebook extrahiert semantische Triples aus fr√ºhneuzeitlichen Briefen mit Fokus auf Konzept-Hierarchien.

In [None]:
#@title **Setup** (einmal ausf√ºhren) { display-mode: "form" }
#@markdown Installiert ben√∂tigte Pakete und l√§dt den Code.

# Version
NOTEBOOK_VERSION = "1.0.0.1"
print(f"üìì Triple-Extraktor Notebook v{NOTEBOOK_VERSION}")
print(f"   Letzte Aktualisierung: 07.02.2026\n")

import sys
import os

# Pakete installieren
!pip install -q pyyaml requests plotly networkx kaleido==0.2.1

# Arbeitsverzeichnis erstellen
!mkdir -p /content/triple-colab/src
!mkdir -p /content/triple-colab/output_json
!mkdir -p /content/triple-colab/output_plaintext
!mkdir -p /content/triple-colab/logs

# Python-Path erweitern
if '/content/triple-colab/src' not in sys.path:
    sys.path.insert(0, '/content/triple-colab/src')

# file_client.py erstellen
file_client_code = '''"""Datei-Client f√ºr XML/TXT-Dateien mit TEI-Optimierung."""
import os
import re
import copy
import xml.etree.ElementTree as ET
from typing import Optional, List
import logging

logger = logging.getLogger(__name__)

class FileClient:
    """Client zum Lesen von XML/TXT-Dateien mit TEI-Optimierung."""
    
    # Verarbeitungsmodus: 'plaintext', 'raw_xml', 'xml_to_plaintext'
    processing_mode = 'xml_to_plaintext'
    # Tags die komplett entfernt werden sollen (mit Inhalt)
    exclude_tags = []
    # Tag-Attribute-Kombinationen die entfernt werden sollen z.B. [('div', 'type', 'comment')]
    exclude_tag_attrs = []
    
    def __init__(self, file_path: str):
        self.file_path = file_path
        self.file_extension = os.path.splitext(file_path)[1].lower()
    
    def read_content(self) -> Optional[str]:
        """Liest den Dateiinhalt und extrahiert relevanten Text."""
        try:
            if self.file_extension == ".xml":
                return self._read_xml()
            elif self.file_extension == ".txt":
                return self._read_txt()
            else:
                logger.warning(f"Nicht unterst√ºtztes Dateiformat: {self.file_extension}")
                return None
        except Exception as e:
            logger.error(f"Fehler beim Lesen von {self.file_path}: {e}")
            return None
    
    def _read_xml(self) -> Optional[str]:
        """Liest XML-Datei basierend auf processing_mode."""
        # Modus: Raw XML - unverarbeitet zur√ºckgeben
        if FileClient.processing_mode == 'raw_xml':
            with open(self.file_path, "r", encoding="utf-8") as f:
                return f.read()
        
        # XML parsen
        try:
            tree = ET.parse(self.file_path)
            root = tree.getroot()
        except ET.ParseError as e:
            logger.error(f"XML-Parse-Fehler in {self.file_path}: {e}")
            return None
        
        # Modus: XML zu Plaintext konvertieren (mit Tag-Filterung)
        namespaces = {"tei": "http://www.tei-c.org/ns/1.0"}
        
        # Arbeite mit Kopie um Original nicht zu ver√§ndern
        root_copy = copy.deepcopy(root)
        
        # Entferne ausgeschlossene Tags
        self._remove_excluded_elements(root_copy, namespaces)
        
        # Body finden und Text extrahieren
        body = root_copy.find(".//tei:body", namespaces)
        if body is None:
            body = root_copy.find(".//body")
        if body is None:
            body = root_copy
        
        return self._extract_text_from_element(body)
    
    def _remove_excluded_elements(self, root: ET.Element, namespaces: dict):
        """Entfernt ausgeschlossene Elemente aus dem XML-Baum."""
        # Entferne Tags mit bestimmten Attributen (z.B. div[@type='comment'])
        for tag, attr_name, attr_value in FileClient.exclude_tag_attrs:
            # Mit TEI-Namespace
            for elem in root.findall(f".//tei:{tag}[@{attr_name}]", namespaces):
                if attr_value in elem.get(attr_name, ''):
                    parent = self._find_parent(root, elem)
                    if parent is not None:
                        # Tail-Text bewahren
                        if elem.tail:
                            prev = list(parent).index(elem)
                            if prev > 0:
                                list(parent)[prev-1].tail = (list(parent)[prev-1].tail or '') + elem.tail
                            else:
                                parent.text = (parent.text or '') + elem.tail
                        parent.remove(elem)
            # Ohne Namespace
            for elem in root.findall(f".//{tag}[@{attr_name}]"):
                if attr_value in elem.get(attr_name, ''):
                    parent = self._find_parent(root, elem)
                    if parent is not None:
                        if elem.tail:
                            prev = list(parent).index(elem)
                            if prev > 0:
                                list(parent)[prev-1].tail = (list(parent)[prev-1].tail or '') + elem.tail
                            else:
                                parent.text = (parent.text or '') + elem.tail
                        parent.remove(elem)
        
        # Entferne komplette Tags (mit Inhalt)
        for tag in FileClient.exclude_tags:
            # Mit TEI-Namespace
            for elem in root.findall(f".//tei:{tag}", namespaces):
                parent = self._find_parent(root, elem)
                if parent is not None:
                    if elem.tail:
                        prev = list(parent).index(elem)
                        if prev > 0:
                            list(parent)[prev-1].tail = (list(parent)[prev-1].tail or '') + elem.tail
                        else:
                            parent.text = (parent.text or '') + elem.tail
                    parent.remove(elem)
            # Ohne Namespace
            for elem in root.findall(f".//{tag}"):
                parent = self._find_parent(root, elem)
                if parent is not None:
                    if elem.tail:
                        prev = list(parent).index(elem)
                        if prev > 0:
                            list(parent)[prev-1].tail = (list(parent)[prev-1].tail or '') + elem.tail
                        else:
                            parent.text = (parent.text or '') + elem.tail
                    parent.remove(elem)
    
    def _find_parent(self, root: ET.Element, target: ET.Element) -> Optional[ET.Element]:
        """Findet das Elternelement eines Elements."""
        for parent in root.iter():
            for child in parent:
                if child is target:
                    return parent
        return None
    
    def _read_txt(self) -> Optional[str]:
        """Liest TXT-Datei."""
        with open(self.file_path, "r", encoding="utf-8") as f:
            return f.read()
    
    def _extract_text_from_element(self, element) -> str:
        """Extrahiert rekursiv Text aus XML-Element."""
        texts = []
        if element.text:
            texts.append(element.text.strip())
        for child in element:
            texts.append(self._extract_text_from_element(child))
            if child.tail:
                texts.append(child.tail.strip())
        result = " ".join(filter(None, texts))
        # Bereinige mehrfache Leerzeichen
        result = re.sub(r'\\s+', ' ', result)
        return result.strip()
'''

with open('/content/triple-colab/src/file_client.py', 'w') as f:
    f.write(file_client_code)

# openwebui_client.py erstellen
openwebui_client_code = '''"""OpenWebUI-kompatibler Client mit Gemini/OpenAI-Support."""
import requests
import time
import logging
from typing import Optional

logger = logging.getLogger(__name__)

class OpenWebUIClient:
    """Client f√ºr OpenAI-kompatible APIs (inkl. Gemini)."""
    
    def __init__(self, api_key: str, base_url: str, model: str, temperature: float = 0.1):
        self.api_key = api_key
        self.base_url = base_url.rstrip("/")
        self.model = model
        self.temperature = temperature
        self.max_retries = 3
        self.retry_delay = 2
    
    def generate_response(self, prompt: str, system_prompt: Optional[str] = None) -> Optional[str]:
        """Generiert Antwort mit automatischem Retry."""
        for attempt in range(self.max_retries):
            try:
                if "generativelanguage.googleapis.com" in self.base_url:
                    return self._call_gemini_api(prompt, system_prompt)
                else:
                    return self._call_openai_api(prompt, system_prompt)
            except Exception as e:
                logger.warning(f"Versuch {attempt + 1}/{self.max_retries} fehlgeschlagen: {e}")
                if attempt < self.max_retries - 1:
                    time.sleep(self.retry_delay * (attempt + 1))
                else:
                    logger.error(f"Alle Versuche fehlgeschlagen: {e}")
                    return None
    
    def _call_gemini_api(self, prompt: str, system_prompt: Optional[str] = None) -> Optional[str]:
        """Ruft Gemini API auf."""
        url = f"{self.base_url}:generateContent?key={self.api_key}"
        payload = {
            "contents": [{"parts": [{"text": prompt}]}],
            "generationConfig": {"temperature": self.temperature}
        }
        if system_prompt:
            payload["systemInstruction"] = {"parts": [{"text": system_prompt}]}
        response = requests.post(url, json=payload, timeout=120)
        response.raise_for_status()
        data = response.json()
        return data["candidates"][0]["content"]["parts"][0]["text"]
    
    def _call_openai_api(self, prompt: str, system_prompt: Optional[str] = None) -> Optional[str]:
        """Ruft OpenAI-kompatible API auf."""
        url = f"{self.base_url}/chat/completions"
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }
        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": prompt})
        payload = {
            "model": self.model,
            "messages": messages,
            "temperature": self.temperature
        }
        response = requests.post(url, headers=headers, json=payload, timeout=120)
        response.raise_for_status()
        data = response.json()
        return data["choices"][0]["message"]["content"]
'''

with open('/content/triple-colab/src/openwebui_client.py', 'w') as f:
    f.write(openwebui_client_code)

print("‚úì Setup abgeschlossen!")
print("‚úì Pakete installiert")
print("‚úì Code-Module erstellt")

In [None]:
#@title **API-Konfiguration** { display-mode: "form" }

#@markdown ### W√§hle deinen API-Provider:
api_provider = "Gemini (Google)" #@param ["Gemini (Google)", "ChatAI (AcademicCloud)"]

#@markdown ### Modell-Auswahl:
#@markdown W√§hle das KI-Modell f√ºr die Triple-Extraktion
selected_model_name = "gemini-3-flash-preview (Gemini Standard)" #@param ["gemini-3-flash-preview (Gemini Standard)", "gemini-2.5-flash (Gemini)", "llama-3.3-70b-instruct (ChatAI)", "qwen3-235b-a22b (ChatAI)", "qwen3-30b-a3b-thinking-2507 (ChatAI)", "mistral-large-3-675b-instruct-2512 (ChatAI)", "deepseek-r1-distill-llama-70b (ChatAI)", "devstral-2-123b-instruct-2512 (ChatAI)"]

#@markdown ### API-Schl√ºssel:
#@markdown **Wichtig:** Gib niemals deinen API-Schl√ºssel in √∂ffentlichen Notebooks weiter! L√∂sche ihn vor dem Teilen.
api_key = "" #@param {type:"string"}

#@markdown ### Detailgrad der Extraktion:
#@markdown Wie ausf√ºhrlich sollen die Triples sein? (1=nur Kernaussagen, 10=sehr detailliert)
granularity = 3 #@param {type:"slider", min:1, max:10, step:1}

#@markdown ### Temperatur (Kreativit√§t):
#@markdown Wie kreativ soll die KI antworten? (0=deterministisch, 1=sehr kreativ)
temperature = 0.3 #@param {type:"slider", min:0, max:1, step:0.05}

#@markdown ### Erweiterte Optionen:
#@markdown Debug-Modus: Zeige KI-Antworten bei Fehlern (hilft bei Problemanalyse):
show_debug_output = False #@param {type:"boolean"}

# Metadaten werden IMMER gespeichert
save_file_metadata = True

# Modell-Mapping
model_mapping = {
    "gemini-3-flash-preview (Gemini Standard)": {
        "name": "gemini-3-flash-preview",
        "provider": "Gemini (Google)"
    },
    "gemini-2.5-flash (Gemini)": {
        "name": "gemini-2.5-flash",
        "provider": "Gemini (Google)"
    },
    "llama-3.3-70b-instruct (ChatAI)": {
        "name": "llama-3.3-70b-instruct",
        "provider": "ChatAI (AcademicCloud)"
    },
    "qwen3-235b-a22b (ChatAI)": {
        "name": "qwen3-235b-a22b",
        "provider": "ChatAI (AcademicCloud)"
    },
    "qwen3-30b-a3b-thinking-2507 (ChatAI)": {
        "name": "qwen3-30b-a3b-thinking-2507",
        "provider": "ChatAI (AcademicCloud)"
    },
    "mistral-large-3-675b-instruct-2512 (ChatAI)": {
        "name": "mistral-large-3-675b-instruct-2512",
        "provider": "ChatAI (AcademicCloud)"
    },
    "deepseek-r1-distill-llama-70b (ChatAI)": {
        "name": "deepseek-r1-distill-llama-70b",
        "provider": "ChatAI (AcademicCloud)"
    },
    "devstral-2-123b-instruct-2512 (ChatAI)": {
        "name": "devstral-2-123b-instruct-2512",
        "provider": "ChatAI (AcademicCloud)"
    }
}

# Modell-Info extrahieren
model_info = model_mapping.get(selected_model_name)
if not model_info:
    raise ValueError(f"Unbekanntes Modell: {selected_model_name}")

selected_model = model_info["name"]
model_provider = model_info["provider"]

# Pr√ºfe ob Modell zum gew√§hlten Provider passt
if model_provider != api_provider:
    raise ValueError(
        f"‚ùå Modell-Provider-Konflikt!\n\n"
        f"Das gew√§hlte Modell '{selected_model}' geh√∂rt zu '{model_provider}',\n"
        f"aber du hast '{api_provider}' als Provider ausgew√§hlt.\n\n"
        f"Bitte w√§hle entweder:\n"
        f"‚Ä¢ Ein Modell das zu '{api_provider}' passt, oder\n"
        f"‚Ä¢ √Ñndere den Provider auf '{model_provider}'"
    )

# API-Schl√ºssel validieren
if not api_key or len(api_key.strip()) < 10:
    raise ValueError(
        "‚ùå Ung√ºltiger API-Schl√ºssel!\n\n"
        "Bitte gib einen g√ºltigen API-Schl√ºssel ein.\n\n"
        "API-Schl√ºssel erhalten:\n"
        "‚Ä¢ Gemini: https://aistudio.google.com/apikey\n"
        "‚Ä¢ ChatAI: https://chat-ai.academiccloud.de/"
    )

# Konfiguration basierend auf Provider
if api_provider == "Gemini (Google)":
    base_url = f"https://generativelanguage.googleapis.com/v1beta/models/{selected_model}"

else:  # ChatAIprint(f"  Temperatur: {temperature}")

    base_url = "https://chat-ai.academiccloud.de/v1"print(f"  Detailgrad: {granularity}")

print(f"  Modell: {selected_model}")

# Konfiguration speichernprint(f"  Provider: {api_provider}")

selected_config = {print(f"‚úì Konfiguration gespeichert")

    'provider': api_provider,

    'api_key': api_key,}

    'base_url': base_url,    'verbose': show_debug_output

    'model': selected_model,    'include_metadata': save_file_metadata,

    'temperature': temperature,    'granularity': granularity,

In [None]:
#@title **XML-Verarbeitungsoptionen** { display-mode: "form" }
#@markdown Wie sollen XML-Dateien verarbeitet werden?

#@markdown ### Verarbeitungsmodus:
xml_processing_mode = "XML zu Plaintext (empfohlen)" #@param ["Plaintext (nur .txt)", "XML unverarbeitet", "XML zu Plaintext (empfohlen)"]

#@markdown ### Tags komplett entfernen (mit Inhalt):
#@markdown Komma-getrennte Liste von Tag-Namen, z.B.: `postscript, note, anchor`
exclude_tags_input = "postscript" #@param {type:"string"}

#@markdown ### Tags mit bestimmten Attributen entfernen:
#@markdown Format: `tag:attribut=wert` (komma-getrennt), z.B.: `div:type=comment, div:type=apparatus`
exclude_attrs_input = "div:type=comment" #@param {type:"string"}

import ipywidgets as widgets
from IPython.display import display
from file_client import FileClient

# Modus setzen
mode_map = {
    "Plaintext (nur .txt)": "plaintext",
    "XML unverarbeitet": "raw_xml",
    "XML zu Plaintext (empfohlen)": "xml_to_plaintext"
}
FileClient.processing_mode = mode_map.get(xml_processing_mode, "xml_to_plaintext")

# Ausgeschlossene Tags parsen
if exclude_tags_input.strip():
    FileClient.exclude_tags = [t.strip() for t in exclude_tags_input.split(',') if t.strip()]
else:
    FileClient.exclude_tags = []

# Ausgeschlossene Tag-Attribute parsen (Format: tag:attr=value)
FileClient.exclude_tag_attrs = []
if exclude_attrs_input.strip():
    for item in exclude_attrs_input.split(','):
        item = item.strip()
        if ':' in item and '=' in item:
            tag_part, attr_part = item.split(':', 1)
            if '=' in attr_part:
                attr_name, attr_value = attr_part.split('=', 1)
                FileClient.exclude_tag_attrs.append((tag_part.strip(), attr_name.strip(), attr_value.strip()))

print(f"‚úì XML-Verarbeitung konfiguriert")
print(f"  Modus: {xml_processing_mode}")
if FileClient.exclude_tags:
    print(f"  Entfernte Tags: {', '.join(FileClient.exclude_tags)}")
if FileClient.exclude_tag_attrs:
    attrs_str = ', '.join([f"<{t}[@{a}='{v}']>" for t, a, v in FileClient.exclude_tag_attrs])
    print(f"  Entfernte Elemente: {attrs_str}")

In [None]:
#@title **System-Prompt bearbeiten** (optional) { display-mode: "form" }
#@markdown Hier kannst du den System-Prompt anpassen.

#@markdown ### Eigenen System-Prompt verwenden:
use_custom_prompt = False #@param {type:"boolean"}

# Default-Prompt
DEFAULT_PROMPT = """# Prompt: Extraktion semantischer Triples aus fr√ºhneuzeitlichen Briefen  
**(LLM-optimiert, strikt themenzentriert, konzept-hierarchisch, nicht redundant)**

Du bist ein Experte f√ºr fr√ºhneuzeitliche Korrespondenz im **mitteleurop√§ischen Raum des sp√§ten 18. und fr√ºhen 19. Jahrhunderts (ca. 1750‚Äì1809)**.  
Deine Aufgabe ist die Extraktion **kanonischer, nicht redundanter** semantischer Triples  
(**Subjekt ‚Äì Pr√§dikat ‚Äì Objekt**) aus historischen Briefen dieses Zeitraums.

Der **historische Hintergrund Mitteleuropas** (Bildungswesen, Konfessionen, soziale Ordnung, Elternautorit√§t, Universit√§tskultur, Ehr- und Reputationsnormen, Briefkultur) ist **stillschweigend zu ber√ºcksichtigen**, ohne anachronistische Begriffe oder moderne Konzepte einzuf√ºhren.

Ziel ist ein **semantisch dichtes, stabiles, themenvergleichbares Ergebnis**, das sich f√ºr LLMs, Wissensgraphen und vergleichende Analysen eignet.

---

## INPUT
Du erh√§ltst:
- `abstraktionslevel` (1‚Äì5)
- `brieftext` (vollst√§ndiger Text inkl. Briefkopf)
- TEI-XML, ignoriere den TEI-header
- ignoriere die Kommentare
- ignoriere die Editorial Notes

---

## OUTPUT (VERBINDLICH)
Gib **ausschlie√ülich reines JSON** aus:

```json
{
  "entities": {...},
  "praedikate": {...},
  "triples": [...],
  "parameter": {...}
}
```

Keine Erkl√§rungen, kein Markdown, keine Zusatzfelder.

---

## VERBINDLICHE NAMENSNORMALISIERUNG

Die folgenden historischen oder vollst√§ndigen Namensformen sind **immer** auf die kanonische Form zu normalisieren:

- Johann Paul Friedrich Richter ‚Üí Jean Paul  
- Johann Wolfgang von G√∂the ‚Üí Goethe  
- Gotthold Ephraim Lessing ‚Üí Lessing  
- Immanuel Kant ‚Üí Kant  
- Friedrich Schiller ‚Üí Schiller  

Weitere Varianten sind **analog zu vereinheitlichen**  
(b√ºrgerlicher Vollname ‚Üí etablierter Werkname).

---

## ABSTRAKTIONSLEVEL ‚Üí ZIELANZAHL TRIPLES

| Level | Ziel |
|------|------|
| 1 | 1‚Äì2 Triples ‚Äì Kernaussage |
| 2 | 3‚Äì5 Triples ‚Äì Kernaussage + Hauptthemen |
| 3 | 8‚Äì12 Triples ‚Äì Themen + Argumentstruktur |
| 4 | 12‚Äì20 Triples ‚Äì thematisch relevante Details |
| 5 | 25+ Triples ‚Äì implizite, klar ableitbare Bedeutungen |

---

## KERNPRINZIP: KONZEPT-HIERARCHIE STATT AKTEURS-GRAPH

Der Brief ist **prim√§r als thematisches System** zu modellieren, nicht als Abfolge von Handlungen oder Personen.

### VERBINDLICHER MODELLIERUNGSPFAD

#### 1. OBERKONZEPTE IDENTIFIZIEREN  
Identifiziere zuerst **√ºbergeordnete Themenfelder** (Oberkonzepte), z.B.:

- Emotion  
- Krankheit  
- Liebe  
- Freundschaft  
- Soziale Ordnung  
- Moral / Gewissen  
- Bildung  
- Lebensweg  
- Zukunft / Erwartung  

Diese werden als **Konzept-Entit√§ten (Typ: Konzept)** modelliert.

---

#### 2. SUBKONZEPTE ABLEITEN  
Leite daraus **inhaltlich unterscheidbare Unterthemen** ab.

Beispiele:
- Emotion ‚Üí Schwermut, Angst, Hoffnung  
- Krankheit ‚Üí Hypochondrie, k√∂rperliche Schw√§che  
- Soziale Ordnung ‚Üí elterliche Autorit√§t, soziale Kontrolle, Ruf  

Subkonzepte sind **immer Konzepte, niemals Personenattribute**.

---

#### 3. KONZEPT‚ÄìKONZEPT-BEZIEHUNGEN MODELLIEREN  
Modelliere bevorzugt Beziehungen **zwischen Ober- und Subkonzepten** oder zwischen Subkonzepten.

Beispiele:
- Schwermut ist_Subkonzept_von Emotion  
- Hypochondrie ist_Subkonzept_von Krankheit  
- Soziale_Kontrolle versch√§rft Emotionale_Krise  
- Krankheit beeinflusst Lebenswille  

**Mindestens 50 % aller Triples m√ºssen Konzept‚ÜîKonzept sein.**

---

#### 4. PERSONEN NUR ALS TR√ÑGER (NACHRANGIG)
Personen d√ºrfen **nur** erscheinen, wenn sie:
- Tr√§ger eines Konzepts sind
- von einem Konzept betroffen sind
- eine thematische Dynamik ausl√∂sen

Zul√§ssige Muster:
- Krankheit betrifft Wagner  
- Emotionale_Krise betrifft Empf√§nger  

Unzul√§ssig:
- Person ‚Üî Person ohne thematische Vermittlung

---

#### 5. ORTE NUR ALS THEMATISCHER RAHMEN (AUSNAHME)
Orte d√ºrfen nur modelliert werden, wenn sie:
- einen thematischen Zustand rahmen oder beeinflussen
- sozial oder symbolisch relevant sind

Unzul√§ssig:
- reine Lokalisierungen (‚Äûschreibt aus X")

---

## AUFL√ñSUNG VON ZUSTANDS-, ROLLEN- UND KOMPOSIT-ENTIT√ÑTEN

Komplexe Zuschreibungen wie  
‚ÄûX-Zustand von Person Y"  
d√ºrfen **nicht** als eigene Entit√§t stehen bleiben.

Sie sind **immer** zu zerlegen in:
1. ein **abstraktes Konzept**
2. eine **explizite Beziehung**

Beispiel:
- ‚ÄûKrankheitszustand Wagners"  
  ‚Üí Konzept: Krankheit  
  ‚Üí Triple: Krankheit betrifft Wagner

---

## REDUNDANZ-REGELN (STRIKT)

1. Keine Dubletten  
2. Keine Spiegelungen ohne Mehrwert  
3. Keine leeren Kommunikations-Triples  
4. Komplexe Sachverhalte als Ereignisknoten  
5. Verdichten statt auflisten  

---

## ENTIT√ÑTEN

**Typen**:  
Person | Ort | Werk | Institution | Ereignis | Konzept | Zeitpunkt | Sonstiges  

**Normalisierung**:
- ‚Äûich" ‚Üí Absender
- ‚ÄûSie" ‚Üí Empf√§nger
- moderne Rechtschreibung
- vollst√§ndige Datumsangaben
- historische Ortsnamen beibehalten

**IDs**: E1, E2, E3, ‚Ä¶

---

## PR√ÑDIKATE

Verwende ein **kleines, stabiles Pr√§dikatsinventar**  
(Level 3: ca. 10‚Äì16 Pr√§dikate).

Beispiele:
- ist_Subkonzept_von
- beeinflusst
- versch√§rft
- beruhigt
- reguliert
- verursacht
- interpretiert_als
- betrifft
- unterliegt
- rahmt
- empfiehlt

---

## JSON-FORMAT (VERBINDLICH)

```json
{
  "entities": {
    "E1": {"label": "...", "typ": "..."}
  },
  "praedikate": {
    "P1": {"label": "...", "normalisiert_von": ["..."]}
  },
  "triples": [
    {"subjekt": "E1", "praedikat": "P1", "objekt": "E2"}
  ],
  "parameter": {
    "granularitaet": 3,
    "anzahl_triples": 10
  }
}
```

---

## START
Analysiere nun den bereitgestellten `brieftext` gem√§√ü diesen Regeln  
und gib **ausschlie√ülich das JSON** aus."""

if use_custom_prompt:
    print("üìù Bearbeite deinen System-Prompt:\n")
    
    import ipywidgets as widgets
    from IPython.display import display
    
    # Textarea Widget
    prompt_textarea = widgets.Textarea(
        value=DEFAULT_PROMPT,
        placeholder='System-Prompt hier eingeben...',
        description='',
        layout=widgets.Layout(width='100%', height='300px')
    )
    
    # Speichern-Button
    save_button = widgets.Button(
        description='‚úì Prompt speichern',
        button_style='success',
        layout=widgets.Layout(width='200px')
    )
    
    output_area = widgets.Output()
    
    def on_save_click(b):
        with output_area:
            output_area.clear_output()
            global CUSTOM_PROMPT
            CUSTOM_PROMPT = prompt_textarea.value
            print(f"‚úì System-Prompt gespeichert ({len(CUSTOM_PROMPT)} Zeichen)")
    
    save_button.on_click(on_save_click)
    
    # Anzeigen
    display(prompt_textarea)
    display(save_button)
    display(output_area)
    
    # Initial speichern
    CUSTOM_PROMPT = DEFAULT_PROMPT
    
else:
    CUSTOM_PROMPT = None
    print("‚Ñπ Standard-Prompt wird verwendet")

In [None]:
#@title **Dateien hochladen** { display-mode: "form" }
#@markdown Lade deine XML-Dateien oder ein ZIP-Archiv hoch.

from google.colab import files
import zipfile
import shutil
import ipywidgets as widgets
from IPython.display import display, clear_output

# Upload-Verzeichnis
upload_dir = '/content/triple-colab/uploads'

# Globale Variable f√ºr Dateiliste
if 'uploaded_files' not in globals():
    uploaded_files = []

def reset_all():
    """Setzt alles zur√ºck au√üer API-Konfiguration."""
    global uploaded_files, results, current_graph_index
    
    # L√∂sche Upload-Verzeichnis
    if os.path.exists(upload_dir):
        shutil.rmtree(upload_dir)
    os.makedirs(upload_dir, exist_ok=True)
    
    # L√∂sche Ergebnisse
    output_dir = '/content/triple-colab/output_json'
    if os.path.exists(output_dir):
        for file in os.listdir(output_dir):
            os.remove(os.path.join(output_dir, file))
    
    graphs_dir = '/content/triple-colab/graphs'
    if os.path.exists(graphs_dir):
        shutil.rmtree(graphs_dir)
    
    # Variablen zur√ºcksetzen
    uploaded_files = []
    results = []
    current_graph_index = 0
    
    print("‚úì Alle Dateien und Ergebnisse gel√∂scht - API-Konfiguration bleibt erhalten")

def upload_files():
    """Datei-Upload Handler."""
    global uploaded_files
    
    if uploaded_files:
        print("‚ö† Es sind bereits Dateien hochgeladen. Nutze 'Alles l√∂schen', um neue Dateien hochzuladen.")
        return
    
    # Upload-Verzeichnis sicherstellen
    os.makedirs(upload_dir, exist_ok=True)
    
    print("Bitte w√§hle deine Dateien aus...")
    uploaded = files.upload()
    
    # Hochgeladene Dateien verarbeiten
    for filename, content in uploaded.items():
        filepath = os.path.join(upload_dir, filename)
        with open(filepath, 'wb') as f:
            f.write(content)
        
        # ZIP-Archive entpacken
        if filename.endswith('.zip'):
            print(f"üì¶ Entpacke {filename}...")
            with zipfile.ZipFile(filepath, 'r') as zip_ref:
                # Sichere Extraktion zur Vermeidung von Path-Traversal
                for member in zip_ref.infolist():
                    member_path = os.path.join(upload_dir, member.filename)
                    # Normalisierte Pfade pr√ºfen
                    target_path = os.path.realpath(member_path)
                    base_path = os.path.realpath(upload_dir)
                    if not target_path.startswith(base_path + os.sep) and target_path != base_path:
                        raise ValueError(f"Unsichere Pfadangabe im ZIP-Archiv erkannt: {member.filename}")
                    zip_ref.extract(member, upload_dir)
            os.remove(filepath)
            print(f"‚úì {filename} erfolgreich entpackt")
    
    # XML-Dateien sammeln
    for root, dirs, files_in_dir in os.walk(upload_dir):
        for file in files_in_dir:
            if file.endswith('.xml'):
                uploaded_files.append(os.path.join(root, file))
    
    update_file_list()

def delete_file(filepath):
    """L√∂scht eine einzelne Datei."""
    global uploaded_files
    
    if filepath in uploaded_files:
        uploaded_files.remove(filepath)
        if os.path.exists(filepath):
            os.remove(filepath)
    
    update_file_list()

def update_file_list():
    """Aktualisiert die Dateilisten-Anzeige."""
    with file_list_output:
        clear_output()
        
        if not uploaded_files:
            print("Keine Dateien hochgeladen.")
        else:
            print(f"‚úì {len(uploaded_files)} XML-Datei(en):\n")
            
            for filepath in uploaded_files:
                filename = os.path.basename(filepath)
                
                # L√∂sch-Button f√ºr jede Datei
                delete_btn = widgets.Button(
                    description='üóë',
                    button_style='danger',
                    layout=widgets.Layout(width='50px', height='28px')
                )
                
                label = widgets.Label(value=filename)
                
                def make_delete_handler(fp):
                    def handler(b):
                        delete_file(fp)
                    return handler
                
                delete_btn.on_click(make_delete_handler(filepath))
                
                row = widgets.HBox([delete_btn, label])
                display(row)

# UI-Komponenten
upload_button = widgets.Button(
    description='üìÅ Dateien hochladen',
    button_style='primary',
    layout=widgets.Layout(width='200px')
)

reset_button = widgets.Button(
    description='üóë Alles l√∂schen',
    button_style='warning',
    layout=widgets.Layout(width='150px')
)

file_list_output = widgets.Output()

# Event Handler
upload_button.on_click(lambda b: upload_files())
reset_button.on_click(lambda b: (reset_all(), update_file_list()))

# UI anzeigen
display(widgets.HBox([upload_button, reset_button]))
display(file_list_output)

# Initial anzeigen
update_file_list()

In [None]:
#@title **Verarbeitung starten** { display-mode: "form" }
#@markdown Startet die Triple-Extraktion f√ºr alle hochgeladenen Dateien.

import json
import time
from datetime import datetime
from file_client import FileClient
from openwebui_client import OpenWebUIClient

# Validierung
if 'selected_config' not in globals():
    raise ValueError(
        "‚ùå Keine API-Konfiguration gefunden!\n\n"
        "Bitte f√ºhre zuerst die Zelle 'API-Konfiguration' aus."
    )

if 'api_key' not in globals() or not api_key:
    raise ValueError(
        "‚ùå Kein API-Schl√ºssel gefunden!\n\n"
        "Bitte f√ºhre die Zelle 'API-Konfiguration' aus und gib deinen API-Schl√ºssel ein."
    )

if 'uploaded_files' not in globals() or not uploaded_files:
    raise ValueError(
        "‚ùå Keine Dateien hochgeladen!\n\n"
        "Bitte f√ºhre zuerst die Zelle 'Dateien hochladen' aus."
    )

# Client initialisieren
client = OpenWebUIClient(
    api_key=selected_config['api_key'],
    base_url=selected_config['base_url'],
    model=selected_config['model'],
    temperature=selected_config['temperature']
)

# System-Prompt - IMMER den DEFAULT_PROMPT verwenden, bei Custom den bearbeiteten
system_prompt = CUSTOM_PROMPT if ('use_custom_prompt' in globals() and use_custom_prompt and CUSTOM_PROMPT) else DEFAULT_PROMPT

# Prompt-Template (vereinfacht, Hauptinstruktionen sind im System-Prompt)
def create_prompt(text, granularity):
    return f"""Abstraktionslevel: {granularity}

Brieftext:
{text}"""

# Verarbeitung
results = []
output_dir = '/content/triple-colab/output_json'
plaintext_dir = '/content/triple-colab/output_plaintext'

print(f"Verarbeite {len(uploaded_files)} Datei(en)...\n")

for i, filepath in enumerate(uploaded_files, 1):
    filename = os.path.basename(filepath)
    print(f"[{i}/{len(uploaded_files)}] {filename}")
    
    try:
        # Zeitmessung starten
        start_time = time.time()
        
        # Text einlesen
        file_client = FileClient(filepath)
        text = file_client.read_content()
        
        if not text:
            print(f"  ‚ö† Konnte Text nicht extrahieren")
            continue
        
        # Zeichenanzahl ermitteln
        char_count = len(text)
        
        # Plaintext-Datei speichern
        plaintext_filename = os.path.splitext(filename)[0] + '.txt'
        plaintext_path = os.path.join(plaintext_dir, plaintext_filename)
        with open(plaintext_path, 'w', encoding='utf-8') as f:
            f.write(text)
        
        # API-Anfrage
        prompt = create_prompt(text, selected_config['granularity'])
        response = client.generate_response(prompt, system_prompt)
        
        if not response:
            print(f"  ‚ùå Keine Antwort erhalten")
            continue
        
        # JSON parsen
        try:
            clean_response = response.strip()
            if clean_response.startswith('```'):
                clean_response = '\n'.join(clean_response.split('\n')[1:-1])
            if clean_response.startswith('json'):
                clean_response = '\n'.join(clean_response.split('\n')[1:])
            
            data = json.loads(clean_response)
            triple_count = len(data.get('triples', []))
            
            # Zeitmessung beenden
            end_time = time.time()
            execution_time = round(end_time - start_time, 2)
            
            # Metadaten im Pipeline-Format hinzuf√ºgen
            data['metadata'] = {
                'datei': os.path.splitext(filename)[0],
                'verarbeitet': datetime.now().isoformat(),
                'ausfuehrungszeit_sekunden': execution_time,
                'modell': selected_config['model'],
                'api_provider': selected_config['provider'],
                'zeichenanzahl': char_count,
                'original_text': text
            }
            
            # Ergebnis speichern
            output_filename = os.path.splitext(filename)[0] + '.json'
            output_path = os.path.join(output_dir, output_filename)
            
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
            
            results.append({
                'filename': filename,
                'triples': data.get('triples', []),
                'entities': data.get('entities', {}),
                'praedikate': data.get('praedikate', {}),
                'output_path': output_path,
                'plaintext_path': plaintext_path
            })
            
            print(f"  ‚úì {triple_count} Triples extrahiert ({execution_time}s)")
            
        except json.JSONDecodeError as e:
            print(f"  ‚ùå JSON-Parse-Fehler: {e}")
            if selected_config.get('verbose', False):
                print(f"  Response: {response[:200]}...")
            continue
            
    except Exception as e:
        print(f"  ‚ùå Fehler: {e}")
        continue

print(f"\n‚úì Verarbeitung abgeschlossen!")
print(f"  {len(results)} von {len(uploaded_files)} Dateien erfolgreich verarbeitet")
total_triples = sum(len(r['triples']) for r in results)
print(f"  {total_triples} Triples gesamt extrahiert")

In [None]:
#@title **Ergebnis visualisieren** { display-mode: "form" }
#@markdown Zeigt die Wissensgraphen als durchbl√§tterbare Galerie.

import plotly.graph_objects as go
import networkx as nx
import ipywidgets as widgets
from IPython.display import display, clear_output, Image
import os

if 'results' not in globals() or not results:
    print("‚ùå Keine Ergebnisse vorhanden. Bitte f√ºhre zuerst die Verarbeitung aus.")
else:
    # Graphs-Verzeichnis erstellen
    graphs_dir = '/content/triple-colab/graphs'
    os.makedirs(graphs_dir, exist_ok=True)
    
    # Aktueller Index (global f√ºr Navigation)
    if 'current_graph_index' not in globals():
        current_graph_index = 0
    
    def create_graph(result, save_png=True):
        """Erstellt einen Plotly-Graph aus Triples."""
        triples = result['triples']
        entities = result.get('entities', {})
        praedikate = result.get('praedikate', {})
        
        if not triples:
            return None, "‚ö† Keine Triples zum Visualisieren gefunden."
        
        G = nx.DiGraph()
        
        # Hilfsfunktion: Entity-ID zu Label aufl√∂sen
        def get_label(entity_id):
            if entity_id in entities:
                return entities[entity_id].get('label', entity_id)
            return entity_id
        
        # Hilfsfunktion: Pr√§dikat-ID zu Label aufl√∂sen
        def get_predicate_label(pred_id):
            if pred_id in praedikate:
                return praedikate[pred_id].get('label', pred_id)
            return pred_id
        
        for triple in triples:
            # Unterst√ºtze beide Formate: deutsch (subjekt/objekt) und englisch (subject/object)
            subj_id = triple.get('subjekt', triple.get('subject', ''))
            pred_id = triple.get('praedikat', triple.get('predicate', ''))
            obj_id = triple.get('objekt', triple.get('object', ''))
            
            # IDs zu Labels aufl√∂sen
            subj = get_label(subj_id)
            pred = get_predicate_label(pred_id)
            obj = get_label(obj_id)
            
            if subj and obj:
                G.add_edge(subj, obj, label=pred)
        
        if len(G.nodes()) == 0:
            return None, "‚ö† Keine Knoten im Graph gefunden."
        
        pos = nx.spring_layout(G, k=2, iterations=50)
        
        # Edge-Traces (Linien)
        edge_trace = []
        for edge in G.edges():
            x0, y0 = pos[edge[0]]
            x1, y1 = pos[edge[1]]
            edge_trace.append(
                go.Scatter(
                    x=[x0, x1, None],
                    y=[y0, y1, None],
                    mode='lines',
                    line=dict(width=1, color='#888'),
                    hoverinfo='none',
                    showlegend=False
                )
            )
        
        # Edge-Label-Trace (Beschriftungen auf den Linien)
        edge_label_x = []
        edge_label_y = []
        edge_label_text = []
        
        for edge in G.edges(data=True):
            x0, y0 = pos[edge[0]]
            x1, y1 = pos[edge[1]]
            # Mittelpunkt der Kante
            edge_label_x.append((x0 + x1) / 2)
            edge_label_y.append((y0 + y1) / 2)
            edge_label_text.append(edge[2].get('label', ''))
        
        edge_label_trace = go.Scatter(
            x=edge_label_x,
            y=edge_label_y,
            mode='text',
            text=edge_label_text,
            textposition='middle center',
            textfont=dict(size=10, color='#555'),
            hoverinfo='text',
            showlegend=False
        )
        
        # Node-Trace
        node_x = []
        node_y = []
        node_text = []
        
        for node in G.nodes():
            x, y = pos[node]
            node_x.append(x)
            node_y.append(y)
            node_text.append(node)
        
        node_trace = go.Scatter(
            x=node_x,
            y=node_y,
            mode='markers+text',
            text=node_text,
            textposition='top center',
            hoverinfo='text',
            marker=dict(
                size=20,
                color='lightblue',
                line=dict(width=2, color='darkblue')
            ),
            showlegend=False
        )
        
        # Figure erstellen
        fig = go.Figure(
            data=edge_trace + [edge_label_trace, node_trace],
            layout=go.Layout(
                title=f"Wissensgraph: {result['filename']}",
                showlegend=False,
                hovermode='closest',
                margin=dict(b=20, l=20, r=20, t=40),
                xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                yaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                height=600,
                width=800
            )
        )
        
        # PNG speichern
        if save_png:
            try:
                png_filename = os.path.splitext(result['filename'])[0] + '.png'
                png_path = os.path.join(graphs_dir, png_filename)
                fig.write_image(png_path, width=1200, height=800)
                result['graph_path'] = png_path
            except Exception as e:
                # PNG-Export fehlgeschlagen, aber Graph kann trotzdem angezeigt werden
                pass
        
        stats = f"Graph mit {len(G.nodes())} Entit√§ten und {len(G.edges())} Beziehungen"
        return fig, stats
    
    def show_graph(index):
        """Zeigt Graph an gegebenem Index."""
        with graph_output:
            clear_output(wait=True)
            
            if 0 <= index < len(results):
                result = results[index]
                fig, stats = create_graph(result)
                
                if fig:
                    # PNG anzeigen (fig.show() funktioniert nicht in widgets.Output in Colab)
                    if 'graph_path' in result and os.path.exists(result['graph_path']):
                        display(Image(filename=result['graph_path']))
                    else:
                        # Fallback: PNG tempor√§r erzeugen und anzeigen
                        try:
                            tmp_path = f'/content/triple-colab/graphs/_temp_preview.png'
                            fig.write_image(tmp_path, width=1200, height=800)
                            display(Image(filename=tmp_path))
                        except Exception:
                            # Letzter Fallback: display(fig) versuchen
                            display(fig)
                    print(f"\n{stats}")
                else:
                    print(stats)
            
            # Navigation-Status aktualisieren
            nav_label.value = f"Datei {index + 1} von {len(results)}"
            prev_btn.disabled = (index == 0)
            next_btn.disabled = (index == len(results) - 1)
    
    def on_prev_click(b):
        global current_graph_index
        if current_graph_index > 0:
            current_graph_index -= 1
            show_graph(current_graph_index)
    
    def on_next_click(b):
        global current_graph_index
        if current_graph_index < len(results) - 1:
            current_graph_index += 1
            show_graph(current_graph_index)
    
    # Navigation-Buttons
    prev_btn = widgets.Button(
        description='‚Üê Zur√ºck',
        button_style='info',
        layout=widgets.Layout(width='120px')
    )
    
    next_btn = widgets.Button(
        description='Weiter ‚Üí',
        button_style='info',
        layout=widgets.Layout(width='120px')
    )
    
    nav_label = widgets.Label(
        value=f"Datei 1 von {len(results)}",
        layout=widgets.Layout(width='150px')
    )
    
    prev_btn.on_click(on_prev_click)
    next_btn.on_click(on_next_click)
    
    graph_output = widgets.Output()
    
    # UI anzeigen
    nav_box = widgets.HBox([prev_btn, nav_label, next_btn], layout=widgets.Layout(justify_content='center'))
    display(nav_box)
    display(graph_output)
    
    # Ersten Graph anzeigen
    show_graph(current_graph_index)

In [None]:
#@title **Ergebnisse als ZIP herunterladen** { display-mode: "form" }
#@markdown L√§dt alle JSON-Ergebnisse, Plaintext-Dateien und PNG-Grafiken als ZIP-Archiv herunter.

from google.colab import files
import zipfile
from datetime import datetime

if 'results' not in globals() or not results:
    print("‚ùå Keine Ergebnisse vorhanden. Bitte f√ºhre zuerst die Verarbeitung aus.")
else:
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
    zip_filename = f'triple_extraction_results_{timestamp}.zip'
    zip_path = f'/content/{zip_filename}'
    
    graphs_dir = '/content/triple-colab/graphs'
    
    with zipfile.ZipFile(zip_path, 'w') as zipf:
        # JSON-Dateien hinzuf√ºgen
        for result in results:
            output_path = result['output_path']
            arcname = f"json/{os.path.basename(output_path)}"
            zipf.write(output_path, arcname)
        
        # Plaintext-Dateien hinzuf√ºgen
        for result in results:
            if 'plaintext_path' in result and os.path.exists(result['plaintext_path']):
                plaintext_path = result['plaintext_path']
                arcname = f"plaintext/{os.path.basename(plaintext_path)}"
                zipf.write(plaintext_path, arcname)
        
        # PNG-Grafiken hinzuf√ºgen (falls vorhanden)
        if os.path.exists(graphs_dir):
            for result in results:
                if 'graph_path' in result and os.path.exists(result['graph_path']):
                    graph_path = result['graph_path']
                    arcname = f"graphs/{os.path.basename(graph_path)}"
                    zipf.write(graph_path, arcname)
    
    print(f"Lade {zip_filename} herunter...")
    print(f"  ‚Ä¢ {len(results)} JSON-Dateien")
    
    plaintext_count = sum(1 for r in results if 'plaintext_path' in r and os.path.exists(r['plaintext_path']))
    if plaintext_count > 0:
        print(f"  ‚Ä¢ {plaintext_count} Plaintext-Dateien")
    
    graph_count = sum(1 for r in results if 'graph_path' in r and os.path.exists(r['graph_path']))
    if graph_count > 0:
        print(f"  ‚Ä¢ {graph_count} PNG-Grafiken")
    
    files.download(zip_path)
    print(f"\n‚úì Download gestartet")

## Hilfe & Troubleshooting

| Problem | L√∂sung |
|---------|--------|
| **NameError: api_key not defined** | F√ºhre die Zelle "API-Konfiguration" aus |
| **Ung√ºltiger API-Schl√ºssel** | Pr√ºfe ob der Schl√ºssel korrekt kopiert wurde |
| **Rate Limit Error** | Warte kurz und versuche es erneut |
| **Timeout** | Versuche es mit weniger oder kleineren Dateien |
| **Keine Triples extrahiert** | Erh√∂he den Detailgrad oder passe den Prompt an |
| **JSON Parse Error** | Aktiviere "Debug-Modus" in der Konfiguration |

**API-Schl√ºssel erhalten:**
- Gemini: https://aistudio.google.com/apikey
- ChatAI: https://chat-ai.academiccloud.de/
- OpenAI: https://platform.openai.com/api-keys