## 1. Aufbereitung der Urteilstexte und Vorbereitung des Analyse-Datensatzes

In diesem Abschnitt werden die eingelesenen OpenJur-Urteilstexte weiterverarbeitet und strukturiert. Ziel ist es, relevante Textbestandteile wie den Kopfbereich und den Tenor zu extrahieren, Landgerichtsurteile zu identifizieren und die Daten schlie√ülich in ein geeignetes JSONL-Format f√ºr die nachgelagerte automatische Analyse zu √ºberf√ºhren.


### 1.1 Import der ben√∂tigten Bibliotheken

Zu Beginn werden die f√ºr die weitere Verarbeitung erforderlichen Python-Bibliotheken importiert. Diese umfassen Funktionen f√ºr Dateizugriffe, regul√§re Ausdr√ºcke, Datenverarbeitung mit Pandas sowie den Export der Ergebnisse im JSON-Format.

In [46]:
#Import
import os
import re
import json
import pandas as pd

### 1.2 Einlesen der Urteilstexte und Aufbau des DataFrames

In diesem Schritt werden alle zuvor identifizierten Textdateien zeilenweise eingelesen. F√ºr jede Datei wird eine eindeutige Fall-ID aus dem Dateinamen erzeugt und gemeinsam mit dem vollst√§ndigen Text in einem Pandas-DataFrame gespeichert. Der DataFrame bildet die zentrale Datenstruktur f√ºr die weitere Analyse.

In [47]:
# (.txt) Dateien einlesen
DATA_DIR = "../data/Gerichtsurteile_Openjur" 
files = [f for f in os.listdir(DATA_DIR) if f.lower().endswith(".txt")]

print("Pfad:", os.path.abspath(DATA_DIR))
print("Anzahl .txt:", len(files))
print("Erste 10 Dateien:", files[:10])


Pfad: c:\Users\there\ds_law\backend\data\Gerichtsurteile_Openjur
Anzahl .txt: 2375
Erste 10 Dateien: ['2090187.txt', '2112111.txt', '2112115.txt', '2112117.txt', '2112118.txt', '2112119.txt', '2112121.txt', '2112123.txt', '2124977.txt', '2126821.txt']


---

## 2. Textvorverarbeitung und Extraktion zentraler Urteilsbestandteile

In diesem Abschnitt werden die eingelesenen Urteilstexte weiterverarbeitet, um f√ºr die nachfolgende Analyse relevante Textbestandteile gezielt zu extrahieren. Hierzu z√§hlen insbesondere ein begrenzter Kopfbereich zur Voranalyse sowie der Tenor als Kern der gerichtlichen Entscheidung. Die strukturierte Aufbereitung dieser Textsegmente bildet die Grundlage f√ºr Filter-, Klassifikations- und Extraktionsschritte in den folgenden Abschnitten.

### 2.1 Erzeugung eines Kopfbereichs zur Voranalyse

Da relevante Metadaten wie Gericht, Entscheidungsart und Datum typischerweise am Anfang eines Urteilstextes stehen, wird ein begrenzter Kopfbereich (`head`) aus den ersten Zeichen des Dokuments extrahiert. Dieser verk√ºrzte Textausschnitt dient als effizienter Suchraum f√ºr Filter- und Klassifikationsschritte.


In [48]:
rows = []
for fn in files:
    case_id = fn.replace(".txt", "")
    path = os.path.join(DATA_DIR, fn)
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        text = f.read()
    rows.append({"case_id": case_id, "text": text})

df = pd.DataFrame(rows)
print("Gesamt eingelesen:", len(df))


Gesamt eingelesen: 2375


In [49]:
HEAD_CHARS = 8000
df["head"] = df["text"].astype(str).str.slice(0, HEAD_CHARS)

print("Head-L√§nge (Beispiel):", len(df.loc[0, "head"]))


Head-L√§nge (Beispiel): 8000


### 2.2 Extraktion des Tenors

Der Tenor enth√§lt die eigentliche gerichtliche Entscheidung und ist daher f√ºr die inhaltliche Bewertung besonders relevant. Mithilfe regul√§rer Ausdr√ºcke wird der Textabschnitt zwischen der √úberschrift ‚ÄûTenor‚Äú und den nachfolgenden Abschnitten (z. B. ‚ÄûTatbestand‚Äú oder ‚ÄûGr√ºnde‚Äú) extrahiert und in einer separaten Spalte gespeichert.

In [50]:
def extract_tenor(text: str) -> str:
    if not isinstance(text, str):
        return ""
    m_start = re.search(r"\bTenor\b", text, flags=re.IGNORECASE)
    if not m_start:
        return ""
    start = m_start.end()
    m_end = re.search(
        r"\b(Tatbestand|Gr√ºnde|Gruende|Entscheidungsgr√ºnde|Entscheidungsgruende)\b",
        text[start:],
        flags=re.IGNORECASE
    )
    end = start + m_end.start() if m_end else min(len(text), start + 8000)
    return text[start:end].strip()

df["tenor"] = df["text"].apply(extract_tenor)

print("Tenor vorhanden:", (df["tenor"].str.len() > 0).sum(), "von", len(df))

Tenor vorhanden: 2362 von 2375


### 2.3 Identifikation von Landgerichtsurteilen (LG)

Im n√§chsten Schritt werden die Urteile anhand des Kopfbereichs danach gefiltert, ob es sich um Entscheidungen eines Landgerichts handelt. Dazu wird gepr√ºft, ob charakteristische Begriffe wie ‚ÄûLandgericht‚Äú oder die Abk√ºrzung ‚ÄûLG‚Äú im Kopfbereich vorkommen. Auf dieser Grundlage wird eine boolesche Variable erzeugt, die zur Selektion der relevanten F√§lle dient.

In [51]:
lg_pattern = r"\bLandgericht\b|\bLG\s+[A-Z√Ñ√ñ√úa-z√§√∂√º√ü\-]+"
df["is_landgericht"] = df["head"].str.contains(lg_pattern, case=False, regex=True, na=False)

print("-" * 40)
print("STATISTIK (LG-Filter)")
print(df["is_landgericht"].value_counts(dropna=False))
print("-" * 40)

df_lg = df[df["is_landgericht"] == True].copy()
print("‚úÖ LG-Dokumente:", len(df_lg))

----------------------------------------
STATISTIK (LG-Filter)
is_landgericht
True     2088
False     287
Name: count, dtype: int64
----------------------------------------
‚úÖ LG-Dokumente: 2088


### 2.4 Bereinigung des Kopfbereichs von OLG-Verweisen

Da in vielen Urteilen Verweise auf Oberlandesgerichte (z. B. im Rahmen von Berufungsverfahren) enthalten sind, werden entsprechende Zeilen aus dem Kopfbereich entfernt. Ziel ist es, den Text f√ºr die sp√§tere automatische Analyse auf die tats√§chlich entscheidungsrelevanten Informationen zu reduzieren und potenzielle Fehlinterpretationen zu vermeiden.

In [52]:
re_olg_line = re.compile(
    r"(?i)^\s*(?:Einfach\s*)?O\s*L\s*G\b|^\s*(?:Einfach\s*)?Oberlandesgericht\b"
)

def remove_olg_lines(block: str) -> str:
    if not isinstance(block, str) or not block:
        return ""
    kept = []
    for line in block.splitlines():
        if re_olg_line.search(line):
            continue
        kept.append(line)
    return "\n".join(kept).strip()

df_lg["head_clean"] = df_lg["head"].apply(remove_olg_lines)

still_olg = df_lg["head_clean"].str.contains(
    r"(?i)^\s*(?:Einfach\s*)?O\s*L\s*G\b|^\s*(?:Einfach\s*)?Oberlandesgericht\b",
    regex=True, na=False
).sum()

print("üîé OLG-ZEILEN in head_clean (soll 0 sein):", still_olg)

üîé OLG-ZEILEN in head_clean (soll 0 sein): 0


### 2.5 Definition des Extraktions- und Analyse-Prompts

F√ºr die sp√§tere automatisierte Auswertung der Urteile wird ein strukturierter Prompt definiert. Dieser enth√§lt detaillierte Anweisungen zur Extraktion von Sachverhaltsmerkmalen, Entscheidungsparametern und Zielvariablen. Der Prompt stellt sicher, dass alle Urteile nach einem einheitlichen Schema analysiert werden.

In [53]:
COMPREHENSIVE_PROMPT = """
Lies den Text genau und analysiere das vorliegende Gerichtsurteil. Extrahiere die folgenden Informationen pr√§zise. Falls eine Information im Text nicht auffindbar ist, gib "null" an.

### Extraktions-Anweisungen:
1. **Input-Variablen (Features):**
    * **Dieselmotor_Typ (String):** Welcher Motortyp (z. B. EA 189, EA 288)?
    * **Art_Abschalteinrichtung (String):** Beschreibung der genannten Abschalteinrichtung.
    * **KBA_Rueckruf (Boolean):** Verpflichtender R√ºckruf des Kraftfahrt-Bundesamtes? (true/false)
    * **Fahrzeugstatus (String):** "Neuwagen" oder "Gebrauchtwagen"?
    * **Fahrzeugmodell_Baureihe (String):** Bezeichnung des Modells.
    * **Update_Status (Boolean/null):** Software-Update aufgespielt? (true/false/null)
    * **Kilometerstand_Kauf (Integer):** Stand bei Erwerb.
    * **Kilometerstand_Klageerhebung (Integer):** Stand bei Klageeinreichung.
    * **Erwartete_Gesamtlaufleistung (Integer):** Vom Gericht angenommene Gesamtlaufleistung.
    * **Kaufdatum (Date):** Format: YYYY-MM-DD.
    * **Uebergabedatum (Date):** Format: YYYY-MM-DD.
    * **Datum_Klageerhebung (Date):** Format: YYYY-MM-DD.
    * **Nachweis_Aufklaerung (Boolean):** Gab es eine Anlage zum Kaufvertrag √ºber die Software? (true/false)
    * **Beklagten_Typ (String):** "H√§ndler" oder "Hersteller".
    * **Datum_Urteil (Date):** Format: YYYY-MM-DD.
    * **Kaufpreis (Float):** Betrag in Euro (ohne Zinsen).
    * **Nacherfuellungsverlangen_Fristsetzung (String):** "Ja", "Nein", "Entbehrlich".
    * **Klageziel (String):** z. B. "R√ºckabwicklung", "Minderung", "Schadensersatz".
    * **Rechtsgrundlage (String):** z. B. ¬ß 437 BGB oder ¬ß 826 BGB.

2. **Zielvariablen (Labeling):**
    * **LABEL_Anspruch_Schadensersatz (Boolean):** Kl√§ger erh√§lt Schadensersatz? (true/false)
    * **LABEL_Schadensersatzhoehe_Betrag (Float):** Zugesprochener Betrag in Euro (ohne Zinsen).
    * **LABEL_Schadensersatzhoehe_Range (String):** "< 5000", "5000-10000", "10001-15000", "> 15000", "Klage abgewiesen".

3. **Kategorisierung "Sonstige":**
    Sollte im Tenor nichts √ºber Abweisung oder Schadensersatz stehen (sondern Streitwertfestsetzung, Ablehnungsgesuche etc.), kategorisiere als "Sonstige". Gib im Feld "Urteil_Anmerkung" die Begr√ºndung an.

### Ausgabeformat:
Antworte AUSSCHLIESSLICH als JSON-Liste mit einem Eintrag. Ignoriere Streitwerte und Zinsen.
""".strip()

### 2.6 Export der gefilterten LG-Urteile im JSONL-Format

Abschlie√üend werden ausschlie√ülich die gefilterten Landgerichtsurteile in eine JSONL-Datei exportiert. Jedes Urteil wird dabei als einzelner Eintrag mit Fall-ID, bereinigtem Kopfbereich, Tenor und Analyse-Prompt gespeichert. Dieses Format eignet sich insbesondere f√ºr die Batch-Verarbeitung mit gro√üen Sprachmodellen.

In [54]:
output_path = "gemini_batch_input_NUR_LG.jsonl"

with open(output_path, "w", encoding="utf-8") as f:
    for _, row in df_lg.iterrows():
        payload = {
            "custom_id": f"case_{row['case_id']}",
            "contents": [{
                "role": "user",
                "parts": [{
                    "text": f"Kopf: {row['head_clean']}\nTenor: {row['tenor']}\n\n{COMPREHENSIVE_PROMPT}"
                }]
            }]
        }
        f.write(json.dumps(payload, ensure_ascii=False) + "\n")

print("‚úÖ JSONL geschrieben:", output_path)

‚úÖ JSONL geschrieben: gemini_batch_input_NUR_LG.jsonl


---

## 3. Validierung der Batch-Verarbeitung anhand eines Einzelfalls

Bevor die vollst√§ndige Batch-Verarbeitung aller Landgerichtsurteile durchgef√ºhrt wird, erfolgt ein Probelauf anhand eines einzelnen Dokuments. Dazu wird aus der zuvor erzeugten JSONL-Datei eine reduzierte Testdatei erstellt, die ausschlie√ülich den ersten Eintrag enth√§lt.

Dieser Einzelfall wird √ºber die Batch-API verarbeitet, um die Funktionsf√§higkeit des Prompts, die Struktur der Modellantwort sowie die inhaltliche Plausibilit√§t der extrahierten Informationen zu √ºberpr√ºfen. Auf diese Weise k√∂nnen potenzielle Fehler fr√ºhzeitig identifiziert werden, bevor die Analyse auf den gesamten Datensatz ausgeweitet wird.


### 3.1 Erstellung einer Test-JSONL-Datei f√ºr den Probelauf

Zur technischen und inhaltlichen Validierung der Batch-Verarbeitung wird zun√§chst eine reduzierte JSONL-Datei erstellt, die ausschlie√ülich einen einzelnen Fall enth√§lt. Dieser Probelauf erm√∂glicht eine gezielte √úberpr√ºfung des Prompts und der Modellantwort, bevor die Analyse auf den vollst√§ndigen Datensatz ausgeweitet wird.

In [55]:
# Pfade
input_jsonl = "gemini_batch_input_NUR_LG.jsonl"
test_jsonl  = "gemini_batch_input_TEST_1.jsonl"

# Erste Zeile aus der gro√üen JSONL kopieren
with open(input_jsonl, "r", encoding="utf-8") as fin:
    first_line = fin.readline()

with open(test_jsonl, "w", encoding="utf-8") as fout:
    fout.write(first_line)

print("‚úÖ Test-JSONL mit einem Dokument erstellt:", test_jsonl)


‚úÖ Test-JSONL mit einem Dokument erstellt: gemini_batch_input_TEST_1.jsonl


### 3.2 Durchf√ºhrung eines Batch-Probelaufs mit der Gemini-API

Im Anschluss wird die erzeugte Test-JSONL-Datei √ºber die Batch-API des Gemini-Modells verarbeitet. Dabei wird die Datei zun√§chst hochgeladen und anschlie√üend ein Batch-Job gestartet. Um tempor√§re API-Limitierungen abzufangen, wird ein Exponential-Backoff-Mechanismus implementiert. Der Probelauf dient der √úberpr√ºfung, ob das Modell die Eingabestruktur korrekt verarbeitet und eine valide, strukturierte Ausgabe erzeugt.

&

### 3.3 Sichtpr√ºfung der Modellantwort

Die vom Modell erzeugte Ausgabe des Einzelfalls wird anschlie√üend manuell √ºberpr√ºft. Dabei wird kontrolliert, ob die extrahierten Merkmale vollst√§ndig, konsistent und in dem erwarteten JSON-Format vorliegen. Auf Grundlage dieser Sichtpr√ºfung wird entschieden, ob der Prompt oder die Vorverarbeitung angepasst werden m√ºssen.


In [None]:
import time, random
from google import genai

client = genai.Client(api_key="AIzaSyA_5C2o01dKnD6uOtEmJoCfTQKWkKB9QHE")

def create_batch_with_backoff(*, model, src, display_name, retries=8):
    delay = 2.0
    for attempt in range(1, retries + 1):
        try:
            return client.batches.create(
                model=model,
                src=src,
                config={"display_name": display_name},
            )
        except Exception as e:
            msg = str(e)
            if "429" in msg or "RESOURCE_EXHAUSTED" in msg:
                sleep_s = delay + random.uniform(0, 0.5 * delay)
                print(f"[{attempt}/{retries}] 429 -> sleep {sleep_s:.1f}s")
                time.sleep(sleep_s)
                delay = min(delay * 2, 60)
                continue
            raise

# Upload der Test-JSONL-Datei
uploaded = client.files.upload(
    file="gemini_batch_input_TEST_1.jsonl",
    config={"display_name": "diesel-lg-test-1", "mime_type": "jsonl"},
)
print("Upload:", uploaded.name)

# Start des Batch-Jobs
job = create_batch_with_backoff(
    model="gemini-2.5-flash",
    src=uploaded.name,
    display_name="diesel-lg-test-1",
)
print("Batch:", job.name)


Upload: files/7samsw8f9ztq
[1/8] 429 -> sleep 2.7s
[2/8] 429 -> sleep 4.9s
[3/8] 429 -> sleep 11.9s
[4/8] 429 -> sleep 20.1s
[5/8] 429 -> sleep 38.2s
[6/8] 429 -> sleep 68.8s


---

## 4. Durchf√ºhrung der automatisierten Urteilsanalyse

Ziel des Abschnitts:
Durchf√ºhrung der finalen automatisierten Analyse des bereits aufbereiteten Analyse-Datensatzes mithilfe der Gemini Batch-API sowie Erzeugung eines strukturierten Ergebnisdatensatzes f√ºr die weitere Auswertung.

Wichtig:
Keine erneute Datenaufbereitung, sondern Nutzung der in Abschnitt 2 erzeugten JSONL-Datei.

### 4.1 Bereitstellung der Analyse-Eingabedaten

Die in Abschnitt 2 aufbereiteten und gefilterten Urteilstexte liegen bereits in Form einer strukturierten JSONL-Datei vor.
Diese Datei dient als direkter Input f√ºr die nachgelagerte automatisierte Analyse und wird im Folgenden in das Batch-Verarbeitungssystem eingelesen.

(gemini_batch_input_NUR_LG.jsonl)

In [None]:
# Hier Code einf√ºgen

### 4.2 √úbergabe des Analyse-Datensatzes an die Batch-API

Nach der in Abschnitt 2 beschriebenen Aufbereitung der Urteilstexte liegt der vollst√§ndige Analyse-Datensatz in Form einer strukturierten JSONL-Datei vor. Diese Datei dient in diesem Schritt als Eingabe f√ºr die automatisierte Verarbeitung durch ein gro√ües Sprachmodell.

Die JSONL-Datei wird zun√§chst in das Batch-System hochgeladen. Anschlie√üend wird ein Batch-Verarbeitungsjob gestartet, der die hochgeladene Datei als Eingabequelle verwendet. F√ºr jedes enthaltene Dokument erzeugt das Modell eine strukturierte Antwort gem√§√ü den im Prompt definierten Extraktionsvorgaben.

Als Ergebnis des Batch-Jobs stellt die API eine Ausgabedatei bereit, die die Modellantworten zu allen verarbeiteten Urteilen enth√§lt. Diese Ausgabedatei liegt ebenfalls im JSONL-Format vor und bildet die Grundlage f√ºr die weitere Aufbereitung und Auswertung der Ergebnisse.


In [None]:
# Hier Code einf√ºgen

### 4.3 Aufbereitung der Batch-Ergebnisse und Erstellung des Analyse-Datensatzes

Die im vorherigen Schritt erzeugte Ausgabedatei des Batch-Jobs liegt zun√§chst als Rohdaten im JSONL-Format vor. Jede Zeile dieser Datei enth√§lt die strukturierte Modellantwort zu einem einzelnen Landgerichtsurteil.

Diese Rohdaten werden lokal gespeichert und anschlie√üend in ein tabellarisches Format √ºberf√ºhrt. Hierzu werden die relevanten Felder aus den JSON-Strukturen extrahiert und in einer einheitlichen Datenstruktur zusammengef√ºhrt, beispielsweise in Form einer CSV-Datei. 
Der so erzeugte Datensatz bildet die Grundlage f√ºr die weitere statistische Auswertung und Analyse in den folgenden Abschnitten.

In [None]:
# Hier Code einf√ºgen

---

## 5. Datenaufbereitung

In diesem Abschnitt werden die im vorherigen Schritt erzeugten Analyseergebnisse weiterverarbeitet und f√ºr die nachgelagerte statistische Auswertung vorbereitet. Grundlage hierf√ºr ist der aus den Batch-Ergebnissen abgeleitete strukturierte Datensatz, der die vom Sprachmodell extrahierten Informationen zu den einzelnen Urteilen enth√§lt.

Ziel der Datenaufbereitung ist es, die extrahierten Merkmale in eine konsistente, auswertbare Form zu √ºberf√ºhren, fehlende oder uneinheitliche Angaben zu behandeln und die Zielvariablen f√ºr die sp√§tere Analyse eindeutig zu definieren.

---

## 6. Analyse und Auswertung