In [2]:
import pandas as pd

EXCEL_PATH = "../data/geothermie_gesetz_kommentare.xlsx"
SHEET_NAME = "Gesetz + Kommentare"

df = pd.read_excel(EXCEL_PATH, sheet_name=SHEET_NAME)
df.head()

Unnamed: 0,Artikel,Typ,Paragraph,Absatz,Gliederungspunkt_Nr,Gesetzestext_Entwurf_1_0307,Gesetzestext_Entwurf_2_1508,Gesetzestext_Entwurf_3_0110,Gesetzestext_Entwurf_4_0312,Org_2,...,Org_24,Org_25,Org_26,Org_27,Org_28,Org_29,Org_30,Org_31,Org_32,Org_33
0,1,Allgemeine Anmerkungen,-1,0,,,,,,Der Beschleunigungseffekt des GeoBG erscheint ...,...,,,,,"Grundsätzlich ist ein Mehr an Geothermie, Sole...",Die Dekarbonisierung der Wärmeversorgung ist e...,s.o. § 1,,,
1,1,Paragraph/Absatz,1,0,,Zweck und Ziel des Gesetzes\nZweck dieses Gese...,Zweck und Ziel des Gesetzes\nZweck dieses Gese...,Zweck und Ziel des Gesetzes\nZweck dieses Gese...,Zweck und Ziel des Gesetzes\nZweck dieses Gese...,,...,,,,,,,,,,
2,1,Paragraph/Absatz,2,0,,Anwendungsbereich\nDieses Gesetz ist anzuwende...,Anwendungsbereich\nDieses Gesetz ist anzuwende...,Anwendungsbereich\nDieses Gesetz ist anzuwende...,Anwendungsbereich\nDieses Gesetz ist anzuwende...,,...,,,,,,,,,,
3,1,Paragraph/Absatz,3,0,,Begriffsbestimmungen\nIm Sinne dieses Gesetzes...,Begriffsbestimmungen\nIm Sinne dieses Gesetzes...,Begriffsbestimmungen\nIm Sinne dieses Gesetzes...,Begriffsbestimmungen\nIm Sinne dieses Gesetzes...,,...,,,,,,,,,,
4,1,Paragraph/Absatz,4,0,,Überragendes öffentliches Interesse\nDie Erric...,Überragendes öffentliches Interesse\nDie Erric...,Überragendes öffentliches Interesse\nDie Erric...,Überragendes öffentliches Interesse\nDie Erric...,,...,,,,,,,,,,


In [3]:
df.columns

Index(['Artikel', 'Typ', 'Paragraph', 'Absatz', 'Gliederungspunkt_Nr',
       'Gesetzestext_Entwurf_1_0307', 'Gesetzestext_Entwurf_2_1508',
       'Gesetzestext_Entwurf_3_0110', 'Gesetzestext_Entwurf_4_0312', 'Org_2',
       'Org_3', 'Org_5', 'Org_6', 'Org_7', 'Org_8', 'Org_9', 'Org_10',
       'Org_11', 'Org_12', 'Org_13', 'Org_14', 'Org_15', 'Org_16', 'Org_17',
       'Org_18', 'Org_19', 'Org_20', 'Org_21', 'Org_22', 'Org_23', 'Org_24',
       'Org_25', 'Org_26', 'Org_27', 'Org_28', 'Org_29', 'Org_30', 'Org_31',
       'Org_32', 'Org_33'],
      dtype='object')

In [11]:
# columns that are NOT organization comments
META_COLS = [
    'Artikel',
    'Typ',
    'Paragraph',
    'Absatz',
    'Gliederungspunkt_Nr',
    'Gesetzestext_Entwurf_1_0307',
    'Gesetzestext_Entwurf_2_1508',
    'Gesetzestext_Entwurf_3_0110',
    'Gesetzestext_Entwurf_4_0312'
]


ORG_COLS = [c for c in df.columns if c not in META_COLS]

In [None]:
import re
from typing import Optional
import numpy as np

# matches: word-<newline>word
HYPHEN_LINEBREAK_RE = re.compile(r"(\w+)-\s*\n\s*(\w+)", flags=re.UNICODE)

# optional: only if you really want to normalize slashes
SLASH_JOIN_RE = re.compile(r"(\w+)\s*/\s*(\w+)", flags=re.UNICODE)


def clean_legal_text(text: Optional[str]) -> str:
    """
    Cleans legal text while preserving semantic hyphenation.
    Only removes hyphens caused by line breaks (e.g. PDF artifacts).
    """
    if text is None or (isinstance(text, float) and np.isnan(text)):
        return ""

    t = str(text)

    # Normalize line endings
    t = t.replace("\r\n", "\n").replace("\r", "\n")

    # Normalize tabs
    t = t.replace("\t", " ")

    # Remove hyphenation ONLY when caused by line breaks
    # Example: "Ther-\nmal" -> "Thermal"
    # Keeps: "Erdwärme-Anlage", "CO2-Preis"
    t = HYPHEN_LINEBREAK_RE.sub(r"\1\2", t)

    # Replace remaining newlines with spaces
    t = re.sub(r"\n+", " ", t)

    # Optional: normalize slashed compounds (use with care)
    # Example: "Wärme-/Kältespeicher" -> "Wärme- und Kältespeicher"
    t = SLASH_JOIN_RE.sub(r"\1 und \2", t)

    # Collapse whitespace
    t = re.sub(r"\s+", " ", t).strip()

    return t

In [6]:
for org in ORG_COLS:
    df[org] = df[org].apply(clean_legal_text)

In [7]:
records = []

for org in ORG_COLS:
    # select non-empty comments
    mask = df[org].str.strip().ne("")
    comments = df.loc[mask, org]

    n_comments = int(mask.sum())
    n_articles = df.loc[mask, "Artikel"].nunique()

    token_counts = comments.str.split().str.len()
    total_tokens = int(token_counts.sum())
    mean_tokens = float(token_counts.mean()) if n_comments > 0 else 0.0
    # round to 2 decimal places
    mean_tokens = round(mean_tokens, 2)

    records.append({
        "organization": org,
        "n_comments": n_comments,
        "n_articles_commented": n_articles,
        "total_tokens": total_tokens,
        "mean_tokens_per_comment": mean_tokens,
    })

org_summary = pd.DataFrame(records).sort_values(
    "n_comments", ascending=False
)

org_summary.head(10)

Unnamed: 0,organization,n_comments,n_articles_commented,total_tokens,mean_tokens_per_comment
26,Org_29,21,6,4417,210.33
9,Org_12,18,4,5479,304.39
20,Org_23,16,4,2461,153.81
14,Org_17,14,3,2957,211.21
13,Org_16,14,6,1476,105.43
11,Org_14,13,3,1504,115.69
8,Org_11,13,6,629,48.38
27,Org_30,12,4,2647,220.58
19,Org_22,11,5,1179,107.18
0,Org_2,11,3,2114,192.18


In [8]:
# import org_map from second excel sheet
org_map = pd.read_excel(EXCEL_PATH, sheet_name="Org_Map")

org_summary = org_summary.merge(
    org_map, how="left", left_on="organization", right_on="Org_ID"
)

In [9]:
# reorder columns
org_summary = org_summary[
    ["Organisation_Name", "Organisation_Typ",
     "n_comments", "n_articles_commented",
     "total_tokens", "mean_tokens_per_comment"]
]
org_summary

Unnamed: 0,Organisation_Name,Organisation_Typ,n_comments,n_articles_commented,total_tokens,mean_tokens_per_comment
0,BDEW,Wirtschaftsverband,21,6,4417,210.33
1,Verband kommunaler Unternehmen e.V.,Wirtschaftsverband,18,4,5479,304.39
2,"Ministerium für Wirtschaft, Industrie, Klimasc...",Land/Landesbehörde,16,4,2461,153.81
3,Bundesverband Geothermie e. V.,Wirtschaftsverband,14,3,2957,211.21
4,"Bundesverband Erdgas, Erdöl und Geoenergie e.V...",Wirtschaftsverband,14,6,1476,105.43
5,Bund für Umwelt und Naturschutz Deutschland e....,Umweltverband,13,3,1504,115.69
6,"Niedersächsisches Ministerium für Wirtschaft, ...",Land/Landesbehörde,13,6,629,48.38
7,Bundesvereinigung der kommunalen Spitzenverbände,Kommunalverband,12,4,2647,220.58
8,"Ministerium für Energiewende, Klimaschutz, Umw...",Land/Landesbehörde,11,5,1179,107.18
9,Deutsche Umwelthilfe e.V.,Umweltverband,11,3,2114,192.18


In [None]:
# get max tokens
max_tokens = 0
for org in ORG_COLS:
    token_counts = df[org].str.split().str.len()
    org_max = token_counts.max()
    if org_max > max_tokens:
        max_tokens = org_max

max_tokens

np.int64(856)