In [1]:
#all subject areas and their corresponding termini

import pandas as pd
import re
from collections import Counter

# 1. read csv file
df = pd.read_csv("ED_Pub_Sachgebiet_multilingual5.csv", sep=";", encoding="utf-8") 

# all columns
relevant_columns = [
    "Header.Sachgebiete", "DES.Term(1)", "DES.Term(2)", "DES.Term(3)",
    "ENG.Term(1)", "ENG.Term(2)", "ENG.Term(3)",
    "FRS.Term(1)", "FRS.Term(2)", "FRS.Term(3)",
    "ITS.Term(1)", "ITS.Term(2)", "ITS.Term(3)"
]

df = df[relevant_columns]

# fill empty values with empty strings
df = df.fillna("")

# 🔥 1. Zerlege die Sachgebiete, damit jede Zeile nur ein Sachgebiet enthält
df["Header.Sachgebiete"] = df["Header.Sachgebiete"].str.split("; ")
df = df.explode("Header.Sachgebiete")  # Jede Zeile enthält jetzt nur ein Sachgebiet

# 🔥 2. Erstelle das Dictionary: Sachgebiet → Menge aller zugehörigen Begriffe
subject_areas = df.groupby("Header.Sachgebiete").agg(set).apply(lambda row: set.union(*row), axis=1).to_dict()


#print(list(subject_areas.keys())[:4])
#print(list(subject_areas.items())[:4])
#print(list(subject_areas.values())[:4])
#for topic, terms in sorted(subject_areas.items()):
    #print(f"{topic}:")
    #print(", ".join(sorted(terms)))  # Begriffe alphabetisch sortiert und komma-getrennt
    #print("-" * 40)  # Trennlinie für bessere Lesbarkeit

import pprint

# Schönere Darstellung des Dictionaries
pp = pprint.PrettyPrinter(width=100, sort_dicts=True)
pp.pprint(subject_areas)




{'Andere': {'',
            'AVIS28',
            'Alleinstellungsmerkmal',
            'Alto rappresentante per gli affari esteri e la politica di sicurezza',
            'Anticamera',
            'Antisemitismus',
            'Arena tettonica Sardona',
            'Association de la presse étrangère en Suisse et au Lichtenstein',
            'Associazione della stampa estera in Svizzera e nel Liechtenstein',
            'Aussenpolitik ist Innenpolitik',
            'Aussenpolitische Vision Schweiz 2028',
            'Aussenpolitischer Bericht',
            'Aussprachepapier',
            'Beitragsschlüssel',
            'Betriebsziel',
            'Bosgnacco',
            'Bosniak',
            'Bosniake',
            'Bosnian',
            'Bosniaque',
            'Bosnien',
            'Bosnier',
            'Bosnìaco',
            'Cooperazione Territoriale Europea',
            'Detailziel',
            'Die Schweiz in der Welt 2028',
            'Dossieraufruf',
            'Dri

In [None]:
# another way to try and count the termini and highlight them in the text

In [2]:
# step 1
# read csv file with subject areas and save termini for each subject area

import csv
from collections import defaultdict

# Dictionary für Sachgebiete und zugehörige Termini
sachgebiete = defaultdict(list)

# CSV-Datei einlesen
with open("ED_Pub_Sachgebiet_multilingual5.csv", "r", encoding="utf-8") as file:
    reader = csv.DictReader(file, delimiter=";")  # Falls mit "," getrennt, ändere zu ","
    
    for row in reader:
        sachgebiet_roh = row["Header.Sachgebiete"]  # Die Roh-Daten mit mehreren Sachgebieten
        sachgebiet_liste = [s.strip() for s in sachgebiet_roh.split(";")]  # Trennen & Leerzeichen entfernen
        
        for sachgebiet in sachgebiet_liste:  # Jedes Sachgebiet einzeln behandeln
            for key in row.keys():
                if key.startswith(("DES", "ENG", "FRS", "ITS")) and row[key]:  # Sprachspalten filtern
                    sachgebiete[sachgebiet].append(row[key])  # Terminus für jedes Sachgebiet speichern

# Sachgebiete & Termini ausgeben (zur Überprüfung)
print("📌 Schritt 1: Eingelesene Sachgebiete und Termini:")
for sachgebiet, terme in sachgebiete.items():
    print(f"{sachgebiet}: {terme}")

print("\n✅ Schritt 1 abgeschlossen.\n")



📌 Schritt 1: Eingelesene Sachgebiete und Termini:
Frieden und Sicherheit: ['Schutzdetachement', 'protection detachment', 'détachement de protection', 'distaccamento di protezione', 'Menschenrechte', 'human rights', "droits de l'homme", 'droits humains', "diritti dell'uomo", 'diritti umani', 'Kriseneinsatzpool', 'Crisis Intervention Pool', "pool d'intervention en cas de crise", 'Pool d’intervento in caso di crisi', 'Ermittlungskommission', 'fact-finding commission', "commission d'établissement des faits", "commissione per l'accertamento dei fatti", 'Schweizerisches Kompetenzzentrum für Menschenrechte', 'Swiss Centre of Expertise in Human Rights', 'Centre suisse de compétence pour les droits humains', 'Centro svizzero di competenza per i diritti umani', 'private Militär- und Sicherheitsunternehmen', 'PMSCs', 'private military and security companies', 'entreprises militaires et de sécurité privées', 'società militari e società di sicurezza private', 'Besetztes Palästinensisches Gebiet', '

In [3]:
# step 2 
# read all txt files in one go

import zipfile
import os

# Pfad zur ZIP-Datei
zip_pfad = "txt-all-firstround.zip"
entpackt_ordner = "entpackt_texte"

# Ordner zum Entpacken erstellen (falls nicht vorhanden)
os.makedirs(entpackt_ordner, exist_ok=True)

# Zip-Datei entpacken
with zipfile.ZipFile(zip_pfad, 'r') as zip_ref:
    zip_ref.extractall(entpackt_ordner)

print(f"📦 ZIP-Datei entpackt nach: {entpackt_ordner}")




FileNotFoundError: [Errno 2] No such file or directory: 'txt-all-firstround.zip'

In [3]:
# step 2 
# read all txt files in one go

import os

# Pfad zum Ordner mit den Textdateien
entpackt_ordner = "entpackt_texte"
ordnerpfad = "entpackt_texte"  # z. B. "./texte"

# Alle Textdateien im Ordner finden
dateien = [f for f in os.listdir(ordnerpfad) if f.endswith(".txt")]

# Alle Textdateien einlesen
texte_dict = {}
for dateiname in os.listdir(entpackt_ordner):
    if dateiname.endswith(".txt"):
        dateipfad = os.path.join(entpackt_ordner, dateiname)
        with open(dateipfad, "r", encoding="utf-8") as file:
            text = file.read()
            texte_dict[dateiname] = text
            print(f"📄 {dateiname} eingelesen (erste 100 Zeichen):\n{text[:100]}\n")

print(f"\n✅ {len(texte_dict)} Texte aus dem ZIP-Ordner eingelesen.")


📄 147053_IZA_fr-de.tmx_de-ch.txt eingelesen (erste 100 Zeichen):
Auswirkungen
Auswirkungen auf den Bund
Finanzielle Auswirkungen
Die beantragten Verpflichtungskredit

📄 150478_ZudokRng_de-fr.tmx_fr-ch.txt eingelesen (erste 100 Zeichen):
Documentation complémentaire du DFAE
Compte 2023
Remarques préliminaires
La documentation complément

📄 141610_IZA_fr-it.tmx_fr-ch.txt eingelesen (erste 100 Zeichen):
Le DFAE et le DEFR considèrent que les critères pour une procédure de consultation obligatoire au se

📄 150183_ReqAvisC_fr-en.tmx_en-gb.txt eingelesen (erste 100 Zeichen):
INTERNATIONAL COURT OF JUSTICE –
OBLIGATIONS OF STATES IN RESPECT OF CLIMATE CHANGE
WRITTEN STATEMEN

📄 146054_BegRng22_de-fr.tmx_fr-ch.txt eingelesen (erste 100 Zeichen):
Priorités stratégiques
Relations avec les États voisins, en particulier les régions limitrophes
Cons

📄 146405_Zudok_de-fr.tmx_fr-ch.txt eingelesen (erste 100 Zeichen):
Documentation complémentaire du DFAE
Compte 2022
Remarques préliminaires
La documen

In [4]:
# step 3
# find termini with regex function and count them 

import re
from collections import defaultdict

# Beispiel: texte = [text1, text2, text3, ...]
# Du brauchst natürlich vorher: texte = [...]  (z. B. aus dem ZIP entpackt)

alle_sachgebiet_counts = {}
alle_gefundenen_terme = {}
alle_markierten_texte = {}

for dateiname, text in texte_dict.items():
    print(f" verarbeite {dateiname}...")
    
    sachgebiet_counts = defaultdict(int)  
    gefundene_terme = defaultdict(lambda: defaultdict(int))  
    marked_text = text  # Originaltext kopieren

    for sachgebiet, terme in sachgebiete.items():
        for term in set(terme):  
            pattern = rf"\b{re.escape(term)}\b[\.,!?]?"
            matches = re.findall(pattern, text, re.IGNORECASE)
            count = len(matches)

            if count > 0:
                sachgebiet_counts[sachgebiet] += count
                gefundene_terme[sachgebiet][term] += count
                marked_text = re.sub(pattern, f"<mark>{term}</mark>", marked_text)

    alle_sachgebiet_counts[dateiname] = sachgebiet_counts
    alle_gefundenen_terme[dateiname] = gefundene_terme
    alle_markierten_texte[dateiname] = marked_text

    # Ausgabe für diesen Text
    print(f" Ergebnisse für {dateiname}:")
    for sachgebiet, terme in gefundene_terme.items():
        print(f"{sachgebiet}:")
        for term, count in terme.items():
            print(f"  {term}: {count}")

print("\n✅ Alle Texte verarbeitet.")


 verarbeite 147053_IZA_fr-de.tmx_de-ch.txt...
 Ergebnisse für 147053_IZA_fr-de.tmx_de-ch.txt:
Diplomatie und Protokoll:
  Aussenwirtschaftspolitik: 1
  Botschaft: 1
HR:
  Dienstleistungen: 2
Struktur und Institution:
  Dienstleistungen: 2
  Sicherheit: 1
  Bereich: 1
Entwicklung und Zusammenarbeit:
  engagement: 1
  APD-Quote: 3
  öffentliche Entwicklungshilfe: 1
Recht:
  Umsetzung: 3
Wirtschaft und Finanzen:
  Aussenwirtschaftspolitik: 1
Konsularische Angelegenheiten:
  Dienstleistungen: 2
Politik:
  Aussenwirtschaftspolitik: 1
 verarbeite 150478_ZudokRng_de-fr.tmx_fr-ch.txt...
 Ergebnisse für 150478_ZudokRng_de-fr.tmx_fr-ch.txt:
Frieden und Sicherheit:
  règlement des conflits: 1
  promotion de la démocratie: 1
  médiation: 1
  promotion de la paix: 5
  structure IMZ: 1
  prévention des conflits: 2
  protection: 5
  structure interdépartementale pour la coopération migratoire internationale: 1
  état de droit: 1
  politique extérieure numérique: 1
  Pool d’experts pour la promotion c

In [5]:
print("📌 Schritt 4: Top 3 Sachgebiete für alle Texte\n")

for dateiname, sachgebiet_counts in alle_sachgebiet_counts.items():
    print(f"📄 Datei: {dateiname}")
    
    # Top 3 Sachgebiete dieser Datei
    top_sachgebiete = sorted(sachgebiet_counts.items(), key=lambda x: x[1], reverse=True)[:3]
    
    for sachgebiet, count in top_sachgebiete:
        print(f"  {sachgebiet} (Gesamtanzahl: {count})")
    
    print("")  # Leere Zeile für bessere Lesbarkeit

print("✅ Schritt 4 abgeschlossen.\n")


📌 Schritt 4: Top 3 Sachgebiete für alle Texte

📄 Datei: 147053_IZA_fr-de.tmx_de-ch.txt
  Entwicklung und Zusammenarbeit (Gesamtanzahl: 5)
  Struktur und Institution (Gesamtanzahl: 4)
  Recht (Gesamtanzahl: 3)

📄 Datei: 150478_ZudokRng_de-fr.tmx_fr-ch.txt
  Struktur und Institution (Gesamtanzahl: 88)
  Entwicklung und Zusammenarbeit (Gesamtanzahl: 51)
  Humanitäre Hilfe (Gesamtanzahl: 50)

📄 Datei: 141610_IZA_fr-it.tmx_fr-ch.txt
  Entwicklung und Zusammenarbeit (Gesamtanzahl: 96)
  Politik (Gesamtanzahl: 53)
  Struktur und Institution (Gesamtanzahl: 44)

📄 Datei: 150183_ReqAvisC_fr-en.tmx_en-gb.txt
  Recht (Gesamtanzahl: 75)
  Entwicklung und Zusammenarbeit (Gesamtanzahl: 52)
  Energie und Umwelt (Gesamtanzahl: 42)

📄 Datei: 146054_BegRng22_de-fr.tmx_fr-ch.txt
  Struktur und Institution (Gesamtanzahl: 58)
  Diplomatie und Protokoll (Gesamtanzahl: 41)
  Buchhaltung (Gesamtanzahl: 35)

📄 Datei: 146405_Zudok_de-fr.tmx_fr-ch.txt
  Struktur und Institution (Gesamtanzahl: 96)
  Entwicklung un

In [8]:
import csv

# Name der CSV-Datei
csv_dateiname = "texte_mit_top3_sachgebieten.csv"

# CSV-Datei schreiben
with open(csv_dateiname, mode="w", encoding="utf-8", newline="") as csv_file:
    writer = csv.writer(csv_file)
    
    # Kopfzeile schreiben (jetzt mit Dateiname als erste Spalte)
    writer.writerow(["Dateiname", "Text", "Top-Sachgebiet 1", "Top-Sachgebiet 2", "Top-Sachgebiet 3"])
    
    # Alle Texte durchgehen
    for dateiname, text in texte_dict.items():
        # Sachgebiet-Zähler für diese Datei holen
        sachgebiet_counts = alle_sachgebiet_counts.get(dateiname, {})
        
        # Top 3 Sachgebiete bestimmen
        top_sachgebiete = sorted(sachgebiet_counts.items(), key=lambda x: x[1], reverse=True)[:3]
        top_sachgebiete_namen = [sg for sg, _ in top_sachgebiete]
        
        # Falls es weniger als 3 Sachgebiete gibt, mit leeren Strings auffüllen
        while len(top_sachgebiete_namen) < 3:
            top_sachgebiete_namen.append("")

        # Zeile schreiben: [Dateiname, Text, Sachgebiet 1, 2, 3]
        writer.writerow([dateiname, text] + top_sachgebiete_namen)

print(f"✅ CSV-Datei '{csv_dateiname}' wurde erfolgreich erstellt.")


✅ CSV-Datei 'texte_mit_top3_sachgebieten.csv' wurde erfolgreich erstellt.
