Entscheider-Benchmark

Wie gut unterstützen KI-Modelle strategische Geschäftsentscheidungen?

Ein praxisnaher Benchmark für Führungskräfte im DACH-Raum. Keine Quizfragen, keine Coding-Aufgaben – stattdessen sechs Szenarien, die jeder Geschäftsführer kennt.

Warum dieser Benchmark?

Bestehende KI-Benchmarks messen Mathematik, Code und Allgemeinwissen. Kein einziger misst, was Entscheider tatsächlich brauchen: eine fundierte Einschätzung zu einer Geschäftsentscheidung. Auf Deutsch. Mit kritischer Distanz statt People-Pleasing.

Dieser Benchmark schließt diese Lücke. Er testet 18 Modelle gegen sechs Aufgaben, die aus dem Alltag mittelständischer Unternehmen kommen – von der Entscheidungsvorlage über Szenario-Analysen bis zur Finanzanalyse.

Die sechs Aufgaben

#	Aufgabe	Testet
A1	Entscheidungsvorlage	Risikoerkennung, fehlende Informationen, kritische Distanz
A2	Strategische Zusammenfassung	Signal/Rauschen trennen, KMU-Kontextualisierung
A3	Kritisches Hinterfragen	Strukturelle Schwächen erkennen, konstruktive Kritik
A4	Szenario-Analyse	Distinkte Szenarien, Annahmen explizit, Handlungsempfehlung
A5	Widerspruchserkennung	Quellenvergleich, Methodenkritik, Verlässlichkeitsbewertung
A6	Zahlenanalyse	Korrekte Extraktion, Veränderungsraten, nicht-offensichtliche Muster

Bewertungskriterien

Kriterium	Gewicht	Was es misst
Substanz	25%	Tiefe der Analyse, eigenständige Schlüsse
Präzision	25%	Faktenfreiheit, Fakt vs. Einschätzung getrennt
Praxistauglichkeit	20%	Direkt umsetzbar für KMU-Entscheider
Urteilskraft	20%	Benennt Risiken ungefragt, traut sich Widerspruch
Sprachqualität (DE)	10%	Natürliches Geschäftsdeutsch, DACH-tauglich

Scoring: 1–5 pro Kriterium, gewichteter Durchschnitt = Gesamtscore.

Score	Klasse
4,5–5,0	Sparringspartner
3,5–4,4	Qualifizierter Zuarbeiter
2,5–3,4	Fleißiger Assistent
1,0–2,4	Nicht empfehlenswert

Getestete Modelle (17)

Frontier: Claude Opus 4.6, Claude Opus 4.5, GPT-5.2, GPT-5.2 Pro, Gemini 3 Pro, Gemini 2.5 Pro, Grok 4.1

Mid-Tier: Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5.2 Chat, Gemini 2.5 Flash, Mistral Large 3, DeepSeek V3.2, Llama 3.3 70B

Coding: GPT-5.2-Codex

Reasoning: DeepSeek R1, o1

Quick Start

git clone https://github.com/[user]/entscheider-benchmark.git
cd entscheider-benchmark
pip install -r requirements.txt
cp .env.example .env
# OpenRouter API-Key in .env eintragen

Trockenlauf (ohne API-Kosten)

python benchmark.py --dry-run

Testlauf (1 Run, 2 Modelle)

python benchmark.py --runs 1 --models "Claude Opus 4.6,GPT-5.2"

Voller Durchlauf (10 Runs, alle Modelle)

python benchmark.py

Nur bestimmte Aufgaben

python benchmark.py --tasks A1,A3,A4

Quelldokumente

Die szenariobasierten Aufgaben (A1, A3, A4) brauchen keine Dokumente und laufen sofort.

Für A2, A5, A6 werden PDFs benötigt. Diese in ./documents/ ablegen:

Dateiname	Quelle	Aufgabe
`bcg_ai_radar_2026.pdf`	BCG AI Radar 2026	A2
`statistik_austria_ict_2025.pdf`	Statistik Austria ICT-Erhebung	A5
`microsoft_work_trend_index_2025.pdf`	Microsoft Work Trend Index	A5
`quartalsbericht.pdf`	Quartalsbericht eines börsennotierten Unternehmens	A6

Output-Struktur

results/run_YYYYMMDD_HHMMSS/
├── run_meta.json              # Konfiguration, Token-Verbrauch, Laufzeit
├── aggregated_stats.csv       # Statistiken pro Modell×Aufgabe (Latenz, Tokens, Varianz)
├── bewertung_manual.csv       # Template für manuelle Score-Eingabe
├── consistency_report.md      # Wie stabil antwortet jedes Modell über 10 Runs?
├── leaderboard.md             # Leaderboard-Template (nach Bewertung ausfüllen)
└── responses/
    ├── Claude_Opus_4-6/
    │   ├── A1_Entscheidungsvorlage_run01.md
    │   ├── A1_Entscheidungsvorlage_run02.md
    │   ├── ...
    │   └── A6_Zahlenanalyse_run10.md
    ├── GPT-5-2/
    │   └── ...
    └── ...

Methodik

10 Durchläufe pro Modell×Aufgabe bei Temperatur 0. Das entspricht dem Minimum, das Artificial Analysis für ihr 95%-Konfidenzintervall verwendet (>10 Repeats, ±1% CI).

Bei Temperatur 0 sollten die Antworten nahezu identisch sein. Wenn sie es nicht sind, ist das bereits eine Erkenntnis (Modell-Instabilität). Der Konsistenz-Report misst das über den Coefficient of Variation (CV) der Antwortlänge.

System-Prompt und Aufgaben-Prompts sind standardisiert – jedes Modell bekommt exakt den gleichen Input. Details in prompts.py.

Bewertung ist manuell. Automatisierte LLM-Bewertung (LLM-as-a-Judge) erreicht nur ~66% Übereinstimmung mit menschlichen Experten bei komplexen Aufgaben (GDPval-Studie, OpenAI 2025). Für strategische Qualität ist menschliche Bewertung nach wie vor der Goldstandard.

Mitmachen

Jeder kann diesen Benchmark mit eigenen Modellen oder eigener Bewertung durchführen.

Ergebnisse einreichen:

Fork dieses Repo
Benchmark durchlaufen lassen
Bewertung in bewertung_manual.csv eintragen
Pull Request mit dem results/-Ordner erstellen

Je mehr unabhängige Bewertungen, desto belastbarer die Ergebnisse.

Limitationen (transparent)

Kleine Aufgabenzahl: 6 Aufgaben sind kein umfassender Benchmark. Sie decken strategische Kernkompetenz ab, nicht den gesamten Einsatzbereich.
Manuelle Bewertung: Subjektiv, nicht skalierbar. Aber für strategische Qualität gibt es aktuell keine zuverlässige Alternative.
DACH-Fokus: Prompts und Bewertung sind auf deutschsprachige Geschäftskommunikation ausgerichtet. Ergebnisse sind nicht direkt auf andere Märkte übertragbar.
Statischer Zeitpunkt: Modelle werden ständig aktualisiert. Ergebnisse gelten für die getestete Version.
Keine Kosten-Normalisierung: Ein Modell mit 10× höherem Preis und 5% besserem Score ist nicht automatisch die bessere Wahl.

Lizenz

ACHTUNG: Das ist ein Testprojekt im Prototypstatus. Erste Outputs zu Anthropic gibt es bereits. MIT – verwenden, forken, erweitern.

Referenzen

Artificial Analysis Intelligence Index v4.0: >10 Repeats für 95% CI (±1%)
GDPval (OpenAI, Oktober 2025): 44 Berufe, echte Arbeitsprodukte, Expert:innen-Bewertung
Bewertungsmethodik orientiert am GDPval-Prinzip: Praxisnähe vor akademischer Reinheit

Gerald T. Pögl KI-Sparringspartner für Entscheider im DACH-Raum hunter-id.com

#VisiON #KI_Sparring #unternehmerische_Weichenstellung

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.claude		.claude
docs		docs
results/run_20260207_144751		results/run_20260207_144751
skills		skills
.env.example		.env.example
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
HUNTER_ID_STATUS.md		HUNTER_ID_STATUS.md
README.md		README.md
analyze.py		analyze.py
benchmark.py		benchmark.py
evaluate.py		evaluate.py
generate_extracts.py		generate_extracts.py
generate_report.py		generate_report.py
merge_runs.py		merge_runs.py
models.py		models.py
output.py		output.py
prompts.py		prompts.py
providers.py		providers.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Entscheider-Benchmark

Warum dieser Benchmark?

Die sechs Aufgaben

Bewertungskriterien

Getestete Modelle (17)

Quick Start

Trockenlauf (ohne API-Kosten)

Testlauf (1 Run, 2 Modelle)

Voller Durchlauf (10 Runs, alle Modelle)

Nur bestimmte Aufgaben

Quelldokumente

Output-Struktur

Methodik

Mitmachen

Limitationen (transparent)

Lizenz

Referenzen

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Entscheider-Benchmark

Warum dieser Benchmark?

Die sechs Aufgaben

Bewertungskriterien

Getestete Modelle (17)

Quick Start

Trockenlauf (ohne API-Kosten)

Testlauf (1 Run, 2 Modelle)

Voller Durchlauf (10 Runs, alle Modelle)

Nur bestimmte Aufgaben

Quelldokumente

Output-Struktur

Methodik

Mitmachen

Limitationen (transparent)

Lizenz

Referenzen

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages