Kleiner Pflege-Benchmark (10 MC, 5 NLI) zum Vergleich mehrerer KI‑Modelle inkl. Auswertung, Grafiken und HTML‑Report.
nlp benchmarking statistics ai evaluation healthcare reproducibility nursing natural-language-inference multiple-choice jsonl healthtech pflege llm
-
Updated
Aug 29, 2025 - Python