# Evidenz.Besser.Kommunizieren.

Wie Bildungswissenschaften und Fachdidaktiken ihre Wissenschaftskommunikation weiterentwickeln können.

Samuel Merk [](https://orcid.org/0000-0003-2594-5337) (Pädagogische Hochschule Karlsruhe)  
Sarah Bez (Pädagogische Hochschule Karlsruhe)  
Kirstin Schmidt (Pädagogische Hochschule Karlsruhe)

Lehrkräfte treffen tagtäglich unzählige Entscheidungen bzgl. ihrer Unterrichtsgestaltung und -entwicklung. Dabei rekurrieren Sie vornehmlich auf persönliche Erfahrung, Konzeptwissen oder Heuristiken. Evidenz aus Bildungswissenschaften und Fachdidaktiken wird das Potenzial zugeschrieben diese Entscheidungsprozesse komplementär zu informieren und zu objektivieren. Dazu ist es jedoch notwendig, dass die betroffenen Lehrkräfte diese Evidenz nicht fehlinterpretieren, was wiederum entsprechende Kompetenzen der Lehrkräfte oder besonders geschickte Wissenschaftkommunikation voraussetzt. Der vorliegende Beitrag untersucht daher die Möglichkeiten und Grenzen der Kommunikation von Effektstärken an Lehramtsstudierende am Beispiel des sog. zweiten PISA-Schocks. Im Ergebniss zeigt sich, dass Lehramtsstudierende Effektstärken sehr ungenau (Noise) ein- und im Mittel drastisch überschätzen (Practical Significance Bias). Dieser Bias konnte durch die Verwendung alternativer Visualisierungen deutlich eingedämmt werden $(d = .5)$

Die bildungswissenschaftliche Literatur zu Schul- und Unterrichtsentwicklung bedient sich einer Vielzahl theoretischer Grundlegungen ([Bohl 2020](#ref-bohl2020)) und blickt daher aus ganz verschiedenen Winkeln auf diesen Gegenstand: Neben eher systemtheoretischen Perspektiven ([K.-O. Bauer und Rolff 1978](#ref-bauer1978)) finden sich u.a. Ansätze mit Entlehnungen aus der Lehr- Lern- ([Helmke 2022](#ref-helmke2022)) und Organisationspsychologie ([Holtappels 2007](#ref-holtappels2007)) oder mit Praxisorientierung als Leitgedanke ([Brügelmann 2018](#ref-bruegelmann2018)). Datenbasierte Schulentwicklung hat im deutschsprachigen Raum erst in den vergangenen zwei Dekaden Momentum gefunden, wenngleich deren Grundidee des empirischen Einholens von Information über den Ist-Stand schon zuvor gefordert und auch umgesetzt wurde ([Altrichter und Rolff 2006](#ref-altrichter2006)). In jüngerer Zeit ist jedoch von inner- wie außerwissenschaftlichen Stakeholdern vermehrt die Forderung nach einer Entwicklung von Schule und Unterricht hörbar geworden, die ihre Entscheidungen durch Evidenz informiert ([AERO 2023](#ref-aero2023); [J. Bauer und Prenzel 2012](#ref-bauer2012); [Council of the European Union 2024](#ref-eurlex2024); [Pellegrini und Vivanet 2021](#ref-pellegrini2021); [Slavin 2020](#ref-slavin2020)). Da jedoch einerseits die Genese und Interpretation von Evidenz nicht zu den professionellen Kernkompetenzen von Lehrkäften gehört andererseits Bildungswissenschaftler- und Fachdidaktiker:innen keine Expert:innen für die Gestaltung von Unterricht sind, plädiert der vorliegende Beitrag dafür, Wissenschaftskommunikation erstens als dialogischen Prozess zwischen Bildungswissenschaften/Fachdidaktiken und Lehrkräften aufzufassen und zweitens diesen forschungsbasiert weiterzuentwickeln.

Daher führt der folgende theoretische Hintergrund zunächst in Konzepte und Begriffe evidenzinformierter Praxis ein, bevor er auf Wissenschaftskommunikation in Bildungswissenschaften und Fachdidaktiken eingeht, um abschließend ein empirisches Beispiel zu skizzieren.

# Theoretischer Hintergrund

## Evidenzinformiertes Handeln

### Was kann unter »Evidenz« verstanden werden?

Ethymologisch kann »Evidenz« als Substantivierung des Adjektivs »evident« gesehen werden ([Kluge 2011, 263](#ref-kluge2011)), welches wiederum im 18. Jahrhundert dem lateinischen »evidens« (»ersichtlich, augenscheinlich«, [Hau, Martini, und Dralle 2012](#ref-hau2012)) entlehnt wurde ([Stark 2017](#ref-stark2017)). Allerdings meinen Bildungswissenschaftler:innen und Fachdidaktiker:innen gerade nicht »das Augenscheinliche« oder »das direkt Ersichtliche« wenn sie von Evidenz sprechen - vielmehr ist in Definitionsvorschlägen von »wissenschaftlichem Wissen« ([Stark 2017](#ref-stark2017)), von einer »Funktion« von Daten für die Bestätigung oder Widerlegung von Hypothesen und Theorien ([Bromme, Prenzel, und Jäger 2014](#ref-bromme2014b)) oder von »warrants for making assertions or knowledge claims« ([Shavelson und Towne 2002](#ref-shavelson2002)) die Rede. In einer aktuellen Systematisierung verschiedener Verständnisse des Evidenz-Begriffs in den Bildungswissenschaften hebt Schmidt ([2024](#ref-schmidt2024)) hervor, dass nur wenige Definitionen ausschließlich quantitativer Empirie die Möglichkeit zuschreiben, Evidenz zu generieren, sondern meistens auch qualitative Empirie, Theorien sowie mathematische und logische Analysen als potenziell evidenzgenerierend definiert werden. Insbesondere die Inklusion nicht-empirischer Entitäten wie »Theorien« oder »logische Analysen« mögen auf den ersten Blick widersprüchlich wirken, da der Begriff Evidenz insbesondere im deutschsprachigen Raum teils mit Ergebnissen explanativer quantitativer Studien assoziiert scheint. Dieser scheinbare Widerspruch wirkt jedoch weniger stark, berücksichtigt man, dass insbesondere in der Lehr- Lernforschung mit »Theorien« wohl eher sogenannte »tried-and-tested theories« ([Renkl 2022](#ref-renkl2022)) gemeint sein dürften. Diese stellen eher Rahmenmodelle oder sogenannte »interventional models« (z.B. Cognitive Theory of Multi-Media Learning) dar (ebd.). Da solche »Theorien« wiederum meist stark von empirischen Ergebnissen beeinflusst sind, ist es plausibel ihnen die Funktion als »warrant« für »knowledge claims« zuzuschreiben - sie also auch als »Evidenz« zu bezeichnen.

### Evidenzinformiert, evidenzorientiert, evidenzbasiert.

Im vorigen Abschnitt wurde deutlich, dass »Evidenz« ein uneinheitlich gebrauchter und gleichermaßen komplex wie unscharf definierter Begriff ist. Im Lichte dessen erscheint es nur konsequent, dass auch die Begriffe evidenzbasiert, evidenzinformiert, evidenzorientiert, datenbasiert, forschungsbasiert und forschungsinformiert klassisches *Jingle and Jangle* ([Thorndike 1904](#ref-thorndike1904); [Kelly und Farrie 2023](#ref-kelly2023)) darstellen - hier also unterschiedliche Begriffe für das Gleiche und gleiche Begriffe für Unterschiedliches gebraucht werden. Die Differenzen zwischen evidenz**basiert** und evidenz**informiert** sowie evidenz**orientiert** <!-- korrekterweise zwischen evidenzbasiert und evidenzinformiert sowie evidenzorientiert, oder VERSTEH ICH NOCH NICHT--> können jedoch auch bedeutsam interpretiert werden: Da mit »Evidenz**basierung**« oft »the medical model« ([Jones 2024](#ref-jones2024)) und damit Evidenz aus *Kontrollgruppenexperimenten* als *notwendige Voraussetzung* für eine Entscheidung assoziiert wird, zieht dieser Begriff die stärkste Kritik auf sich ([Bellmann und Müller 2011](#ref-bellmann2011); [Biesta 2007](#ref-biesta2007)). Den Begriffen »evidenz**orientiert**« und »evidenz**informiert**« wird mit weniger Fundamentalkritik begegnet, da diese schon rein sprachlich eher eine heuristische denn eine rechenschaftslegende Rolle implizieren.

In der deutschsprachigen bildungswissenschaftlichen Diskussion sind nach Bromme et al.([2014](#ref-bromme2014b)) zunächst zwei verschiedene Diskussionsstränge bzgl. evidenzinformierter Entscheidungen im Bildungskontext unterscheidbar: Ein Diskussionsstrang beschäftigt sich mit evidenzinformierten Entscheidungen in der Bildungspolitik und der andere mit evidenzinformierten Entscheidungen und Handlungen in der Bildungspraxis. In beiden Diskussionen werden der Evidenz verschiedene Funktionen zugeschrieben. Bromme et al. ([2014](#ref-bromme2014b)) etwa sprechen davon, dass Evidenz über Zustände informieren, Mechanismen erklären oder Interventionen evaluieren kann. Groß Ophoff et al. ([Groß Ophoff, Brown, und Helm 2023](#ref-großophoff2023)) wiederum unterscheiden konzeptuelle Nutzung (»*evidence allows focussing attention, provides new insights, challenges beliefs or reframes thinking*«, S. 02), instrumentelle Nutzung (»*identify or develop concrete measures to be taken*«, S. 02) und symbolische Nutzung (»*justif\[y\] or support of existing positions or established procedures*«, S. 02).

## Potenzielle Wege zu einer gelingenden Wissenschaftskommunikation

Unabhängig vom Kontext und der Funktion evidenzinformierter Entscheidungen ist es plausibel anzunehmen, dass eine erfolgreiche Kommunikation von Evidenz zwischen Bildungswissenschaftler:innen/Fachdidaktiker:innen und den Akteuren im Bildungssystem notwendige Voraussetzung für das Gelingen evidenzinformierter Entscheidungen ist: Wird Evidenz fehlinterpretiert und erfolgt eine anschließende Entscheidung kohärent zu dieser Fehlinterpretation wird die Wirkung dieser Entscheidung nicht die Erwünschte sein.

In [None]:
library(tidyverse)



── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.1     ✔ tibble    3.2.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.0.2     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors




Attaching package: 'bayestestR'

The following object is masked from 'package:ggdist':

    hdi








Attaching package: 'flextable'

The following object is masked from 'package:purrr':

    compose





Loading required package: Rcpp



Loading 'brms' package (version 2.22.0). Useful instructions
can be found by typing help('brms'). A more detailed introduction
to the package is available through vignette('brms_overview').

Attaching package: 'brms'

The following objects are masked from 'package:ggdist':

    dstudent_t, pstudent_t, qstudent_t, rstudent_t

The following object is masked from 'package:stats':

    ar

Liest eine Lehrkraft etwa die (fiktive) Pressemitteilung in <a href="#fig-AbbildungMoMa" class="quarto-xref">Abbildung 1</a>, stellt sich die Ergebnisse wie in <a href="#fig-AbbildungMoMa" class="quarto-xref">Abbildung 1</a> rechts vor ([Schmidt u. a. 2023](#ref-schmidt2023)) und überzeugt anschließend ihre Schulleitung diesen KI-Lesetutor zu beschaffen und schulweit einzusetzen liegt höchstwahrscheinlich dysfunktionales evidenzinformiertes Handeln vor. Während die Forscher:innen mit *signifikant bessere Leseflüssigkeit* zum Ausdruck bringen, dass ihre Daten unter der Annahme eines Nulleffekts unwahrscheinlich sind (signifikanter p-Wert), interpretiert die Lehrkraft diese Formulierung als »Unterschied **bedeutsamer Größe**«. Folglich schlussfolgert sie, dass es Sinn macht Geld und Zeit in Anschaffung und Implementation des KI-Lesetutors zu investieren obwohl etwa die Implementation von Lesetandems kostengünstiger, weniger zeitaufwändig und lernwirksam gewesen wäre.

Die Forschung zur Wissenschaftskommunikation hat eine Reihe solcher potenziellen Problematiken aufgezeigt: Z.B. das soeben beschriebene Verwechseln von Inferenzstatistik und Effektstärke ([Schmidt u. a. 2023](#ref-schmidt2023)), das automatische Annehmen starker Effekte, wenn keine Effektstärken berichtet wurden (Practical Significance Bias, [Michal und Shah 2024](#ref-michal2024)), Rückschaufehler ([Masnick und Zimmerman 2009](#ref-masnick2009)) oder die verzerrte Einschätzung der Belastbarkeit von Befunden (z.B. Ergebnis einer Laborstudie mit *N* = 56 mit großem Effekt und daher hoher statistischer Power) durch irrelevante Zahlen (z.B. Stichprobengröße einer zuvor gelesenen Large-Scale-Studie, [Bohrer, Schmidt, und Merk 2025](#ref-bohrer2025)).

Gleichzeitig liegt eine Reihe von Befunden vor, die implizieren, dass verbesserte Kommunikation von Evidenz an Lehrkräfte zu Zwecken evidenzinformierten Handelns vergleichsweise einfach umsetzbar ist. Grundsätzlich lassen sich die bisherigen Befunde in angebotsseitige und nutzendenseitige Ansätze unterscheiden, also in Interventionen, die die Auswahl und Darstellung der Evidenz optimieren möchten und Ansätze, die bei der Scientific und Statistical Literacy der Lehrkräfte ansetzen.

> **Caution**
>
> Gibt es diese Unterscheidung auch in der Literatur oder nur in unseren Gesprächen?
>
> Antwort: Einen ersten Ansatz findest du bei Brühwiler et al (2020). Das Modell ist zwar sehr umfassen und m.E. auch nicht ideal, aber als Referenz ein erster guter Ansatz. Brühwiler, C., & Leutwyler, B. (2020). Praxisrelevanz von Forschung als gemeinsame Aufgabe von Wissenschaft und Praxis: Entwurf eines Angebots-Nutzungs-Modells. BzL - Beiträge zur Lehrerinnen- und Lehrerbildung, 38(1), 21–36. https://doi.org/10.36950/bzl.38.2020.9309
>
> man könnte im weiteren Sinne auch auf Debiasing-Forschung verweisen, aber glaube die Referenz von Brühwiler passt am besten

Zu zweiterem gehören Programme wie »Data Teams« ([Schildkamp und Poortman 2015](#ref-schildkamp2015)), welche durch ein umfängliches Set an vordefinierten Leitlinien und Aktivitäten versucht, konkrete schulische Probleme mit Hilfe von (oft eigens dafür genierten) Daten zu lösen, wobei meist 4-6 Lehrkräfte und Schulleiter:innen mit Bildungswissenschaftler:innen und Fachdidaktiker:innen kooperieren. <!-- es gibt auch research-practice partnerships die ähnlich angelegt sind, falls du das aufnehmen willst, sag gerne Bescheid, dann ergänze ich die Quelle JA GERNE!--> Auch kurz- ([Merk u. a. 2020](#ref-merk2020)) oder längerfristig angelegte ([Karst u. a. 2024](#ref-karst2024)) Interventionen zur Anbahnung notwendiger Kompetenzen für evidenzinformiertes Handeln wie Graph Literacy ([Friel, Curcio, und Bright 2001](#ref-friel2001)) oder Forschungskompetenz ([Neuenschwander 2005](#ref-neuenschwander2005)) sowie die konkrete Unterstützung für solches ([Academy 2025](#ref-zotero-8935)), können diesem Ansatz zugerechnet werden.

Angebotsseitige Versuche die Kommunikation von Evidenz zu verbessern, stammen aus verschiedensten sozialwissenschaftlichen Disziplinen: So wird z.B. in der Psychologie untersucht, welche algebraisch äquivalenten Formulierungen zu standardisierten Effektstärken bei Rezeption durch Laien adäquatere Vorstellungen induzieren <a href="#tbl-wisskommbsp" class="quarto-xref">siehe 1</a>. In der Human Computer Interaction Forschung werden (teils dynamische) Visualisierungstechniken entwickelt, um Effektstärken und Inferential Uncertainty besser zu kommunizieren (z.B. [Hullman, Resnick, und Adar 2015](#ref-hullman2015); [Zhang u. a. 2023](#ref-zhang2023)) und die bildungswissenschaftliche Lehrerbildungsforschung sowie die Fachdidaktiken erproben innovative Formate für die Zielgruppe der Lehrkräfte (z.B. [Schneider u. a. 2024](#ref-schneider2024)), was auch das Anliegen der vorliegenden Studie ist.

In [None]:
library(gt)



Note re timesaveR: Many functions in this package are alpha-versions - please treat results with care and report bugs and desired features.


Attaching package: 'timesaveR'

The following object is masked from 'package:flextable':

    fmt_pct

# Die vorliegende Studie

In diesem Kontext untersucht die vorliegende Studie, inwiefern verbreitete Standardgrafiken zur Kommunikation der Entwicklung der Lesekompetenz in den deutschen Kohorten des Programme of International Student Assessment (PISA) Practical Significance Bias induzieren und ob dieser mit Grafiken eingedämmt werden kann, bei deren Gestaltung theoretische und empirische Erkenntnisse der Wissenschaftkommunikation <a href="#sec-materialien" class="quarto-xref">siehe Abschnitt 2.1.1</a> berücksichtigt wurden.

## Methode

### Materialien

In der Berichterstattung zu den Ergebnissen der PISA2022-Kohorte wurden durch journalistische Medien zahlreiche Darstellungsformate gewählt, insbesondere Liniendiagramme <a href="#tbl-pisalinegraphs" class="quarto-xref">siehe Tabelle 2</a>, was angesichts der Anlage des PISA als Trendstudie ([Döring und Bortz 2016](#ref-döring2016)) konsequent erscheint.

|  |  |  |
|------------------------|------------------------|------------------------|
| ![](attachment:img/sz.png) | ![](attachment:img/tagessschau.jpg) | ![](attachment:img/taz.jpeg) |
| Süddeutsche Zeitung ([2023](#ref-volkert2023)) | RBB ([2023](#ref-rbb2023)) | taz ([2023](#ref-taz.de2023)) |

Tabelle 2: Verwendete Liniendiagramme in der Berichterstattung.

Diese Abbildungen erlauben einen effizienten Vergleich der Mittelwerte sowohl über die Zeit als auch Variablen (hier: Fächer) hinweg. In solchen Grafiken ist jedoch die Bedeutsamkeit der Mittelwertsdifferenz nur bei bekannter Streuung interpretierbar: <a href="#fig-mwdiffstreuung" class="quarto-xref">Abbildung 2</a> zeigt jeweils die gleichen Mittelwertsdifferenzen von 508 (PISA Lesen 2015) und 480 (PISA Lesen 2022).

In [None]:
mwdiffstreuungdata <- 
    tibble(Jahr = c(rep(2015, 100), rep(2022, 100),
                    rep(2015, 100), rep(2022, 100)),
           Streuung = c(rep("Kleine Streuung", 200),
                        rep("Reale Streuung", 200)),
           Lesen = c(distribution_normal(100, 508, 20),
                     distribution_normal(100, 480, 20),
                     distribution_normal(100, 508, 100),
                     distribution_normal(100, 480, 100)))

effsizes <-
    mwdiffstreuungdata %>%
    nest_by(Streuung) %>%
    summarize(
        cohd = cohens_d(Lesen ~ Jahr, data = data)$Cohens_d,
        overlap = 2 * pnorm(-abs(cohd) / 2) %>% round(.,2)
    )

`summarise()` has grouped output by 'Streuung'. You can override using the
`.groups` argument.

ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.

ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.

Das Ausmaß der Bedeutsamkeit dieses (gleichen) Mittelwertsunterschiedes entsteht aber erst durch die Streuung der Daten um diesen Mittelwert herum. Dadurch dass die Variablen im rechten Teil der Abbildung kaum streuen, ist die Überlappung der beiden Gruppen gering (48%, großer Effekt), während die große Überlappung im linken Teil (88%, kleiner Effekt) durch die große Streuung zustande kommt. Die Abbildungen in <a href="#tbl-pisalinegraphs" class="quarto-xref">Tabelle 2</a> sagen also nicht nur nichts über die Bedeutsamkeit der Mittelwertsunterschiede aus - die nicht dargestellte Varianz induziert möglicherweise auch eine wahrgenommene große Bedeutsamkeit der Mittelwertsdifferenz ([Kale, Kay, und Hullman 2020](#ref-kale2020)).

|                              |                                      |
|------------------------------|--------------------------------------|
| ![](attachment:img/taz.jpeg) | ![](attachment:img/geomtextline.png) |

Tabelle 3: Verwendete Stimuli

Daher wurden vorliegend neben Liniendiagrammen auch überlappende Verteilungskurven verwendet. Um diese barriereärmer zu gestalten wurde bei der Farbgebung auf hinreichenden Kontrast bei den prävalenten Sehbehinderungen geachtet ([Garnier u. a. 2023](#ref-garnier2023)). Um unnötige Arbeitsgedächtnisbelastung zu vermeiden wurde die Legende direkt in die Grafik integriert ([Franconeri u. a. 2021](#ref-franconeri2021)).

### Design, Stichprobe und Instrument

In [None]:
data <- 
  read_csv("data/data_cummunication_PISA.csv") %>% 
  mutate(
      POS = case_when(
        is.na(G003_01) ~ G004_01,
        is.na(G004_01) ~ G003_01,
        is.na(G003_01) & is.na(G003_01) ~ NA),
      POS = ifelse(POS %in% c(-1,-9), NA, POS),
      POS0510 = POS/max(POS, na.rm = T)/2 + 0.5,
      Stimulus = as.factor(case_when(
        ZG01 == 1 ~ "Originalgrafik taz",
        ZG01 == 2 ~ "Überlappungsgrafik"))
  )

Rows: 216 Columns: 3
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
dbl (3): G003_01, G004_01, ZG01

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

In einem Between-Person Design wurde *N* = 216 Studierenden in Bachelorstudiengängen des Primar- und Sekundarstufenlehramtes randomisiert eine der beiden in <a href="#tbl-materials" class="quarto-xref">Tabelle 3</a> dargestellten Abbildungen gezeigt. Anschließend wurden sie mit folgenden Stimulus aufgefordert die Effektstärke einzuschätzen: “*Basierend auf dieser Grafik: Wie hoch schätzen (exakte Antwort nicht möglich) Sie die Wahrscheinlichkeit ein, dass eine zufällig gezogene Schülerin oder ein zufällig gezogener Schüler aus dem Jahr 2022 im Lesen schlechter abschneidet als eine zufällig gezogene Schülerin oder Schüler aus dem Jahr 2015*”. Beantwortet wurde diese Frage mit einem Schieberegler, dessen Enden mit “*50% (beide Gruppen gleich)*” und “*100%* *(maximaler Effekt)*” beschriftet waren. Diese Erfassung der wahrgenommenen Effektstärke als »Probability of Superiority« ist in der Human Computer Interaction Forschung verbreitet und gilt als valide ([Brooks, Dalal, und Nolan 2014](#ref-brooks2014); [Kim, Hofman, und Goldstein 2022](#ref-kim2022)), wenngleich die Operationalisierung als Schieberegeler unklar lässt, inwiefern bei der Beantwortung tatsächlich eine Elaboration der Überlappung vorgenommen wird oder die Teilnehmenden eher wie bei einem Likert-Item vorgehen.

### Statistische Analyse

Die abhängige Variable »Wahrgenommene Effektstärke« (operationalisiert als Probability of Superiority) ist per Design auf das geschlossene Intervall \[0,5; 1\] beschränkt und zeigt empirisch Bimodalität (siehe <a href="#fig-plotresults" class="quarto-xref">Abbildung 3</a>). Um diesen Umständen in der inferenzstatistischen Modellierung Rechnung zu tragen, wurden bayesianische Mixture Regressionsmodelle für zwei trunkierte Normalverteilungen ([Frischkorn und Popov, o. J.](#ref-frischkorn2023)) in der probabilistischen Sprache Stan ([Stan Development Team 2024](#ref-standevelopmentteam2024)) mithilfe des R-Pakets {brms} ([Bürkner 2017](#ref-bürkner2017)) geschätzt.

In [None]:
#
# mod <- brm(
#     bf(POS0510 | trunc(lb = .5, ub = 1) ~ Stimulus),
#     data = data,
#     cores = 4,
#     iter = 100000,
#     seed = 5,
#     control = list(adapt_delta = 0.95),
#     family = mixture(gaussian(), gaussian()),
#     init = 0,
#     prior = c(
#         prior(normal(0.6, .6), Intercept, dpar = mu1),
#         prior(normal(.9, .6), Intercept, dpar = mu2)
#     )
# )
#save(mod, file = "data/mod.RData")
load("data/mod.RData")
hyp <- hypothesis(
  mod,
  "theta1 * b_mu1_StimulusÜberlappungsgrafik + (1-theta1) *
                         b_mu2_StimulusÜberlappungsgrafik < 0",
  class = NULL
)

manwhit <- wilcox.test(POS0510 ~ Stimulus, data = data)
cliffd <- cliffs_delta(POS0510 ~ Stimulus, data = data)$r_rank_biserial[1]



### Ergebnisse

Die Inspektion des Marcov-Chain-Monte-Carlo-Sampling-Prozesses zeigte eine zufriedenstellende Qualität bzgl. der Konvergenz $(\hat{R} < 1.01)$ und effektiver Sampling Size ($ESS_{Bulk} > 1000 < ESS_{Tail}$, [Vehtari u. a. 2021](#ref-vehtari2021prefix)).

In [None]:
data_results <- data %>% 
  select(G003_01, G004_01) %>% 
  gather(Stimulus, `Probability of Superiority`, G003_01, G004_01) %>%
  filter(`Probability of Superiority` > 0) %>% 
  na.omit() %>% 
  mutate(
    Stimulus = case_when(
      Stimulus == "G003_01" ~ "Originalgrafik taz",
      Stimulus == "G004_01" ~ "Überlappungsgrafik"
    ),
    `Probability of Superiority` = (`Probability of Superiority` - 50) /
      200 + .75)

pal <- c("#FF8C00", "#A034F0")

add_sample <- function(x) {
  return(c(y = max(x) + .025, 
           label = length(x)))
}
data_results |> 
  ggplot(aes(x = fct_rev(Stimulus), y = `Probability of Superiority`)) + 
    # add true value
    geom_hline(yintercept = .58) +
  ggdist::stat_halfeye(
    aes(color = Stimulus,
        fill = after_scale(lighten(color, .5))),
    adjust = .5, 
    width = .75, 
    .width = 0,
    justification = -.4, 
    point_color = NA
  ) +
  geom_boxplot(
    aes(color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS")),
        fill = after_scale(desaturate(lighten(color, .8), .4))),
    width = .32, 
    outlier.shape = NA
  ) +
  geom_point(
    aes(color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS"))),
    fill = "white",
    shape = 21,
    stroke = .4,
    size = 2,
    position = position_jitter(seed = 1, width = .12)
  ) + 
  geom_point(
    aes(fill = Stimulus),
    color = "transparent",
    shape = 21,
    stroke = .4,
    size = 2,
    alpha = .3,
    position = position_jitter(seed = 1, width = .12)
  ) + 
  stat_summary(
    geom = "text",
    fun = "median",
    aes(label = format(round(after_stat(y), 2), nsmall = 2),
        color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS"))),
    family = "Roboto Mono",
    fontface = "bold",
    size = 4.5,
    vjust = -3.5
  ) +
  stat_summary(
    geom = "text",
    fun.data = add_sample,
    aes(label = paste("n =", after_stat(label)),
        color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS"))),
    family = "Roboto Condensed",
    size = 4,
    hjust = 0
  ) +
  coord_flip(xlim = c(1.2, NA), clip = "off") +
  scale_color_manual(values = pal, guide = "none") +
  scale_fill_manual(values = pal, guide = "none") +
  labs(
    x = NULL,
    y = "Probability of Superiority"
  ) +
    
    # caption of true value
     
    annotate(
    "richtext", 
    y = .5, x = 2.9, 
    label = "wahrer<br>Wert", 
    hjust = 0, vjust = .5, 
    fill = NA, label.color = NA,
    size = 3.2
  ) +
    geom_curve(
    aes(y = .53, x = 2.8, yend = .566, xend = 2.6),
    curvature = 0.3, # Positive for upward curve, negative for downward
    arrow = arrow(length = unit(0.052, "inches"), type = "closed"), 
    linewidth = .1
  )+

  
  theme_minimal(base_family = "Roboto Condensed", base_size = 15) +
  theme(
    panel.grid.minor = element_blank(),
    panel.grid.major.y = element_blank(),
    axis.ticks = element_blank(),
    axis.text.x = element_text(family = "Roboto Mono"),
    axis.text.y = element_text(
      color = rev(darken(pal, .1, space = "HLS")), 
      size = 15
    ),
    axis.title.x = element_text(margin = margin(t = 10),
                                size = 16),
    plot.title = element_markdown(face = "bold", size = 21),
    plot.subtitle = element_text(
      color = "grey40", hjust = 0,
      margin = margin(0, 0, 20, 0)
    ),
    plot.title.position = "plot",
    plot.caption = element_markdown(
      color = "grey40", lineheight = 1.2,
      margin = margin(20, 0, 0, 0)),
    plot.margin = margin(15, 15, 10, 15)
  )

ℹ Results may be unexpected or may change in future versions of ggplot2.

ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.

Die Medianeinschätzung der Probability of Superiority lag in beiden Gruppen deutlich über dem wahren Wert (Originalgrafik .80, Überlappungsgrafik .73). Dieser Unterschied in der Einschätzung entspricht einer Überlappung von 81.71% (Cliff’s *d* = 0.23) oder anders ausgedrückt: Legt man 100 mal einem:einer Studierenden die Originalgrafik und einem:einer Studierenden die Überlappungsgrafik vor, schätzt 61mal die:der Studierende mit der Überlappungsgrafik den Effekt weniger verzerrt ein. Die Inferenzstatistik für diesen Unterschied ist mit einer Evidence Ratio von 14.8 klar konklusiv: Die vorliegenden Daten sind 14,8-fach wahrscheinlicher unter der Annahme, dass der Mittelwert in der geschätzten Effektstärke in der Gruppe mit der Überlappungsgrafik niedriger ist als unter der Annahme, dass beide gleich sind.

# Diskussion

Der vorliegende Beitrag zielt darauf ab zu eruieren, inwiefern es verbesserte Wissenschaftskommunikation ermöglicht, bildungswissenschaftliche und fachdidaktische Evidenz »besser« an Lehrkräfte zu kommunizieren. Dabei wurde »besser« als »weniger gebiased« operationalisiert und gezeigt, dass die Wahl einer theoretisch fundierten grafischen Darstellungen einen deutlich geringeren Bias induzierte als Standardgrafiken - wenngleich auch die Rezeption der verbesserten Darstellung immer noch erheblich verzerrt war (siehe <a href="#fig-plotresults" class="quarto-xref">Abbildung 3</a>).

Im Lichte dieser Ergebnisse werden im Folgenden drei Implikationen diskutiert: 1) Die Forderung, dass Lehrkäfte ihre professionelle Praxis evidenzinformiert gestalten sollen impliziert Anstrengungen Wissenschaftskommunikation seitens Bildungswissenschaften und Fachdidaktiken. 2) Inwiefern diese Anstrengungen zielführend sind, sollte empirisch übeprüft werden. 3) Erfolgreiche Wissenschaftskommunikation in Bildungswissenschaften und Fachdidaktiken impliziert eine Passung von Angebots- und Nutzendenmerkmalen und damit einen dialogischen Prozess für die Entwicklung einer solchen.

Sowohl Wissenschaftstheorie (z.B. [Mitchell und Jolley 2010](#ref-mitchell2010)) als auch bildungswissenschaftliche Literatur Dewe, Ferchhoff, und Radtke ([1992](#ref-dewe1992)) haben die Möglichkeiten und Limitationen der Abgrenzbarkeit von »Wissenschaft« und »Nicht-Wissenschaft« (bzw. in den Bildungswissenschaften von »Theorie« und »Praxis«) diskutiert und heben u.a. hervor, dass Entitäten und Aussagen in ihrer Bedeutung primär an den Herkunftskontext (z.B. »Wissenschaft« oder »Praxis«) gebunden sind. Also ist auch z.B. die »Evidenz« einer explanativen bildungswissenschaftlichen Studie per se zunächst bildungswissenschaftlich und muss für eine evidenzinformierte Handlung reinterpretiert werden (z.B. [Groß Ophoff, Brown, und Helm 2023](#ref-großophoff2023)). Damit liegt es auf der Hand, dass sich Bildungswissenschaftler:innen und Fachdidaktiker:innen fragen, welche »wissenschaftlichen/theoretischen« Entitäten und Aussagen sie wie in die Kommunikation ihrer Ergebnisse aufnehmen.

Dass diese Forderung nicht trivial ist, zeigt z.B. die Tatsache, dass Guidelines von Fachgesellschaften wie z.B. Association ([2019](#ref-association2019)) die Verwendung von Effektstärken fordern, diese aber selbst in Pressemitteilungen (etwa der American Educational Research Association) oder in Fachzeitschriften selten sind, die in ihren Autorenrichtlinien selbige verbindlich fordern ([McMillan und Jennifer, o. J.](#ref-mcmillan)). Es scheint also plausibel, zu schlussfolgern, dass es unter Forschenden nicht verbreitet ist sich literaturbasiert darüber Gedanken zu machen inwiefern die eigene Wissenschaftskommunikation günstig rezipierbar ist. Doch selbst eine Bewussheit über die Fallstricke der Kommunikation wissenschaftlicher Ergebnisse schützt nicht zwangläufig vor der Induktion von Fehlvorstellungen: So fanden Schneider et al. ([2024](#ref-schneider2024)) etwa, dass selbst eine als leicht verständlich geltende Effektstärke für Mittelwertsvergleiche (wie etwa Cohen’s \$U_3\$) bei einem erheblichen Anteil <!-- (@Kirstin: Haben wir da irgendwo einen %satz - oder nur die Effekte?  -->) der Rezipienten zu Fehlvorstellungen führte. Die erste Implikation scheint also nicht hinreichend für eine gelingende Kommunikation von Evidenz an Lehrkräfte und führt zur zweiten Implikation: Forschende sollten nicht nur den Stand der Forschung bei der Kommunikation von Evidenz berücksichtigen sondern auch in intern und extern validen Studien untersuchen, ob diese Berücksichtigung erfolgreich war. Denn statistische Information wird nicht nur von unterschiedlichen Berufsgruppen sondern auch in unterschiedlichen geografischen Regionen differentiell interpretiert ([Gigerenzer u. a. 2005](#ref-gigerenzer2005)). Inwiefern sich also generische Determinaten erfolgreicher Wissenschaftskommunikation auf die Kommunikation von Evidenz an Lehrkräfte in einem bestimmten Teil eines Bildungssystems übertragen lassen, scheint nur schwer a priori bestimmbar.

Wenn Forschende nun aber ihre Wissenschaftskommunikation literaturbasiert verbessern und in empirischen Experimenten sehen, dass sie dennoch deutlich verzerrt, verrauscht oder konzeptuell falsch rezipiert wird? Der vorliegende Beitrag macht den Vorschlag, den Prozess der Kommunikation von Evidenz an Lehrkräfte als dialogisch aufzufassen und zu berücksichtigen, dass bei der Rezeption von Wissenschaftskommunikation vermutlich eine komplexe Interaktion von Angebots- und Nutzendenmerkmalen ([Brühwiler und Leutwyler 2020](#ref-bruhwiler2020)) bzw. Bottom-Up- und Top-Down-Prozessen ([Schmidt 2024](#ref-schmidt2024)) vorliegt: Stellt man sich eine Lehrkaft vor, die auf der Suche nach einer Entscheidungsgrundlage für oder gegen eine unterrichtsgestalterische Maßnahme auf der Seite eines Clearing Houses landet und dort liest, dass über viele Studien gemittelt Maßnahme A dazu führt hat, dass 63% der Schülerinnen und Schüler bessere Leistungen zeigen, als der Mittelwert der Schülerinnen und Schüler mit Maßnahme B. Dann können daraus manche Lehrkräfte anhand von Vorwissen unmittelbar eine korrekte/konsistente Vorstellung (z.B. zwei Normalverteilungen mit XX% Überlappung) *schlussfolgern*. Hier läge ein Top-Down-Prozess vor, da die Merkmale der Kommunikation mit den im Langzeitgedächtnis der Rezipient:in vorhandenen Kapazitäten wie Graph oder Statistical Literacy dazu führen, dass in einem Schlussfolgerungsprozess ein korrektes mentales Modell erstellt wird. Umgekehrt kann es passieren, dass eine Lehrkraft auf diese Formulierung stößt und eben kein auf Wissen basierendes mentales Modell abrufen kann, aber sich Stück für Stück anhand von Elaboration der gegebenen Informationen ein konsistentes mentales Modell erarbeitet. Dabei *lernt* sie, erwirbt Statistical Literacy oder Graph Literacy, was einem Bottom-Up Prozess entspricht. Da Lehrkräfte über sehr unterschiedliche Kapazitäten zu Top-Down-Prozessen verfügen, aber auch Bottom-Up-Prozesse sehr individuell verlaufen dürften, liegt die dritte Implikation nahe: Die Kommunikation von Evidenz an Lehrkräfte sollte als dialogischer Prozess aufgefasst werden: Demnach würden zum einen Bildungswissenschaftler:innen und Fachdidaktiker:innen Kenntnis über Top-Down- und Bottom-Up-Prozesse ihrer Rezipienten:innen erwerben und deren Entwicklung z.B. anhand von Think-Aloud Studien Bez u. a. ([2021](#ref-bez2021)) beobachten. Zum anderen könnten Lehrkräfte in die Entwicklung von Kommunikationsprodukten anhand kokonstruktiver Verfahren eingebunden werden in der Hoffnung, dass eine solche Kooperation von Akteuren aus den Systemen »Wissenschaft/Theorie« und »Nicht-Wissenschaft/Praxis« dazu führt, dass innerhalb dieser Systeme Ausdrucksweisen verfügbar werden, die zu einer verlustfreieren Kommunikation führen können.

## Literatur

Academy, Clearing House Unterricht. 2025. „Clearing House Unterricht Academy“. 2025. <https://clearinghouse-academy.de/>.

AERO. 2023. „Evidence-based teaching practices“.

Altrichter, H, und H.-G. Rolff. 2006. „Datenbasierte Schulentwicklung. Editorial.“ *Journal für Schulentwicklung* 10 (4): 4–6.

Association, American Psychological. 2019. *Publication manual of the american psychological association*. 7th Edition. American Psychological Association.

Bauer, Johannes, und Manfred Prenzel. 2012. „European teacher training reforms“. *Science* 336 (6089): 1642–43. <https://doi.org/10.1126/science.1218387>.

Bauer, K.-O., und H.-G. Rolff. 1978. „Vorarbeiten zu einer Theorie der Schulentwicklung“. In, herausgegeben von K.-O. Bauer und H.-G. Rolff, 219–63. Weinheim und Basel: Beltz.

Bellmann, Johannes, und Thomas Müller. 2011. „Evidenzbasierte Pädagogik ein Déjà-vu?“ In, herausgegeben von Johannes Bellmann und Thomas Müller, 9–32. Wiesbaden: VS Verlag für Sozialwissenschaften. <https://doi.org/10.1007/978-3-531-93296-5_1>.

Bez, Sarah, Simone Poindl, Thorsten Bohl, und Samuel Merk. 2021. „Wie werden Rückmeldungen von Vergleichsarbeiten rezipiert?“ *Zeitschrift für Pädagogik* 67 (4): 551–72. <https://doi.org/10.3262/ZP2104551>.

Biesta, Gert. 2007. „Why “What Works” Won’t Work: Evidence-Based Practice and the Democratic Deficit in Educational Research“. *Educational Theory* 57 (1): 1–22. <https://doi.org/10.1111/j.1741-5446.2006.00241.x>.

Bohl, Thorsten. 2020. „Theorien der Schulentwicklung“. In, herausgegeben von Martin Harant, Philipp Thomas, und Uwe Küchler, 97–109. Schriftenreihe der Tübingen School of Education, Band 01. Tübingen: Tübingen University Press. <https://doi.org/10.15496/publikation-45627>.

Bohl, Thorsten, Albrecht Wacker, und Martin Harant. 2015. *Schulpädagogik und Schultheorie*. 1. Aufl. UTB 4180. Stuttgart: UTB GmbH. <https://doi.org/10.36198/9783838541808>.

Bohrer, Kristina, Kirstin Schmidt, und S. Merk. 2025. „Zwei Studien, ein Ergebnis: Lehramtsstudierende unterliegen im Umgang mit Evidenz dem Ankereffekt“. *Zeitschrift für Erziehungswissenschaft*.

Bromme, Rainer, Manfred Prenzel, und Michael Jäger. 2014. *Empirische Bildungsforschung Und Evidenzbasierte Bildungspolitik*. *Zeitschrift für Erziehungswissenschaft*. Bd. 17. S4. <https://doi.org/10.1007/s11618-014-0514-5>.

Brooks, Margaret E, Dev K Dalal, und Kevin P Nolan. 2014. „Are common language effect sizes easier to understand than traditional effect sizes?“ *Journal of Applied Psychology* 99 (2): 332–40. <https://doi.org/10.1037/a0034745>.

Brügelmann, Hans. 2018. „Unterrichts- und Schulentwicklung in Communities of Practice“. In, herausgegeben von Heiner Barz, 479–84. Wiesbaden: Springer Fachmedien. <https://doi.org/10.1007/978-3-658-07491-3_44>.

Brühwiler, Christian, und Bruno Leutwyler. 2020. „Praxisrelevanz von Forschung als gemeinsame Aufgabe von Wissenschaft und Praxis: Entwurf eines Angebots-Nutzungs-Modells“. *BzL - Beiträge zur Lehrerinnen- und Lehrerbildung* 38 (1): 21–36. <https://doi.org/10.36950/bzl.38.2020.9309>.

Bürkner, Paul-Christian. 2017. „Brms: An R Package for Bayesian Multilevel Models Using Stan“. *Journal of Statistical Software* 80 (1). <https://doi.org/10.18637/jss.v080.i01>.

Council of the European Union. 2024. „Council conclusions on promoting evidence-informed policy and practice in education and training to achieve the European Education Area“. <https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:C_202403642>.

Dewe, Bernd, Wilfried Ferchhoff, und Frank-Olaf Radtke. 1992. „Das ,,Professionswissen“ von Pädagogen“. In, herausgegeben von Bernd Dewe, Wilfried Ferchhoff, und Frank Olaf-Radtke, 70–91. Wiesbaden: VS Verlag für Sozialwissenschaften. <https://doi.org/10.1007/978-3-663-09988-8_5>.

Döring, Nicola, und Jürgen Bortz. 2016. *Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften*. 5., vollst. Berlin, Heidelberg: Springer. <http://dx.doi.org/10.1007/978-3-642-41089-5>.

Franconeri, Steven L., Lace M. Padilla, Priti Shah, Jeffrey M. Zacks, und Jessica Hullman. 2021. „The Science of Visual Data Communication: What Works“. *Psychological Science in the Public Interest* 22 (3): 110–61. <https://doi.org/10.1177/15291006211051956>.

Friel, Susan N, Frances R Curcio, und George W Bright. 2001. „Making sense of graphs: Critical factors influencing comprehension and instructional implications“. *Journal for Research in Mathematics Education* 32 (2): 124. <https://doi.org/10.2307/749671>.

Frischkorn, Gidon T., und Vencislav Popov. o. J. „A Tutorial for Estimating Bayesian hierarchical mixture models for visual working memory tasks: Introducing the Bayesian Measurement Modeling (bmm) package for R“. <https://doi.org/10.31234/osf.io/umt57>.

Garnier, Simon, Noam Ross, BoB Rudis, Antoine Filipovic-Pierucci, Tal Galili, Timelyportfolio, Alan O’Callaghan, u. a. 2023. *sjmgarnier/viridis: CRAN release v0.6.3*. Zenodo. <https://doi.org/10.5281/ZENODO.4679423>.

Gigerenzer, Gerd, Ralph Hertwig, Eva Van Den Broek, Barbara Fasolo, und Konstantinos V. Katsikopoulos. 2005. „“A 30“. *Risk Analysis* 25 (3): 623–29. <https://doi.org/10.1111/j.1539-6924.2005.00608.x>.

Groß Ophoff, Jana, Chris Brown, und Christoph Helm. 2023. „Do pupils at research-informed schools actually perform better? Findings from a study at English schools“. *Frontiers in Education* 7 (Januar): 1011241. <https://doi.org/10.3389/feduc.2022.1011241>.

Hau, Rita, Ursula Martini, und Anette Dralle. 2012. *PONS Wörterbuch für Schule und Studium Latein-Deutsch*. PONS.

Helmke, Andreas. 2022. *Unterrichtsqualität und Professionalisierung: Diagnostik von Lehr-Lern-Prozessen und evidenzbasierte Unterrichtsentwicklung*. Hannover: Klett Kallmeyer.

Holtappels, Heinz G. 2007. „Schulentwicklungsprozesse und Change Management. Innovationstheoretische Reflexionen und Forschungsbefunde über Steuergruppen.“ In, herausgegeben von Nils Berkemeyer, 11–39. Veröffentlichungen des Instituts für Schulentwicklungsforschung. Weinheim u.a.: Juventa.

Hullman, Jessica, Paul Resnick, und Eytan Adar. 2015. „Hypothetical Outcome Plots Outperform Error Bars and Violin Plots for Inferences about Reliability of Variable Ordering“. Herausgegeben von Elena Papaleo. *PLOS ONE* 10 (11): e0142444. <https://doi.org/10.1371/journal.pone.0142444>.

Jones, Andrew. 2024. „Rethinking Evidence-Based Practice in Education: A Critical Literature Review of the ‘What Works’ Approach“. *International Journal of Educational Researchers* 15 (2): 37–51. <https://doi.org/10.29329/ijer.2024.1041.3>.

Kale, Alex, Matthew Kay, und Jessica Hullman. 2020. „Visual reasoning strategies for effect size judgments and decisions“. <https://doi.org/10.48550/ARXIV.2007.14516>.

Karst, Karina, Oscar Yendell, Alexandra Marx, Wolf-Dieter Lettau, und Patrick Hawlitschek. 2024. „Die Etablierung von Evidenzteams in SchuMaS Eine Strategie zur systematischen Nutzung von Daten für die Schul- und Unterrichtsentwicklung“. In, herausgegeben von Kai Maaz und Alexandra Marx, 225–40. Münster: Waxmann. <https://madoc.bib.uni-mannheim.de/67727/>.

Kelly, Matthew Gardner, und Danielle Farrie. 2023. „Misrepresented Funding Gaps in Data for Some States“. *Educational Researcher* 52 (4): 244–47. <https://doi.org/10.3102/0013189X221133396>.

Kim, Yea-Seul, Jake M Hofman, und Daniel G Goldstein. 2022. „CHI ’22: CHI Conference on Human Factors in Computing Systems“. In, 1–14. New Orleans LA USA: ACM. <https://doi.org/10.1145/3491102.3502053>.

Kluge, F. 2011. *Etymologisches Wörterbuch der deutschen Sprache*. 25. Aufl. Berlin: De Gruyter.

Masnick, Amy M., und Corinne Zimmerman. 2009. „Evaluating Scientific Research in the Context of Prior Belief: Hindsight Bias or Confirmation Bias?“ *Journal of Psychology of Science and Technology* 2 (1): 29–36. <https://doi.org/10.1891/1939-7054.2.1.29>.

McMillan, James H., und Foley Jennifer. o. J. „Reporting and Discussing Effect Size: Still the Road Less Traveled?“ *Practical Assessment, Research, and Evaluation* 16 (1). <https://doi.org/10.7275/B6PZ-WS55>.

Merk, Samuel, Simone Poindl, Sebastian Wurster, und Thorsten Bohl. 2020. „Fostering Aspects of Pre-Service Teachers’ Data Literacy: Results of a Randomized Controlled Trial“. *Teaching and Teacher Education* 91 (Mai): 103043. <https://doi.org/10.1016/j.tate.2020.103043>.

Michal, Audrey L., und Priti Shah. 2024. „A Practical Significance Bias in Laypeople’s Evaluation of Scientific Findings“. *Psychological Science*, März, 09567976241231506. <https://doi.org/10.1177/09567976241231506>.

Mitchell, Mark L., und Janina M. Jolley. 2010. *Research design explained*. 7. Aufl. Belmont: Wadsworth.

Neuenschwander, Markus P. 2005. „Forschungskompetenzen in der Lehrerinnen- und Lehrerbildung erweitern: Ein Weiterbildungskonzept“. *BzL - Beiträge zur Lehrerinnen- und Lehrerbildung* 23 (2): 270–80. <https://doi.org/10.36950/bzl.23.2.2005.10132>.

Pellegrini, Marta, und Giuliano Vivanet. 2021. „Evidence-Based Policies in Education: Initiatives and Challenges in Europe“. *ECNU Review of Education* 4 (1): 2545. <https://doi.org/10.1177/2096531120924670>.

RBB, Max Kell. 2023. „Deutsche Schülerinnen und Schüler schneiden bei neuer PISA-Studie so schlecht ab wie nie zuvor“. <https://www.tagesschau.de/multimedia/video/video-1280422.html>.

Renkl, Alexander. 2022. „Meta-Analyses as a Privileged Information Source for Informing Teachers’ Practice? A Plea for Theories as Primus Inter Pares“. *Zeitschrift Für Pädagogische Psychologie* 36 (4): 217–31. <https://doi.org/10.1024/1010-0652/a000345>.

Schildkamp, K, und Cindy L. Poortman. 2015. „Factors influencing the functioning of data teams“. *Teachers College record* 117 (4): 1–42. <https://doi.org/10.1080/09243453.2016.1256901>.

Schmidt, Kirstin. 2024. „Teachers’ Engagement With Educational Science How to Communicate Findings From Educational Science in a User-Friendly Way to Teachers“. Phdthesis, Karlsruhe.

Schmidt, Kirstin, Peter A. Edelsbrunner, Tom Rosman, Colin Cramer, und Samuel Merk. 2023. „When Perceived Informativity Is Not Enough. How Teachers Perceive and Interpret Statistical Results of Educational Research“. *Teaching and Teacher Education* 130 (August): 104134. <https://doi.org/10.1016/j.tate.2023.104134>.

Schneider, Jürgen, Kirstin Schmidt, Kristina Bohrer, und Samuel Merk. 2024. „Communicating Effect Sizes to Teachers“. *Zeitschrift Für Psychologie*, September. <https://econtent.hogrefe.com/doi/10.1027/2151-2604/a000573>.

Shavelson, Richard J., und Lisa Towne. 2002. *Scientific Research in Education*. Washington: National Academies Press.

Slavin, Robert E. 2020. „How Evidence-Based Reform Will Transform Research and Practice in Education“. *Educational Psychologist* 55 (1): 21–31. <https://doi.org/10.1080/00461520.2019.1611432>.

Stan Development Team. 2024. *Stan Modeling Language Users Guide and Reference Manual*. <https://mc-stan.org>.

Stark, Robin. 2017. „Probleme evidenzbasierter bzw. -orientierter pädagogischer Praxis“. *Zeitschrift für Pädagogische Psychologie* 31 (2): 99–110. <https://doi.org/10.1024/1010-0652/a000201>.

taz.de. 2023. „Pisa-Schock für deutsche Schü­le­r:in­nen: Im freien Fall \| taz.de“. <https://taz.de/Pisa-Schock-fuer-deutsche-Schuelerinnen/!5974146/>.

Thorndike, Edward L. 1904. *Theory of Mental and Social Measurements.* The Science Press. <https://doi.org/10.1037/13283-000>.

Vehtari, Aki, Andrew Gelman, Daniel Simpson, Bob Carpenter, und Paul-Christian Bürkner. 2021. „Rank-Normalization, Folding, and Localization: An Improved Rˆ for Assessing Convergence of MCMC (with Discussion)“. *Bayesian Analysis* 16 (2). <https://doi.org/10.1214/20-BA1221>.

Volkert, Lilith, und Süddeutsche de GmbH, Munich Germany. 2023. „Jeder dritte 15-Jährige scheitert an leichten Mathe-Aufgaben“. <https://www.sueddeutsche.de/projekte/artikel/politik/pisa-studie-schulen-mathe-aufgaben-jugendliche-scheitern-gruende-e206264/>.

Zhang, Sam, Patrick R. Heck, Michelle N. Meyer, Christopher F. Chabris, Daniel G. Goldstein, und Jake M. Hofman. 2023. „An illusion of predictability in scientific results: Even experts confuse inferential uncertainty and outcome variability“. *Proceedings of the National Academy of Sciences* 120 (33): e2302491120. <https://doi.org/10.1073/pnas.2302491120>.