Effektstärke: Warum Psychologie-Forschung so oft scheitert

Du hast es bestimmt gesehen. "Schokolade macht schlank!" – die Headline ging 2015 viral. Zeitungen, Online-Portale, Talkshows: Alle berichteten euphorisch über eine "wissenschaftliche Studie", die bewies, dass Schokoladenkonsum beim Abnehmen hilft. Die Effektstärke? Winzig. Cohen's d lag bei etwa 0,2 – praktisch bedeutungslos. Die Teilnehmer verloren lediglich etwa 10 Prozent mehr Gewicht als die Kontrollgruppe – bei einer Low-Carb-Diät, was in absoluten Zahlen wenig bedeutet. Aber die Medien? Die schrieben "15 Prozent mehr Gewichtsverlust" und verschwiegen komplett, dass es sich um relative Verbesserungen handelte, die praktisch kaum relevant waren.

Hier liegt das Problem. Johannes Bohannon, der Journalist hinter dieser Studie, hatte sie absichtlich als PR-Stunt entworfen. Er wollte zeigen, wie leicht Medien und Journalisten Wissenschaft missbrauchen. Und es hat funktioniert. Die Leute wollten glauben, dass Schokolade schlank macht. Also haben sie die Zahlen ignoriert. Solche Fälle zeigen ein systemisches Problem.

Wie die Medien Wissenschaft verkaufen

Die Berichterstattung über die Schokolade-Studie offenbart ein systemisches Versagen. Journalisten lesen selten die Originalstudien. Stattdessen greifen sie auf Pressemitteilungen zurück – und die sind optimiert für Klicks, nicht für Genauigkeit.

Relatives Risiko statt absolutes Risiko. Das ist der beliebteste Trick. "50 Prozent mehr Krebsrisiko" klingt dramatisch. Dass es sich um einen Anstieg von 2 auf 3 Prozent handelt? Das interessiert niemanden. Die Headline ist geboren, der Kontext stirbt. Clickbait schlägt Akkuratesse jedes Mal.

Es geht nicht nur um faule Journalisten. Es geht um ein System, das Akkuratesse bestraft. Wer den komplexen Kontext einer Studie erklärt, verliert Leser. Wer eine knackige, falsche Headline schreibt, gewinnt Klicks. Die Anreize sind pervers. Leser treffen Entscheidungen auf Basis von Halbwahrheiten.

Die Replikationskrise: Die Zahlen sprechen für sich

Stell dir vor, du baust ein Haus. Der Architekt sagt: "Das Fundament hält mit 39-prozentiger Wahrscheinlichkeit." Würdest du einziehen?

Genau das passiert in der Psychologie. Das Reproducibility Project (Open Science Collaboration, 2015) versuchte, 100 Studien aus drei Top-Journalen zu replizieren. Das Ergebnis: Nur 39 Prozent der Originalbefunde ließen sich reproduzieren. In den Originalstudien zeigten 97 Prozent "signifikante" Ergebnisse. In den Replikationen nur 36 Prozent. Die Effektstärken in den Replikationen waren etwa halb so groß wie in den Originalen.

Das sind keine Ausnahmen. Das ist ein systemisches Problem.

Der p-Wert-Fetisch: Warum 0,05 ein Problem ist

Was bedeutet p < 0,05 eigentlich? Nicht das, was du denkst.

Ein p-Wert sagt nicht, wie wahrscheinlich es ist, dass deine Hypothese stimmt. Er sagt nur, wie wahrscheinlich deine Daten sind – unter der Annahme, dass die Nullhypothese wahr ist. Das ist ein subtiler, aber kritischer Unterschied.

Simmons, Nelson und Simonsohn (2011) zeigten in ihrer Studie "False-Positive Psychology", was passiert, wenn Forscher Flexibilität nutzen. Mit standardmäßiger "researcher degrees of freedom" – dem Spielraum, wann man aufhört zu messen, welche Variablen man analysiert, welche Ausreißer man entfernt – konnten sie in 61 Prozent der Fälle einen "signifikanten" Effekt erzeugen. Auch wenn gar keiner existierte.

Die American Statistical Association (Wasserstein & Lazar, 2016) veröffentlichte 2016 ein beispielloses Statement. Sechs Prinzipien für den richtigen Umgang mit p-Werten. Die Kernbotschaft: Ein p-Wert misst nicht die Größe eines Effekts und nicht die Bedeutung eines Ergebnisses.

Das System belohnt Signifikanz ohne Rücksicht auf Effektstärke. Das öffnet die Tür für Manipulation.

Effektstärken: Die vergessene Währung

Hier kommt Cohen's d ins Spiel. Jacob Cohen (1988) etablierte Konventionen für Effektstärken: d = 0,2 ist ein kleiner Effekt, d = 0,5 ist ein mittlerer Effekt, d = 0,8 ist ein großer Effekt.

Ein kleiner Effekt mit d = 0,2 ist kaum sichtbar. Praktisch irrelevant. Und genau darauf läuft die Replikationskrise hinaus.

Das Power-Pose-Beispiel illustriert das perfekt. Die Originalstudie von Carney, Cuddy und Yap (2010) mit nur 42 Probanden behauptete, dass eine dominante Körperhaltung Testosteron erhöht und Cortisol senkt. Die Replikation von Ranehill et al. (2015) mit 200 Probanden fand: keine hormonellen Effekte. Der Effekt auf das Machtgefühl war nur d ≈ 0,2 – und nur bei Männern.

Die ursprünglichen Effektstärken waren systematisch zu hoch. Das Original zeigte d ≈ 0,6. Die Replikation d ≈ 0,2. Das ist der Unterschied zwischen "beeindruckend" und "wer kümmert sich?"

Der Unterschied zwischen statistischer und praktischer Signifikanz ist entscheidend. Ein p-Wert sagt dir, dass ein Unterschied existiert. Die Effektstärke sagt dir, ob dieser Unterschied überhaupt relevant ist.

Die großen Skandale: Von Stapel bis Gino

Die Zahlen aus der Replikationskrise zeigen statistische Probleme. Hinzu kommt gezielter Betrug in der Forschung.

Diederik Stapel (2011): 58 zurückgezogene Publikationen. Der größte Betrugsfall der Psychologie-Geschichte. Der niederländische Sozialpsychologe erfand über Jahre komplette Datensätze. Er behauptete, Studien durchgeführt zu haben, die nie stattfanden. Das Levelt-Komitee (2012) sprach von einer "Kultur schlechter Wissenschaft" – ein System, das Täuschung ermöglichte und schützte.

Hans-Ulrich Wittchen (2019-2024): Die PPP-Studie an der TU Dresden. Budget: 2,5 Millionen Euro aus dem deutschen Gesundheitssystem. Die Studie "Personalausstattung in Psychiatrie und Psychosomatik" sollte die Grundlage für neue Versorgungsrichtlinien werden. Stattdessen: erfundene Klinik-Daten, zu wenige teilnehmende Kliniken, möglicher Missbrauch von Projektmitteln. Die neuen Richtlinien wurden implementiert – ohne die Studiendaten. 2024 wurde Anklage wegen Betrugs erhoben.

Francesca Gino (2023-2025): Die Ironie ist kaum zu übertreffen. Eine Harvard-Professorin, die über Ehrlichkeit forschte. Data Colada – das Blog-Trio Simonsohn, Simmons und Nelson – deckte Manipulationen in vier Papers auf. Die Excel-Analyse zeigte: Zeilen waren manuell zwischen Bedingungen verschoben worden. Die forensische Analyse der calcChain.xml bewies: Jemand hatte Daten manuell manipuliert. Harvards 1.300-seitiger Untersuchungsbericht bestätigte das Fehlverhalten. Im März 2024 wurde sie beurlaubt. 2025 wurde ihr die Tenure entzogen – das erste Mal in der Harvard-Geschichte seit den 1940ern.

Alle drei Fälle haben Gemeinsamkeiten: Prominente Forscher. Jahre andauernde Täuschung. Entdeckung durch Außenstehende, nicht durch Peer Review. Effektstärken, die zu schön waren, um wahr zu sein.

Warum das System Betrug belohnt

Das Problem ist kein individuelles Moralversagen. Das Problem ist strukturell – und es umfasst alle Ebenen: Forscher, Journale, Medien, Öffentlichkeit.

"Publish or Perish" – veröffentliche oder verschwinde. Karrieren hängen von Publikationszahlen ab. Journals bevorzugen positive Ergebnisse mit 96 Prozent zu 44 Prozent (Lakens, 2021). Negative Ergebnisse verschwinden in der Schublade. Effektstärken spielen bei Publikationsentscheidungen kaum eine Rolle.

Das führt zu einem gefährlichen Zyklus: p-Hacking – so lange analysieren, bis p < 0,05 erreicht ist. Selektives Reporting – nur signifikante Ergebnisse aus mehreren Messungen berichten. Und wenn das alles nicht hilft: Datenerfindung.

Die meisten Forscher starten mit legitimem Spielraum. Der Karrieredruck steigt. Inkrementelle ethische Kompromisse summieren sich. Nach zehn Jahren bist du Stapel. Oder Gino.

Die Medien verstärken das Problem. Sie nehmen das, was die Journals publizieren, und verdrehen es weiter für Klicks. Der Öffentlichkeit bleibt nur das fertige Produkt: eine Welt, in der Schokolade schlank macht und Power Posing Hormone verändert.

Effektstärken könnten als Schutz dienen. Wenn Journals verlangen würden, dass signifikante Ergebnisse auch praktisch relevant sein müssen – viele "signifikante" Befunde würden als trivial erkannt. Der Anreiz zu manipulieren würde sinken.

Open Science: Die Revolution

Es gibt Hoffnung. Die Open-Science-Bewegung wächst.

Präregistrierte Studien legen die Hypothese vor dem Experiment fest. Registered Reports drehen den Peer-Review-Prozess um: Das Journal akzeptiert oder lehnt das Paper basierend auf der Methodik ab – bevor die Ergebnisse bekannt sind.

Die Zahlen sind ermutigend. Lakens (2021) verglich Standard-Literatur mit Registered Reports: 96 Prozent positive Ergebnisse in der Standardliteratur, nur 44 Prozent bei Registered Reports. Das ist keine Verschlechterung der Qualität. Das ist einfach nur ehrlich.

Die Many-Labs-Projekte zeigen, dass Replikation funktioniert. Many Labs 2 (Klein et al., 2018) testete 28 Effekte in 125 Samples aus 36 Ländern mit 15.305 Teilnehmern. Das funktioniert. Wenn man es richtig macht.

Das Center for Open Science etablierte die TOP-Guidelines (Transparency and Openness Promotion). Über 1.000 Journale haben sie übernommen. Plattformen wie OSF und AsPredicted machen Präregistrierung einfach.

Der Wandel ist langsamer, als er sein sollte. Aber er findet statt.

Was du jetzt tun kannst

Du musst kein Statistiker sein, um wissenschaftliche Studien kritisch zu lesen. Drei Fragen reichen: Wie groß ist die Stichprobe? Alles unter n = 100 ist verdächtig. Wurde die Effektstärke berichtet? Wenn nur der p-Wert steht, fehlt die Hälfte der Geschichte. Ist die Studie präregistriert? Ein Indikator für mehr Vertrauenswürdigkeit.

Prüfe die Effektstärke, bevor du einer Studie vertraust.

Wenn du selbst forschst oder Studien für Entscheidungen nutzt: Verlange Effektstärken. Ignoriere p-Werte ohne Kontext. Frage nach praktischer Relevanz. Und wenn die nächste Schlagzeile verkündet, dass X Y verursacht – frag nach den Zahlen. Hinter der Headline.

Fazit

Die Psychologie steht an einem Scheideweg. Das System der letzten Jahrzehnte hat versagt. 39 Prozent Replikationsrate. 58 zurückgezogene Publikationen bei Stapel allein. Ein p-Wert-System, das Manipulation einlädt. Und Medien, die das Ganze noch verschlimmern.

Aber es gibt einen Ausweg. Effektstärken müssen zum Standard werden. Präregistrierung muss die Norm sein. Registered Reports müssen den Mainstream erreichen. Und du – du musst kritisch lesen.

Die nächste Studie, die du liest – frag nach der Effektstärke. Nicht nur nach dem p-Wert. Das ist der erste Schritt zurück zu vertrauenswürdiger Wissenschaft.

Quellen

Bohannon, J., Koch, D., Homm, P., & Driehaus, A. (2015). Chocolate with High Cocoa Content as a Weight-Loss Accelerator. International Archives of Medicine, 8(55). (Zurückgezogen)

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. https://doi.org/10.1126/science.aac4716

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359-1366. https://doi.org/10.1177/0956797611417632

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133. https://doi.org/10.1080/00031305.2016.1154108

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

Levelt Committee, Noort Committee, & Drenth Committee (2012). Flawed science: The fraudulent research practices of social psychologist Diederik Stapel.

Lakens, D. (2021). Sample size justification. Collabra: Psychology, 7(1), 33267. https://doi.org/10.1525/collabra.33267

Klein, R. A., et al. (2018). Many Labs 2: Investigating variation in replicability across samples and settings. Advances in Methods and Practices in Psychological Science, 1(4), 443-490. https://doi.org/10.1177/2515245918810225

Carney, D. R., Cuddy, A. J., & Yap, A. J. (2010). Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance. Psychological Science, 21(10), 1363-1368.

Ranehill, E., et al. (2015). Assessing the robustness of power posing: No effect on hormones and risk tolerance in a large sample of men and women. Psychological Science, 26(5), 653-656.

Nosek, B. A., et al. (2015). Promoting an open research culture. Science, 348(6242), 1422-1425. https://doi.org/10.1126/science.aab2374