Direkt zum Hauptbereich

Evidenzsprechstunde: Bei dicken weißen alten Männern hilft es doch...

Endlich gibt es mal wieder eine neue Folge der Evidenz-Sprechstunde. Und sie beschäftigt sich mit einem Thema (oder besser gesagt: Problem), das den geneigten Leserinnen und Lesern sicher häufiger in der wissenschaftlichen Literatur unterkommt: Subgruppenanalysen. Bei einer Subgruppenanalyse werden die Ergebnisse nach bestimmten Eigenschaften der Patienten nochmal anders ausgewertet, zum Beispiel: Ist der Nutzen bei Menschen über 60 höher als bei solchen bis 60 Jahre? Oder bei Männern höher als bei Frauen?

Schauen wir uns mal ein Beispiel aus der Werbung an, konkret aus einer Pressemitteilung zu einer Studie mit einem Ginkgo-Extrakt zur Vorbeugung einer Demenz. Da heißt es: "Ein Schutz vor Alzheimer kann bei langfristiger regelmäßiger Einnahme...erwartet werden: Bei Einnahme über mindestens vier Jahre war das Alzheimer-Risiko fast halbiert...Zwar reichte die Anzahl der Demenz-Fälle nicht aus, um die Wirkung für alle Studienteilnehmer statistisch zu beweisen. In einer vorab geplanten Auswertung der Studienteilnehmer, die über mindestens vier Jahre behandelt wurden, fand sich jedoch eine Reduktion des Alzheimer-Risikos um 47 %."

Hört sich toll an, oder? Jedenfalls solange man nicht allzu genau hinschaut. Bei einem Blick in die Originalstudie stellt man nämlich fest, dass die Studie zu keinem positiven Ergebnis kommt. Die Autoren schlussfolgern ganz richtig: "Long-term use of standardised ginkgo biloba extract in this trial did not reduce the risk of progression to Alzheimer's disease compared with placebo." Kurz gesagt: In der Studie war Ginkgo nicht besser als ein Scheinmedikament.

Wie kommt die Werbung dann auf die angebliche Halbierung des Krankheitsrisikos? Dazu muss man etwas tiefer graben, bis man in der Publikation auf die Subgruppenanalysen stößt. Da wurden jede Menge Tests durchgeführt und tatsächlich fand sich für die Eigenschaft "Einnahme der Studienmedikation für mindestens vier Jahre" ein Hazard ratio von 0,53 (im übrigen nur knapp signifikant), das der in der Werbung zitierten Risikoreduktion von 47 % entspricht.

Aber ist dieses Ergebnis glaubhaft? Schauen wir uns dazu einmal genauer die Probleme von Subgruppenanalysen an. Grundsätzlich gilt: Bei Subgruppenanalysen gibt es ein hohes Risiko für statistische Zufallsbefunde. Dafür gibt es mehrere Gründe: 

  • Subgruppenanalysen umfassen weniger Teilnehmer als die ursprüngliche Studie. Damit kann die nötige Trennschärfe oder Power fehlen. Das heißt: Auch wenn die Analyse in einer Subgruppe keinen statistisch signifikant Effekt findet, kann er dennoch vorhanden sein.
  • Besonders wenn mehrere Subgruppenanalysen durchgeführt werden, kann das sogenannte “Problem des multiplen Testens” auftreten. Kurz gesagt bedeutet das: Je mehr statistische Signifikanztests durchgeführt werden, desto größer ist die Wahrscheinlichkeit für falsch-signifikante Ergebnisse. 
  • Werden Subgruppenanalysen nachträglich durchgeführt, ist die zufällige Zuteilung der Patienten auf die Behandlungsgruppen nicht gewährleistet. Das bedeutet aber auch, dass es sich bei den Subgruppenanalysen nicht um randomisierte Vergleiche handelt. Und das hat zur Folge, dass sich die jeweiligen Gruppen möglicherweise noch in anderen Faktoren unterscheiden, die Einfluss auf das Ergebnis haben.
Darf man jetzt gar keine Subgruppenanalysen durchführen? Doch, das kann sogar manchmal aus einer klinischen Perspektive sinnvoll sein, um eine konkrete Fragestellung zu beantworten. Man muss sich aber an bestimmte Regeln halten. Dazu gehören u.a.:
  • Subgruppenanalysen a-priori, sprich im Studienprotokoll mit den zugehörigen Hypothesen festlegen und - noch besser - bei der Randomisierung berücksichtigen (stratifizierte Randomisierung). Dafür ist in der Regel eine höhere Teilnehmerzahl nötig, um eine ausreichend hohe Power zu bekommen.
  • Subgruppen-Charakteristika festlegen, die biologisch plausibel sind und bei denen es sich um baseline-Variablen handelt - also z.B. Alter, Geschlecht, Krankheitsstadien, aber nicht etwa Therapietreue, und die Einteilung vorab exakt beschreiben (z.B. Altersgruppen 20-40 Jahre,  41-60 Jahre etc.)
  • Die Analyse auf einige wenige, klinisch wichtige Subgruppen beschränken und alle durchgeführten Analysen auch berichten.
  • Korrekte statistische Verfahren einsetzen: Interaktionstest als erster Auswertungsschritt und nur bei signifikantem Ergebnis weitere separate Auswertung, ggf. mit statistischer Korrektur für multiples Testen.
Und noch zwei Tipps für die Interpretation: Besonders muss man aufpassen, wenn der primäre Endpunkt der Studie für die Gesamtanalyse negativ ausfällt, die Autoren einem aber positive Effekte in den Subgruppen unterjubeln wollen. Und der beste Anhaltspunkt für unterschiedliche Effekte in Subgruppen sind nicht winzig kleine p-Werte, sondern wenn nachfolgende Studien diese Effekte ebenfalls finden.

Was heißt das jetzt für das oben zitierte Beispiel? Die Subgruppenanalyse war zwar prä-spezifiziert, aber bezieht sich nicht auf eine Baseline-Variable. Hinzu kommt: Der primäre Endpunkt der Studie war nicht signifikant - dann verbieten sich weitere Analysen von Subgruppen. Das gilt besonders dann, wenn es sehr viele sind, in diesem Fall 13. Die Autoren nutzten zwar einen Interaktionstest, aber korrigierten nicht für multiples Testen. Von daher weisen sie in der Diskussion ganz zu recht darauf hin, dass die Ergebnisse der Subgruppenanalysen mit Vorsicht zu betrachten sind. Offenbar haben die Verfasser der Pressemitteilung aber nicht so weit gelesen.

Das alles ist auch ein sehr hübsches Beispiel, wie Spin in der Werbung funktioniert und warum es sich immer lohnt, die Originalpublikation gründlich zu lesen.

Noch mehr Hintergründe zum Thema Subgruppenanalysen finden sich in den angegebenen Quellen. Und wer noch eine schöne Geschichte dazu hören will, kann sich schon mal auf die nächste Folge der Evidenz-Geschichten freuen - die Episode wird voraussichtlich Anfang Juli veröffentlicht.

Quellen