Infinitemarketing online
PTA-Forum InfinitemarketingPharmastellen InfinitemarketingMarkt InfinitemarketingAkademie DAC/NRF
AMK
InfinitemarketingMarkt
PTA-Forum
Weitere Angebote der PZ
Evidenzbasierte Pharmazie

Therapiestudien kritisch bewerten

22.04.2014
Datenschutz bei der PZ

Von Iris Hinneburg / Wer die Wirksamkeit eines Arzneimittels beurteilen will, braucht Studien. Doch nicht jede Studie liefert tatsächlich einen aussagekräftigen Beleg für die Wirksamkeit. Deshalb ist es wichtig, Studien kritisch zu beurteilen.

Brokkoli hilft gegen Krebs. Das Multivitaminpräparat unterstützt die Glaukomtherapie. Das Mittel stärkt das Immunsystem. Publikumsmedien und die Werbung zitieren häufig Studien, mit denen sich solche Behauptungen angeblich belegen lassen. Wer sich dabei auf die Marketingabteilung verlässt, kann leicht in die Irre gehen. Das zeigen einige häufige Irrtümer und Missverständnisse. Dieser Beitrag beleuchtet anhand von Beispielen wichtige Aspekte bei der Beurteilung von Studien und erklärt, worauf Apotheker achten sollten.

 

Missverständnis Nr. 1:

 

Der Pharmareferent argumentiert: »Dieses Nahrungsergänzungsmittel wurde in zahlreichen Studien untersucht.« Dabei verweist er auf eine lange Literaturliste in der Begleitbroschüre. Damit ist die Wirksamkeit doch wissenschaftlich belegt.

Gerade in Hochglanzbroschüren von OTC-Präparaten oder Nahrungsergänzungsmitteln findet man nicht selten beeindruckende Listen von Literaturzitaten. Bei näherem Hinsehen verbergen sich dahinter jedoch mitunter Laborversuche oder Tierexperimente – dann ist nicht klar, ob die Ergebnisse auf den Menschen übertragbar sind. Doch auch mit Untersuchungen am Menschen (klinischen Studien) ist nicht immer eine zuverlässige Aussage über die Wirksamkeit möglich. Denn die Aussagekraft der verschiedenen Stu­dientypen hängt von der jeweiligen Fragestellung ab.

 

Grundsätzlich lassen sich zwei Arten von klinischen Studien unterscheiden (Grafik): Interven­tionsstudien und Beobachtungsstudien (Synonym: epidemiologische Studien). Bei Interventionsstudien legt der Studienplan eine Intervention gezielt fest, also etwa die Einnahme eines bestimmten Medikaments zur Behandlung einer Erkrankung. Zu diesen Studientypen gehören die randomisierten kontrollierten Studien (RCT) oder die kontrollierten klinischen Studien (CCT).

 

Bei Beobachtungsstudien dagegen sind die Exposition, zum Beispiel die Einnahme von Arzneimitteln oder Nahrungsergänzungsmitteln, oder externe Einflüsse wie Feinstaub oder Laborchemikalien auch unabhängig von der ­Studie vorhanden.

 

Beobachtungsstudien: kontrolliert oder nicht?

 

Die weitere Unterteilung der Beobachtungsstudien orientiert sich daran, ob es in der Studie eine Kontrollgruppe gibt oder nicht. Eine Kontrollgruppe ist etwa bei Kohortenstudien, Fall-Kontroll-Studien oder Querschnittsstudien vorhanden, fehlt dagegen bei Fallberichten, Fallserien oder Anwendungsbeobachtungen. Bei Studien mit Kontrollgruppe sprechen Fachleute auch von analytischen Studien im Gegensatz zu deskriptiven Studien ohne Kontrollgruppe.

Die analytischen Studien unterscheiden sich hauptsächlich nach der Richtung von Exposition und Ergebnis (englisch: outcome). Bei Kohortenstudie besteht die Untersuchungsgruppe aus Probanden, die einer bestimmten Exposition ausgesetzt sind – ihr weiteres Ergehen, etwa Gesundheitszustand oder Krankheitsverlauf, beobachtet die Studie über einen bestimmten Zeitraum im Vergleich zu einer Kontrollgruppe, bei der die Exposition nicht vorhanden ist. Das bezeichnet man auch als prospektives Design.

 

Ein Beispiel für eine Kohortenstudie: Frauen in den Wechseljahren entscheiden gemeinsam mit dem Arzt, ob sie ihre Beschwerden mit einer Hormontherapie behandeln wollen oder nicht. Die Studie untersucht über einen Zeitraum von zehn Jahren, ob bestimmte Krebserkrankungen im Vergleich zur Kontrollgruppe (ohne Hormonbehandlung) häufiger auftreten. Problematisch an Kohortenstudien ist vor allem die fehlende Strukturgleichheit zwischen den Behandlungsgruppen. So lässt sich im Beispiel nicht ausschließen, dass der Arzt einer Frau mit ­bestimmten Risikofaktoren abgeraten hat von der Hormonbehandlung, anderen jedoch nicht. Solche Einflüsse können das Ergebnis der Untersuchung verzerren.

 

Eine retrospektive Betrachtungsweise kennzeichnet Fall-Kontroll-Studien. Eine typische Fragestellung ist, bei erkrankten Personen in der Vergangenheit nach Risikofaktoren oder Ursachen für die Erkrankung zu suchen. Als Kontrollgruppe dienen gesunde Probanden. Im Arzneimittelbereich könnten Studienplaner etwa Patienten mit Leberzirrhose danach befragen oder in den Krankenakten suchen, ob sie ein potenziell hepatotoxisches Arzneimittel eingenommen haben. Das Beispiel zeigt aber auch die Problematik von Fall-Kontroll-Studien: Die möglichen Ursachen für die aufgetretene Erkrankung können vielfältig sein, und häufig lassen sich die genauen Umstände im Nachhinein nicht mehr vollständig ­rekonstruieren.

Querschnittsstudien schließlich erfassen gleichzeitig Exposition und Ergebnis. Ein Beispiel: Eine Studie beobachtet, dass bei Frauen mit Arthrose häufiger Übergewicht auftritt als bei gelenksgesunden Frauen. Hier stellt sich die Frage: Führt das Übergewicht zu den Gelenkschäden oder sind Frauen mit Arthrose immobiler und nehmen deshalb an Gewicht zu?

 

Kein Beleg für Kausalität

 

Bei epidemiologischen Studien kann – außer der jeweils interessierenden Exposition – eine Reihe von Einflüssen zu dem beobachteten Ergebnis führen. Deshalb lässt sich auf der Basis dieser Studien in der Regel kein kausaler Zusammenhang zwischen der Exposition und dem Ergebnis herstellen. Zeigt eine Kohortenstudie beispielsweise, dass in der Gruppe mit Exposition das beobachtete Ergebnis häufiger vorkommt als in der Kontrollgruppe, sprechen Statistiker daher korrekt lediglich von einer Assoziation.

 

Epidemiologische Studien liefern keinen Wirksamkeitsnachweis für eine bestimmte Intervention. Sie können lediglich Anhaltspunkte für eine Hypothese geben (1, 2).

 

Missverständnis Nr. 2:

 

Randomisierte kontrollierte Studien haben doch keine Vorteile, sie sind nur komplizierter. Warum sollen sie bei Therapiestudien der »Goldstandard« sein?

 

Bei Interventionsstudien gibt es neben der eigentlichen Behandlung, etwa der Gabe eines bestimmten Medikaments, eine Reihe von Faktoren, die das Ergebnis beeinflussen können. Dazu zählen zum Beispiel der Gesundheitszustand oder das Krankheitsstadium des Patienten, weitere individuelle Parameter wie Ernährung, Alter und soziale Verhältnisse, der Einfluss des Arztes und die subjektive Einschätzung des Zustands. Diese Einflussfaktoren können zu einer systematischen Verzerrung (englisch: bias) der Ergebnisse führen, sodass der Effekt des Arzneimittels nicht sicher beurteilt werden kann. Deshalb werden sie auch als »Störfaktoren« (englisch: confounder) bezeichnet.

 

Bei RCT sollen die Prinzipien »Kon­trollgruppe«, »Randomisierung mit verdeckter Zuteilung« und »Verblindung« systematische Verzerrungen möglichst ausschließen (Tabelle). Allerdings müssen die Prinzipien sachgerecht umgesetzt werden. Daher lohnt sich auch ein Blick in den Methodenteil der Studienpublikation.

 

Kontrollgruppe: Einflüsse erkennen

 

Wenn Forscher die Wirksamkeit eines Arzneimittels in einem RCT untersuchen, teilen sie die Patienten häufig in zwei Gruppen ein. Die Beobachtungsgruppe erhält das zu untersuchende Arzneimittel (häufig ein neues Präparat), die Kontrollgruppe eine bewährte Therapie oder – wenn ethisch gerechtfertigt – ein Placebo (Parallelgruppen-Design). Dabei wollen die Untersucher in der Regel nachweisen, dass das neue Arzneimittel besser wirkt als das Mittel in der Kontrollgruppe (Überlegenheitsstudie).

Tabelle: Quellen für Bias in Therapiestudien und Möglichkeiten der Abhilfe (Auswahl)

Möglichkeit der Verzerrung Abhilfe durch qualitativ hochwertige RCT
Krankheitsbild verbessert sich von selbst, auch ohne Therapie Kontrollgruppe: Unterscheidung zwischen der Wirkung der Therapie und Effekten anderer Ursache
systematische Unterschiede in der Zusammensetzung der Gruppen, etwa Männer/Frauen, Ältere/Jüngere, Patienten mit leichteren oder schwereren Symptomen (Selektionsbias) Randomisierung: zufällige und verdeckte Zuteilung der Patienten in eine Gruppe
systematische Unterschiede in den Interventionen, etwa unterschiedliche Begleitmedikation oder Aufmerksamkeit des Pflegepersonals (Performance- Bias), systematische Unterschiede in der Bewertung der Ergebnisse (Beobachter-Bias) Verblindung möglichst aller Beteiligten
systematische Unterschiede zwischen den Gruppen bei Abweichungen vom Studienprotokoll (Attrition-Bias) Intention-to-treat-Analyse

Anhand von Kontrollgruppen können Statistiker berechnen, welcher Teil des Studienergebnisses auf das untersuchte Arzneimittel und welcher Teil auf andere Faktoren zurückzuführen ist. Solche anderen Faktoren sind etwa die Zuwendung in der Studie oder der natürliche Krankheitsverlauf. Ohne Kontrollgruppe können besonders bei Erkrankungen mit einer hohen Rate an Spontanheilungen (wie Erkältungshusten) oder progredientem Verlauf (wie Diabetes mellitus) Verzerrungen entstehen. Auch natürliche Schwankungen im Verlauf chronischer Erkrankungen (etwa wiederkehrende Schübe bei rheumatoider Arthritis) lassen sich durch Kontrollgruppen berücksichtigen.

 

Wichtig: Die Interventionen in der Behandlungs- und Kontrollgruppe müssen bis auf die untersuchte Therapie gleich sein. Dazu ist eine ausreichend detaillierte Beschreibung der Interventionen notwendig. Bei Studien, die eine neue Therapie mit der bisherigen Standardtherapie vergleichen, sollte man auch prüfen, ob die Standardtherapie nach dem Stand der Wissenschaft erfolgt. Eine zu niedrige Dosierung etwa verschafft dem neuen Präparat einen ungerechtfertigten Vorsprung bei der Wirksamkeit, während eine zu hohe Dosierung den Vergleich der Verträglichkeit verzerren kann (3).

 

Vorteile durch Randomisierung

 

Eine Randomisierung sorgt dafür, dass bekannte und unbekannte Störfaktoren möglichst gleichmäßig auf die Behandlungs- und die Kontrollgruppe verteilt sind und die Ausgangssituation in beiden Gruppen möglichst ähnlich ist. Ohne Randomisierung könnte es passieren, dass der entscheidende Arzt Patienten mit bestimmten Eigenschaften, etwa Risikofaktoren, bevorzugt ­einer der beiden Gruppen zuteilt.

 

Wenn bereits bekannt ist, dass bestimmte Faktoren wie Alter oder Rauchstatus das Ergebnis der Studie beeinflussen können, kann auch eine stratifizierte Randomisierung erfolgen. Damit wird der betreffende Faktor gleichmäßig auf die beiden Gruppen verteilt.

Keine Angst vor englischen Fachbegriffen

assessment: Beurteilung

 

assignment: Zuteilung (zu den Gruppen)

 

baseline data: Ausgangsdaten der Patienten zu Beginn der Studie

 

bias: systematische Verzerrung

 

case-control study: Fall-Kontroll-Studie

 

cohort study (longitudinal study): Kohortenstudie (Synonym: Längsschnittstudie)

 

concealment of allocation: verdeckte Zuteilung

 

confidence interval (CI): Konfidenz­intervall, Vertrauensbereich

 

confounder: Störfaktor

 

drop-out: Studienabbrecher

 

eligibility criteria: Auswahlkriterien,

 

inclusion criteria: Einschlusskriterien

 

exclusion criteria: Ausschluss­kriterien

 

enrollment: Aufnahme in die Studie

 

intention-to-treat: Auswerte­verfahren, bei dem alle Teilnehmer in der ursprünglich zugeordneten Gruppe berücksichtigt werden

 

masking: Verblindung

 

measurement: Messung

 

monitoring: Überwachung

 

non-inferiority: Nicht-Unterlegenheit

 

observational study: Beobachtungsstudie

 

outcome: Zielgröße, Endpunkt, Ergebnis

 

per-protocol: Auswerteverfahren, bei dem nur die Teilnehmer berücksichtigt werden, die die Studie gemäß Studienplan beendet haben

 

power: statistische Trennschärfe der Studie

 

superiority: Überlegenheit

 

treatment: Behandlung

 

Wer klinische Studien lesen und verstehen will, muss einige englische Fachbegriffe kennen. Aber keine Angst: Das Vokabular ist relativ standardisiert und lässt sich leicht aneignen. Hier eine Auswahl der wichtigsten Begriffe, die im Methodenteil von klinischen Studien verwendet werden.

In allen Fällen ist es wichtig, dass Patienten und Behandler die Zugehörigkeit zu den Gruppen nicht erraten können. Das wäre zum Beispiel möglich, wenn die Zuteilung der Patienten alternierend oder nach Wochentag erfolgt. Deshalb erfolgt bei hochwertigen Studien die Randomisierung der Patienten nicht durch den Prüfarzt, sondern eine unabhängige Stelle erstellt einen Randomisierungsplan und weist die Patienten der entsprechenden Behandlung zu. In der Publikation sollten Details zur Randomisierungsmethode nicht fehlen, ebenso Angaben, wie die verdeckte Zuteilung gewährleistet wurde. Aufschluss über den Erfolg dieser Maßnahme liefert die Angabe der Basisdaten von Behandlungs- und Kontrollgruppe (englisch: baseline data) (4).

 

Unverzerrte Wahrnehmung

 

Während der gesamten Laufzeit der Studie ist es wichtig, dass alle Beteiligten nicht wissen, ob der Patient zur ­Behandlungs- oder Kontrollgruppe gehört. Diese »Verblindung« erfordert umfangreiche Maßnahmen (unter anderem identisches Aussehen der Medikamente). Damit soll gewährleistet werden, dass alle Patienten gleich behandelt werden.

 

Fehlt die Verblindung, können systematische Fehler auftreten: So könnte sich die Aufmerksamkeit von Ärzten und Pflegepersonen oder angebotene Maßnahmen unterscheiden, wenn die Beteiligten wissen, ob der Patient zur Behandlungs- oder zur Kontrollgruppe gehört. Dieses Wissen kann vor allem bei subjektiven Parametern wie Schmerzen die Wahrnehmung des Patienten beeinflussen. Aus Studien weiß man, dass es auch die Befunderhebung durch Ärzte verzerren kann. Auf der Ebene der Datenauswertung kann eine fehlende Verblindung beispielsweise beeinflussen, wie Statistiker mit unklaren Befunden oder fehlenden Daten umgehen (5).

 

Weil das Risiko für systematische Verzerrungen bei methodisch hochwertigen RCT im Vergleich zu anderen Studientypen am geringsten ist, gelten RCT für therapeutische Fragestellungen als Goldstandard.

 

Missverständnis Nr. 3:

 

Die Auswertung einer RCT zeigt, dass das Mittel den Cholesterolspiegel um 57 Prozent senkt. Das ist doch ein beeindruckendes Ergebnis.

 

Wer Studien kritisch beurteilen will, sollte unbedingt klären, wie groß der Behandlungseffekt tatsächlich war. Deshalb lohnt ein genauer Blick auf die Ergebnisse. Bei Studien zur Arzneimitteltherapie kommen am häufigsten ­binäre (Synonym: dichotome) oder ­kontinuierliche Endpunkte vor. Ein typischer binärer Endpunkt, der eine von zwei Ausprägungen annehmen kann, ist etwa die Mortalität (Patient ist verstorben oder nicht) oder ein kardiovaskuläres Ereignis (Patient hat einen Herzinfarkt erlitten oder nicht). Ein kontinuierlicher Endpunkt ist beispielsweise die Senkung des Cholesterolspiegels oder des Blutdrucks. Diese Größe kann viele verschiedene Werte innerhalb eines bestimmten Bereichs annehmen.

 

Bei binären Endpunkten lässt sich berechnen, wie stark die Intervention das Risiko für das Ereignis absolut oder relativ senkt (Kasten). Geworben wird oft mit relativen Angaben, da die Werte in der Regel höher sind. Aussage­kräftiger sind jedoch die absoluten ­Angaben. Sie zeigen, wie häufig das ­Ereignis tatsächlich aufgetreten ist. ­Anschaulich ist die Number needed to treat (NNT): Sie beschreibt, wie viele Patienten mit dem Testpräparat in dem untersuchten Zeitraum behandelt werden müssen, um ein zusätzliches Ereignis im Vergleich zur Standardtherapie zu vermeiden (4).

Berechnung von Effekten für binäre Endpunkte

Das Relative Risiko (RR) beschreibt das Risiko, dass ein Ereignis in der Behandlungsgruppe auftritt im Vergleich zur Kontrollgruppe.

 

RR = Ereignisrate in der Behandlungsgruppe : Ereignisrate in der Kontrollgruppe

 

Bei RR = 1 gibt es keinen Unterschied zwischen den Gruppen.

 

Die relative Risikoreduktion (RRR) beschreibt die relative Abnahme der Ereignisrate in der Behandlungsgruppe im Vergleich zur Kontrollgruppe.

 

RRR (%) = 100 x (1 – RR)

 

Die absolute Risikoreduktion (ARR) ist der Betrag (Absolutwert, ohne Vorzeichen) der Differenz der Ereignisraten von Behandlungs- und Kontrollgruppe.

 

ARR = |Ereignisrate in der Behandlungsgruppe – Ereignisrate in der Kontrollgruppe|

 

Die Number needed to treat (NTT) beschreibt die Anzahl der Patienten, die behandelt werden müssen, um das Ereignis zu vermeiden.

 

NNT = 1/ARR

 

Ein Beispiel: In einem RCT wird untersucht, ob ein neues Arzneimittel gegenüber der Standardtherapie bei ­Patienten mit Vorhofflimmern einen Schlaganfall verhindern kann. Jede Gruppe umfasst 2500 Patienten (insgesamt also 5000), die über einen Zeitraum von fünf Jahren behandelt werden. In der Behandlungsgruppe treten 75 Schlaganfälle auf, in der Kontrollgruppe 100.

 

RR= (75/2500) : (100/2500) = 0,75

 

RRR = 100 x (1 – 0,75) = 25 %

 

ARR = |(75/2500) – (100/2500)| = 0,01 oder 1 %

 

NNT = 1/0,01 = 100

 

Das neue Arzneimittel senkt das Risiko eines Schlaganfalls also relativ um 25 Prozent. Die absolute Risikoreduktion beträgt jedoch nur 1 Prozent. ­Anders ausgedrückt: Man muss 100 Patienten über einen Zeitraum von fünf Jahren mit dem neuen Arzneimittel statt der Standardtherapie behandeln, um einen Schlaganfall mehr zu verhindern.

 

In Fall-Kontroll-Studien kann kein relatives Risiko berechnet werden, sondern stattdessen wird das »Odds ­ratio« (Chancenverhältnis) berechnet. Die Interpretation erfolgt analog zum relativen Risiko: Ein Odds ratio von 1 bedeutet keinen Unterschied bei den Ergebnissen von Behandlungs- und Kontrollgruppe (4).

 

Handelt es sich bei dem Endpunkt um eine kontinuierliche Variable, finden sich dagegen andere Effektmaße. Bei einer Studie mit einem neuen Präparat zur Hypertoniebehandlung wird etwa angegeben, wie groß der mittlere Unterschied in der Blutdrucksenkung war (standardisierte Differenz der Mittelwerte).

 

Nur signifikant oder auch relevant?

 

Eine sorgfältige Planung und Ausführung der RCT soll systematische Fehler möglichst verhindern. Allerdings können die erhobenen Messwerte auch durch Zufallsfehler vom (unbekannten) wahren Wert abweichen. In Publikationen finden sich daher Angaben zur statistischen Sicherheit der Ergebnisse: Konfidenzintervalle (Synonym: Vertrauensbereiche) und p-Werte.

 

Das Konfidenzintervall wird so berechnet, dass der wahre Wert, etwa der Mittelwert, mit einer bestimmten Wahrscheinlichkeit (häufig 95 Prozent) innerhalb des angegebenen Bereichs liegt. Eine Irrtumswahrscheinlichkeit (auch als Fehler 1. Art oder α-Fehler bezeichnet) von 5 Prozent wird in Kauf genommen. Die Variabilität der Ergebnisse zwischen den Patienten und die Größe der Stichprobe beeinflussen die Breite des Konfidenzintervalls.

 

Häufig wird stattdessen oder zusätzlich der p-Wert angegeben. Er beschreibt die Wahrscheinlichkeit, dass der gefundene Unterschied zwischen den Behandlungsgruppen im durchgeführten statistischen Test nur zufällig zustande gekommen ist und in Wirklichkeit nicht existiert. Liegt der p-Wert unter 0,05, werden Unterschiede konventionsgemäß auch als »statistisch ­signifikant« bezeichnet.

 

Das bedeutet allerdings nicht automatisch, dass die Unterschiede auch klinisch relevant sind, die Behandlung dem Patienten also tatsächlich nützt. Deshalb lohnt sich bei statistisch signifikanten Unterschieden ein Blick auf das Konfidenzintervall. Ein Beispiel: Eine Studie vergleicht den Effekt zweier Antihypertonika auf den Blutdruck. Eine bessere Wirksamkeit des neuen Arzneimittels wird in der Studie nur ­angenommen, wenn der Unterschied zwischen Behandlungs- und Vergleichsgruppe mindestens 4 mmHg ­beträgt (Grenze für die klinische Relevanz). In der Auswertung ist der Unterschied zwischen den Gruppen zwar statistisch signifikant, doch umfasst das Konfidenzintervall einen Bereich zwischen 1 und 5 mmHg. Danach ist es nicht unplausibel, dass der wahre Wert auch unterhalb der Relevanzgrenze liegen könnte – ein eindeutiger Vorteil des neuen Arzneimittels lässt sich mit der Studie also nicht belegen (6).

 

Patientenrelevante Endpunkte

 

Eine wichtige Frage ist, ob es sich bei den untersuchten Endpunkten um eine Zielgröße handelt, die für den Patienten eine Rolle spielt (beispielsweise Sterblichkeit, Behinderung, Funktionalität) oder lediglich um Surrogatparameter. Häufig sind dies Laborparameter wie Blutdrucksenkung, HbA1c-Wert bei Diabetikern oder die Knochendichte bei Osteoporosepatienten.

Surrogatparameter sind beliebte Zielgrößen, weil die Studien in der Regel kürzer laufen als bei patientenrelevanten Endpunkten. Allerdings ist nicht immer klar, ob Surrogatparameter tatsächlich zuverlässige Stellvertreter für patientenrelevante Endpunkte sind. So hat eine Metaanalyse gezeigt, dass zwischen der kardiovaskulären Mortalität von Diabetikern und dem HbA1c-Wert keineswegs eine lineare Korrela­tion besteht (je niedriger der HbA1c, desto geringer die Mortalität), sondern dass auch eine zu starke Senkung des HbA1c-Werts die Mortalität ansteigen lässt (7).

 

Missverständnis Nr. 4:

 

In der Werbung für das Arzneimittel wird eine Reihe von randomisierten kontrollierten Studien mit patientenrelevanten Endpunkten zitiert. Dann ist die Wirksamkeit doch erwiesen, oder? Die Ergebnisse einer RCT gelten nur dann als zuverlässig, wenn das Studiendesign eine Verzerrung durch systema­tische Einflüsse so weit wie möglich ­ausschließt. Nicht alle systematischen Fehler lassen sich bereits durch Kontrollgruppe, Randomisierung und Verblindung verhindern. Daher sollte man auch auf Details der Planung, Durchführung und Auswertung achten (Kasten).

Checkliste zur Bewertung von RCT

(Überlegenheitsstudien); Auswahl, modifiziert nach 4, 15

 

Fragen zum Studiendesign

 

  • Gibt es detaillierte Angaben zu Einschluss- und Ausschlusskriterien?
  • Erfolgte die Verteilung der Patienten auf die Studienarme randomisiert und verdeckt? Finden sich Details zum Randomisierungsverfahren?
  • Waren Patienten, Ärzte und Pflegepersonal, möglichst auch die Auswerter im Hinblick auf die Therapie verblindet?
  • Waren die Gruppen zu Beginn vergleichbar?
  • Wurden die Gruppen (bis auf die Studientherapie) gleich behandelt?
  • Entspricht die Vergleichstherapie dem Stand der Wissenschaft?
  • Gibt es Angaben zur Fallzahlplanung?
  • Welche primären und sekundären Endpunkte sollen mit welchen Methoden erfasst werden?
  • Welche Zwischenauswertungen oder Subgruppenanalysen sind geplant?
  • Gibt es definierte Regeln für den Abbruch der Studie?


Fragen zur Auswertung und Berichterstattung

 

  • War die Beobachtungszeit komplett (oder vorzeitiger Abbruch der Studie)?
  • Wurden alle Patienten in die Auswertung aufgenommen?
  • Wurde die Auswertung in der ursprünglich zugeordneten Gruppe vorgenommen?
  • Wie groß ist der Effekt im Hinblick auf die primäre Zielgröße?
  • Wie eng ist das zugehörige Konfidenzintervall?
  • Sind bei binären Endpunkten nicht nur die relative, sondern auch die absolute Risikoreduktion angegeben?
  • Wie werden Subgruppenanalysen berichtet?
  • Werden nicht nur positive Effekte, sondern auch unerwünschte Wirkungen angegeben?

So sollten die Autoren die Zielstellung der Studie sowie die Ein- und Ausschlusskriterien für die Patienten genau definieren. Diese Angaben sind wichtig, wenn es um die Übertragbarkeit der Ergebnisse auf einen konkreten Patienten geht. Details sind auch für die Zielgrößen, etwa Morta­lität, Blutdrucksenkung oder Amputationsrate, und die jeweiligen Methoden zur Erfassung notwendig. Häufig gibt es einen primären Endpunkt und mehrere sekundäre Endpunkte.

 

Bei einer sorgfältig geplanten Studie führen die Autoren vor Beginn eine Fallzahlplanung durch. Das ist wichtig, damit einerseits ein Unterschied zwischen den Behandlungsgruppen auch statistisch signifikant nachgewiesen werden kann, andererseits aber nicht zu viele Patienten in die Studie eingeschlossen werden (ethische und finanzielle Aspekte). In die Berechnung gehen die erwarteten Effekte und Streuung, das angestrebte Signifikanzniveau sowie die statistische Trennschärfe (englisch: power) der Studie ein. Bei Studien besteht immer ein Risiko, vorhandene Unterschiede zwischen den Behandlungsgruppen nicht festzustellen (auch als Fehler 2. Art oder β-Fehler bezeichnet). Die Power einer Studie berechnet sich als 1 – β, angestrebt wird häufig ein Wert von 80 Prozent (8).

 

Für die Beurteilung von RCT spielt die Fallzahlplanung auch deshalb eine Rolle, weil sie sich in der Regel nur auf den primären Endpunkt bezieht und die statistischen Tests (Signifikanztests) im strengen Sinn auch nur für diese Zielgröße aussagekräftig sind.

 

Je mehr statistische Tests bei der Studienauswertung vorgenommen werden, desto größer ist das Risiko für ein zufällig signifikantes Ergebnis, das in Wirklichkeit nicht existiert. Das müssen die Autoren in ihren Schlussfolgerungen entsprechend berücksichtigen. Deshalb sollte man misstrauisch sein, wenn sich in einer Studie kein Unterschied bei dem primären Endpunkt findet, die Autoren sich in der Diskussion aber auf Unterschiede bei den sekundären Endpunkten konzentrieren – das ist in vielen ­Fällen nicht aussagekräftig (3).

 

Aufgepasst bei Subgruppenanalysen

 

Gleiches gilt, wenn die Autoren bei der Auswertung zahlreiche Subgruppenanalysen ausführen. In den meisten Fällen lässt sich damit keine zulässige Aussage für bestimmte Untergruppen der untersuchten Patienten treffen, ­besonders wenn die Subgruppen erst nach Erhebung der Daten gebildet wurden. Experten fordern daher, die Zahl der Subgruppenanalysen in einer Studie zu beschränken, die Subgruppen vor Beginn der Studie zu spezifizieren und im Idealfall bei der Fallzahlplanung zu berücksichtigen (etwa im Rahmen einer stratifizierten Randomisierung).

 

Ebenso ist ein angemessenes Auswerteverfahren notwendig (Interak­tionstest statt multiplem Testen von Hypothesen). Sinnvolle Subgruppen beziehen sich auf Parameter, die bereits vor Beginn der Studie vorhanden waren, etwa Altersgruppen oder bestimmte Risikogruppen.

 

Ein beliebter Trick besteht darin, bei einem nicht signifikanten Ergebnis der gesamten Studienpopulation nach einer speziellen Subgruppe zu suchen, bei der man zufällig ein signifikantes Ergebnis findet, und die anderen Subgruppen zu verschweigen (9, 10). Dies kann zu abstrusen Resultaten führen. Das haben Autoren einer Studie zur Behandlung des Myokardinfarkts sehr anschaulich demonstriert. Bei Patienten, die unter dem Sternzeichen Zwillinge oder Waage geboren waren, gab es ­keinen Hinweis auf einen Nutzen von Acetylsalicylsäure, während Patienten mit anderen Sternzeichen signifikant davon profitierten (10).

 

Zwischenanalysen und Studienabbrecher

 

Aufmerksamkeit ist auch geboten, wenn eine Studie vorzeitig abgebrochen wurde, ohne dass vorher entsprechende Kriterien definiert waren. Das gilt besonders dann, wenn der Grund für den Abbruch ein vermeintlich hoher Therapieeffekt in der Behandlungsgruppe war, der in Zwischenanalysen auffiel, aber nur auf relativ wenigen ­Ereignissen beruht (11).

 

Interessant ist auch, wie Ergebnisse von Patienten berücksichtigt wurden, die vom Studienprotokoll abgewichen sind, etwa die Therapie nicht wie verordnet durchgeführt haben, zu Untersuchungen nicht erschienen sind oder ihre Teilnahme abgebrochen haben (Drop-outs). Werden nur die Daten von Patienten ausgewertet, die gemäß ­Studienprotokoll behandelt wurden (Per-protocol-Analyse), resultiert eine Überschätzung der Wirkung und eine Unterschätzung der Nebenwirkungen in der Behandlungsgruppe. Denn vielleicht haben Patienten in einer Studie zu einem Arthrosepräparat ihre Teilnahme beendet, weil das neue Medikament die Knieschmerzen nicht ausreichend gelindert oder zu starken Magenbeschwerden geführt hat. Daher sollte die Analyse immer die Daten aller Patienten umfassen und zwar in der Gruppe, der sie ursprünglich zugeteilt waren. Dieses Vorgehen bezeichnet man als Intention-to-treat-Analyse (12).

 

Spezialfall: Nicht-Unterlegenheitsstudien

 

Die beschriebenen Kriterien beziehen sich im Allgemeinen auf Überlegenheitsstudien. Gelegentlich gibt es aber auch Studiendesigns, bei denen eine Nicht-Unterlegenheit des untersuchten Arzneimittels gegenüber einer bewährten Therapie gezeigt werden soll.

 

Hier sollte man besonders aufmerksam sein: So darf sich die statistische Auswertung nicht darauf beschränken, die Überlegenheit der bewährten Therapie nicht nachweisen zu können. Vielmehr ist ein expliziter Test auf Nicht-Unterlegenheit erforderlich. Dabei werden vor der Datenerhebung Äquivalenzgrenzen definiert.

 

Bei Nicht-Unterlegenheitsstudien ist eine angemessene Fallzahlplanung wichtig, da eine unzureichende Fallzahl vorhandene Unterschiede zwischen den Behandlungen leicht verwischen kann. Auch Abweichungen vom Studienprotokoll verringern die eventuell vorhandenen Unterschiede zwischen den untersuchten Medikamenten. Deshalb kann eine Intention-to-treat-Analyse, wie sie bei Überlegenheitsstudien bevorzugt wird, möglicherweise in die Irre führen. Empfohlen wird zusätzlich eine Per-protocol-Analyse. Als vertrauenswürdig gelten die Ergebnisse der Nicht-Unterlegenheitsstudie, wenn beide Analysen nicht gravierend voneinander abweichen (13, 14). /

Literatur

  1. Günther, J., Arzneimittelstudien – Welche Aussagekraft steckt in publizierten Daten? Mehr Schein als Sein? Fortbildungstelegramm Pharmazie (2007) 75-87.
  2. Röhrig, B., et al., Studientypen in der medizinischen Forschung. Dtsch. Ärztebl. Int. 106 (2009) 262-268.
  3. Windeler, J., Lange, S., Methodische Anforderungen an klinische Studien und ihre Interpretation. Bundesgesundheitsbl. 52 (2009) 394-401.
  4. Günther, J., Anleitung zur Bewertung klinischer Studien. Dt. Apoth. Verl. Stuttgart 2001.
  5. Kleist, P., Randomisiert. Kontrolliert. Doppelblind. Warum? Schweiz. Med. Forum 6 (2006) 46-52.
  6. Du Prel, J., et al., Konfidenzintervall oder p-Wert? Dtsch. Ärztebl. 106 (2009) 335-339.
  7. Currie, C., et al., Survival as a function of HbA1c in people with type 2 diabetes: a retrospective cohort study. Lancet 375 (2010) 481-489.
  8. Röhrig, B., et al., Fallzahlplanung in klinischen Studien. Dtsch. Ärztebl. 107 (2010) 552-556.
  9. Kleist, P., Vorsicht bei Subgruppenanalysen. Schweiz. Med. Forum 7 (2007) 794–799.
  10. Schulz, K. F., Grimes, D. A., Multiplizität in randomisierten Studien II: Subgruppenanalysen und Zwischenauswertungen. ZEFQ 101 (2007) 51-58.
  11. Kluth, L. A., Vorzeitiger Abbruch randomisierter kontrollierter Studien. Urologe 52 (2013) 1080-1083.
  12. Kleist, P., Das Intention-to-treat-Prinzip. Schweiz. Med. Forum 9 (2009) 450-453.
  13. Kleist, P., Zehn Anforderungen an therapeutische Äquivalenzstudien. Schweiz. Med. ­Forum 8 (2008) 814-819.
  14. Wellek, S., Blettner, M., Klinische Studien zum Nachweis von Äquivalenz oder Nichtunterlegenheit. Dtsch. Ärztebl. 109 (2012) 674-679.
  15. Schulz, K. F., Altman, D. G., Moher, D., CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised ­trials. BMJ 340 (2010) c332.

Die Autorin

Iris Hinneburg studierte Pharmazie an der Philipps-Universität Marburg und wurde an der Martin-Luther-Universität Halle-Wittenberg promoviert. Nach Tätigkeiten in Forschung und Lehre in Halle und Helsinki (Finnland) arbeitet sie heute frei­beruflich als Medizinjournalistin. Ihr Schwerpunkt ist die pharmazeutische Fortbildung. Sie ist Fachbuchautorin und produziert einen Podcast mit Themen aus Medizin und Pharmazie für die Fortbildung in der Apotheke. Derzeit gibt es dort eine Themenreihe zur Evidenzbasierten Pharmazie.

 

Dr. Iris Hinneburg, Wegscheiderstraße 12, 06110 Halle (Saale), www.medizinjournalistin.blogspot.com

Mehr von Avoxa

Acheter Tadalafil

Cialis 20 mg en ligne

Cialis 60 mg en ligne