| |
Home
Die Gesellschaft
Organe
Geschäftsstelle
Mitgliedschaft
DOG-Sektionen
DOG-Arbeitsgruppen
Kommissionen
Geschichte
Förderungen
Veranstaltungen
Zeitschriften
Veröffentlichungen
Mitgliederbereich
Presse
Patienten
Links
|
|
DOG-Sektionen: DOG-Glaukom
Über die Sektion
Ziele
Mitarbeiter
Arbeitsgruppen
Leitlinien, Publikationen
Korrespondenz
Ankündigungen
Übersicht DOG-Sektionen
Mitarbeit in den Sektionen der DOG, Richtlinien

Publikationen
Zentrale Aspekte Klinischer Studien an Glaukompatienten
aus Sicht der Medizinischen Biometrie
Entwurf einer Stellungnahme der „Sektion Glaukom“ der Deutschen Ophthalmologischen Gesellschaft
Synopse
Bei Planung, Auswertung und Berichterstattung Klinischer Prüfungen an Glaukompatienten – sowohl bei der Prüfung von Arzneimitteln wie auch der von Medizinprodukten – sollten folgende Aspekte beachtet werden:
- Primärer klinischer Endpunkt: Es sollte grundsätzlich einen klar definierten primären Endpunkt (d.h. einen zu fest vorgegebener Zeit mit eindeutig bestimmter Diagnostik zu erhebenden klinischen Paameter) geben, an dem die Kernaussage der Studie festgemacht wird.
- Skalenniveau des primären Endpunkts: Es kann im wesentlichen zwischen kontinuierlichen und binären primären Endpunkten unterschieden werden [1, 3]; klassische Beispiele für kontinuierliche Endpunkte sind „Augeninnendruck 2 Stunden nach Medikation [mmHg]“ oder „sphärisches Äquivalent nach LASIK [dpt]“; für binäre Endpunkte „Progression eines bestehenden Glaukomschadens [ja / nein]“ oder „Gesichtsfeld nach Aulhorn [0 – 1 / 2 – 4]“. Good Clinical Practice (GCP) empfiehlt bei der Wahl des primären Endpunktes jedoch nach Möglichkeit die Verwendung binärer Endpunkte (ICH-GCP-Guideline E6), welche die klinische Relevanz des intendierten Nutzens für den Patienten besser wieder geben können: Der genaue Augeninnendruckwert eines Glaukompatienten mag oft von sekundärer Relevanz sein, zumeist interessiert klinisch eher ein Therapie-Erfolgskriterium der Form „Augeninnendruck 3 Jahre unter Medikation stets unter 20 mmHg [ja / nein]“).
- Berichtung von Effektmaßen im primären Endpunkt: Ist der primäre Endpunkt kontinuierlich, so sollten Gruppenunterschiede oder intraindividuelle Änderungen im Zeitverlauf mittels medianen Unterschieden berichtet werden [1]; die Streuung kann mit dem Interquartilabstand des Unterschiedes beschrieben werden. Ist der primäre Endpunkt binär erhoben, so sollten Gruppenunterschiede oder intraindividuelle Änderungen im Zeitverlauf mittels absoluter Risiken berichtet werden [3]. Speziell bei Evaluation prophylaktischer Maßnahmen bietet sich zur Berichterstattung von Studien mit binärem Endpunkt die Number Needed to Treat (NNT) an; diese gibt an, wieviele Patienten bzw. Augen prophylaktisch versorgt werden müssen, um ein unerwünschtes Ereignis unter Placebo verhindern zu können [3]. NNT, absolutes Risiko und medianer Unterschied werden auch als Effektmaß zwischen den zu evaluierenden Therapiealternativen bezeichnet.
- Intraindividuelle Effektmaße: Zeitliche Änderungen in kontinuierlichen primären Endpunkten sollten mittels Medianen und Quartilen intraindividueller Differenzen (üblicherweise immer Wert prä interventionem – Wert post interventionem) beschrieben werden, niemals mittels Korrelationen! Bei mehreren Messzeitpunkten post interventionem sollte immer die gleiche präinterventionelle baseline verwendet werden. Das gleiche gilt bei Studien zum Vergleich diagnostischer Instrumente [2, 7].
- Klinische Relevanz und statistische Signifikanz: Es sollten immer Effektmaße als Maß der klinischen Relevanz sowie p-Werte als Maß der statistischen Signifikanz [4] eines in der Studie aufgetretenen Effektes gemeinsam berichtet werden [5]. Aus einem statistisch signifikanten Ergebnis (zumeist gekennzeichnet durch „p-Wert < 0.05“) folgt im allgemeinen kein klinisch relevantes Ergebnis und umgekehrt. p-Werte sollten stets auf drei Nachkommastellen genau angegeben werden.
- Konfidenzintervalle: Statt der simultanen Angabe von Effektmaß und p-Wert können die Konfidenzintervalle [6] des in der Studie beobachteten Effektmaßes angegeben werden.
- Fallzahlplanung: Bei Planung der Studie ist vorzugeben, welchen klinischen Effekt die Studie mindestens als statistisch signifikant aufdecken können muß [9]: Beim Placebo-kontrollierten Vergleich einer Prophylaxe der Progression bestehender Glaukomschäden kann z.B. ein Unterschied von 0.5% versus 2% in den Progressionsraten von Verum und Placebo als klinisch relevant angesehen werden, beim Vergleich der Komplikationsraten von LASIK und LASEK wäre dieser Unterschied von 1.5% sicher klinisch als irrelevant zu betrachten. Die Größenordnung dieses von der Studie als signifikant zu belegenden „klinisch relevanten Unterschieds“ steuert jedoch massiv die Fallzahl, generell wird die Gruppengröße umso höher sein, je feiner der als klinisch relevant nachzuweisende Unterschied angesetzt wird. Neben dem klinisch relevanten Unterschied sind bei der Fallzahlplanung auch das zu kontrollierende Signifikanzniveau (Begrenzen des Fehlers 1. Art) sowie die zu sichernde Power (Vermeiden des Fehlers 2. Art) vorzugeben. Übliche Mondestanforderungen kontrollierter klinischer Studien sind Vorgaben von 5%, 1% oder 0.1% für das Signifikanzniveau und 80% oder 90% für die Power. Je kleiner das Signifikanzniveau und je größer die Power einer Studie angesetzt werden, desto höher resultiert die diese Anforderungen gewährende Fallzahl. Im Studienprotokoll müssen klinisch relevanter Mindestunterschied, Power und Signifikanzniveau ebenso als Begründung der intendierten Fallzahl dokumentiert werden wie im Antrag an die Ethikkommission und in nach Studienende zu erstellenden Berichten und Publikationen.
- Interimanalysen des Safety Board: Es ist zumindest bei Langzeitstudien mit hohen Fallzahlen grundsätzlich anzuraten und im Sinne von GCP empfohlen, ein „safety board“ der Studie einzurichten, welches zu regelmäßigen Zeitpunkten maskierte Interimanalysen der Studie vornimmt. Treten z.B. unerwartete Häufungen von SAEs oder unerwartet starke Effekte auf, so kann das safety board in Absprache mit der Studienleitung auch eine entmaskierte Interimanalyse durchführen und dem Leiter der Prüfung das resultierende Effektmaß nebst zu Grunde liegender Signifikanz kommunizieren. Der Leiter der Klinischen Prüfung kann aufgrund dieser Information den Abbruch der gesamten Studie oder das Schließen einzelner Studienarme beschließen (siehe Anhang B).
- Geplante, im Studiendesign verankerte Interimanalysen: GCP (ICH Guideline E6) empfiehlt neben der Implementation von Safety Boards auch die Planung von Interimanalysen im Design der Studie, d.h. bei Planung der Studie können bereits Zeitpunkt und mögliche Konsequenzen der Interimanalyse genau determiniert werden. Dies ist im ethischen Sinne naheliegend, da im kontrollierten Design vermieden werden kann, dass Patienten „unnötig lange“ in einen unterlegenen Arm randomisiert werden, wenn sich dieser merklich stärker unterlegen zeigt als bei Planung der Gesamtfallzahl angenommen. Es ist durch die adaptiven Interimanalysen insbesondere möglich, die Fallzahl der Studienstufe nach Interimanalyse auf der Basis des Effektmaßes der ersten Studienstufe optimal zu korrigieren (siehe Anhang B).
- Randomisation und Maskierung: Sowohl in Studienprotokoll und Antrag an die Ethikkommission, wie auch in Berichten und Publikationen nach Studienende sind Art der Randomisation und Grad der Maskierung der Studie klar zu dokumentieren. Grundsätzlich sollte ein maximaler Grad an Maskierung (doppelt maskiert oder wenigstens einfach maskiert) gesichert werden, Abweichungen sind gegebenenfalls mit Blick auf das Aufwands/Nutzen-Verhältnis der Studie zu begründen. Gerade bei multizentrischen Studien muss auch der Randomisationsart merkliche Aufmerksamkeit gewidmet werden – eine Randomisation pro Zentrum scheint nach GCP ein naheliegender Ansatz, um Zentrumseffekte in der Auswertung optimal schätzen und das Effektmaß für diese korrigieren zu können [8].

Literatur:
- F. Krummenauer (2002): Fortbildung Medizinische Biometrie I: Boxplots – die flexible Alternative zum „Antennenbildchen“. Klinische Monatsblätter Augenheilkunde 219, 613-615
- F. Krummenauer (2002): Fortbildung Medizinische Biometrie II: Differenzenplots oder Punktewolken – wann was anwenden? Klinische Monatsblätter Augenheilkunde 219, 682-685
- F. Krummenauer (2002): Fortbildung Medizinische Biometrie III: Relatives Risiko und NNT – kompakt und dennoch anschaulich. Klinische Monatsblätter Augenheilkunde 219. 741-759
- F. Krummenauer (2002): Fortbildung Medizinische Biometrie IV: Signifikanztests – wann welchen anwenden? Klinische Monatsblätter Augenheilkunde 219, 817-820
- F. Krummenauer (2002): Fortbildung Medizinische Biometrie V: p-Werte – was sie besagen und was nicht. Klinische Monatsblätter Augenheilkunde 219, 896-898
- F. Krummenauer (2003): Fortbildung Medizinische Biometrie VI: Konfidenzintervalle – die Alternative zum p-Wert. Klinische Monatsblätter Augenheilkunde 220, 60-62
- F. Krummenauer (2003): Fortbildung Medizinische Biometrie VII: Diagnosestudien – flexible Maße für Validität und Reliabilität. Klinische Monatsblätter Augenheilkunde 220, 281-283
- F. Krummenauer (2003): Fortbildung Medizinische Biometrie VIII: Statistik in medizinischen Publikationen – Checklisten für Autoren. Klinische Monatsblätter Augenheilkunde 220, 362-365
- F. Krummenauer (2002): Grundlagen der Medizinischen Biometrie – ein Leitfaden zur Aufbereitung und Publikation Klinischer Daten. (Vorlesungsskriptum zur Vorlesung „Grundlagen der Medizinischen Biometrie“ im 1. Klinischen Studiensemester der Humanmedizin). Verlag Shaker Aachen.
Anhang
- Anhang A: Biometrische Aspekte bei der Publikation klinischer Studien [8]
- Checkliste 1: Flexibel anwendbare Methoden zur Auswertung
- Checkliste 2: Biometrische Methodik im Methodenteil der Publikation
- Anhang B:Fallzahlplanung unter Einbezug von Interimanalysen [9] |
|
| |
Zurück Seitenanfang |
|

Anhang A
Biometrische Aspekte bei der Publikation klinischer Studien [8]
Die folgenden Checklisten sollen dem publizierenden Arzt als Hilfe dienen bei der Referenzierung statistischer Methoden in klinischen Publikationen. Solche Listen können keinen Anspruch auf Vollständigkeit oder gar Allgemeingültigkeit erheben – sie sollen vielmehr als Orientierungshilfe verstanden werden. Es sei klar betont, daß unabhängig von Checklisten und aller möglicher Hilfeprogramme in Software-Paketen besser zur Absicherung der intendierten Auswertungsstrategie ein biometrischer Fachmann konsultiert werden sollte, bevor eine suboptimale Auswahl von Methoden die Ergebnisse einer sehr guten Studie nur noch suboptimal widergibt.
Primärer Endpunkt
Die wichtigsten Aspekte, welche hinsichtlich der Biometrie und Statistik in eine Publikation eingehen sollten, betreffen allesamt den primären Endpunkt der Studie (siehe Teil V der Serie). Dieser muss in jedem Fall explizit definiert werden mit genauer Einheit, Art und Zeit der Messung: Es ist ein Unterschied, ob 21 Tage nach Berginn einer anmtiglaukomatösen Medikation der IOD in mmHg gemessen und zur Bewertung der Wirksamkeit herangezogen wird, oder ob der Mittelwert dreier Messungen am 20., 21., und 22. Tag nach Studieneintritt vermerkt und als Endpunkt nur „gemittelter IOD des 20.-22. Tages unter 21 mmHg: ja / nein?“ erfasst wird. Dementsprechend unterscheidet Checkliste 1 auch im wesentlichen zwischen Methoden für binäre und kontinuierliche Endpunkte. Alle klinischen Parameter, die neben dem primären Endpunkt der Studie erhoben werden, werden auch als sekundäre Endpunkte bezeichnet.
Auswertungsverfahren
Zumindest für den primären und die wichtigsten sekundären Endpunkte der Studie sollten die geplanten statistischen Auswertungsstrategien (Deskription, Graphiken, Signifikanztests, Konfidenzintervalle) und die dabei verwendete Software benannt werden. Dies kann sich am Skalenniveau der Endpunkte orientieren (Checkliste 1).
Fallzahlbegründung
Eine Begründung der Fallzahlplanung bezieht sich ebenfalls auf den primären Endpunkt und sollte bei jeder prospektiven Studie im Methodenteil dokumentiert sein. Die Fallzahl in einer Studie muss so hoch sein, dass ein Studienergebnis als zu einem vorgegebenen Signifikanzniveau alpha signifikant mit der Studie aufgedeckt werden kann, also die Wahrscheinlichkeit eines alpha-Fehlers im Falle eines positiven Studienergebnis “klein“ ist. Dazu fordert man üblicherweise die Werte alpha=5% oder 1%. Ferner soll die Studie eine hinreichend hohe statistische Power besitzen, d.h. im Falle eines Negativergebnisses soll die Wahrscheinlichkeit des beta-Fehlers hinreichend klein sein. Für die statistische Power, die Fähigkeit einen real existierenden Unterschied in der Studie als signifikant aufdecken zu können [1], fordert man meist einen Mindestwert von 80% oder 90%.
Neben den statistischen Vorgaben zur Fallzahlplanung sind aber auch klinische zu machen, die sich nach dem primären Endpunkt richten. Ist dieser kontinuierlich, so wird zumeist vorgegeben, wie stark sich die Mediane der konkurrierenden Therapieregimes mindestens unterschieden müssen, um von einem klinisch relevanten Unterschied sprechen zu können [2]. Hier wird also ein Mindestwert für das Effektmaß der Studie vorgegeben, welcher mindestens für ein positives Ergebnis der Studie gefordert wird. Ist für ein Standardpräparat eine mediane IOD-Senkung von 7 mmHg bekannt, und würde im Vergleich dazu ein neues Präparat lediglich eine Senkung von im Median 8 mmHg erwirken, so würde der Präparatunterschied kaum als relevant angesehen. Bei einem Unterschied von 7 mmHg versus 13 mmHg hingegen, also einem medianen Effektmaß von 6 mmHg, liegt jedoch sicher ein klinisch relevanter Unterschied vor. Dieser zu erwartende Mindestunterschied, welchen die Studie mindestens als signifikant aufdecken soll, sollte in der Publikation dokumentiert sein (Checkliste 2). Er steuert die Fallzahl der Studie wesentlich: Ein großer Unterschied zwischen zwei Therapiearmen wird viel schneller, d.h. mit weniger Patienten, erkannt werden als ein feiner [2]. Die Fallzahlplanung entlang eines binären Endpunktes gibt den klinisch relevanten Mindestunterschied statt durch Mediane durch Vorgabe eines Unterschiedes in den Auftrittshäufigkeiten des Endpunktes vor (z.B. 70% Therapieerfolg beim Novum versus 40% beim Standard).
Multiples Testen
Werden mehrere parallele klinische Endpunkte mittels Signifikanzanalysen evaluiert, können sich im schlimmsten Fall die einzelnen, bei jedem p-Wert resultierenden alpha-Fehler kumulieren [1]. Aus diesem Grund empfiehlt sich bei mehreren, als gleichwertig anzusehenden, primären Endpunkten die Anwendung einer multiplen Testprozedur auf die p-Werte. Nach Bonferroni werden bei k parallelen klinischen Endpunkten die einzelnen zu diesen Endpunkten gehörigen p-Werte mit alpha / k verglichen statt mit alpha. Würde z.B. der IOD [mmHg] als primärer Endpunkt einer Studie zur Wirksamkeit einer IOD-senkenden Medikation gegenüber Placebo verwendet, dieser aber jeweils 4, 12 und 24 Wochen nach Beginn der Medikation gleichberechtigt erhoben, so würde ein Signifikanztest zum Vergleich gegen Placebo für jeden der drei Zeitpunkt nach Bonferroni den betreffenden p-Wert mit 5% / 3 = 1,7% vergleichen. Mit dieser Strategie kann insgesamt maximal eine kumulative Fehlerwahrscheinlichkeit von 5% resultieren.
Eine solche „schärfere Form“ der Signifikanz wird auch als multiple Signifikanz bezeichnet. Wird dieses Problem des multiplen Testens ignoriert, spricht man von „lokalen Signifikanzen“. Der einfachste und zugleich plausibelste Weg zum Umgehen dieser Problematik ist die direkte Fixierung auf einen ausgezeichneten primären Endpunkt, an dem letztlich auch die Zulassungsentscheidung über die zu bewertende Therapie orientiert wird.
Randomisation und Maskierung
Bekanntlich ist die Randomisation das Mittel der Wahl, um Strukturgleichheit zwischen Therapiegruppen herzustellen und diese vergleichbar zu machen, Dabei sollte auf dokumentierbare Listen von Zufallszahlen – publiziert oder von neutraler dritter Stelle mittels spezieller Software erzeugt – zurückgegriffen werden. Die Form der Randomisation ist ebenfalls in der Publikation zu kommentieren: Oft wird eine Stratifikation vorgenommen, um bekannte Störfaktoren direkt im Studiendesign zu eliminieren: Beim randomisierten Vergleich zweier Intraokularlinsen bietet sich z.B. eine separate Randomisation für Patienten im Alter über 70 und unter 70 Jahren an; ebenso könnte ein Astigmatis < 1.5 D bzw. > 1.5 D als Stratifikator dienen. Nicht selten wird auch in Blöcken randomisiert, etwa wenn jeweils nach 200 eingeschlossenen Patienten eine Zwischenauswertung geplant ist. Schließlich sollte noch das Randomisationsverhältnis angegeben werden (1:1 oder z.B. aus klinischer Motivation heraus mit stärkerem Gewicht auf die Verumgruppe).
Ein weiteres Qualitätskriterium ist eine maximale Maskierung der Therapie gegenüber allen Beteiligten, d.h. es sollte weder für den Patienten noch für den Arzt erkennbar sein, welche der konkurrierenden Therapien oder Wirkstoffe verabreicht werden („doppelt maskierte Studie“). Etwa beim Vergleich zweier Intraokularlinsen kann jedoch die Wahl der Linse gegenüber dem Operateur nicht maskiert werden, bestenfalls gegenüber dem Patienten („einfach maskierte Studie“). Eine doppelte Maskierung könnte höchstens erzeugt werden, indem ein anderer Arzt sämtliche Nachuntersuchungen macht. Solange keine Spaltlampenuntersuchung notwendig wird, dürfte dieser zweite Arzt kaum die Linsen unterscheiden können. Bei Arzneimittelstudien hingegen ist eine doppelte Verblindung zumeist problemlos möglich, wenn auch manchmal etwas bizarr anzusetzen: Werden brennende Augentropfen zur Behandlung eines Glaukoms in einer Langzeitstudie Placebo-Tropfen gegenübergestellt, so muss unter Umständen lange gesucht werden, bis Placebo-Tropfen gefunden sind, die „genauso brennen“ wie der Wirkstoff. Werden ferner zwei dosisäquivalente Darreichungsformen einer Medikation verglichen, etwa eine Wirkstoffgabe als Dragee und eine als Infusion, so wird auch die „double dummy“-Strategie verwendet, die beiden Therapiegruppen beide Darreichungsformen vorschreibt – bei einer Gruppe sind die Dragees das Placebo, in der anderen die Infusion. In jedem Fall sollte das Studiendesign den maximal möglichen Maskierungsgrad anstreben, und diesen genauso wie die gewählte Strategie zur Randomisation in der Publikation offenlegen.
Votum der Ethikkommission
Für die Legitimation der Maskierung und Randomisation ist in jedem Fall eine nicht-negative Kommentierung der für das Studienzentrum zuständigen Ethikkommission notwendig; ein Verweis mit dem Datum der Rückmeldung der Kommission sollte im Methodenteil der Publikation kurz erfolgen. |
|
| |
Zurück Seitenanfang |
|

Checkliste 1: Flexibel anwendbare Methoden zur Auswertung
Skalenniveau klinischer Endpunkte
binäre Daten (z.B. „Therapieerfolg ja / nein“; „Komplikation ja / nein“)
kategoriale Daten (z.B. Fundusstadium „I / II / III / IV“)
kontinuierliche Daten (z.B. Augeninnendruck [mmHg]; Achsenlänge [mm])
time to event-Daten (z.B. „Dauer bis Progression einer AMD nach PDT“)
Faustregel zur Methodenauswahl: Übergang „kategorial“ zu „kontinierlich“ bei mehr als 5 Ausprägungen des kategorialen Endpunktes
Deskription (beschreibende Statistik)
binäre Daten: Vierfeldertafeln mit absoluten und relativen Häufigkeiten (Zeilenprozente bei Verwendung kausaler Einflussgrößen als Zeilenvariable); relatives und absolutes Risiko; Number Needed to Treat
kontinuierliche Daten: Übersichtstabellen mit (Subgruppen-weiser) Angabe von Median, 1. und 3. Quartil, minimalem und maximalen Wert, Mittelwert und Standardabweichung (bei Methodenvergleichsstudien zudem noch agreement limits nach Bland & Altman). Graphik: Boxplots (bei verbundenen Messreihen Boxplots der intraindividuellen Differenzen!)
time to event-Daten: Übersichtstabellen mit (Subgruppen-weiser) Angabe von Median, 1. und 3. Quartil, minimalem und maximalen Wert, Mittelwert / Standardabweichung der Überlebenszeiten. Graphik: Kaplan / Meier-Kurven
Signifikanztests
binäre Daten: exakter Fisher-Test (unverbunden), McNemar-Test (verbunden), Binomial-Test (referenzkontrolliert)
kontinuierliche Daten: Wilcoxon-Test (unverbunden), Vorzeichentest (verbunden und referenzkontrolliert)
time to event-Daten: Logrank-Test (unverbunden und verbunden)
Konfidenzintervalle:
binäre Daten: relatives Risiko und NNT (unverbunden), absolutes Risiko (verbunden und unverbunden)
kontinuierliche Daten: mediane Differenz (verbunden und unverbunden)
time to event-Daten: mediane Überlebenszeit (unverbunden und verbunden) |
|
| |
Zurück Seitenanfang |
|

Anhang B
Fallzahlplanung unter Einbezug von Interimanalysen [9]
Einleitung
Vor allem in Studien der Phase III und IV etwa zur Bewertung einer prophylaktischen Medikation gegenüber einer Glaukomprogression müssen nicht selten enorme Fallzahlen rekrutiert werden, um eine statistische und klinische Signifikanz erlangen zu können. Oft muss daher jahrelang gewartet werden, bis eine Abschlussanalyse möglich ist. In diesem Sinne wäre es von Interesse – aber nicht ohne weiteres legitim – eine Zwischenanalyse der Daten während der laufenden Studie vorzunehmen. Die Guidelines von GCP (“Good Clinical Practice”) gestatten und verpflichten zu regelmäßigen Zwischenauswertungen kontrollierter klinischer Prüfungen, wobei ein vom Sponsor unabhängig agierendes Gremium für die Durchführung, sachgerechte Ergebnisinterpreation und Formulierung der Konsequenzen der Zwischenauswertungen verantwortlich ist. Durch dieses unabhängige „Safety Board“ können jederzeit entblindete Zwischenanalysen einer Studie durchgeführt werden, um die maximale Patientensicherheit der Studienteilnehmer zu sichern. Dem Leiter der Klinischen Prüfung wird üblicherweise nur eine Rückmeldung hinsichtlich des weiteren Procederes gegeben, etwa ob auf Grund sich häufender schwerer unerwünschter Ereignisse (SAEs) ein Abbrechen der Studie oder die Elimination einzelner Studienarme in Erwägung zu ziehen ist. Diese oft auch spontan anzusetzenden Zwischenauswertungen werden etwa durchgeführt, wenn bei Studien-Treffen der Eindruck verstärkt oder zwischen den Therapiearmen asymmetrisch auftretender SAEs entsteht – eine direkte Konsequenz für die Planung und das Design der eigentlichen Studie liegt nicht vor. Die Sicherheit des Patienten steht im Vordergrund, eine schnelle Reaktion auf bestehende Bedenken ist das Hauptziel.
Für den Sponsor wäre aber auch die Möglichkeit im Vorfeld geplanter und genau im zeitlichen und finanziellen Ablauf der Studie einkalkulierter Zwischenauswertungen interessant, um gegebenenfalls die Studie bei zu geringer statistischer Power verlängern oder auch bei offensichtlich starken Therapieunterschieden vorzeitig mit einem signifikanten Ergebnis abbrechen zu können. Dies ist jedoch nicht ohne Weiteres möglich, wie mit Hilfe des Signifikanz-Konzeptes einfach motiviert werden kann: Wird eine Studie zum Vergleich der Nachstarrate zweier Intraokularlinsen mit insgesamt 1000 zu randomisierenden Patienten nach jeweils 200 nachbeobachteten Patienten ausgewertet, so kann eine Entscheidung über die Aussage der Studie z.B. mit einem Signifikanztest getroffen werden. Dessen p-Wert wird üblicherweise mit dem Signifikanzniveau 5% verglichen; im Falle p < 5% würde auf einen zum Niveau 5% signifikanten Unterschied in den Nachstarraten geschlossen. Wird diese Entscheidung jedoch bei jeder der insgesamt 5 Auswertungen (vier interime und eine finale) getroffen, so können sich diese Rest-Irrtumswahrscheinlichkeiten im schlimmsten Falle kumulieren; es steht salopp formuliert also im schlimmsten Falle zu erwarten, dass die Studie mit einer kumulativen Fehlerwahrscheinlichkeit von 5 x 5% = 25 % behaftet ist. Entsprechend hoch wird die Rate falsch positiver Entscheidungen sein, d.h. in diesem Fall würde salopp formuliert jede vierte (Zwischen-) Auswertung einen falsch positiven Unterschied in den Nachstarraten signalsieren. Aus diesem Grund sind geplante Interimanalysen klinischer Studien vor Beginn der Studie klar zu avisieren; Zeitpunkt und mögliche Konsequenzen sind im Studienprotokoll reproduzierbar zu dokumentieren und zu begründen. Geplante Interimanalysen stellen genauso wie die eigentliche Fallzahl der Studie oder deren Randomisationsschema Design-Spezifika dar, die aus offensichtlichen ethischen und ökonomischen Gründen derzeit immer stärker in den Vordergrund rücken.
Im folgenden sollen die wichtigsten Strategien für die Planung von Zwischenauswertungen motiviert und insbesondere deren Einfluss auf die Fallzahlplanung kenntlich gemacht werden. Generell wird der Vorteil einer Zwischenauswertung erkauft durch eine Erhöhung des Gesamt-Studienumfanges, wenn kein Abbruch der Studie bis zur finalen Auswertung möglich ist. Kann die Studie jedoch vorzeitig auf Grund der Ergebnisse einer der Interimanalysen gestoppt werden, so resultieren mitunter massive Senkungen der einzubringenden Gesamtpatientenzahl gegenüber dem konventionellen Studiendesign ohne Zwischenauswertungen. Methodisch wird im wesentlichen zwischen zwei Typen von Studiendesigns mit geplanter Zwischenauswertung unterschieden, den gruppensequentiellen und den adaptiven Designs. Während erstere schon seit den 60er Jahren verwendet werden, sind die adaptiven Methoden primär in den 90er Jahren entwickelt worden und gewinnen derzeit zusehends an Bedeutung und Akzeptanz auch bei Zulassungsbehörden. Um die Kernideen der Strategien aufzeigen zu können, werden in aller Kürze die diesen Ideen zu Grunde liegenden Strategien einer biometrischen Fallzahlplanung referiert.
Material und Methoden
Sollen zwei operative Ansätze zur Korrektur eines Glaukomschadens entlang des kontinuierlich gemessenen Augeninnendrucks [mmHg] verglichen werden, wird die biometrische Fallzahlplanung im allgemeinen folgenden Regeln unterliegen [2]:
- Je geringer der nachzuweisende Unterschied zwischen den zwei Therapiearmen, desto höher die Fallzahl der Studie.
- Je größer die Streuung z.B. aufgrund biologischer Heterogenität in den Patientengruppen, desto höher die Fallzahl der Studie.
- Je kleiner das Signifikanzniveau alpha, je geringer die Wahrscheinlichkeit eines falsch-positiven Studienergenbnisses also gehalten werden soll, desto höher die Fallzahl der Studie. Übliche Werte sind alpha=5% oder alpha=1%.
- Je höher die statistische Power, also je geringer die Wahrscheinlichkeit eines falsch-negativen Studienergebnisses gehalten werden soll, desto höher die Fallzahl der Studie. Übliche Werte für die Power sind 80% oder 90%.
Die Streuung in den Patientengruppen ist dabei eine wichtige Determinante der Fallzahl, die aber nur schwer aus der Literatur abgeschätzt werden kann. Prinzipiell kann diese Information aus einer Pilotstudie gewonnen werden, dieses Vorgehen kann aber auch kontraproduktive Ergebnisse liefern: Zumeist sind die Fallzahlen in einer Pilotstudie sehr gering, d.h. die resultierenden Informationen unterliegen alleine deshalb einer überhöhten Streuung. Diese „Überschätzung“ der in der eigentlichen Studie zu erwartenden Streuung würde aber ihrerseits für die Hauptstudie eine massive Überschätzung der einzubringenden Fallzahl nach sich ziehen. Zusätzlich zum Zeitverlust durch die Pilotstudie, welche u.a. separat bei der Ethikkommission beantragt und berichtet werden muss, resultiert eine unnötige Erhöhung von Studienlaufzeit und –kosten durch die zu hoch angesetzte Fallzahl für die Hauptstudie. Ausserdem würden im Fall deutlicher Therapieunterschiede unnötig viele Patienten in einen unterlegenen Arm randomisiert, obwohl dieser schon mit deutlich weniger Patienten hätte als signifikant unterlegen aufgedeckt werden können. Ein weiterer Nachteil der Pilotstudie besteht darin, dass die dort einfliessenden Patienten in die Auswertung der nachfolgenden Hauptstudie natürlich nicht mehr eingehen können. Insofern sollte von einer Pilotstudie in vielen Fällen eher abgesehen und stattdessen die attraktivere Alternative einer geplanten Zwischenauswertung in Betracht gezogen werden.
Ergebnisse
- Gruppensequentielle Studiendesigns
Diesen Designs ist gemeinsam, dass vor Beginn der Studie die Anzahl der vorzunehmenden Zwischenauswertungen sowie üblicherweise deren Zeitpunkte exakt festgelegt werden, etwa „alle 200 randomisierten und nachbeobachteten Patienten“. Nach jeder Zwischenauswertung wird entschieden, ob die Studie weiter laufen soll oder angesichts der vorliegenden Effekte gestoppt wird [5]. Die Grundidee dieses Ansatzes kann mit der sogenannten Bonferroni-Korrektur [2] motiviert werden: Werden bei einer zweiarmigen Studie maximal fünf Auswertungen (vier Zwischenauswertungen plus die finale) geplant, so wird nach jeder Teilstudie der bis dahin verfügbare Gesamtdatensatz aus allen vorherigen Stufen ausgewertet. Der Therapieunterschied im primären klinischen Endpunkt wird dann aber nicht für „p < alpha“, sondern bei maximal 5 Auswertungen für „p < alpha / 5“ als signifikant angesehen. Besteht also bei einer der Zwischenauswertungen im primären Endpunkt eine statistische Signifikanz zum Niveau alpha / 5, so stoppt die gesamte Studie. Maximal finden 5 dieser Auswertungen statt, insgesamt beträgt die Fehlerwahrscheinlichkeit also maximal 5 x alpha/5 = alpha. Diese sehr grobe Schranke „alpha / Anzahl der Interimanalysen“ ist jedoch inzwischen massiv verbessert worden – etwa in dem Sinne, dass nicht alle Stufen gleiches Gewicht erhalten [5]. Allen diesen Ansätzen ist jedoch gemeinsam, dass üblicherweise die Anzahl der Zwischenauswertungen und damit auch die maximal zu erwartende Fallzahl der Gesamtstudie im Prüfplan bereits klar fixiert sind.
- Adaptive Studiendesigns
Die Idee der adaptiven Designs beruht auf einer „internen Pilotstudie“. Statt einer sehr kleinen und möglicherweise verzerrte Information liefernden Pilotstudie wird hier direkt eine volle Studienstufe durchgeführt und deren Ergebnis dann zu einer verbesserten Fallzahlplanung für eine zweite Studienstufe benutzt. Dabei werden die Patientendaten der beiden Teilstudien aber nicht wie beim gruppensequentiellen Ansatz zusammen ausgewertet, sondern als zwei Teilstudien. Die erste Studienstufe wird bewusst „konservativ“ geplant, d.h. nicht zu einem üblichen Signifikanzniveau wie alpha=5%, sondern zu einem von 30% oder sogar noch höher. Dadurch resultiert eine moderate Fallzahl, die aber auch gleichzeitig mit ungenauen Informationen über die Streuung geplant werden kann. Dennoch ist die Aussagekraft dieser Teilstudie höher als die einer reinen Pilotstudie, da sie mit einer üblichen statistischen Power von z.B. 80% geplant werden kann. Auf Basis der Auswertungsergebnisse dieser ersten Studienstufe wird dann die Fallzahlplanung korrigiert; die Information der ersten Stufe kann dabei voll zur Planung der zweiten verwendet werden, da die Studienstufen als voneinander unahbhängig betrachtet und ausgewertet werden. Für die zweite Stufe wird also eine wesentlich präzisere Vorhersage der Gruppengrößen möglich.
Eine sehr plausible und zugleich flexible Antwort auf die Frage, nach welchem Kriterium die zweite Stufe eingeleitet werden soll, geht auf Bauer & Köhne [1] zurück: Die erste Stufe werde mit einem Signifikanzniveau von 30% geplant. Nach deren Durchführung und Auswertung wird die Studie gestoppt mit einem signifikanten Therapieunterschied, wenn der p-Wert der Zwischenauswertung kleiner als 3% ausfällt. Die Studie wird gestoppt mit dem Negativergebnis eines nicht-signifikanten Unterschiedes, wenn der p-Wert größer als 30% ist. Nur wenn er in die „Grauzone“ zwischen 3% und 30% zu liegen kommt, wird die Studie in eine zweiten Stufe geführt. Deren Fallzahl wird dann bestimmt aus den Informationen der ersten Stufe – anders als beim gruppensequentiellen Ansatz kann also zu Beginn des gesamten Studienvorhabens die maximal zu erwartende Fallzahl der Gesamtstudie nur sehr vage vorhergesagt werden. Dafür kann im adaptiven Ansatz eine sehr viel realistischer basierte Entscheidung über die Weiterführung der Studie gefällt werden. Wird eine weitere Stufe durchgeführt, so können dann anschliessend die p-Werte der beiden Studienstufen miteinander verrechnet werden als Basis einer Gesamtentscheidung über den Therapieunterschied. Nach Bauer & Köhne [1] würde im obigen Zahlenbeispiel das Produkt der p-Werte als Maß der Signifikanz der Gesamtstudie verwendet werden; ein signifikanter Therapieunterschied würde etabliert, wenn das Produkt der p-Werte die Grenze 0.8% unterschreitet. Die Grenzen 30%, 3% und 0.8% sind dabei gerade so aufeinander abgestimmt, dass die Gesamtstudie maximal einer Irrtumswahrscheinlichkeit von 5% unterliegt.
Diskussion
Ziel dieser tutoriellen Arbeit war die Motivation und Legitimation zweier flexibler Strategien zur Durchführung geplanter Zwischenauswertungen kontrollierter klinischer Studien. Diese sind durchaus legitim – in vielen Fällen sogar unabdingbar im Interesse von Patient und Studienleitung – unter gewissen Rahmenbedingungen. In erster Linie sind geplante Zwischenauswertungen vor Beginn der Studie im Prüfplan klar zu begründen und reproduzierbar zu dokumentieren. Ferner muss die Fallzahlplanung an diese Zwischenauswertungen, im gruppensequentiellen Design insbesondere auch an deren Anzahl, adjustiert werden. Generell werden die Zwischenauswertung und damit die Möglichkeit eines vorzeitigen Abbruches der Studie erkauft durch eine insgesamt höher zu erwartende Gesamtallzahl der Studie (sofern nicht vorzeitig abgebrochen werden kann) gegenüber der konventionell ohne Interimanalyse geplanten Fallzahl. Bauer & Köhne machen z.B. deutlich, dass ein signifikantes Ergebnis der ersten Stufe im Fall „p1 < 3%“ etabliert werden kann. Hat diese Stufe den p-Wert p1=4% zum Ergebnis, so kann nicht auf ein signifikantes Ergebnis geschlossen werden; bei konventioneller Planung wäre dies jedoch wegen p1 < 5 % möglich gewesen und die Studie hätte mit einem signifikanten Ergebnis beendet. Insofern ist das Bauer / Köhne-Design nicht attraktiv, wenn a priori eher moderate Effekte wie in diesem Fall erwartet werden: Der Einstieg in eine zweite Studienstufe und damit der Verlust des Nutzens einer Zwischenauswertung im Hinblick auf die Gesamtfallzahl ist nicht unwahrscheinlich. Auf der anderen Seite beläuft sich die dann zu erwartende Erhöhung im Gesamtstichprobenumfang bei adaptiven Designs nur in pathologischen Fällen auf merklich mehr als 10% des konventionellen Studienumfanges, sodass inzwischen zahlreiche Studiensponsoren eine adaptive Studienplanung als klare Alternative zum bisherigen Standard betrachten.
Kritisch zu ventilieren ist der Nutzen von Zwischenauswertungen bei Studien mit dem Ziel eines Langzeit-Follow up [4]: Werden etwa zwei operative Strategien zur Korrektur eines Glaukomschadens hinsichtlich ihres Langezeiteffektes verglichen und ist der klinische Endpunkt der Studie die „Zeitspanne seit dem Eingriff bis zum Wiederanstieg des Augeninnendruckes auf 21 mmHg oder höher“, so werden die Patienten üblicherweise mindestens 5 Jahre nachbeobachtet. Eine Zwischenauswertung wäre also erst zu einem Zeitpunkt sinnvoll, wo ohnehin schon der Großteil des konventionell geplanten Stichprobenumfanges rekrutiert worden ist. Ferner muss bedacht werden, dass die Studie während Durchführung der Interimanalyse nicht einfach komplett unterbrochen werden kann – dies ist vor allem bei multizentrischen Studien aufgrund des unterschiedlichen Rekrutierungsstandes in den einzelnen Zentren weder sinnvoll noch realistisch. Insbesondere würde bei Weiterführung der Studie in eine zweite Stufe der Wiedereinstieg in die unterbrochene Logistik unnötigen Aufwand verursachen.
Die Unterbrechung durch eine Zwischenauswertung kann auch zu Problemen bei der Zulassung führen: Das Ergebnis der Zwischenanalyse mag die Zulassung rechtfertigen, die Zulassungsbehörden werden aber auch eine zusätzliche Auswertung der im Zeitraum der Zwischenauswertung bis zum endgültigen Stopp der Studie weiter rekrutierten Patienten einfordern. Diese können die Ergebnisse der Interimanalyse wieder abschwächen – der Gewinn durch die Zwischenauswertung kann somit sogar zu einer Erschwerung der Zulassung führen.
Die mathematischen Details der hier beschriebenen Ansätze wurden in dieser Übersicht aufgespart, nicht zuletzt, da die beschriebenen Grundideen inzwischen in vielerlei Hinsicht modifiziert und erweitert werden konnten z.B. für den Fall von mehr als zwei Studienstufen [6]. Derzeit entstehen sogar vielversprechende Vorschläge zur Kombination adaptiver und gruppensequentieller Strategien [3]. Ziel ist es dabei, im adaptiven Sinne die Anzahl der vorzunehmenden Zwischenauswertungen im Lauf der Studie flexibel und nach ersten Zwischenauswertungen Daten-basiert korrigieren zu können. Statt der ermüdenden Ausführung bereits in der biometrischen Fachliteratur verfügbarer formeller Details wurde in dieser Arbeit vielmehr Wert darauf gelegt, die generellen Vorteile und Eigenheiten der beiden wichtigsten Zugänge zur geplanten Zwischenauswertungen herauszustellen, insbesondere auch, um etwas für diese noch lange nicht jedem Studienleiter vertrauten Strategien zu „werben“.
Neben den beschriebenen ethischen und ökonomischen Vorteilen eines früheren Studienabbruches (Patienten werden nicht unnötig lange auf unterlegene Therapien randomisiert, Studienkosten und Laufzeiten werden mitunter drastisch reduziert), sei aber auch offen auf die Nachteile dieser Ansätze hingewiesen: Der wachsenden Flexibilität in der Studienplanung und Steuerung steht nicht selten eine gewisse Skepsis hinsichtlich möglicher Manipulationsquellen entgegen – umso wichtiger ist bei solchen Studien eine detaillierte Fixierung der einzelnen Schritte und Entscheidungsregeln im Prüfplan! Inzwischen sind bereits Strategien vorgeschlagen worden, welche nach einer Zwischenauswertungen die primäre Hypothese der Studie wechseln können – im Ernstfall also formell z.B. von einer Studie zum Nachweis einer therapeutischen Äquivalenz in ein Unterlegenheits-Design wechseln könnten. In jedem Fall sollten Planungsstrategien mit derart interventionellem Charakter stets im Konsens mit Überwachungs- und Zulassungsbehörden fixiert werden.
|
|