IQWiG im Dialog
Zu den Beiträgen der bisherigen "IQWiG im Dialog" Veranstaltungen
In unserer englischsprachigen Veranstaltung zum Übergang des Information Retrieval ins digitale Zeitalter "Information Retrieval Meeting (IRM 2022): Transition into the Digital Age" gab es mehrere inspirierende Keynotes, Vorträge und Workshops zu den aktuellen Entwicklungen und praktischen Erfahrungen mit Digitalisierung und Automatisierung im Information Retrieval.
Wichtige Endpunkte bei der Nutzenbewertung medizinischer Interventionen wie gesundheitsbezogene Lebensqualität oder andere patientenberichtete Endpunkte werden häufig mithilfe von Skalen gemessen, deren Einheit nicht direkt interpretierbar ist. Daher ist die Anwendung von skalenbasierten Endpunkten in der Praxis mit verschiedenen Problemen und Herausforderungen verbunden. Dies wurde mit Expertinnen und Experten aus Wissenschaft, Industrie und Patientenorganisationen diskutiert.
Vorträge (Veröffentlichung ca. 10 Tage nach Veranstaltung), Abstracts und Programm
Diskussion über Methoden der kausalen Inferenz
Wenn es um systematische Übersichten geht, wird immer wieder angeregt, auch nicht randomisierte Studien einzuschließen. In solchen Studien spielen aber Confounder und andere Bias-Quellen eine größere Rolle als bei randomisierten kontrollierten Studien (RCT). Um sie angemessen zu berücksichtigen, hat die epidemiologische Forschung Methoden zur kausalen Inferenz entwickelt, zum Beispiel Propensity Scores.
Stellenwert, Stärken und Schwächen
Vor diesem Hintergrund erscheint eine intensive Auseinandersetzung mit dem Stellenwert, den Stärken und den Schwächen von Kausalmodellen geboten. Lassen sich Kausalmodelle in der Nutzenbewertung anwenden, und welche Probleme treten dabei auf? Wie unterscheiden sich verschiedene Ansätze der kausalen Interferenz, etwa im Hinblick auf die Minimierung von Bias? Führen randomisierte und nicht randomisierte Studien (etwa Kohortenstudien) bei derselben Fragestellung zu unterschiedlichen Ergebnissen? Können in klinischen Studien geschätzte Estimands überhaupt kausal interpretiert werden? Und was leisten sie außerhalb der Nutzenbewertung – etwa in der Arzneimittelzulassung oder bei der Aufklärung von Wirkungsmechanismen?
Die nunmehr zum elften Mal stattgefundene Veranstaltung „IQWiG im Dialog“ brachte am 21. Juni 2019 Expertinnen und Experten aus unterschiedlichen Bereichen zusammen, etwa aus der universitären Forschung und der Industrie.
Auch in den aktuellen Diskussionen um Big Data und Real World Data tauchen solche Verfahren auf. Bei der Einführung von Estimands (siehe IQWiG im Dialog 2018) wird das Potenzial von Kausalmodellen ebenfalls gerne herausgestellt. Denn bei einigen der neuen Estimand-Strategien lassen sich die traditionellen Schätzmethoden der klinischen Forschung nicht mehr anwenden.
Diskussion um aktuelle Methoden-Vorschläge der EMA
In jüngster Zeit diskutieren Wissenschaftler, Hersteller und Behörden vor allem im Kontext der Arzneimittelzulassung verstärkt über „ Estimands“. Unter Estimand (deutsch: „das zu Schätzende“) wird der in einer geplanten Studie zu schätzende Effekt verstanden, etwa der Unterschied zwischen zwei Medikamenten bezüglich eines patientenrelevanten Endpunkts unter bestimmten zu wählenden Bedingungen. Diese hängen u. a. ab von der interessierenden Population, dem Umgang mit auftretenden Zwischenereignissen sowie dem verwendeten Effektmaß. Mit der Veröffentlichung eines Papiers durch die europäische Zulassungsbehörde (Addendum zur EMA Guideline ICH E9) im August 2017 hat das Thema an Bedeutung gewonnen. Die darin getroffenen Festlegungen könnten nicht nur klinische Studien und die Zulassungspraxis verändern, sondern auch Einfluss auf die Nutzenbewertung haben – wie Kritiker meinen, zulasten der bisher hohen Standards.
Ergebnisse für die Nutzenbewertung womöglich unbrauchbar
Das aktuelle Addendum zur EMA-Guideline ICH E9 zu den statistischen Prinzipien für klinische Studien befasst sich unter anderem mit Estimands. Das Addendum beschreibt fünf Strategien, die zu unterschiedlichen Estimands führen. Jedoch lassen sich nicht alle Estimands mit bewährten Methoden schätzen, ohne ein hohes Verzerrungspotenzial in Kauf nehmen zu müssen. Etwa wenn nicht mehr die Daten aller randomisierten Studienteilnehmer, sondern nur diejenigen – lediglich hypothetisch definierbarer – Teilgruppen ausgewertet werden, die nicht hinreichend strukturgleich sind.
Somit stellt sich die Frage, welche Estimands bei der Nutzenbewertung sinnvoll verwendet werden können und welche Estimands für HTA-Entscheidungen irrelevant sind. Es besteht zudem die Gefahr, dass die beschriebenen Strategien als Rechtfertigung missbraucht werden, um in klinischen Studien wichtige Daten, wie z. B. unerwünschte Ereignisse, nicht mehr vollständig zu erheben.
Mit Referenten aus Wissenschaft, Zulassung und Industrie wurde bei „IQWiG im Dialog“ am 15. Juni 2018 über die Anwendungsmöglichkeiten und Probleme von Estimands für die Nutzenbewertung diskutiert.
Das erste IQWiG-Methodenpapier (Version 1.0) wurde am 1. März 2005 veröffentlicht. Seitdem wurden die IQWiG-Methoden regelmäßig aktualisiert. Die Version 5.0 wurde im Juli 2017 veröffentlicht. In den Veranstaltungen des IQWiG im Dialog wurden seit 2008 eine Reihe von methodischen Fragen diskutiert. Die 10. Jubiläumsveranstaltung von IQWiG im Dialog 2017 stellte die IQWiG-Methoden in einen internationalen Kontext. Mehrere internationale HTA-Organisationen stellten ihre eigenen Methodenleitfäden vor und wichtige methodische Fragen des "Comparative Effectiveness Research" (der direkte Vergleich von bestehenden Gesundheitsinterventionen) konnten aus verschiedenen Perspektiven diskutiert werden.
Bitte beachten Sie: Die Präsentationen sind auf Englisch.
In der Fachliteratur kursieren in jüngster Zeit diverse Vorschläge, bei der Bewertung von Studienergebnissen härtere Kriterien anzulegen. So fordern einige Statistiker generell strengere Signifikanzniveaus anzuwenden (z. B. 0,005 oder 0,001 anstelle von 0,05). Auch in der Cochrane Collaboration gibt es Stimmen, die Methoden und Kriterien für systematische Übersichten zu verschärfen. Die Kontrolle der Datenqualität haben die Forscherinnen und Forscher dabei ebenso im Blick wie die Adjustierung für multiple Endpunkte oder die Anwendung sequenzieller Verfahren bei Meta-Analysen.
Im Prozess von Zulassungsentscheidungen über neue Arzneimittel und anschließenden Entscheidungen über den (Zusatz-) Nutzen eines Wirkstoffs bei der Nutzenbewertung stellt sich häufig die Frage: Sind die grundlegenden Prinzipien, auf denen diese Entscheidungen getroffen werden, überhaupt vergleichbar?
Für die Zulassung eines neuen Arzneimittels werden eigens geplante, konfirmatorische Studien gefordert. Dagegen greift die Nutzenbewertung gemäß den Prinzipien der evidenzbasierten Medizin auf bereits vorhandene Daten zurück. Die Referate und Diskussionen beim diesjährigen IQWiG im Dialog befasste sich mit der Frage, inwieweit HTA-Entscheidungen einen konfirmatorischen Charakter haben können und inwieweit eine solche Forderung überhaupt sinnvoll sein kann.
Wenn ein Patient oder eine Patientin innerhalb einer klinischen Studie die Behandlung wechselt, z. B. vom Kontroll- in den Behandlungsarm mit dem neuen Wirkstoff, hat das nicht nur für den Patienten Konsequenzen, sondern auch für die Bewertung von Studiendaten durch Zulassungsbehörden und das IQWiG: Daraus ergeben sich ganz besondere Anforderungen und methodische Probleme für die Aussagekraft der Daten.
Doch wäre es ethisch überhaupt vertretbar, mit dem Verbot von Behandlungswechseln in klinischen Studien einem Patienten ein Medikament vorzuenthalten, das sich im Laufe der Studie als voraussichtlich wirksam herausstellt und ihn stattdessen mit „best supportive care“ zu behandeln? In vielen Fällen, besonders in der Onkologie entscheiden sich Studienverantwortliche eher dafür, Patienten bereits während des Studienverlaufs grundsätzlich einen Wechsel vom Kontroll- in den Behandlungsarm zu gestatten – trotz der daraus resultierenden Probleme für die Auswertung der Studienergebnisse.
Die diesjährigen Referate und Diskussionen bei „IQWiG im Dialog“ beschäftigen sich daher mit den besonderen Anforderungen und methodischen Problemen aus der Sicht von Klinik, Zulassung, Wissenschaft und IQWiG.
Nicht immer stimmt das Anwendungsgebiet, für das ein Medikament zugelassen ist, mit den tatsächlich durchgeführten Zulassungsstudien überein. Insbesondere für die frühe Nutzenbewertung gemäß AMNOG kann das zum Problem werden – für das IQWiG und den G-BA ebenso wie für die Hersteller.
Wenn Zulassungs- und Studienpopulation voneinander abweichen, hat das v. a. zwei Gründe: Zum einen können sich aus den Zulassungsstudien selbst Hinweise dafür ergeben haben, dass ein positives Nutzen-Risiko-Verhältnis nur für eine Untergruppe der untersuchten Patienten besteht. Dann ist es erforderlich, nur Subgruppen der Zulassungsstudien zu analysieren – auch um das neue Arzneimittel nicht fälschlicherweise negativ zu bewerten. Zum anderen können aber auch generelle Vorbehalte der Zulassungsbehörde in bestimmten Indikationsgebieten dazu führen, dass ein neuer Wirkstoff nicht in der Breite, sondern nur in ausgewählten Feldern, z. B. als Zweitlinien- oder Drittlinientherapie eingesetzt werden soll. Dann sind adäquate Subgruppen-analysen u. U. aber gar nicht möglich, weil das Arzneimittel in der Zweitlinie oder Drittlinie nicht in Studien untersucht wurde. Für den Hersteller ist das ebenso ein Dilemma wie für die bewertenden Institutionen.
Die Referate und Diskussionen von „IQWiG im Dialog“ fragen in diesem Jahr nach den Gründen für solche Diskrepanzen sowie nach den Möglichkeiten, sie zu vermeiden oder mit ihnen angemessen umzugehen.
Seit 2011 verwendet das IQWiG zur Formulierung von Aussagen zum Nutzen beziehungsweise Schaden medizinischer Maßnahmen drei Kategorien: "Beleg", "Hinweis" und "Anhaltspunkt" (vgl. Version 4.0 der Allgemeinen Methoden).
Die Verwendung dieser Begriffe ist abhängig von der Ergebnissicherheit der zugrunde liegenden Studien: Ein "Beleg" für einen Nutzen lässt sich nur bei hoher Ergebnissicherheit aussprechen. Mit einem "Hinweis" wird eine schwächere, mit einem "Anhaltspunkt" die schwächste Stufe der Ergebnissicherheit der drei Kategorien bezeichnet. Werden in Studien beispielsweise Surrogatendpunkte oder indirekte Vergleiche verwendet, erhöht sich in der Regel die Unsicherheit der Studienergebnisse.
Im Jahr 2012 stellte das Institut im Rahmen von "IQWiG im Dialog" seine Vorgehensweise zur Ableitung von Nutzenaussagen bei erhöhter Unsicherheit zur Expertendiskussion.
Institutionen, die Nutzen und Schaden medizinischer Interventionen bewerten, sind häufig damit konfrontiert, dass die zugrundeliegenden Studien für die Bewertung aufgrund ihrer Heterogenität nur schwer oder gar nicht zusammengefasst werden können. Dies ist zum Beispiel dann der Fall, wenn die Studien unterschiedliche Studiencharakteristika, z.B. hinsichtlich Schweregrad der Erkrankung, Dosierung oder Studiendauer aufweisen.
Thema der Veranstaltung "IQWiG im Dialog 2011" waren daher die statistischen Methoden zur Untersuchung von Heterogenität und zum Umgang mit Heterogenität in der Bewertung von Nutzen und Schaden.
Dass bei klinischen Studien neben der (statistischen) Signifikanz auch die (klinische) Relevanz der Ergebnisse bewertet werden soll, ist eine altbekannte und anerkannte Forderung. "IQWiG im Dialog" befasste sich daher im Jahr 2010 mit den Herangehensweisen einer solchen Bewertung im Rahmen von systematischen Übersichten und mit deren Bedeutung für die Zulassung von Arzneimitteln sowie für die Durchführung und Bewertung klinischer Studien.
Am 18.06.2010 diskutierten 155 Teilnehmer mit Vertretern des IQWiG, von Zulassungsbehörden, Universitäten und Industrie über die Notwendigkeit, die Methoden und die Konsequenzen von Relevanzbewertungen.
Zu den gesetzlichen Aufgaben des IQWiG gehört es, neben den erwünschten Wirkungen und dem (Zusatz-) Nutzen, auch den möglichen Schaden medizinischer Maßnahmen zu bewerten. Die Bewertung des Schadens von Therapien ist in systematischen Übersichten und HTA-Berichten allerdings nicht so gut definiert wie die Bewertung des Nutzens. "IQWiG im Dialog" widmete sich deshalb im Jahr 2009 verschiedenen Aspekten bei der Bewertung von schädlichen Effekten.
Im Mittelpunkt der Veranstaltung standen im Jahr 2008 vor allem methodische Aspekte: die Rahmenbedingungen und das methodische Vorgehen bezüglich der Nutzenbewertung durch das IQWiG, die Bedeutung der "Zwei-Studien-Regel" für die Beurteilung von Studienergebnissen und die methodischen Grundlagen der Nutzenbewertung.