IQWiG im Dialog

Seit 2008 gibt es die Veranstaltungsreihe "IQWiG im Dialog": Hier haben Vertreter aus Wissenschaft und Industrie die Möglichkeit zum fachlichen Austausch mit dem IQWiG über die Arbeitsthemen des Instituts.

IQWiG im Dialog 2025: Über die Qualität von Beobachtungsstudien

Welche Sicherheit brauchen wir für Entscheidungen? Und wann sind Studienergebnisse aus Beobachtungsdaten gut genug?

Foto vom neuen IQWiG mit Menschen

Wer Beobachtungsdaten statt dem von Daten aus randomisierten Studien (RCT) in Nutzenbewertungen verwenden will, muss Antworten geben auf die Frage: Wie verlässlich sind Beobachtungsdaten?

Ob und wie Beobachtungsdaten eine aussagekräftige Grundlage für Nutzenbewertungen sein können, war deshalb Thema des diesjährigen „IQWiG im Dialog“, erstmals im neuen IQWiG-Standort am Deutzer Hafen in Köln: Am 26. Juni 2025 diskutierten hier mehr als 150 Expertinnen und Experten von Universitäten, Forschungseinrichtungen, Industrie, Zulassungsbehörden und HTA-Institutionen, welche Kriterien Beobachtungsstudien erfüllen müssen, um einen Beitrag für den Erkenntnisgewinn zu leisten und letztlich als Grundlage für medizinische Entscheidungen geeignet zu sein. Und welche Rahmenbedingungen sind in Deutschland nötig, damit sich der höhere Aufwand für vertrauenswürdige Beobachtungsdaten lohnt?

Welche Ergebnissicherheit ist nötig und möglich?

IQWiG im Dialog 2025 Meschen im Saal von hinten

Kann eine (sehr gut gemachte) so gut sein, dass sie die einer (adäquaten) randomisierten kontrollierten Studie erreicht? Wenn ja: Ist das vor dem Hintergrund der aktuell in Deutschland verfügbaren Daten auch praktisch realistisch? Und was müsste getan werden? Diese und weitere Fragen zur Vertrauenswürdigkeit von Beobachtungsdaten standen im Mittelpunkt der Diskussion mit den Referentinnen und Referenten.

Genau hinschauen, denn ohne Confounder geht es nicht

Konzeption und Durchführung von Studien sind nicht banal und die Datenerhebung muss auch praktikabel sein. Doch es gibt keine allgemeingültigen Kriterien für jede Forschungsfrage und jede Datenlage. Sabine Hoffmann vom StaBLab der LMU München betonte: „Man muss erst mal wissen, wie unsicher die Daten sind, um sie dann sicherer zu machen. Und man muss nicht nur wissen, dass sie ggf. falsch sind, sondern auch wie falsch sie sind.“

Die von Ergebnissen aus nicht randomisierten Studien durch lässt sich zum Teil durch statistische Verfahren reduzieren – sofern sie bereits zu Studienbeginn bekannt sind und auch in der Studie erhoben wurden. Das IQWiG hatte kurz vor der Veranstaltung in einem bereits Vorschläge gemacht, wie sich der Aufwand für die Identifikation von und zum Umgang mit Confoundern ohne relevanten Informationsverlust reduzieren lässt.

Erst bei Klarheit über die Charakteristik von Beobachtungsdaten lässt sich dann definieren, ab welchem Punkt die Entscheidung in die eine oder andere Richtung fallen kann: verwertbar oder nicht verwertbar? Unabdingbar dafür ist aus Sicht von Felicitas Kühne von Pfizer sowie der UMIT TIROL, alles zu veröffentlichen, angefangen bei den Studienprotokollen über den Studienverlauf bis hin zu den Ergebnissen: Nur dann lassen sich die Datenlage und die Entscheidungssituation adäquat einschätzen, was eine Voraussetzung für eine sinnvolle Nutzenbewertung ist.

Von Fallschirmen und Blindflügen: Wie sicher müssen wir uns sein?

Ralf Bender, Leiter des IQWiG-Ressorts Medizinische Biometrie, moderierte die Veranstaltung.

Breiter Konsens war, dass für die notwendige Sicherheit einer Entscheidung nicht immer eine RCT nötig ist. Doch das sind seltene Ausnahmefälle – wie beim vielzitierten Fallschirm, dessen Wirkung auch ohne RCT klar ist. Zur Abgrenzung dieser Fälle gibt es jedoch kein „Rezept“, also keinen fertigen Kriterienkatalog und keine universellen Schwellenwerte – weder für die Zulassung noch für die Nutzenbewertung. Wie sicher die Datenlage ist, ergibt sich aus dem Entscheidungsbereich: „Wenn die Ergebnissicherheit nicht so hoch ist, muss das Ausmaß, also der einer Intervention größer sein als bei hoher Ergebnissicherheit – das ist unser Sicherheitsanker“, fasste Ralf Bender vom IQWiG zusammen.

Gemäß Felicitas Kühne gehe es dabei nicht um die Frage „RCT oder “, denn beide ergänzten sich: Die RCT sei das beste für eine verlässliche Datenlage und ihre Ergebnisse genügten für eine Entscheidung für oder gegen eine Therapie. Wenn man keine RCT hat oder machen kann, z. B. aus ethischen Gründen, dann würden zumindest Daten benötigt, die in die richtige Richtung gehen – denn Blindflug sei unbedingt zu vermeiden. Und dafür brauche es eben Transparenz darüber, was wir zu den Daten und aus den Daten wissen – und auch was wir nicht wissen.

Was können wir tun für bessere Daten?

Die Anforderungen an gute Studien sind aus gutem Grund komplex und aufwendig – das gilt auch für Studien mit Beobachtungsdaten. In Deutschland ist die anwendungsbegleitende Datenerhebung (AbD) ein möglicher, wenn auch nicht der prinzipiell beste Weg, um nach der Zulassung noch zu generieren.

Tim Mathes vom IQWiG fragte: „Welche Sicherheiten bekommen wir durch RCT und welche durch nicht randomisierte Studien, die auf Beobachtungsdaten basieren?“ Mit einem evidenzbasierten „Confounder-Core-Set“, das standardmäßig erfasst wird, könnte der Aufwand von aussagekräftigen nicht randomisierten, auf Beobachtungsdaten beruhenden Studien erleichtert werden. Aber wenn das nicht etabliert ist, stelle sich die Frage: Wie viel kosten die erforderlichen Ausweitungen im Vergleich zu einer RCT? Das Generieren von auf Beobachtungsdaten basierten Studien könne mit Identifikation aller relevanten und Erfassung weiterer notwendiger Daten schnell teurer werden als eine RCT – darüber war sich das Publikum einig.

Was wir haben und was wir noch brauchen

Die deutliche Entwicklung in Sachen Datenqualität war allen gegenwärtig: Beobachtungsdaten können heute Trends in der Versorgung abbilden und Hinweise liefern dazu, ob Therapien auch außerhalb der Studienzulassung in der Versorgung wirken. Auf Beobachtungsdaten allein ist in der Regel kein Verlass, aber als Ergänzung zu RCT-Daten sind sie eine Bereicherung und verbessern die Datenlage, insbesondere zu sogenannten Volkskrankheiten wie Krebs, Diabetes etc.

Und was fehlt noch? Eine zentrale Dateninfrastruktur für die Forschung in Deutschland mit nachhaltiger Finanzierung, in der dann auch versorgungsnahe RCTs durchgeführt werden sollten: Das wäre vermutlich die beste Verbindung aus zwei scheinbar verschiedenen Welten.

Programm

Begrüßung und Moderation
Ralf Bender (IQWiG, Köln)
Vertrauenswürdigkeit von Registerdaten – Erfahrungen aus der anwendungsbegleitenden Datenerhebung
Volker Vervölgyi (IQWiG, Köln)
Potentiale und Herausforderung von Registerdaten am Beispiel des MS-Registers der DMSG als Plattform für die (Versorgungs)forschung
Alexander Stahmann (MSFP-gGmbH, Hannover)
Anwendung von Beobachtungsdaten für die regulatorische Forschung
Julia Wicherski (BfArM, Bonn)
Das Konzept der Target-Trial-Emulation
Tim Mathes (IQWiG, Köln)
Verwendung von Beobachtungsdaten in der Nutzenbewertung – Einfluss von Design and Analysetechniken auf den von Effektschätzungen
Felicitas Kühne (Pfizer, Berlin)
Bewertung der Qualität und Glaubwürdigkeit von Beobachtungsstudien
Sabine Hoffmann (StaBLab, LMU München)

Abstracts

Volker Vervölgyi, Ressort Arzneimittelbewertung, Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln

Für viele neue Arzneimittel liegen zum Zeitpunkt der Zulassung keine ausreichenden Daten dazu vor, ob sie für die Patientinnen und Patienten tatsächlich eine Verbesserung gegenüber dem derzeitigen therapeutischen Standard darstellen. Dies ist insbesondere bei Arzneimitteln für seltene Erkrankungen (Orphan Drugs) der Fall. Mit dem Verfahren der anwendungsbegleitenden Datenerhebung hat der in bestimmten Fällen deshalb die Möglichkeit erhalten, vom pharmazeutischen Unternehmer eine Studie des neuen Arzneimittels im Vergleich zu einer zweckmäßigen Vergleichstherapie zu fordern.

Als Grundlage für diese Forderung beauftragt der gemeinsame Bundesausschuss (G-BA) das Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) mit der Erstellung eines Konzepts für eine anwendungsbegleitende Datenerhebung. Darin wird unter anderem geprüft, ob es eine bestehende Datenplattform gibt, in der die anwendungsbegleitende Datenerhebung durchgeführt werden kann. Dafür kommen an erster Stelle Indikationsregister in Betracht. Im Rahmen der Konzepterstellung wird anhand veröffentlichter Informationen und eines von den Registerbetreibenden ausgefüllten Fragebogens eingeschätzt, ob die im Register erhobenen Daten in ausreichendem Umfang und in ausreichender Qualität für die Durchführung einer vergleichenden Studie erhoben werden. In allen bisherigen Fällen bestand noch Anpassungsbedarf, der sich zwischen den Registern in seinem Ausmaß unterschied. Im Vortrag wird beleuchtet, welche Anpassungen in den bisherigen Verfahren notwendig waren.

Eine gesetzliche Anforderung der anwendungsbegleitenden Datenerhebung ist, dass die geforderte vergleichende Studie ohne durchgeführt werden muss. Dies bedingt zum einen zusätzliche Anforderungen an die erhobenen Daten, insbesondere die Identifikation und Erhebung von möglichen Störgrößen (Confoundern) oder die Festlegung des Beobachtungsstarts. Zum anderen ist ein solches nicht randomisiertes Studiendesign mit wesentlich höheren Anforderungen an die Auswertung verbunden. Diese Aspekte müssen in den von den pharmazeutischen Unternehmern erstellten Studienunterlagen adressiert werden. Das IQWiG prüft diese Dokumente, ob die beschriebene Methodik als Grundlage für eine vergleichende nicht randomisierte Studie geeignet ist. Im Vortrag werden die Erfahrungen aus den bisherigen Prüfungen vorgestellt und reflektiert.

Alexander Stahmann, MS Forschungs- und Projektentwicklungs-gGmbH (MSFP-gGmbH), Hannover

Registerdaten sind als eine Art der versorgungsnahen Daten in der jüngeren Zeit verstärkt in den Fokus gerückt. So wurde der ermächtigt erstmals anwendungsbegleitende Datenerhebungen (AbDs) zu beauflagen und im Bundesministerium für Gesundheit wurde bereits während der letzten Großen Koalition von CDU und SPD unter dem Gesundheitsminister Spahn ein eigenes Referat für medizinische Datenbanken und Register eingeführt. Dieses hat dann, aufbauend auf den Vereinbarungen des „Ampel“-Koalitionsvertrags eine allgemeine Rechtsgrundlage für nicht spezialgesetzlich geregelte medizinische Register vorangetrieben. Ziele die mit diesem „Registergesetz“ verfolgt werden sollten waren u.a. die stärkere Nutzung der deutschlandweit über 400 medizinischen Register, Ermöglichung der Verknüpfung von medizinischen Registern mit weiteren Datenquellen, sowie die Schaffung von geeigneten Voraussetzungen für die Durchführung von registerbasierten RCTs (rRCTs).

Bereits ab 2015 hat das von der Deutschen Multiple Sklerose Gesellschaft, Bundesverband e.V. initiierte MS-Register damit begonnen, das technisch und inhaltlich revisionierte Register als Plattform für (Versorgung)forschung in der MS zu positionieren. Der Vortrag wird sich nach einem kurzen Rückblick auf die Historie der MS-Registerdokumentation in Deutschland den aktuellen Möglichkeiten widmen und an Hand konkret umgesetzter Forschungsprojekte die Herausforderungen und aktuellen Limitationen aufzeigen.

Julia Wicherski, FG52 Pharmakoepidemiologie, Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM), Bonn

Aus Beobachtungsdaten generierte wird zunehmend in regulatorischen Entscheidungsprozessen auf nationaler sowie internationaler Ebene berücksichtigt. Insbesondere zur Beurteilung der Sicherheit von Arzneimitteln werden Beobachtungsdaten bereits als etablierte Wissensquelle betrachtet. Ebenso vielfältig wie die verschiedenen Datenquellen, sind auch ihre Anwendungsmöglichkeiten für regulatorische Entscheidungsprozesse entlang des gesamten Produktlebenszyklus eines Arzneimittels. Die Forschungsabteilung im BfArM betreibt u.a. regulatorische Forschung mit Beobachtungsdaten. Zwei aktuelle Forschungsprojekte sind FQrisk und Real4Reg. FQrisk ist eine , die auf deutschlandweiten Routineabrechnungsdaten der AOK basiert und Fragestellungen der Therapiesicherheit von Fluorchinolon-Antibiotika untersucht. Real4Reg ist ein EU-gefördertes Multistakeholder-Projekt basierend auf verschiedenen Beobachtungsdatenquellen aus Dänemark, Finnland, Portugal und Deutschland, welches sich auf die von Beobachtungsdaten und deren (KI/ML-gestützte) Analysemethoden fokussiert. Im Rahmen des Vortrags werden aktuelle pharmakoepidemiologische Forschungsprojekte im BfArM vorgestellt und potenzielle Probleme, Lösungsansätze und Anwendungsmöglichkeiten von Beobachtungsdaten für die regulatorische Forschung beschrieben.

Tim Mathes, Ressort Gesundheitsökonomie, Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Köln

Das Konzept der Target Trial Emulation (TTE) zielt darauf ab, eine RCT mittels Beobachtungsdaten zu emulieren. Die Grundidee ist es, eine hypothetische idealtypische, d. h. ohne Berücksichtigung von Machbarkeits- und ethischen Aspekten, RCT zu definieren und hierauf basierend die Analyse für eine nicht randomisierte Studie abzuleiten. Hierfür werden Methoden der kausalen Inferenz verwendet. Durch die Gegenüberstellung von RCT und nicht randomisierter Auswertung können „selbst-gemachte“ methodische Probleme vermieden werden. Zudem werden mögliche Quellen für explizit gemacht. Falls die TTE die Referenz RCT perfekt emuliert, können aus ihr mitunter kausale Schlussfolgerung gezogen werden. Allerdings stellt dieses sehr hohe Anforderungen an die zugrunde liegenden Daten.

Felicitas Kühne, Access & Value Germany, Pfizer Pharma GmbH, Berlin, Institut für Public Health, Medical Decision Making und Health Technology Assessment, UMIT TIROL – Private Universität für Gesundheitswissenschaften und -technologie, Hall i.T., Österreich

Bestehende oder neue Gesundheitstechnologien werden im Rahmen von (HTA) bewertet. Hierbei spielen verschiedene Aspekte, wie zum Beispiel , Schaden, Kosten, sowie rechtliche, ethische und soziale Aspekte, eine wichtige Rolle. Da die zu diesen Aspekten nicht immer in randomisierten kontrollierten klinischen Studien (RCTs) erhoben werden kann, werden häufig Beobachtungsstudien durchgeführt. Die Gewinnung kausaler Rückschlüsse (in der Epidemiologie als „Kausalinferenz“ bezeichnet) aus den Beobachtungsdaten weist bekannte Probleme, wie , Immortaltime-Bias und Selektionsfehler auf. Je nach Art des Confounding und des Selektionsbias sind traditionelle statistische Methoden nicht ausreichend, um kausale Rückschlüsse ziehen zu können. Ansätze, wie Kausaldiagramme und Target Trial Emulierungen, gepaart mit g-Methoden helfen, das Potenzial der Beobachtungsdaten auszuschöpfen, bei gleichzeitiger Kontrolle der systematischen Verzerrungen.

Im Vortrag werden die Begriffe und Konzepte der Kausalinferenz kurz anhand eines Fallbeispiels vorgestellt und diskutiert. In der Studie des Fallbeispiels werden die Zweitlinien-Chemotherapie mit keiner Zweitlinien-Chemotherapie bei Frauen mit fortgeschrittenem Ovarialkarzinom verglichen und mögliche Verzerrungen bei der Analyse von Beobachtungsdaten bewertet. Hierzu wird eine große validierte retrospektive Datenbank genutzt und mit einem schrittweisen analytischen Ansatz analysiert. Dieser beginnt mit einer groben, rein assoziativen Analyse und wird mit jedem Analyseschritt komplexer, um schließlich in einer vollständigen Kausalanalyse zu münden. Die Effektschätzer der einzelnen analytischen Ansätze werden mit den Effektschätzungen einer randomisierten kontrollierten Studie mit derselben Forschungsfrage (Referenzergebnis) verglichen.

Die Abweichung der Ergebnisse vom Referenzergebnis unterstreichen die Bedeutung gut geplanter und methodisch adäquater Studiendesigns und Analysetechniken. Im Vortrag werden die Herausforderungen und Chancen der Kausalmethoden dargestellt.

Sabine Hoffmann, Statistisches Beratungslabor (StaBLab), Institut für Statistik, Ludwig-Maximilians-Universität (LMU), München

Die Verfügbarkeit großer Datensätze verspricht ein enormes Potential für die medizinische Forschung. Elektronische Gesundheitsakten, administrative Abrechnungsdaten, Register oder Informationen von Apps wecken Hoffnungen auf sogenannte „Real-World, die es erlaubt Muster, seltene Ereignisse und langfristige Outcomes zu untersuchen. Diese Hoffnungen gehen einher mit der Sorge, dass durch die Veröffentlichung von retrospektiven Studien von geringer Qualität wertvolle Ressourcen verschwendet werden und von glaubwürdigerer Forschung abgelenkt wird. Die Veröffentlichung von Studien auf Beobachtungsdaten mag einfacher und wirtschaftlicher erscheinen als die Durchführung interventioneller Studien, aber eine angemessene Analyse und Interpretation der daraus gewonnenen Ergebnisse ist sehr viel komplexer. Bei einer interventionellen Studie ist es möglich, das Design auf die Ziele der Studie abzustimmen. In retrospektiven Studien werden dahingegen die Daten nicht im Hinblick auf eine Forschungsfrage erhoben, und folglich haben Forscher keinen Einfluss darauf, wie die Daten erhoben werden, welche Variablen gemessen werden oder wann und wie sie gemessen werden. Behandlungen werden nicht zufällig ausgewählt und die Gründe für die Behandlung sind oft nicht bekannt, eine ist nicht möglich, und viele Messungen, einschließlich der Messungen des Outcomes, sind nicht im Voraus festgelegt, sondern sind das Resultat täglicher klinischer Entscheidungen. Beobachtungsstudien müssen hohen Anforderungen genügen, um aussagekräftige Erkenntnisse zu liefern und einen echten zu erbringen. Forscher und Leser brauchen Instrumente, um Beobachtungsstudien kritisch zu bewerten und ihre Ergebnisse zu interpretieren. In diesem Vortrag sollen wichtige Herausforderungen von Beobachtungsstudien und insbesondere von retrospektiven Studien erörtert werden und Strategien vorgestellt werden, die die Qualität und Glaubwürdigkeit von Beobachtungsstudien verbessern können.

Vorträge

Programm und Abstracts zum Download

Zu den Beiträgen der bisherigen "IQWiG im Dialog" Veranstaltungen