Auswahl und Kritische Bewertung der Evidenz
Auswahl der Evidenz
Mit Hilfe von im Vorfeld festgelegten Ein- und Ausschlusskriterien werden die gefundenen Rechercheergebnisse aus der jeweiligen Datenquelle durchgesehen und die für die Leitlinie relevanten Arbeiten herausgefiltert. Die Selektion erfolgt klassischerweise in zwei Schritten und im besten Fall von zwei unabhängigen Personen (klinisch und methodisch Erfahrene):
- nach Titel und Abstract (potenziell relevante Treffer)
- nach Volltext (nach Prüfung finaler Ein- oder Ausschluss)
AWMF-Regel für das Leitlinienregister: Klassifikation S2- und S3-Leitlinien (Auszug):
Handelt es sich um eine S2e- oder S3-Leitlinie werden die Auswahlkriterien für die Evidenz explizit dargelegt. Dabei werden Gründe für den Einschluss (z.B. Zielpopulation, Vergleiche, Endpunkte, Sprache, Kontext, Studiendesign) und für den Ausschluss dargelegt (s. AGREE II, Kriterium 8).
Bezug zum AGREE II-Instrument
Domäne 3: Genauigkeit der Leitlinien-Entwicklung
Kriterium 8: Die Kriterien für die Auswahl der Evidenz sind eindeutig beschrieben.
Hilfen und Tipps
Zu den Ein- und Ausschlusskriterien können u.a. zählen:
- Alter, Geschlecht, Krankheitsstatus oder Komorbiditäten
- Intervention/Vergleichsgruppe
- Nachbeobachtungszeit/Setting
- Studien- oder Publikationstyp
- Sprache
Die Ausschlussgründe können auch auf Titel/Abstract-Ebene zusammenfassend dargelegt werden. Ausschlussgründe für geprüfte Volltexte sollten pro Publikation erfasst werden (s. Abb. 6). Kongressbeiträge (z.B. Abstracts) sollten in der Regel nicht als Evidenzgrundlage akzeptiert werden.
Steuern Leitliniengruppenmitglieder zusätzliche Literatur bei, sollte auch dies angegeben werden. Für die Dokumentation des Auswahlprozesses hat sich das PRISMA-Flowchart bewährt (1).
Die Speicherung der Literatur ab dem Schritt der Volltextsichtung in einem Literaturverwaltungsprogramm, das für die gesamte Leitliniengruppe zugänglich ist, wird empfohlen.
Wichtig: Auch den Auswahlprozess bei der Dokumentation der Suche aufführen!
Abbildung 6: Beispiel-Dokumentation einer Recherche
Kritische Bewertung der Evidenz
Die für die Leitlinie als relevant eingeschlossene Evidenz sollte strukturiert nach vorgegebenen Qualitätskriterien bewertet werden (2). Die kritische Bewertung beinhaltet die Beurteilung der internen Validität der Evidenz (Bewertung systematischer Fehler bzw. des Verzerrungsrisikos (Bias)) sowie weiterer Aspekte, die zu einer Einschätzung der Vertrauenswürdigkeit bzw. Aussagesicherheit und Anwendbarkeit der Evidenz notwendig sind.
Kritische Bewertung von systematischen Übersichtsarbeiten/Metaanalysen
Für systematische Übersichtsarbeiten ohne oder mit Metaanalysen wird im ersten Schritt zu einer Bewertung der Durchführungsqualität geraten (u.a. mit den Fragen: Erfolgte eine umfassende und gute dokumentierte Suche nach geeigneten Studien? Ist das Zusammenfassen der Studienergebnisse mittels Metaanalyse adäquat?). Der Einsatz einer Checkliste wird empfohlen.
Davon zu trennen ist die Bewertung der Aussagesicherheit der Studien, die in den systematischen Übersichtsarbeiten (ohne oder mit Metaanalysen) eingeschlossen sind. Dabei sollten neben der formalen Bewertung des Verzerrungsrisikos auch Aspekte, wie z.B. die Direktheit der Studien in Bezug auf Charakteristika der Studienpopulationen, Interventionen oder Endpunkten, die Konsistenz bzw. Heterogenität sowie die Präzision der Ergebnisse beurteilt werden.
Abschließend wird die Qualität der Evidenz nach einem Klassifikationsschema zusammenfassend angegeben (Evidenzgrad, Level of Evidence, bzw. Qualität der Gesamtheit der Evidenz pro Endpunkt (3-5), siehe Vergabe von Evidenzgraden).
Kritische Bewertung von Leitlinien
Für die Nutzung als Evidenzgrundlage sollten auch Leitlinien in Bezug auf ihre methodische Qualität strukturiert bewertet werden (6). Als methodisch gut bewertete und thematisch geeignete Leitlinien können für die eigene Leitlinienarbeit in unterschiedlicher Weise genutzt werden:
- zur Übernahme (Adoption) bzw. Adaptation von LL-Empfehlungen aus einer oder mehreren Quell-Leitlinie(n)
- als Quelle aufgearbeiteter Evidenz (z.B. Evidenztabellen)
- als Hintergrundinformation und Feststellung des Bedarfs eigener Recherchen
Werden bestehende Leitlinien als Quelle für eigene Leitlinienempfehlungen herangezogen, sollte über die Bewertung der methodischen Gesamtqualität hinaus die Beurteilung der einzelnen Empfehlungen erfolgen. Dazu gehören die Einschätzung der Angemessenheit der in Quellleitlinie(n) angegebenen Evidenzklassen und Empfehlungsgrade und der den Empfehlungen zugrunde gelegter Literatur, der Aktualität sowie der Anwendbarkeit im deutschen Gesundheitssystem (7). Bei Bedarf sollten entsprechende Aktualisierungs- recherchen durchgeführt werden.
Änderungen der Empfehlungen, z.B. aufgrund neuer Evidenz oder aufgrund einer abweichenden Einschätzung der LL-Gruppe hinsichtlich des Nutzens/des Schadens sollten begründet werden.
Formulierung und Graduierung von Empfehlungen
Kritische Bewertung von Primärstudien
Die kritische Bewertung von Primärstudien sollte ebenfalls kriteriengestützt erfolgen, in Abhängigkeit vom zugrunde liegenden Studiendesign. Auch dabei sollten neben methodischen Aspekten der Qualität - ebenso wie bei aggregierter Evidenz - weitere, klinisch relevante Aspekte berücksichtigt werden, wie z.B. die Direktheit der Anwendbarkeit in Bezug auf Charakteristik der Studienpopulationen, Interventionen oder Endpunkte.
Bestimmte Kriterien sollten bedarfsweise ergänzend bewertet werden, idealerweise gestützt auf die ausgearbeitete PICO(S)-Fragestellung z.B. Präzision der erzielten Effekte, die Länge von Nachbeobachtungszeiten oder die Angemessenheit der Vergleichsintervention.
Aufbereitung der bewerteten Evidenz
Die bewerteten Studien zu einer klinisch relevanten Fragestellung/einem Themenbereich werden anhand von Evidenztabellen zusammengefasst dargestellt. Dies dient der Transparenz, der besseren Einschätzung und Nachvollziehbarkeit und damit auch der Akzeptanz und Umsetzung der Empfehlungen.
In den Evidenztabellen sind zusätzlich wichtige Studiencharakteristika aufzunehmen. Alternativ zur Tabellenform können die Ergebnisse der kritischen Bewertung im Begleittext/Hintergrundtext beschrieben werden. In diesem Fall sollte das Ergebnis der Prüfung durch formale Instrumente bzw. die Strategien der Bewertung dokumentiert werden. Empfehlung(en) aus Quellleitlinie(n) sollten mit den angegebenen Evidenzgraden („Levels of Evidence“) und/oder Empfehlungsgraden („Grades of Recommendation“) und der in der Quellleitlinie zugrunde gelegten Literatur dargestellt werden.
Feststellung des Vertrauens in die Qualität der Evidenz - Vergabe von Evidenzgraden
Die Vergabe von Evidenzgraden erfolgt nach der kritischen Studienbewertung und dient der leichten Erfassung des Vertrauens in die Effektschätzer, die einer Empfehlung zugrunde liegen. Die Bewertung sollte bevorzugt für eine Fragestellung pro Endpunkt über alle Studien hinweg vorgenommen werden als Einschätzung der gesamten Evidenz zu einer Fragestellung (8, 9). Alternativ ist die Vergabe von Evidenzgraden für einzelne Studien möglich (10, 11).
AWMF-Regel für das Leitlinienregister: Klassifikation S2- und S3-Leitlinien (Auszug):
Handelt es sich um eine S2e- oder S3-Leitlinie
- wird die nach a priori festgelegten Kriterien recherchierte und ausgewählte Evidenz hinsichtlich ihrer methodischen Qualität kritisch bewertet und die Ergebnisse in einer Evidenz-Zusammenfassung dargelegt. Dies kann in Tabellenform mit Kommentaren zu Qualitätsaspekten oder durch die Anwendung von formalen Instrumenten oder Strategien (z.B. Cochrane Risk of Bias Tool, GRADE Methodik) erfolgen (s. AGREE II, Kriterium 8+9).
- führt das Ergebnis der Bewertung zur Feststellung des Vertrauens in die Qualität der Evidenz (Evidenzgrad“).
- sind die Empfehlungen mit der Beschreibung der zugrunde liegenden Evidenz in einem entsprechenden Abschnitt (Hintergrundtext) und/oder einer Evidenzzusammenfassung mit Referenzliste nachvollziehbar verknüpft (AGREE II, Kriterium 12).
Bezug zum AGREE II-Instrument
Domäne 3: Genauigkeit der Leitlinien-Entwicklung
Kriterium 9: Die Stärken und die Schwächen der Evidenz sind eindeutig beschrieben.
Kriterium 12: Die zugrunde liegende Evidenz kann den Empfehlungen eindeutig zugeordnet werden.
Hilfen und Tipps
Kritische Bewertung der Evidenz
Idealerweise führen methodisch und klinisch Erfahrene/Expert*innen in enger Absprache die Evidenzbewertung durch. Die Bewertung kann zentral oder von Arbeitsgruppenmitgliedern vorgenommen werden. Hilfreiche Hinweise für die Durchführung der kritischen Bewertung finden sich in den Manualen des Deutschen Cochrane Zentrums und des AWMF-IMWi (3, 12). Dort werden auch Tipps für digitale unterstützende Werkzeuge gegeben. Für die methodische Bewertung eignen sich folgende Checklisten/Instrumente:
- für systematischen Übersichtsarbeiten ohne und mit Metaanalysen: die AMSTAR (A MeaSurement Tool to Assess systematic Reviews) - Checkliste (13). Seit 2017 überarbeitet als AMSTAR-II Checkliste mit expliziter Berücksichtigung des Einschlusses von randomisierten, aber auch nicht-randomisierten Studien (14-16).
- für Leitlinien: das AGREE-II Instrument (6). Sind keine Ressourcen für eine ausführliche Bewertung vorhanden, kann die Bewertung auf Domäne 3 (Genauigkeit der Leitlinienentwicklung) und Domäne 6 (redaktionelle Unabhängigkeit) eingegrenzt werden. Bei Übernahme einzelner LL-Empfehlungen sollten für die Leitlinien-Nutzenden die Vertrauenswürdigkeit der Quellleitlinie durch Übernahme der Evidenz- und Empfehlungsgrade sowie der dort zitierten Studien ersichtlich sein sowie die Bewertung etwaiger zusätzlicher Literatur aufgrund von Aktualisierungsrecherchen (7, 17).
- für Primärstudien (abhängig vom Studiendesign): das Cochrane Risk of Bias Tool I oder II für randomisierte Studien, sowie das Instrument zur Bewertung von nicht-randomisierten Interventionsstudien (3, 12, 18-20). Checklisten mit Ausfüllhilfen stellt auch z.B. das Scottish Intercollegiates Guideline Network (SIGN) zur Verfügung (21).
Evidenzbewertungs- und -graduierungssysteme
Beim GRADE Ansatz wird die verfügbare Evidenz aus der Endpunkt- bzw. Outcome-Perspektive betrachtet (Bewertung der Gesamtheit der Studien als „body of evidence“ für jeden relevanten Endpunkt, s. Abb. 7 und 8. Die Gesamtheit der eingeschlossenen Studien zu einer Fragestellung wird nicht nur im Hinblick auf ihr Verzerrungsrisiko aufgrund des Studiendesigns bewertet, sondern auch in Bezug auf Indirektheit, Heterogenität bzw. mangelnde Präzision der Ergebnisse sowie Publikationsbias. Eine Aufwertung ist u.a. bei großem Effekt (z.B. Nutzen doppelt so hoch, Schaden halb so groß) möglich (9, 22-27).
Abbildung 7: Vierstufige Evidenzbewertung nach GRADE
Die Oxford-Klassifikation von 2011 beruht v.a. auf der formalen Bewertung des Studiendesigns einzelner Studien im Hinblick auf ihre interne Validität. Abwertungen z.B. bei hohem Verzerrungsrisiko oder Indirektheit sind ebenfalls möglich.
https://www.cebm.ox.ac.uk/resources/levels-of-evidence/ocebm-levels-of-evidence
In einer evidenzbasierten Leitlinie sollte nach Möglichkeit ein einheitliches Evidenzbewertungsschema verwendet werden. Bei Aktualisierungen kann die Entscheidung für die Verwendung eines neuen Schemas zur Evidenzbewertung getroffen werden. Nicht überarbeitete Teile können im bisherigen Schema verbleiben.
Bei der Auswahl ist ggf. auch zu berücksichtigen, ob in größerem Umfang vorhandene Leitlinien als Evidenzquellen herangezogen werden und welche Schemata dort verwendet werden. Die Entscheidung über die Bewertungskriterien und -klassifikation(en) sollte in der Leitliniengruppe getroffen und im Leitlinienreport dokumentiert werden.
Aufbereitung der bewerteten Evidenz
Neben der Information zur methodischen Qualität der eingeschlossenen Publikationen sind für die Nutzenden die wichtigsten klinischen Charakteristika und die Angabe der erzielten Effektstärken wichtig. G-I-N hat hierzu eine Musterevidenztabelle mit Minimalkriterien erstellt, die von den LL-Gruppen je nach Themengebiet und Anforderungen modifiziert werden kann (28) (siehe Tab. 3 und Anhang 16 “Musterevidenztabelle”). Für infektiologische Leitlinien sollten die Aspekte der Checkliste für Leitlinie mit infektiologischen Inhalten erfasst werden (siehe Checkliste für Leitlinien mit infektiologischen Inhalten).
Evidenzprofile nach GRADE bilden im Gegensatz dazu den Evidenzkörper nicht pro Studie, sondern pro Endpunkt ab (siehe Abbildung 8).
Bewertungen von Leitlinien können ebenfalls tabellarisch aufgeführt werden. Eine Aufarbeitung in Tabellenform ist nicht obligat.
Tabelle 3: Beispiel für eine Evidenztabelle mit Bewertung pro Studie
Abbildung 8: Beispiel für eine Bewertung pro Endpunkt über alle eingeschlossenen Studien (GRADE) (29)
Literatur
Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement 2009 PMC2707599]. http://www.prisma-statement.org/.[Zugriff: 01.04.2025]
McMaster University. G-I-N McMaster Guideline Development Checklist - 12. Judging Quality, Strength or Certainty of a Body of Evidence. macgrade.mcmaster.ca/resources/gin-mcmaster-guideline-development-checklist/gin-mcmaster-guideline-development-checklist/ [Zugriff: 01.04.2025]
Cochrane Deutschland, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften - Institut für Medizinisches Wissensmanagement. Bewertung des Verzerrungsrisikos von systematischen Übersichtsarbeiten: ein Manual für die Leitlinienerstellung. 1. Auflage. 2017.
GRADE-Arbeitsgruppe https://www.gradeworkinggroup.org/ [Zugriff: 21.05.2025]
Kunz R, Burnand B, Schünemann HJ. [The GRADE System. An international approach to standardize the graduation of evidence and recommendations in guidelines]. Der Internist. 2008;49(6):673-80.
AGREE Collaboration. Appraisal of Guidelines for Research & Evaluation II - AGREE II Instrument - Deutsche Version: AGREE NEXT STEPS Consortium; 2014. https://www.agreetrust.org/wp-content/uploads/2014/03/AGREE_II_German-Version.pdf [Zugriff: 31.03.2025].
Schünemann HJ, Wiercioch W, Brozek J, Etxeandia-Ikobaltzeta I, Mustafa RA, Manja V, et al. GRADE Evidence to Decision (EtD) frameworks for adoption, adaptation, and de novo development of trustworthy recommendations: GRADE-ADOLOPMENT. J Clin Epidemiol. 2017;81:101-10. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt G, Oxman A, Akl E, Kunz R, Vist G, Brozek J, et al. GRADE guidelines: 1. Introduction - GRADE evidence profiles and summary of findings tables. Journal of Clinical Epidemiology. 2011;64:383-94. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Balshem H, Helfand M, Schnemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. Journal of Clinical Epidemiology. 2011;64:401-6. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Howick J. Explanation of the 2011 Oxford Centre for Evidence-Based Medicine (OCEBM) Levels of Evidence (Background Document) 2011. https://www.cebm.net/2016/05/ocebm-levels-of-evidence/ [Zugriff: 31.03.2025].
Marx RG, Wilson SM, Swiontkowski MF. Updating the assignment of levels of evidence. J Bone Joint Surg Am. 2015;97(1):1-2.
Cochrane Deutschland, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften - Institut für Medizinisches Wissensmanagement. Bewertung des Biasrisikos (Risiko systematischer Fehler) in klinischen Studien: ein Manual für die Leitlinienerstellung 1. Auflage. 2016.
AMSTAR II. https://amstar.ca/Amstar-2.php [Zugriff: 31.03.2025].
Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, et al. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol. 2009;62(10):1013-20.
Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7:10.
Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, Moran J, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ (Clinical research ed). 2017;358:j4008.
Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF), Ärztliches Zentrum für Qualität in der Medizin (ÄZQ). Deutsches Instrument zur methodischen Leitlinien-Bewertung (DELBI). Fassung 2005/2006 + Domäne 8 - Kriterien 30 - 34 (2008).
Cochrane - Methodological resources and training https://methods.cochrane.org/resources-list [Zugriff: 31.03.2025].
Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. The Cochrane Collaboration's tool for assessing risk of bias in randomised trials. BMJ (Clinical research ed). 2011;343:d5928.
Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ (Clinical research ed). 2019;366:l4898.
Scottish Intercollegiate Guideline Network (SIGN) https://www.sign.ac.uk/what-we-do/methodology/checklists/ [Zugriff: 31.03.2025].
Guyatt G, Oxman AD, Vist G, Kunz R, Brozek J, Alonso-Coello P, et al. GRADE guidelines: 4. Rating the quality of evidence - study limitations (risk of bias). Journal of Clinical Epidemiology. 2011;64:407-15. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence--publication bias. J Clin Epidemiol. 2011;64(12):1277-82. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence--imprecision. J Clin Epidemiol. 2011;64(12):1283-93. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence--inconsistency. J Clin Epidemiol. 2011;64(12):1294-302. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence--indirectness. J Clin Epidemiol. 2011;64(12):1303-10. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol. 2011;64(12):1311-6. Siehe auch: https://book.gradepro.org/ [Zugriff: 21.05.2025]
Mlika-Cabanne N, Harbour R, De Beer H, Laurence M, Cook R, Twaddle S. Sharing hard labour: Developing a standard template for data summaries in guideline development. BMJ quality & safety. 2011;20:141-5.
Guyatt G, Zeng L, Brignardello-Petersen R, Prasad M, De Beer H, Murad MH, et al. Core GRADE 2: choosing the target of certainty rating and assessing imprecision. BMJ (Clinical research ed). 2025;389:e081904.
Guyatt G, Yao L, Murad MH, Hultcrantz M, Agoritsas T, De Beer H, et al. Core GRADE 6: presenting the evidence in summary of findings tables. BMJ (Clinical research ed). 2025;389:e083866.
Guyatt G, Wang Y, Eachempati P, Iorio A, Murad MH, Hultcrantz M, et al. Core GRADE 4: rating certainty of evidence-risk of bias, publication bias, and reasons for rating up certainty. BMJ (Clinical research ed). 2025;389:e083864.
Guyatt G, Schandelmaier S, Brignardello-Petersen R, De Beer H, Prasad M, Murad MH, et al. Core GRADE 3: rating certainty of evidence-assessing inconsistency. BMJ (Clinical research ed). 2025;389:e081905.
Guyatt G, Iorio A, De Beer H, Owen A, Agoritsas T, Murad MH, et al. Core GRADE 5: rating certainty of evidence-assessing indirectness. BMJ (Clinical research ed). 2025;389:e083865.