Auswahl und Kritische Bewertung der Evidenz

Auswahl der Evidenz

Mit Hilfe von im Vorfeld festgelegten Ein- und Ausschlusskriterien werden die gefundenen Rechercheergebnisse aus der jeweiligen Datenquelle durchgesehen und die für die Leitlinie relevanten Arbeiten herausgefiltert. Die Selektion erfolgt klassischerweise in zwei Schritten und im besten Fall von zwei unabhängigen Personen (klinisch und methodisch Erfahrene):

  1. nach Titel und Abstract (potenziell relevante Treffer)
  2. nach Volltext (nach Prüfung finaler Ein- oder Ausschluss)

AWMF-Regel für das Leitlinienregister: Klassifikation S2- und S3-Leitlinien (Auszug):

Handelt es sich um eine S2e- oder S3-Leitlinie werden die Auswahlkriterien für die Evidenz explizit dargelegt. Dabei werden Gründe für den Einschluss (z.B. Zielpopulation, Vergleiche, Endpunkte, Sprache, Kontext, Studiendesign) und für den Ausschluss dargelegt (s. AGREE II, Kriterium 8).

Bezug zum AGREE II-Instrument

Domäne 3: Genauigkeit der Leitlinien-Entwicklung

Kriterium 8: Die Kriterien für die Auswahl der Evidenz sind eindeutig beschrieben.

Hilfen und Tipps

Zu den Ein- und Ausschlusskriterien können u.a. zählen:

  • Alter, Geschlecht, Krankheitsstatus oder Komorbiditäten
  • Intervention/Vergleichsgruppe
  • Nachbeobachtungszeit/Setting
  • Studien- oder Publikationstyp
  • Sprache

Die Ausschlussgründe können auch auf Titel/Abstract-Ebene zusammenfassend dargelegt werden. Ausschlussgründe für geprüfte Volltexte sollten pro Publikation erfasst werden (s. Abb. 6). Kongressbeiträge (z.B. Abstracts) sollten in der Regel nicht als Evidenzgrundlage akzeptiert werden.

Steuern Leitliniengruppenmitglieder zusätzliche Literatur bei, sollte auch dies angegeben werden. Für die Dokumentation des Auswahlprozesses hat sich das PRISMA-Flowchart bewährt (1).
Die Speicherung der Literatur ab dem Schritt der Volltextsichtung in einem Literaturverwaltungsprogramm, das für die gesamte Leitliniengruppe zugänglich ist, wird empfohlen.

Wichtig: Auch den Auswahlprozess bei der Dokumentation der Suche aufführen!

Abbildung 6: Beispiel-Dokumentation einer Recherche

Suche in Datenbanken

Kritische Bewertung der Evidenz

Die für die Leitlinie als relevant eingeschlossene Evidenz sollte strukturiert nach vorgegebenen Qualitätskriterien bewertet werden (2). Die kritische Bewertung beinhaltet die Beurteilung der internen Validität der Evidenz (Bewertung systematischer Fehler bzw. des Verzerrungsrisikos (Bias)) sowie weiterer Aspekte, die zu einer Einschätzung der Vertrauenswürdigkeit bzw. Aussagesicherheit und Anwendbarkeit der Evidenz notwendig sind.

Kritische Bewertung von systematischen Übersichtsarbeiten/Metaanalysen

Für systematische Übersichtsarbeiten ohne oder mit Metaanalysen wird im ersten Schritt zu einer Bewertung der Durchführungsqualität geraten (u.a. mit den Fragen: Erfolgte eine umfassende und gute dokumentierte Suche nach geeigneten Studien? Ist das Zusammenfassen der Studienergebnisse mittels Metaanalyse adäquat?). Der Einsatz einer Checkliste wird empfohlen.

Davon zu trennen ist die Bewertung der Aussagesicherheit der Studien, die in den systematischen Übersichtsarbeiten (ohne oder mit Metaanalysen) eingeschlossen sind. Dabei sollten neben der formalen Bewertung des Verzerrungsrisikos auch Aspekte, wie z.B. die Direktheit der Studien in Bezug auf Charakteristika der Studienpopulationen, Interventionen oder Endpunkten, die Konsistenz bzw. Heterogenität sowie die Präzision der Ergebnisse beurteilt werden.

Abschließend wird die Qualität der Evidenz nach einem Klassifikationsschema zusammenfassend angegeben (Evidenzgrad, Level of Evidence, bzw. Qualität der Gesamtheit der Evidenz pro Endpunkt (3-5), siehe Vergabe von Evidenzgraden).

Kritische Bewertung von Leitlinien

Für die Nutzung als Evidenzgrundlage sollten auch Leitlinien in Bezug auf ihre methodische Qualität strukturiert bewertet werden (6). Als methodisch gut bewertete und thematisch geeignete Leitlinien können für die eigene Leitlinienarbeit in unterschiedlicher Weise genutzt werden:

  • zur Übernahme (Adoption) bzw. Adaptation von LL-Empfehlungen aus einer oder mehreren Quell-Leitlinie(n)
  • als Quelle aufgearbeiteter Evidenz (z.B. Evidenztabellen)
  • als Hintergrundinformation und Feststellung des Bedarfs eigener Recherchen

Werden bestehende Leitlinien als Quelle für eigene Leitlinienempfehlungen herangezogen, sollte über die Bewertung der methodischen Gesamtqualität hinaus die Beurteilung der einzelnen Empfehlungen erfolgen. Dazu gehören die Einschätzung der Angemessenheit der in Quellleitlinie(n) angegebenen Evidenzklassen und Empfehlungsgrade und der den Empfehlungen zugrunde gelegter Literatur, der Aktualität sowie der Anwendbarkeit im deutschen Gesundheitssystem (7). Bei Bedarf sollten entsprechende Aktualisierungs- recherchen durchgeführt werden.

Änderungen der Empfehlungen, z.B. aufgrund neuer Evidenz oder aufgrund einer abweichenden Einschätzung der LL-Gruppe hinsichtlich des Nutzens/des Schadens sollten begründet werden. 

Formulierung und Graduierung von Empfehlungen

Kritische Bewertung von Primärstudien

Die kritische Bewertung von Primärstudien sollte ebenfalls kriteriengestützt erfolgen, in Abhängigkeit vom zugrunde liegenden Studiendesign. Auch dabei sollten neben methodischen Aspekten der Qualität - ebenso wie bei aggregierter Evidenz - weitere, klinisch relevante Aspekte berücksichtigt werden, wie z.B. die Direktheit der Anwendbarkeit in Bezug auf Charakteristik der Studienpopulationen, Interventionen oder Endpunkte.

Bestimmte Kriterien sollten bedarfsweise ergänzend bewertet werden, idealerweise gestützt auf die ausgearbeitete PICO(S)-Fragestellung z.B. Präzision der erzielten Effekte, die Länge von Nachbeobachtungszeiten oder die Angemessenheit der Vergleichsintervention.

Aufbereitung der bewerteten Evidenz

Die bewerteten Studien zu einer klinisch relevanten Fragestellung/einem Themenbereich werden anhand von Evidenztabellen zusammengefasst dargestellt. Dies dient der Transparenz, der besseren Einschätzung und Nachvollziehbarkeit und damit auch der Akzeptanz und Umsetzung der Empfehlungen.

Alternativ zur Tabellenform können die Ergebnisse der kritischen Bewertung im Begleittext/Hintergrundtext beschrieben werden. In diesem Fall sollte das Ergebnis der Prüfung durch formale Instrumente bzw. die Strategien der Bewertung dokumentiert werden. Empfehlung(en) aus Quellleitlinie(n) sollten mit den angegebenen Evidenzgraden („Levels of Evidence“) und/oder Empfehlungsgraden („Grades of Recommendation“) und der in der Quellleitlinie zugrunde gelegten Literatur dargestellt werden.

Feststellung des Vertrauens in die Qualität der Evidenz - Vergabe von Evidenzgraden

Die Vergabe von Evidenzgraden erfolgt nach der kritischen Studienbewertung und dient der leichten Erfassung des Vertrauens in die Effektschätzer, die einer Empfehlung zugrunde liegen. Die Bewertung sollte bevorzugt für eine Fragestellung pro Endpunkt über alle Studien hinweg vorgenommen werden als Einschätzung der gesamten Evidenz zu einer Fragestellung (8, 9). Alternativ ist die Vergabe von Evidenzgraden für einzelne Studien möglich (10, 11).

AWMF-Regel für das Leitlinienregister: Klassifikation S2- und S3-Leitlinien (Auszug):

Handelt es sich um eine S2e- oder S3-Leitlinie

  • wird die nach a priori festgelegten Kriterien recherchierte und ausgewählte Evidenz hinsichtlich ihrer methodischen Qualität kritisch bewertet und die Ergebnisse in einer Evidenz-Zusammenfassung dargelegt. Dies kann in Tabellenform mit Kommentaren zu Qualitätsaspekten oder durch die Anwendung von formalen Instrumenten oder Strategien (z.B. Cochrane Risk of Bias Tool, GRADE Methodik) erfolgen (s. AGREE II, Kriterium 8+9).
  • führt das Ergebnis der Bewertung zur Feststellung des Vertrauens in die Qualität der Evidenz (Evidenzgrad“).
  • sind die Empfehlungen mit der Beschreibung der zugrunde liegenden Evidenz in einem entsprechenden Abschnitt (Hintergrundtext) und/oder einer Evidenzzusammenfassung mit Referenzliste nachvollziehbar verknüpft (AGREE II, Kriterium 12).

Bezug zum AGREE II-Instrument

Domäne 3: Genauigkeit der Leitlinien-Entwicklung

Kriterium 9: Die Stärken und die Schwächen der Evidenz sind eindeutig beschrieben.

Kriterium 12: Die zugrunde liegende Evidenz kann den Empfehlungen eindeutig zugeordnet werden.

Hilfen und Tipps

Kritische Bewertung der Evidenz

Idealerweise führen methodisch und klinisch Erfahrene/Expert*innen in enger Absprache die Evidenzbewertung durch. Die Bewertung kann zentral oder von Arbeitsgruppenmitgliedern vorgenommen werden. Hilfreiche Hinweise für die Durchführung der kritischen Bewertung finden sich in den Manualen des Deutschen Cochrane Zentrums und des AWMF-IMWi (3, 12). Für die methodische Bewertung eignen sich folgende Checklisten/Instrumente:

  • für systematischen Übersichtsarbeiten ohne und mit Metaanalysen: die AMSTAR (A MeaSurement Tool to Assess systematic Reviews) - Checkliste (13). Seit 2017 überarbeitet als AMSTAR-II Checkliste mit expliziter Berücksichtigung des Einschlusses von randomisierten, aber auch nicht-randomisierten Studien (14-16).
  • für Leitlinien: das AGREE-II Instrument (6). Sind keine Ressourcen für eine ausführliche Bewertung vorhanden, kann die Bewertung auf Domäne 3 (Genauigkeit der Leitlinienentwicklung) und Domäne 6 (redaktionelle Unabhängigkeit) eingegrenzt werden. Bei Übernahme einzelner LL-Empfehlungen sollten für die Leitlinien-Nutzenden die Vertrauenswürdigkeit der Quellleitlinie durch Übernahme der Evidenz- und Empfehlungsgrade sowie der dort zitierten Studien ersichtlich sein sowie die Bewertung etwaiger zusätzlicher Literatur aufgrund von Aktualisierungsrecherchen (7, 17).
  • für Primärstudien (abhängig vom Studiendesign): das Cochrane Risk of Bias Tool I oder II für randomisierte Studien, sowie das Instrument zur Bewertung von nicht-randomisierten Interventionsstudien (3, 12, 18-20). Checklisten mit Ausfüllhilfen stellt auch z.B. das Scottish Intercollegiates Guideline Network (SIGN) zur Verfügung (21).

Evidenzbewertungs- und -graduierungssysteme

www.gradeworkinggroup.org/

Beim GRADE Ansatz wird die verfügbare Evidenz aus der Endpunkt- bzw. Outcome-Perspektive betrachtet (Bewertung der Gesamtheit der Studien als „body of evidence“ für jeden relevanten Endpunkt, s. Abb. 7 und 8. Die Gesamtheit der eingeschlossenen Studien zu einer Fragestellung wird nicht nur im Hinblick auf ihr Verzerrungsrisiko aufgrund des Studiendesigns bewertet, sondern auch in Bezug auf Indirektheit, Heterogenität bzw. mangelnde Präzision der Ergebnisse sowie Publikationsbias. Eine Aufwertung ist u.a. bei großem Effekt möglich (9, 22-27).

Abbildung 7: Vierstufige Evidenzbewertung nach GRADE

Bedeutung der vier Stufen von Evidenz

Die Oxford-Klassifikation von 2011 beruht v.a. auf der formalen Bewertung des Studiendesigns einzelner Studien im Hinblick auf ihre interne Validität. Abwertungen z.B. bei hohem Verzerrungsrisiko oder Indirektheit sind ebenfalls möglich.

https://www.cebm.ox.ac.uk/resources/levels-of-evidence/ocebm-levels-of-evidence

In einer evidenzbasierten Leitlinie sollte nach Möglichkeit ein einheitliches Evidenzbewertungsschema verwendet werden. Bei Aktualisierungen kann die Entscheidung für die Verwendung eines neuen Schemas zur Evidenzbewertung getroffen werden. Nicht überarbeitete Teile können im bisherigen Schema verbleiben.

Bei der Auswahl ist ggf. auch zu berücksichtigen, ob in größerem Umfang vorhandene Leitlinien als Evidenzquellen herangezogen werden und welche Schemata dort verwendet werden. Die Entscheidung über die Bewertungskriterien und -klassifikation(en) sollte in der Leitliniengruppe getroffen und im Leitlinienreport dokumentiert werden.

Aufbereitung der bewerteten Evidenz

Neben der Information zur methodischen Qualität der eingeschlossenen Publikationen sind für die Nutzenden die wichtigsten klinischen Charakteristika und die Angabe der erzielten Effektstärken wichtig. G-I-N hat hierzu eine Musterevidenztabelle mit Minimalkriterien erstellt, die von den LL-Gruppen je nach Themengebiet und Anforderungen modifiziert werden kann (28) (siehe Tab. 2 und Anhang 7).

Evidenzprofile nach GRADE bilden im Gegensatz dazu den Evidenzkörper nicht pro Studie, sondern pro Endpunkt ab (siehe Abbildung 8).

Bewertungen von Leitlinien können ebenfalls tabellarisch aufgeführt werden.

Tabelle 3: Beispiel für eine Evidenztabelle mit Bewertung pro Studie

Abbildung 8: Beispiel für eine Bewertung pro Endpunkt über alle eingeschlossenen Studien (GRADE) (29)

Literatur

  1. Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta- analyses: the PRISMA statement 2009 PMC2707599]. Verfügbar: http://www.prisma- statement.org/statement.htm (Zugriff 08.05.2023)
  2. McMaster University. G-I-N McMaster Guideline Development Checklist - 12. Judging Quality, Strength or Certainty of a Body of Evidence. Verfügbar: https://cebgrade.mcmaster.ca/guidelinechecklistonline.html#Judgingtable (Zugriff 08.05.2023)
  3. Cochrane Deutschland, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften - Institut für Medizinisches Wissensmanagement. Bewertung des Verzerrungsrisikos von systematischen Übersichtsarbeiten: ein Manual für die Leitlinienerstellung. 1. Auflage. 2017.
  4. GRADE-Working Group. Verfügbar: gradeworkinggroup.org (Zugriff 08.05.2023)
  5. Kunz R, Burnand B, Schünemann HJ. [The GRADE System. An international approach to standardize the graduation of evidence and recommendations in guidelines]. Der Internist. 2008;49(6):673-80.
  6. AGREE Collaboration. Appraisal of Guidelines for Research & Evaluation II - AGREE II Instrument - Deutsche Version: AGREE NEXT STEPS Consortium; 2014. Hier als PDF-Datei verfügbar (Zugriff 08.05.2023)
  7. Schünemann HJ, Wiercioch W, Brozek J, Etxeandia-Ikobaltzeta I, Mustafa RA, Manja V, et al. GRADE Evidence to Decision (EtD) frameworks for adoption, adaptation, and de novo development of trustworthy recommendations: GRADE-ADOLOPMENT. J Clin Epidemiol. 2017;81:101-10.
  8. Guyatt G, Oxman A, Akl E, Kunz R, Vist G, Brozek J, et al. GRADE guidelines: 1. Introduction - GRADE evidence profiles and summary of findings tables. J Clin Epidemiol. 2011;64:383-94.
  9. Balshem H, Helfand M, Schnemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64:401-6.
  10. Howick J. Explanation of the 2011 Oxford Centre for Evidence-Based Medicine (OCEBM) Levels of Evidence (Background Document) 2011. Verfügbar: https://www.cebm.net/2016/05/ocebm-levels-of-evidence/ (Zugriff 08.05.2023)
  11. Marx RG, Wilson SM, Swiontkowski MF. Updating the assignment of levels of evidence. J Bone Joint Surg Am. 2015;97(1):1-2.
  12. Cochrane Deutschland, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften - Institut für Medizinisches Wissensmanagement. Bewertung des Biasrisikos (Risiko systematischer Fehler) in klinischen Studien: ein Manual für die Leitlinienerstellung 1. Auflage. 2016.
  13. AMSTAR II. Verfügbar: https://amstar.ca/Amstar-2.php (Zugriff 08.05.2023)
  14. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, et al. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol. 2009;62(10):1013-20.
  15. Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7:10.
  16. Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, Moran J, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017 Sep 21;358:j4008.
  17. Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF), Ärztliches Zentrum für Qualität in der Medizin (ÄZQ). Deutsches Instrument zur methodischen Leitlinien-Bewertung (DELBI). Fassung 2005/2006 + Domäne 8 - Kriterien 30 - 34 (2008). Verfügbar: https://www.leitlinien.de/mdb/edocs/pdf/literatur/delbi-fassung-2005-2006-domaene-8-2008.pdf (Zugriff 08.05.2023)
  18. Cochrane - Methodological resources and training Verfügbar: https://methods.cochrane.org/resources-list (Zugriff 08.05.2023)
  19. Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. The Cochrane Collaboration's tool for assessing risk of bias in randomised trials. BMJ. 2011 Oct 18;343:d5928.
  20. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ. 2019 Aug 28;366:l4898.
  21. Scottish Intercollegiate Guideline Network (SIGN) Verfügbar: https://www.sign.ac.uk/what-we- do/methodology/checklists/ (Zugriff 08.05.2023)
  22. Guyatt G, Oxman AD, Vist G, Kunz R, Brozek J, Alonso-Coello P, et al. GRADE guidelines: 4. Rating the quality of evidence - study limitations (risk of bias). J Clin Epidemiol. 2011;64:407-15.
  23. Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence--publication bias. J Clin Epidemiol. 2011;64(12):1277-82.
  24. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence--imprecision. J Clin Epidemiol. 2011;64(12):1283-93.
  25. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence--inconsistency. J Clin Epidemiol. 2011;64(12):1294-302.
  26. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence--indirectness. J Clin Epidemiol. 2011;64(12):1303-10.
  27. Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol. 2011;64(12):1311-6.
  28. Mlika-Cabanne N, Harbour R, De Beer H, Laurence M, Cook R, Twaddle S. Guidelines International Network (GIN) Working Group on Evidence Tables. Sharing hard labour: developing a standard template for data summaries in guideline development. BMJ Qual Saf. 2011 Feb;20:141-5.
  29. Kahale LA, Hakoum MB, Tsolakian IG, Matar CF, Barba M, Yosuico VED, et al. Oral anticoagulation in people with cancer who have no therapeutic or prophylactic indication for anticoagulation. The Cochrane database of systematic reviews. 2017;12(12):Cd006466.

Weiter zu Formulierung und Graduierung von Empfehlungen