Propensity Score Matching

Auf der Gulaschprogrammiernacht 2019 traf Sebastian auf den Podcaster Data Science Phil Philipp Packmohr @PPackmohr. Sein Interesse zur Data Science entstand während seines Studiums in den Life Sciences an der Hochschule Furtwangen in den Bereichen der molekularen und technischen Medizin und zu Medical Diagnostic Technologies. In seiner Masterarbeit hat er sich betreut von Prof. Dr. Matthias Kohl mit der statistischen Aufbereitung von Beobachtungsstudien befasst, genauer mit der kausalen Inferenz aus Observationsdaten mit Propensity Score Matching Algorithmen.

Kausale Inferenz, das Schließen von Beobachtungen auf kausale Zusammenhänge, ist tatsächlich sehr wichtig in allen empirischen Wissenschaften wie zum Beispiel der Ökonomie, der Psychologie, der Politologie, der Soziologie und auch der Medizin.

Idealerweise sollten Studien in der Form von randomisierten kontrollierten Studien durchgeführt werden, da nur so eine bewusste oder unbewusste Einflussnahme auf den Ergebnisse verhindert werden kann. Beispielsweise leiden Evaluationen an Hochschulen am Ende von Vorlesungen oder Studiengängen oft unter einem Survivorship Bias, da nur noch die Personen befragt werden, die bis zum Ende durchgehalten haben.

Doch werden nicht alle Studien aufgrund von verschiedenen Gründen (wie zum Beispiel der hohen Kosten) randomisiert durchgeführt, und so war es auch bei dem für seine Arbeit zentralen Observationsdatensatz von Prof. Dr. Konrad Reinhart an der Klinik für Intensivmedizin vom Universitätsklinikum Jena zu Therapien zur Vermeidung von akutem Nierenversagen.

Der Datensatz behandelte 21757 Patienten mit soziodemographischen und biologischen Merkmalen aus der elektronischen Gesundheitsakte mit bis zu 209 Variablen, sowie der gewählten Therapie und ob es zu Nierenversagen kam oder nicht. Die Variablen werden bei der Untersuchung als Confounder, Störfaktoren oder Kovariate benannt, die nicht als ursächlich für den Therapieverlauf gesehen werden, aber diesen sowohl beeinflussen können. In einer nicht-randomisierten Studie werden die Confounder nicht gleichmäßig über die Therapiearten verteilt sein, und damit die zusammengefassten Ergebnisse unerwünscht verfälschen. Eine Aufbereitung anhand der Confounder kann aber nie eine völlig randomisierte Studie ersetzen, da in den Daten nicht auftretende Confounder, wie bespielsweise dem athletischen Status, nicht berücksichtigt werden können.

Im Propensity Score Matching werden nun die Erfolgsquoten von Therapien vereinfacht gesagt als durch einen Score gewichtete Erfolgsquote unter Berücksichtigung der aufgetretenen Häufigkeiten der Confounder zur erwarteten Häufigkeit der Confounder berechnet. Problematisch ist dabei der Umgang mit fehlenden Datenwerten, da nur ein Bruchteil der Datensätze wirklich alle Variablen definiert. Hier mussten sinnvolle Datenergänzungsverfahren eingesetzt werden.

Die Auswertung erfolgte mit dem kostenlosen Open Source Projekt R (Plattform für statistische Berechnungen), das eine Vielzahl Verfahren und Algorithmen zur Verfügung stellt. Die im Laufe der Arbeit entwickelten Verfahren finden sich im Github Repository zu den Analyseverfahren.


Die Analyse des Observationsdatensatz ergab nun Risikoraten von 15.6% bis 11.5% für Nierenversagen. Dies muss aber nicht bedeuten, dass die eine Therapie immer der anderen Therapie vorzuziehen ist, da viele Kriterien für die Wahl einer Therapie einbezogen werden müssen. In der personalisierte oder prädiktiven Medizin wird versucht, an Hand von Observationsanalysen sogar weitergehende Therapiehinweise in Abhängigkeit von Confoundern der einzelnen Patienten zu geben.

Den Anstoß für den Data Science Phil Podcast fand Philipp in einem Aufruf vom YouTuber Martin Jung. Im englisch-sprachigen Podcast geht es um grundlegende Verfahren der Data Science, aber auch um weiterführende Themen, die er auf Konferenzen mit Gästen diskutiert.


Literatur und weiterführende Informationen


Podcasts





GPN19 Special


GPN18 Special


GPN17 Special


GPN16 Special