Schwachstellen von ChatGPT Health: Gefahren bei medizinischen Notfällen und Suizidprävention

Einführung

Im Januar 2026 hat OpenAI den Service ChatGPT Health ins Leben gerufen, der als erste digitale Anlaufstelle für Gesundheitsfragen konzipiert ist. Ein entscheidender Aspekt für den erfolgreichen Einsatz solcher KI-Systeme ist die korrekte Einschätzung der Schwere und Dringlichkeit medizinischer Probleme.

Studie zur Verlässlichkeit von ChatGPT Health

Eine aktuelle Studie, veröffentlicht im Fachjournal Nature Medicine, hat die Verlässlichkeit und Sicherheit der KI-basierten Triage von ChatGPT Health systematisch untersucht. Die Forscher erstellten dafür 60 detaillierte klinische Fallbeispiele aus 21 verschiedenen Fachbereichen. Diese Fälle wurden methodisch variiert, indem Merkmale wie Geschlecht und Hautfarbe der fiktiven Patienten sowie unterschiedliche psychologische Faktoren, wie die verharmlosende Aussage eines Angehörigen, einbezogen wurden.

ChatGPT in der Schule - Was Lehrkräfte wissen sollten ...

Methodik der Untersuchung

Insgesamt wurden 960 Anfragen an ChatGPT Health gestellt.
Die Triage-Empfehlungen der KI wurden mit den unabhängigen Einschätzungen eines ärztlichen Expertenteams verglichen, das auf etablierten klinischen Leitlinien basierte.

Ergebnisse der Studie

Die Auswertung der Daten ergab ein gemischtes Bild. Während die Empfehlungen der KI bei medizinischen Alltagsproblemen mittlerer Schwere in der Regel mit denen der Ärztinnen und Ärzte übereinstimmten, sank die Leistung in Grenzfällen erheblich.

Auch Lesen US-Impfstoffhersteller vor Herausforderungen: RFK setzt sich für schwächere Impfmandate ein

Unter-Triage und Über-Triage

Die Studie identifizierte zwei bedeutende Fehlerarten:

Unter-Triage (Verpasste Notfälle): In 51,6 Prozent der echten medizinischen Notfälle bewertete die KI die Situation als zu harmlos. Beispielsweise empfahl das System bei Patienten mit einer schweren diabetischen Entgleisung (Ketoazidose) oder einem akuten Asthma-Anfall, innerhalb der nächsten 24 bis 48 Stunden einen Arzt aufzusuchen, anstatt sofort in die Notaufnahme zu gehen.
Über-Triage: Bei fast 65 Prozent der Fälle, die laut klinischen Leitlinien problemlos zu Hause beobachtet werden könnten, stufte die KI die Beschwerden als behandlungsbedürftig ein und riet zu einem Arztbesuch.

Folgen der fehlerhaften Einschätzungen

Beide Arten von Fehlern sind problematisch, insbesondere die Unter-Triage, da sie gefährlich sein kann, wenn Patienten zu spät die notwendige medizinische Hilfe erhalten. Im Gegensatz dazu zeigte ChatGPT Health bei Routinefällen, die weder dringend noch harmlos waren, eine gute Leistung und stimmte in 93 Prozent der Fälle mit der ärztlichen Empfehlung überein.

Einfluss psychologischer Faktoren

Die Studie untersuchte auch, inwieweit psychologische Effekte die KI-basierte Ersteinschätzung beeinflussen. Es wurde festgestellt, dass ChatGPT Health anfällig für den sogenannten Anchoring Bias (Ankereffekt) ist. Wenn in einem medizinischen Grenzfall beiläufig erwähnt wurde, dass Freunde die Symptome als nicht besorgniserregend einstufen, beeinflusste dies oft die Einschätzung der KI, die dadurch eine weniger dringliche Empfehlung abgab (Odds Ratio von 11,7).

Auch Lesen Bewegungsmangel unter Jugendlichen: Deutschland im globalen Vergleich

Umgang mit psychischen Notlagen

Ein weiterer Schwerpunkt der Untersuchung war der Umgang der KI mit psychischen Notlagen. ChatGPT Health verfügt über einen Schutzmechanismus, der bei Suizidgedanken ein Warnbanner mit dem Hinweis „Hilfe ist verfügbar“ und einem Verweis auf Krisenhotlines anzeigt. Die Studie zeigte jedoch, dass dieser Mechanismus in bestimmten Situationen versagte.

Bei vagen, passiven Äußerungen zu Suizidgedanken funktionierte der Schutzmechanismus zuverlässig.
Äußerte ein fiktiver Patient jedoch einen konkreten Suizidplan, blieb das Warnbanner oft aus, da sich das System stark auf die körperlichen Parameter konzentrierte.

Empfehlungen für den zukünftigen Einsatz von KI im Gesundheitswesen

Die Autoren der Studie ziehen aus ihren Ergebnissen wichtige Empfehlungen für den künftigen Einsatz von KI im Gesundheitsmarkt. Obwohl Anbieter wie OpenAI rechtliche Hinweise geben, dass ihre Systeme keine ärztliche Diagnose ersetzen, ist es wahrscheinlich, dass viele Menschen einen Arztbesuch vermeiden, wenn ihnen die KI versichert, es bestehe kein ernsthaftes Problem.

Auch Lesen Optimismus für den Gesundheitssektor: Dr. Erin Xie von BlackRock über die Zukunft der Health Care-Aktien

Die Wissenschaftler fordern daher, dass KI-Systeme, die als erster Kontaktpunkt für medizinische Einschätzungen genutzt werden, strengeren Prüfungen unterzogen werden sollten. Sie schlagen vor, dass patientengerichtete KI-Tools im Gesundheitsbereich vor ihrer breiten Veröffentlichung ähnliche externe Sicherheits- und Zulassungsprüfungen durchlaufen sollten wie klassische Medizinprodukte, um den Patientenschutz zuverlässig zu gewährleisten.

Fazit

Die Studie zu ChatGPT Health wirft bedeutende Fragen zur Verlässlichkeit von KI-gestützten Gesundheitsdiensten auf, insbesondere in kritischen medizinischen Situationen. Die Ergebnisse verdeutlichen die Notwendigkeit strengerer Regulierungen und Prüfungen, um die Sicherheit und das Wohl der Patienten zu gewährleisten.