Schwachstellen von ChatGPT Health: Gefahren bei medizinischen Notfällen und Suizidprävention

Einführung
Im Januar 2026 hat OpenAI den Service ChatGPT Health ins Leben gerufen, der als erste digitale Anlaufstelle für Gesundheitsfragen konzipiert ist. Ein entscheidender Aspekt für den erfolgreichen Einsatz solcher KI-Systeme ist die korrekte Einschätzung der Schwere und Dringlichkeit medizinischer Probleme.
Studie zur Verlässlichkeit von ChatGPT Health
Eine aktuelle Studie, veröffentlicht im Fachjournal Nature Medicine, hat die Verlässlichkeit und Sicherheit der KI-basierten Triage von ChatGPT Health systematisch untersucht. Die Forscher erstellten dafür 60 detaillierte klinische Fallbeispiele aus 21 verschiedenen Fachbereichen. Diese Fälle wurden methodisch variiert, indem Merkmale wie Geschlecht und Hautfarbe der fiktiven Patienten sowie unterschiedliche psychologische Faktoren, wie die verharmlosende Aussage eines Angehörigen, einbezogen wurden.

Methodik der Untersuchung
- Insgesamt wurden 960 Anfragen an ChatGPT Health gestellt.
- Die Triage-Empfehlungen der KI wurden mit den unabhängigen Einschätzungen eines ärztlichen Expertenteams verglichen, das auf etablierten klinischen Leitlinien basierte.
Ergebnisse der Studie
Die Auswertung der Daten ergab ein gemischtes Bild. Während die Empfehlungen der KI bei medizinischen Alltagsproblemen mittlerer Schwere in der Regel mit denen der Ärztinnen und Ärzte übereinstimmten, sank die Leistung in Grenzfällen erheblich.
Unter-Triage und Über-Triage
Die Studie identifizierte zwei bedeutende Fehlerarten:
- Unter-Triage (Verpasste Notfälle): In 51,6 Prozent der echten medizinischen Notfälle bewertete die KI die Situation als zu harmlos. Beispielsweise empfahl das System bei Patienten mit einer schweren diabetischen Entgleisung (Ketoazidose) oder einem akuten Asthma-Anfall, innerhalb der nächsten 24 bis 48 Stunden einen Arzt aufzusuchen, anstatt sofort in die Notaufnahme zu gehen.
- Über-Triage: Bei fast 65 Prozent der Fälle, die laut klinischen Leitlinien problemlos zu Hause beobachtet werden könnten, stufte die KI die Beschwerden als behandlungsbedürftig ein und riet zu einem Arztbesuch.
Folgen der fehlerhaften Einschätzungen
Beide Arten von Fehlern sind problematisch, insbesondere die Unter-Triage, da sie gefährlich sein kann, wenn Patienten zu spät die notwendige medizinische Hilfe erhalten. Im Gegensatz dazu zeigte ChatGPT Health bei Routinefällen, die weder dringend noch harmlos waren, eine gute Leistung und stimmte in 93 Prozent der Fälle mit der ärztlichen Empfehlung überein.
Einfluss psychologischer Faktoren
Die Studie untersuchte auch, inwieweit psychologische Effekte die KI-basierte Ersteinschätzung beeinflussen. Es wurde festgestellt, dass ChatGPT Health anfällig für den sogenannten Anchoring Bias (Ankereffekt) ist. Wenn in einem medizinischen Grenzfall beiläufig erwähnt wurde, dass Freunde die Symptome als nicht besorgniserregend einstufen, beeinflusste dies oft die Einschätzung der KI, die dadurch eine weniger dringliche Empfehlung abgab (Odds Ratio von 11,7).
Umgang mit psychischen Notlagen
Ein weiterer Schwerpunkt der Untersuchung war der Umgang der KI mit psychischen Notlagen. ChatGPT Health verfügt über einen Schutzmechanismus, der bei Suizidgedanken ein Warnbanner mit dem Hinweis „Hilfe ist verfügbar“ und einem Verweis auf Krisenhotlines anzeigt. Die Studie zeigte jedoch, dass dieser Mechanismus in bestimmten Situationen versagte.
- Bei vagen, passiven Äußerungen zu Suizidgedanken funktionierte der Schutzmechanismus zuverlässig.
- Äußerte ein fiktiver Patient jedoch einen konkreten Suizidplan, blieb das Warnbanner oft aus, da sich das System stark auf die körperlichen Parameter konzentrierte.
Empfehlungen für den zukünftigen Einsatz von KI im Gesundheitswesen
Die Autoren der Studie ziehen aus ihren Ergebnissen wichtige Empfehlungen für den künftigen Einsatz von KI im Gesundheitsmarkt. Obwohl Anbieter wie OpenAI rechtliche Hinweise geben, dass ihre Systeme keine ärztliche Diagnose ersetzen, ist es wahrscheinlich, dass viele Menschen einen Arztbesuch vermeiden, wenn ihnen die KI versichert, es bestehe kein ernsthaftes Problem.
Die Wissenschaftler fordern daher, dass KI-Systeme, die als erster Kontaktpunkt für medizinische Einschätzungen genutzt werden, strengeren Prüfungen unterzogen werden sollten. Sie schlagen vor, dass patientengerichtete KI-Tools im Gesundheitsbereich vor ihrer breiten Veröffentlichung ähnliche externe Sicherheits- und Zulassungsprüfungen durchlaufen sollten wie klassische Medizinprodukte, um den Patientenschutz zuverlässig zu gewährleisten.
Fazit
Die Studie zu ChatGPT Health wirft bedeutende Fragen zur Verlässlichkeit von KI-gestützten Gesundheitsdiensten auf, insbesondere in kritischen medizinischen Situationen. Die Ergebnisse verdeutlichen die Notwendigkeit strengerer Regulierungen und Prüfungen, um die Sicherheit und das Wohl der Patienten zu gewährleisten.

David Lee
Content Creator bei Dutch Magazine.