In den letzten Jahren hat das KI-Modell „WhisperMD“ von OpenAI in der medizinischen Welt beachtliche Erfolge erzielt. Mittlerweile nutzen über 30.000 Ärzt:innen und mehr als 40 Krankenhäuser dieses Tool, um Patientengespräche zu transkribieren und zu analysieren. Doch es gibt ein ernstes Problem: Whisper „halluziniert“ – es erzeugt teilweise Texte, die nicht auf den tatsächlichen Gesprächen basieren, sondern von der KI erfunden wurden. Die Folge? Die Datenqualität von mehr als 7 Millionen Patientengesprächen ist in Frage gestellt. Doch wie kommt es dazu, und was bedeutet das für den Einsatz solcher Technologien in der Medizin?
Eine aktuelle Studie der University of Michigan brachte Licht auf ein faszinierendes, aber auch alarmierendes Phänomen: Bei acht von zehn Audiotranskriptionen von Whisper finden sich „halluzinierte“ Inhalte, also Textpassagen, die komplett erfunden sind. Diese KI-generierten Fehler reichen von relativ harmlosen Verzerrungen bis hin zu potenziell gefährlichen Falschinformationen. In einem Beispiel fügte Whisper bei einer Beschreibung von „zwei Mädchen und einer Dame“ plötzlich eine nie ausgesprochene Aussage über deren Hautfarbe hinzu. In einem anderen Beispiel erfand das Modell eine angebliche Medikamentenklasse namens „hyperaktivierte Antibiotika“.
Interessanterweise sehen einige KI-Experten die Halluzinationen nicht nur als reinen Fehler, sondern als Nebenprodukt der Kreativität, die moderne Sprachmodelle erst möglich macht. Die Mechanismen, die dafür sorgen, dass KI-Modelle wie ChatGPT oder Whisper nicht nur Wissen wiedergeben, sondern auch assoziativ und interpretativ arbeiten, sind die gleichen, die zu diesen Halluzinationen führen. Doch das birgt ein gewaltiges Risiko – insbesondere im sensiblen medizinischen Bereich. Wo Präzision und Verlässlichkeit höchste Priorität haben, kann es keine Kompromisse geben.
VITAS setzt beim Einsatz von KI auf einen hybriden Ansatz – und ein aktuelles Beispiel zeigt, warum das so wichtig ist: Der Chatbot von Air Canada, der auf empathische Antworten trainiert wurde, versprach Kunden irrtümlich kostenlose Flüge bei vermeintlichen Trauerfällen – Der Fall landete vor Gericht und wurde ein kostspieliges Missverständnis für die Airline.
Bei dem hybriden Modell von VITAS hingegen nutzen wir das semantische Verständnis von Large Language Models (LLMs) gezielt für die Klassifikation von Anfragen. Ein Beispiel: Ruft eine Kund:in an und wünscht ein MRT, erkennt VITAS durch LLM sofort, dass es sich um eine Anfrage für die Radiologie handelt. Für die weitere Textgenerierung setzen wir jedoch auf vordefinierte Texte der Kund:innen, um Stabilität und präzise Konfigurierbarkeit sicherzustellen.
In einer zunehmend digitalisierten Welt scheint es verlockend, auf die neuesten und „kreativsten“ KI-Lösungen zu setzen. Doch die aktuellen Entwicklungen um Whisper zeigen deutlich, dass nicht alles, was technisch möglich ist, auch im medizinischen Umfeld bedenkenlos angewendet werden sollte. VITAS setzt auf konservative Innovation – Fortschritt mit Bedacht und Respekt vor den strengen Anforderungen der medizinischen und öffentlichen Sektoren.