Eine neue Studie, die von der EBU koordiniert und von der BBC geleitet wurde, hat ergeben, dass KI-Assistenten, die für Millionen von Menschen bereits ein tägliches Informationsportal sind, regelmäßig Nachrichteninhalte falsch darstellen, unabhängig davon, welche Sprache, welches Gebiet oder welche KI-Plattform getestet wird. Die Deutsche Welle (DW) ist einer von 22 öffentlich-rechtlichen Rundfunkanstalten, die zu dieser Studie beigetragen haben.
Die internationale Studie wurde auf der EBU-Nachrichtenversammlung in Neapel vorgestellt. Unter Beteiligung von 22 öffentlich-rechtlichen Medienorganisationen aus 18 Ländern, die in 14 Sprachen arbeiten, wurden mehrere systemische Probleme bei vier führenden KI-Tools identifiziert.
Professionelle Journalisten der teilnehmenden Medien bewerteten laut einer aktuellen Veröffentlichung mehr als 3.000 Antworten von ChatGPT, Copilot, Gemini und Perplexity anhand wichtiger Kriterien, darunter Genauigkeit, Quellenangaben, Unterscheidung zwischen Meinung und Fakten sowie Bereitstellung von Kontext.
Mängel bei sachlicher Genauigkeit
Die Analyse der DW-Journalisten ergab, dass mehr als die Hälfte der KI-generierten Antworten (53 %) erhebliche Mängel aufwiesen. In fast einem Drittel der Fälle (29 %) betrafen die Probleme speziell die sachliche Genauigkeit.
Zu den Ungenauigkeiten gehörten veraltete politische Informationen, wie beispielsweise die falsche Angabe, dass Olaf Scholz der derzeitige Bundeskanzler Deutschlands sei, obwohl Friedrich Merz bereits einen Monat zuvor sein Amt angetreten hatte. Ebenso wurde Jens Stoltenberg weiterhin als NATO-Generalsekretär aufgeführt, obwohl Mark Rutte diese Funktion bereits übernommen hatte.
Zentrale Ergebnisse der Studie insgesamt:
- 45 % aller KI-Antworten wiesen mindestens ein erhebliches Problem auf.
- 31 % der Antworten zeigten schwerwiegende Probleme bei der Quellenangabe – fehlende, irreführende oder falsche Quellenangaben.
- 20 % enthielten erhebliche Genauigkeitsprobleme, darunter erfundene Details und veraltete Informationen.
- Gemini schnitt mit erheblichen Problemen in 76 % der Antworten am schlechtesten ab, mehr als doppelt so viel wie die anderen Assistenten, was vor allem auf die schlechte Leistung bei der Quellenangabe zurückzuführen ist.
- Ein Vergleich zwischen den Ergebnissen der BBC zu Beginn dieses Jahres und dieser Studie zeigt einige Verbesserungen, aber immer noch ein hohes Maß an Fehlern.
Problematik
KI-Assistenten ersetzen für viele Nutzer bereits Suchmaschinen. Laut dem Digital News Report 2025 des Reuters Institute nutzen 7 % aller Online-Nachrichtenkonsumenten KI-Assistenten, um sich zu informieren, bei den unter 25-Jährigen sind es sogar 15 %.
„Diese Untersuchung zeigt eindeutig, dass es sich hierbei nicht um Einzelfälle handelt“, sagte Jean Philip De Tender, Mediendirektor und stellvertretender Generaldirektor der EBU. „Es handelt sich um ein systemisches, grenzüberschreitendes und mehrsprachiges Problem, das unserer Meinung nach das Vertrauen der Öffentlichkeit gefährdet. Wenn Menschen nicht wissen, wem sie vertrauen können, vertrauen sie am Ende gar niemandem mehr, was die demokratische Teilhabe beeinträchtigen kann.“
Peter Archer, Programmdirektor für generative KI bei der BBC, sagte: „Wir sind begeistert von KI und davon, wie sie uns helfen kann, unserem Publikum noch mehr Wert zu bieten. Aber die Menschen müssen dem, was sie lesen, sehen und hören, vertrauen können. Trotz einiger Verbesserungen ist klar, dass es bei diesen Assistenten noch erhebliche Probleme gibt. Wir möchten, dass diese Tools erfolgreich sind, und sind offen für die Zusammenarbeit mit KI-Unternehmen, um unserem Publikum und der Gesellschaft insgesamt einen Mehrwert zu bieten.“
Wie es weitergeht
Das Forschungsteam hat ein „Toolkit zur Nachrichtenintegrität in KI-Assistenten“ veröffentlicht, um Lösungen für die in dem Bericht aufgezeigten Probleme zu entwickeln. Dazu gehören die Verbesserung der Antworten von KI-Assistenten und die Medienkompetenz der Nutzer. Aufbauend auf den umfangreichen Erkenntnissen und Beispielen aus der aktuellen Forschung befasst sich das Toolkit mit zwei Hauptfragen: „Was macht eine gute Antwort eines KI-Assistenten auf eine Nachrichtenfrage aus?“ und „Welche Probleme müssen behoben werden?“.
Darüber hinaus fordern die EBU und ihre Mitglieder die EU- und nationalen Regulierungsbehörden auf, die bestehenden Gesetze zu Informationsintegrität, digitalen Diensten und Medienpluralismus durchzusetzen. Sie betonen, dass angesichts der rasanten Entwicklung der KI eine kontinuierliche unabhängige Überwachung von KI-Assistenten unerlässlich ist, und suchen nach Möglichkeiten, die Forschung fortlaufend fortzusetzen.
Projekt und Teilnehmende
Diese Studie baut auf einer im Februar 2025 veröffentlichten Untersuchung der BBC auf, in der erstmals die Probleme der KI beim Umgang mit Nachrichten aufgezeigt wurden. In dieser zweiten Runde wurde der Untersuchungsbereich international erweitert, wodurch bestätigt wurde, dass es sich um ein systemisches Problem handelt, das nicht an eine bestimmte Sprache, einen bestimmten Markt oder einen bestimmten KI-Assistenten gebunden ist.
Teilnehmende Sender:
- Belgien (RTBF, VRT)
- Deutschland (ARD, ZDF, Deutsche Welle)
- Finnland (YLE)
- Frankreich (Radio France)
- Georgien (GPB)
- Italien (Rai)
- Kanada (CBC-Radio Canada)
- Litauen (LRT)
- Niederlande (NOS/NPO)
- Norwegen (NRK)
- Portugal (RTP)
- Schweden (SVT)
- Schweiz (SRF)
- Spanien (RTVE)
- Tschechien (Czech Radio)
- Ukraine (Suspilne)
- USA (NPR)
- Vereinigtes Königreich (BBC)
Weiterlesen
Bild oben: Mohammed Hassan, Pixabay