Als Partner des europäischen Forschungsprojekts OpenGPT-X war der WDR an der Entwicklung des neuen großen Sprachmodells "Teuken 7B" beteiligt. Die KI wurde unter anderem mit deutscher Sprache trainiert, soll eine hohe Datensicherheit bieten und kann auch von Unternehmen kostenfrei genutzt werden. Sie soll auch in der ARD eingesetzt werden.
Der Westdeutsche Rundfunk gehört seit Ende 2021 zum europaweiten Forschungsprojekt OpenGPT-X, das nun mit “Teuken-7B” ein großes europäisches KI-Sprachmodell zum Download zur Verfügung stellt.
Laut Informationen des WDR umfasst die neue KI sieben Milliarden Parameter und wurde von Grund auf mit den 24 Amtssprachen der EU trainiert. Dies soll eine höhere Effizienz auch bei deutschen Sprachanwendungen gewährleisten. Als Open-Source-Modell kann “Teuken-7B” in Unternehmen kostenfrei eingesetzt und für die jeweiligen Anforderungen angepasst werden. Sensible Daten können vollständig im Unternehmen verbleiben. Wird “Teuken-7B” in europäischen Datenclouds genutzt, können hohe europäische Standards für Datenschutz eingehalten werden.
Das OpenGPT-X-Team widmete sich neben dem Modelltraining auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können, so eine aktuelle Veröffentlichung des Fraunhofer IAIS. Dazu wurde im Projekt ein multilingualer »Tokenizer« entwickelt. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer führte zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen könnten damit Effizienzsteigerungen erreicht werden, heißt es.
Der WDR beschäftigt sich nach eigenen Angaben seit etwa 2015 mit KI und setzt zunehmend auf Unterstützung durch KI-Anwendungen. Künstliche Intelligenz könne und werde die Arbeit von Journalistinnen und Journalisten nicht ersetzen, könne aber als ein Hilfsmittel zu mehr Effizienz beitragen. Dies geschehe im Einklang mit den Werten und Zielen, die sich aus der öffentlich-rechtlichen Verfassung des WDR, seinem Programmauftrag und seinen Programmgrundsätzen ergäben. Gleiches gelte für die Produktion und Verbreitung von Medien, die Barrierefreiheit und die Archivierung, heißt es einer aktuellen Veröffentlichung.
Seit diesem Jahr ist der WDR gemeinsam mit dem Bayerischen Rundfunk (BR) außerdem für den Aufbau eines Netzwerk für KI in der ARD verantwortlich. Das ARD-KI-Netzwerk betrachtet technische, rechtliche, programmliche und auch ethische Aspekte von KI mit dem Ziel, Erfahrungen innerhalb der ARD zu teilen und gemeinsame KI-Lösungen zu entwickeln.
Dem vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) ins Leben gerufenen Forschungsprojekt OpenGPT-X gehört der WDR als einer von zehn Partnern an. Das Projekt läuft noch bis 31. März 2025 und wird von zwei renommierten Forschungseinrichtungen geleitet: Dem Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS und dem Fraunhofer-Institut für Integrierte Schaltungen IIS.
Zur Projektwebsite:
Bild: MJH Shikder, Pixabay