Wie der “Telegraph” einen Podcast mit KI übersetzt — und warum das komplizierter ist, als es klingt

Ein erfolgreicher Podcast - drei Sprachen: Englisch, Ukrainisch, Russich.

Ein Beispiel, das für mich besonders interessant ist, kommt auch aus Großbritannien. The Daily Telegraph geht auch den Weg, Journalismus über KI zu erweitern - mit Services, die mit bestehenden Ressourcen nicht umsetzbar sind. Der Verlag produziert Podcast „Ukraine: The Latest“ — ein tägliches Format, das seit Beginn der russischen Invasion erscheint und sich zu einem erstaunlich erfolgreichen Produkt entwickelt hat.

Jeden Tag um 17 Uhr eine neue Folge, mit militärischen und politischen Entwicklungen, ergänzt durch Gespräche, Analysen und dokumentarische Elemente. Also kein reiner Nachrichtenüberblick, sondern ein Format, das stark vom Erzählen lebt. Von Stimmen, Perspektiven, Einordnung.

Was dabei auffällt: die enorme Bindung der Hörerinnen und Hörer. Der Podcast erreicht eine sechsstellige Zahl an Abrufen pro Folge, die Hörerschaft ist global verteilt und reagiert intensiv — unter anderem durch hunderte Nachrichten pro Tag. Es ist also nicht nur Reichweite da, sondern echte Beziehung zum Produkt.

Adelie Pojzman-Pontay, einer der Hosts des erfolgreichen Podcasts, wird durch KI in Ukrainisch und Russisch übersetzt. Durch die Übersetzung haben sie die Reichweite des Podcasts massiv vergrössert.

Aus dieser Situation heraus stellt sich eine naheliegende, aber strategisch entscheidende Frage: Wenn dieses Angebot so relevant ist — warum bleibt es auf Englisch beschränkt? Warum erreicht es nicht diejenigen, die unmittelbar betroffen sind? Menschen in der Ukraine. Menschen, die Russisch sprechen. Die Antwort ist zunächst einfach: Sollten wir tun, aber ganz so einfach ist es nicht. Denn die Vorgabe lautet, dass diese Erweiterung möglichst ohne zusätzliche Kosten erfolgen soll. Klassische Lokalisierung wäre dafür zu teuer und zu langsam.

Also entsteht die Idee, KI einzusetzen. Konkret arbeitet auch der Telegraph natürlich auch mit ElevenLabs. Diese Firma ist quasi das Monopol für geklonte Stimmen, fast simultan übersetzt. Der Ansatz geht dabei über eine reine Übersetzung hinaus. Die Stimmen der Hosts und Reporter werden nicht nur in eine andere Sprache übertragen, sondern so synthetisch erzeugt, quasi geklont, dass sie wie die Originalstimmen klingen. Voice Cloning. Ziel ist es, dass die Hörerinnen und Hörer in der Ukraine oder im russischsprachigen Raum das Gefühl haben, die gleichen Stimmen zu hören — nur in ihrer Sprache.

Das funktioniert in vielen Fällen erstaunlich gut. Gleichzeitig wird sehr früh eine klare Grenze gezogen: Politikerinnen und Politiker werden nicht geklont. Ihre Aussagen werden weiterhin klassisch übersetzt. Keine technische Notwendigkeit, sondern eine redaktionelle Entscheidung.

Interessant wird es vor allem beim Blick auf den tatsächlichen Produktionsprozess. Denn der hat mit einer einfachen „Übersetzungsfunktion“ nichts zu tun. Ganz so einfach ist es dann nicht, auch wenn die Tools schon viel können.

Ein kompletter Podcast lässt sich nicht einfach in ein System laden, um dann eine fertige Version in einer anderen Sprache zu erhalten. Der Telegraph hat das ausprobiert — und schnell verworfen. Stattdessen wird die Sendung in kleinere Einheiten zerlegt. Zunächst hat man mit 15-Minuten-Segmenten gearbeitet, das hat nicht gut funktioniert. Inzwischen liegt man bei etwa 10 Minuten, optimal sind eher 7 bis 8 Minuten.

Noch entscheidender ist eine zweite Erkenntnis: Dialoge sind schwierig. Dabei lebt der Podcast ja von Dialog. Monologe funktionieren in der KI-Übersetzung deutlich besser. Das führt dazu, dass die Inhalte aktiv umgebaut werden müssen. Ein Producer hört die Sendung durch, identifiziert Passagen, die sich als Monologe eignen, und schneidet diese gezielt heraus. Diese einzelnen Segmente werden dann jeweils separat übersetzt und mit der geklonten Stimme neu erzeugt. Anschließend werden sie wieder zusammengesetzt. Dazu braucht man also auch Muttersprachler. Damit wird das schon wieder ein hochgradig manueller Prozess. KI ist ein Werkzeug darin, aber nicht die Lösung. Noch nicht. Denn die Kollegin sagt: Das entwickelt sich rasant.

Heute dauert die Produktion der übersetzten Versionen noch - etwa zwei bis drei Stunden nach der Originalproduktion. Das ist nicht so schnell, wie die Antwort von ChatGPT auf die Bitte, einen Text zu übersetzen - aber es zeigt durchdachte und iterative Workflows. Human in the loop - Mensch und KI arbeiten quasi Hand in Hand zusammen.

Wenn man diesen Case auf sich wirken lässt, verschiebt sich der Blick auf das Thema KI relativ schnell. Es geht weniger um die Frage, welches Tool man einsetzt. Und mehr darum, wie man redaktionelle Prozesse so gestaltet, dass KI sinnvoll integriert werden kann.

Die häufige Vorstellung, dass sich Inhalte mit KI einfach skalieren lassen, greift hier zu kurz. Ja, Skalierung ist möglich. Aber sie entsteht nicht durch einen Klick, sondern durch Struktur: durch Segmentierung, durch klare Rollen im Prozess, durch definierte Grenzen und durch kontinuierliche Qualitätskontrolle.

Gleichzeitig zeigt das Beispiel auch, dass nicht jeder Inhalt gleich gut geeignet ist. Ein einfacher Nachrichtenblock mit einer Sprecherstimme und klarer Struktur wäre deutlich leichter zu übersetzen und zu adaptieren. Ein dialogischer Podcast mit wechselnden Stimmen, emotionalen Passagen und komplexen Inhalten ist deutlich anspruchsvoller.

Was man daraus mitnehmen kann, ist also kein fertiges Rezept. Eher eine Art Denkmodell: KI kann helfen, Reichweite und Relevanz zu erhöhen, gerade über Sprachgrenzen hinweg. Aber nur dann, wenn sie in einen klar definierten, redaktionell verantworteten Prozess eingebettet ist.

Oder etwas zugespitzter formuliert: Nicht die KI skaliert den Journalismus. Sondern die Art und Weise, wie man mit ihr arbeitet.

Zurück
Zurück

Von der Strategie ins Studio: Was passiert, wenn KI wirklich im Radiobetrieb ankommt

Weiter
Weiter

KI kommt, Journalismus bleibt. Was wir vom Umgang der BBC mit generativer KI lernen können