Das Interview:
Was ist seit der Vorstellung von S.A.R.A. auf dem Radio Advertising Summit 2023 passiert?
Grit Leithäuser fragt bei Raphael Fix, Head of Innovation Management Omnicom Media Group Germany GmbH nach. Es geht um den Kampagnenerfolg von Penny als Use Case, Hörerakzeptanz und die vielfältigen neuen Möglichkeiten hinsichtlich der Aussteuerbarkeit von Zielgruppen.
Ich freue mich heute besonders, Raphael, Head of Innovation Management bei Omnicom Media, begrüßen zu dürfen. Hallo Raphael! Im vergangenen Jahr, im April 2023, hast du uns beim Radio Advertising Summit in Köln zusammen mit AudioStack das Projekt S.A.R.A vorgestellt. Wir waren alle sehr interessiert und haben gespannt zugehört. Könntest du uns bitte erklären, worum es dabei geht? Im Prinzip geht es darum, dass Audio-Spots von KI generiert werden. Dabei können in Sekundenschnelle viele verschiedene Motive erstellt werden, die dann individuell auf verschiedene Zielgruppen zugeschnitten werden können.
Was ist seitdem passiert? Könntest du uns bitte einen kurzen Überblick geben?
Raphael Fix
Also seit dem Radio Advertising Summit letztes Jahr ist bei uns viel passiert. Wir haben das Projekt S.A.R.A. wirklich von einem MVP jetzt zu einem fertigen Produkt entwickelt. Das heißt, wir haben verschiedene Kunden damit aktiviert. Der bekannteste Use Case wurde auch schon in der Presse erwähnt. War der erste Use Case mit dem Kunden Penny über die Agentur OMD, die dann das, was wir damals beim Radio Summit als Demo gezeigt haben, in eine multiple Version umgesetzt haben.
Das heißt, wir haben damals beim Radio Summit eine Kreation gemacht, die ein bisschen verändert und dann wieder eine zweite und dritte Version gemacht. Für Penny haben wir über 3000 Versionen erstellt und das war wirklich eine Weiterentwicklung von einem ersten Konzept zu einem fertigen Produkt. Und diese 3000 Anzeigen konnten wir dann auch dynamisch aktivieren.
Was passiert in der Kreation? Das wussten wir schon sehr genau. Aber dann wussten wir auch, was im Markt wirklich passiert. Also, was kann ich bei den Vermarktern, bei den Publishern und bei den Technologieanbietern wirklich aktivieren.
Grit Leithäuser
Und das war eine große Kampagne, die ihr da durchgeführt habt. Mit Penny ist sie erfolgreich verlaufen. Wie würdest du das einschätzen?
Raphael Fix
Genau diese erfolgreiche Umsetzung konnten wir, ich sage mal, dank des wirklich guten Werkzeugs S.A.R.A. erreichen und wir haben gemerkt, dass es einen Weg gibt. Den gab es vorher in Audio nicht. Nur das Beispiel bei Penny haben wir 3000 Audios erstellt. Diese sind etwa 20 Sekunden lang. Wenn das ein Sprecher oder eine Sprecherin im Tonstudio aufnehmen würde, wären das 16-17 Stunden für eine Aufnahme.
Da müsste jeder Take direkt sitzen. Und allein diesen Weg zu gehen, den man eigentlich nicht gehen will oder kann, weil man keine Zeit hat, konnte man jetzt damit gehen und ganz neu damit Werbung kreieren. Und das hat S.A.R.A möglich gemacht. Penny kann das gut nutzen, um auch mal dynamische und lokalisierte Werbung auszuspielen, bei der man sich auf dem Markt der Nachbarschaft einbringen und agieren kann.
Hey, der nächste Penny ist hier direkt um die Ecke vorne, Produkte sind im Angebot. Das war bisher im Bereich Audio gar nicht möglich. Und das konnten sie damit sehr gut damit aktivieren. Es hat sehr, sehr gut funktioniert und da sind wir auch in Gesprächen mit ähnlichen Kunden, als auch mit Penny natürlich. Wie kann man das Ganze noch tiefer machen? Man kann ja das Werkzeug S.A.R.A noch für viel, viel mehr benutzen.
Grit Leithäuser
Ja, ich stelle mir auch vor, 3000 Motive zu produzieren. Das ist ja auch eine Budgetfrage, ganz abgesehen von der Zeit. Aber was mich interessiert: K.I. generierte Spots. Was ist eure Erfahrung? Wie werden die von Hörern und Hörerinnen akzeptiert? Gibt es da einen Unterschied zu menschlich eingesprochenen Spots?
Raphael Fix
Ich kann die Frage verstehen, wir haben das auch bei Penny mit gemessen und haben dort Werte, die zeigen, dass die Spots genauso gut, wenn nicht sogar besser akzeptiert werden. Wirklich 48 % der Hörerinnen sagen, dass der Spot ihnen gefällt oder das Produkt ihnen einen besonderen Mehrwert bietet. Das bedeutet, die Erstellung mit synthetischen Stimmen hat einen Wert und ist genauso effektiv wie der Spot mit einer menschlichen Stimme.
Ich weiß aber, woher die Frage kommt, denn wir haben mit AudioStack, und zwar 2022 die ersten Demos erstellt und erste Konzepte entwickelt. Und man muss da sagen, 2022 im Sommer waren die deutschen Stimmen noch so bei 80-90% der Qualität. Das heißt, da klang noch ein bisschen wie Siri oder Alexa. Im Frühjahr 2023 gab es plötzlich einen technologischen Sprung. Es kamen neue Player auf den Markt, so was wie ElevenLabs oder OpenAI, die ganz neue Voice Cloning anbieten und dadurch wurde dann die Qualität plötzlich in allen Sprachen und auch insbesondere der deutschen Sprache so massiv gut, dass dieser Qualitätsunterschied gerade bei 20 oder 30-sekündigen Audio Spots gar nicht mehr in der Unterscheidbarkeit zu hören ist.
Grit Leithäuser
Das heißt, alles, was sich jetzt noch rund um KI entwickelt und das ist ja ganz viel und entwickelt sich rasant, integriert ihr in das Projekt, in das Tool und entwickelt damit auch weiter. Richtig?
Raphael Fix
Genau. Eine Weiterentwicklung ist auch ein kleines Announcement heute: S.A.R.A., das eigentlich für Audio gebaut wurde, entwickeln wir weiter auf Video. Das bedeutet, dass wir derzeit auch automatisierte Videos erstellen, bei denen man die Tonspuren wie bisher auch mit S.A.R.A ergänzen kann. Wir können so auch einen ganz neuen Markt erschließen. Für uns als Medienagentur ist der Videobereich natürlich noch interessanter als der Audiobereich.
Aber auch das nutzen wir jetzt. Heißt, dass wird jetzt 2024 auch die Weiterentwicklung von S.A.R.A. sein, von Audio zu Audio und Video zu gehen. Und dabei nutzen wir natürlich die Mechaniken, die wir mit synthetischen Stimmen und K.I. Lösungen haben.
Grit Leithäuser
Was mich interessiert: Wo setzt ihr dann als omnicom ein bisschen den Schwerpunkt? Ist es mehr die Spot-Kreation oder eher die automatische Aussteuerbarkeit für die verschiedenen Zielgruppen?
Raphael Fix
Bei Omnicom Media Group, da sagt der Name schon so ein bisschen. Natürlich liegt der Hauptfokus immer auf Media. Natürlich sind wir auch fokussiert in Kreation und teilweise auch in Kreation only, bieten wir auch an. Wir kommen aber immer daher, dass wir Kunden beraten. Wie können Sie Ihre Zielgruppe noch besser erreichen?
Genau dafür nutzen wir das Werkzeug S.A.R.A., um den Kunden Empfehlungen auszusprechen. Eher können wir jetzt Zielgruppen im Audio-Bereich besser personalisiert erreichen, mit selektiver Wahrnehmung. Das heißt, wir schauen, welche Targeting-Möglichkeiten wir im Markt haben. Wie können wir das erreichen und wiederum übersetzen? Wie muss die Ansprache in der Kreation sein und können wir beides miteinander verbinden? Und das kann S.A.R.A. bestens lösen, indem er wie gesagt, 3000 Audios erstellt.
Die benötigen 3.000 einzelne Regionen mit individuellem Budget und Targeting, um sie steuern zu können. Und das war vorher noch nicht möglich. Es gibt Tools, mit denen man natürlich künstliche Spots erstellen kann. 1,2,3 und vielleicht auch ein paar Tausend, aber diese können wir nicht so dynamisch aktivieren, wie S.A.R.A. das kann. Daraus ergibt sich natürlich der Mehrwert, den wir unseren Kunden bieten oder den die Kunden von uns erwarten.
Grit Leithäuser
Also wir sehen schon, hier ist noch richtig viel Entwicklungspotenzial und sehr viel Dynamik drin. Und alles verändert sich, alles bekommt ganz neue Möglichkeiten und Chancen. Ich danke dir, Raphael, und ich freue mich sehr, wenn wir uns im April wiedersehen. Beim Radio Advertising Summit in Köln. Wir haben das diesmal unter das gesamte Motto „Echt Audio“ gestellt. Es wird natürlich um K.I., künstliche Intelligenz und die Auswirkungen auf unser Geschäft und unsere Möglichkeiten gehen. Es geht aber auch darum, was die Hörenden wünschen, nämlich Echtheit – das sind ja wirklich zwei Pole. Wir werden uns damit beschäftigen und es wird viele spannende Themen geben.
Vielen Dank, Raphael.