Metas Kooperation mit Oakley, Google VEO3 und NotebookLM - mit Thomas Hutter #129

Shownotes

Im neuen Monthly Talk des Podcasts «Digital Marketing Upgrade» nehmen Thomas Hutter und Thomas Besmer Dich mit auf eine Reise durch die neuesten Entwicklungen im KI-getriebenen Marketing. Diesmal im Fokus: die Sonnenbrillen-Kooperation von Meta mit Oakley, Googles bahnbrechendes Video-Tool VEO3, die Zukunft von Videoproduktion und ein kleiner, grosser Gamechanger namens Google Notebook LM.

Hauptthemen der Episode:

Meta's Kooperation mit Oakley:

Die Episode beginnt mit einem Gespräch über die neue Sportbrille von Oakley in Kooperation mit Meta. Thomas Besmer, selbst breiten Sportler, spricht offen über seine Enttäuschung hinsichtlich der erwarteten Innovationen wie Head-Up-Displays, die jedoch ausblieben. Stattdessen bietet die Brille nur grundlegende Funktionen wie Audio. Google hingegen plant die Veröffentlichung einer neuen, innovativeren Brille, die wohl mehr Funktionen bieten wird.

Google VO3 - Video Generierungsengine:

Ein großer Teil der Folge widmet sich der dritten Version der Video-Generierungs-Engine von Google, VO3. Diese ermöglicht die komplette Erstellung von Videos inklusive Sound und Voice-Over mittels einfacher Prompts. Thomas Hutter teilt seine Erfahrungen mit dem Tool, einschließlich der Kosten (6 Dollar für 8 Sekunden Video inkl. Audio) und der Effizienz im Vergleich zu traditionellen Produktionsmethoden. Diese Technologie bietet massive Einsparungen im Vergleich zu herkömmlicher Videoproduktion und öffnet neue Möglichkeiten für Werbekampagnen.

Midjourney's Video-Engine Update:

Midjourney, bekannt für Bildgenerierung, hat neuerdings die Möglichkeit zur Erstellung von Videos eingeführt. Thomas und Thomas debattieren über die Geschwindigkeit und Kosten dieser neuen Funktionalität, auch im Vergleich zu Konkurrenzmodellen. Die zugrundeliegende Technologie zeigt bereits beeindruckende Ergebnisse in kürzester Zeit, was insbesondere für Performance-Marketing im Bereich Social Ads interessant ist.

Google Notebook LM:

Thomas Besmer stellt das Google Notebook LM vor, ein Tool, das als App verfügbar ist und deutschsprachige Nutzbarkeit anbietet. Die Fähigkeit, Notizen in ein gesprochenes Audio-Podcast-Format zu verwandeln, stellt eine bedeutende Erleichterung für die Dokumentation und Informationsverarbeitung dar. Es bietet eine effiziente Methode, um eigene Quellen zu integrieren und sich in neue Themen einzuarbeiten.

Erkenntnisse und Ausblick:

Implikationen für Performance-Marketing: Die diskutierten KI-Tools transformieren die Art und Weise, wie Inhalte produziert werden, indem sie schnelle, kostengünstige und qualitativ hochwertige Medienproduktionen ermöglichen. Diese Technologien könnten die traditionelle Stock-Video-Industrie herausfordern und sogar ersetzen.
„Die Geschwindigkeit der KI-Entwicklung“: Beide Hosts reflektieren über die rasante Entwicklung der KI-Technologien und die Herausforderungen, die damit für Fachleute und Agenturen verbunden sind. Oft ist es schwierig, mit der Geschwindigkeit der Innovation Schritt zu halten, da sich die Tools und deren Funktionen ständig weiterentwickeln.
Chancen und Risiken: Während die neuen Technologien viele Vorteile bieten, wie z.B. erhöhte Produktivität und Kosteneffizienz, gibt es auch ethische Bedenken hinsichtlich der Nutzung und Rechte von generierten Inhalten, wie am Beispiel von CapCut besprochen wird, dessen neue Geschäftsbedingungen kontroverse Diskussionen ausgelöst haben.

Host: Thomas Besmer Gast: Thomas Hutter

Produktion: Hutter Consult AG

Hutter Consult AG

Transkript anzeigen

Thomas Besmer: Hallo und herzlich willkommen zur Digital Marketing Upgrade, präsentiert von der Hutter Consult. Mein Name ist Thomas Besmer. Es ist schon wieder Monatsende Und Monatsende heisst auch, dass Thomas Hutter und ich uns über Neuigkeiten in diesem Monat austauschen bzw. Über Themen, die uns in diesem Monat beschäftigt haben. Aber zuerst einmal Hallo und herzlich willkommen Thomas.

Thomas Hutter: Hi, Besmo und vielen Dank für die Einladung.

Thomas Besmer: Sehr gerne. Wir haben 3 Themen. 1, was zur aktuellen Temperatur passt, das ist Metas Kooperation mit Oakley im Bereich der Sonnenbrillen, dann Google VO3, der Video Generierungs Engine von Google in der dritten Version. Und wir bleiben noch bei Google mit Google Notebook LM, ein weiteres Tool, das jetzt auch als App verfügbar ist. Ich würde sagen, starten wir direkt mit Metas Kooperation mit Oakley. Die Kooperation ist ja schon seit längerem bekannt. Oakley gehört zum gleichen Konzern Exilio Luxotica wie Ray-Ban. Mit Ray-Ban hat Meta ja schon mehrere Modelle herausgegeben.

Thomas Besmer: Die Meta Stories, die hattest du schon mal vor irgendwie 3, 4 Jahren. Dann die neue Ray-Ban Wafer und jetzt haben sie mit Oakley eine Sportbrille veröffentlicht. Und ich selbst als breiten Sportler, Läufer, teilweise auch Radfahren, habe mich richtig gefreut, endlich auch eine Sonnenbrille zu haben, die ich fürs Sportmachen nutzen kann. Und ich wurde kläglich enttäuscht, weil die Brille selbst, also stylisch, passt sie überhaupt nicht. Das ist eher für Skateboarder und es ist auch nicht wirklich eine Weiterentwicklung, weil man hat erwartet, dass die Brille nicht nur Audio kann, sondern eventuell auch mit einem Head-Up-Display kommt, eben auch beispielsweise Navigationen oder für Sportler wichtige Leistungsdaten von ihren Uhren oder Fahrradcomputern einzublenden. Da ist aber gar nichts gekommen. Google lacht sich jetzt ein bisschen ins Fäustchen, weil sie ihre Google-Brille angekündigt haben, die ja noch in diesem Jahr kommen wird. Hast du den Launch der Oakley-Brille mitverfolgt? Du als Sportler.

Thomas Hutter: Nein, nicht wirklich. Ich habe auch keine Meinung dazu. Du hast alles gesagt, was die Brille umfasst. Von dem her, nein, ich habe die Meta-Brille, die Version von Ray-Ban ein bisschen mitverfolgt. Du hast da so eine entsprechend. Dass jetzt mit dieser Ogle-Kooperation noch keine visuelle Einblendung kommt, das war vorher ja schon bekannt. Von dem her auch keine Überraschung. Ja, Google wird sich da ins Fäustchen lachen, weil noch nichts da ist, was irgendwie in die Brille rein projiziert.

Thomas Hutter: Ist aktuell für mich irgendwie halt, ja, noch so ein bisschen ein unspannendes Gadget aus. Ich will irgendwie KI-Voice-Up-Fragen machen und Fotos machen. Spannend wird es, glaube ich, dann beim nächsten Typen, der tatsächlich irgendetwas in die Brille rein projiziert. Und ja, Ich habe noch nie im Leben eine Oakley gekauft und werde auch wenn sie die Einblendfunktion hat, keine kaufen. Ich bin Team Ray-Ban.

Thomas Besmer: Ich habe beides. Zum Sport habe ich eine Oakley, habe ich aber auch erst letzte Woche gesehen, als ich die Ankündigung von Meta auf dich gespannt gewartet habe. Aber ja, die Ray-Ban bzw. Die Oakley Meta, keine wirkliche Revolution. Und Ich glaube, wir sind auch aus dem Alter raus, eine solche Brille tragen zu können.

Thomas Hutter: Im Urlaub hatte ich die Möglichkeit, in einem Elektronikfachgeschäft eine Displaybrille auszuprobieren, die aber weniger AI-Charakter hat, sondern eben diese Monitorfunktionalität, obwohl es mehr oder weniger eine normale Brille ist. Also nicht das, was wir von der Quest her kennen, sondern gefühlt eine normale Sonnenbrille mit Display drin, die auch teiltransparent ist. Und wenn man das da so sieht in dieser Anwendung Und wenn man denkt, das könnte dann kombiniert werden mit den anderen Anwendungsmöglichkeiten, die bei der Oakley oder bei der Ray-Ban mit inkludiert sind, dann wird das sicherlich durchweg sehr, sehr spannend. Aber ich glaube, im Moment dieses rein visuelle für irgendwelche Video- oder Bilderaufnahmen und dann die allenfalls noch mit der KI zu verarbeiten, da brauche ich im Moment noch nicht unbedingt eine Brille, das kann ich mit dem Handy auch.

Thomas Besmer: Genau, definitiv. Es macht es schon bequemer, wenn man die Brille anhat und schnell ein Foto machen kann oder Musik hören kann, wenn man unterwegs ist. Aber ja, Oakley ist nicht wirklich mein Fall, wobei eben die Marke selbst hart ist. Eine andere Revolution würde ich sie jetzt mal bezeichnen, die die aus dem Hause Google kommt, welche sehr stark für Aufschrei gesorgt hat und auch sehr viele neue Inhalte produziert hat, ist Google VO3, der Nachfolger von WO2, Video Engineering Platform, beziehungsweise KI-Tool. Das Revolutionäre daran ist, dass man, wenn man promptet, nicht nur das Video promptet, sondern auch direkt der Sound dazu, bis hin zum Gesprochenen. Du hast dir da schon einige Dollar ausgegeben, das Tool testen zu können.

Thomas Hutter: Also, VO3 ist tatsächlich gefühlt ein Riesensprung. Einerseits extrem gute Umsetzung von Prompts im Video selber drin, was Bewegung anbelangt, was Mimik und solche Dinge anbelangt. Die Audiospur zusätzlich, ich habe mir ja bis jetzt noch bei keinem Modell gesehen, dass ich in einem Guss dann eigentlich eben auch Voice-Over generieren kann oder wie du es richtig gesagt hast, Sound, Hintergrund-Sound. Es ist relativ gewaltig, was da rauskommt. Im Moment, ja, die Kosten schrecken noch ein bisschen ab, weil es ist dann doch teurer als die Modelle, die man bis jetzt kennt. Wobei auch das relativiert sich. Also bei einem 8-Sekunden-Clip mit Audio, Man unterscheidet da Generierung ohne Audio oder mit Audio. Generierung mit Audio von 8 Sekunden ist bei 6 Dollar umgerechnet.

Thomas Hutter: Wenn ich jetzt das vergleiche mit irgendwelchen Modellen wie beispielsweise Hulu oder auch bei Meetjourney, wo man jetzt Videos generieren kann, sind die Kosten natürlich massiv höher. Auf der anderen Seite habe ich da dann aber auch teilweise wesentlich mehr Ausschuss und wenn ich dann wiederum überlege, ich brauche dann auch ein Tool, was Voice-Over generiert etc., dann komme ich dann unterm Strich mit diesen 6 Dollar relativ günstig weg. Ich habe da eine Testserie gemacht. Ich habe bei JetGPT reingepromptet, dass ich gerne 30 unterschiedliche Szenen hätte, die in 10 Jahren spielen und so Dialoge aufnehmen, die im Zusammenhang mit dem Spannungsfeld KI und den negativen Punkten der KI entstehen können. Ich habe mir dann 30 Ideen gepromtet. Von diesen 30 fand ich 25 soweit eigentlich okay. Ich habe dann diese 25 bei Veo bzw. Über Fall AI bei Veo gepromtet.

Thomas Hutter: Von diesen 25 waren 15 eigentlich im ersten Guss so gut, dass ich für mich befunden habe, okay, das reicht, es zu zeigen. 10 waren Ausschuss, also 60 Dollar an Google geschickt für Abfall. Und 15 dann tatsächlich umgesetzt. Das Prompten mit JetGPT war jetzt in diesem Fall, würde ich jetzt mal sagen, 20 Minuten inklusive der Korrekturprompts. Auch da hat aufgrund der doch umfassenden Eingabe, die ich gemacht habe, von Beginn an recht gute Resultate rausgegeben, dann jeweils aufgefordert, dass er entsprechende Prompt schreibt für VO3. Darum würde ich jetzt mal sagen, da wahrscheinlich etwa 20 Minuten. Bei Voll-AI hat das Umsetzen 1 Prompts in ein Video, also das Rendering, ich glaube so durchschnittlich 80 Sekunden, also das schnellste war glaube ich in 60 Sekunden fertig, das längste hatte ich glaube eine Minute, eine Minute 50 oder so irgendwas, Also war auch da relativ performant, nicht immer gleich schnell. Und dann habe ich es noch ganz einfach bei CapCut eingeführt und entsprechende Übergänge gemacht, dass es nicht so abrupt endet.

Thomas Hutter: Das heisst alles in allem eine Stunde Aufwand, 150 Dollar Videokosten bei Google, davon 10 Ausschuss. Und ich würde jetzt mal sagen, für das, was man in 1 Stunde machen kann, hat es schon ziemlich gut gepasst. Ich will nicht wissen, wenn man in die ganze Story, die Beschreibung und den Prompt den drei-, vier-, fünffachen Aufwand reinlegt, was dann noch mehr möglich wäre.

Thomas Besmer: Wenn man das vergleicht mit den klassischen Produktionskosten Nehmen wir von Disney die neue Star-Wars-Serie «The Acolyte», die eine Episode die 8 Mio. Dollar kostet. Das heisst, jede Bildschirmminute sind 630'000 US-Dollar. Ja. Also von daher

Thomas Hutter: Ich habe versucht, es für mich in ein Verhältnis zu setzen. Ich habe da 15 unterschiedliche Szenen. Mit einem normalen Setup könnte ich schon gar nicht 15 unterschiedliche Szenen mit einem normalen Aufwand machen, also ich mache alles Greenscreen und passe den Rest an. Wenn ich schaue, diese Dialoge mit unterschiedlichsten Personen, wenn ich ein Cast hätte, wenn ich da Kostüme brauche, Maskenbild, keine Ahnung was alles. Ich bin da sofort bei einem Mehrfachen. Und auch wenn ich dann denke, wenn das vielleicht nur B-Material wäre für den Hintergrund oder das, was ich dann ja eigentlich entweder über eine Stockbibliothek suchen muss und unter Umständen dann auch noch lizenzieren muss, dann sind natürlich diese 6 Dollar im Verhältnis überhaupt rein gar nichts. Oder andersherum, mit normalen Mitteln könnte ich so ein Video auch mit 1 Stunde Aufwand nicht annähernd, nicht mal einen Bruchteil davon konzipieren und umsetzen. Und wenn ich es dann noch machen würde in einem Modell, wo ich Video generieren muss und ich dann vielleicht eben auch noch Audio generiere bei 11 Labs oder wo auch immer und das Ganze zusammenfügen muss.

Thomas Hutter: Es wäre ja auch dann nicht aus einem Guss. Also von dem her absolut positiv überraschend. Ich glaube, ist auch wieder so ein Feld, wo wahrscheinlich die, die vorher wirklich absolutes 0815 produziert haben, auch ordentlich ein Problem kriegen. 0815 kriege ich für die Kaja ordentlich hin. Und das mit einem Bruchteil der Kosten.

Thomas Besmer: Was ja auch nach letzter Woche passiert ist, für mich eher unerwartet, ich weiss nicht, ob du das kommen sehen hast, aufgrund von Medienmitteilungen oder Benachrichtigungen, ist bei Midjourney, das hat ja auch von Mittwoch auf Donnerstag die Video-Endschin veröffentlicht. Ja.

Thomas Hutter: Ich habe da keine Vorrangkündigung erhalten und ich verfolge eigentlich die Änderungen Mit Journey auch mehr oder weniger. Wir haben es dann am Donnerstag ja auch gleich ausprobiert mit Bildern, die wir irgendwie schon hatten. Nur schon der Klick auf Animate ohne irgendeinen Prompt. Also einfach mal irgendwo Animation hinzufügen funktioniert extrem gut. Qualitativ ja, Upscaling etc. Ist noch nicht direkt mit drin, beziehungsweise auch da, man ist im Moment irgendwo noch so auf einem Mittelweg, was Qualität anbelangt. Aber auch wenn ich dann zum Beispiel eine Videoepisode verlängert habe, gesagt habe, so jetzt habe ich Video A, jetzt will ich es verlängern, prompte wieder etwas hinzu, was an Bewegung oder Action passieren muss. Es hat für die Qualität der Prompts meiner Meinung nach extrem gut umgesetzt.

Thomas Besmer: Und vor allem…

Thomas Hutter: Und schnell.

Thomas Besmer: Richtig, ja. Genau, und Das wollte ich noch ergänzen. Es war wirklich sehr schnell. Ein Video, das sind ja so 8- oder 5-Sekunden-Videos, ich bin gar nicht sicher, 5-8 Sekunden dazwischen. Unter 2 Minuten ist das Video umgesetzt.

Thomas Hutter: Ja, bei einigen Tests am Wochenende war es unter 1 Minute für 4 Varianten jeweils. Ich nutze für Bildgenerierung noch gerne mal Sora, beziehungsweise einfache Animationen. Das hat bedeutend länger, wobei natürlich auch bei Meetjourney bei diesem, sag ich jetzt mal, ersten Tarif oder ersten Pakettarif ist eine gewisse Anzahl von Fast Generation Hours mit drin, wo schnell produziert wird. Ich habe jetzt am Wochenende in 2, 3 Diskussionen gelesen, dass wenn man dann bei Meet Journey relativ exzessiv Videos produziert, diese Fast Generation Hours auch sehr, sehr schnell dann aufgebraucht sind.

Thomas Besmer: Okay.

Thomas Hutter: Von dem her ist das vielleicht jetzt auch ein bisschen dieser Turbo-Effekt, wenn ich dann aber viel brauche, könnte es dann schon auch sein, dass ich da entweder Kostenbremse drin habe und bezahlen muss für mehr oder dass man da hin, wo die Geschwindigkeit gedrosselt ist. Aber Bilderstellung geht unheimlich schnell und das war ja bei MeChurny bis jetzt auch bei ganz normalen Bildern, also nicht Videos, sondern bei den normalen Bildern gefühlt immer unheimlich schnell im Vergleich zu beispielsweise jetzt bei JetGPT, wo nur ein Bild generiert wird oder bei Zora, wo dann bis zu 4 gleichzeitig generiert werden.

Thomas Besmer: Also du sagtest ja schon eben so die Suche durch Stockgalerien, Stockmaterial wird eigentlich dadurch obsolet, kann man sagen, sofern man natürlich weiss, wie man richtig promptet. Aber auch da wird es immer einfacher. Und JGPT kann ja auch schon helfen, mit Journey-Prompts oder auch WO3-Prompts korrekt darzustellen, beziehungsweise sinnvollerweise darzustellen. Somit kann man auch effizienter werden. Was hat das für unseren Bereich für Auswirkungen, also insbesondere fürs Performance-Marketing in Social Ads?

Thomas Hutter: Ich bin da noch ein bisschen hin- und hergerissen. Grundsätzlich mit solchen Modellen wie Veo und entsprechend guten Scripts bringe ich, glaube ich, auch sehr gute Szenen hin, die ich für Werbung nutzen kann. Also dieses Tool, was mir dann die Dinge zusammensetzt und die Szenen zusammensetzt und das noch verbindet mit nettem Motion Design, wie man das eigentlich gerne, ich sag mal, für die Sparte von Performance Advertising nutzt, wie wir das machen. Da sehe ich im Moment immer noch einen Gap, also das kann ich noch nicht so machen, aber für die Medienproduktion glaube ich mittelfristig kann man auf solche Tools setzen. Es ist nicht so, dass die Werbemittel damit gratis sind und es ist auch nicht so, dass es keinen Aufwand gibt in der Erstellung. Immerhin Konzept und irgendwie Storybuch und Idee, was man mitgestalten will und was man aussagen will. Dieser Aufwand bleibt bestehen, aber der Produktionssektor selber liefert mir unter Umständen mit einigen guten Prompts sehr viel, was vorher in die Trickkiste gegriffen werden musste oder unter Umständen Material eingekauft wurde.

Thomas Besmer: Ja. Ich glaube, auch da muss man die Vollkostenrechnung machen. Nicht nur das eingekaufte Material, sondern auch die Stunden, die man für die Suche aufgewendet hat oder die Personenmitarbeitende für die Suche. Wir haben ein Beispiel in-house für eine Recruiting-Kampagne, Ärzte zu rekrutieren. Da wurden auch Stock-Videos gesucht, über mehrere Stunden hinweg. Die grössere Herausforderung war, dass die Personen auf den Videos identisch ausgesehen haben. Könnte man heute sehr wahrscheinlich auch, und das nur schon 3 Monate später, deutlich effizienter mit WO3 oder mit Mitjourney machen?

Thomas Hutter: Wo ich die Problematik im Moment sehe, in all diesen Bereichen, die Änderungen sind so schnell. Es kommt laufend irgendetwas dazu. Und dann sehe ich auf linke DIN N8N-Workflow für X und schieße mich tot. Das heisst, wenn ich mir, auch wenn ich agil unterwegs bin, wenn ich mir da einen Ablauf reinbringe, bis das Setup steht, bis ich zur Produktion komme, steht bereits in einem neuen Tool schon wieder die nächst mächtigere Variante da. Wo dann auch die Frage ist, wann ist der richtige Zeitpunkt, jetzt zum Beispiel auf seinen Flow umzustellen und ab welchem Zeitpunkt muss ich dann bereits schon wieder anpassen und ändern und da sehe ich im Moment auch so ein bisschen die Fallstricke, Aufwände wirklich kalkulieren zu können. Also ich glaube, mit dem, was ich jetzt nur getestet habe bei VO3, würde ich einem Kunden sagen, wir kriegen ein Video hin, das so und so und so aussieht. Du machst den Workflow zurecht. Möglicherweise hast du aber kurz nachdem das wieder produziert, du hast bereits schon wieder neue Möglichkeiten und das lässt sich nicht wieder 1 zu 1 adaptieren.

Thomas Hutter: Und die andere Problematik, die ich teilweise im Moment noch sehe, zweimal der gleiche prompt gibt nicht das gleiche Resultat das heißt wenn jetzt Dinge im Grundsatz eigentlich gut sind aber kleinere Korrekturen notwendig sind habe ich unter Umständen sehr viel Aufwand, dass ich wieder ein ähnliches Resultat, aber richtig bekomme.

Thomas Besmer: Okay, ja.

Thomas Hutter: Also diese Kohärenz, die ich eigentlich ja beim manuellen Design oder beim manuellen Aufbau hinkriege, Ich glaube, das ist im Moment in diesem Stadium noch eine grössere Herausforderung.

Thomas Besmer: Insbesondere VO3 hat ja, und da habe ich auf LinkedIn ein paar solcher Meinungen gelesen, wo Menschen, Expertinnen und Experten sagen, oder vor allem Werbetreibende aus Marketingagenturen, Videoproduktionsfirmen werden in den nächsten Jahren deutlich weniger gebraucht, bis gar nicht mehr, weil man relativ vieles prompten kann. Bei WHO 3 kann man auch schon Ortschaften prompten. Man sagt beispielsweise, Drohnenflug über die Stadt Zürich, wo man dann schon einen relativ guten Drohnenflug bekommt.

Thomas Hutter: Oder jemand, der nicht aus Zürich ist, nicht unbedingt beurteilen kann, ob

Thomas Besmer: er auch mal aus Zürich

Thomas Hutter: ist oder nicht.

Thomas Besmer: Also ein typischer Amerikaner, Schweiz, Schweden, wenn das schon schwer fällt. Genau.

Thomas Hutter: Also, ich meine, sind wir jetzt mal ganz ehrlich, Videoproduktion. Die Frage ist ja dann auch wieder, was will ich genau? Und welchen Zweck hat der ganze Einsatz? Wenn ich jetzt eine Hochglanz-TV-Produktion haben will, dann, glaube ich, lassen sich einige Dinge mit KI umsetzen. Und wahrscheinlich braucht es dann einen Mix daraus. Aber für günstigere Produktionen, wo man teilweise in der Vergangenheit ja auch mit der Panzerfaust auf das Fahrrad geschossen hat. Oder man kann sie ja noch mehr übertreibend darstellen, wo irgendwie eine Filmcrew für einen 30-Sekunden-Spot von 1 Getränkemarke irgendwie für eine Woche nach Südafrika reist, nur da die Stimmung nachzuempfinden. Solche Dinge lohnen sich dann halt tatsächlich nur noch für die, die sagen, ja, Geld spielt keine Rolle. Das heisst, ich glaube, insbesondere da, wo man weiss, man kann mit weniger Qualität auch den Zweck erfüllen, können viele Unternehmen davon profitieren. Ich glaube, da braucht es auch nicht mehr dann unbedingt dieses feingliedrige Videoding.

Thomas Hutter: Also andersherum gesagt, Der drittklassige Imagefilm, den werde ich auch mit der KI hinkriegen. Ja. Und vielleicht den zweiklassigen auch noch. Und den erstklassigen lebt er wahrscheinlich von anderen Details, als die, die mir die KI rausbringt.

Thomas Besmer: Ich bin gespannt, wann die KI es möglich macht, Videos zu optimieren. Wir kennen ja das Beispiel von ChatGPT, dass ich ein Bild hochlade und sage, mach mir daraus ein marketingfähiges Foto, sei es von 1 Person, einem Produkt oder 1 Stimmung. Ich bekomme ein sehr gutes Foto bearbeitet. Der Prompt ist noch etwas länger, aber ein gutes Foto, das ich einsetzen kann, wo ich mit einem normalen Smartphone ein Foto machen kann, ohne dass ich auf Belichtung etc. Das Licht geachtet habe, bekomme ich perfekte Fotos, wäre ja eigentlich auch wünschenswert, irgendwann mal bei Videos, weil mit dem Smartphone habe ich ja die Möglichkeit, kurz ein Statement des CEOs…

Thomas Hutter: Ich glaube, das ist generell nur eine Frage von der Zeit, weil im hochprofessionellen Bereich, so wie Hollywood und Co. Produziert, haben Sie ja das eigentlich schon seit mehreren Jahren entsprechende Ansätze mit drin, wo mit Hilfe von KI nachgebessert wird, wo gewisse Dinge überblendet werden oder retuschiert werden mit Hilfe von dem. Das ist auf dem, sag ich jetzt mal, semi-professionellen Bereich wahrscheinlich noch nicht 1 zu 1 so angekommen. Trotzdem gibt es ja auch heute schon Videomodelle, die auf Basis von Video neues Videomaterial generieren können. Also Ich denke, das ist eine Frage von Monaten, bis solche Modelle breiter zur Verfügung stehen. Häufig ist es ja heute so, dass Dinge vielleicht unter Umständen mit 2 oder 3 Modellen in Teilen erarbeitet werden müssen. Aber wenn du jetzt beispielsweise siehst, ab einem Bild eine Videoszene generieren geht ja im Falle von Midjourney bereits relativ gut. Kling macht da gute Dinge.

Thomas Hutter: Und Von dem her Video zu Video mit Veränderungen darin. Ich glaube, das ist teilweise noch ein bisschen der Rechenleistung geschuldet, aber solche Dinge werden ebenfalls bald für die breite Masse zur Verfügung stehen.

Thomas Besmer: Ja. Dann wird es effektiv einfacher. Es gibt Programme wie Adobe Premiere, Final Cut oder CapCut, wo man mit Filtern und Animationen das Video optimieren kann. Es gibt aber auch Tools, wo ich mehrere Szenen integrieren kann, die automatisch in Farbabgleich gemacht werden, oder ich möchte es episch, actionreich oder in 1 kalten Umgebung haben, würde das insbesondere die Filmschaffenden massiv unter Druck bringen.

Thomas Hutter: Ja, also die sind generell jetzt unter Druck. Und wenn du nur schon aus dem Cap cut automatische Farbeanpassungen über mehrere Szenen usw. Siehst, Das ist heute in kostenlosen Tools oder Tools, die irgendwie ein Butterbrot im Monat kosten, bereits schon mit drin. Und darum, auch Wenn du schaust, Adobe beispielsweise mit diesem Generation Fill Geschichten in Photoshop mit drin, da war lange relativ ruhig. Dann kam eigentlich ein richtig geiles Update und wahrscheinlich wir es aber auch in Tools drin haben, wie die Videotools wie Premiere oder wie heisst das? Motion Design Tool.

Thomas Besmer: After Effects.

Thomas Hutter: After Effects. Wirst du halt vielleicht solche Dinge auch drin haben, beziehungsweise vielleicht sind die schon drin und ich kenne es nicht, weil ich kann sie auch sonst nicht bedienen, also von dem her schaue ich auch nicht nach, was die neuen Funktionen mit drin haben, aber ich denke, da werden viele Teilmodule dazukommen. Man auch teilweise siehst du Tools, die generieren Menschen beim Sprechen. Und dann hast du nachher ein zweites AI-Tool, was dann eigentlich nur dazu da ist, die Lippen noch richtig zu synchronisieren. Und im Endeffekt auch mit Bewegungsabläufen etc. Mit Segment Anything, wo Bewegungen erkannt werden. Auch das ist schlussendlich die Frage von diesen kombinierten Modellen und diese Multi Modal Modelle. Da haben wir jetzt mit Jiminay so etwas, wo man sieht, dass GPT mit dem 4O geht ein bisschen in die Richtung.

Thomas Hutter: Bei GPT ist Video im Moment noch kein Thema. Auf der anderen Seite, wenn du dann bei SORA siehst, Bild in Video, das funktioniert schon recht gut. Das heisst auch da, diese Modelle, die dann Audio, Bild, Video, alles miteinander kombinieren. Ich glaube, das ist jetzt eher so ein Herantasten und irgendwann sind die eigentlich das, was wir heute eher mit einem GPT in einem bestimmten Modell. Dann hast du ganz spezielle Modelle, die genau das für dich machen.

Thomas Besmer: Spannend, ja. Du hast vorhin zwei-, dreimal CapCut erwähnt. Da noch kurz ein Einschub. CapCut hat die Geschäftsbedingungen per 12. Juni geändert. Ein grosser Punkt, der integriert wurde, ist, dass man Jedes Projekt, das man ab dem 12. Juni bearbeitet, hat CapCut das uneingeschränkte Recht, dieses Material zu nutzen, sei das für Trainingszwecke, für den Weiterverkauf, für den Einsatz für eigene Werbung, aber auch in Drittwerbungen. Das heisst, alles, was man in CapCut ab jetzt bearbeitet, gehört eigentlich CapCut.

Thomas Hutter: Wird trainiert. Ja. Ja, unschön. Ich dachte zuerst, was ich davon gelesen habe, das ist vielleicht auch so ein Interpretationsfehler im Zusammenhang mit Nutzungsrechten. Wir hatten ja diese Diskussion in der Vergangenheit bei Meta, wo es auch geheißen hat, ja, man tritt alle Recher Meta ab. Und dann war es ja eher, dass man, dass Meta die Möglichkeit hat, entsprechende Inhalte auf verschiedenen Plattformen einzublenden und zu nutzen. Aber bei CapCut, auch beim dritten und vierten Mal durchlesen und interpretieren, sieht es tatsächlich so aus. Ob Sie sagen, ihr dürft unser Tool nutzen, ihr dürft damit arbeiten, aber wir dürfen das dann mit deinem Material auch.

Thomas Hutter: Aha. Wirst

Thomas Besmer: du weiterhin CapCut nutzen?

Thomas Hutter: Ach, weisst du, Die Dinge, die ich mit CapCut erstelle, sind von dem her eher unproblematisch. Es ist mir dann auch egal, wenn die das für etwas anderes verwenden, weil die Schweinesachen, die mache ich immer noch in Premiere.

Thomas Besmer: Und schlussendlich, du schneidest ja eben, wie du gesagt hast, KI-Videos. Das wäre, wie wenn man Poulet dem Huhn verfüttern würde. Also von daher

Thomas Hutter: Und dann auch noch die Frage, wie gut ist gewisses Material, tatsächlich darauf zu trainieren.

Thomas Besmer: Dann Ein Thema, das mich stark beschäftigt hat, ist Google Notebook LM. Wir haben das vor 3, 4 Monaten schon mal erwähnt. Von Google das Notebook-Tool, mit dem man Notizen machen kann, beziehungsweise Recherchen machen kann, Dokumente hochladen kann. Und es wird dann auch ein Audio-File daraus produziert, wo 2 Protagonisten, meistens ein Mann und eine Frau, in einem lockeren Podcast über das Thema sprechen. Früher war es nur in Englisch verfügbar. Man konnte dann mit Umwegen eine deutsche Ausgabe machen, aber natürlich mit englischem Akzent. Jetzt seit Ende Mai, Anfang Juni als App verfügbar und eben auch komplett als Deutsch. Für mich ist das der absolute Game Changer.

Thomas Besmer: Bei ChatterPT oder auch bei Gemini mit Deep Research gebe ich ein Thema rein, das recherchiert wird. Bei Notebook LM gebe ich eigene Quellen an. Wenn ich schon etwas recherchiert habe oder z.B. Aus Gemini Quellen habe, die ich spannend finde, kann ich die dort integrieren und daraus eine Zusammenfassung machen lassen. Oder eben auch einen Audio-Podcast, der insbesondere, wenn man viel unterwegs ist, sinnvoll ist, sich in ein Thema einzuarbeiten.

Thomas Hutter: Ich finde, Podcast-Funktionalität etc. Ist wirklich nett und kann wahrscheinlich der einen oder anderen Person helfen, anstelle von 1 Zusammenfassung, ohne lesen zu müssen, in ein Thema reinzukommen. Was ich noch wesentlich spannender finde in der Entwicklung drin, ich gebe eigenes Material hin und ich kann darauf Fragen stellen.

Thomas Besmer: Mhm.

Thomas Hutter: Und das hast du ja beim GPT, wo du eigene Daten hinterlegst beim Projekt etc., hast du so was auch. Das ist dann aber wiederum beschränkt auf die Person, die es nutzt oder mit der, der es teilt. Und eine Audiozusammenfassung dazu oder einen Audiodialog habe ich in dem Fall nicht. Spannend finde ich, dass du das Ganze jetzt auch teilen kannst. Was heisst, ich stelle, nehmen wir beispielsweise Schule. Ich stelle alle Themen zusammen oder alle Inhalte zusammen zum Thema Biene. Wir kennen das ja noch von der Aufklärung her mit den 2 Bienchen etc. Und der Bestäubung.

Thomas Hutter: Ich kann also Material zusammenstellen, ich kann das Thema zusammenfassen, Ich kann daraus eigentlich ein Erklär-Audio machen. Und kann dazu dann aber auch noch ganz viele Fragen stellen oder dann auch wiederum sagen, generieren wir daraus einen Prüfungsbogen basierend auf Alter XY oder Erklär-Ausfälle 1 Person, die halt vielleicht erst das wissen hat von einem zehnjährigen kind oder wie auch immer das finde ich extrem spannend und und ich glaube auch da jetzt haben wir Audio und wir haben Text im Zusammenhang mit dem LLM zum Auswerten der Inhalte. Jetzt stell dir mal noch vor, dass wir gekoppelt, das ist ja aus dem gleichen Haus mit W03, und du hast dann zu einem Thema auch gleich wieder vielleicht erklär Videos oder generiere mir dazu Illustrationen für eine Präsentation Und dann sind wir eigentlich in dem Leistungsspektrum drin, wenn wir jetzt mal das Audio wegnehmen, was du zum Beispiel bei vollständigen AI-Agenten wie Manus heute schon drin hast. Und ich glaube, das wird für sehr, sehr viele unterschiedliche Anwendungsbereiche hochspannend werden. Also, Sofwertige nutzen sich irgendwo in der Wissensvermittlung beim Lehren. Aber auch gewisse Inhalte aufbereiten. Wenn du dir überlegst, den Aufwand, den man heute betreibt für einen Podcast. Im Vorfeld musst du irgendwo Themen zusammenstellen, das fällt nicht weg, das hättest du mit dem anderen auch.

Thomas Hutter: Jetzt Angenommen, du könntest bei Google LLM noch deine und meine Stimme hinterlegen, gibst das Material mit rein und machen daraus eine spannende Folge. Dann braucht es uns beide nicht.

Thomas Besmer: Bei 11 Labs habe ich irgendwo mal was gelesen, dass mehrere Stimmen möglich sind. Wurde das schon ausgerollt?

Thomas Hutter: Das steht zur Verfügung. Ich kann das auch nacheinander bereit so generieren. Gerade bei Eleven Labs letzte Woche auch das neue Modell 3 vorgestellt, wo zu Stimmen, wie sagt man, Gefühlsregungen und Ausdrücke hinzugefügt werden können. Also nach dem Motto, ich schreibe einen Text und setze da dahinter, säufzt und gibt das genervt wieder. Auch in der Stimme drin erkennbar und hörbar ist. Und ich glaube, das wiederum mit den richtigen Prompts, mit diesem Stimmmodell, mit mehreren Sprechern, das würde wahrscheinlich die Hürde nochmals gewaltig senken, halt auch Dinge, die man heute ja ein bisschen aufwendiger produziert, automatisiert zu machen. Und ich glaube, ein kleiner Effekt, das können wir uns teilweise heute noch nicht zu 1 zu 1 vorstellen, man hat ja irgendwas an Qualitätsbild. Und dieses Qualitätsbild, das ist geprägt von TV-Werbung.

Thomas Hutter: Also da wurde eigentlich immer die höchste qualität eingesetzt so von wegen wie kommt das bild daher wie storytelling weil unheimlich teuer im ausspielen jetzt haben wir immer mehr so formate ich sag mal auf den social media plattformen begonnen mit diesen memes über andere über andere bereiche man kann kann war grafiken machen das heißt so die Durchschnittsqualität hat sich ja in den letzten Jahren eher gefühlt, wenn man sich vom alten Standard aus orientiert, so ein bisschen gesenkt. Und die Erwartungshaltung ist auch bei vielen Dingen nicht mehr so hoch. Das heißt, wenn ich jetzt irgendwo einen Link habe auf ein TikTok-Video, ich erwarte ja da nicht den Hollywood-Streifen. Ich glaube, je mehr solche Dinge jetzt eingesetzt werden, je unterschiedlicher das da die Dinge sind, desto eher wird man in der Zukunft auch mehr bereit sein, andere Inhalte zu generieren, die man vielleicht aus der alten Brille heraus als als undenkbar sieht. Also eine Abwärtsadaption, dass man bei Dingen, bei denen man vor 10 Jahren gesagt hat, das sei qualitativ noch nicht ganz das Wahre, einen anderen Vergleichsbenchmark hat.

Thomas Besmer: Genau. Definitiv spannend. Nicht ganz das wahre. Man hat dann auch einen anderen Verklagespange. Ja, definitiv spannend. Und auch so, wir haben jetzt in diesem Monthly Talk ausschliesslich über Neuerungen im KI-Bereich gesprochen. Du bist ja sehr nahe dran. Was geht dir durch den Kopf, wenn du immer wieder die neuen Entwicklungen mitbekommst?

Thomas Hutter: Teilweise erschreckend, weil gefühlt Ich bin im digitalen Bereich seit 25 Jahren berufstätig unterwegs. Und die Zeit war ja immer verändernd. Das heisst, Egal ob das jetzt Betriebssystem oder Netzwerk oder Internetgeschwindigkeit oder Möglichkeiten anbelangt, es wurde immer eine Schippe draufgesetzt. Gefühlt sind einfach die Schippen in den letzten 2 Jahren oder in den letzten 3 Jahren haben so massiv zugenommen, die Frequenz dieser, ich lege was drauf, was es teilweise unheimlich schwierig ist, auch wirklich am Ball zu bleiben, insbesondere, wenn daneben noch Tagesgeschäfte existiert, wo man ja auch Arbeit leisten muss. Und wenn ich jetzt so quer, ich sag mal, durch LinkedIn gehe und dann noch den Google Discovery Feed anschaue, dann siehst du da auf etwas Neues, da ein hinweis auf etwas neues und du gehst diesen dingen nach allein nur schon das informieren was gibt es überall neu benötigt relativ viel zeit und ich habe jetzt bei veo investiert Ich habe mich zuerst ganz kurz eingelesen, bevor ich diese Prompts da reingeballert habe und die Kreditkarte aufgeladen habe. Das heisst, neben dem Ausprobieren muss ich mich ja dann mit diesem Thema auch befassen und dann überlegen, was heisst das für die Umsetzung. Und im Moment gefühlt dreht sich alles einfach 20 Mal schneller als noch vor 10 Jahren. Gewisse Dinge sind eigentlich frustrierend, dass wir die vor 20 Jahren noch nicht hatten oder vor 25 Jahren.

Thomas Hutter: Auf der anderen Seite ernüchternd, wie einfach gewisse Dinge gehen, wo vorher extrem viel Handwerkskunst notwendig war. Und das egal, ob wir von Bildgenerierung sprechen, von Video-Generierung oder von Coding, von irgendwelchen Sachen mit White-Code-AI-Dingen. Du kannst mit ein bisschen einlesen und ausprobieren und dem entsprechenden Zeitaufwand dann das versuchen umzusetzen. Teilweise unheimlich gute Dinge machen, Die sind zwar nicht perfekt, aber wenn man so die 2080er Pareto-Regel anwendet, würde es wahrscheinlich für vieles funktionieren, wenn man es nur so macht. Und das ist teilweise erschreckend. Also ich meine, wenn du und ich in der Lage sind, ein gutes Video zu machen, ohne dass du Grundlagen der Videotechnologie kennst, etc. Sogar noch Optimierungen kriegst beim Prompting, dass sicherlich auch die Perspektive stimmt, etc. Dann wird dem Profi das Herz bluten und sagen, das sei nie so gut wie das, was er macht.

Thomas Hutter: Aber für den Noten-Normalverbraucher ist es mehr, als er oder sie jemals selber machen könnte. Darum ist es eigentlich extrem krass.

Thomas Besmer: Sie haben vor allem auch die Geschwindigkeit. Wenn wir uns an Mitchörny zurückerinnern, die Version 5 war ja schon ein Riesensprung gegenüber der Version 4. Aber auch da hies es ja

Thomas Hutter: Und da musstest du es über Discord machen?

Thomas Besmer: Ja, genau.

Thomas Hutter: Also, du lernst In meinem Fall hatte ich Discord vorher auch nicht im Einsatz. Du hast wegen Meetjourney den Umgang mit Discord gelernt. Für etwas, was 4 Monate später wieder obsolet ist, weil es eine Web-Oberfläche dafür gibt.

Thomas Besmer: Und eben auch die Qualität, die in der 5er-Version deutlich besser war als in der 4er, aber trotzdem nach vielen Stimmen aufruften, dass ein Grafiker das immer noch besser kann, qualitativ besser und abgestimmter, oder eben das Problem mit den Fingern, das die KI oder insbesondere auch mit Journey noch hatte, diese Probleme sind mehrheitlich gelöst. Und das innerhalb von nicht mal einem Jahr.

Thomas Hutter: Ich habe gestern ein Video gesehen auf LinkedIn Tiere. Tiere, die Turmspringen machen.

Thomas Besmer: Ich habe nur deinen Hund gesehen heute.

Thomas Hutter: Ja, das war ein Schnelltest. Wobei mein Hund den Salto nicht hingekriegt hat, aber den würde er in der realen Welt auch nicht hinziehen. Aber wo du, ich glaube, begonnen hat es mit deiner Katze, das heißt, es braucht ja mehr Katzencontent. Da siehst du eine Katze auf einem Sprungturm für Turmspringen, nimmt A-Lauf, macht einen doppelten oder dreifachen salto mit schraube und die katze sieht immer nach katze aus Was war in den letzten modellen nicht möglich das hat jetzt heilu einigermaßen drin mit diesen mit diesen sag mal generierten Personen oder Charakteren oder jetzt in dem Fall Tieren, die richtigen Bewegungen hinzukriegen, das ging vorher nicht. Jetzt kannst du das. Und es sieht lustig aus, wenn du die Bilder anschaust. Es sieht relativ echt aus. Ja, dass die Katze wahrscheinlich nicht Turmspringen macht und vierfache Saltos, da muss es auch nicht perfekt raussehen, weil es erfüllt ja den Zweck.

Thomas Hutter: Also mein Hund hatte die Zunge draußen, von dem her hat es gepasst und Er ist gerade reingesprungen, was wir im Leben nie machen. Von dem her, ja, es ist eine Täuschung, aber es sah eigentlich auch nicht schlecht aus.

Thomas Besmer: Ich musste zweimal hinschauen, ob es wirklich Cliff ist oder nicht. Insbesondere die Anfangsszenen, die ersten 2, 3 Sekunden, konnte man nicht unterscheiden, ob das Kai oder echt.

Thomas Hutter: Ich glaube, so geht es bei vielen Dingen. Es gibt gewisse Szenen, da merkst du es an irgendetwas. Jetzt bei den VO3-Szenen, die ich generiert habe, da hat es 3, 4 darunter. Da hatte ich so das Gefühl, mit einem Schauspieler und mit deiner zu 90 Prozent guten Kameraführung hätte es nicht unbedingt besser ausgesehen. Ja, also bleibt spannend, teilweise erschreckend, wenn ich denke, dass ich mit 0 Aufwand eine News-Sendung faken könnte. Limitierung im moment vielleicht dann noch die kreditkarte wo ein zögern lässt ob man jetzt für irgendeinen gut deutsch scheiß mal kurz irgendwie in 1000 erhielten liegt für videogebühren ist dann vielleicht das was einen hindern lässt aber ich glaube gerade da wo täuschung und betrug und solche sachen im vordergrund stehen ist das sicherlich auch kein hindernis also da die einen kollegen die bis jetzt mit bildern extrem gefegt haben etc die können das in zukunft ab mit videos vielleicht kommt an dieser werbespot bis wir gemeinsam in einen Ferrari einsteigen und erklären, wir haben das Businessmodell gefunden mit Edward Tyson. Vielleicht kriegen wir das irgendwann hin, ohne dass wir einen Ferrari leasen oder üben müssen und ohne dass wir da zehnmal üben, bis wir parallel einsteigen.

Thomas Besmer: Ja, wobei, da hätte ich andere Ideen, als mich jetzt in einen Ferrari einsteigen zu lassen. Ja, Thomas, vielen herzlichen Dank. Die Zeit ist schon wieder Dein nächster Termin wartet auch schon online, so wie du mir angedeutet hast. Danke vielmals für die Ausführungen. Es bleibt spannend, was die KI alles bringt. Vielleicht schon im nächsten Monat Wiederneuerungen, die uns erstaunen lassen, wie das mit VO3 der Fall war oder teilweise auch mit Mitjourney. Thomas, vielen herzlichen Dank für deine Zeit.

Thomas Hutter: Danke, Liam.

Thomas Besmer: Hat dir die Episode gefallen? Dann bewerte uns auf iTunes oder Spotify und folge uns auch im Podcast Player deines Vertrauens. Über Feedback zur Episode freuen wir uns auf Instagram, LinkedIn oder auch per E-Mail an dmu.hutter-consult.com. Wir hören uns bei der nächsten Episode und bis dahin wünschen wir dir gute Abkühlung und einen angenehmen Sommer oder angenehme Sommertage, solange sind wir ja nicht weg. Vielen Dank und Tschüss!