Prototyping Friday No. 9 – Auf der Suche nach der Stimme mit Charakter

Wie lässt sich eine KI-Stimme entwickeln, die nicht nur verständlich, sondern auch wiedererkennbar ist? Mit genau dieser Frage sind wir in den neunten Prototyping Friday gestartet – unserem Format, bei dem wir gemeinsam mit einem Impulsgeber in wenigen Stunden einen funktionierenden KI-Prototypen aufbauen.
Was ist ein Prototyping Friday?
Einmal im Monat laden wir Fachleute aus Industrie, Wissenschaft oder Design ein, um gemeinsam eine konkrete Idee mit Open-Source-KI-Technologien umzusetzen. Innerhalb eines Nachmittags entsteht ein greifbarer Prototyp – nicht als Demo, sondern als Ausgangspunkt für echte Anwendungen. Für unsere Gäste ist das eine Chance, ihr Know-how direkt mit innovativen Technologien zu verbinden. Für uns ist es ein Fenster in reale Herausforderungen und Use Cases.
Der Impulsgeber: audity GmbH – Brand Sound Agency
Dieses Mal war unser Gast die audity GmbH, eine Agentur, die sich auf markengerechten Sound spezialisiert hat. Ihre Frage: Können KI-Stimmen so gestaltet werden, dass sie einen einzigartigen akustischen Charakter erhalten – vergleichbar mit einem Markenlogo im Audioformat?
Ein spannender Use Case, denn in einer Zeit, in der Voice Assistants, Support-Bots und automatisierte Erklärvideos immer präsenter werden, wächst der Bedarf an individuellen Stimmen mit Wiedererkennungswert.
Der Tech-Stack: F5-TTS und ein Blick auf neue Open-Source-Ansätze
Wir haben uns zunächst auf F5-TTS konzentriert – eine Open-Source-Lösung zur Text-zu-Sprache-Synthese, die eine gute Balance aus Qualität und Flexibilität bietet. Ziel war es, Sprachprofile zu generieren, die sich in Stil, Tonhöhe und Rhythmus unterscheiden – etwa zwischen sachlich-nüchtern, jugendlich-verspielt oder warm-vertrauensvoll.
Unsere Erkenntnisse:
- ✅ Klar erkennbare Unterschiede im Sprachstil waren gut abbildbar, besonders bei Intonation und Sprechgeschwindigkeit.
- ❌ Dialekte und Akzente stellten die größte Herausforderung dar – oft wurden sie geglättet oder verloren ihren natürlichen Klang.
- 🔍 Neue Frameworks wie Sesame scheinen vielversprechend, insbesondere im Bereich Stimmimitation und -anpassung. Hier könnte sich bald ein qualitativer Sprung andeuten.
Und was nun?
Auch wenn nicht jede Stimme sofort markenfähig war, war der Prototyp ein voller Erfolg: Innerhalb weniger Stunden konnten wir konkrete Möglichkeiten und Grenzen der aktuellen Open-Source-Stimmenlandschaft ausloten. Das Feedback der audity-Experten war klar: Die Potenziale sind riesig – und es lohnt sich, dran zu bleiben.
Wir danken an die Teilnehmer Rainer Hirt, Lars Knaack, Alexander Dick, Mike Groezinger, Rainer Kruschwitz, Felix Bahr, Martha Friedrich, und Patrick Sallaz für den spannenden Austausch und freuen uns auf die nächsten Ideen, die wir gemeinsam zum Klingen bringen werden.
Sie haben selbst einen Use Case im Kopf – aber noch keine Lösung?
Lassen Sie uns sprechen. Vielleicht starten wir schon bald gemeinsam Ihren Prototypen – souverän, offen und praxisnah.
Ähnliche Beiträge

Wie lassen sich datenschutzkonforme KI-Lösungen im Gesundheitswesen umsetzen? Ein Workshop mit der Klinik Freiburg und cyberLAGO zeigte: Mit souveräner Open-Source-Infrastruktur entstehen in wenigen Stunden funktionierende Chatbot-Prototypen.

Mit Büro Bobr testeten wir, wie KI politische Inhalte generiert. DeepSeek und LLaMA lieferten erstaunlich glaubwürdige Formate.