Teil 01Kapitel 1–4

Strategie

Voice-AI-Ziele definieren, Build-vs-Buy bewerten und den Business Case aufbauen.

4 Kapitel~21 Min. Lesezeit

Kapitel 01~5 Min. Lesezeit

Von IVR zu Sprach-Agenten

Wichtigste Erkenntnisse

IVR-Systeme stoßen an eine Grenze, weil sie nur die Optionen verstehen, die Sie programmiert haben. Sprach-Agenten verstehen Bedeutung und können Rückfragen stellen, mehrstufige Abläufe abwickeln und Aktionen ausführen.
Drei Technologien sind gleichzeitig gereift: große Sprachmodelle, die mit Bedeutung statt mit Stichwörtern arbeiten, Spracherkennung, die mit echten Audiosignalen umgeht, und synthetisierte Sprache, die Anrufer nicht ermüdet.
Sprach-Agenten können gleichzeitig Spezialisten für alles sein. Ein Agent erledigt Terminvereinbarung, Rechnungsfragen und Support in einem einzigen Gespräch – ohne Weiterleitung, ohne Warteschleife.
Die meisten Pilotprojekte gelingen. Die meisten Produktiveinsätze scheitern. Die Lücke ist operativ, nicht technisch.
Sprach-Agenten scheitern in emotionsgeladenen Situationen, wenn jeder Fall eine Ausnahme ist, wenn Regeln nicht dokumentiert sind oder wenn Erfolg Überzeugungskraft erfordert.

Frau Krüger, eine Hausbesitzerin in Hannover, sitzt an einem Dienstagabend Ende Januar im Kalten. Ihre Heizung ist um 23 Uhr ausgefallen. Sie ruft den Heizungsbauer an, der die Anlage vor drei Jahren installiert hat. „Drücken Sie die 1 für Vertrieb, die 2 für Service, die 3 für Buchhaltung." Sie drückt die 2. Ein weiteres Menü. Sie drückt die 3 für den Notdienst. Warteschleife. Nach vier Minuten legt sie auf und ruft einen Mitbewerber an.

Dieser Betrieb hat einen Auftrag von 600 Euro verloren – und vermutlich eine Kundin auf Lebenszeit. Nicht, weil keine Monteure verfügbar wären. Sondern weil die Telefonanlage für die Bequemlichkeit des Betriebs gebaut wurde, nicht für ihre. Multiplizieren Sie das mit Millionen Anrufen pro Tag, und Sie erkennen das Ausmaß des Problems.

Warum IVR an eine Grenze stieß

IVR existiert seit Jahren als elegante Lösung für ein reales Problem. Unternehmen ertranken im Anrufvolumen. Tonwahlmenüs ließen Anrufer sich selbst zu spezialisierten Mitarbeitern weiterleiten. Rechnungsfragen gingen in die Buchhaltung. Technische Probleme gingen in den Service. Eine Fließbandlogik für Telefongespräche – und für einfache Anliegen funktionierte sie.

Die Begrenzung war im Design angelegt. IVR-Systeme sind deterministisch. Sie verstehen die Optionen, die Sie programmiert haben, und sonst nichts. Eine Anruferin sagt: „Ich möchte meine Lieferadresse ändern und auch den Stand einer Rückerstattung prüfen" – und das System zwingt sie zur Wahl. Eine Absicht auswählen. Weitergeleitet werden. Sich erneut erklären. Wieder weitergeleitet werden. Von vorne beginnen.

Spracherkennung allein hat das nicht gelöst. Frühe Systeme glichen Äußerungen mit vordefinierten Absichten ab. Wer „Rechnung" sagte, landete in der Buchhaltung. Wer sagte „Ich rufe wegen einer Abbuchung von letzter Woche an", wurde entweder auf das Wort „Rechnung" gefiltert – oder das System scheiterte. Bessere Trainingsdaten und intelligentere Modelle konnten die Decke nicht durchbrechen, weil sie architektonisch war. Das System war immer nur so flexibel wie die Schubladen, die Sie vorab definiert hatten.

Was sich verändert hat

Drei Technologien sind ungefähr zur gleichen Zeit gereift. Jede war notwendig. Keine allein war ausreichend.

Große Sprachmodelle haben gelernt, mit Bedeutung statt mit Stichwörtern zu arbeiten. Klassische NLU-Systeme klassifizieren Eingaben in vordefinierte Kategorien. Sprachmodelle bauen Bedeutungsrepräsentationen auf, die sich über Kontexte hinweg verallgemeinern lassen. Eine Anruferin kann sagen: „Ich habe letzte Woche etwas bestellt, und es ist immer noch nicht da" – und das Modell versteht, dass sie nach dem Bestellstatus fragt, ohne dass diese Worte fallen. Wichtiger noch: Es kann selbst herausfinden, welche Informationen es braucht, und sie auf natürliche Weise erfragen.

Spracherkennung hat eine Schwelle überschritten. Moderne ASR kommt mit Akzenten, Hintergrundgeräuschen, Überlagerungen und den Verzögerungen natürlicher Sprache zurecht. Jemand kann aus dem Auto bei laufendem Radio anrufen, sich zweimal selbst unterbrechen – und das System bleibt am Ball.

Synthetisierte Sprache ist kein Hindernis mehr. Frühere Sprachsynthese hatte einen mechanischen Klang, der längere Gespräche anstrengend machte. Heutige TTS trifft Tonfall und Sprechtempo gut genug, damit die Stimme selbst nicht mehr ablenkt.

Verkettet man diese Komponenten, läuft der Kreislauf in unter einer Sekunde ab. Anruferin spricht; Sprache wird Text; das Modell denkt nach und antwortet; Text wird Sprache. Schnell genug, dass sich das Gespräch natürlich anfühlt.

Was das ermöglicht

Diese drei Fähigkeiten ergeben zusammen etwas, das IVR nie liefern konnte.

Zurück zu Frau Krüger und ihrer ausgefallenen Heizung. In einer Welt mit Sprach-Agenten ruft sie um 23 Uhr an, und ein Agent nimmt sofort ab. Er bittet sie, das Problem zu beschreiben. Sie sagt, die Heizung ist aus, das Haus wird kalt. Der Agent fragt, ob sie Gas riecht. Tut sie nicht. Er fragt nach ihrer Adresse, bestätigt, dass sie aus einer früheren Installation Bestandskundin ist, und bietet drei Termine für den nächsten Vormittag an. Sie wählt einen aus. Er bestätigt die Details und fragt, ob sie noch ein anderes Anliegen hat. Das Gespräch dauert zwei Minuten. Der Betrieb behält die Kundin.

Diese Interaktion bricht das alte Fließbandmodell. Ein Sprach-Agent kann gleichzeitig Spezialist für alles sein. Er leitet Frau Krüger nicht an die Terminplanung weiter, dann an die Buchhaltung, dann zurück zur Terminplanung. Er erledigt alles in einem Gespräch. Keine Weiterleitungen, keine Warteschleife, kein Wiederholen.

Wo das nicht funktioniert

Die Technologie ist bereit, aber für einen sinnvollen Einsatz muss man wissen, wo sie passt – und wo nicht. Manche Situationen brauchen Menschen. Wenn Frau Krüger zwei Tage später wütend zurückruft, weil der Monteur zu spät kam, mit dreckigen Schuhen durch ihr Haus gestapft ist und mehr als den Kostenvoranschlag berechnet hat, will sie keine effiziente Problemlösung. Sie will gehört werden. Ein Sprach-Agent kann alle richtigen Worte sagen und die Sache trotzdem schlimmer machen.

Manche Situationen sind zu uneindeutig. Sprach-Agenten funktionieren am besten, wenn die Regeln klar sind. Wenn Ihre internen Anweisungen sich widersprechen, wenn Ihre besten Mitarbeiter denselben Fall unterschiedlich behandeln würden, wenn ungeschriebenes Erfahrungswissen die Lücken in den formellen Richtlinien füllt, geben Agenten diese Verwirrung an die Anrufer zurück. Sie sind genau so gut wie Ihre Dokumentation – und die ist oft nicht gut genug.

Die Frage ist nicht, ob Sprach-Agenten Anrufe bewältigen können. Können sie. Die Frage ist, welche Anrufe, mit welcher Unterstützungsstruktur und mit welchem Rückfallplan, wenn sie an ihre Grenzen stoßen.

In den Produktivbetrieb kommen

Die meisten Pilotprojekte gelingen. Die meisten Produktiveinsätze haben Probleme. Die Lücke dazwischen ist operativ, nicht technisch.

Produktivsysteme müssen zuverlässig über die gesamte Bandbreite der realen Varianz hinweg arbeiten, die in kontrollierten Tests nicht auftaucht. Sie müssen sicher scheitern, mit sauberer Übergabe an Menschen statt mit erfundenen Bestätigungen oder abgebrochenen Gesprächen. Sie brauchen Monitoring, Debugging, Kostenkontrolle und die Möglichkeit, problematische Änderungen zurückzurollen.

Im Unternehmensmaßstab betreiben Sie mehr als einen Agenten. Ihr Termin-Agent braucht andere Fähigkeiten als Ihr Reklamations-Agent. Wenn das Anliegen einer Anruferin mehrere Bereiche umfasst, muss etwas zwischen Agenten weiterleiten, den Kontext über Übergaben hinweg erhalten und einspringen, wenn eine Komponente ausfällt. Das ist Orchestrierung – und genau hier skaliert oder stockt Voice AI im Unternehmen.

Heute werden Millionen von Anrufen über KI-Agenten abgewickelt. Die Technologie funktioniert. Aber die meisten Voice-AI-Projekte scheitern noch immer, weil Teams die falschen Anwendungsfälle wählen, zu breit aufstellen oder ohne die operative Infrastruktur für den Produktivbetrieb starten. Der Rest dieses Playbooks zeigt, wie Sie diese Fehler vermeiden.

Kapitel 02~5 Min. Lesezeit

Wo Sprach-Agenten funktionieren

Wichtigste Erkenntnisse

Fünf Merkmale sagen Erfolg voraus: hohes Volumen, wiederkehrende und vorhersehbare Muster, klare Erfolgskriterien, starke Backend-Systeme und zeitkritischer Wert.
Fehlt ein Merkmal, lässt sich das ausgleichen. Fehlen zwei, gerät das Projekt in Schwierigkeiten. Fehlen drei, ist es besser, gar nicht anzufangen.
Sprach-Agenten können menschliche Leistung in bestimmten Punkten übertreffen: Fachwissen über alle Bereiche gleichzeitig, perfekte Konsistenz über tausende Anrufe und ständige Verfügbarkeit ohne Qualitätsverlust.
Sprach-Agenten scheitern, wenn emotionale Belastungen die Interaktion bestimmen, jeder Fall eine Ausnahme ist, Regeln nicht dokumentiert sind oder Erfolg Überzeugungskraft erfordert.
Die Eignungsprüfung muss vor jeder technischen Arbeit stattfinden. Ein passender Anwendungsfall auf einer mittelmäßigen Plattform schlägt einen unpassenden auf exzellenter Technik.

Herr Bauer leitet die Disposition eines mittelgroßen Schlüsseldienstes mit Standorten in München, Augsburg und Ingolstadt. Sein Team nimmt Notrufe entgegen – jeden Tag, rund um die Uhr. Türen, die zugefallen sind. Tresore, die nicht aufgehen. Schließanlagen, die nach einem Einbruchsversuch erneuert werden müssen. Jeder Auftrag braucht andere Informationen: Postleitzahl, Zugangssituation, Versicherung, Dringlichkeit.

Kein einzelner Disponent kann das Volumen alleine stemmen. Also stellt Herr Bauer Aushilfen ein. Nur dass die Aushilfen am Wochenende anrufen lassen, in der Schicht ermüden und die wichtigen Fragen vergessen.

Dann ist da Frau Lehmann, die an einem Sonntag um drei Uhr morgens vor ihrer eigenen Wohnungstür steht. Schlüssel innen, Tür zu. Sie wählt die erste Nummer auf Google. Niemand hebt ab. Sie wählt die zweite. Anrufbeantworter. Sie wählt die dritte – und der Schlüsseldienst, der den Anruf entgegennimmt, hat den Auftrag.

Herr Bauer hat auf Sprach-Agenten umgestellt. Ein Agent nimmt jeden Notruf an, jede Schicht, jeden Tag. Er wird nicht müde. Er vergisst nie, die Versicherungsfrage zu stellen. Frau Lehmann wäre um drei Uhr morgens in unter einer Minute aufgenommen worden, ein Monteur wäre innerhalb von 45 Minuten vor Ort gewesen. Herrn Bauers Team filtert heute über die Hälfte der Routinefälle, bevor sie einen Disponenten erreichen, und wickelt mehr als 12.000 Annahmegespräche pro Monat ab.

Ein anderer Betrieb sah diese Ergebnisse und versuchte denselben Ansatz für Reklamationen abgerechneter Aufträge. Hohes Volumen. Wiederkehrend. Klare gewünschte Ergebnisse. Es scheiterte innerhalb weniger Wochen. Kunden riefen verärgert wegen Rechnungspositionen an, die sie nicht verstanden, und landeten bei einem Agenten, der weder die Auftragshistorie prüfen noch eine Gutschrift veranlassen noch erkennen konnte, wann eine Eskalation drohte. Jeder Anruf wurde zu einer fünfzehnminütigen Frustration mit anschließender Weiterleitung.

Der Unterschied lag nicht an der Technik. Beide Einsätze liefen auf derselben Plattform. Der Unterschied war die Passung.

Was einen Anwendungsfall funktionieren lässt

Nach hunderten erfolgreichen und gescheiterten Einsätzen zeichnen sich Muster ab. Erfolgreiche Anwendungsfälle teilen fünf Merkmale. Fehlt eins, lässt es sich kompensieren. Fehlen drei, sollten Sie es lassen.

Hohes Volumen. Sprach-Agenten haben Fixkosten: Gesprächsabläufe entwerfen, Systeme integrieren, Sonderfälle testen, Performance überwachen. Diese Investition rechnet sich nur, wenn Sie sie auf genug Anrufe verteilen. Fünfzig Anrufe pro Woche werden den Aufwand nie rechtfertigen. Fünfzigtausend Anrufe pro Monat verändern die Rechnung grundlegend.

Wiederkehrend und vorhersehbar. Sprach-Agenten glänzen, wenn Gespräche erkennbaren Mustern folgen. Keine identischen Skripte, sondern Variationen bekannter Themen. Herrn Bauers Notrufe variieren je nach Situation, aber die Struktur ist gleich: Ort und Erreichbarkeit klären, Schadenstyp aufnehmen, Dringlichkeit einschätzen, Termin disponieren, bestätigen. Reklamationen wirkten von außen wiederkehrend, waren es von innen aber nicht. Jede einzelne erforderte ein anderes Urteil über eine andere Auftragshistorie.

Klare Erfolgskriterien. Die besten Anwendungsfälle haben eindeutige Ergebnisse. Ist der Notfall aufgenommen oder nicht? Wurde der Termin gebucht oder nicht? Liegt eine Zahlung vor oder nicht? Wenn Erfolg von einem Urteil darüber abhängt, ob diese eine Kundin bekommen hat, was sie brauchte, sind Sie im menschlichen Territorium.

Starke Backend-Systeme. Sprach-Agenten sind nur so leistungsfähig wie die Systeme, an die sie angebunden sind. Wenn Ihre Disposition eine saubere API hat, kann der Agent Termine prüfen und buchen. Wenn die Disposition bedeutet, dass jemand drei Programme öffnet und zwischen Fenstern hin- und herkopiert, kann der Agent nur Informationen sammeln. Das ist keine Automatisierung. Das ist ein komplizierter Anrufbeantworter.

Zeitkritischer Wert. Sprach-Agenten antworten sofort. Keine Warteschleife. Kein Rückruf. Wenn diese Sofortigkeit zählt, haben Sprach-Agenten einen strukturellen Vorteil. Genau das war das Problem mit Frau Lehmann. Der Schlüsseldienst, der um drei Uhr morgens annahm, bekam den Auftrag. Der, bei dem sie warten musste, verlor ihn.

Herr Bauer hatte alle fünf Merkmale. Das Reklamationsteam hatte nur eines: Volumen. Deshalb funktionierte das eine und das andere nicht.

Wo Sprach-Agenten Menschen übertreffen

Die meisten Diskussionen über Sprach-Agenten stellen die Technologie als kostengünstigeren Ersatz für menschliche Leistung dar. In bestimmten Situationen geht es darüber hinaus.

Herrn Bauers Agent hält die Aufnahmekriterien für jede Schadensart gleichzeitig im Kopf. Ein Disponent, der den ganzen Tag Türnotöffnungen aufnimmt, kann nicht gleichzeitig Schließanlagen-Anfragen auf Expertenniveau aufnehmen. Ein Agent mit einer Breite, die kein einzelner Mensch erreicht. Er nimmt den fünftausendsten Anruf so auf wie den ersten – das ist wichtig für Fairness, Compliance und Datenqualität. Und ihm ist egal, wann das Telefon klingelt. Sonntag um drei kostet genauso wie Dienstag um zehn.

Diese Vorteile potenzieren sich. Ein Agent, der überall Experte, perfekt konsistent und immer verfügbar ist, ist nicht nur eine Kostenersparnis. Er verändert, was operativ überhaupt möglich ist.

Wo Sprach-Agenten scheitern

Auch das Scheitern folgt Mustern.

Emotionale Belastung dominiert die Interaktion. Wenn jemand wegen eines Einbruchs anruft und die Wohnung neu absichern muss, ist die Person erschüttert. Sie will Beruhigung von jemandem, der den Ernst der Lage versteht. Sprach-Agenten können die richtigen Worte sagen. Sie können keine echte Beruhigung vermitteln. Leichte Verärgerung über einen verspäteten Monteur ist beherrschbar. Schock und Angst sind es nicht.

Jeder Fall ist eine Ausnahme. Manche Prozesse existieren genau deshalb, weil die Situationen sich keinem Standardmuster fügen. Wenn der Mensch, der diese Anrufe annimmt, die meiste Zeit damit verbringt, über Einzelfälle zu urteilen, wird ein Sprach-Agent die meiste Zeit damit verbringen, an Menschen weiterzuleiten.

Die Regeln stehen nicht geschrieben. Wenn Ihre besten Mitarbeiter erfolgreich sind, weil sie über Jahre Erfahrungswissen aufgebaut haben, das niemand dokumentiert hat, hat der Sprach-Agent nichts, womit er arbeiten könnte. Fragen Sie sich: Wenn Sie eine intelligente neue Person einstellen würden und ihr nur Ihre schriftliche Dokumentation gäben – könnte sie diesen Anwendungsfall am ersten Tag bewältigen? Wenn nein, wird Ihr Sprach-Agent dasselbe Problem haben.

Wissen Sie, was Sie lösen wollen

Ihr primäres Ziel bestimmt, welche Merkmale am wichtigsten sind.

Wenn Ihr Ziel Kostensenkung ist, zählt Volumen am meisten. Sie brauchen genug Anrufe, um die Investition zu rechtfertigen. Wenn Ihr Ziel die Verbesserung der Kundenerfahrung ist, zählt Reibung am meisten – lange Warteschleifen, wiederholte Weiterleitungen, Rückrufe. Wenn Ihr Ziel Umsatzsteigerung ist, zählt Conversion am meisten: Lead-Qualifizierung, Terminbuchung, Zahlungseinzug – überall, wo Geschwindigkeit und Konsistenz sich in Euro übersetzen.

Derselbe Anwendungsfall sieht durch jede Linse anders aus. Auftragsstatusabfragen sind hochvolumig und wiederkehrend, also attraktiv für Kostenreduktion. Aber Kunden hassen Statusabfragen nicht so wie Reklamationen, und es gibt keinen Umsatzhebel. Klären Sie Ihr Ziel, bevor Sie die Eignung bewerten.

Vor dem Bau

Nutzen Sie die fünf Merkmale als Filter: hohes Volumen, wiederkehrende Muster, klare Erfolgskriterien, starke Backend-Systeme und zeitkritischer Wert. Fünfmal Ja – Sie haben einen starken Kandidaten. Drei oder vier – vorsichtig fortfahren. Weniger als drei – woanders suchen.

Kapitel 03~5 Min. Lesezeit

Das primäre Ziel wählen

Wichtigste Erkenntnisse

Voice-AI-Programme scheitern, wenn sie mehreren Herren gleichzeitig dienen wollen. Jede Designentscheidung beinhaltet Zielkonflikte – ohne ausgewiesenen Sieger wird jede Entscheidung zur Debatte.
Drei Ziele decken praktisch alle Einsätze ab: Kosten senken (Containment und Effizienz), Kundenerfahrung verbessern (Zufriedenheit und Aufwand) oder Umsatz steigern (Conversion und Bindung).
Folgen Sie dem Budget, um Ihr Ziel zu finden. Kommt das Geld aus Betrieb oder Finanzabteilung, ist das Ziel Kosten. Aus dem Customer-Experience-Bereich, ist es CX. Aus Vertrieb oder Revenue Ops, ist es Umsatz.
Die Capability-Stufen helfen beim richtigen Zuschnitt. Stufe 1 ist rein informativ. Stufe 5 ist proaktive Optimierung. Die meisten ersten Agenten sollten Stufe 2 oder 3 anpeilen.
Sekundäre Ziele folgen aus dem Erfolg beim primären Ziel. Wer auf Kundenerfahrung optimiert, bekommt Kostensenkungen oft als Nebeneffekt – zufriedene Kunden rufen seltener an.

Der Geschäftsführer eines bayerischen Sanitär- und Heizungsunternehmens wollte die Personalkosten in der Disposition senken. Die Serviceleitung wollte die Kundenzufriedenheit steigern, die seit zwei Jahren in den Bewertungsportalen abrutscht. Die Buchhaltung wollte beides – plus schnellere Zahlungserinnerungen für überfällige Rechnungen.

Also baute das Team einen Sprach-Agenten, der alles versuchen sollte. Sechs Monate später war niemand zufrieden. Der Agent fing zwar Anrufe ab, aber die Zufriedenheit fiel weiter, weil er Effizienz vor Erlebnis stellte. Die Mahnhinweise verärgerten Kunden, die wegen ganz anderer Anliegen anriefen. Jede Kennzahl bewegte sich ein wenig, keine bewegte sich genug.

Frau Hofmann übernahm den zweiten Anlauf. Sie verbrachte zwei Wochen nur mit der Auswertung der Anrufdaten, bevor sie überhaupt einen Vorschlag machte. Das größte Problem des Unternehmens war weder Kosten noch Mahnwesen. Es war Kundenabwanderung. Stammkunden wechselten zur Konkurrenz, weil die telefonische Erreichbarkeit zur Belastung geworden war.

Frau Hofmann pitchte ein einziges Ziel: Kundenerfahrung verbessern. Jede Designentscheidung würde auf Kundenaufwand und Zufriedenheit hin optimiert. Containment würde nur dann zählen, wenn es das Erlebnis nicht verschlechterte. Mahnwesen würde bei den Menschen bleiben.

Die Zufriedenheitswerte stiegen. Die Abwanderung sank. Und die Kosten sanken auch. Nicht, weil der Agent auf Kostensenkung ausgelegt war, sondern weil zufriedene Kunden seltener anriefen. Weniger Wiederholungskontakte. Weniger Eskalationen. Weniger wütende Anrufe, die doppelt so lange dauerten.

Die Geschäftsleitung wollte alles optimieren und erreichte nichts. Frau Hofmann optimierte auf eine Sache und bekam die anderen als Nebeneffekt.

Warum ein Ziel

Voice-AI-Programme scheitern, wenn sie mehreren Herren dienen sollen. Nicht weil die Technik mit Komplexität überfordert wäre, sondern weil jede Designentscheidung Zielkonflikte enthält, die einen Tiebreaker brauchen.

Soll der Agent zusätzliche dreißig Sekunden investieren, um sicherzustellen, dass die Kundin zufrieden ist, oder zum nächsten Anruf gehen? Soll er die Selbstbedienung pushen oder einen Menschen anbieten, sobald die Kundin einen wünscht? Wenn Ihr Ziel Kostensenkung ist, optimieren Sie auf Containment und Geschwindigkeit. Wenn Ihr Ziel Kundenerfahrung ist, optimieren Sie auf Zufriedenheit und geringen Aufwand. Wenn Ihr Ziel Umsatz ist, optimieren Sie auf Conversion. Diese Prioritäten kollidieren ständig, und ohne ausgewiesenen Sieger wird jede Entscheidung zur Debatte. Sie werden Sekundärkennzahlen verfolgen. Aber wenn zwei Prioritäten kollidieren, müssen Sie wissen, welche gewinnt.

Die drei Ziele

Kosten senken. Mehr Interaktionen mit weniger Personal abwickeln. Containment-Quote und Kosten pro Interaktion messen. Dieses Ziel passt, wenn Ihre Service-Organisation als Kostenstelle unter Druck steht, wenn das Volumen schneller wächst als das Budget, oder wenn Sie viel Geld für Bereitschaft, Nachtschichten und Überlauf ausgeben.

Kundenerfahrung verbessern. Die Reibung reduzieren, die Beschwerden verursacht, Loyalität untergräbt und in den Zufriedenheitswerten auftaucht. Customer Effort Score, Zufriedenheits-Score, Quote der Wiederholungskontakte und Eskalationsquote messen. Dieses Ziel passt, wenn Erfahrung eine strategische Priorität ist, wenn Wettbewerber auf Service punkten, oder wenn Ihre Service-Organisation zu viele Beschwerden und zu viel Abwanderung produziert.

Umsatz steigern. Mehr Leads konvertieren, mehr Kunden retten, die kündigen wollen, mehr Zahlungen einziehen, mehr Termine buchen. Conversion-Rate, Bindungsquote, Inkassoquote oder Buchungsquote messen, je nach Anwendungsfall. Dieses Ziel passt, wenn Sie hochvolumige Umsatzgespräche führen, die Menschen nicht skalieren können, oder wenn Sie Geld auf dem Tisch lassen, weil Sie nicht genug Personal haben, um die Nachfrage abzufangen.

Ihr Ziel finden

Drei Fragen klären meist, welches Ziel Ihres ist.

Wer gibt das Geld? Kommt es aus Betrieb oder Finanzabteilung, ist das Ziel Kostensenkung. Kommt es vom Service- oder CX-Verantwortlichen, ist das Ziel Kundenerfahrung. Kommt es aus Vertrieb oder Revenue Operations, ist das Ziel Umsatz. Die Erfolgsmetriken des Sponsors werden Ihre Erfolgsmetriken – ob Sie wollen oder nicht.

Was hat das Projekt ausgelöst? „Warum geben wir so viel für Service aus?" heißt Kosten. „Warum sind unsere Kunden so frustriert?" heißt Erfahrung. „Warum holen wir nicht mehr Umsatz?" heißt Umsatz.

Wie wird Erfolg in zwölf Monaten gemessen? Wenn Sie diese Frage nicht klar beantworten können, führen Sie das Gespräch, bevor Sie irgendetwas bauen. Unklarheit über Erfolgskriterien ist genau der Weg, auf dem Teams den Agenten bauen, der alles versucht.

Die Capability-Stufen

Sprach-Agenten können mehr als Fragen beantworten. Sie können Informationen abrufen, Änderungen vornehmen, Workflows ausführen und Gespräche von sich aus initiieren. Mehr Fähigkeit bedeutet mehr Wert – und mehr Risiko.

Stufe 1 ist rein informativ. FAQ, Öffnungszeiten, Anfahrt. Keine kundenspezifischen Daten. Geringes Risiko, geringer Wert.

Stufe 2 ist lesender Konto-Zugriff. Auftragsstatus, Terminstand, offene Posten. Erfordert Authentifizierung und Systemanbindung. Der Wert steigt deutlich, denn das sind die Anliegen, mit denen Kunden tatsächlich anrufen.

Stufe 3 sind einfache Änderungen. Adresse ändern, Termin verschieben, Auftrag stornieren. Erfordert Schreibzugriff und Geschäftslogik. Containment-Quoten verbessern sich, weil der Agent Anliegen lösen kann statt sie nur zu melden.

Stufe 4 sind mehrstufige Workflows. Eine Gutschrift bearbeiten, indem man die Berechtigung prüft, den Betrag berechnet, den Beleg erstellt und eine Bestätigung verschickt. Erfordert Orchestrierung und sorgfältige Fehlerbehandlung. Hier beginnen Agenten, einen erheblichen Teil der menschlichen Arbeitslast zu übernehmen.

Stufe 5 ist proaktiv und optimierend. Der Agent schlägt Alternativen vor, macht Bindungsangebote, erkennt Cross-Sell-Chancen. Erfordert klare Geschäftsregeln und Leitplanken, damit nichts überschießt.

Starten Sie auf Stufe 2 oder 3. Beweisen Sie, dass die Technik funktioniert. Bauen Sie operatives Vertrauen auf. Dann steigen Sie höher.

Zieldrift

Hier das Versagensmuster, auf das Sie nach dem Start achten müssen.

Sie starten mit einem klaren Ziel: Kosten senken. Der Agent geht live. Er fängt Anrufe ab. Die Zahlen sehen gut aus. Dann fällt jemandem auf, dass die Zufriedenheit bei agent-bedienten Anrufen leicht unter dem menschlichen Wert liegt. Jemand schlägt empathischere Formulierungen vor. Jemand anderes schlägt längere Gespräche vor. Wieder jemand schlägt Rückrufe statt Sofortlösungen vor.

Jeder Vorschlag klingt vernünftig. Jeder einzelne reduziert Containment ein bisschen. Nach sechs Monaten vernünftiger Vorschläge senkt Ihr kostensenkender Agent keine Kosten mehr. Er ist aus Versehen zu einem mittelmäßigen Erfahrungs-Agenten geworden.

Schützen Sie sich davor, indem Sie bei jeder Entscheidung zu Ihrer primären Kennzahl zurückkehren. Verbessert diese Änderung die Kosten pro Interaktion? Wenn nicht, warum machen wir sie? Vielleicht rechtfertigt die Antwort den Tradeoff. Aber die Frage muss gestellt werden.

Frau Hofmanns Agent war erfolgreich, weil sie nie wankte. Als jemand vorschlug, auf Containment zu optimieren, fragte sie, ob es das Erlebnis verschlechtern würde. Wenn ja, sagte sie nein. Als die Buchhaltung nach Mahnwesen fragte, sagte sie, das sei vorerst kein Ziel. Jede Entscheidung lief durch denselben Filter.

Kapitel 04~6 Min. Lesezeit

Plattform vs. Eigenbau

Wichtigste Erkenntnisse

Teams glauben, sie entscheiden, ob sie einen Sprach-Agenten bauen. Tatsächlich entscheiden sie, ob sie eine Orchestrierungsschicht bauen.
Der Voice-Agent-Stack umfasst Echtzeit-Audio-Infrastruktur, Spracherkennung und -synthese, Sprachmodell-Anbindung, Multi-Agent-Koordination, Telefonie- und Carrier-Integration, Monitoring und Observability sowie Versionierung und Rollback. Das Gesprächsdesign ist die Spitze des Eisbergs.
Versteckte Kosten beim Eigenbau: Latenzoptimierung über den gesamten Stack, Zuverlässigkeits-Engineering für Echtzeit-Audio, Carrier-Beziehungen und Telefonie-Komplexität sowie laufende Wartung, weil sich Modelle und Anbieter ständig ändern.
Vollständiger Eigenbau lockt Teams, die die Komplexität unterschätzen. Managed Services locken Organisationen, die Ergebnisse wollen, ohne die nötigen Fähigkeiten aufzubauen. Eine Plattform mit Anpassungsfähigkeit passt zu den meisten Unternehmensanforderungen.
Die Migration nach einem gescheiterten Eigenbau dauert Wochen. Der Eigenbauversuch dauert Monate. Die meisten Teams landen am Ende doch auf einer Plattform.

Daniel leitet das Engineering eines mittelständischen Energieversorgers im Ruhrgebiet. Sein Team hatte schon beeindruckende Systeme gebaut: Echtzeit-Lastmanagement. Eine Verbrauchsprognose, die täglich Millionen Datensätze verarbeitet. Als das Unternehmen beschloss, Sprach-Agenten für den Kundenservice einzuführen, ging Daniel davon aus, dass sein Team das stemmen würde.

Sechs Wochen später hatte das Team einen funktionierenden Demo. Der Agent beantwortete Fragen zum Zählerstand, verstand natürliche Sprache und war an die Backend-Systeme angebunden. Der Vorstand probierte ihn aus. Die IT-Leitung gab grünes Licht für die nächste Phase.

Da begannen die Probleme.

Der Demo lief auf einem einzigen Server mit einem Anruf zur Zeit. Der Produktivbetrieb brauchte zweihundert gleichzeitige Anrufe in Spitzenzeiten. Der Demo hatte akzeptable Latenz, wenn alles funktionierte. Der Produktivbetrieb brauchte Antwortzeiten unter einer Sekunde, während er gleichzeitig Audio-Streams, Transkription, Sprachmodelle und Sprachsynthese jonglierte. Der Demo scheiterte durch Absturz. Der Produktivbetrieb musste so scheitern, dass Anrufer unbemerkt an Menschen weitergeleitet werden.

Daniels Team verbrachte drei Monate mit Infrastruktur, mit der niemand gerechnet hatte. Carrier-Beziehungen und SIP-Trunking. Audio-Codec-Optimierung. Barge-in-Behandlung – also der Umgang damit, dass Anrufer dazwischenreden. Zustandsverwaltung über weitergeleitete Gespräche hinweg. Monitoring für ein System, in dem „Anruf abgebrochen" zwanzig verschiedene Dinge bedeuten kann.

Im sechsten Monat hatte das Team das gesamte Jahresbudget verbraucht und betrieb intern faktisch ein kleines Telekommunikationsunternehmen. Der Sprach-Agent selbst machte vielleicht 20 Prozent dessen aus, was sie gebaut hatten. Die anderen 80 Prozent waren Klempnerei.

Ein Jahr später migrierte das Unternehmen auf eine Plattform. Die Migration dauerte sechs Wochen. Drei neue Anwendungsfälle gingen im darauffolgenden Quartal live.

Die eigentliche Frage ist Orchestrierung

Die meisten Teams formulieren das als „Sollen wir einen Sprach-Agenten bauen?". Die tatsächliche Entscheidung lautet, ob Sie eine Orchestrierungsschicht bauen.

Ein einzelner Agent für einen einzigen Anwendungsfall ist ein Prototyp. Unternehmensmaßstab sieht anders aus. Ihr Termin-Agent braucht andere Fähigkeiten als Ihr Mahn-Agent. Ihr Outbound-Inkasso-Agent braucht andere Leitplanken als Ihr Inbound-Service-Agent. Wenn das Anliegen einer Anruferin mehrere Bereiche umfasst, muss etwas zwischen Spezialisten weiterleiten, den Kontext über Übergaben hinweg erhalten und einspringen, wenn Komponenten ausfallen.

Dieses „Etwas" ist Orchestrierung. Anrufe an den richtigen Agenten leiten. Zwischen Agenten übergeben, ohne den Kontext zu verlieren. Failover steuern, wenn Anbieter ausfallen. Die Echtzeit-Kette aus Audio, Transkription, Reasoning und Synthese innerhalb des Latenz-Budgets koordinieren, das Gespräch natürlich klingen lässt.

Als Daniels Team seinen Agenten baute, dachten sie, sie bauen Gesprächslogik. Am Ende bauten sie Orchestrierungsinfrastruktur. Den Großteil der acht Monate verbrachten sie mit Problemen, die nichts damit zu tun hatten, wie der Agent mit Kunden spricht.

Was der Stack tatsächlich umfasst

Teams unterschätzen den Umfang regelmäßig.

Echtzeit-Audio-Infrastruktur behandelt Sprache als kontinuierlichen Strom, nicht als einzelne Anfragen. Audio-Puffer, Netzwerk-Jitter, Stream-Synchronisation – alles im Speicher verarbeitet. Ein Aussetzer von 500 Millisekunden, der in einer Web-Anwendung unsichtbar ist, erzeugt im Gespräch eine peinliche Pause.

Spracherkennung und -synthese bedeuten mehrere Anbieter mit unterschiedlicher Genauigkeit, Latenz, Stimmqualität und Preisgestaltung. Sie werden für unterschiedliche Szenarien unterschiedliche Anbieter wollen. Ihr System abstrahiert über sie und stellt auf einen anderen um, wenn einer schwächelt.

Telefonie- und Carrier-Integration ist ein eigenes Fachgebiet, das den meisten Software-Teams fehlt. Rufnummern, SIP-Trunking, Audio-Codecs, DTMF-Töne, Anrufaufzeichnung, anbieterspezifische Eigenheiten. Spezialwissen, das Monate braucht.

Multi-Agent-Zustandsverwaltung wird schnell kompliziert. Kontext muss Anrufen über Weiterleitungen folgen. Die Historie aus dem früheren Gesprächsverlauf muss dem aktuellen Agenten zur Verfügung stehen. Versionierung und Rollback müssen funktionieren, ohne aktive Anrufe abzubrechen.

Monitoring und Observability für Voice-Systeme haben mehr Fehlermodi als typische Software. War es ein Transkriptionsfehler? Eine Modell-Halluzination? Ein abgebrochener Audio-Stream? Ein Integrations-Timeout? Sie brauchen Traces über jede Komponente.

Dann sind da die nicht offensichtlichen Probleme, die Monate fressen. Barge-in-Behandlung, wenn Anrufer mitten im Satz dazwischenreden. Erkennung von Sprecherwechseln, um Pausen vom Ende der Aussage zu unterscheiden. Latenz-Optimierung, bei der 50 Millisekunden pro Schritt entscheiden, ob das Gespräch natürlich oder hölzern wirkt. Skalierung auf zweihundert gleichzeitige Anrufe mit konstanter Latenz – Infrastruktur, die die meisten Teams noch nie gebaut haben.

Diese Probleme werden von Plattform-Teams einmal gelöst und von jedem Kunden wiederverwendet. Sie selbst zu lösen heißt, dass Ihr Team Experte für Telefonie-Infrastruktur wird statt für Voice-Agent-Design.

Wo Sie auf dem Spektrum landen

Die Entscheidung verläuft auf einem Spektrum mit drei Positionen.

Voller Eigenbau. Sie setzen den gesamten Stack zusammen. Speech-to-Text, Sprachmodell, Text-to-Speech, Orchestrierung, Telefonie, Monitoring – alles. Sie besitzen alles. Die Total Cost of Ownership übersteigt regelmäßig die ursprünglichen Schätzungen, weil das Problem von außen einfacher aussieht, als es ist.

Managed Services. Sie geben den ganzen Anwendungsfall an einen Anbieter ab, der Plattform und Implementierung kombiniert. Schnell live, geringer interner Aufwand – aber Sie verlieren die Kontrolle über das Produkt und die Daten. Wenn der Anbieter pivotiert, ihre Preise erhöht oder ihre Qualität schwankt, haben Sie keinen Hebel.

Plattform mit Anpassungsfähigkeit. Sie nutzen eine Plattform für Orchestrierung, Telefonie und Echtzeit-Stack, behalten aber die Kontrolle über Gesprächsdesign, Tools, Branding und Daten. Das ist der mittlere Weg, der für die meisten Unternehmen funktioniert: Sie bauen das, was Ihr Geschäft auszeichnet, und kaufen den Rest.

Wann Eigenbau Sinn ergibt

Eigenbau ist nicht immer falsch. Er ergibt in bestimmten Konstellationen Sinn.

Ihre Anforderungen liegen außerhalb dessen, was Plattformen abdecken. Tiefgreifende Modifikationen an Audio-Verarbeitung, Transkriptionsverhalten oder Echtzeit-Pipeline – nach echter Prüfung, nicht nach Annahme.

Sie haben erhebliche bestehende Voice-Infrastruktur. Sie für KI-Agenten zu erweitern, kann günstiger sein als der Wechsel auf eine Plattform. Die Grenzkosten verändern sich, wenn Sie nicht bei null beginnen.

Regulatorische Vorgaben verbieten Drittanbieter-Plattformen. Manche Branchen schränken ein, wer Kundendaten verarbeiten darf. Wenn keine Plattform die Compliance-Anforderungen erfüllt, kann Eigenbau die einzige Option sein.

Voice AI ist Kern Ihres Wettbewerbsvorteils. Wenn Sie aus strategischen Gründen volle Kontrolle über den Technologie-Stack wollen, kann Eigenbau auch bei höheren Kosten sinnvoll sein.

Seien Sie ehrlich zu sich selbst. Die meisten Teams, die sich für Eigenbau entscheiden, tun das, weil sie die Komplexität unterschätzen, nicht weil ihre Anforderungen es verlangen.

Wann eine Plattform Sinn ergibt

Für die meisten Unternehmen, die in Voice AI einsteigen, sprechen Plattformen aus vorhersehbaren Gründen.

Die Time-to-Value verkürzt sich – aus acht Monaten werden acht Wochen. Wenn der Weg in den Produktivbetrieb zählt, gewinnen Plattformen. Die operative Last verschiebt sich: Ihre Ingenieure konzentrieren sich auf Agenten und Geschäftslogik statt auf Klempnerei. Vorgefertigte Integrationen beschleunigen typische Szenarien – CRM, Ticketsysteme, Disposition, Zahlungsanbindung. Multi-Agent-Orchestrierung ist eingebaut. Anbieter-Flexibilität erlaubt es, Spracherkennung, Synthese und Sprachmodell zu tauschen, ohne den Stack neu zu schreiben.

Manche Teams landen bei einer hybriden Lösung. Plattform für Orchestrierung und Telefonie, eigene Komponenten dort, wo sie Kontrolle brauchen. Das funktioniert, wenn die Grenze klar ist. Es funktioniert nicht, wenn Teams eigene Infrastruktur bauen, weil sie sie für einfach halten – und dann feststellen, dass sie es nicht ist. Das ist kein Hybridansatz. Das sind Daniels acht Monate.

Plattformen bewerten

Wenn Sie Plattformen evaluieren, achten Sie auf das, was zählt.

Multi-Agent-Orchestrierung ist der Kernwert. Können Sie mehrere spezialisierte Agenten betreiben? Können Anrufe übergeben werden, ohne den Kontext zu verlieren? Können Sie Routing-Regeln definieren?

Anbieter-Flexibilität schützt vor Lock-in. Können Sie Anbieter ohne Code-Änderungen tauschen? Können Sie unterschiedliche Anbieter für unterschiedliche Agenten nutzen?

Latenz unter Last bestimmt die Gesprächsqualität. Lassen Sie sich Perzentile unter Produktivbedingungen mit gleichzeitigen Anrufen geben, nicht Demo-Werte.

Observability bestimmt operative Geistesgegenwart. Wenn ein Anruf schiefgeht, können Sie Transkription, Reasoning und Synthese durchziehen? Können Sie Anrufe abspielen?

Enterprise-Sicherheit und Compliance entscheiden über Tragfähigkeit. Wo fließen die Daten? Welche Zertifizierungen liegen vor? Holen Sie sich konkrete Antworten.

Diese Kriterien wiegen schwerer als Feature-Listen. Eine Plattform, die schnell, flexibel und nachvollziehbar ist, dient Ihnen besser als eine mit mehr Funktionen, aber schlechteren Grundlagen.

Daniels Team konnte alles, was es gebaut hat, auch wirklich bauen. Aber acht Monate und das dreifache Budget später bauten sie Infrastruktur, obwohl ihr Ziel war, Agenten in den Produktivbetrieb zu bringen. Sie lösten Orchestrierungsprobleme, während ihre Kunden eigentlich nur ihren Zählerstand abfragen wollten.

Verbringen Sie keine acht Monate mit dem Problem eines anderen.

Praxis statt Theorie

Sehen Sie das Playbook live in einer Demo.

30 Minuten, kostenlos. Wir gehen einen Anwendungsfall in Ihrem Unternehmen durch.