iOS 26 bringt neue Speech-API: Apple überholt Whisper bei der Geschwindigkeit – mit Einschränkungen

Juli 4, 2025

Monika Schmidt

Apple führt mit iOS 26 eine neue Speech-to-Text-API ein, die deutlich schneller arbeitet als bisherige Modelle. Was das für Nutzer bedeutet – kompakt erklärt.

Inhaltsübersicht

Primary Item (H2)Sub Item 1 (H3)Sub Item 2 (H4)
Sub Item 3 (H5)
Sub Item 4 (H6)

Mit dem kommenden Update auf iOS 26 und macOS „Tahoe“ präsentiert Apple eine stark überarbeitete Schnittstelle zur Sprachtranskription. Die neue Speech-to-Text-API ist darauf ausgelegt, gesprochene Sprache – ob in Echtzeit oder aus Audiodateien – deutlich schneller in Text umzuwandeln als bisherige Lösungen. Erste Tests zeigen, dass Apple damit tatsächlich einen neuen Standard in puncto Tempo setzt. Darüber berichtet Renewz.de unter Berufung auf heise online.

Apple zieht bei der Geschwindigkeit an der Konkurrenz vorbei

Die überarbeitete API, integriert in iOS 26, iPadOS 26 und macOS 26 „Tahoe“, basiert auf einer lokalen Verarbeitung durch die Apple-eigene Hardwarearchitektur (Apple Silicon) und ermöglicht es, Audio- oder Videodateien ohne Cloud-Anbindung direkt auf dem Gerät zu transkribieren. Das spart nicht nur Zeit, sondern erhöht auch die Datensicherheit – ein klarer Vorteil für datensensible Branchen wie Journalismus, Recht oder Gesundheitswesen.

Wie schnell das tatsächlich funktioniert, zeigen konkrete Messungen: Das Tool Yap, das Apples neue API nutzt und öffentlich auf GitHub verfügbar ist, benötigte für die Transkription eines 34-minütigen Videos nur 45 Sekunden. Zum Vergleich: Das häufig genutzte Konkurrenztool MacWhisper, das auf Whisper Large V3 Turbo von OpenAI basiert, benötigte für dieselbe Datei zwischen 1:41 Minuten und 3:55 Minuten, abhängig vom Modell.

Auch im Vergleich mit NVIDIA Parakeet vorne dabei

In weiteren Tests – unter anderem durch die Plattform 9to5Mac – wurde Apples neue Lösung mit zwei bekannten Alternativen verglichen: Whisper Large V3 Turbo von OpenAI sowie NVIDIA Parakeet, das als besonders schnell gilt. Auf einem MacBook Pro mit M2 Pro und 16 GB Arbeitsspeicher wurden Audiofiles mit einer Länge von 7:31 Minuten verarbeitet.

NVIDIA Parakeet: 2 Sekunden
Apple Speech-API: 9 Sekunden
OpenAI Whisper: 40 Sekunden

Das zeigt: Apple ist nicht der Schnellste, aber im realistischen Alltag mit stabiler Hardware ist das Ergebnis sehr nah an der Spitzenleistung.

Genauigkeit bleibt ein Schwachpunkt

Allerdings hat die hohe Geschwindigkeit ihren Preis. In puncto Transkriptionsgenauigkeit schneidet Apple im Vergleich deutlich schwächer ab. Die Tester analysierten die sogenannte Character Error Rate (CER) und die Word Error Rate (WER) – zwei etablierte Metriken zur Bewertung der Transkriptionsqualität.

Modell	Zeichenfehlerquote (CER)	Wortfehlerquote (WER)
Whisper Large V3 Turbo	0,3 %	1,0 %
Apple Speech-API	3,0 %	8,0 %
NVIDIA Parakeet	7,0 %	12,0 %

Whisper liefert somit das mit Abstand genaueste Ergebnis. Apple hingegen liefert schnellere Resultate – allerdings mit etwa zehnfach höherer Fehlerquote bei Zeichen und Wörtern.

Für welche Anwendungen ist die neue Apple-API sinnvoll

Die Wahl zwischen Apple und Whisper ist nicht nur eine technische, sondern eine strategische Entscheidung je nach Einsatzzweck

Anwendung	Empfehlung	Begründung
Live-Untertitel in Meetings/Events	Apple	Geschwindigkeit ist entscheidend
Roh-Transkription für Schnitt/Index	Apple	Fehlerquote tolerierbar
Juristische Protokolle	Whisper	Höchste Genauigkeit nötig
Medizinische Dokumentation	Whisper	Kritische Begriffe, keine Toleranz für Fehler
Podcasts & Interviews (Langform)	Whisper	Automatisierte Texte sollen veröffentlicht werden
Social-Media-Videos mit Untertiteln	Apple	Hoher Durchsatz, Nachbearbeitung oft möglich

Apple punktet bei tempoabhängigen, interaktiven Anwendungen, bei denen eine gewisse Fehlerquote akzeptabel ist oder sowieso nachbearbeitet wird. Whisper bleibt die bessere Wahl für Inhalte mit hohen Anforderungen an Texttreue.

Datenschutz und lokale Verarbeitung: Ein Apple-Plus

Ein bedeutender Vorteil von Apple liegt in der Architektur: Die neue API funktioniert vollständig offline. Während Whisper in der Regel über externe Tools oder Cloud-APIs läuft, erfolgt bei Apple die gesamte Verarbeitung lokal – keine Datenübertragung, keine Serververbindung, volle Kontrolle.

Gerade in Europa, wo Datenschutz streng reguliert ist (Stichwort DSGVO), dürfte das für Unternehmen und Behörden ein entscheidender Faktor sein.

Schnell, lokal, effizient – aber nicht fehlerfrei

Die neue Speech-to-Text-API von Apple markiert einen wichtigen Schritt in der Weiterentwicklung sprachbasierter Technologien auf Apple-Geräten. Für viele alltägliche Anwendungen – vor allem mit Zeitdruck – bietet sie eine echte Alternative zu OpenAI Whisper. Wer allerdings auf höchste Genauigkeit angewiesen ist, sollte (vorerst) weiterhin auf Whisper setzen. Apple beweist: Transkription wird schneller, vielseitiger und lokaler – aber Perfektion ist noch nicht erreicht.

Bleiben Sie informiert! Lesen Sie auch: Apple Zeigt IOS 26 Mit Liquid Glass, KI-Features Und Neuem Design Auf Der WWDC 2025