iOS 26 bringt neue Speech-API: Apple überholt Whisper bei der Geschwindigkeit – mit Einschränkungen

Mit dem kommenden Update auf iOS 26 und macOS „Tahoe“ präsentiert Apple eine stark überarbeitete Schnittstelle zur Sprachtranskription. Die neue Speech-to-Text-API ist darauf ausgelegt, gesprochene Sprache – ob in Echtzeit oder aus Audiodateien – deutlich schneller in Text umzuwandeln als bisherige Lösungen. Erste Tests zeigen, dass Apple damit tatsächlich einen neuen Standard in puncto Tempo setzt. Darüber berichtet Renewz.de unter Berufung auf heise online.
Apple zieht bei der Geschwindigkeit an der Konkurrenz vorbei
Die überarbeitete API, integriert in iOS 26, iPadOS 26 und macOS 26 „Tahoe“, basiert auf einer lokalen Verarbeitung durch die Apple-eigene Hardwarearchitektur (Apple Silicon) und ermöglicht es, Audio- oder Videodateien ohne Cloud-Anbindung direkt auf dem Gerät zu transkribieren. Das spart nicht nur Zeit, sondern erhöht auch die Datensicherheit – ein klarer Vorteil für datensensible Branchen wie Journalismus, Recht oder Gesundheitswesen.
Wie schnell das tatsächlich funktioniert, zeigen konkrete Messungen: Das Tool Yap, das Apples neue API nutzt und öffentlich auf GitHub verfügbar ist, benötigte für die Transkription eines 34-minütigen Videos nur 45 Sekunden. Zum Vergleich: Das häufig genutzte Konkurrenztool MacWhisper, das auf Whisper Large V3 Turbo von OpenAI basiert, benötigte für dieselbe Datei zwischen 1:41 Minuten und 3:55 Minuten, abhängig vom Modell.
Auch im Vergleich mit NVIDIA Parakeet vorne dabei
In weiteren Tests – unter anderem durch die Plattform 9to5Mac – wurde Apples neue Lösung mit zwei bekannten Alternativen verglichen: Whisper Large V3 Turbo von OpenAI sowie NVIDIA Parakeet, das als besonders schnell gilt. Auf einem MacBook Pro mit M2 Pro und 16 GB Arbeitsspeicher wurden Audiofiles mit einer Länge von 7:31 Minuten verarbeitet.
- NVIDIA Parakeet: 2 Sekunden
- Apple Speech-API: 9 Sekunden
- OpenAI Whisper: 40 Sekunden
Das zeigt: Apple ist nicht der Schnellste, aber im realistischen Alltag mit stabiler Hardware ist das Ergebnis sehr nah an der Spitzenleistung.
Genauigkeit bleibt ein Schwachpunkt
Allerdings hat die hohe Geschwindigkeit ihren Preis. In puncto Transkriptionsgenauigkeit schneidet Apple im Vergleich deutlich schwächer ab. Die Tester analysierten die sogenannte Character Error Rate (CER) und die Word Error Rate (WER) – zwei etablierte Metriken zur Bewertung der Transkriptionsqualität.
Modell | Zeichenfehlerquote (CER) | Wortfehlerquote (WER) |
---|---|---|
Whisper Large V3 Turbo | 0,3 % | 1,0 % |
Apple Speech-API | 3,0 % | 8,0 % |
NVIDIA Parakeet | 7,0 % | 12,0 % |
Whisper liefert somit das mit Abstand genaueste Ergebnis. Apple hingegen liefert schnellere Resultate – allerdings mit etwa zehnfach höherer Fehlerquote bei Zeichen und Wörtern.
Für welche Anwendungen ist die neue Apple-API sinnvoll
Die Wahl zwischen Apple und Whisper ist nicht nur eine technische, sondern eine strategische Entscheidung je nach Einsatzzweck
Anwendung | Empfehlung | Begründung |
---|---|---|
Live-Untertitel in Meetings/Events | Apple | Geschwindigkeit ist entscheidend |
Roh-Transkription für Schnitt/Index | Apple | Fehlerquote tolerierbar |
Juristische Protokolle | Whisper | Höchste Genauigkeit nötig |
Medizinische Dokumentation | Whisper | Kritische Begriffe, keine Toleranz für Fehler |
Podcasts & Interviews (Langform) | Whisper | Automatisierte Texte sollen veröffentlicht werden |
Social-Media-Videos mit Untertiteln | Apple | Hoher Durchsatz, Nachbearbeitung oft möglich |
Apple punktet bei tempoabhängigen, interaktiven Anwendungen, bei denen eine gewisse Fehlerquote akzeptabel ist oder sowieso nachbearbeitet wird. Whisper bleibt die bessere Wahl für Inhalte mit hohen Anforderungen an Texttreue.
Datenschutz und lokale Verarbeitung: Ein Apple-Plus
Ein bedeutender Vorteil von Apple liegt in der Architektur: Die neue API funktioniert vollständig offline. Während Whisper in der Regel über externe Tools oder Cloud-APIs läuft, erfolgt bei Apple die gesamte Verarbeitung lokal – keine Datenübertragung, keine Serververbindung, volle Kontrolle.
Gerade in Europa, wo Datenschutz streng reguliert ist (Stichwort DSGVO), dürfte das für Unternehmen und Behörden ein entscheidender Faktor sein.
Schnell, lokal, effizient – aber nicht fehlerfrei
Die neue Speech-to-Text-API von Apple markiert einen wichtigen Schritt in der Weiterentwicklung sprachbasierter Technologien auf Apple-Geräten. Für viele alltägliche Anwendungen – vor allem mit Zeitdruck – bietet sie eine echte Alternative zu OpenAI Whisper. Wer allerdings auf höchste Genauigkeit angewiesen ist, sollte (vorerst) weiterhin auf Whisper setzen. Apple beweist: Transkription wird schneller, vielseitiger und lokaler – aber Perfektion ist noch nicht erreicht.
Bleiben Sie informiert! Lesen Sie auch: Apple Zeigt IOS 26 Mit Liquid Glass, KI-Features Und Neuem Design Auf Der WWDC 2025