(BTC)
(ETH)
(LTC)
RENEWZ.de
Finde, was zählt. Immer informiert
iOS 26 bringt neue Speech-API: Apple überholt Whisper bei der Geschwindigkeit – mit Einschränkungen

iOS 26 bringt neue Speech-API: Apple überholt Whisper bei der Geschwindigkeit – mit Einschränkungen

Juli 4, 2025
Monika Schmidt
Apple führt mit iOS 26 eine neue Speech-to-Text-API ein, die deutlich schneller arbeitet als bisherige Modelle. Was das für Nutzer bedeutet – kompakt erklärt.

Mit dem kommenden Update auf iOS 26 und macOS „Tahoe“ präsentiert Apple eine stark überarbeitete Schnittstelle zur Sprachtranskription. Die neue Speech-to-Text-API ist darauf ausgelegt, gesprochene Sprache – ob in Echtzeit oder aus Audiodateien – deutlich schneller in Text umzuwandeln als bisherige Lösungen. Erste Tests zeigen, dass Apple damit tatsächlich einen neuen Standard in puncto Tempo setzt. Darüber berichtet Renewz.de unter Berufung auf heise online.

Apple zieht bei der Geschwindigkeit an der Konkurrenz vorbei

Die überarbeitete API, integriert in iOS 26, iPadOS 26 und macOS 26 „Tahoe“, basiert auf einer lokalen Verarbeitung durch die Apple-eigene Hardwarearchitektur (Apple Silicon) und ermöglicht es, Audio- oder Videodateien ohne Cloud-Anbindung direkt auf dem Gerät zu transkribieren. Das spart nicht nur Zeit, sondern erhöht auch die Datensicherheit – ein klarer Vorteil für datensensible Branchen wie Journalismus, Recht oder Gesundheitswesen.

Wie schnell das tatsächlich funktioniert, zeigen konkrete Messungen: Das Tool Yap, das Apples neue API nutzt und öffentlich auf GitHub verfügbar ist, benötigte für die Transkription eines 34-minütigen Videos nur 45 Sekunden. Zum Vergleich: Das häufig genutzte Konkurrenztool MacWhisper, das auf Whisper Large V3 Turbo von OpenAI basiert, benötigte für dieselbe Datei zwischen 1:41 Minuten und 3:55 Minuten, abhängig vom Modell.

Auch im Vergleich mit NVIDIA Parakeet vorne dabei

In weiteren Tests – unter anderem durch die Plattform 9to5Mac – wurde Apples neue Lösung mit zwei bekannten Alternativen verglichen: Whisper Large V3 Turbo von OpenAI sowie NVIDIA Parakeet, das als besonders schnell gilt. Auf einem MacBook Pro mit M2 Pro und 16 GB Arbeitsspeicher wurden Audiofiles mit einer Länge von 7:31 Minuten verarbeitet.

  • NVIDIA Parakeet: 2 Sekunden
  • Apple Speech-API: 9 Sekunden
  • OpenAI Whisper: 40 Sekunden

Das zeigt: Apple ist nicht der Schnellste, aber im realistischen Alltag mit stabiler Hardware ist das Ergebnis sehr nah an der Spitzenleistung.

Genauigkeit bleibt ein Schwachpunkt

Allerdings hat die hohe Geschwindigkeit ihren Preis. In puncto Transkriptionsgenauigkeit schneidet Apple im Vergleich deutlich schwächer ab. Die Tester analysierten die sogenannte Character Error Rate (CER) und die Word Error Rate (WER) – zwei etablierte Metriken zur Bewertung der Transkriptionsqualität.

ModellZeichenfehlerquote (CER)Wortfehlerquote (WER)
Whisper Large V3 Turbo0,3 %1,0 %
Apple Speech-API3,0 %8,0 %
NVIDIA Parakeet7,0 %12,0 %

Whisper liefert somit das mit Abstand genaueste Ergebnis. Apple hingegen liefert schnellere Resultate – allerdings mit etwa zehnfach höherer Fehlerquote bei Zeichen und Wörtern.

Für welche Anwendungen ist die neue Apple-API sinnvoll

Die Wahl zwischen Apple und Whisper ist nicht nur eine technische, sondern eine strategische Entscheidung je nach Einsatzzweck

AnwendungEmpfehlungBegründung
Live-Untertitel in Meetings/EventsAppleGeschwindigkeit ist entscheidend
Roh-Transkription für Schnitt/IndexAppleFehlerquote tolerierbar
Juristische ProtokolleWhisperHöchste Genauigkeit nötig
Medizinische DokumentationWhisperKritische Begriffe, keine Toleranz für Fehler
Podcasts & Interviews (Langform)WhisperAutomatisierte Texte sollen veröffentlicht werden
Social-Media-Videos mit UntertitelnAppleHoher Durchsatz, Nachbearbeitung oft möglich

Apple punktet bei tempoabhängigen, interaktiven Anwendungen, bei denen eine gewisse Fehlerquote akzeptabel ist oder sowieso nachbearbeitet wird. Whisper bleibt die bessere Wahl für Inhalte mit hohen Anforderungen an Texttreue.

Datenschutz und lokale Verarbeitung: Ein Apple-Plus

Ein bedeutender Vorteil von Apple liegt in der Architektur: Die neue API funktioniert vollständig offline. Während Whisper in der Regel über externe Tools oder Cloud-APIs läuft, erfolgt bei Apple die gesamte Verarbeitung lokal – keine Datenübertragung, keine Serververbindung, volle Kontrolle.

Gerade in Europa, wo Datenschutz streng reguliert ist (Stichwort DSGVO), dürfte das für Unternehmen und Behörden ein entscheidender Faktor sein.

Schnell, lokal, effizient – aber nicht fehlerfrei

Die neue Speech-to-Text-API von Apple markiert einen wichtigen Schritt in der Weiterentwicklung sprachbasierter Technologien auf Apple-Geräten. Für viele alltägliche Anwendungen – vor allem mit Zeitdruck – bietet sie eine echte Alternative zu OpenAI Whisper. Wer allerdings auf höchste Genauigkeit angewiesen ist, sollte (vorerst) weiterhin auf Whisper setzen. Apple beweist: Transkription wird schneller, vielseitiger und lokaler – aber Perfektion ist noch nicht erreicht.

Bleiben Sie informiert! Lesen Sie auch: Apple Zeigt IOS 26 Mit Liquid Glass, KI-Features Und Neuem Design Auf Der WWDC 2025

crossmenu