Whisper est un système avancé de reconnaissance vocale (ASR) qui combine une quantité importante et diversifiée de données multilingues et multitâches pour obtenir une plus grande robustesse dans la transcription et la traduction de la parole. Avec 680 000 heures de données collectées sur le Web, Whisper s'est avéré plus efficace pour retranscrire les accents et les bruits ambiants par rapport aux autres approches existantes. De plus, son architecture de bout en bout mise en œuvre sous la forme d'un transformateur codeur-décodeur permet une intégration facile dans des applications pratiques et des recherches futures en matière de traitement vocal robuste.
Ce système surpasse les modèles existants en termes de précision et de robustesse, réduisant les erreurs de 50 % par rapport aux modèles spécialisés dans la reconnaissance vocale. Whisper est également efficace dans la traduction parole-texte dans une langue autre que l'anglais et a surpassé les systèmes supervisés dans CoVoST2 en matière de traduction zéro-shot vers l'anglais.
Nous espérons que Whisper sera une solution précieuse pour les développeurs et permettra l'intégration d'interfaces vocales dans une grande variété d'applications. La grande précision et la facilité d'utilisation de Whisper en font un outil indispensable dans l'évolution de la reconnaissance vocale et de la traduction.