# **Speech to text | Présentation de Whisper**


<img src ='https://images.openai.com/blob/13c810cb-0592-442d-9580-714838b8ed28/whisper.jpg?trim=519,129,519,119&width=3200'>


L'API de synthèse vocale fournit deux points de terminaison, transcriptionset , basés sur notre [modèle Whispertranslations](https://openai.com/research/whisper) open source large-v2 de pointe . Ils peuvent être utilisés pour :

Transcrivez l'audio dans la langue dans laquelle il se trouve.
Traduire et transcrire l'audio en anglais.
Les téléchargements de fichiers sont actuellement limités à 25 Mo et les types de fichiers d'entrée suivants sont pris en charge : `mp3`, `mp4`, `mpeg`, `mpga`, `m4a`, `wav` et `webm`.

L'architecture Whisper est une approche simple de bout en bout, implémentée sous la forme d'un transformateur codeur-décodeur. L'audio d'entrée est divisé en morceaux de 30 secondes, convertis en un spectrogramme log-Mel, puis transmis à un encodeur. Un décodeur est formé pour prédire la légende de texte correspondante, mélangée à des jetons spéciaux qui dirigent le modèle unique pour effectuer des tâches telles que l'identification de la langue, l'horodatage au niveau de la phrase, la transcription vocale multilingue et la traduction vocale vers l'anglais.

# **Transcriptions**

L'API de transcriptions prend en entrée le fichier audio que vous souhaitez transcrire et le format de fichier de sortie souhaité pour la transcription de l'audio. Nous prenons actuellement en charge plusieurs formats de fichiers d'entrée et de sortie.



In [1]:
!pip install openai==0.27.0

Collecting openai==0.27.0
  Downloading openai-0.27.0-py3-none-any.whl (70 kB)
     ---------------------------------------- 70.1/70.1 kB 3.7 MB/s eta 0:00:00
Installing collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 0.28.0
    Uninstalling openai-0.28.0:
      Successfully uninstalled openai-0.28.0
Successfully installed openai-0.27.0



[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import requests

# Téléchargement du fichier audio https://cdn.openai.com/whisper/draft-20220920a/multilingual.wav

# Requête HTTP
response = requests.get("https://cdn.openai.com/whisper/draft-20220920a/multilingual.wav")

# Ecriture du fichier en local
with open('multilingual.wav', 'wb') as f: f.write(response.content)

In [4]:
# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai

openai.api_key = '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'


transcript = openai.Audio.transcribe(model="whisper-1", 
                                     file=open("multilingual.wav", "rb"), 
                                     engine="gpt3", 
                                     speaker_labels=True)
transcript['text']

"Whisper est un système de reconnaissance automatique de la parole entraîné sur 680.000 heures de données multilingues et multitâches récoltées sur Internet. Nous établissons que l'utilisation de données d'un tel nombre et d'une telle diversité est la raison pour laquelle The System est à même de comprendre de nombreux accents en dépit de bruits de fond, de comprendre un vocabulaire technique et de réussir la traduction depuis diverses langues en anglais. Nous distribuons en tant que logiciel libre le code source pour nos modèles et pour l'inférence afin que ceux-ci puissent servir comme un point de départ pour construire des applications utiles et pour aider à faire progresser la recherche en traitement de la parole."

# **Traductions**

## Langues prises en charge

https://github.com/openai/whisper#available-models-and-languages

Afrikaans, arabe, arménien, azerbaïdjanais, biélorusse, bosniaque, bulgare, catalan, chinois, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, galicien, allemand, grec, hébreu, hindi, hongrois, islandais, indonésien, Italien, japonais, kannada, kazakh, coréen, letton, lituanien, macédonien, malais, marathi, maori, népalais, norvégien, persan, polonais, portugais, roumain, russe, serbe, slovaque, slovène, espagnol, swahili, suédois, tagalog, Tamoul, thaï, turc, ukrainien, ourdou, vietnamien et gallois.

In [5]:
transcript = openai.Audio.translate(model="whisper-1", 
                                    file=open("multilingual.wav", "rb"),
                                    engine="davinci",
                                    target_language="en")

transcript['text']

'Whisper is an automatic recognition system of speech trained on 680,000 hours of multilingual and multitasking data collected on the Internet. We establish that the use of data of such a number and such a diversity is the reason why the system is able to understand many accents, despite background noise, to understand technical vocabulary, and to succeed in translation from various languages into English. As a free software, we distribute the source code for our models and for the inference, so that it can be used as a starting point to build useful applications and to help progress research in speech processing.'

# Entrées plus longues

Par défaut, l'API Whisper ne prend en charge que les fichiers de moins de 25 Mo. Si votre fichier audio est plus long que cela, vous devrez le diviser en morceaux de 25 Mo ou moins ou utiliser un format audio compressé. Pour obtenir les meilleures performances, nous vous suggérons d’éviter de diviser l’audio au milieu d’une phrase, car cela pourrait entraîner une perte de contexte.



In [6]:
!pip install gTTS pydub

Collecting gTTS
  Downloading gTTS-2.3.2-py3-none-any.whl (28 kB)
Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Installing collected packages: pydub, gTTS
Successfully installed gTTS-2.3.2 pydub-0.25.1



[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
from pydub import AudioSegment

song = AudioSegment.from_mp3("multilingual.wav")

# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000

first_10_minutes = song[:ten_minutes]

first_10_minutes.export("good_morning_10.mp3", format="mp3")

FileNotFoundError: [WinError 2] Le fichier spécifié est introuvable

# Text to speech

**gTTS (Google Text-to-Speech) :** **gTTS** est une bibliothèque Python qui permet de convertir du texte en parole synthétique en utilisant les services de synthèse vocale de Google.

- Facilité d'utilisation : gTTS offre une interface simple pour créer des fichiers audio à partir de texte.
- Prise en charge de plusieurs langues : Vous pouvez spécifier la langue cible pour la synthèse vocale.
- Paramètres de vitesse et de qualité : Vous pouvez ajuster la vitesse de la parole synthétique ainsi que la qualité audio.



**AudioSegment (pydub) :** AudioSegment est une classe de la bibliothèque pydub, qui est une bibliothèque Python populaire pour le traitement audio.

- Traitement audio simple : AudioSegment simplifie les opérations courantes de traitement audio, comme la conversion de formats, la découpe, la fusion, et l'ajustement de la vitesse.
- Prise en charge de nombreux formats : pydub prend en charge une variété de formats audio, ce qui le rend polyvalent pour travailler avec différents types de fichiers audio.
- Intégration avec d'autres bibliothèques : pydub peut être utilisé en conjonction avec d'autres bibliothèques audio pour des tâches plus avancées.

In [10]:
from gtts import gTTS
from pydub import AudioSegment
from pydub.playback import play

gTTS(
    text= "Bonjour, voici un exemple de synthèse vocale en utilisant gTTS et AudioSegment.", 
    lang='fr', 
    slow=True).save("output.mp3")


audio = AudioSegment.from_mp3("output.mp3")
audio_accelerated = audio.speedup(playback_speed=1.35)

audio_accelerated



FileNotFoundError: [WinError 2] Le fichier spécifié est introuvable

In [11]:
# Display audio
play(audio_accelerated)

audio_accelerated.export("output_accelerated.mp3", format="mp3")

NameError: name 'audio_accelerated' is not defined

___
# **Exercice**

1. Créez une méthode `openai_transcribe` qui prend en paramètre un fichier audio et qui retourne la transcription de ce fichier audio.

2. Créez une méthode `openai_translate` qui prend en paramètre un fichier audio et qui retourne la traduction de ce fichier audio.

3. Créez une méthode `text_to_speech` qui prend en paramètre un texte et qui retourne un fichier audio.

4. Ajoutez une page 'Transcription' à votre application Streamlit qui permet de transcrire un fichier audio.

5. **Bonus** : Ajoutez au chatbot la possibilité de transcrire un fichier audio via le micro de l'utilisateur. Pour cela il vous faudra utiliser la bibliothèque additionnelle [`audio_recorder_streamlit`](https://pypi.org/project/audio-recorder-streamlit/) de Streamlit : `pip install audio-recorder-streamlit`.



In [12]:
pip install audio-recorder-streamlit

Collecting audio-recorder-streamlit
  Downloading audio_recorder_streamlit-0.0.8-py3-none-any.whl (1.2 MB)
     ---------------------------------------- 1.2/1.2 MB 19.6 MB/s eta 0:00:00
Installing collected packages: audio-recorder-streamlit
Successfully installed audio-recorder-streamlit-0.0.8
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip
