# Whisper

Whisperは、OpenAIによって開発された音声認識モデルで、68万時間のデータを使った教師あり学習により、日本語を含む多言語の音声を高精度で文字起こしすることが特徴です​1​。これまでの音声認識技術と比較して、ノイズが多い環境や多様なアクセントにも強い高い精度を実現しています​2​。また、「tiny」「base」「small」「medium」「large」という5つのモデルがあり、特に「large」モデルは多言語に対応していますが、それ以外は英語のみです​3​。
* ドキュメント:https://platform.openai.com/docs/guides/speech-to-text

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/fuyu-quant/data-science-wiki/blob/main/multimodal/speech_to_text/whisper.ipynb)

In [1]:
%%capture
!pip install openai


In [2]:
import os
from openai import OpenAI
from pathlib import Path
from IPython.display import Audio

os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"


### データの用意
* OpenAIのTTSモデルで生成します．

In [14]:
client = OpenAI()


current_directory = Path.cwd()
speech_file_path = f'{current_directory}/speech.mp3'

response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="量子コンピュータのことをいつも考えています"
)

response.stream_to_file(speech_file_path)


In [15]:
file_path = f'{current_directory}/speech.mp3'
Audio(file_path)


### Whisper

In [16]:
audio_file= open(f"{current_directory}/speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file
)


In [17]:
transcript

Transcription(text='漁師コンピュータのことをいつも考えています。')