<a href="https://colab.research.google.com/github/fujitako03/machine-learning-tutorials/blob/main/whisper_tutorial(M_1%E3%82%B0%E3%83%A9%E3%83%B3%E3%83%97%E3%83%AA).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 高精度文字起こしAI Whisperを試してみる
 - [OpenAIの公式ドキュメント](https://openai.com/blog/whisper/)
 - [GitHub](https://github.com/openai/whisper)

## Whisperとは
OpenAIが開発したWhisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識（ASR）システム。

大規模で多様なデータセットを使用することで、アクセント、背景雑音、専門用語に対する耐性が向上している。さらに、多言語での書き起こしや、多言語から英語への翻訳も可能。

モデルと推論コードをオープンソースで公開されている

## 準備

In [4]:
# google drive にマウント
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# インストール
!pip install git+https://github.com/openai/whisper.git

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-0au1wu9y
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-0au1wu9y
  Resolved https://github.com/openai/whisper.git to commit 28769fcfe50755a817ab922a7bc83483159600a9
  Preparing metadata (setup.py) ... [?25l[?25hdone


## 実験
会議の議事録などの精度が良いことはわかってるので、今回は、2022M-1グランプリのネタで試してみたいとおもいます。

In [5]:
import whisper

"""
size	 parameters
tiny	 39M
base	 74M
small  244M
medium 769M
large	 1550M
"""

'\nsize\t parameters\ntiny\t 39M\nbase\t 74M\nsmall  244M\nmedium 769M\nlarge\t 1550M\n'

In [15]:
manzai_dict = {
    "westland_2022_2":"/content/drive/MyDrive/colab/Whisper/ウエストランド【決勝ネタ】最終決戦〈ネタ順1〉M-1グランプリ2022.mp3",
    "oswald_2022_1":"/content/drive/MyDrive/colab/Whisper/オズワルド【決勝ネタ】1st Round〈ネタ順3〉M-1グランプリ2022.mp3"
}
model_type_patterns = ["small", "medium", "large"]

result = {}
for maizai in manzai_dict.keys():
  print(f"start {maizai}")
  for model_type in model_type_patterns:
    print(f"start {model_type}")
    model = whisper.load_model(model_type)
    result[model_type] = model.transcribe(manzai_dict[maizai], verbose=True, language='ja')

start westland_2022_2
start small
[00:00.000 --> 00:07.000] 【拍手】
[00:07.000 --> 00:09.000] どうもー!
[00:09.000 --> 00:10.000] 新たにましてウエスランドです
[00:10.000 --> 00:11.000] よろしくお願いします
[00:11.000 --> 00:13.000] ありがとうございます
[00:13.000 --> 00:14.000] 頑張っていきましょう
[00:14.000 --> 00:15.000] オリジナルのね
[00:15.000 --> 00:16.000] アルナシクイズ考えて
[00:16.000 --> 00:17.000] うん
[00:17.000 --> 00:18.000] やります
[00:18.000 --> 00:19.000] もうたまたま大好きなんで
[00:19.000 --> 00:20.000] ありがとうございます
[00:20.000 --> 00:21.000] ちょっと出してもらっていいですか
[00:21.000 --> 00:22.000] まずね
[00:22.000 --> 00:23.000] アイドルにはあるけど
[00:23.000 --> 00:24.000] 役者にはない
[00:24.000 --> 00:25.000] アイドルにはあるけど
[00:25.000 --> 00:26.000] 役者にはない
[00:26.000 --> 00:27.000] はい、わかりました
[00:27.000 --> 00:29.000] まだ1個目でもわかるから
[00:29.000 --> 00:30.000] じゃあどうぞ
[00:30.000 --> 00:31.000] 正解は
[00:31.000 --> 00:32.000] 工場師
[00:32.000 --> 00:33.000] なんでですか
[00:33.000 --> 00:35.000] アイドルはなんとして群れてやるという
[00:35.000 --> 00:36.000] 工場師がすごいから
[00:36.000 --> 00:38.000] 他人を経おうとしてても
[00:38.000 

100%|█████████████████████████████████████| 1.42G/1.42G [00:29<00:00, 51.3MiB/s]


[00:00.000 --> 00:07.000] 【拍手】
[00:07.000 --> 00:09.000] おぉー!
[00:09.000 --> 00:13.000] 改めましてウエス・ハンドです。よろしくお願いします。ありがとうございます。
[00:13.000 --> 00:14.000] 頑張っていきましょう。
[00:14.000 --> 00:18.000] オリジナルのね、あるなしクイズ考えてる。やります。
[00:18.000 --> 00:19.000] たまたま大好きなんで。
[00:19.000 --> 00:20.000] そうです。
[00:20.000 --> 00:21.000] ちょっと出してもらっていいですか?
[00:21.000 --> 00:24.000] まずね、アイドルにはあるけど、役者にはない。
[00:24.000 --> 00:26.000] アイドルにはあるけど、役者にはない。
[00:26.000 --> 00:27.000] はい、わかりました。
[00:27.000 --> 00:28.000] まだ、まだ、1個目です。
[00:28.000 --> 00:30.000] でも、わかるから。
[00:30.000 --> 00:31.000] じゃあ、どうぞ。
[00:31.000 --> 00:32.000] 正解は、向上心。
[00:32.000 --> 00:34.000] なんでですか?
[00:34.000 --> 00:37.000] アイドルは何としても売れてやるという向上心がすごいから。
[00:37.000 --> 00:42.000] 他人を蹴落としてても、自分だけは売れてやるんだという悪なき向上心の塊だから。
[00:42.000 --> 00:45.000] 急に心霊が見えると言い出してみたり、
[00:45.000 --> 00:47.000] 急に部屋が汚いと言い出してみたり、
[00:47.000 --> 00:51.000] NEXTブレイクぐらいの芸人に近づいて、お笑い分かってまつずらしてみたり、
[00:51.000 --> 00:55.000] 何としても自分だけは売れるという向上心がすごいから、正解は向上心だろ。
[00:55.000 --> 00:56.000]

100%|██████████████████████████████████████| 2.87G/2.87G [00:13<00:00, 225MiB/s]


OutOfMemoryError: ignored

In [None]:
from google.colab import drive
drive.mount('/content/drive')