# Whisper

https://github.com/openai/whisper

## 環境情報

In [1]:
!python --version

Python 3.8.13


In [2]:
!nvidia-smi

Thu Oct 13 00:14:59 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.75       Driver Version: 517.40       CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA TITAN RTX    On   | 00000000:01:00.0  On |                  N/A |
|  0%   34C    P8    32W / 280W |   3666MiB / 24576MiB |     25%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

## 簡易的な操作

In [3]:
import os
import whisper

# デフォルトのキャッシュフォルダを環境変数で指定
os.environ["XDG_CACHE_HOME"] = "./.cache"

In [4]:
# モデルのロード
model = whisper.load_model("medium")
model.device

device(type='cuda', index=0)

In [5]:
%%time

# 音声ファイルの解析
result = model.transcribe("./data/sample.flac")
print(result["text"])

おはようございますおはようございますそれでは早速、今週の定例ミーティングを始めたいと思いますまずは山田さん、先週の調査結果について報告していただけますか?はい、山田です。少々お待ちくださいえっと、先週発生していた不具合の件ですが、一通り調査した結果入力されたデータに誤りがあったことが分かりましたなので、プログラムとかに問題はありませんでしたあ、佐々木です。その件で少し補足します入力データの間違いですが、このままだとまた同じ間違いが出てくると思います間違っても大丈夫なように、プログラムでエラーチェックをするようにした方が良いと思います確かにそうですよね。私もそうした方が良いと思います報告ありがとうございます。では、この件については次の開発計画に取り込むように調整しておきますね
CPU times: user 27.1 s, sys: 2.7 s, total: 29.8 s
Wall time: 11 s


In [6]:
# 言語判定
whisper.tokenizer.LANGUAGES[result["language"]]

'japanese'

In [7]:
# セグメントごとに表示
for seg in result["segments"]:
    id, start, end, text = [seg[key] for key in ["id", "start", "end", "text"]]
    print(f"{id:03}: {start:5.1f} - {end:5.1f} | {text}")

000:   0.0 -   1.2 | おはようございます
001:   1.2 -   3.2 | おはようございます
002:   3.2 -   8.5 | それでは早速、今週の定例ミーティングを始めたいと思います
003:   8.5 -  14.0 | まずは山田さん、先週の調査結果について報告していただけますか?
004:  14.0 -  18.8 | はい、山田です。少々お待ちください
005:  18.8 -  24.3 | えっと、先週発生していた不具合の件ですが、一通り調査した結果
006:  24.3 -  27.9 | 入力されたデータに誤りがあったことが分かりました
007:  27.9 -  31.3 | なので、プログラムとかに問題はありませんでした
008:  31.3 -  36.3 | あ、佐々木です。その件で少し補足します
009:  36.3 -  42.3 | 入力データの間違いですが、このままだとまた同じ間違いが出てくると思います
010:  42.3 -  48.9 | 間違っても大丈夫なように、プログラムでエラーチェックをするようにした方が良いと思います
011:  48.9 -  54.0 | 確かにそうですよね。私もそうした方が良いと思います
012:  54.0 -  63.5 | 報告ありがとうございます。では、この件については次の開発計画に取り込むように調整しておきますね


## 英語翻訳書き起こし

In [8]:
# 翻訳
result = model.transcribe("./data/sample.flac", task="translate")
print(result["text"])

 Good morning. Good morning. Now, let's start this week's regular meeting. First, Mr. Yamada, can you tell us about the results of the last week's investigation? Yes, I'm Yamada. Please wait a moment. Well, about the unforeseen events that occurred last week, we found that there was an error in the data that was entered as a result of the investigation. So there was no problem with the program. Oh, Sasaki. I'll make a little correction on that. It's a mistake in the input data, but I think that if it continues like this, we'll have the same mistake again. I think it's better to check the error in the program as if it's okay if you make a mistake. That's true. I think it's better to do that too. Thank you for your report. Well, I'll adjust this to be included in the next development plan.


In [9]:
# セグメントごとに表示
for segment in result["segments"]:
    id, start, end, text = [segment[key] for key in ["id", "start", "end", "text"]]
    print(f"{id:03}| {start:5.1f} - {end:5.1f} | {text}")

000|   0.0 -   1.1 |  Good morning.
001|   1.1 -   2.8 |  Good morning.
002|   3.2 -   7.5 |  Now, let's start this week's regular meeting.
003|   8.4 -  13.1 |  First, Mr. Yamada, can you tell us about the results of the last week's investigation?
004|  14.0 -  17.0 |  Yes, I'm Yamada. Please wait a moment.
005|  18.8 -  22.0 |  Well, about the unforeseen events that occurred last week,
006|  22.4 -  27.1 |  we found that there was an error in the data that was entered as a result of the investigation.
007|  27.1 -  30.4 |  So there was no problem with the program.
008|  30.4 -  34.9 |  Oh, Sasaki. I'll make a little correction on that.
009|  35.5 -  39.2 |  It's a mistake in the input data, but I think that if it continues like this,
010|  39.2 -  41.4 |  we'll have the same mistake again.
011|  41.4 -  47.2 |  I think it's better to check the error in the program as if it's okay if you make a mistake.
012|  48.2 -  52.0 |  That's true. I think it's better to do that too.
013|  53.2 

## 感情分析

In [10]:
import whisper
from transformers import pipeline

# 音声から文字の書き起こし
whisper_model = whisper.load_model("medium")
segments = whisper_model.transcribe("./data/sample.flac")["segments"]
segments_text = [seg["text"] for seg in segments]  # textだけをリストで抽出

# 書き起こした文章の感情分析
sentiment_model = pipeline(
    "sentiment-analysis",
    model="daigo/bert-base-japanese-sentiment",
    tokenizer="daigo/bert-base-japanese-sentiment",
)
sentiments = sentiment_model(segments_text)

# 文字起こしした内容と感情分析結果を結合して結果表示
for segment, sentiment in zip(segments, sentiments):
    id, start, end, text = [segment[key] for key in ["id", "start", "end", "text"]]
    label, score = [sentiment[key] for key in ["label", "score"]]

    print(f"{id:03}| {start:5.1f} - {end:5.1f} | {label[:2]} {score:4.2f} | {text}")

000|   0.0 -   1.2 | ポジ 0.99 | おはようございます
001|   1.2 -   3.2 | ポジ 0.99 | おはようございます
002|   3.2 -   8.5 | ポジ 0.96 | それでは早速、今週の定例ミーティングを始めたいと思います
003|   8.5 -  14.0 | ポジ 0.95 | まずは山田さん、先週の調査結果について報告していただけますか?
004|  14.0 -  18.8 | ポジ 0.98 | はい、山田です。少々お待ちください
005|  18.8 -  24.3 | ポジ 0.69 | えっと、先週発生していた不具合の件ですが、一通り調査した結果
006|  24.3 -  27.9 | ネガ 0.56 | 入力されたデータに誤りがあったことが分かりました
007|  27.9 -  31.3 | ポジ 0.92 | なので、プログラムとかに問題はありませんでした
008|  31.3 -  36.3 | ポジ 0.95 | あ、佐々木です。その件で少し補足します
009|  36.3 -  42.3 | ネガ 0.78 | 入力データの間違いですが、このままだとまた同じ間違いが出てくると思います
010|  42.3 -  48.9 | ポジ 0.96 | 間違っても大丈夫なように、プログラムでエラーチェックをするようにした方が良いと思います
011|  48.9 -  54.0 | ポジ 0.96 | 確かにそうですよね。私もそうした方が良いと思います
012|  54.0 -  63.5 | ポジ 0.87 | 報告ありがとうございます。では、この件については次の開発計画に取り込むように調整しておきますね
