In [None]:
pip install git+https://github.com/openai/whisper.git

In [None]:
import datetime
import os
import time
from typing import List
import whisper
import json
import glob

# 音声ファイルの一覧情報を取得する
def get_audio_files() -> List[str]:
    paths: List[str] = []
    exts = ('mov', 'mp3')
    for ext in exts:
        paths += glob.glob(f'*.{ext}')
    return paths

# 文字起こしを実行する
def execute_audio_to_text(audio_file:str, model_name:str):
    print(f'モデルを読み込み({model_name})...')
    model = whisper.load_model(model_name)  # モデルを読み込む

    print(f'文字起こし開始({audio_file}, {model_name})')
    start = time.time()  # 現在時刻（処理開始前）を取得
    result = model.transcribe(audio_file, verbose=True)  # 音声ファイルを指定する
    end = time.time()  # 現在時刻（処理完了後）を取得

    time_diff = end - start  # 処理完了後の時刻から処理開始前の時刻を減算する
    print(f'文字起こし完了({audio_file},{model_name}) >> 所要時間:{round(time_diff, 1)}秒')

    # 文字起こし結果をファイルに保存
    base_name = os.path.splitext(os.path.basename(audio_file))[0]
    output_json = f'{base_name}_文字起こし結果.json'
    output_txt = f'{base_name}_文字起こし結果.txt'
    with open(output_json, 'w', encoding='utf-8') as file:
        file.write(json.dumps(result, indent=2, ensure_ascii=False))

def main():
    audio_files = get_audio_files()
    for audio_file in audio_files:
        execute_audio_to_text(audio_file, 'large-v3')

main()
