<a href="https://colab.research.google.com/github/suquant66/RubyOnRailsTest/blob/main/2023_10_23_Faster_Whisper_%E8%AA%9E%E9%9F%B3%E8%BE%A8%E8%AD%98_%E8%BC%B8%E5%87%BA%E6%96%87%E5%AD%97%E6%AA%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Faster Whisper 語音辨識測試

▋ by gsyan
* 可使用 .txt 檔案放要辨識的清單。
* 可自訂字幕檔要儲存的資料夾。
* 可自訂是否要跳過已辨識過的。
* 使用 yt-dlp 下載影音檔案。

▋ update:
* 2025.03.18 修正下載音檔後，未判斷是否完成就將檔名加入完成清單的問題；下載YT影片失敗，會自動重試一次。
* 2025.01.31 CTranslate2 恢復使用 Colab 預設的版本
* 2024.11.21 格式多一個 .srt.txt 的選項，儲存為字幕格式，但檔名以 .txt 結尾
* 2024.10.24 (CTranslate2 暫時降版為 v.4.4.0 [參官網#1082](https://github.com/SYSTRAN/faster-whisper/pull/1082) )
* 2024.07.23
* 2024.06.24
* 2023.10.23

▋ 本工具使用的是 Faster Whisper ，它的專案網址如下：
* https://github.com/guillaumekln/faster-whisper

從專案的名稱「Faster Whisper」就可以看出它強調的特性，據專案的說明，它提到比 OpenAI Whisper 的速度快。以 2023.10.23 實測來比較，至少 faster-whisper 的安裝就可以少很多時間。

在本筆記中的這個工具結合 Faster Whisper 和 yt-dlp 的工具，可以將 Youtube 上的影片或播放清單擷取聲音、儲存語音檔後，進行語音辨識，再利用 pysubs2 把辨識完的文字轉成有加時間戳記的字幕檔，當然也可以是沒有時間戳記的逐字稿文字檔。

目前在後面程式設定區塊中，語音來源路徑的「url」欄位中，可以填入：
* Youtube 的影片或影片清單網址。
* 公開分享的 Google 雲端硬碟、FB ......影音網址。
* Vocaroo 的聲音網址。如果想馬上錄一段做測試，也可以利用線上錄音的網站 [Vocaroo](https://vocaroo.com/) (https://vocaroo.com/) 來錄音，再將它給的網址貼在「url」欄位中；
* 在 Colab 中的檔案路徑。如果是放在電腦本機中的影片或聲音檔，可以上載在左側資料夾中後，在「url」欄位中填入完整的檔案名稱。
* 「檔案清單」文字檔(.txt)。如果想一次辨識多個檔案，就將網址或是檔案的路徑，一行一個檔案路徑置入文字檔中，將文字上載後，將清單檔案的路徑填入 [url] 欄位中。

接著將其它選項都設定好後，就可以在[程式區塊]中按「執行」的按鈕，開始進行語音辨識了。

程式第一次執行時，因為要安裝及下載自動語音辨識所需要的資料，可能要稍等一下下。


▋ 詳細說明與示範影片

關於 OpenAI Whisper 的專案，可以參考我 Blogger 中的說明，網址如下：
* https://gsyan888.blogspot.com/2023/02/openai-whisper-ipynb.html




In [None]:
#@title 掛載雲端硬碟 { vertical-output: true }
#@markdown <font size="6">👈</font> <b>請按左側執行鈕，再依提示選帳號及授權，即可將雲端硬碟掛載在 /content/drive</b>
from google.colab import drive
drive.mount('/content/drive')

In [1]:
#@title Faster Whisper 語音辨識並輸出字幕檔案或是一般文字檔案程式 { vertical-output: true }

#@markdown <font size="6">👈</font> <b>設定底下的自訂參數後，就可以按左側的執行鈕</b>

# @markdown ▋ <b>聲音檔的來源</b>，可以是網址(Youtube影片、撥放清單、 [Vocaroo](https://vocaroo.com/) 網址)，或是上載後的影片、聲音檔檔案名稱。<br />有多個可以放入 .txt 檔案中(例: list.txt)，一行一個網址或是檔案路徑。
url = "https://www.youtube.com/watch?v=wpRX1LQU9bs" #@param {type:"string"}
#@markdown ▋ <b>語音的語言代碼</b>(兩個小寫字母, zh 中文、en 英語、ja 日語...)
#lang = 'Chinese' #@param ["Chinese", "English", "Japanese", "Korean", "自動判斷"]
lang = "自動判斷" #@param ["自動判斷", "en", "zh", "ja", "fr", "de"] {allow-input: true}

#@markdown ▋ <b>輸出為哪一種格式</b>（.srt:字幕檔、.txt:純文字檔、.srt.txt:字幕檔但改了檔名）
outputFormat = 'srt' #@param ['srt', 'txt', '.srt.txt']
#@markdown ▋ <b>輸出到哪個資料夾</b>(空白表示使用預設值)
output_path = '' #@param {type:"string"}
#@markdown ▋ <b>是否自動建立資料夾</b>(有設定輸出的資料夾時才有用)
makedirs_enable = True #@param { type: 'boolean' }
#@markdown ▋ <b>是否覆蓋已存在的辨識結果</b>(沒勾選會跳過已辨識過的)
overwrite_enable = True #@param { type: 'boolean' }

# @markdown ▋ <b>使用哪一種辨識模型</b>（繁體中文使用large/large-v3/turbo 可能要搭配「提示語」的參數才不會變簡體字）
#modelType = "large-v2" # @param ["tiny",  "base", "small", "medium", "large-v1", "large-v2", "large-v3", "large", "distil-large-v2", "distil-large-v3", "tiny.en", "base.en", "small.en", "medium.en", "distil-medium.en", "distil-small.en" ] {allow-input: true}
#modelType = "large-v2" # @param ["large-v2", "large-v3", "large", "distil-large-v2", "distil-large-v3", "large-v1", "medium", "small", "base", "tiny", "tiny.en", "base.en", "small.en", "medium.en", "distil-medium.en", "distil-small.en" ] {allow-input: true}
modelType = "large-v2" # @param ["large-v2", "large-v3", "large", "turbo", "distil-large-v2", "distil-large-v3", "large-v1", "medium", "small", "base", "tiny", "tiny.en", "base.en", "small.en", "medium.en", "distil-medium.en", "distil-small.en" ] {allow-input: true}

#@markdown ▋ <b>是否全部辨識完成，立即下載字幕檔</b>
start_downloading_immediately = True #@param { type: 'boolean' }
#@markdown ▋ <b>是否即時顯示語音辨識結果</b>
verbose = False #@param { type: 'boolean' }
#@markdown ▋ <b>是否顯示安裝過程</b> (除錯用)
debug = False #@param { type: 'boolean' }
#markdown ▋ <b>是否使用 yt-dlp 下載 Youtube 聲音檔</b><br />(如果較長的聲音檔下載發生問題時再勾選使用)
#YoutubeDL_enable = False #@param { type: 'boolean' }

#@markdown ---
#@markdown ▋<b>其它進階選項 (使用預設值即可，有特別需要再更改)</b>
compute_type = "float16" #@param {type:"string"} ['float16', 'int8_float16', 'int8']
#@markdown ##### ╠ Word-level timestamps(以字為單位切時間)
word_level_timestamps = False #@param {type:"boolean"}
#@markdown ##### ╠ VAD filter
vad_filter = True #@param {type:"boolean"}
vad_filter_min_silence_duration_ms = 50 #@param {type:"integer"}
#@markdown ▋<b>提示語</b> (空白即可，如果想輸出繁體中文, 卻變簡體字可使用；或是指定專有名詞、姓名 ...)
initial_prompt = "" # @param ["", "\u4EE5\u4E0B\u662F\u7E41\u9AD4\u4E2D\u6587\u7684\u53E5\u5B50", "\u4EE5\u4E0B\u662F\u666E\u901A\u8BDD\u7684\u53E5\u5B50\u3002"] {allow-input: true}

#@markdown ---
#@markdown <center><p><font color="blue">以下為指令輸出內容</p></center>




# Install + Import + Config
#try: import whisper
#except:
#  print('install whisper ...')
#  ! pip -q install git+https://github.com/openai/whisper.git
print('>> 安裝相關工具, 請稍候 ...')

try:
  from faster_whisper import WhisperModel
except:
  #huggingface_hub 0.20 以後必須設定 HF_TOKEN, 所以先安裝舊版的覆蓋避開
  print('install old version huggingface_hub==0.19.4 ...')
  if debug :
    !pip -q install huggingface_hub==0.19.4
  else:
    !pip -q install huggingface_hub==0.19.4 > /dev/null 2>&1
  #CTranslate 4.4.5 似乎有相容問題，暫時用較舊的 4.4.0
  #print('install old version CTranslate2==4.4.0 ...')
  #if debug :
  #  !pip -q install ctranslate2==4.4.0
  #else:
  #  !pip -q install ctranslate2==4.4.0 > /dev/null 2>&1
  print('install faster-whisper ...')
  if debug :
    !pip -q install faster-whisper
  else:
    #!pip -q install faster-whisper@git+https://github.com/SYSTRAN/faster-whisper > /dev/null 2>&1
    !pip -q install faster-whisper > /dev/null 2>&1
  #print('downgrade CTranslate2 to v4.4.0 ...')
  #if debug :
  #  !pip install --upgrade --no-deps --force-reinstall ctranslate2==4.4.0
  #else:
  #  !pip install --upgrade --no-deps --force-reinstall ctranslate2==4.4.0  > /dev/null 2>&1

try:
  import pysubs2
except:
  print('install pysubs2 ...')
  if debug :
    !pip -q install pysubs2
  else:
    !pip -q install pysubs2 > /dev/null 2>&1

try: from yt_dlp import YoutubeDL
except :
  print('install yt_dlp ...')
  if debug :
    ! pip -q install yt_dlp
  else:
    ! pip -q install yt_dlp > /dev/null 2>&1

try: from slugify import slugify
except:
  print('install python-slugify ...')
  if debug :
    ! pip install python-slugify
  else:
    ! pip install python-slugify > /dev/null 2>&1

print('>>>>>>')

import torch
#import whisper
#from whisper.utils import get_writer

from faster_whisper import WhisperModel
import pysubs2

from yt_dlp import YoutubeDL
import re
import os
import urllib.request
from slugify import slugify

from tqdm import tqdm

import google
from IPython.display import display, Markdown, YouTubeVideo

#import yt_dlp

#url = "https://voca.ro/15HVH0YvIaa6"
#url = 'https://www.youtube.com/watch?v=I4DZn4z8aRQ&list=PLelNvYGEtsV8TpwxL4t7GTTG-7qALZqol'
#url = 'https://www.youtube.com/watch?v=I4DZn4z8aRQ'
#url = 'vocaroo-台語.mp3'

#lang = 'Chinese' # '自動判斷'
#start_downloading_immediately = True

#modelType = 'small' # 'small' 'medium'
#outputFormat = 'txt' # 'srt' 'txt'

#如果是 .srt.txt 會先以字幕格式儲存，但將檔名後面再加上 .txt
renameSrtToTxt = False
if outputFormat == '.srt.txt' :
  outputFormat = 'srt'
  renameSrtToTxt = True


audioFile = 'source.mp3' #暫存的語音檔檔名
tempFolder = '.' #暫存的資料夾(工作目錄、下載的影音、剛轉好的文字檔)
#output_path = '.'
title = ''
textFileList = [] #記錄轉好的文字檔檔名清單

#檢查輸出文字檔的資料夾是否存在, 不存在就改用預設值
if re.sub('\s', '', output_path) == '' :
  #如果沒有輸入，就輸出到預設的暫存資料夾
  output_path = tempFolder
else :
  if os.path.exists(output_path) :
    if not os.path.isdir(output_path) :
      print(output_path + ' 不是資料夾哦! 改用預設值: '+tempFolder)
      output_path = tempFolder
  elif makedirs_enable :
    print('指定的輸出目錄 '+output_path+' 不存在,\n>>>> 新增: '+output_path)
    os.makedirs(output_path)
  else :
    print('指定的輸出目錄 '+output_path+' 不存在, 改用預設值: '+tempFolder)
    output_path = tempFolder

# GPU or CPU
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

def getYoutubePlaylistInfo_ydl(url) :
  """
  使用 yt_dlp 由 Youtbue 播放清單網址擷取各影片的資訊
  :param url: Youtube 影片播放清單網址
  """
  ydl_opts = {
      'no_warnings':True,
      'quiet':True,
      #'extract_flat':True
  }
  with YoutubeDL(ydl_opts) as ydl:
    info_dict = ydl.extract_info(url, download=False)
    #return (info_dict.get('entries', None)) #entries 為清單中的影片, 'webpage_url' 為影片網址
    return info_dict

def getYoutubeTitle_ydl(url) :
  """
  使用 yt_dlp 由 Youtbue 網址擷取影片的標題字
  :param url: Youtube 影片網址
  """
  ydl_opts = {
      'no_warnings':True,
      'quiet':True
  }
  with YoutubeDL(ydl_opts) as ydl:
    info_dict = ydl.extract_info(url, download=False)
    return(info_dict.get('title', None))

def getAudioFromYoutube_ydl(url, output_path, outputFilename):
  """
  使用 yt_dlp 由 Youtbue 網址下載影片的聲音並存檔
  :param url: Youtube 影片網址
  :param output_path: 儲存的資料夾名稱
  :param outputFilename: 聲音檔的檔名
  """
  #filename為去掉副檔名的路徑，以免變成 xxx.mp3.mp3
  filename = os.path.join(output_path, os.path.splitext(outputFilename)[0])
  ydl_opts = {
      'no_warnings':True,
      'quiet':True,
      'outtmpl':filename,
      'keepvideo':False,
      'format': 'bestaudio/best',
      'postprocessors': [{
        'key': 'FFmpegExtractAudio',
        'preferredcodec': 'mp3',
      #  'preferredquality': '192',
      }],
      'overwrites':True
  }

  tryAgain = False
  try:
    with YoutubeDL(ydl_opts) as ydl:
      code = ydl.download(url)
      if code==1 :
        tryAgain = True
  except:
    tryAgain = True

  if tryAgain :
    print('\n >>> 重試中，請稍候...')
    del ydl_opts['format']
    with YoutubeDL(ydl_opts) as ydl:
      ydl.download(url)


def getVocarooMP3URL(url) :
  """
  Get the MP3 URL from Vocaroo record share URL
  :param url: Vocaroo url
  """
  vocarooMP3Base = 'https://media.vocaroo.com/mp3/'
  regex = re.compile(r'(https\:\/\/voca\.ro|https\:\/\/vocaroo\.com)\/(\w{12})')
  match = regex.search(url)
  if match :
    url = vocarooMP3Base+match.group(2)
  return url

def transcribe(audioFilename, output_path, outputFilename, outputFormat) :
  """
  load whisper model and get transcribe result
  :param audioFilename: audio file to transcribe
  :param output_path: the folder to save result
  :param outputFilename: the filename(without the extension) to save result
  :param outputFormat: the transcribe result format (thie extension of filename)
  """
  #print(audioFilename+' --> '+output_path+outputFilename+'.'+outputFormat)
  #return 1

  #model = whisper.load_model(modelType, device=DEVICE)
  model = WhisperModel(modelType, device=DEVICE, compute_type=compute_type)

  segments, info = model.transcribe(audioFilename, beam_size=5,
                                  language=None if lang == "自動判斷" else lang,
                                  initial_prompt=None if initial_prompt == "" else initial_prompt,
                                  word_timestamps=word_level_timestamps,
                                  vad_filter=vad_filter,
                                  vad_parameters=dict(min_silence_duration_ms=vad_filter_min_silence_duration_ms))

  #display(Markdown(f"偵測到的語言 '{info.language}' 可能性 {info.language_probability}"))
  display(Markdown("偵測到語言: '%s' , 可能性: %s%%" % (info.language, info.language_probability*100)))

  #ProgressBar handler
  #credit: https://github.com/SYSTRAN/faster-whisper/issues/80
  #total_duration = round(info.duration, 2)  # Same precision as the Whisper timestamps.
  #timestamps = 0.0  # to get the current segments
  #with tqdm(total=total_duration, unit=" audio seconds") as pbar:
  #  for segment in segments:
  #    pbar.update(segment.end - timestamps)
  #    timestamps = segment.end
    #if timestamps < info.duration: # silence at the end of the audio
    #  pbar.update(info.duration - timestamps)
  if not verbose :
    total_duration = round(info.duration, 2)  # Same precision as the Whisper timestamps.
    timestamps = 0.0  # to get the current segments
    pbar = tqdm(total=total_duration, unit=" audio seconds")

  file_name = getOutputTextFilename(outputFilename)
  if outputFormat=='txt' :
    with open(file_name, 'w') as f:
      for segment in segments:
        if word_level_timestamps:
          for word in segment.words:
            if verbose :
              print("[%.2fs -> %.2fs] %s" % (word.start, word.end, word.word))
            else :
              pbar.update(segment.end - timestamps)
              timestamps = segment.end

            f.write(f"{word.word}")
          f.write("\n")
        else:
          if verbose :
            print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
          else :
            pbar.update(segment.end - timestamps)
            timestamps = segment.end

          f.write(f"{segment.text.strip()}\n")
  else:
    results= []
    for segment in segments:
      if word_level_timestamps:
        for word in segment.words:
          if verbose :
            print("[%.2fs -> %.2fs] %s" % (word.start, word.end, word.word))
          else :
            pbar.update(segment.end - timestamps)
            timestamps = segment.end
          # list for pysubs2
          segment_dict = {'start':word.start,'end':word.end,'text':word.word}
          results.append(segment_dict)
      else:
        if verbose :
          print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
        else :
          pbar.update(segment.end - timestamps)
          timestamps = segment.end
        # list for pysubs2
        segment_dict = {'start':segment.start,'end':segment.end,'text':segment.text}
        results.append(segment_dict)
    subs = pysubs2.load_from_whisper(results)
    #save srt file
    if renameSrtToTxt :
      #如果是 .srt.txt 會先以字幕格式儲存，但將檔名後面再加上 .txt
      #為了避免存錯格式先改為 .srt 結尾，再更名回來
      fname = re.sub(r'\.txt', '', file_name)
      subs.save(fname)
      os.rename(fname, file_name)
    else :
      subs.save(file_name)
    #save ass file
    #subs.save(file_name+'.ass')

  #if lang=="自動判斷" :
  #  print('auto detect language')
  #  result = model.transcribe(audioFilename, fp16=False, verbose=verbose)
  #else :
  #  result = model.transcribe(audioFilename, fp16=False, verbose=verbose, language=lang)
  # save result to outputFormat file
  #saveToFile(result, output_path, outputFilename, outputFormat)

def saveToFile(result, output_path, filename, fileType='srt') :
  """
  save whisper transcribe result to a file
  :param result: whisper transcribe result
  :param output_path: the folder to save result
  :param filename: the filename(without the extension) to save result
  :param fileType: the transcribe result format (thie extension of filename)
  """
  # save SRT(full filename : output_path/filename.fileType)
  file_writer = get_writer(fileType, output_path) #whisper get_writer
  #file_writer(result, filename)
  #2023.04.12 因應可標定字的時間截記 word_timestamps 必須傳入 writer_args 參數
  writer_args = {'highlight_words': False, 'max_line_count': None, 'max_line_width': None}
  file_writer(result, filename, writer_args)


#
def getFilenameFromTitle(title) :
  """
  convert title to valid filename
  :param title: text to slugify
  """
  return slugify(title, allow_unicode=True, lowercase=False)

def getOutputTextFilename(filename) :
  fPath = os.path.relpath(output_path)
  #如果是 .srt.txt 會先以字幕格式儲存，但將檔名後面再加上 .txt
  if renameSrtToTxt :
    return os.path.join(fPath, filename+'.' + outputFormat + '.txt')
  else :
    return os.path.join(fPath, filename+'.'+outputFormat)

def isOutputTextFileExists(filename) :
  return os.path.exists(getOutputTextFilename(filename))

def removeAudioFile(filename) :
  if os.path.exists(filename) :
    os.remove(filename)

def convertNewLineFormat(filename) :
  if os.path.exists(filename) :
    f = open(filename, 'r+', encoding="utf-8")
    data = f.read()
    data = re.sub('\r', '', data, flags=re.MULTILINE) #remove all \r
    data = re.sub('\n', '\r\n', data, flags=re.MULTILINE) #replace \n to \r\n
    f.seek(0)
    f.write(data)
    f.truncate()
    f.close()

def getAudioAndTranscribe(urlOrFile) :
  filename = audioFile #語音檔檔名(辨識用的暫存檔，用固定的名稱較方便)
  # 分網址或是Colab儲存空間檔案處理
  if re.search('https\:\/\/', urlOrFile) :
    isPlayList = False
    # Youtube 分播放清單跟單一影片處理
    if re.search('youtube\.|youtu\.', urlOrFile) :
      # 建立 Playlist 物件
      #pList = Playlist(urlOrFile)
      videoInfo = getYoutubePlaylistInfo_ydl(urlOrFile)
      isPlayList = True
      #try : title = pList.title
      try : videos = videoInfo['entries']
      except :
        isPlayList = False
      #處理 Youtube 播放清單
      if isPlayList :
        title = videoInfo['title']
        print('\n>>處理 Youtube 播放清單影片: '+title)
        #for video in pList.videos :
        for video in videos :
          #title = video.title #取得Youtube影片的標題字
          title = video['title'] #取得Youtube影片的標題字
          #filename = title+'.mp3'
          print('\n>>> '+title)
          #用影片的標題當主檔名，但需將不適合的字置換或去除
          #convert title to valid filename
          outputFilename = getFilenameFromTitle(title)
          #continue

          downloadOk = True
          #如果設定辨識過的重新辨識(overwrite_enable), 或是輸出字幕檔不存在就呼叫whisper
          if not isOutputTextFileExists(outputFilename) or overwrite_enable :
            # delete the old audio file
            removeAudioFile(filename)
            # download audio from video stream
            #video.streams.get_audio_only().download(tempFolder, filename)
            print('>> 下載影音檔案中...')
            try: getAudioFromYoutube_ydl(video['webpage_url'], tempFolder, filename)
            except:
              print('\n>>>無法由網址下載影音')

            #print('\n>> 準備進行語音辨識...\n')
            if os.path.exists(filename) :
              print('>>>Whisper 辨識中...\n')
              # load whisper model and get transcribe result
              transcribe(filename, output_path, outputFilename, outputFormat)
            else :
              downloadOk = False
              print('>>>找不到語音檔，請確定影音檔是否已準備好了\n')

          #將輸出的檔名列入結果清單中，方便後續壓縮、下載
          if downloadOk:
            textFileList.append(getOutputTextFilename(outputFilename))
        #title = pList.title #供製作下載壓縮檔用的主檔名
        title = videoInfo['title']
      else :
        # Youtube single video
        #title = YouTube(urlOrFile).title #取得Youtube影片的標題字
        title = videoInfo['title']
        outputFilename = getFilenameFromTitle(title) #用影片的標題當主檔名，但需將不適合的字置換或去除
        downloadOk = True
        #如果設定辨識過的重新辨識(overwrite_enable), 或是輸出字幕檔不存在就呼叫whisper
        if not isOutputTextFileExists(outputFilename) or overwrite_enable :
          # delete the old audio file
          removeAudioFile(filename)
          #getAudioFromYoutube(urlOrFile, tempFolder, filename)
          print('>> 下載影音檔案中...')
          try: getAudioFromYoutube_ydl(videoInfo['webpage_url'], tempFolder, filename)
          except:
            downloadOk = False
            print('\n>>>無法由網址下載影音')
        #將輸出的檔名列入結果清單中，方便後續壓縮、下載
        if downloadOk:
          textFileList.append(getOutputTextFilename(outputFilename))
    else :
      #非Youtube的網址
      # delete the old audio file
      removeAudioFile(filename)
      isPlayList = False
      if re.search('drive\.google\.com', urlOrFile) :
        #Google drive files
        title = getYoutubeTitle_ydl(urlOrFile) #取得檔名
        outputFilename = getFilenameFromTitle(title) #主檔名，但需將不適合的字置換或去除
        if not isOutputTextFileExists(outputFilename) or overwrite_enable :
          getAudioFromYoutube_ydl(urlOrFile, tempFolder, filename)
        #將輸出的檔名列入結果清單中，方便後續壓縮、下載
        if isOutputTextFileExists(outputFilename):
          textFileList.append(getOutputTextFilename(outputFilename))
      elif re.search('voca\.ro|vocaroo\.com', urlOrFile) :
        # Vocaroo or other web audio
        urlOrFile = getVocarooMP3URL(urlOrFile) #取得儲存 Vocaroo 的語音檔網址
        title = "vocaroo-"+os.path.basename(urlOrFile) #用 Vocaroo 的 id 當標題字
        outputFilename = title #用 vocaroo-xxxxxxxxxxx 當輸出的主檔名
        if not isOutputTextFileExists(outputFilename) or overwrite_enable :
          urllib.request.urlretrieve(urlOrFile, filename)
        #將輸出的檔名列入結果清單中，方便後續壓縮、下載
        if isOutputTextFileExists(outputFilename):
          textFileList.append(getOutputTextFilename(outputFilename))
      else :
        # other website
        #os.remove(filename)
        title = ''
        removeAudioFile(filename)
        print('\n>> 下載影音檔案中...\n')
        try : videoInfo = getYoutubePlaylistInfo_ydl(urlOrFile)
        except:
          print('\n>>> 無法下載該網址的影音資訊 ...\n')
        try: title = videoInfo['title'] #取得標題字
        except:
          title = 'unknow'
        outputFilename = getFilenameFromTitle(title) #用影片的標題當主檔名，但需將不適合的字置換或去除
        try:
          getAudioFromYoutube_ydl(videoInfo['webpage_url'], tempFolder, filename)
        except:
          print('\n>>> 無法下載影音\n')
        #將輸出的檔名列入結果清單中，方便後續壓縮、下載
        if isOutputTextFileExists(outputFilename):
          textFileList.append(getOutputTextFilename(outputFilename))
        #! yt-dlp -q --force-overwrites -x --audio-format mp3 -o {audioFile} {url}
  else :
    #Colab儲存空間檔案處理(非網址的影音檔)
    isPlayList = False
    title = os.path.splitext(os.path.basename(urlOrFile))[0] #去掉資料夾名稱及附檔名，只取主檔名
    outputFilename = getFilenameFromTitle(title) #結果輸出檔的主檔名
    filename = urlOrFile #辨識指定的影音檔
    if os.path.exists(filename) :
      #將輸出的檔名列入結果清單中，方便後續壓縮、下載
      textFileList.append(getOutputTextFilename(outputFilename))
      #如果字幕檔已存在，而且不可覆蓋，就故意將語音檔設為不存在的檔名，這樣就不會重新辨識
      if (not overwrite_enable) and isOutputTextFileExists(outputFilename) :
        filename = 'fakeFilename.fake'
  #辨識非播放清單的單一語音檔
  if not isPlayList :
    print('\n>> '+title)
    #convert title to valid filename
    #outputFilename = slugify(title, allow_unicode=True, lowercase=False)
    #outputFilename = getFilenameFromTitle(title)
    # 語音檔存在的話，就進行辨識
    # load whisper model and get transcribe result
    print('\n>> 準備進行語音辨識...\n')
    if os.path.exists(filename) :
      if not os.path.exists('/root/.cache/huggingface/hub'):
        print('>>> 請稍候, 下載完 Whisper 的 model 檔案後，即可開始辨識...\n')
      else :
        print('>>> 開始辨識...\n')
      transcribe(filename, output_path, outputFilename, outputFormat)
    else :
      print('>>>找不到語音檔，請確定影音檔是否已準備好了\n')
    #  start_downloading_immediately = False
  return title

#解析 .txt 檔案中的清單，一行行進行去抓音檔並進行辨識
def parseTxtFileAndTranscribe(txtFile) :
  if os.path.exists(txtFile) :
    file = open(txtFile, 'r')
    lines = file.readlines()
    file.close()
    #print(len(lines))
    for line in lines :
      line = re.sub('\r|\n', '', line, re.MULTILINE) #去掉所有換行字元
      #清單中的檔案不存在，而且非絕對徑
      #試著加上清單檔案的目錄名稱前面
      if (re.search('https\:\/\/', line) is None) and (not os.path.isabs(line)) and (not os.path.exists(line)) :
        p = os.path.dirname(txtFile)
        p = os.path.join(p, line)
        if os.path.exists(p) :
          line = p
      print(f'\n\n>>>>>> {line}')
      getAudioAndTranscribe(line)
  else :
    print('找不到檔案: '+txtFile)

if (re.search('https\:\/\/', url) is None) and (not re.search('\.txt$', url, re.IGNORECASE) is None) :
  #解析 .txt 檔中的清單後，再進行辨識
  parseTxtFileAndTranscribe(url)
  title = os.path.splitext(os.path.basename(url))[0] #去掉資料夾名稱及附檔名，只取主檔名
else :
  #直接辨識 url 指定的網址或是檔案
  title = getAudioAndTranscribe(url)


#print(textFileList)
if len(textFileList)>0 :
  print('\ndownload...')
  #print(textFileList)
  filenames_list = ''
  for textFile in textFileList :
    #print(textFile)
    if os.path.exists(textFile) :
      convertNewLineFormat(textFile) # replace \n with \r\n (Windows format)
      if os.getcwd() != os.path.dirname(os.path.abspath(textFile)) :
        filename = os.path.basename(textFile)
        #copy textFile to current work directory
        ! cp {textFile} ./
      else :
        filename = textFile
      if filenames_list != '' :
        filenames_list = filenames_list+' '
      filenames_list = filenames_list+filename
  #print(filenames_list)
  if start_downloading_immediately :
    if len(textFileList)>1 :
      print('\n壓縮並下載辨識結果')
      outputFilename = slugify(title, allow_unicode=True, lowercase=False)+'-'+outputFormat+'.zip'
      ! zip {outputFilename} -D {filenames_list}
    else :
      print('\n下載辨識結果')
      outputFilename = filenames_list
    if os.path.exists(outputFilename):
      google.colab.files.download(outputFilename)
    else:
      print('\n\n>>>> 無檔案可下載!!')

  else :
    print('\n\n>>>> 已完成辨識，請自行按左側欄的「檔案」查看並下載檔案')



>> 安裝相關工具, 請稍候 ...
install old version huggingface_hub==0.19.4 ...
install faster-whisper ...
install pysubs2 ...
install yt_dlp ...
>>>>>>
>> 下載影音檔案中...

>> 注音高手：以雲端硬碟圖片製作遊戲

>> 準備進行語音辨識...

>>> 請稍候, 下載完 Whisper 的 model 檔案後，即可開始辨識...



model.bin:   0%|          | 0.00/3.09G [00:00<?, ?B/s]

config.json:   0%|          | 0.00/2.80k [00:00<?, ?B/s]

vocabulary.txt:   0%|          | 0.00/460k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.20M [00:00<?, ?B/s]

偵測到語言: 'zh' , 可能性: 99.8046875%

100%|█████████▉| 529.96/530.77 [00:53<00:00,  9.93 audio seconds/s]


download...

下載辨識結果





<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>