1. 能詢問使用者，讓他/她輸入一個 YouTube 的 URL（一分）。
2. 能印出逐字稿。如果影片是英文，則印出英文逐字稿。如果影片是中文，則印出沒有標點符號的逐字稿（兩分）。
3. 能連上一個大語言模型（LLM）。如果逐字稿是英文，則用 LLM 把逐字稿翻譯成中文印出。如果逐字稿是中文，則用 LLM 替它加上標點符號印出（兩分）。
4. 能要求大語言模型（LLM），將逐字稿摘要（Summarize）整理成條列（Bullet Points）的形式印出（兩分）。

# 環境設定

In [1]:
# 安裝 YouTube 下載套件，從 YouTube 和其他網站下載影片
! pip install yt-dlp

# 安裝聲音格式轉.WAV 套件（.WAV = 一種非壓縮音訊格式）
! pip install pydub

# 從 GitHub 安裝最新版本的 Whisper 套件，用於語音識別（約 1 分鐘）
! pip install git+https://github.com/openai/whisper.git

Collecting yt-dlp
  Downloading yt_dlp-2024.5.27-py3-none-any.whl (3.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m14.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting brotli (from yt-dlp)
  Downloading Brotli-1.1.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m44.4 MB/s[0m eta [36m0:00:00[0m
Collecting mutagen (from yt-dlp)
  Downloading mutagen-1.47.0-py3-none-any.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.4/194.4 kB[0m [31m17.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pycryptodomex (from yt-dlp)
  Downloading pycryptodomex-3.20.0-cp35-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m49.5 MB/s[0m eta [36m0:00:00[0m
Collecting websockets>=12.0 (from yt-dl

# 印出逐字稿

In [2]:
import subprocess
from pydub import AudioSegment

def youtube_downloader(url, file_name='audio'):
  try:
    # 使用 yt-dlp 下載 YouTube 影片的音訊
    subprocess.run(['yt-dlp', '-x', '--audio-format', 'mp3', '-o', f'{file_name}.%(ext)s', url])

    # 將 MP3 轉換成 WAV 格式
    audio = AudioSegment.from_file(file_name + '.mp3')
    audio.export(file_name + '.wav', format = 'wav')

    # 輸出成功
    print(f'影片以下載&轉成{file_name}.wav')


  except Exception as e:
    print(f'發生錯誤：{e}')

In [3]:
import whisper
# 定義一個使用 Whisper 進行轉錄的函數
def transcribe_with_whisper(wav_basename='audio', model='base'):
    # 加載指定的 Whisper 模型
    model = whisper.load_model(model)

    # 使用模型轉錄音訊檔案，預設名稱為 'audio.wav'
    result = model.transcribe(f'{wav_basename}.wav')

    # 返回轉錄的文本
    return result['text']

In [20]:
# 定義要下載的 YouTube 影片 URL
url = input('give me a youtube url: ')

# 設定下載的音訊檔案基礎名稱
audio_basename = '音訊檔案名稱'

# 使用自定義的 YouTube 下載器函數下載影片並命名檔案
youtube_downloader(url, file_name=audio_basename)

# 使用 Whisper 模型將下載的音訊轉錄成文本
text = transcribe_with_whisper(wav_basename=audio_basename, model='medium')

# 列印轉錄的文本
print(text)

give me a youtube url: https://www.youtube.com/watch?v=sIWemv8OhGk
影片以下載&轉成音訊檔案名稱.wav
雷利常探 羅傑團的選擇古代兵器天王確定現世hello大家好 我是白金太賊王1116話矛盾全圖情報已經更新本化匪也是大和從阿赫處收到藥物和團贈看雙方誇張身高對比還讓人想起大和的身高足有2米6書界上回老伯說巨大戰爭還要繼續一時間人們紛紛質疑800年前人都死光了怎麼可能重複同一場戰爭而聖地內伊姆雀走向牆邊最終我們可看到牆上掛一張巨大女王畫像不出意外這應該就是莉莉女王吧個人預測二手王的畫像會都在牆上掛著總之老伯持續發言一母一言不發然阿拉巴斯坦都城中伊卡涼姆和卡魯亞都在因巍巍失踪而哭泣國內已經因了一大堆巍巍失踪懸人啟示還有寇布拉王的葬禮也已經開始舉辦孫之貝爾和胡狼加卡站在國王墓旁兩位動物系果實從壁畫中描繪的遠古就留在此古國兩人抬手間正如聖地內跨越數百年的對視回到彈頭島老伯就要寫自一位研究無限能源而搞出的劃時代的聖母煉焰並說他早已意識到有一小部分聖母煉焰被盜人們還在待致中下層愛迪生和名王司徒希有了新的決議司徒希請求愛迪生允許他讓卡庫離開因為他看到CP連的特工正在向島嶼承認中心墜落無處可逃所以希望卡庫能去救人愛迪生聽完後思緒晚前立刻因貝爾龐克們命令他背叛CP女兒向他道歉因為對司徒希來說他對CP組織的感情是真的在裡面有很多朋友然他對貝爾龐克的忠誠也是貨真價實的類似這樣巨大心理矛盾其實正是司徒希擁有人心的表現言至於此聽眾卡庫心頭一顫司徒希不住落淚然後老被公佈被盜聖母煉焰曾被用來為某種古代兵器提供燃料他篤定會滅魯西亞王國的正是被聖母煉焰驅動古代兵器革命軍成員們對此早有預料駐紮在魯魯西亞附近基地古米爾中將一臉驚駭牛奶妹莫達眼中有淚還有熱心腸的國王伊利扎貝魯二世立刻下達命令快去給本王看看魯魯西亞是不是消失了說到古代兵器滅國行動老被很抱歉當場卻讓全世界下跪雖然自己不知道是誰用了它但老被越來越確定世界終會因古代兵器燃料而毀滅想必這一刻未來國島民們定當心情複雜還有畫面給了陶鑄和鯊魚等人他們同樣輕而易聽到古代兵器的故事以及本屆人魚公主海王白星也聽到這一切民王海王皆歸位剩下就只有天王了明顯知道什麼的前元帥戰國與鴆海軍艱壓中狂炫食物生怕自己說漏了嘴至於當今的新海軍本部赤犬燃起雪茄感慨所以你真的什麼都說了貝加龐克甚至老被還坦言曾有一個

# 如果影片是英文，則印出英文逐字稿。如果影片是中文，則印出沒有標點符號的逐字稿

## 安裝 GPU 驅動相關套件

In [5]:
# 更新 Linux 內的套件清單至最新版
!apt-get update

# 安裝 PCI 匯流排工具（PCI Utility）與 lshw (LiSt HardWare)，以便能偵測到 GPU
# -y：遇到詢問是否安裝，一律自動回答 yes
!apt-get install -y pciutils lshw

0% [Working]            Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
0% [Connecting to archive.ubuntu.com (91.189.91.82)] [Connecting to security.ubuntu.com (91.189.91.80% [Connecting to archive.ubuntu.com (91.189.91.82)] [Connecting to security.ubuntu.com (91.189.91.8                                                                                                    Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
0% [Waiting for headers] [Waiting for headers] [Waiting for headers] [2 InRelease 1,581 B/1,581 B 10                                                                                                    0% [Waiting for headers] [Waiting for headers] [Waiting for headers]                                                                    Hit:3 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
0% [Waiting for headers] [Waiting for headers] [Waiting f

In [6]:
# 用 nVidia 的 System Management Interface (SMI) 確認 GPU 的確抓得到
!nvidia-smi

Thu May 30 10:55:38 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   52C    P0              27W /  70W |   4849MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

## 安裝 Ollama

In [7]:
# 至 https://ollama.com/download/linux
# 直接將安裝 Ollama 於 Linux 的指令貼上
!curl -fsSL https://ollama.com/install.sh | sh

>>> Downloading ollama...
############################################################################################# 100.0%
>>> Installing ollama to /usr/local/bin...
>>> Creating ollama user...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> NVIDIA GPU installed.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.


In [8]:
# 啟動 Ollama，讓它執行於背景中
# ollama serve: 用 Server 模式、而非互動模式執行 Ollama
# > server.log：將本應顯示於螢幕的訊息，轉向輸出至 server.log 這個檔備查
# 2>&1：2 為 stderr。將所有錯誤訊息，轉向 &1 (stdout，螢幕) 輸出。
# &：將程式啟動之後，馬上返回，不要等該程式執行完成
!ollama serve > server.log 2>&1 &

In [11]:
# 將 Llama-3 模型下載，並做為此次的大語言模型
# ollama run <模型名稱>：下載並執行特定 LLM
# > model.log：將本應顯示於螢幕的訊息，轉向輸出至 model.log 這個檔備查
!ollama run gemma:7b > model.log 2>&1 &

# 注意：上述兩指令皆以「&」後綴，告知 Colab「不用等 Linux 執行完」。
# 但事實上，不論啟動為 Server，或下載 LLM，皆須 1~5 分鐘不等的時間。
# 可以查看 server.log、model.log 兩檔案內容，得知當前執行狀況。

## 連上大語言模型

In [10]:
# 下載 LangChain，一套專門連上各種大語言模型的 Python 套件
!pip install langchain  # LangChain 核心元件
!pip install langchain-community  # 各種開源大語言模型連接函數套件

Collecting langchain
  Downloading langchain-0.2.1-py3-none-any.whl (973 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m973.5/973.5 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
Collecting langchain-core<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_core-0.2.2-py3-none-any.whl (309 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m309.5/309.5 kB[0m [31m16.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.0-py3-none-any.whl (23 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.64-py3-none-any.whl (123 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m123.4/123.4 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
Collecting jsonpatch<2.0,>=1.33 (from langchain-core<0.3.0,>=0.2.0->langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting packaging<24.0,>=23.2 (from langchain

In [12]:
# 載入 Ollama 以便連上後端 LLM
from langchain_community.llms import Ollama

# LLM 名稱需與 ollama run 後方名稱相同
llm = Ollama(model="gemma:7b")

In [22]:
text

'雷利常探 羅傑團的選擇古代兵器天王確定現世hello大家好 我是白金太賊王1116話矛盾全圖情報已經更新本化匪也是大和從阿赫處收到藥物和團贈看雙方誇張身高對比還讓人想起大和的身高足有2米6書界上回老伯說巨大戰爭還要繼續一時間人們紛紛質疑800年前人都死光了怎麼可能重複同一場戰爭而聖地內伊姆雀走向牆邊最終我們可看到牆上掛一張巨大女王畫像不出意外這應該就是莉莉女王吧個人預測二手王的畫像會都在牆上掛著總之老伯持續發言一母一言不發然阿拉巴斯坦都城中伊卡涼姆和卡魯亞都在因巍巍失踪而哭泣國內已經因了一大堆巍巍失踪懸人啟示還有寇布拉王的葬禮也已經開始舉辦孫之貝爾和胡狼加卡站在國王墓旁兩位動物系果實從壁畫中描繪的遠古就留在此古國兩人抬手間正如聖地內跨越數百年的對視回到彈頭島老伯就要寫自一位研究無限能源而搞出的劃時代的聖母煉焰並說他早已意識到有一小部分聖母煉焰被盜人們還在待致中下層愛迪生和名王司徒希有了新的決議司徒希請求愛迪生允許他讓卡庫離開因為他看到CP連的特工正在向島嶼承認中心墜落無處可逃所以希望卡庫能去救人愛迪生聽完後思緒晚前立刻因貝爾龐克們命令他背叛CP女兒向他道歉因為對司徒希來說他對CP組織的感情是真的在裡面有很多朋友然他對貝爾龐克的忠誠也是貨真價實的類似這樣巨大心理矛盾其實正是司徒希擁有人心的表現言至於此聽眾卡庫心頭一顫司徒希不住落淚然後老被公佈被盜聖母煉焰曾被用來為某種古代兵器提供燃料他篤定會滅魯西亞王國的正是被聖母煉焰驅動古代兵器革命軍成員們對此早有預料駐紮在魯魯西亞附近基地古米爾中將一臉驚駭牛奶妹莫達眼中有淚還有熱心腸的國王伊利扎貝魯二世立刻下達命令快去給本王看看魯魯西亞是不是消失了說到古代兵器滅國行動老被很抱歉當場卻讓全世界下跪雖然自己不知道是誰用了它但老被越來越確定世界終會因古代兵器燃料而毀滅想必這一刻未來國島民們定當心情複雜還有畫面給了陶鑄和鯊魚等人他們同樣輕而易聽到古代兵器的故事以及本屆人魚公主海王白星也聽到這一切民王海王皆歸位剩下就只有天王了明顯知道什麼的前元帥戰國與鴆海軍艱壓中狂炫食物生怕自己說漏了嘴至於當今的新海軍本部赤犬燃起雪茄感慨所以你真的什麼都說了貝加龐克甚至老被還坦言曾有一個海賊團知曉所有空白歷史那就有海賊王羅傑一夥裝自家的庫洛卡斯精進傾聽長手組王國的人們覺得讓海賊掌握了真正歷史也太危險了吧這在這時一片突生約克緊壓於本體知道火種被盜他分明沒有

In [21]:
# 對 LLM 送出提詞，並且印出回應
LLM_answer = llm.invoke("如果以下逐字稿是英文，則把逐字稿翻譯成中文印出；如果逐字稿是中文，則用加上標點符號印出。" + text)
print(LLM_answer)

**雷利常探羅傑團的選擇**

古代兵器天王確定現世。

大家好！我是白金太賊王1116話矛盾全圖情報已經更新本化匪也是大和從阿赫處收到藥物和團贈看雙方誇張身高對比還讓人想起大和的身高足有2米6書界上回老伯說巨大戰爭還要繼續一時間人們紛紛質疑800年前人都死光了怎麼可能重複同一場戰爭而聖地內伊姆雀走向牆邊最終我們可看到牆上掛一張巨大女王畫像不出意外這應該就是莉莉女王吧個人預測二手王的畫像會都在牆上掛著總之老伯持續發言一母一言不發然阿拉巴斯坦都城中伊卡涼姆和卡魯亞都在因巍巍失踪而哭泣國內已經因了一大堆巍巍失踪懸人啟示還有寇布拉王的葬禮也已經開始舉辦孫之貝爾和胡狼加卡站在國王墓旁兩位動物系果實從壁畫中描繪的遠古就留在此古國兩人抬手間正如聖地內跨越數百年的對視回到彈頭島老伯就要寫自一位研究無限能源而搞出的劃時代的聖母煉焰並說他早已意識到有一小部分聖母煉焰被盜人們還在待致中下層愛迪生和名王司徒希有了新的決議司徒希請求愛迪生允許他讓卡庫離開因為他看到CP連的特工正在向島嶼承認中心墜落無處可逃所以希望卡庫能去救人愛迪生聽完後思緒晚前立刻因貝爾龐克們命令他背叛CP女兒向他道歉因為對司徒希來說他對CP組織的感情是真的在裡面有很多朋友然他對貝爾龐克的忠誠也是貨真價實的類似這樣巨大心理矛盾其實正是司徒希擁有人心的表現言至於此聽眾卡庫心頭一顫司徒希不住落淚然後老被公佈被盜聖母煉焰曾被用來為某種古代兵器提供燃料他篤定會滅魯西亞王國的正是被聖母煉焰驅動古代兵器革命軍成員們對此早有預料駐紮在魯魯西亞附近基地古米爾中將一臉驚ченная牛奶妹莫達眼中有淚還有熱心腸的國王伊利扎貝魯二世立刻下達命令快去給本王看看魯魯西亞是不是消失了說到古代兵器滅國行動老被很抱歉當場卻讓全世界下跪雖然自己不知道是誰用了它但老被越來越確定世界終會因古代兵器燃料而毀滅Probability。


In [23]:
LLM_answer

'**雷利常探羅傑團的選擇**\n\n古代兵器天王確定現世。\n\n大家好！我是白金太賊王1116話矛盾全圖情報已經更新本化匪也是大和從阿赫處收到藥物和團贈看雙方誇張身高對比還讓人想起大和的身高足有2米6書界上回老伯說巨大戰爭還要繼續一時間人們紛紛質疑800年前人都死光了怎麼可能重複同一場戰爭而聖地內伊姆雀走向牆邊最終我們可看到牆上掛一張巨大女王畫像不出意外這應該就是莉莉女王吧個人預測二手王的畫像會都在牆上掛著總之老伯持續發言一母一言不發然阿拉巴斯坦都城中伊卡涼姆和卡魯亞都在因巍巍失踪而哭泣國內已經因了一大堆巍巍失踪懸人啟示還有寇布拉王的葬禮也已經開始舉辦孫之貝爾和胡狼加卡站在國王墓旁兩位動物系果實從壁畫中描繪的遠古就留在此古國兩人抬手間正如聖地內跨越數百年的對視回到彈頭島老伯就要寫自一位研究無限能源而搞出的劃時代的聖母煉焰並說他早已意識到有一小部分聖母煉焰被盜人們還在待致中下層愛迪生和名王司徒希有了新的決議司徒希請求愛迪生允許他讓卡庫離開因為他看到CP連的特工正在向島嶼承認中心墜落無處可逃所以希望卡庫能去救人愛迪生聽完後思緒晚前立刻因貝爾龐克們命令他背叛CP女兒向他道歉因為對司徒希來說他對CP組織的感情是真的在裡面有很多朋友然他對貝爾龐克的忠誠也是貨真價實的類似這樣巨大心理矛盾其實正是司徒希擁有人心的表現言至於此聽眾卡庫心頭一顫司徒希不住落淚然後老被公佈被盜聖母煉焰曾被用來為某種古代兵器提供燃料他篤定會滅魯西亞王國的正是被聖母煉焰驅動古代兵器革命軍成員們對此早有預料駐紮在魯魯西亞附近基地古米爾中將一臉驚ченная牛奶妹莫達眼中有淚還有熱心腸的國王伊利扎貝魯二世立刻下達命令快去給本王看看魯魯西亞是不是消失了說到古代兵器滅國行動老被很抱歉當場卻讓全世界下跪雖然自己不知道是誰用了它但老被越來越確定世界終會因古代兵器燃料而毀滅Probability。'

將逐字稿摘要（Summarize）整理成條列（Bullet Points）的形式印出

In [24]:
# 對 LLM 送出提詞，並且印出回應
LLM_summarize = llm.invoke("將以下逐字稿做成摘要（Summarize）的形式" + LLM_answer)
print(LLM_summarize)

**雷利常探羅傑團的選擇**

古代兵器天王確定現世。一位研究無限能源的聖母煉焰被盜，並用於古代兵器，導致魯魯西亞王國的滅亡。國王伊利扎貝魯二世下達命令，前往魯魯西亞檢查情況。


In [25]:
LLM_summarize

'**雷利常探羅傑團的選擇**\n\n古代兵器天王確定現世。一位研究無限能源的聖母煉焰被盜，並用於古代兵器，導致魯魯西亞王國的滅亡。國王伊利扎貝魯二世下達命令，前往魯魯西亞檢查情況。'

In [26]:
# 對 LLM 送出提詞，並且印出回應
LLM_bullet_points = llm.invoke("將以下摘要整理成條列（Bullet Points）的形式" + LLM_summarize)
print(LLM_bullet_points)

- 古代兵器天王確定現世。
- 研究無限能源的聖母煉焰被盜。
- 煉焰被用於古代兵器。
- 魯魯西亞王國的滅亡。
- 國王伊利扎貝魯二世下達命令，前往魯魯西亞檢查情況。


In [27]:
LLM_bullet_points

'- 古代兵器天王確定現世。\n- 研究無限能源的聖母煉焰被盜。\n- 煉焰被用於古代兵器。\n- 魯魯西亞王國的滅亡。\n- 國王伊利扎貝魯二世下達命令，前往魯魯西亞檢查情況。'