<a href="https://colab.research.google.com/github/kevin6449/ironman2024_genai/blob/main/gen_ai_day9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 探索 Gemini API 的音訊功能

Gemini 可以回覆語音提示。舉例來說，Gemini 可以：

- 說明、總結或回答音訊內容相關問題。
- 提供音訊的轉錄稿。
- 提供有關音訊特定片段的解答或轉錄稿。


支援的音訊格式
Gemini 支援下列音訊格式 MIME 類型：

- WAV - 音訊/WAV
- MP3 - 音訊/mp3
- AIFF - 音訊/AI
- AAC - 音訊/AAC
- OGG Vorbis - 音訊/ogg
- FLAC - 音訊/flac

音訊的相關技術詳細資料
Gemini 對音訊有下列規則：

- Gemini 以 25 個符記表示的每一秒音訊；例如 1,500 個符記表示 1 分鐘的音訊。
- Gemini 只能推論英語的回覆。
- Gemini 可以「理解」例如鳥鳴或警笛聲等
- 單一提示支援的音訊資料長度上限為 9.5 小時。 Gemini 不會在單次提示中限制音訊檔案數量；不過 在單一提示中，所有音訊檔案的總長度不得超過 9.5 小時。
- Gemini 會將音訊檔案取樣至 16 Kbps 的資料解析度，
- 如果音訊來源含有多個聲道，Gemini 會合併這些聲道 明確轉換為單一管道

In [None]:
import google.generativeai as genai

In [None]:
from google.colab import userdata

API_KEY=userdata.get('GOOGLE_API_KEY')

In [None]:
#genai.configure(api_key="YOUR_API_KEY")

# Configure the client library by providing your API key.
genai.configure(api_key=API_KEY)

# 將音訊檔案提供給 Gemini

使用 File API 上傳音訊檔案

In [None]:
!curl -o sample.mp3 https://storage.googleapis.com/generativeai-downloads/data/State_of_the_Union_Address_30_January_1961.mp3

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 39.8M  100 39.8M    0     0  44.1M      0 --:--:-- --:--:-- --:--:-- 44.1M


In [None]:
# Upload the file.
audio_file = genai.upload_file(path='sample.mp3')

## 將上傳檔案的提示傳送給 Gemini

In [None]:
# Initialize a Gemini model appropriate for your use case.
model = genai.GenerativeModel(model_name="gemini-1.5-flash")

# Create the prompt.
prompt = "請用繁體中文總結一下演講內容。"

# Pass the prompt and the audio file to Gemini.
response = model.generate_content([prompt, audio_file])

# Print the response.
print(response.text)

演講主要談論了美國當時所面對的內外困境，包含經濟蕭條、失業率攀升、聯邦預算赤字、冷戰局勢等問題。 演講者強調美國依然強大，並提出了一些解決方案，例如：增強軍力、改善經濟、加強國際合作、援助發展中國家，以及應對冷戰威脅等。 此外，演講者還呼籲全國人民團結一致，共同面對挑戰，為美國的未來而努力。 43:30 



列出上傳的檔案

In [None]:
# List all uploaded files.
for file in genai.list_files():
    print(f"{file.display_name}, URI: {file.uri}")

sample.mp3, URI: https://generativelanguage.googleapis.com/v1beta/files/ex10yxajcceh
Jetpack drawing, URI: https://generativelanguage.googleapis.com/v1beta/files/5bqo8ymghi6p
Gemini 1.5 PDF, URI: https://generativelanguage.googleapis.com/v1beta/files/q5sm8ac67ph8


刪除上傳的檔案

In [None]:
# Delete an uploaded file.
genai.delete_file(audio_file.name)
print(f'Deleted file {audio_file.uri}')

Deleted file https://generativelanguage.googleapis.com/v1beta/files/ex10yxajcceh


# 在要求中以內嵌資料的形式提供音訊檔案

In [None]:
# Download an audio file from a remote server to a cache directory
# on your local host.
!curl -o samplesmall.mp3 https://storage.googleapis.com/generativeai-downloads/data/Apollo-11_Day-01-Highlights-10s.mp3

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100  156k  100  156k    0     0   643k      0 --:--:-- --:--:-- --:--:--  646k


In [None]:
# Import the pathlib module
import pathlib

In [None]:
# Initialize a Gemini model appropriate for your use case.
model = genai.GenerativeModel('models/gemini-1.5-flash')

# Create the prompt.
prompt = "請用繁體中文請總結一下音訊。"

# Load the samplesmall.mp3 file into a Python Blob object containing the audio
# file's bytes and then pass the prompt and the audio to Gemini.
response = model.generate_content([
    prompt,
    {
        "mime_type": "audio/mp3",
        "data": pathlib.Path('samplesmall.mp3').read_bytes()
    }
])

# Output Gemini's response to the prompt and the inline audio.
print(response.text)

音訊內容為倒數計時，從 10 開始倒數到 8，並在 8 秒時宣布「我們有主引擎啟動」。 



## 取得音訊檔案的轉錄稿

In [None]:
# Initialize a Gemini model appropriate for your use case.
model = genai.GenerativeModel(model_name="gemini-1.5-pro")

# Create the prompt.
prompt = "請用繁體中文產生轉錄稿。"

# Pass the prompt and the audio file to Gemini.
response = model.generate_content([prompt, audio_file])

# Print the transcript.
print(response.text)

00:00:03 肯尼迪總統在眾議院羅斯托姆向國會聯席會議發表國情咨文，華盛頓特區，1961 年 1 月 30 日。 00:00:21 議長先生、副總統先生、國會議員們。 00:00:26 很高興能重返我出身之地。 00:00:34 你們是我在華盛頓最老的朋友，而這個議院是我最老的家。 00:00:42 在這裡， 00:00:46 在這裡，14 年前，我第一次宣誓就職聯邦公職。 00:00:51 在這裡，14 年來，我從兩院兩黨議員身上獲得了知識和啟發。 00:00:59 從你們睿智和慷慨的領導人身上， 00:01:06 以及我仍然清晰記得，坐在你們現在坐的位置上時，所聽到的那些發言中，包括兩位偉大總統的施政綱領、 00:01:14 邱吉爾不減的雄辯、 00:01:20 納賽爾高漲的理想主義、 00:01:23 戴高樂將軍堅定的話語。 00:01:25 在同一個歷史性的羅斯托姆上發言，是一種令人清醒的體驗； 00:01:30 能夠重返這麼多朋友之中，則令人開心。 00:01:33 我相信這份友誼將持續下去。 00:01:36 我們的憲法明智地規定了政府各部門共同和各自的角色， 00:01:42 而彼此相互尊重的總統和國會， 00:01:47 既不會允許也不會試圖進行任何越權行為。 00:01:53 就我而言，我既不會對國會也不會對人民隱瞞任何過去、現在或將來的事實或報告，只要這些事實或報告對了解我們的狀況和危害是必要的。 00:02:07 我既不會將行政決策的重擔轉移給國會， 00:02:18 也不會逃避對這些決策結果的責任。 00:02:24 我今天在這個國家危機和國家機遇並存的時刻發表演講。 00:02:31 在我的任期結束之前，我們將不得不重新檢驗， 00:02:39 我們的國家組織 00:02:43 和治理方式能否持久。 00:02:46 結果絕非確定， 00:02:48 答案也絕非清晰。 00:02:51 我們所有人，本屆政府、本屆國會、這個國家，都必須共同努力尋找這些答案。 00:02:59 但如果我在就職僅僅一周多之後， 00:03:05 就提出詳細的立法來解決每一項國家弊病， 00:03:10 國會就會理所當然地懷疑， 00:03:14 對速度的渴望是否已經取代了責任的義務。 00:03:17 因此，我的講話將會簡短， 00:03:21 但也會坦誠。

## 參考音訊檔案中的時間戳記

In [None]:
# Create a prompt containing timestamps.
prompt = "提供 02:30 至 03:29 的演講稿。"

In [None]:
# Pass the prompt and the audio file to Gemini.
response = model.generate_content([prompt, audio_file])

# Print the transcript.
print(response.text)

好的，以下是由 02:30 至 03:29 的演講稿：

「我今天演講的時刻，正是國家危機與國家機遇交織之際。在總統任期結束之前，我們將不得不重新驗證，一個國家若像我們這樣組織並治理，是否能夠持久存在。結果絕非定數，答案也絕非顯而易見。所有的人，本屆政府、本屆國會、這個國家，都必須共同找出這些答案。

但今天，才就任短短一個多星期，我就提出詳細的立法計畫，意圖矯正每一個國家弊病，國會想必會合理地質疑，我是否重視速度更甚於責任。

因此，我的發言會有所節制，但也將坦誠以對。坦率地陳述事實，並非絕望於未來，也非否定過去。審慎的繼承人會仔細盤點他所繼承的遺產，並對那些他負有信託義務的人提出忠實的說明。

儘管這個場合並不需要再次細數我們的福祉與資產，但我們最偉大的資產莫過於一個自由而堅定的民族，透過其民選官員，坦然面對所有問題，並迎接所有危險，不恐慌也不畏懼的意願。

我國目前的經濟狀況令人不安。我們上任之際，正值連續七個月的經濟衰退、三年半的經濟疲軟、七年來的經濟成長減緩，以及九年來的農場收入下降。商業破產案件數量已達到大蕭條以來的最高水平。自 1951 年以來，農場收入已被壓低了 25%。除了 1958 年的短暫時期之外，保險失業率處於我國歷史上的最高峰。在約 550 萬失業的美國人中，有超過 100 萬人已經找工作找了四個多月。而且，每個月約有 15 萬名勞工領取原本就微薄的失業救濟金的時間到期。

在近 100 個特別貧困和動盪的地區，將近八分之一的失業者幾乎生活在絕望之中。其餘的人包括無法學以致用的應屆畢業生、被迫放棄兼職工作的農民，這些兼職工作原本可以幫助他們平衡家庭預算、在金屬、機械、汽車和服裝等重要產業被解雇的技術工人和非技術工人。

此外，我們自 1958 年經濟衰退後的復甦既貧血又不完整。我國的國民生產總值從未恢復到其全部潛力。失業率從未回到正常水平。我國的國家工業能力從未完全恢復。簡而言之，美國經濟陷入困境。

世界上資源最豐富的工業化國家，在經濟成長率方面卻敬陪末座。自去年春天以來，我們的經濟成長率實際上已經下降。商業投資正在下降。利潤已降至預期水平以下。建築業不景氣。有 100 萬輛未售出的汽車被存放在倉庫裡。工作的人越來越少，平均每週工作時間也已縮減至 40 小時以下。然而，物價卻持續上漲，以至於現在許多美國人在購買成本更高的商品時，可支配的支

# 計算符記數量

In [None]:
model.count_tokens([audio_file])

total_tokens: 83552