In [None]:
# 安裝必要的套件
!pip install librosa soundfile ipython

# 安裝額外的語速調整套件 (可選，提供更好的音質)
!pip install pyrb

# 如果上面的套件安裝失敗，可以嘗試：
# !pip install psola
# !pip install pydub

In [None]:
import librosa
import soundfile as sf
import numpy as np
from IPython.display import Audio, display
import matplotlib.pyplot as plt

# 方法1: 使用 librosa 的 STFT 和 phase vocoder (推薦，保持音調不變)
def adjust_audio_speed_librosa(input_file, speed_factor=1.0, output_file=None):
    """
    使用 librosa 的 phase vocoder 調整語速（保持音調不變）

    參數:
    - input_file: 輸入音檔路徑
    - speed_factor: 語速倍率 (1.0=原速, 2.0=兩倍速, 0.5=半速)
    - output_file: 輸出音檔路徑 (可選)

    回傳:
    - (audio_data, sample_rate): 處理後的音檔數據和採樣率
    """
    # 載入音檔
    y, sr = librosa.load(input_file)

    # 使用 STFT 和 phase vocoder 調整語速
    # 計算 STFT
    stft = librosa.stft(y)

    # 使用 phase vocoder 調整時間
    stft_stretched = librosa.phase_vocoder(stft, rate=speed_factor)

    # 反變換回時域
    y_stretched = librosa.istft(stft_stretched)

    # 如果指定輸出檔案，則儲存
    if output_file:
        sf.write(output_file, y_stretched, sr)

    return y_stretched, sr

# 方法2: 使用 pyrb 庫 (WSOLA 算法，音質較好)
def adjust_audio_speed_pyrb(input_file, speed_factor=1.0, output_file=None):
    """
    使用 pyrb (WSOLA算法) 調整語速（保持音調不變）
    需要先安裝: pip install pyrb

    參數:
    - input_file: 輸入音檔路徑
    - speed_factor: 語速倍率 (1.0=原速, 2.0=兩倍速, 0.5=半速)
    - output_file: 輸出音檔路徑 (可選)

    回傳:
    - (audio_data, sample_rate): 處理後的音檔數據和採樣率
    """
    try:
        import pyrb

        # 載入音檔
        y, sr = librosa.load(input_file)

        # pyrb 的正確用法 - 使用 stretch 函數
        if hasattr(pyrb, 'time_stretch'):
            y_stretched = pyrb.time_stretch(y, sr, speed_factor)
        elif hasattr(pyrb, 'stretch'):
            y_stretched = pyrb.stretch(y, sr, speed_factor)
        else:
            print("pyrb API 不相容，請嘗試其他方法")
            return None, None

        # 如果指定輸出檔案，則儲存
        if output_file:
            sf.write(output_file, y_stretched, sr)

        return y_stretched, sr

    except ImportError:
        print("pyrb 未安裝，請執行: pip install pyrb")
        return None, None
    except Exception as e:
        print(f"pyrb 處理失敗: {e}")
        print("請嘗試使用 librosa 方法")
        return None, None

# 方法3: 使用 librosa 的簡化版本 (適用於較新版本)
def adjust_audio_speed_simple(input_file, speed_factor=1.0, output_file=None):
    """
    使用 librosa 的簡化方法調整語速

    參數:
    - input_file: 輸入音檔路徑
    - speed_factor: 語速倍率 (1.0=原速, 2.0=兩倍速, 0.5=半速)
    - output_file: 輸出音檔路徑 (可選)

    回傳:
    - (audio_data, sample_rate): 處理後的音檔數據和採樣率
    """
    # 載入音檔
    y, sr = librosa.load(input_file)

    # 使用 librosa 的時間拉伸功能
    try:
        # 嘗試使用新版本的 API
        y_stretched = librosa.effects.time_stretch(y, rate=speed_factor)
    except:
        # 如果新版本不支援，使用 STFT 方法
        stft = librosa.stft(y)
        stft_stretched = librosa.phase_vocoder(stft, rate=speed_factor)
        y_stretched = librosa.istft(stft_stretched)

    # 如果指定輸出檔案，則儲存
    if output_file:
        sf.write(output_file, y_stretched, sr)

    return y_stretched, sr

# 建議使用的主要函數
def adjust_audio_speed(input_file, speed_factor=1.0, output_file=None, method='librosa'):
    """
    主要的語速調整函數

    參數:
    - input_file: 輸入音檔路徑
    - speed_factor: 語速倍率 (1.0=原速, 2.0=兩倍速, 0.5=半速)
    - output_file: 輸出音檔路徑 (可選)
    - method: 'librosa' 或 'pyrb'

    回傳:
    - (audio_data, sample_rate): 處理後的音檔數據和採樣率
    """
    if method == 'pyrb':
        return adjust_audio_speed_pyrb(input_file, speed_factor, output_file)
    else:
        return adjust_audio_speed_librosa(input_file, speed_factor, output_file)

# 創建測試音檔的函數
def create_test_audio(filename='test_audio.wav', duration=3, freq=440):
    """創建一個測試音檔"""
    sr = 22050
    t = np.linspace(0, duration, int(sr * duration))
    # 創建一個包含多個頻率的和聲
    y = (np.sin(2 * np.pi * freq * t) +
         0.5 * np.sin(2 * np.pi * freq * 2 * t) +
         0.3 * np.sin(2 * np.pi * freq * 3 * t))
    y = y * 0.2  # 降低音量
    sf.write(filename, y, sr)
    return filename, sr

# 使用範例
print("=== 語速調整工具 ===")
print("支援的方法:")
print("1. librosa (使用 phase vocoder) - 推薦")
print("2. pyrb (使用 WSOLA 算法) - 可選，需要正確安裝")
print()

# 自動選擇音檔
import os
audio_file = None

# 檢查是否有音檔
if os.path.exists('your_audio.wav'):
    audio_file = 'your_audio.wav'
    print(f"找到音檔: {audio_file}")
else:
    # 創建測試音檔
    print("未找到 'your_audio.wav'，創建測試音檔...")
    audio_file, _ = create_test_audio('test_audio.wav')
    print(f"✓ 已創建測試音檔: {audio_file}")

# 示範用法
try:
    # 調整語速為1.5倍（使用 librosa 方法）
    print("\\n使用 librosa 方法調整語速...")
    audio_1_5x, sr = adjust_audio_speed_librosa(audio_file, speed_factor=1.5)

    if audio_1_5x is not None:
        original_audio, _ = librosa.load(audio_file)
        print(f"✓ 成功！")
        print(f"  原始長度: {len(original_audio)/sr:.2f}秒")
        print(f"  調整後長度: {len(audio_1_5x)/sr:.2f}秒")
        print(f"  壓縮比例: {len(audio_1_5x)/len(original_audio):.2f}")

        # 播放原始音檔
        print("\\n播放原始音檔:")
        display(Audio(audio_file))

        # 播放調整後的音檔
        print("播放1.5倍速音檔:")
        display(Audio(audio_1_5x, rate=sr))

        # 儲存調整後的音檔
        output_filename = 'audio_1_5x_speed.wav'
        sf.write(output_filename, audio_1_5x, sr)
        print(f"✓ 已儲存為 '{output_filename}'")

        # 顯示波形比較
        print("\\n繪製波形比較圖...")
        plt.figure(figsize=(15, 8))

        # 原始音檔波形
        plt.subplot(2, 1, 1)
        time_orig = np.linspace(0, len(original_audio)/sr, len(original_audio))
        plt.plot(time_orig, original_audio)
        plt.title('原始音檔波形')
        plt.xlabel('時間 (秒)')
        plt.ylabel('振幅')
        plt.grid(True)

        # 調整後音檔波形
        plt.subplot(2, 1, 2)
        time_new = np.linspace(0, len(audio_1_5x)/sr, len(audio_1_5x))
        plt.plot(time_new, audio_1_5x)
        plt.title('1.5倍速音檔波形')
        plt.xlabel('時間 (秒)')
        plt.ylabel('振幅')
        plt.grid(True)

        plt.tight_layout()
        plt.show()
    else:
        print("✗ 處理失敗")

except Exception as e:
    print(f"✗ 錯誤: {e}")
    print("請檢查以下項目:")
    print("1. 確保音檔路徑正確")
    print("2. 確保已安裝 librosa 和 soundfile")
    print("3. 嘗試重新執行第一個 cell 安裝套件")

KeyboardInterrupt: 

In [None]:
# 更多使用範例 - 不同語速的示範
print("=== 多種語速示範 ===")

# 使用之前創建或找到的音檔
input_file = 'test_audio.wav' if os.path.exists('test_audio.wav') else None
if not input_file and os.path.exists('your_audio.wav'):
    input_file = 'your_audio.wav'

if not input_file:
    print("創建新的測試音檔...")
    input_file, _ = create_test_audio('multi_test_audio.wav')
    print(f"✓ 已創建: {input_file}")

# 測試不同語速
speed_factors = [0.5, 0.75, 1.0, 1.25, 1.5, 2.0]
results = {}

print(f"\\n使用音檔: {input_file}")
print("處理不同語速...")

for speed in speed_factors:
    try:
        print(f"處理 {speed}x 語速...", end=" ")
        audio_adjusted, sr = adjust_audio_speed_librosa(input_file, speed_factor=speed)

        if audio_adjusted is not None:
            # 儲存結果
            output_file = f"speed_{speed}x.wav"
            sf.write(output_file, audio_adjusted, sr)
            results[speed] = (audio_adjusted, sr, output_file)
            print(f"✓ 長度: {len(audio_adjusted)/sr:.2f}秒")
        else:
            print("✗ 失敗")

    except Exception as e:
        print(f"✗ 錯誤: {e}")

# 播放比較（選擇幾個代表性的語速）
if results:
    print("\\n=== 播放比較 ===")

    # 播放原始音檔
    print("\\n🎵 原始音檔 (1.0x):")
    display(Audio(input_file))

    # 播放不同語速
    demo_speeds = [0.5, 1.5, 2.0]
    for speed in demo_speeds:
        if speed in results:
            audio, sr, filename = results[speed]
            print(f"\\n🎵 {speed}x 語速:")
            display(Audio(audio, rate=sr))

# 視覺化不同語速的波形
if len(results) >= 2:
    print("\\n=== 波形比較圖 ===")

    # 載入原始音檔
    original_audio, sr_orig = librosa.load(input_file)

    # 選擇要比較的語速
    compare_speeds = [0.5, 1.0, 1.5, 2.0]
    available_speeds = [s for s in compare_speeds if s in results or s == 1.0]

    fig, axes = plt.subplots(len(available_speeds), 1, figsize=(15, 3*len(available_speeds)))
    if len(available_speeds) == 1:
        axes = [axes]

    for i, speed in enumerate(available_speeds):
        if speed == 1.0:
            # 原始音檔
            time_axis = np.linspace(0, len(original_audio)/sr_orig, len(original_audio))
            axes[i].plot(time_axis, original_audio)
            axes[i].set_title(f'原始音檔 ({speed}x 語速)')
        else:
            # 調整後的音檔
            audio, sr, _ = results[speed]
            time_axis = np.linspace(0, len(audio)/sr, len(audio))
            axes[i].plot(time_axis, audio)
            axes[i].set_title(f'{speed}x 語速')

        axes[i].set_xlabel('時間 (秒)')
        axes[i].set_ylabel('振幅')
        axes[i].grid(True, alpha=0.3)

        # 限制顯示時間（前3秒）
        axes[i].set_xlim(0, 3)

    plt.tight_layout()
    plt.show()

# 總結
print("\\n=== 處理結果總結 ===")
print(f"成功處理 {len(results)} 種語速")
print("\\n已生成的檔案:")
for speed, (audio, sr, filename) in results.items():
    file_size = os.path.getsize(filename) / 1024  # KB
    print(f"  {filename} - {speed}x語速, {len(audio)/sr:.1f}秒, {file_size:.1f}KB")

print("\\n💡 使用技巧:")
print("1. 0.5x - 適合學習語言或聽困難內容")
print("2. 1.25x - 適合日常播客或講座")
print("3. 1.5x - 適合快速瀏覽或複習")
print("4. 2.0x - 適合熟悉內容的快速播放")

print("\\n✅ 完成！所有音檔都保持了原始音調。")


分隔線

In [2]:
import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline

# 1. Load audio
audio_path = "./sample_data/sample.mp3"
waveform, sample_rate = torchaudio.load(audio_path)

# 2. Preprocess
if waveform.shape[0] > 1:
    waveform = waveform.mean(dim=0)
waveform = waveform.squeeze().numpy()

if sample_rate != 16_000:
    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
    waveform = resampler(torch.tensor(waveform)).numpy()
    sample_rate = 16_000

# 3. Load Model
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()

# 4. Build Pipeline
asr_pipeline = AutomaticSpeechRecognitionPipeline(
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=0
)

# 6. Inference
output = asr_pipeline(waveform, return_timestamps=True)
print("Result:", output["text"])


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


preprocessor_config.json:   0%|          | 0.00/339 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

normalizer.json: 0.00B [00:00, ?B/s]

added_tokens.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/3.09G [00:00<?, ?B/s]

generation_config.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0
Using custom `forced_decoder_ids` from the (generation) config. This is deprecated in favor of the `task` and `language` flags/config options.
Transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English. This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`. See https://github.com/huggingface/transformers/pull/28687 for more details.


Result: 餵 你好1號這邊是范瑾瑤先生嗎打擾了這邊是跟車行配合的分期公司重慶范醫師現在要先搶電話嗎可以可以可以因為我們消保人員有跟您做過照會了啦那因為目前有審核結果想先確認一下就是目前有業務或是車行有跟您做聯繫嗎就是跟您說審核的狀況這樣子還沒卡還沒卡還沒好那我跟您簡單說明一下啦因為分期的部分是還沒有通過然後目前是有兩種方式就是看您比較方便哪一種那第一個的話就是說要提供您的第六個月的存摺明細跟封面做評估這樣子然後第二種方式的話是我們另外幫您特別爭取的就是它是一個加 99 元的專案就是說每一個月多加 99 塊這個分期就核准這樣子就是看你哪一個比較方便嗯我不怕你我都不怕犯規給你喔 沒辦過還是說你有沒有在使用的喔 都沒辦過那你有在使用的佈置嗎就是你有存款的在使用的佈置我都是用公司的頭髮喔 都是公司的喔 因為我們審核的話是要有本人的名字啦那還是說你要考慮我們就是加 99 元因為它這個是直接合就是加 99 就通過了就是因為像有些客人他不方便補財力啦就是有另外一桌人取得這樣子會比較快就是看你要不要用什麼那時候就是你說加完的地方那我跟你說那是 10 個月嘛就去做這件事對就是加在每個月上面啦就比方說你原本第一個每個月是 2813 嘛所以加完 999 就是變成 2912 啦這樣子再加 2000 幾塊就對了對啊因為變成是說它就是比較快省的方式啊如果說您之後繳得好的話其實對您之後如果有分期什麼的那那個也有加分這樣子就是看你要不要使用這個方式啦不過我都用公司的因為公司的話我們沒有辦法認列它是只會以個人的那個存摺這樣還是那個農會可以辦嗎農會啊是您的名字嗎那裡面就是裡面有沒有平常有沒有進出的那個名氣就是有存錢地名的名字就是會有新資進去再領出來這樣就可以了嗎你是有新資轉進去的嗎因為我是看因為我有另外一個工作是在公所您說公所嗎公所它是用心轉的嗎對新轉啊那就是工作就是用融會直接匯進去的喔那可以啊那你幫還是說你要不要幫我提供那一個 booth 給特航啊我們收到會再做評估幫我拍封面然後跟要等車耶我現在跑到沒 2000 公里耶喔沒離家很遠嗎要跑很遠嗎還蠻遠的喔因為就是怕因為我在台東的車行對不對摩托車就停在那我沒辦法星期一星期一才有辦法回去走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走走