# 安裝必要套件
安裝語音辨識所需的套件，包括 pyaudio、SpeechRecognition、numpy 和 matplotlib。

In [None]:
# 安裝語音辨識所需的套件
!pip install pyaudio    # 安裝錄音套件
!pip install SpeechRecognition    # 安裝語音辨識套件
!pip install numpy    # 安裝數值計算套件
!pip install matplotlib    # 安裝繪圖套件


# 導入所需函式庫
導入所有必要的函式庫，設置工作環境。

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 使用 seaborn 預設樣式
sns.set_theme()

# 或者查看可用的 matplotlib 樣式
print(plt.style.available)

# 選擇其中一個可用的樣式
plt.style.use('default')

['Solarize_Light2', '_classic_test_patch', '_mpl-gallery', '_mpl-gallery-nogrid', 'bmh', 'classic', 'dark_background', 'fast', 'fivethirtyeight', 'ggplot', 'grayscale', 'petroff10', 'seaborn-v0_8', 'seaborn-v0_8-bright', 'seaborn-v0_8-colorblind', 'seaborn-v0_8-dark', 'seaborn-v0_8-dark-palette', 'seaborn-v0_8-darkgrid', 'seaborn-v0_8-deep', 'seaborn-v0_8-muted', 'seaborn-v0_8-notebook', 'seaborn-v0_8-paper', 'seaborn-v0_8-pastel', 'seaborn-v0_8-poster', 'seaborn-v0_8-talk', 'seaborn-v0_8-ticks', 'seaborn-v0_8-white', 'seaborn-v0_8-whitegrid', 'tableau-colorblind10']


In [None]:
import speech_recognition as sr
import pyaudio
import wave
import numpy as np

# 初始化語音識別器
recognizer = sr.Recognizer()

# 設定音訊參數
設定取樣率、取樣格式、聲道數和每次讀取的幀數等音訊參數。

In [16]:
import pyaudio
import wave

# 設定錄音參數
format = pyaudio.paInt16  # 16位元格式
channels = 1              # 單聲道
sample_rate = 44100       # 取樣率 44.1kHz
chunk = 1024             # 緩衝區大小
record_seconds = 5       # 錄音時間

# 初始化 PyAudio
audio = pyaudio.PyAudio()

# 開啟音訊串流
stream = audio.open(
    format=format,
    channels=channels,
    rate=sample_rate,
    input=True,
    frames_per_buffer=chunk
)

print("開始錄音...")
frames = []

# 讀取音訊數據
for i in range(0, int(sample_rate / chunk * record_seconds)):
    data = stream.read(chunk)
    frames.append(data)

print("錄音結束")

# 停止和關閉串流
stream.stop_stream()
stream.close()
audio.terminate()

開始錄音...
錄音結束


# 錄製音訊
使用 PyAudio 建立一個函數來錄製音訊，並將錄製的數據保存為 WAV 檔案。

In [None]:
# 錄製音訊
import wave

def record_audio(duration, filename):
    """
    使用 PyAudio 錄製音訊並保存為 WAV 檔案

    參數:
    duration (int): 錄音時長（秒）
    filename (str): 保存的 WAV 檔案名稱
    """
    # 初始化 PyAudio
    audio = pyaudio.PyAudio()

    # 開啟音訊串流
    stream = audio.open(format=format,
                        channels=channels,
                        rate=sample_rate,
                        input=True,
                        frames_per_buffer=frames_per_buffer)

    print("開始錄音...")

    frames = []

    # 錄製音訊
    for _ in range(0, int(sample_rate / frames_per_buffer * duration)):
        data = stream.read(frames_per_buffer)
        frames.append(data)

    print("錄音結束")

    # 停止音訊串流
    stream.stop_stream()
    stream.close()
    audio.terminate()

    # 保存為 WAV 檔案
    with wave.open(filename, 'wb') as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(audio.get_sample_size(format))
        wf.setframerate(sample_rate)
        wf.writeframes(b''.join(frames))

# 使用範例
record_audio(5, 'output.wav')  # 錄製 5 秒音訊並保存為 output.wav

# 音訊前處理
對錄製的音訊進行降噪、正規化等處理，提高語音辨識的準確性。

In [None]:
# 音訊前處理
import numpy as np
import wave
from scipy.io import wavfile
from scipy.signal import butter, lfilter

def butter_bandpass(lowcut, highcut, fs, order=5):
    """
    創建一個巴特沃斯帶通濾波器

    參數:
    lowcut (float): 低截止頻率
    highcut (float): 高截止頻率
    fs (int): 取樣率
    order (int): 濾波器階數

    返回:
    b, a (ndarray): 濾波器係數
    """
    nyq = 0.5 * fs
    low = lowcut / nyq
    high = highcut / nyq
    b, a = butter(order, [low, high], btype='band')
    return b, a

def bandpass_filter(data, lowcut, highcut, fs, order=5):
    """
    對音訊數據應用帶通濾波器

    參數:
    data (ndarray): 音訊數據
    lowcut (float): 低截止頻率
    highcut (float): 高截止頻率
    fs (int): 取樣率
    order (int): 濾波器階數

    返回:
    y (ndarray): 濾波後的音訊數據
    """
    b, a = butter_bandpass(lowcut, highcut, fs, order=order)
    y = lfilter(b, a, data)
    return y

def normalize_audio(data):
    """
    將音訊數據正規化到 [-1, 1] 範圍內

    參數:
    data (ndarray): 音訊數據

    返回:
    normalized_data (ndarray): 正規化後的音訊數據
    """
    max_val = np.max(np.abs(data))
    normalized_data = data / max_val
    return normalized_data

def preprocess_audio(filename, lowcut=300.0, highcut=3000.0):
    """
    對錄製的音訊進行降噪、正規化等處理

    參數:
    filename (str): 音訊檔案名稱
    lowcut (float): 低截止頻率
    highcut (float): 高截止頻率

    返回:
    processed_data (ndarray): 處理後的音訊數據
    """
    # 讀取音訊檔案
    fs, data = wavfile.read(filename)

    # 如果是立體聲，取第一個聲道
    if len(data.shape) == 2:
        data = data[:, 0]

    # 應用帶通濾波器
    filtered_data = bandpass_filter(data, lowcut, highcut, fs)

    # 正規化音訊數據
    normalized_data = normalize_audio(filtered_data)

    return normalized_data

# 使用範例
processed_data = preprocess_audio('output.wav')
print("音訊前處理完成")

# 使用語音辨識引擎
使用 SpeechRecognition 庫中的 Google Speech Recognition、Sphinx 或其他引擎將音訊轉換為文字。

In [None]:
# 使用語音辨識引擎
import speech_recognition as sr

def recognize_speech_from_file(filename, engine='google'):
    """
    使用指定的語音辨識引擎將音訊檔案轉換為文字

    參數:
    filename (str): 音訊檔案名稱
    engine (str): 語音辨識引擎名稱，可選 'google' 或 'sphinx'

    返回:
    text (str): 辨識出的文字
    """
    # 初始化語音辨識器
    recognizer = sr.Recognizer()

    # 讀取音訊檔案
    with sr.AudioFile(filename) as source:
        audio_data = recognizer.record(source)

    # 使用指定的語音辨識引擎進行辨識
    try:
        if engine == 'google':
            text = recognizer.recognize_google(audio_data, language='zh-TW')
        elif engine == 'sphinx':
            text = recognizer.recognize_sphinx(audio_data)
        else:
            raise ValueError("不支援的語音辨識引擎: {}".format(engine))
        return text
    except sr.UnknownValueError:
        return "無法辨識音訊"
    except sr.RequestError as e:
        return "語音辨識服務出錯: {}".format(e)

# 使用範例
recognized_text = recognize_speech_from_file('output.wav', engine='google')
print("辨識出的文字:", recognized_text)

# 結果處理與顯示
分析辨識結果，顯示文本，並計算辨識的準確性。

In [None]:
# 結果處理與顯示
# 分析辨識結果，顯示文本，並計算辨識的準確性

# 假設我們有一個正確的文本作為參考
reference_text = "這是一個測試的句子"

# 顯示辨識出的文本
print("辨識出的文字:", recognized_text)

# 計算辨識的準確性
def calculate_accuracy(reference, recognized):
    """
    計算辨識文本與參考文本之間的準確性

    參數:
    reference (str): 參考文本
    recognized (str): 辨識出的文本

    返回:
    accuracy (float): 準確性百分比
    """
    reference_words = reference.split()
    recognized_words = recognized.split()
    correct = sum(1 for ref, rec in zip(reference_words, recognized_words) if ref == rec)
    accuracy = correct / len(reference_words) * 100
    return accuracy

# 計算並顯示準確性
accuracy = calculate_accuracy(reference_text, recognized_text)
print("辨識準確性: {:.2f}%".format(accuracy))

# 繪製辨識結果與參考文本的比較
def plot_comparison(reference, recognized):
    """
    繪製辨識文本與參考文本的比較

    參數:
    reference (str): 參考文本
    recognized (str): 辨識出的文本
    """
    reference_words = reference.split()
    recognized_words = recognized.split()
    fig, ax = plt.subplots()
    ax.plot(reference_words, label='參考文本', color='blue')
    ax.plot(recognized_words, label='辨識文本', color='red', linestyle='--')
    ax.legend()
    plt.xlabel('單詞索引')
    plt.ylabel('單詞')
    plt.title('辨識結果與參考文本的比較')
    plt.show()

# 繪製比較圖
plot_comparison(reference_text, recognized_text)

# 即時語音辨識系統
結合前面的功能，建立一個即時的語音辨識系統，可以連續聽取用戶的語音並轉換為文字。

In [None]:
# 即時語音辨識系統
import pyaudio
import speech_recognition as sr

def real_time_speech_recognition():
    """
    即時語音辨識系統，連續聽取用戶的語音並轉換為文字
    """
    # 初始化 PyAudio 和語音辨識器
    audio = pyaudio.PyAudio()
    recognizer = sr.Recognizer()

    # 開啟音訊串流
    stream = audio.open(format=format,
                        channels=channels,
                        rate=sample_rate,
                        input=True,
                        frames_per_buffer=frames_per_buffer)

    print("開始即時語音辨識...")

    try:
        while True:
            # 讀取音訊數據
            data = stream.read(frames_per_buffer)
            audio_data = sr.AudioData(data, sample_rate, audio.get_sample_size(format))

            # 辨識音訊
            try:
                text = recognizer.recognize_google(audio_data, language='zh-TW')
                print("辨識出的文字:", text)
            except sr.UnknownValueError:
                print("無法辨識音訊")
            except sr.RequestError as e:
                print("語音辨識服務出錯:", e)
    except KeyboardInterrupt:
        print("即時語音辨識結束")

    # 停止音訊串流
    stream.stop_stream()
    stream.close()
    audio.terminate()

# 使用範例
real_time_speech_recognition()