In [1]:
import os
from pydub import AudioSegment
import librosa
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from dsp import *

我们希望使用 SVM 实现语音识别，步骤如下：

1. 特征提取

2. 模型训练

3. 模型识别

In [2]:
def readDat(filepath):
    # 使用16位有符号整数(int16)格式读取原始数据
    y = np.fromfile(filepath, dtype=np.int16)
    # 将整数值归一化到[-1, 1]范围
    y = y.astype(np.float32) / 32768.0
    return y

In [3]:
y = readDat('22307110206-00-01.dat')
print(y.shape)

(20310,)


In [4]:
# 特征提取
def extractFeature(audio_file, sr=8000, win=256):
    y = readDat(audio_file)
    
    segments = vad(y, sr, win, win//2)

    if len(segments) == 0:
        print("No segments found.")
        return None
    
    # 取所有音频段的起始和结束时间
    start = segments[0][0]
    end = segments[-1][1]
    y_speech = y[int(start):int(end)]

    # 确保语音段足够长
    min_length = win * 2  # 确保能生成至少一个完整的STFT帧
    if len(y_speech) < min_length:
        print(f"警告: {audio_file} 语音段太短({len(y_speech)}采样点)，填充至{min_length}采样点")
        y_speech = np.pad(y_speech, (0, min_length - len(y_speech)), 'constant')

    # print("Start time:", start)
    # print("End time:", end)
    # print("Segment Num:", len(segments))
    # print("-" * 20)

    # 提取MFCC特征
    mfcc_feature = computeMFCC(y_speech, sr, win, D=13, M=26)

    mfcc_mean = np.mean(mfcc_feature, axis=1)
    mfcc_std = np.std(mfcc_feature, axis=1)

    feature = np.concatenate([mfcc_mean, mfcc_std])

    return feature

In [5]:
# 准备数据集
def prepareData(base_dir, classes):
    features = []
    labels = []

    # 计算总文件数
    total_files = 0
    for idx, name in enumerate(classes):
        class_dir = os.path.join(base_dir, str(idx).zfill(2))
        if os.path.exists(class_dir):
            for filename in os.listdir(class_dir):
                if filename.endswith('.dat'):
                    total_files += 1

    with tqdm(total=total_files, desc="总进度") as pbar:
        for idx, name in enumerate(classes):
            class_dir = os.path.join(base_dir, str(idx).zfill(2))
            for filename in os.listdir(class_dir):
                if filename.endswith('.dat'):
                    filepath = os.path.join(class_dir, filename)
                    feature = extractFeature(filepath)
                    if feature is not None:
                        features.append(feature)
                        labels.append(idx)

                    pbar.update(1)

    return np.array(features), np.array(labels)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
import joblib

# 训练SVM模型
def train_svm_model(features, labels, test_size=0.2, random_state=42):
    # 分割训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(
        features, labels, test_size=test_size, random_state=random_state, stratify=labels
    )
    
    # 特征标准化
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 训练SVM模型
    svm = SVC(kernel='rbf', C=10, gamma='scale', probability=True)
    svm.fit(X_train_scaled, y_train)
    
    # 评估模型
    y_pred = svm.predict(X_test_scaled)
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred)
    
    print(f"Accuracy: {accuracy:.4f}")
    print("Classification Report:")
    print(report)
    
    # 保存模型和标准化器
    joblib.dump(svm, 'svm_model.pkl')
    joblib.dump(scaler, 'scaler.pkl')
    
    return svm, scaler, (X_test_scaled, y_test)

In [None]:
# 使用模型进行识别
def recognize_speech(audio_file, model, scaler, class_names):
    # 提取特征
    feature = extractFeature(audio_file)
    if feature is None:
        return "无法检测到语音"
    
    # 标准化特征
    features_scaled = scaler.transform(feature.reshape(1, -1))
    
    # 预测
    probabilities = model.predict_proba(features_scaled)[0]
    class_idx = np.argmax(probabilities)
    confidence = probabilities[class_idx]
    
    return class_names[class_idx], confidence

In [6]:
classes = ["数字", "语音", "语言", "处理", "中国", "忠告", "北京", "背景", "上海", 
              "Speech", "Speaker", "Signal", "Sequence", "Processing", "Print", "Project", "File", "Open"]

features, labels = prepareData('../Data', classes)


总进度:   0%|          | 0/9719 [00:00<?, ?it/s]

总进度:   0%|          | 1/9719 [00:00<53:03,  3.05it/s]

警告: ../Data/00/21307130052_00_19.dat 语音段太短(128采样点)，填充至512采样点


总进度:   0%|          | 21/9719 [00:09<3:09:37,  1.17s/it]

警告: ../Data/00/22307130038_00_18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_11.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_10.dat 语音段太短(128采样点)，填充至512采样点


总进度:   1%|          | 60/9719 [00:14<37:09,  4.33it/s]  

警告: ../Data/00/22307130038_00_07.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_12.dat 语音段太短(128采样点)，填充至512采样点


总进度:   1%|          | 100/9719 [00:19<26:52,  5.96it/s]

警告: ../Data/00/22307130038_00_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130013_00_17.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_07.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_18.dat 语音段太短(128采样点)，填充至512采样点


总进度:   2%|▏         | 148/9719 [00:24<21:45,  7.33it/s]

警告: ../Data/00/22307130038_00_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130013_00_01.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_06.dat 语音段太短(384采样点)，填充至512采样点


总进度:   2%|▏         | 193/9719 [00:29<20:16,  7.83it/s]

警告: ../Data/00/21307130052_00_09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_11.dat 语音段太短(128采样点)，填充至512采样点


总进度:   2%|▏         | 234/9719 [00:34<19:27,  8.12it/s]

警告: ../Data/00/21307130150-00-20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130013_00_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130150-00-18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_02.dat 语音段太短(128采样点)，填充至512采样点


总进度:   3%|▎         | 280/9719 [00:39<18:33,  8.48it/s]

警告: ../Data/00/22307130013_00_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130150-00-16.dat 语音段太短(128采样点)，填充至512采样点


总进度:   3%|▎         | 321/9719 [00:44<18:30,  8.46it/s]

警告: ../Data/00/21307130052_00_15.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_01.dat 语音段太短(128采样点)，填充至512采样点


总进度:   4%|▎         | 363/9719 [00:49<18:21,  8.49it/s]

警告: ../Data/00/22307130038_00_14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_17.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130013_00_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_19.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_01.dat 语音段太短(128采样点)，填充至512采样点


总进度:   4%|▍         | 409/9719 [00:54<18:00,  8.62it/s]

警告: ../Data/00/21307130150-00-14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_04.dat 语音段太短(128采样点)，填充至512采样点


总进度:   5%|▍         | 454/9719 [00:59<17:30,  8.82it/s]

警告: ../Data/00/22307130038_00_03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130013_00_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_05.dat 语音段太短(128采样点)，填充至512采样点


总进度:   5%|▌         | 509/9719 [01:04<16:02,  9.57it/s]

警告: ../Data/00/22307130143_00_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_08.dat 语音段太短(384采样点)，填充至512采样点
警告: ../Data/00/21307130052_00_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_10.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/00/22307130038_00_20.dat 语音段太短(128采样点)，填充至512采样点


总进度:   6%|▌         | 552/9719 [01:09<16:44,  9.13it/s]

警告: ../Data/01/21307130150-01-14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_07.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-09.dat 语音段太短(128采样点)，填充至512采样点


总进度:   6%|▌         | 595/9719 [01:14<16:52,  9.02it/s]

警告: ../Data/01/22307130038_01_14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_19.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-10.dat 语音段太短(128采样点)，填充至512采样点


总进度:   7%|▋         | 638/9719 [01:19<17:15,  8.77it/s]

警告: ../Data/01/22307130013_01_13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-01.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_05.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_15.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_08.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130143_01_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_05.dat 语音段太短(128采样点)，填充至512采样点


总进度:   7%|▋         | 689/9719 [01:24<16:01,  9.39it/s]

警告: ../Data/01/21307130052_01_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_17.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-17.dat 语音段太短(128采样点)，填充至512采样点


总进度:   8%|▊         | 737/9719 [01:29<15:57,  9.38it/s]

警告: ../Data/01/22307130038_01_10.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_12.dat 语音段太短(128采样点)，填充至512采样点


总进度:   8%|▊         | 783/9719 [01:34<15:54,  9.36it/s]

警告: ../Data/01/21307130052_01_01.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-11.dat 语音段太短(128采样点)，填充至512采样点


总进度:   8%|▊         | 820/9719 [01:39<17:15,  8.59it/s]

警告: ../Data/01/21307130150-01-13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-15.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-19.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_19.dat 语音段太短(128采样点)，填充至512采样点


总进度:   9%|▉         | 874/9719 [01:44<15:17,  9.64it/s]

警告: ../Data/01/21307130052_01_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_06.dat 语音段太短(128采样点)，填充至512采样点


总进度:   9%|▉         | 919/9719 [01:49<15:36,  9.39it/s]

警告: ../Data/01/22307130038_01_01.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_08.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130224_01_03.dat 语音段太短(256采样点)，填充至512采样点


总进度:  10%|▉         | 966/9719 [01:54<15:35,  9.36it/s]

警告: ../Data/01/21307130052_01_13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_10.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_15.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_11.dat 语音段太短(128采样点)，填充至512采样点


总进度:  10%|█         | 1010/9719 [01:59<15:59,  9.08it/s]

警告: ../Data/01/21307130052_01_09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_11.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_16.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130038_01_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_05.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130150-01-20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/21307130052_01_17.dat 语音段太短(128采样点)，填充至512采样点


总进度:  11%|█         | 1059/9719 [02:04<15:21,  9.39it/s]

警告: ../Data/01/22307130038_01_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130013_01_08.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/01/22307130143_01_12.dat 语音段太短(384采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_16.dat 语音段太短(128采样点)，填充至512采样点


总进度:  11%|█▏        | 1112/9719 [02:09<14:30,  9.89it/s]

警告: ../Data/02/21307130150-02-09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_20.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_17.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_20.dat 语音段太短(128采样点)，填充至512采样点


总进度:  12%|█▏        | 1165/9719 [02:14<13:57, 10.22it/s]

警告: ../Data/02/21307130052_02_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_10.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_10.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_05.dat 语音段太短(128采样点)，填充至512采样点


总进度:  12%|█▏        | 1214/9719 [02:19<14:05, 10.06it/s]

警告: ../Data/02/22307130013_02_09.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-03.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-08.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-12.dat 语音段太短(128采样点)，填充至512采样点


总进度:  13%|█▎        | 1251/9719 [02:24<16:03,  8.79it/s]

警告: ../Data/02/21307130052_02_01.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_15.dat 语音段太短(128采样点)，填充至512采样点


总进度:  13%|█▎        | 1302/9719 [02:29<14:50,  9.46it/s]

警告: ../Data/02/21307130150-02-05.dat 语音段太短(128采样点)，填充至512采样点


总进度:  13%|█▎        | 1304/9719 [02:29<14:51,  9.44it/s]

警告: ../Data/02/22307130038_02_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_14.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-07.dat 语音段太短(128采样点)，填充至512采样点


总进度:  14%|█▍        | 1346/9719 [02:34<15:17,  9.13it/s]

警告: ../Data/02/22307130013_02_02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_12.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-11.dat 语音段太短(128采样点)，填充至512采样点


总进度:  14%|█▍        | 1393/9719 [02:39<15:15,  9.10it/s]

警告: ../Data/02/22307130013_02_13.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_07.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_11.dat 语音段太短(128采样点)，填充至512采样点


总进度:  15%|█▍        | 1437/9719 [02:44<15:08,  9.12it/s]

警告: ../Data/02/21307130052_02_06.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_18.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_08.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-02.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_17.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130052_02_03.dat 语音段太短(128采样点)，填充至512采样点


总进度:  15%|█▌        | 1485/9719 [02:49<14:48,  9.26it/s]

警告: ../Data/02/21307130052_02_11.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_06.dat 语音段太短(128采样点)，填充至512采样点


总进度:  16%|█▌        | 1529/9719 [02:54<14:56,  9.14it/s]

警告: ../Data/02/21307130052_02_07.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_15.dat 语音段太短(256采样点)，填充至512采样点
警告: ../Data/02/22307130013_02_04.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/22307130038_02_05.dat 语音段太短(128采样点)，填充至512采样点


总进度:  16%|█▌        | 1561/9719 [02:59<17:02,  7.98it/s]

警告: ../Data/02/22307130013_02_05.dat 语音段太短(128采样点)，填充至512采样点
警告: ../Data/02/21307130150-02-13.dat 语音段太短(128采样点)，填充至512采样点


总进度:  16%|█▋        | 1599/9719 [03:04<15:38,  8.65it/s]

警告: ../Data/02/22307130038_02_16.dat 语音段太短(128采样点)，填充至512采样点





KeyboardInterrupt: 