隐马尔科夫模型（HMMs）非常擅长建立时间序列数据模型。因为一个音频信号同时也是一个时间序列信号，因此隐马尔科夫模型也同样适用于音频信号的处理。    
假定输出是通过隐藏状态生成的，我们的目标是找到这些隐藏状态，以便对信号建模。 

In [2]:
from hmmlearn import hmm
import numpy as np

# 创建类处理HMM相关过程
class HMMTrainer(object):
    # n_components定义隐藏状态的个数，cov_type定义了转移矩阵的协方差类型，n_iter定义了训练的迭代次数
    def __init__(self, model_name='GaussianHMM', n_components=4, cov_type='diag', n_iter=1000):
        self.model_name = model_name
        self.n_components = n_components
        self.cov_type = cov_type
        self.n_iter = n_iter
        self.models = []

        if self.model_name == 'GaussianHMM':
            self.model = hmm.GaussianHMM(n_components=self.n_components, 
                    covariance_type=self.cov_type, n_iter=self.n_iter)
        else:
            raise TypeError('Invalid model type')
            
    # 输入数据是一个numpy数组，数组的每个元素都是一个特征向量，每个特征向量都包含k个维度
    def train(self, X):
        np.seterr(all='ignore')
        self.models.append(self.model.fit(X))
        
    # 对输入数据运行模型
    def get_score(self, input_data):
        return self.model.score(input_data)

**创建一个语音识别器**     
本项目需要一个语音文件数据库来创建语音识别器。用到的数据库文件保存在[网址](https://code.google.com/archive/p/hmm-speech-recognition/downloads)中。其中包含7个不同的单词，并且每个单词都有15个音频与之相关。这是一个较小的数据集，但是足够我们理解如何创建一个语音识别器并识别不同的7个单词。     
我们需要为每一类构建一个隐马尔科夫模型。如果想识别新的输入文件中的单词，需要对该文件运行所有模型，并找出最佳分数的结果。

In [9]:
import os
import argparse 

import numpy as np
from scipy.io import wavfile 
from hmmlearn import hmm
from python_speech_features import mfcc

input_folder = "audio"
# 初始化隐马尔科夫模型的变量
hmm_models = []
# 解析输入路径
for dirname in os.listdir(input_folder):
    # 获取子文件夹名称 
    subfolder = os.path.join(input_folder, dirname)

    if not os.path.isdir(subfolder): 
        continue
    # 子文件夹的名称即为该类名称
    label = subfolder[subfolder.rfind('/') + 1:]
    # 初始化变量
    X = np.array([])
    y_words = []
    # 迭代每一个子文件夹中的音频文件
    for filename in [x for x in os.listdir(subfolder) if x.endswith('.wav')][:-1]:
        # 读取每个音频文件
        filepath = os.path.join(subfolder, filename)
        sampling_freq, audio = wavfile.read(filepath)

        # 提取MFCC特征
        mfcc_features = mfcc(audio, sampling_freq)

        # 将MFCC特征添加到X变量
        if len(X) == 0:
            X = mfcc_features
        else:
            X = np.append(X, mfcc_features, axis=0)

        # 添加标记
        y_words.append(label)

    print('X.shape =', X.shape)
    # 训练并保存HMM模型
    hmm_trainer = HMMTrainer()
    hmm_trainer.train(X)
    hmm_models.append((hmm_trainer, label))
    hmm_trainer = None
    
# 获取一个未被用于训练的测试文件列表
input_files = [
            'audio/pineapple/pineapple15.wav',
            'audio/orange/orange15.wav',
            'audio/apple/apple15.wav',
            'audio/kiwi/kiwi15.wav'
            ]

# 解析输入文件
for input_file in input_files:
    sampling_freq, audio = wavfile.read(input_file)
    mfcc_features = mfcc(audio, sampling_freq)

    max_score = -pow(2,15)
    output_label = None

    # 迭代所有模型并选取分值最高的模型
    for item in hmm_models:
        hmm_model, label = item
        score = hmm_model.get_score(mfcc_features)
        if score > max_score:
            max_score = score
            output_label = label

    # 输出结果
    print("\nTrue:", input_file[input_file.find('/')+1:input_file.rfind('/')])
    print("Predicted:", output_label )


X.shape = (558, 13)
X.shape = (704, 13)
X.shape = (549, 13)
X.shape = (602, 13)
X.shape = (1075, 13)
X.shape = (910, 13)
X.shape = (797, 13)

True: pineapple
Predicted: audio\pineapple

True: orange
Predicted: audio\orange

True: apple
Predicted: audio\apple

True: kiwi
Predicted: audio\kiwi
