In [1]:
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
import os
import pickle
import numpy as np
import argparse
from random import random

from torch import optim
from sklearn.metrics import f1_score

import torch
import torch.nn as nn
from torch.nn import functional as F

from sklearn.utils import shuffle

import numpy as np
import random

import torch
import torch.nn as nn
from torch.autograd import Function
from torch.nn.utils.rnn import pad_sequence, pack_padded_sequence, pad_packed_sequence
import math

In [2]:
def preprocess(au_mfcc_path):
    data = []
    labels = []
    with open(au_mfcc_path, 'rb') as f:
        au_mfcc = pickle.load(f)

    print(len(au_mfcc))

    for key in au_mfcc:
        emotion = key.split('-')[2]   #这边是要看au_mfcc里面的样子
        emotion = int(emotion)-1
        labels.append(emotion)
        data.append(au_mfcc[key])


    # 将data和labels转换为numpy数组，方便后续操作
    data=np.array(data)
    labels = np.array(labels)
    # 调整labels的形状，增加一个维度，使其成为二维数组
    labels = labels.reshape(labels.shape+(1,))

   # 将data和labels在水平方向上拼接，形成一个新的数组
    data = np.hstack((data, labels))
    # 对拼接后的数据进行随机打乱，保证数据的随机性
    fdata = shuffle(data)

    # 将打乱后的数据分为特征数据和标签数据
    data = fdata[:, :-1]  # 取所有行，除了最后一列（标签）
    labels = fdata[:, -1].astype(int)  # 取所有行的最后一列，并转换为整数类型

    return data, labels

In [3]:
class MMF_Model(nn.Module):
    def __init__(self):
        super(MMF_Model, self).__init__()

        rnn = nn.LSTM

        self.au_rnn1 = rnn(35, 16, bidirectional=True) #输入维度为35（AU特征的维度），隐藏层维度为16，bidirectional=True双向LSTM。
        self.au_rnn2 = rnn(2*16, 16, bidirectional=True)
        #输入维度为前一层的两倍（因为是双向LSTM，所以输出维度是隐藏层维度的两倍），隐藏层维度为16，双向LSTM。

    # 第一层LSTM的输出维度是 2*16（因为是双向LSTM）。
    # 第二层LSTM的输出维度也是 2*16（因为是双向LSTM）。
    # 将这两层的输出拼接在一起，得到的维度是 2*16 + 2*16 = 64。

        self.mfccs_rnn1 = rnn(259, 16, bidirectional=True)
        self.mfccs_rnn2 = rnn(2*16, 16, bidirectional=True)

        self.fusion_layer = nn.Linear(in_features=128, out_features=8)
    #这边的128是64+64 两个双向LSTM层合并

    def extract_au(self, au, lengths):
        packed_sequence = pack_padded_sequence(au, lengths)
        packed_h1, (final_h1, _) = self.au_rnn1(packed_sequence)
    # self.au_rnn1(packed_sequence)会返回一个元组，包含两个元素：
    # packed_h1：这是LSTM层的输出，即经过LSTM处理后的序列数据，仍然是一个PackedSequence对象。
    # (final_h1, _)： 这是LSTM层的最终隐藏状态和细胞状态。对于双向LSTM，隐藏状态会有两个部分（正向和反向），
    # 所以形状是(2, batch_size, hidden_size)。这里只关心隐藏状态final_h1，而细胞状态被忽略（用_表示）。
        
        padded_h1, _ = pad_packed_sequence(packed_h1)  #这里将第一层LSTM的输出 packed_h1 解包成普通的张量 padded_h1，以便进行后续操作。
        packed_normed_h1 = pack_padded_sequence(padded_h1, lengths) 
        _, (final_h2, _) = self.au_rnn2(packed_normed_h1)
    #packed_h1, (final_h1, _) = self.au_rnn1(packed_sequence) 与  _, (final_h2, _) = self.au_rnn2(packed_normed_h1)的区别
    # 第一层LSTM的输出序列需要进一步处理：
    # 在第一层LSTM中，输出序列packed_h1需要被解包成普通的张量，以便进行后续的处理，如再次包装成PackedSequence对象并输入到第二层LSTM中。
    # 因此，第一行代码中保留了packed_h1。
    # 第二层LSTM的输出序列不需要进一步处理：
    # 在第二层LSTM中，我们只关心最终的隐藏状态final_h2，因为这些隐藏状态将被用于提取高层次的特征表示。
    # 因此，第二行代码中忽略了输出序列，只保留了final_h2
        extracted_au = torch.cat((final_h1, final_h2), dim=2).permute(1,0,2).contiguous().view(batch_size,-1)
    # torch.cat((final_h1, final_h2), dim=2)：将两层LSTM的最终隐藏状态在最后一个维度上拼接，得到形状为 (2, batch_size, 32) 的张量。
    # .permute(1, 0, 2)：调整维度顺序，得到形状为 (batch_size, 2, 32) 的张量。
    # .contiguous()：确保张量在内存中是连续的。
    # .view(batch_size, -1)：将张量展平为二维，得到形状为 (batch_size, 64) 的张量。
        return extracted_au

    def extract_mfccs(self, mfccs, lengths):

        packed_sequence = pack_padded_sequence(mfccs, lengths)
        packed_h1, (final_h1, _) = self.mfccs_rnn1(packed_sequence)
        padded_h1, _ = pad_packed_sequence(packed_h1)
        packed_normed_h1 = pack_padded_sequence(padded_h1, lengths)
        _, (final_h2, _) = self.mfccs_rnn2(packed_normed_h1)
        extracted_mfccs = torch.cat((final_h1, final_h2), dim=2).permute(1,0,2).contiguous().view(batch_size,-1)

        return extracted_mfccs

    def forward(self, au, mfccs, lengths):
        batch_size = 60

        extracted_au = self.extract_au(au, lengths)
        extracted_mfccs = self.extract_mfccs(mfccs, lengths)

        au_mfccs_fusion = torch.cat((extracted_au, extracted_mfccs), dim=1)

        final_output = self.fusion_layer(au_mfccs_fusion)
        return final_output




In [4]:
def eval(data, labels, mode=None, to_print=False):
    assert(mode is not None)

    model.eval() #评估模式

    y_true, y_pred = [], []
    eval_loss, eval_loss_diff = [], [] #存储评估损失率

    if mode == "test":
        if to_print:
            model.load_state_dict(torch.load(
                f'C:/Users/yangc/deep_learning group_asg/fusion_model.ckpt'))#如果mode是"test"且to_print为True，则加载预训练的模型权重

    corr=0
    with torch.no_grad():                     #在评估过程中不需要计算梯度，因此可以禁用梯度计算以提高效率。
        for i in range(0, len(data), 60):
            model.zero_grad()
            # v, a, y, l = batch
            d=data[i:i+60]
            l=labels[i:i+60]
            d=np.expand_dims(d,axis=0)
            au=torch.from_numpy(d[:, :, :35]).float()
            mfccs=torch.from_numpy(d[:, :, 35:]).float()
            y=torch.from_numpy(l).float()

            lengths = torch.LongTensor([au.shape[0]]*au.size(1))

            au = au.cuda()
            mfccs = mfccs.cuda()
            y = y.cuda()

            output = model(au, mfccs, lengths)

            loss =  criterion(output, y)

            eval_loss.append(loss.item())
            preds=output.detach().cpu().numpy()
            y_trues=y.detach().cpu().numpy()

            for j in range(len(preds)):
                pred=np.argmax(preds[j])
                y_true=np.argmax(y_trues[j])
                if pred==y_true:
                    corr+=1

    eval_loss = np.mean(eval_loss)

    accuracy = corr/(1.0*len(labels))

    return eval_loss, accuracy

In [5]:
if __name__ == '__main__':

    device = torch.cuda.is_available()

    data_path = 'C:/Users/yangc/deep_learning group_asg/au_mfcc.pkl'

    data, labels=preprocess(data_path)
    print('u:', np.unique(labels.astype(int)).size)
    #np.unique(labels.astype(int)).size：计算标签中唯一类别的数量，即分类任务的类别数。
    
    
    new_labels= np.zeros((labels.shape[0], np.unique(labels.astype(int)).size))
    for i in range(len(labels)):
        new_labels[i, labels[i]]=1
        
    labels=new_labels
    # 将标签转换为one-hot编码

    test_data=data[-181:-1] #从原始数据中取出从倒数第181个样本到倒数第2个样本（不包括最后一个样本）作为测试集。
    test_labels=labels[-181:-1]
    data=data[:-180] #去掉最后的180个样本
    labels=labels[:-180]

    train_data=data[:1020]  #取data里面的前1020作为训练集
    train_labels=labels[:1020]

    dev_data=data[1020:] #验证集
    dev_labels=labels[1020:]

    model = MMF_Model()

    model.cuda()

    optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-3)
    # optim.Adam：Adam是一种常用的优化算法，结合了AdaGrad和RMSProp的优点，能够自适应地调整学习率。
    # filter(lambda p: p.requires_grad, model.parameters())：过滤掉不需要梯度的参数，只优化那些requires_grad=True的参数。
    # model.parameters()：返回模型中所有可学习的参数。
    # filter(lambda p: p.requires_grad, ...)：筛选出需要梯度的参数。
    # lr=1e-3：设置学习率为0.001。

    criterion = nn.CrossEntropyLoss()
    #这行代码创建了一个交叉熵损失函数的对象 criterion。
    #在训练过程中，你会将模型的输出和真实标签传给这个损失函数，计算损失值：

    batch_size=60
    n_total=len(train_data)
    best_loss=float('inf')
    for e in range(50):
        model.train()
        total_loss=0
        cnt=0
        print(f"=====Epoch{e+1}======")
        for i in range(0, len(train_data), batch_size):
            data=train_data[i:i+60]
            label=train_labels[i:i+60]  #    data：当前批次的训练数据。label：当前批次的训练标签。

            model.zero_grad()
            # v, a, y, l = batch
            data=np.expand_dims(data,axis=0)
            au=torch.from_numpy(data[:, :, :35]).float()   #将前35个特征分给au
            mfccs=torch.from_numpy(data[:, :, 35:]).float() #将后35个特征分给mfccs
            y=torch.from_numpy(label).float()

            au = au.cuda()
            mfccs = mfccs.cuda()
            y = y.cuda()
            
            #模型调优
            lengths = torch.LongTensor([au.shape[0]]*au.size(1))
            fused_features = model(au, mfccs, lengths)  #模型的输出          模型在这里就结束了
            loss = criterion(fused_features, y) #计算模型输出与真实标签之间的损失
            loss.backward() # 计算梯度
            optimizer.step() # 更新模型参数

        train_loss, train_acc = eval(train_data, train_labels, mode="train")
        print('train_loss: {:.3f}, train_acc: {:.2f}%'.format(train_loss, 100*train_acc))

        valid_loss, valid_acc = eval(dev_data, dev_labels, mode="dev")
        print('valid_loss: {:.3f}, valid_acc: {:.2f}%'.format(valid_loss, 100*valid_acc))

        if valid_loss < best_loss:
            best_loss = valid_loss
            torch.save(model.state_dict(), 'C:/Users/yangc/deep_learning group_asg/fusion_model.ckpt')
            torch.save(optimizer.state_dict(), 'C:/Users/yangc/deep_learning group_asg/optim_best.std')
        else:
            model.load_state_dict(torch.load('C:/Users/yangc/deep_learning group_asg/fusion_model.ckpt'))
            optimizer.load_state_dict(torch.load('C:/Users/yangc/deep_learning group_asg/optim_best.std'))

    test_loss, test_acc=eval(test_data, test_labels, mode="test", to_print=True)
    print('test_loss: {:.3f} test_acc: {:.2f}%'.format(test_loss, 100*test_acc))

  au_mfcc = pickle.load(f)


1440
u: 8
train_loss: 2.024, train_acc: 27.06%
valid_loss: 2.023, valid_acc: 26.67%
train_loss: 1.976, train_acc: 30.20%
valid_loss: 1.977, valid_acc: 29.17%
train_loss: 1.884, train_acc: 40.39%
valid_loss: 1.878, valid_acc: 42.08%
train_loss: 1.745, train_acc: 49.12%
valid_loss: 1.737, valid_acc: 50.83%
train_loss: 1.591, train_acc: 51.76%
valid_loss: 1.577, valid_acc: 51.67%
train_loss: 1.452, train_acc: 51.76%
valid_loss: 1.432, valid_acc: 52.50%
train_loss: 1.348, train_acc: 54.90%
valid_loss: 1.309, valid_acc: 58.33%
train_loss: 1.266, train_acc: 57.45%
valid_loss: 1.220, valid_acc: 58.75%
train_loss: 1.193, train_acc: 58.92%
valid_loss: 1.160, valid_acc: 60.00%
train_loss: 1.143, train_acc: 58.73%
valid_loss: 1.114, valid_acc: 56.67%
train_loss: 1.086, train_acc: 61.76%
valid_loss: 1.058, valid_acc: 60.00%
train_loss: 1.044, train_acc: 62.35%
valid_loss: 1.022, valid_acc: 61.67%
train_loss: 1.006, train_acc: 64.02%
valid_loss: 0.986, valid_acc: 63.33%
train_loss: 0.979, train_acc