In [1]:
import re
import os
import pandas as pd
import random
from tqdm import tqdm 

file_paths, file_names, emotions, audios = [], [], [], []
emotion_map = {'Neutral': 'neutral', 'Anger': 'angry', 'Happiness': 'happy', 'Sadness': 'sad', 'Fear': 'fear',
              'Disgust': 'disgust'}

main_path = '/home/rl3155/Multilingual-Speech-Emotion-Recognition-System/Spanish/Spanish_New'
DATA_NATURAL = "/home/rl3155/MESD_All"

In [2]:
import torch
import torchaudio

print(torch.__version__)
print(torchaudio.__version__)

torch.random.manual_seed(0)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(device)

1.12.1
0.12.1+cu113
cuda


In [3]:
bundle = torchaudio.pipelines.WAV2VEC2_BASE
extractor = bundle.get_model()
print(extractor.__class__)
print(bundle.sample_rate)

<class 'torchaudio.models.wav2vec2.model.Wav2Vec2Model'>
16000


### Random get 5 parts of the entries -- only run code below 1 time

In [4]:
# Define path to datasets; create a random chunked 5 parts of entries
# entries = os.listdir(DATA_NATURAL)
# random.shuffle(entries)
# session = []
# equal_parts = (len(entries)-1)//5 # for equally split the entries into 5 parts
# count = 0
# for i in tqdm(range(len(entries))):
#     entry = entries[i]
#     if "wav" not in entry:
#         continue
#     path = DATA_NATURAL + "/" + entry
#     emotion = emotion_map[entry.split("_")[0]]
#     file_paths.append(path)
#     file_names.append(entry)
#     emotions.append(emotion)
    
#     # assign session to it
#     part = (count//equal_parts)%6 + 1
#     if part == 6:
#         part = 5
#     session.append(part)
#     count += 1

# file = pd.DataFrame({'path':file_paths, 'name': file_names, 'emotion': emotions, 'session': session})
# dataframe_path = main_path + '/session_entries.csv'
# file.to_csv(dataframe_path)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 863/863 [00:00<00:00, 518134.03it/s]


### Extract Features using Models

In [5]:
# Get the entries with assigned session

dataframe_path = main_path + '/session_entries.csv'
file = pd.read_csv(dataframe_path)[['path', 'name', 'emotion', 'session']]
file.head()

Unnamed: 0,path,name,emotion,session
0,/home/rl3155/MESD_All/Fear_F_A_basta_ya.wav,Fear_F_A_basta_ya.wav,fear,1
1,/home/rl3155/MESD_All/Happiness_M_A_arriba.wav,Happiness_M_A_arriba.wav,happy,1
2,/home/rl3155/MESD_All/Fear_F_B_arana.wav,Fear_F_B_arana.wav,fear,1
3,/home/rl3155/MESD_All/Neutral_M_B_articulo.wav,Neutral_M_B_articulo.wav,neutral,1
4,/home/rl3155/MESD_All/Disgust_F_A_antes.wav,Disgust_F_A_antes.wav,disgust,1


In [6]:
from tqdm import tqdm

for i in tqdm(range(len(file['path']))):
    path = file['path'][i]
    wave, sr = torchaudio.load(path)
    if sr != bundle.sample_rate:
        wave = torchaudio.functional.resample(wave, sr, bundle.sample_rate)
    with torch.inference_mode():
        feature, _ = extractor.extract_features(wave)
    feature = [f[0] for f in feature]
    audio = torch.stack(feature)
    audios.append(audio)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 862/862 [01:47<00:00,  8.01it/s]


In [7]:
file['audio'] = audios

### Load Data

In [8]:
holdout = 1
train = file[file['session'] != holdout]
test = file[file['session'] == holdout]

In [9]:
class MyDataSet(torch.utils.data.Dataset):
    def __init__(self, audios, labels, label_transform):
        super(MyDataSet).__init__()
        self.audios = audios
        self.labels = labels
        self.label_transform = label_transform
        
    def __getitem__(self, idx):
        label = self.label_transform[self.labels[idx]]
        audio = self.audios[idx]
        length = audio.size(1)
        return audio, length, label
    
    def __len__(self):
        return len(self.labels)

In [10]:
def collate_indic(data):
    audios, lengths, labels = zip(*data)
    max_len = max(lengths)
    n_ftrs = audios[0].size(2)
    n_dims = audios[0].size(0)
    features = torch.zeros((len(audios), n_dims, max_len, n_ftrs))
    labels = torch.tensor(labels)
    lengths = torch.tensor(lengths)

    for i in range(len(data)):
        j, k = audios[i].size(1), audios[i].size(2)
        features[i] = torch.cat([audios[i], torch.zeros((n_dims, max_len - j, k))], dim=1)

    return features, lengths, labels

In [11]:
categories = ['neutral', 'angry', 'happy', 'sad', 'fear', 'disgust']
cate_dic = {}
for i, cate in enumerate(categories):
    cate_dic[cate] = i
cate_dic

{'neutral': 0, 'angry': 1, 'happy': 2, 'sad': 3, 'fear': 4, 'disgust': 5}

In [12]:
from torch.utils.data import DataLoader

train_dataset = MyDataSet(train['audio'].tolist(), train['emotion'].tolist(), cate_dic)
trainloader_args = dict(batch_size=16, shuffle=True)
train_dataloader = DataLoader(train_dataset, **trainloader_args, 
                              collate_fn=collate_indic)

test_dataset = MyDataSet(test['audio'].tolist(), test['emotion'].tolist(), cate_dic)
testloader_args = dict(batch_size=16, shuffle=True)
test_dataloader = DataLoader(test_dataset, **testloader_args, 
                             collate_fn=collate_indic)

## Train with 3CNN+LSTM

In [13]:
import torch.nn as nn
import torch.nn.functional as F

class ICASSP3CNN(nn.Module):
    def __init__(self, vocab_size, dims = 12, embed_size=128, hidden_size=512, num_lstm_layers = 2, bidirectional = False, label_size=7):
        super().__init__()
        self.n_layers = num_lstm_layers 
        self.hidden = hidden_size
        self.bidirectional = bidirectional
        
        self.aggr = nn.Conv1d(in_channels=dims, out_channels=1, kernel_size=1)
        
        self.embed = nn.Linear(in_features = vocab_size, out_features = embed_size)

        self.cnn  = nn.Conv1d(embed_size, embed_size, kernel_size=3, padding=1)
        self.cnn2 = nn.Conv1d(embed_size, embed_size, kernel_size=5, padding=2)
        self.cnn3 = nn.Conv1d(embed_size, embed_size, kernel_size=7, padding=3)

        self.batchnorm = nn.BatchNorm1d(3 * embed_size)

        self.lstm = nn.LSTM(input_size = 3 * embed_size, 
                            hidden_size = hidden_size, 
                            num_layers = num_lstm_layers, 
                            bidirectional = bidirectional)

        self.linear = nn.Linear(in_features = 2 * hidden_size if bidirectional else hidden_size, 
                                out_features = label_size)


    def forward(self, x, lengths):
        """
        padded_x: (B,T) padded LongTensor
        """
        n, d, b, t = x.size(0), x.size(1), x.size(2), x.size(3)
        x = torch.flatten(x, start_dim=2)
        input = self.aggr(x)
        input = torch.reshape(input, (n, b, t))
        input = self.embed(input)

        batch_size = input.size(0)
        input = input.transpose(1,2)    # (B,T,H) -> (B,H,T)

        cnn_output = torch.cat([self.cnn(input), self.cnn2(input), self.cnn3(input)], dim=1)

        input = F.relu(self.batchnorm(cnn_output))

        input = input.transpose(1,2)

        pack_tensor = nn.utils.rnn.pack_padded_sequence(input, lengths, batch_first=True, enforce_sorted=False)
        _, (hn, cn) = self.lstm(pack_tensor)

        if self.bidirectional:
            h_n = hn.view(self.n_layers, 2, batch_size, self.hidden)
            h_n = torch.cat([ h_n[-1, 0,:], h_n[-1,1,:] ], dim = 1)
        else:
            h_n = hn[-1]

        logits = self.linear(h_n)

        return logits

### Model Traning on each layer 

In [14]:
from tqdm import tqdm
from torchsummary import summary
import torch.optim as optim

model = ICASSP3CNN(768)
model = model.to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

epochs = 50
train_losses = []
train_accuracies = []
valid_losses = []
valid_accuracies = []

for epoch in tqdm(range(epochs)):
    train_loss = 0
    acc_cnt = 0
    err_cnt = 0
    batch_cnt = 0
    model.train()
    for batch, (x, length, y) in enumerate(train_dataloader):
        x = x.to(device)
        y = y.to(device)
        optimizer.zero_grad()
        logits = model(x, length)
        loss = criterion(logits, y)
        loss.backward()
        optimizer.step()
        train_loss += loss.cpu().item()

        #model outputs
        out_val, out_indices = torch.max(logits, dim=1)
        tar_indices = y

        for i in range(len(out_indices)):
            if out_indices[i] == tar_indices[i]:
                acc_cnt += 1
            else:
                err_cnt += 1
        batch_cnt += 1
    
    train_loss = train_loss/batch_cnt
    train_accuracy = acc_cnt/(acc_cnt+err_cnt)
    train_accuracies.append(train_accuracy)
    train_losses.append(train_loss)
    
    print(f"epoch:{epoch+1}, train accu:{train_accuracy:.4f},", f"train loss:{train_loss:.2f}")

  2%|████                                                                                                                                                                                                          | 1/50 [00:09<07:22,  9.04s/it]

epoch:1, train accu:0.3623, train loss:1.51


  4%|████████▏                                                                                                                                                                                                     | 2/50 [00:10<03:43,  4.66s/it]

epoch:2, train accu:0.5580, train loss:1.07


  6%|████████████▎                                                                                                                                                                                                 | 3/50 [00:12<02:31,  3.22s/it]

epoch:3, train accu:0.7072, train loss:0.81


  8%|████████████████▍                                                                                                                                                                                             | 4/50 [00:13<01:57,  2.57s/it]

epoch:4, train accu:0.7522, train loss:0.69


 10%|████████████████████▌                                                                                                                                                                                         | 5/50 [00:15<01:38,  2.19s/it]

epoch:5, train accu:0.8246, train loss:0.54


 12%|████████████████████████▋                                                                                                                                                                                     | 6/50 [00:16<01:26,  1.98s/it]

epoch:6, train accu:0.8333, train loss:0.47


 14%|████████████████████████████▊                                                                                                                                                                                 | 7/50 [00:18<01:20,  1.88s/it]

epoch:7, train accu:0.8652, train loss:0.39


 16%|████████████████████████████████▉                                                                                                                                                                             | 8/50 [00:20<01:15,  1.79s/it]

epoch:8, train accu:0.9000, train loss:0.31


 18%|█████████████████████████████████████                                                                                                                                                                         | 9/50 [00:21<01:11,  1.74s/it]

epoch:9, train accu:0.9130, train loss:0.31


 20%|█████████████████████████████████████████                                                                                                                                                                    | 10/50 [00:23<01:07,  1.70s/it]

epoch:10, train accu:0.8667, train loss:0.40


 22%|█████████████████████████████████████████████                                                                                                                                                                | 11/50 [00:24<01:05,  1.69s/it]

epoch:11, train accu:0.9116, train loss:0.25


 24%|█████████████████████████████████████████████████▏                                                                                                                                                           | 12/50 [00:26<01:03,  1.68s/it]

epoch:12, train accu:0.9652, train loss:0.13


 26%|█████████████████████████████████████████████████████▎                                                                                                                                                       | 13/50 [00:28<01:00,  1.64s/it]

epoch:13, train accu:0.9609, train loss:0.14


 28%|█████████████████████████████████████████████████████████▍                                                                                                                                                   | 14/50 [00:29<00:58,  1.63s/it]

epoch:14, train accu:0.9681, train loss:0.11


 30%|█████████████████████████████████████████████████████████████▌                                                                                                                                               | 15/50 [00:31<00:56,  1.62s/it]

epoch:15, train accu:0.9319, train loss:0.20


 32%|█████████████████████████████████████████████████████████████████▌                                                                                                                                           | 16/50 [00:32<00:54,  1.60s/it]

epoch:16, train accu:0.9420, train loss:0.17


 34%|█████████████████████████████████████████████████████████████████████▋                                                                                                                                       | 17/50 [00:34<00:52,  1.60s/it]

epoch:17, train accu:0.9623, train loss:0.12


 36%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                                   | 18/50 [00:36<00:51,  1.60s/it]

epoch:18, train accu:0.9899, train loss:0.06


 38%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                               | 19/50 [00:37<00:49,  1.59s/it]

epoch:19, train accu:0.8884, train loss:0.44


 40%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                           | 20/50 [00:39<00:47,  1.58s/it]

epoch:20, train accu:0.9087, train loss:0.29


 42%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                                       | 21/50 [00:40<00:45,  1.57s/it]

epoch:21, train accu:0.9696, train loss:0.13


 44%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 22/50 [00:42<00:44,  1.57s/it]

epoch:22, train accu:0.9884, train loss:0.06


 46%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 23/50 [00:43<00:42,  1.57s/it]

epoch:23, train accu:0.9855, train loss:0.06


 48%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 24/50 [00:45<00:40,  1.57s/it]

epoch:24, train accu:0.9739, train loss:0.10


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 25/50 [00:47<00:39,  1.56s/it]

epoch:25, train accu:0.9623, train loss:0.23


 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 26/50 [00:48<00:37,  1.57s/it]

epoch:26, train accu:0.8652, train loss:0.46


 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 27/50 [00:50<00:36,  1.57s/it]

epoch:27, train accu:0.9377, train loss:0.24


 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 28/50 [00:51<00:34,  1.56s/it]

epoch:28, train accu:0.9710, train loss:0.10


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 29/50 [00:53<00:35,  1.68s/it]

epoch:29, train accu:0.9870, train loss:0.06


 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 30/50 [00:56<00:37,  1.87s/it]

epoch:30, train accu:0.9812, train loss:0.06


 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 31/50 [00:57<00:34,  1.80s/it]

epoch:31, train accu:0.9710, train loss:0.08


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 32/50 [00:59<00:31,  1.74s/it]

epoch:32, train accu:0.9826, train loss:0.06


 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 33/50 [01:00<00:29,  1.72s/it]

epoch:33, train accu:0.9768, train loss:0.08


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 34/50 [01:02<00:27,  1.71s/it]

epoch:34, train accu:0.9348, train loss:0.20


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 35/50 [01:04<00:25,  1.70s/it]

epoch:35, train accu:0.9913, train loss:0.04


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 36/50 [01:05<00:23,  1.69s/it]

epoch:36, train accu:0.9899, train loss:0.06


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 37/50 [01:07<00:21,  1.67s/it]

epoch:37, train accu:0.9754, train loss:0.16


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 38/50 [01:09<00:19,  1.66s/it]

epoch:38, train accu:0.9884, train loss:0.05


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 39/50 [01:10<00:18,  1.65s/it]

epoch:39, train accu:0.9957, train loss:0.01


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 40/50 [01:12<00:16,  1.65s/it]

epoch:40, train accu:0.9986, train loss:0.01


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 41/50 [01:14<00:14,  1.64s/it]

epoch:41, train accu:0.9986, train loss:0.01


 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 42/50 [01:15<00:13,  1.64s/it]

epoch:42, train accu:0.9957, train loss:0.08


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 43/50 [01:17<00:11,  1.63s/it]

epoch:43, train accu:0.9710, train loss:0.09


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 44/50 [01:18<00:09,  1.62s/it]

epoch:44, train accu:0.9841, train loss:0.07


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 45/50 [01:20<00:07,  1.59s/it]

epoch:45, train accu:0.9797, train loss:0.06


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 46/50 [01:22<00:06,  1.59s/it]

epoch:46, train accu:0.9696, train loss:0.13


 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 47/50 [01:23<00:04,  1.57s/it]

epoch:47, train accu:0.9580, train loss:0.20


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 48/50 [01:25<00:03,  1.57s/it]

epoch:48, train accu:0.9623, train loss:0.14


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 49/50 [01:26<00:01,  1.57s/it]

epoch:49, train accu:0.9870, train loss:0.05


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [01:28<00:00,  1.77s/it]

epoch:50, train accu:0.9971, train loss:0.01





### Model Test

In [15]:
test_loss = 0
acc_cnt = 0
err_cnt = 0
batch_cnt = 0
model.eval()

for x, lengths, y in test_dataloader:

    x = x.to(device)
    y = y.to(device)

    logits = model(x, lengths)
    loss = criterion(logits, y)
    test_loss += loss.cpu().item()

    out_val, out_indices = torch.max(logits, dim=1)
    tar_indices = y

    for i in range(len(out_indices)):
        if out_indices[i] == tar_indices[i]:
            acc_cnt += 1
        else:
            err_cnt += 1
    batch_cnt += 1

test_loss = test_loss/batch_cnt
test_accuracy = acc_cnt/(acc_cnt+err_cnt)
print(f'test accuracy: {test_accuracy}')

test accuracy: 0.7209302325581395


In [20]:
for name, param in model.named_parameters():
    if param.requires_grad:
        print(name, param.data)

aggr.weight tensor([[[-0.2024],
         [ 0.1881],
         [-0.0351],
         [ 0.4042],
         [ 0.1117],
         [-0.3371],
         [ 0.2271],
         [-0.0561],
         [ 0.1625],
         [-0.1301],
         [ 0.1556],
         [-0.0900]]], device='cuda:0')
aggr.bias tensor([-0.0110], device='cuda:0')
embed.weight tensor([[ 0.0376,  0.0644,  0.0856,  ..., -0.0121,  0.0105, -0.0068],
        [-0.0283,  0.0653,  0.0589,  ..., -0.0185,  0.0946, -0.0177],
        [-0.0109, -0.0716, -0.0182,  ..., -0.0108,  0.0438, -0.0595],
        ...,
        [-0.0514, -0.0065,  0.0516,  ...,  0.1335,  0.0067,  0.0621],
        [ 0.1037,  0.0747, -0.0231,  ...,  0.0288,  0.0495, -0.0277],
        [-0.0480,  0.0637,  0.0327,  ..., -0.0051, -0.0166, -0.0398]],
       device='cuda:0')
embed.bias tensor([ 5.7617e-02, -5.1215e-02, -7.9658e-02,  7.5803e-05,  8.5177e-02,
        -1.9281e-02,  4.9735e-02, -4.1881e-03,  8.0920e-02, -1.5292e-02,
         7.4103e-02, -1.5457e-02, -1.2343e-02, -1.7293e-

In [17]:
model_path = main_path + f'/models/wav2vecbase/holdout_{holdout}.pth'

torch.save({'epoch':epochs,
            'model_state_dict':model.state_dict(),
            'optimizer_state_dict':optimizer.state_dict()},
            model_path)