# IEMOCAPをロードする

- IEMOCAPのロードをするプログラム
- 要求: 2個上の階層にIEMOCAP_full_releaseを配置する
- return: wavファイルとラベルのペア

In [None]:
import os
import re
from statistics import mode
import collections
import librosa
import math

## 前準備

#### パスの定義

In [None]:
# 上位パスを排除してファイル名だけ見せる関数
def display_filename(filename, path_splitter='/'):
    return filename[filename.rfind(path_splitter) + 1:]

In [None]:
# wavファイルがセッションごとに整理されてるディレクトリへのパス
session_dirs = ['../../IEMOCAP_full_release/' + 'Session' + str(i) + '/' + 'sentences/wav/' for i in range(1, 6)]
# ラベルがセッションごとに整理されてるディレクトリへのパス
label_dirs = ['../../IEMOCAP_full_release/' + 'Session' + str(i) + '/dialog/EmoEvaluation/Categorical/' for i in range(1, 6)]

#### 1つ1つのwavファイルへのパスを取る

In [None]:
# 変数定義，ペアレントディレクトリへのパスを取っておく
wav_file_paths = []
wav_file_paths_p = []
for ses_d in session_dirs:
    sentence_dirs = sorted(os.listdir(ses_d))
    for sent_d in sentence_dirs:
        wav_file_paths.append(os.path.join(ses_d, sent_d))
        wav_file_paths_p.append(os.path.join(ses_d, sent_d))

In [None]:
# 不要な.DS_Storeとかいうのが出てきたので削除
for path in wav_file_paths:
    if 'DS_Store' in path:
        wav_file_paths.remove(path)
        wav_file_paths_p.remove(path)

In [None]:
# 1つ1つのwavファイルへのパスを取る
wav_file_paths_ = []
for path in wav_file_paths:
    filenames = sorted(os.listdir(path))
    for f in filenames:
        wav_file_paths_.append(os.path.join(path, f))

In [None]:
wav_file_paths_

In [None]:
# 定義した変数にpathをコピーして完成
wav_file_paths = wav_file_paths_.copy()

In [None]:
# wav以外の拡張子のファイルが含まれてたら削除
for path in wav_file_paths:
    base, ext = os.path.splitext(path)
    if not ext == '.wav':
        wav_file_paths.remove(path)

## [ファイルのパス, ラベル]のペアを作る

音声ファイルそれぞれにつき，3~4個のラベル付けがされている．各ファイルについて全てのラベル付けを参照し，多数決でラベルを決定する．

#### 前準備

In [None]:
# ラベル付ファイル1つ1つへのpathをとる
label_file_paths = []
for label_dir in label_dirs:
    label_files_ = sorted(os.listdir(label_dir))
    for f in label_files_:
        base, ext = os.path.splitext(f)
        if ext == '.txt':
            label_file_paths.append(os.path.join(label_dir, f))

In [None]:
# 全てのラベルファイルを参照し，1つ1つのwavにラベルをつける
# 1つ1つの発話ののラベルはスピーチダイアログごとにtxtファイルを作って管理されている
# スピーチダイアログの名前とwavのペアレントディレクトリの名前は一致する

# 上位パスを排除して名前だけのwav_file_path_pを作る
wav_file_paths_pp = []

for path in wav_file_paths_p:
    wav_file_paths_pp.append(path[path.rfind('/') + 1: ])

In [None]:
wav_file_paths_pp

In [None]:
# list内のkeyを含む要素を全て返す関数
def index_multi(lst, key):
    idxes = []
    for i in range(len(lst)):
        # print(f'examining {lst[i]} for key:{key}')
        if key in lst[i]:
            idxes.append(i)
    return idxes

In [None]:
# スピーチダイアログごとに評価ファイルを分けていく
# 1つのダイアログに複数の評価者がいる

label_file_indexes = []
for dirname in wav_file_paths_pp:
    idxes = index_multi(label_file_paths, dirname)
    label_file_indexes.append(idxes)

#### メインの処理

発話1つ1つに対する複数の評価者のラベル付を参照して，多数決を取ってその発話のラベルを決める．[ファイル名，ラベル]のペアにする．

In [None]:
# 各音声ファイルごとにラベルを作っていく
# 同じダイアログに対する複数の評価者のラベル付を同時に読み込んで多数決を行う
labels = []
for i, indexes in enumerate(label_file_indexes):
    # ここで1ダイアログの処理
    # それぞれの評価ファイルのラベルを保存しておくグローバルリスト
    global_labels = []
    
    # それぞれの評価ファイルのラベルを読み込んでglobal_labelsに保存する
    for index in indexes: 
        # ここで1ファイルの処理
        file = open(label_file_paths[index], 'r')
        local_labels = []
        print(f'#{display_filename(wav_file_paths_pp[i])}: opening {display_filename(label_file_paths[index])}')
        for line in file:
            label = re.split('[:;()]', line)
            label = label[:-1]
            local_labels.append(label)
        global_labels.append(local_labels)
        
    # global_labelsの中身から多数決でそのファイルに対するラベルを決定する
    for file_id in range(len(global_labels[0])):
        file_label = mode([global_labels[i][file_id][1] for i in range(len(global_labels))])
        labels.append([global_labels[0][file_id][0][:-1], file_label])
        

In [None]:
labels

#### 後処理

In [None]:
# ファイル名を絶対パスに置換する
labels_ = [[wav_file_paths[i], labels[i][1]] for i in range(len(labels))]

In [None]:
# Neutral state をNeutralに表記変え
for label in labels_:
    if label[1] == 'Neutral state':
        label[1] = label[1].replace('Neutral state', 'Neutral')

#### 必要な感情ラベルだけ取ってくる

今回はNeutral, Anger, Sadness, Happinessの4つだけ使うのでそのように選ぶ．

In [None]:
data_selected = [label for label in labels_ if label[1] == 'Neutral' or label[1] == 'Anger' or label[1] == 'Sadness' or label[1] == 'Happiness']

## [wav, ラベル]のペアにする

In [None]:
ret = []
for data in data_selected:
    x, fs = librosa.load(data[0], sr=16000)
    label = data[1]
    ret.append([x, label, fs])

In [None]:
for r in ret:
    print(len(r[0]))