# ファイルのペアリスト作成
ファイルのペアリストを作成します．
- マスクの有無による変化
  - `__`内の音声
  - `m_`内の音声
  
  の二条件でエラー率を比較する
- ノイズの有無による変化
  - マスク無しでノイズの影響を調査
    - `__`内の音声
    - `_n`内の音声
  - マスク有りでノイズの影響を調査
    - `m_`内の音声
    - `mn`内の音声

`__`, `m_`, `_n`, `mn`のディレクトリごとに，中にある音声ファイルのリストを作る．

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
import itertools

## 各サブディレクトリの音声リスト作成


In [3]:
%cd /content/drive/MyDrive/CS_seminar/data/wav
WAV_ROOT = %pwd
LIST_ROOT = "/content/drive/MyDrive/CS_seminar/data/list"

/content/drive/MyDrive/CS_seminar/data/wav


In [4]:
__ = []
_n = []
m_ = []
mn = []

spk_list = [item for item in os.listdir() if item[0] != '.'] # ".ipynb_checkpoints"を除外

for spk in spk_list:
  spk_dir = WAV_ROOT + '/' + spk
  subdirs = os.listdir(spk_dir)
  for subdir in subdirs:
    tarsubdir = spk_dir + '/' + subdir
    wavs = os.listdir(tarsubdir)
    if subdir == "__":
      for item in wavs:
        __.append(tarsubdir + '/' + item)
    if subdir == "_n":
      for item in wavs:
        _n.append(tarsubdir + '/' + item)
    if subdir == "m_":
      for item in wavs:
        m_.append(tarsubdir + '/' + item)
    if subdir == "mn":
      for item in wavs:
        mn.append(tarsubdir + '/' + item)

print(__)
print(_n)
print(m_)
print(mn)

['/content/drive/MyDrive/CS_seminar/data/wav/abe/__/mac.wav', '/content/drive/MyDrive/CS_seminar/data/wav/abe/__/iphone.wav', '/content/drive/MyDrive/CS_seminar/data/wav/tmng/__/iPhone.wav', '/content/drive/MyDrive/CS_seminar/data/wav/tmng/__/PC.wav', '/content/drive/MyDrive/CS_seminar/data/wav/hre_A/__/Ap.wav', '/content/drive/MyDrive/CS_seminar/data/wav/hre_A/__/As.wav', '/content/drive/MyDrive/CS_seminar/data/wav/shina/__/1_sp_a.wav', '/content/drive/MyDrive/CS_seminar/data/wav/shina/__/3_sp_a.wav', '/content/drive/MyDrive/CS_seminar/data/wav/shina/__/2_sp_a.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/1_sp_b.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/6_pc_c.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/3_sp_b.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/2_sp_b.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/5_pc_c.wav', '/content/drive/MyDrive/CS_seminar/data/wav/ktg/__/4_pc_c.wav', '/content/drive/MyDrive/CS_seminar/data/wa

## 各サブディレクトリ内の音声について，組み合わせリストを作成


In [5]:
def is_same_speaker(path1, path2):
  # path文字列を解析して，パス対が同じ話者であるかを判定
  name1 = path1.split('/')[-3]
  name2 = path2.split('/')[-3]
  # # re(正規表現)による実装．今回のpathであればsplit('/')でいいが，複雑な区切り文字とかになると正規表現を用いた方が良い場面も出てくる．
  # dir1 = re.match(r"(.*/).+\.wav", path1).group(1)
  # dir2 = re.match(r"(.*/).+\.wav", path2).group(1)
  return int(name1 == name2)

def gen_2pair_listfile(path_list, outfile_path):
  outfile = open(outfile_path, 'w')
  out_info = {
      "filename": outfile_path,
      "total_wavs": len(path_list),
      "total_pairs": len(path_list) * (len(path_list)-1) // 2,
      "same_pair": 0,
      "diff_pair": 0,
  }
  # itertools.combinations()による実装．
  # 組み合わせをforで構築するのは，`CS_seminar/4th/*/gen_list.py`を参照のこと．
  pairs = list(itertools.combinations(path_list, 2))
  for pair in pairs:
    same_spk = is_same_speaker(*pair)
    outstr = f"{same_spk} {pair[0]} {pair[1]}\n"
    outfile.write(outstr)
    # ペア数を記録
    if same_spk:
      out_info["same_pair"] += 1
    else:
      out_info["diff_pair"] += 1
  outfile.close()
  return out_info

In [6]:
info = gen_2pair_listfile(__, f"{LIST_ROOT}/__.txt")
print(info)
info = gen_2pair_listfile(_n, f"{LIST_ROOT}/_n.txt")
print(info)
info = gen_2pair_listfile(m_, f"{LIST_ROOT}/m_.txt")
print(info)
info = gen_2pair_listfile(mn, f"{LIST_ROOT}/mn.txt")
print(info)

{'filename': '/content/drive/MyDrive/CS_seminar/data/list/__.txt', 'total_wavs': 41, 'total_pairs': 820, 'same_pair': 64, 'diff_pair': 756}
{'filename': '/content/drive/MyDrive/CS_seminar/data/list/_n.txt', 'total_wavs': 41, 'total_pairs': 820, 'same_pair': 64, 'diff_pair': 756}
{'filename': '/content/drive/MyDrive/CS_seminar/data/list/m_.txt', 'total_wavs': 22, 'total_pairs': 231, 'same_pair': 38, 'diff_pair': 193}
{'filename': '/content/drive/MyDrive/CS_seminar/data/list/mn.txt', 'total_wavs': 22, 'total_pairs': 231, 'same_pair': 38, 'diff_pair': 193}
