# Save audio files to disk

In [13]:
import os
import csv
import soundfile as sf
from datasets import load_dataset

# Load Dataset from hugging face
dataset = load_dataset("xmj2002/genshin_ch_10npc")

base_dir = "dataset"
wavs_dir = os.path.join(base_dir, "wavs")
os.makedirs(wavs_dir, exist_ok=True)
metadata_file = os.path.join(base_dir, "metadata.csv")

with open(metadata_file, 'w', newline='', encoding='utf-8') as metafile:
    csv_writer = csv.writer(metafile, delimiter='|')
    
    for split in ['train', 'test']:
        count = 0
        for item in dataset[split]:
            if item['npcName'] == "神里绫华":  # Only for 神里绫华
                audio_array = item['audio']['array']
                sampling_rate = item['audio']['sampling_rate']
                text = item['text']
                speaker_name = item['npcName'].replace(' ', '_')
                file_name = f"{speaker_name}_{split}_{count}.wav"
                file_path = f"{speaker_name}_{split}_{count}"

                # Save audio
                sf.write(os.path.join(wavs_dir, file_name), audio_array, sampling_rate)

                # Write metadata
                csv_writer.writerow([file_path, text, text])

                # Print processed file
                print(f"Processed: {file_path} | Text: {text[:30]}")  # Print

                count += 1

    

Processed: 神里绫华_train_0 | Text: 风和日丽，要去哪边走走么？
Processed: 神里绫华_train_1 | Text: 这么好吃的东西，一定会的。
Processed: 神里绫华_train_2 | Text: 似乎…也没有机会见到她完成这件事了呢。
Processed: 神里绫华_train_3 | Text: 好的好的。
Processed: 神里绫华_train_4 | Text: 不知不觉中，我为母亲完成了一些愿望。唯独去祭典一事，我无法替
Processed: 神里绫华_train_5 | Text: 原本这样的事应该委托兄长与我一同处理，但现阶段兄长非常忙碌…
Processed: 神里绫华_train_6 | Text: 不过这样的假命令居然传下去了，我也有一定的责任。我会妥善处理
Processed: 神里绫华_train_7 | Text: 因为重油重盐，所以会被身边的人限制吃的次数…不管是拉面还是火
Processed: 神里绫华_train_8 | Text: 每当我遇到麻烦事，总是会想：母亲当年是否也这样做过？这样的事
Processed: 神里绫华_train_9 | Text: ……
Processed: 神里绫华_train_10 | Text: 「雷电五传」曾经是稻妻最为顶尖的五个锻刀流派，这五个家族虽是
Processed: 神里绫华_train_11 | Text: …或许是因为，有你在我身边吧。
Processed: 神里绫华_train_12 | Text: …真是岌岌可危呢
Processed: 神里绫华_train_13 | Text: 久利须先生，您没事吧？
Processed: 神里绫华_train_14 | Text: 是以白鹭为主题制作的发簪，既可以当成发饰，也可以当做摆件。
Processed: 神里绫华_train_15 | Text: 大御所大人…是在诉说什么吗？
Processed: 神里绫华_train_16 | Text: 真是个令人心情平和的夜晚呢。
Processed: 神里绫华_train_17 | Text: 请不要这样说。
Processed: 神里绫华_train_18 | Text: 是关于，三个失去神之眼的人…等你见过他们，或许就能明白…
Proces

In [None]:
from collections import Counter
npc_names = dataset['train']['npcName']
unique_npc_names = set(npc_names)
name_counts = Counter(npc_names)
for name, count in name_counts.items():
    print(f"{name}: {count}")