In [195]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Date    : Mar-01-21 19:58
# @Author  : Kelly Hwong (dianhuangkan@gmail.com)

import os
import numpy as np
import pandas

In [196]:
# pandas 读取 csv
folder = "./Ayanami-Voice-Text"

csv_file = os.path.join(folder, "metadata_cn.csv")
csv_content = pandas.read_csv(csv_file, delimiter='|')

csv_file = os.path.join(folder, "metadata_jp.csv")
csv_content_jp = pandas.read_csv(csv_file, delimiter='|')

In [197]:
scenarios = list(set(csv_content["prefix"]))
scenarios

['台词',
 '【誓约】鬼神之华裳',
 '冷静偶像·迷惑中',
 '苍墨武鉴',
 'ニコニコ',
 '【动漫特典】特殊潜入作战披风',
 '【Live2D】黯然礼服',
 '一式水手风制服',
 '【动漫特典】微速战斗姿势',
 '跃动飞踢！',
 '新岁之鬼神',
 '待宵的魔女',
 '新年的愿望',
 '【肯德基联动】可乐，加上努力？',
 '改造',
 '乐队型鬼神']

In [198]:
list(set(csv_content_jp["prefix"]))


['闇然礼装 ボイス一覧',
 '微速戦闘姿勢 ボイス一覧',
 '波濤新歳 ボイス一覧',
 '年越しの鼓動 ボイス一覧',
 'ニコニコ ボイス一覧',
 'おませアイドル・困惑中 ボイス一覧',
 'コーラに努力を添えて ボイス一覧',
 '特殊潜入作戦雨覆 ボイス一覧',
 'ダイナミック・キックオフ ボイス一覧',
 '改造後ボイス',
 '宵闇待ちの魔女 ボイス一覧',
 'ケッコン後(鬼神華裳)ボイス',
 'ROCK’n KIJIN ボイス一覧',
 'Navalistic Showdown ボイス一覧',
 'デフォルトボイス一覧']

In [199]:
def build_dict(values):
    # values: numpy array of a DataFrame
    d = {}
    for row in values:
        v = None if row[1] == "None" else row[1]
        if row[0] not in d:
            d[row[0]] = [v]
        else:
            d[row[0]].append(v)
        
        # 触摸 -> タッチ
        # or 触摸 -> [タッチ, タッチ1]

    return d


In [225]:
import yaml
yaml_file = os.path.join(folder, "align_prefix.yml")
with open(yaml_file, 'r', encoding="utf-8") as f:
    data = yaml.safe_load(f)
d_prefix = data["prefix"]
d_prefix


{'改造': '改造後ボイス',
 'ニコニコ': 'ニコニコ ボイス一覧',
 '新年的愿望': '年越しの鼓動 ボイス一覧',
 '【誓约】鬼神之华裳': 'ケッコン後(鬼神華裳)ボイス',
 '【肯德基联动】可乐，加上努力？': 'コーラに努力を添えて ボイス一覧',
 '台词': 'デフォルトボイス一覧',
 '一式水手风制服': 'None',
 '新岁之鬼神': '波濤新歳 ボイス一覧',
 '苍墨武鉴': 'Navalistic Showdown ボイス一覧',
 '【动漫特典】微速战斗姿势': '微速戦闘姿勢 ボイス一覧',
 '跃动飞踢！': 'ダイナミック・キックオフ ボイス一覧',
 '乐队型鬼神': 'ROCK’n KIJIN ボイス一覧',
 '【动漫特典】特殊潜入作战披风': '特殊潜入作戦雨覆 ボイス一覧',
 '待宵的魔女': '宵闇待ちの魔女 ボイス一覧',
 '冷静偶像·迷惑中': 'おませアイドル・困惑中 ボイス一覧',
 '【Live2D】黯然礼服': '闇然礼装 ボイス一覧'}

In [200]:
data = pandas.read_csv(os.path.join(folder, "align_scenario.csv"), delimiter='|')
d_scenario = build_dict(data.values)

In [201]:
d_scenario["触摸"]


['タッチ', 'タッチ1']

In [202]:
# Open two csv files, and check by CN metadata
data_cn = pandas.read_csv(os.path.join(folder, "metadata_cn.csv"), delimiter='|')
data_jp = pandas.read_csv(os.path.join(folder, "metadata_jp.csv"), delimiter='|')

In [203]:
data_cn.columns

Index(['prefix', 'scenario', 'dialogue', 'filename', 'url'], dtype='object')

In [204]:
data_jp.columns

Index(['prefix', 'scenario', 'dialogue'], dtype='object')

In [205]:
d_prefix


{'改造': ['改造後ボイス'],
 'ニコニコ': ['ニコニコ ボイス一覧'],
 '新年的愿望': ['年越しの鼓動 ボイス一覧'],
 '【誓约】鬼神之华裳': ['ケッコン後(鬼神華裳)ボイス'],
 '【肯德基联动】可乐，加上努力？': ['コーラに努力を添えて ボイス一覧'],
 '台词': ['デフォルトボイス一覧'],
 '一式水手风制服': [None],
 '新岁之鬼神': ['波濤新歳 ボイス一覧'],
 '苍墨武鉴': ['Navalistic Showdown ボイス一覧'],
 '【动漫特典】微速战斗姿势': ['微速戦闘姿勢 ボイス一覧'],
 '跃动飞踢！': ['ダイナミック・キックオフ ボイス一覧'],
 '乐队型鬼神': ['ROCK’n KIJIN ボイス一覧'],
 '【动漫特典】特殊潜入作战披风': ['特殊潜入作戦雨覆 ボイス一覧'],
 '待宵的魔女': ['宵闇待ちの魔女 ボイス一覧'],
 '冷静偶像·迷惑中': ['おませアイドル・困惑中 ボイス一覧'],
 '【Live2D】黯然礼服': ['闇然礼装 ボイス一覧']}

In [206]:
_scenario_jp_candidates = d_scenario["获得"]
_scenario_jp_candidates


['入手時']

In [207]:
# O(N)
prefix_jp, scenario_jp, dialogue_jp = [], [], []
for row in data_cn.values:
    prefix_cn, scenario_cn, _dialogue_jp = row[0], row[1], "None"
    print(f"查询, prefix_cn: {prefix_cn}; scenario_cn: {scenario_cn}")

    # Map prefix_cn to prefix_jp
    _prefix_jp = d_prefix[prefix_cn][0]
    _scenario_jp_candidates = d_scenario[scenario_cn]

    if _prefix_jp is not None and _scenario_jp_candidates[0] is not None:
        # _dialogue_jp_df 查询结果
        for _scenario_jp in _scenario_jp_candidates:
            _dialogue_jp_df = data_jp[\
                np.char.equal(data_jp["prefix"].values.astype(str),_prefix_jp) & \
                    np.char.equal(data_jp["scenario"].values.astype(str),_scenario_jp)]
            if _dialogue_jp_df.empty:
                print(f"[Log]CN wiki含有，但JP wiki 不含此 prefix {_prefix_jp}, scenario {_scenario_jp} 下的文本")
            else:
                # got the corresponding JP voice text
                print(
                    f"查询到, prefix_jp: {_prefix_jp}; scenario_jp: {_scenario_jp}")
                # DataFrame to string
                _dialogue_jp = _dialogue_jp_df["dialogue"].values.astype(str)[0]
                continue
    else:
        # _scenario_jp_candidates==[None]
        _scenario_jp = "None"
        print(f"未查询到")

    prefix_jp.append(_prefix_jp)
    scenario_jp.append(_scenario_jp)
    dialogue_jp.append(_dialogue_jp)


查询, prefix_cn: 台词; scenario_cn: 登录欢迎
未查询到
查询, prefix_cn: 台词; scenario_cn: 获得
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: 入手時
查询, prefix_cn: 台词; scenario_cn: 登录
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: ログイン
查询, prefix_cn: 台词; scenario_cn: 查看详情
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: 詳細確認
查询, prefix_cn: 台词; scenario_cn: 主界面
[Log]CN wiki含有，但JP wiki 不含此 prefix デフォルトボイス一覧, scenario メイン 下的文本
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン1
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン2
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン3
查询, prefix_cn: 台词; scenario_cn: 主界面
[Log]CN wiki含有，但JP wiki 不含此 prefix デフォルトボイス一覧, scenario メイン 下的文本
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン1
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン2
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン3
查询, prefix_cn: 台词; scenario_cn: 主界面
[Log]CN wiki含有，但JP wiki 不含此 prefix デフォルトボイス一覧, scenario メイン 下的文本
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン1
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイン2
查询到, prefix_jp: デフォルトボイス一覧; scenario_jp: メイ

In [208]:
# Append this column
data_cn_to_jp = data_cn.copy()
data_cn_to_jp["prefix_jp"] = prefix_jp
data_cn_to_jp["scenario_jp"] = scenario_jp
data_cn_to_jp["dialogue_jp"] = dialogue_jp
# TODO column "dialogue_jp_norm" 尚未 Normalize, 所以和 doalogue_jp 一樣
data_cn_to_jp["dialogue_jp_norm"] = dialogue_jp


In [209]:
new_order = ["filename", "dialogue", "dialogue_jp", "prefix", "prefix_jp", "scenario", "scenario_jp"]


In [210]:
data_cn_to_jp = data_cn_to_jp.reindex(new_order, axis=1)
data_cn_to_jp.to_csv(os.path.join(
    folder, "metadata_aligh.csv"), index=False, sep='|')
