In [7]:
import os
import shutil

In [8]:
# 漢字1文字をkmnistのkkanji2におけるファイルネーム（utf-16？）に変換する
# kkanji2はkmnist（https://github.com/rois-codh/kmnist )でのKuzushiji-Kanjiのこと
def kanji2dirname_for_kkanji2(kanji):
    hex_encode = kanji.encode('utf-16').hex()
    hex_encode = (hex_encode[-2:] + hex_encode[-4:-2]).upper()
    return 'U+' + hex_encode

In [9]:
# 今は数が少ないので直書きしてあるが、複雑な条件で使用する漢字を選ぶときはこの関数に書くことを想定
def select_kanji():
    return ['何', '河', '阿',
            '拾', '給',
            '紅', '江',
            '波', '彼',
            '砂', '沙',
            '位', '泣']

In [10]:
# 選択された漢字がデータセットの中に幾つあるかカウントする
def count_selected_kanji(original_dir, kanji_list):
    count_dict = {}
    for kanji in kanji_list:
        dir_name = kanji2dirname_for_kkanji2(kanji)
        count_dict[kanji] = len(os.listdir(original_dir + dir_name))
    return count_dict

In [11]:
# 元のデータセットディレクトリ
original_dir = '../../data/kkanji2/'

# 精選後のデータを格納するディレクトリ（ついでにディレクトリも全て展開して画像直置きに）
curated_kanji_dir = '../../data/kkanji2_curated/'

In [12]:
# 各漢字の登場回数をチェック
print(count_selected_kanji(original_dir, select_kanji()))

{'阿': 28, '拾': 40, '何': 728, '泣': 50, '紅': 67, '給': 524, '位': 54, '沙': 30, '江': 395, '砂': 58, '波': 68, '彼': 143, '河': 93}


In [14]:
# 精選された漢字データを格納するディレクトリがなければ作る　既にある場合は何もしない
if not os.path.exists(curated_kanji_dir):
    os.mkdir(curated_kanji_dir)
    
# 既にディレクトリがあり、中に何か入っていたら実行しない
assert (len(os.listdir(curated_kanji_dir)) == 0)

# 漢字をselectに従って元のデータセットから選び出し、curated_kanji_dirに画像を直置きする形でコピー
# ファイルの名前（***.png）は, 元々ディレクトリ名になっていた漢字のラベルを継承するため、最初6文字をutf-16のhexにする
kanji_list = select_kanji()
for kanji in kanji_list:
    dir_name = kanji2dirname_for_kkanji2(kanji)
    file_list = os.listdir(original_dir + dir_name)
    for file in file_list:
        file_path = original_dir + dir_name + '/' + file
        shutil.copyfile(file_path, curated_kanji_dir + dir_name + file)

In [15]:
# データの総数を確認
print(len(os.listdir(curated_kanji_dir)))

2278


In [19]:
# テストデータも選出しておく
def select_kanji_for_test():
    return ['抄', '紗'] # '拉'はなかった

curated_kanji_dir_for_test = '../../data/kkanji2_curated_for_test/'

In [21]:
# これも関数化したほうが良いな
# 精選された漢字データを格納するディレクトリがなければ作る　既にある場合は何もしない
if not os.path.exists(curated_kanji_dir_for_test):
    os.mkdir(curated_kanji_dir_for_test)
    
# 既にディレクトリがあり、中に何か入っていたら実行しない
assert (len(os.listdir(curated_kanji_dir_for_test)) == 0)

# 漢字をselectに従って元のデータセットから選び出し、curated_kanji_dirに画像を直置きする形でコピー
# ファイルの名前（***.png）は, 元々ディレクトリ名になっていた漢字のラベルを継承するため、最初6文字をutf-16のhexにする
kanji_list = select_kanji_for_test()
for kanji in kanji_list:
    dir_name = kanji2dirname_for_kkanji2(kanji)
    file_list = os.listdir(original_dir + dir_name)
    for file in file_list:
        file_path = original_dir + dir_name + '/' + file
        shutil.copyfile(file_path, curated_kanji_dir_for_test + dir_name + file)