In [1]:
import os
import csv
import pandas as pd
from pathlib import Path
from sklearn.model_selection import train_test_split

In [2]:
# 　hiragana-recognition
# 　│  └─hiragana73
# 　│     ├─U304A
# 　│     ├─U304B
# 　│     ├─...
# 　│     └─U3093
# 　├─ex1.ipynb
# 　├─hiragana73.csv
# 　└─README.md

In [2]:
# データセットに含まれる全画像の一覧を作成

records = []
root = Path(os.getcwd() + '/hiragana73')
for dirpath in root.iterdir():
    for filepath in dirpath.iterdir():
        record = {
            # 各列を定義
            'hexcode': dirpath.name,
            'character': chr(int(dirpath.name[1:], 16)),   # U3042の先頭の"U"は文字コードではないので2文字目name[1:]から。
            'filename': filepath.name
        }
        records.append(record)

df = pd.DataFrame(records)
df.sort_values(['hexcode', 'filename']).to_csv(
    'hiragana73.csv', 
    columns=['hexcode', 'character', 'filename'], 
    index=False,  # インデックスは入れない
    quoting=csv.QUOTE_NONNUMERIC
    )

In [3]:
# データセットの全画像をトレーニングセットとテストセットに分割する

df = pd.read_csv('hiragana73.csv')
# データの構成比を4:1とする
train, test = train_test_split(
    df.index.values, test_size=0.2, random_state=123456)

print(train)

# 分割後のトレーニングセットを入れる
df.iloc[train, :].sort_values(['hexcode', 'filename']).to_csv(
    'hiragana73_train.csv', 
    columns=['hexcode', 'character', 'filename'], 
    index=False, 
    quoting=csv.QUOTE_NONNUMERIC
    )

# 分割後のテストセットを入れる
df.iloc[test, :].sort_values(['hexcode', 'filename']).to_csv(
    'hiragana73_test.csv', 
    columns=['hexcode', 'character', 'filename'], 
    index=False, 
    quoting=csv.QUOTE_NONNUMERIC
    )

[25048 18778 62385 ... 36408 53746 71745]
