## 訓練データ/検証データ/テストデータの振り分け
### データ格納用ディレクトリ作成
訓練用データ、検証用データ、テスト用データを格納するためのディレクトリを切る

In [3]:
import os, shutil
def make_mydir(path):
    if not os.path.isdir(path):
        os.makedirs(path)

In [4]:
base_dir     = './obama_and_smalling/'
make_mydir(base_dir)

In [5]:
train_dir = os.path.join(base_dir, 'train')
valid_dir = os.path.join(base_dir, 'valid')
test_dir  = os.path.join(base_dir, 'test')
train_smalling = os.path.join(train_dir, 'smalling')
valid_smalling = os.path.join(valid_dir, 'smalling')
test_smalling  = os.path.join(test_dir, 'smalling')
train_obama   = os.path.join(train_dir, 'obama')
valid_obama   = os.path.join(valid_dir, 'obama')
test_obama    = os.path.join(test_dir, 'obama')
dir_list = [train_dir, valid_dir, test_dir, train_smalling, valid_smalling, test_smalling, train_obama, valid_obama, test_obama]

for d in dir_list:
    make_mydir(d)

### 画像の振り分け
ます、画像が何枚あるか再確認する。

In [6]:
org_smalling_dir = './faces/smalling/'
org_obama_dir   = './faces/obama/' 
smalling_faces = os.listdir('./faces/smalling/')
obama_faces = os.listdir('./faces/obama/')

print('Smalling has {} faces '.format(len(smalling_faces)))
print('Obama has {} faces '.format(len(obama_faces)))

Smalling has 231 faces 
Obama has 255 faces 


枚数が違いますが、せっかく収集したので、全部使いたくなりました。
訓練データと検証用データは同じ枚数にしたいので、以下のように振り分けてみます。

|data|Smalling|Obama|
|-|-|-|
|train|130|130|
|valid|50|50|
|test|51|75|

In [7]:
# 一応シャッフル
import random
random.shuffle(smalling_faces)
random.shuffle(obama_faces)

smalling_train = [smalling_faces[i] for i in range(130)]
smalling_valid = [smalling_faces[i] for i in range(130, 180)]
smalling_test = [smalling_faces[i] for i in range(180, 231)]

obama_train = [obama_faces[i] for i in range(130)]
obama_valid = [obama_faces[i] for i in range(130, 180)]
obama_test = [obama_faces[i] for i in range(180, 255)]

# zip使いたいだけ
list_data = [smalling_train, smalling_valid, smalling_test, obama_train, obama_valid, obama_test]
list_src   = [org_smalling_dir, org_smalling_dir, org_smalling_dir, org_obama_dir, org_obama_dir, org_obama_dir]
list_dest = [train_smalling, valid_smalling, test_smalling, train_obama, valid_obama, test_obama]
for data,src,dest in zip(list_data, list_src, list_dest):
    for d in data:
        src_file = os.path.join(src, d)
        dest_file = os.path.join(dest, d)
        shutil.copyfile(src_file, dest_file)    

In [8]:
for l in list_data:
    print(len(l))

130
50
51
130
50
75


訓練データ、検証データ、テストデータに分けることができました。
ここまではローカルで操作しましたが、以降はGPUを使いたいのでGoogle Colabで作業します。