### Split data (train / test / validation)

In [2]:
import os
import shutil

In [4]:
# image data directory
original_dataset_dir = './data'

# folder names
classes_list = os.listdir(original_dataset_dir)
classes_list

['Apple___Apple_scab',
 'Apple___Black_rot',
 'Apple___Cedar_apple_rust',
 'Apple___healthy',
 'Cherry___healthy',
 'Cherry___Powdery_mildew',
 'Corn___Cercospora_leaf_spot Gray_leaf_spot',
 'Corn___Common_rust',
 'Corn___healthy',
 'Corn___Northern_Leaf_Blight',
 'Grape___Black_rot',
 'Grape___Esca_(Black_Measles)',
 'Grape___healthy',
 'Grape___Leaf_blight_(Isariopsis_Leaf_Spot)',
 'Peach___Bacterial_spot',
 'Peach___healthy',
 'Pepper,_bell___Bacterial_spot',
 'Pepper,_bell___healthy',
 'Potato___Early_blight',
 'Potato___healthy',
 'Potato___Late_blight',
 'Strawberry___healthy',
 'Strawberry___Leaf_scorch',
 'Tomato___Bacterial_spot',
 'Tomato___Early_blight',
 'Tomato___healthy',
 'Tomato___Late_blight',
 'Tomato___Leaf_Mold',
 'Tomato___Septoria_leaf_spot',
 'Tomato___Spider_mites Two-spotted_spider_mite',
 'Tomato___Target_Spot',
 'Tomato___Tomato_mosaic_virus',
 'Tomato___Tomato_Yellow_Leaf_Curl_Virus']

In [3]:
# 학습용, 검증용, 테스트용 이미지들을 담을 폴더이름
base_dir = './splitted'
# 만약 이전에 만들어진 것들을 지우고 하겠다면...
if os.path.isdir(base_dir) :
    # 하위폴더및 파일들까지 포함하여 모두 삭제한다.
    shutil.rmtree(base_dir)

In [4]:
# 폴더들을 만들어준다.
os.mkdir(base_dir)
# 학습용 이미지를 모을 폴더 생성
train_dir = os.path.join(base_dir, 'train')
os.mkdir(train_dir)
# 검증용 이미지를 모을 폴더 생성
val_dir = os.path.join(base_dir, 'val')
os.mkdir(val_dir)
# 테스트용 이미지를 모을 폴더 생성
test_dir = os.path.join(base_dir, 'test')
os.mkdir(test_dir)

In [5]:
# 각 사진의 종류 폴더 이름으로 폴더를 각각 만들어준다.
for cls in classes_list :
    os.mkdir(os.path.join(train_dir, cls))
    os.mkdir(os.path.join(val_dir, cls))
    os.mkdir(os.path.join(test_dir, cls))

In [6]:
# 이미지들을 복사한다.
# 학습용 : 검증용 : 테스트용 = 6 : 2 : 2
import math

# 전체 종류수 만큼 반복한다.
for cls in classes_list :
    # 파일들 목록을 가져온다.
    path = os.path.join(original_dataset_dir, cls)
    fnames = os.listdir(path)
    # print(fnames)
    # 현재의 폴더에 있는 파일 수를 가지고 6:2:2의 파일 수를 구한다.
    train_size = math.floor(len(fnames) * 0.6)
    validation_size = math.floor(len(fnames) * 0.2)
    test_size = math.floor(len(fnames) * 0.2)
    # 학습용 이미지를 복사한다.
    train_fnames = fnames[:train_size]
    for fname in train_fnames :
        src = os.path.join(path, fname)
        dst = os.path.join(os.path.join(train_dir, cls), fname)
        shutil.copyfile(src, dst)

    # 검증용 이미지를 복사한다.
    validation_fnames = fnames[train_size:(validation_size + train_size)]
    for fname in validation_fnames :
        src = os.path.join(path, fname)
        dst = os.path.join(os.path.join(val_dir, cls), fname)
        shutil.copyfile(src, dst)

    # 테스트용 이미지를 복사한다.
    test_fnames = fnames[(train_size + validation_size):]
    for fname in test_fnames :
        src = os.path.join(path, fname)
        dst = os.path.join(os.path.join(test_dir, cls), fname)
        shutil.copyfile(src, dst)

    
    print(f'{cls}')
    print(f'학습용 : {len(train_fnames)}')
    print(f'검증용 : {len(validation_fnames)}')
    print(f'테스트용 : {len(test_fnames)}')
    print('----------------------------------')

Apple___Apple_scab
학습용 : 378
검증용 : 126
테스트용 : 126
----------------------------------
Apple___Black_rot
학습용 : 372
검증용 : 124
테스트용 : 125
----------------------------------
Apple___Cedar_apple_rust
학습용 : 165
검증용 : 55
테스트용 : 55
----------------------------------
Apple___healthy
학습용 : 987
검증용 : 329
테스트용 : 329
----------------------------------
Cherry___healthy
학습용 : 512
검증용 : 170
테스트용 : 172
----------------------------------
Cherry___Powdery_mildew
학습용 : 631
검증용 : 210
테스트용 : 211
----------------------------------
Corn___Cercospora_leaf_spot Gray_leaf_spot
학습용 : 307
검증용 : 102
테스트용 : 104
----------------------------------
Corn___Common_rust
학습용 : 715
검증용 : 238
테스트용 : 239
----------------------------------
Corn___healthy
학습용 : 697
검증용 : 232
테스트용 : 233
----------------------------------
Corn___Northern_Leaf_Blight
학습용 : 591
검증용 : 197
테스트용 : 197
----------------------------------
Grape___Black_rot
학습용 : 708
검증용 : 236
테스트용 : 236
----------------------------------
Grape___Esca_(Black_Measles)
학습용 :