In [1]:
import os 
from glob import glob
import shutil
import random

import torchvision 
from torchvision import transforms

In [2]:
data_dir = './dataset/'

cat = glob(os.path.join(data_dir,'cat/*'))
dog = glob(os.path.join(data_dir,'dog/*'))

In [3]:
# 이미지 정렬
cat = sorted(glob(os.path.join(data_dir,'cat/*')))
dog = sorted(glob(os.path.join(data_dir,'dog/*')))
print('cat 이미지 개수: ',len(cat))
print('dog 이미지 개수: ',len(dog))

cat 이미지 개수:  444
dog 이미지 개수:  469


# train/test split 

In [4]:
cat_train_path='./dataset/train/cat'
cat_valid_path='./dataset/valid/cat'
cat_test_path='./dataset/test/cat'

dog_train_path='./dataset/train/dog'
dog_valid_path='./dataset/valid/dog'
dog_test_path='./dataset/test/dog'

In [5]:
# test split -> validation split
cat_temp='./dataset/temp/cat'
dog_temp='./dataset/temp/dog'

In [6]:
# 비율 계산 
import math

cat_split_count = round(len(cat)*0.2)
dog_split_count = round(len(dog)*0.2)

print('cats test 이미지 개수: ', cat_split_count)
print('dogs test 이미지 개수: ', dog_split_count)

# validation set도 같은 갯수로 쪼개기

cats test 이미지 개수:  89
dogs test 이미지 개수:  94


In [7]:
def split( img_list, split_count, train_path, test_path):
  
    test_files=[]
    for i in random.sample( img_list, split_count ):
        test_files.append(i)

    # 차집합으로 train/test 리스트 생성하기
    train_files = [x for x in img_list if x not in test_files]

    for k in train_files:
        shutil.copy(k, train_path)
  
    for c in test_files:
        shutil.copy(c, test_path)

In [8]:
split(cat, cat_split_count, cat_temp, cat_test_path)
split(dog, dog_split_count, dog_temp, dog_test_path)

In [9]:
print('cat_train 이미지 수: ', len(glob(os.path.join(data_dir,'temp/cat/*'))))
print('cat_test 이미지 수: ', len(glob(os.path.join(data_dir,'test/cat/*'))))
print('dog_train 이미지 수: ', len(glob(os.path.join(data_dir,'temp/dog/*'))))
print('dog_test 이미지 수: ', len(glob(os.path.join(data_dir,'test/dog/*'))))

cat_train 이미지 수:  355
cat_test 이미지 수:  89
dog_train 이미지 수:  375
dog_test 이미지 수:  94


In [10]:
cat2 = glob(os.path.join(data_dir,'temp/cat/*'))
dog2 = glob(os.path.join(data_dir,'temp/dog/*'))

print('cat2 이미지 개수: ',len(cat2))
print('dog2 이미지 개수: ',len(dog2))

cat2 이미지 개수:  355
dog2 이미지 개수:  375


In [11]:
def split2( img_list, split_count, train_path, valid_path):
  
    valid_files=[]
    for i in random.sample( img_list, split_count ):
        valid_files.append(i)

    # 차집합으로 train/test 리스트 생성하기
    train_files = [x for x in img_list if x not in valid_files]

    for k in train_files:
        shutil.copy(k, train_path)
  
    for c in valid_files:
        shutil.copy(c, valid_path)

In [12]:
split2(cat2, 89, cat_train_path, cat_valid_path)
split2(dog2, 94, dog_train_path, dog_valid_path)

In [13]:
print('cat_train 이미지 수: ', len(glob(os.path.join(data_dir,'train/cat/*'))))
print('cat_valid 이미지 수: ', len(glob(os.path.join(data_dir,'valid/cat/*'))))
print('cat_test 이미지 수: ', len(glob(os.path.join(data_dir,'test/cat/*'))))
print('---------------------------')
print('dog_train 이미지 수: ', len(glob(os.path.join(data_dir,'train/dog/*'))))
print('dog_valid 이미지 수: ', len(glob(os.path.join(data_dir,'valid/dog/*'))))
print('dog_test 이미지 수: ', len(glob(os.path.join(data_dir,'test/dog/*'))))

cat_train 이미지 수:  266
cat_valid 이미지 수:  89
cat_test 이미지 수:  89
---------------------------
dog_train 이미지 수:  281
dog_valid 이미지 수:  94
dog_test 이미지 수:  94


# 이미지 다시 넘버링 

In [14]:
def rename(files):

    if 'cat' in files[0]:
        for i,f in enumerate(files):
            os.rename(f, os.path.join(path+"/cat", 'cat_' + '{0:03d}.jpg'.format(i)))
        cat = glob.glob(path+"/cat" + '/*')    
        print("cat {}번째 이미지까지 성공".format(i+1))

    elif 'dog' in files[0]:
        for i,f in enumerate(files):
            os.rename(f, os.path.join(path+"/dog", 'dog_' + '{0:03d}.jpg'.format(i)))
        dog = glob.glob(path+"/dog"+'/*')
        print("dog {}번째 이미지까지 성공".format(i+1))

In [15]:
# train 이미지 넘버링 
import glob

path = "./dataset/train"
cat = glob.glob(path+"/cat" + '/*')
dog = glob.glob(path+"/dog" + '/*')

In [16]:
rename(cat)
rename(dog)

cat 266번째 이미지까지 성공
dog 281번째 이미지까지 성공


In [17]:
# validation 이미지 넘버링 
import glob

path = "./dataset/valid"
cat = glob.glob(path+"/cat" + '/*')
dog = glob.glob(path+"/dog" + '/*')

In [18]:
rename(cat)
rename(dog)

cat 89번째 이미지까지 성공
dog 94번째 이미지까지 성공


In [19]:
# test 이미지 넘버링 
import glob

path = "./dataset/test"
cat = glob.glob(path+"/cat" + '/*')
dog = glob.glob(path+"/dog" + '/*')

In [20]:
rename(cat)
rename(dog)

cat 89번째 이미지까지 성공
dog 94번째 이미지까지 성공
