In [1]:
import pandas as pd
from tqdm import tqdm
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.preprocessing import image
import numpy as np
import os



In [2]:
# 데이터 불러오기
training_data = pd.read_csv('../archive/fashion-mnist_train.csv')
train_y = training_data['label']
train_X = training_data.drop('label', axis=1)

test_data = pd.read_csv('../archive/fashion-mnist_test.csv')
test_y = test_data['label']
test_X = test_data.drop('label', axis=1)



In [3]:
# ImageDataGenerator를 사용하여 데이터 증강 설정
datagen = ImageDataGenerator(
    width_shift_range=0.1,
    height_shift_range=0.1
)

np.random.seed(42)

# 현재 디렉토리 아래에 'train_img' 폴더 생성
output_dir = './train_img/'
os.makedirs(output_dir, exist_ok=True)

# 데이터 증강 및 저장 반복문
with open('train_label.txt', 'w') as label_file:
    for index, row in tqdm(train_X.iterrows(), total=len(train_X)):
        # 0에서 1 사이의 난수 생성
        random_num = np.random.random()

        img = row.values.reshape((28, 28, 1))
        img_array = image.img_to_array(img)
        img_array = np.expand_dims(img_array, axis=0)

        # 원래 데이터 저장
        original_img_path = os.path.join(output_dir, f'train_img_{index:06d}.png')
        image.save_img(original_img_path, img_array[0])
        label_file.write(f"{index:06d} {train_y[index]}\n")

        # 2/3 확률로 증강된 데이터 저장
        if random_num > 0.33:
            augmented_img_array = next(datagen.flow(img_array, batch_size=1))
            augmented_img_array = augmented_img_array.squeeze(axis=0)  # 첫 번째 차원 제거
            augmented_img_path = os.path.join(output_dir, f'train_img_{index:06d}_aug.png')
            image.save_img(augmented_img_path, augmented_img_array)
            label_file.write(f"{index:06d}_aug {train_y[index]}\n")
        

  0%|          | 0/60000 [00:00<?, ?it/s]

100%|██████████| 60000/60000 [02:46<00:00, 360.26it/s]


#### 앞으로 훈련할 때 데이터를 해당 png파일을 갖고있는 폴더와 해당 폴더 아래에 있는 부류정보가 들어있는 txt를 사용