1. 데이터 불러오기
먼저 데이터를 불러와야 합니다. 일반적으로 numpy 배열 형태로 데이터를 불러오며, 텐서플로우(TensorFlow)의 datasets 모듈을 사용할 수도 있습니다.

In [1]:
import numpy as np
from tensorflow.keras.datasets import mnist

# 예: MNIST 데이터셋 로드
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# 데이터 형태 확인
print(x_train.shape, y_train.shape)


(60000, 28, 28) (60000,)


2. 데이터 정규화(Normalization)
이미지 데이터의 경우, 각 픽셀 값은 0에서 255 사이의 값을 가지므로, 이를 [0, 1] 범위로 정규화하는 것이 일반적입니다.

In [2]:
# 픽셀 값을 0과 1 사이로 정규화
x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255


3. 레이블 인코딩(Label Encoding)
레이블(타겟 값)은 원-핫 인코딩(one-hot encoding) 방식으로 변환하는 것이 일반적입니다. 이 작업은 keras.utils.to_categorical 함수를 사용해 쉽게 할 수 있습니다.

In [3]:
from tensorflow.keras.utils import to_categorical

# 레이블을 원-핫 인코딩
y_train = to_categorical(y_train, num_classes=10)
y_test = to_categorical(y_test, num_classes=10)

4. 데이터 증강(Data Augmentation)
데이터 증강은 데이터셋의 크기를 인위적으로 늘리는 기법으로, 모델의 일반화 성능을 향상시킬 수 있습니다. 케라스에서는 ImageDataGenerator를 사용하여 쉽게 데이터 증강을 수행할 수 있습니다.

In [4]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)


5. 배치 처리와 제너레이터 사용
대용량 데이터셋의 경우, 전체 데이터를 한 번에 메모리에 로드하지 않고 배치(batch) 단위로 데이터를 처리하는 것이 일반적입니다. 이를 위해 flow 또는 flow_from_directory 메서드를 사용합니다.

In [None]:
# 제너레이터를 통한 배치 단위 데이터 처리
train_generator = datagen.flow(x_train, y_train, batch_size=32)


6. 데이터셋 나누기
모델 성능 평가를 위해 학습 데이터셋을 학습(training)과 검증(validation) 데이터셋으로 나누는 것이 일반적입니다. train_test_split 함수를 사용하거나, ImageDataGenerator의 validation_split 파라미터를 사용할 수 있습니다.

In [None]:
from sklearn.model_selection import train_test_split

# 학습 데이터와 검증 데이터로 분리
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=42)
