In [24]:
import gzip
import numpy as np

def load_mnist_images(filename):
    with gzip.open(filename, 'rb') as f:
        # 매직 넘버 읽기
        magic = int.from_bytes(f.read(4), 'big')
        if magic != 2051:
            raise ValueError("Invalid magic number in MNIST image file: {}".format(magic))
        
        # 이미지 수, 행, 열 읽기
        num_images = int.from_bytes(f.read(4), 'big')
        num_rows = int.from_bytes(f.read(4), 'big')
        num_cols = int.from_bytes(f.read(4), 'big')
        
        # 이미지 데이터 읽기
        images = np.frombuffer(f.read(), dtype=np.uint8)
        images = images.reshape((num_images, num_rows, num_cols))
        
        return images

def load_mnist_labels(filename):
    with gzip.open(filename, 'rb') as f:
        # 매직 넘버 읽기
        magic = int.from_bytes(f.read(4), 'big')
        if magic != 2049:
            raise ValueError("Invalid magic number in MNIST label file: {}".format(magic))
        
        # 레이블 수 읽기
        num_labels = int.from_bytes(f.read(4), 'big')
        
        # 레이블 데이터 읽기
        labels = np.frombuffer(f.read(), dtype=np.uint8)
        
        return labels

# 파일 경로 설정
images_path = 't10k-images-idx3-ubyte.gz'
labels_path = 't10k-labels-idx1-ubyte.gz'

# MNIST 이미지와 레이블 로드
images = load_mnist_images(images_path)
labels = load_mnist_labels(labels_path)

# 데이터 확인
print("이미지 shape:", images.shape)
print("레이블 shape:", labels.shape)


이미지 shape: (10000, 28, 28)
레이블 shape: (10000,)


In [25]:
# 학습 데이터와 테스트 데이터 분리

num_test_samples = 3000

train_images = images[:-num_test_samples]
test_images = images[-num_test_samples:]
train_labels = labels[:-num_test_samples]
test_labels = labels[-num_test_samples:]

# 데이터 형태 확인
print("학습 이미지 shape:", train_images.shape)
print("테스트 이미지 shape:", test_images.shape)
print("학습 레이블 shape:", train_labels.shape)
print("테스트 레이블 shape:", test_labels.shape)


학습 이미지 shape: (7000, 28, 28)
테스트 이미지 shape: (3000, 28, 28)
학습 레이블 shape: (7000,)
테스트 레이블 shape: (3000,)


In [26]:
# 이미지 스케일링 (0에서 255 사이의 값을 0에서 1 사이로 스케일링)
train_images = train_images.astype('float32') / 255.0
test_images = test_images.astype('float32') / 255.0

# 레이블 형 변환 (정수형에서 부동 소수점으로 변환)
train_labels = train_labels.astype('float32')
test_labels = test_labels.astype('float32')

In [27]:
# 학습 레이블과 테스트 레이블을 원핫 인코딩합니다.
num_classes = 10  # MNIST 데이터셋은 숫자 0부터 9까지 총 10개의 클래스가 있습니다.

train_labels_onehot = np.eye(num_classes)[train_labels.astype('int')]
test_labels_onehot = np.eye(num_classes)[test_labels.astype('int')]

# 결과 확인
print("학습 레이블의 원핫 인코딩 결과:", train_labels_onehot.shape)
print("테스트 레이블의 원핫 인코딩 결과:", test_labels_onehot.shape)


학습 레이블의 원핫 인코딩 결과: (7000, 10)
테스트 레이블의 원핫 인코딩 결과: (3000, 10)


In [28]:
# 학습 데이터를 더 작은 학습 데이터와 검증 데이터로 분리합니다.
validation_ratio = 0.2  # 검증 데이터의 비율

num_train_samples = len(train_images)
num_validation_samples = int(num_train_samples * validation_ratio)

# 학습 데이터와 검증 데이터 분리
validation_images = train_images[-num_validation_samples:]
validation_labels = train_labels_onehot[-num_validation_samples:]
train_images = train_images[:-num_validation_samples]
train_labels_onehot = train_labels_onehot[:-num_validation_samples]

# 데이터 확인
print("학습 이미지 shape:", train_images.shape)
print("학습 레이블 shape:", train_labels_onehot.shape)
print("검증 이미지 shape:", validation_images.shape)
print("검증 레이블 shape:", validation_labels.shape)

학습 이미지 shape: (5600, 28, 28)
학습 레이블 shape: (5600, 10)
검증 이미지 shape: (1400, 28, 28)
검증 레이블 shape: (1400, 10)


In [29]:
# 데이터셋을 학습, 검증, 테스트 데이터셋으로 분리합니다.
def split_dataset(images, labels, validation_ratio=0.1, test_ratio=0.1): # 검증 데이터의 비율
    num_samples = len(images)
    num_validation_samples = int(num_samples * validation_ratio)
    num_test_samples = int(num_samples * test_ratio)

    # 데이터를 랜덤하게 섞습니다.
    np.random.seed(42)
    shuffle_indices = np.random.permutation(num_samples)
    images_shuffled = images[shuffle_indices]
    labels_shuffled = labels[shuffle_indices]

    # 학습, 검증, 테스트 데이터셋으로 분리합니다.
    validation_images = images_shuffled[:num_validation_samples]
    validation_labels = labels_shuffled[:num_validation_samples]
    test_images = images_shuffled[num_validation_samples:num_validation_samples + num_test_samples]
    test_labels = labels_shuffled[num_validation_samples:num_validation_samples + num_test_samples]
    train_images = images_shuffled[num_validation_samples + num_test_samples:]
    train_labels = labels_shuffled[num_validation_samples + num_test_samples:]

    return train_images, train_labels, validation_images, validation_labels, test_images, test_labels

# 학습, 검증, 테스트 데이터셋 생성
train_images, train_labels_onehot, validation_images, validation_labels_onehot, test_images, test_labels_onehot = split_dataset(images, labels, validation_ratio=0.1, test_ratio=0.1)

# 데이터셋 형태 확인
print("학습 이미지 shape:", train_images.shape)
print("학습 레이블 shape:", train_labels_onehot.shape)
print("검증 이미지 shape:", validation_images.shape)
print("검증 레이블 shape:", validation_labels_onehot.shape)
print("테스트 이미지 shape:", test_images.shape)
print("테스트 레이블 shape:", test_labels_onehot.shape)


학습 이미지 shape: (8000, 28, 28)
학습 레이블 shape: (8000,)
검증 이미지 shape: (1000, 28, 28)
검증 레이블 shape: (1000,)
테스트 이미지 shape: (1000, 28, 28)
테스트 레이블 shape: (1000,)
