In [8]:
import gzip
import numpy as np

def load_mnist_images(filename):
    with gzip.open(filename, 'rb') as f:
        # 매직 넘버 읽기
        magic = int.from_bytes(f.read(4), 'big')
        if magic != 2051:
            raise ValueError("Invalid magic number in MNIST image file: {}".format(magic))
        
        # 이미지 수, 행, 열 읽기
        num_images = int.from_bytes(f.read(4), 'big')
        num_rows = int.from_bytes(f.read(4), 'big')
        num_cols = int.from_bytes(f.read(4), 'big')
        
        # 이미지 데이터 읽기
        images = np.frombuffer(f.read(), dtype=np.uint8)
        images = images.reshape((num_images, num_rows, num_cols))
        
        return images

def load_mnist_labels(filename):
    with gzip.open(filename, 'rb') as f:
        # 매직 넘버 읽기
        magic = int.from_bytes(f.read(4), 'big')
        if magic != 2049:
            raise ValueError("Invalid magic number in MNIST label file: {}".format(magic))
        
        # 레이블 수 읽기
        num_labels = int.from_bytes(f.read(4), 'big')
        
        # 레이블 데이터 읽기
        labels = np.frombuffer(f.read(), dtype=np.uint8)
        
        return labels

# 파일 경로 설정
images_path = 't10k-images-idx3-ubyte.gz'
labels_path = 't10k-labels-idx1-ubyte.gz'

# MNIST 이미지와 레이블 로드
images = load_mnist_images(images_path)
labels = load_mnist_labels(labels_path)

# 데이터 확인
print("이미지 shape:", images.shape)
print("레이블 shape:", labels.shape)


이미지 shape: (10000, 28, 28)
레이블 shape: (10000,)


In [10]:
# 학습 데이터와 테스트 데이터 분리

num_test_samples = 3000


train_images = images[:-num_test_samples]
test_images = images[-num_test_samples:]
train_labels = labels[:-num_test_samples]
test_labels = labels[-num_test_samples:]

# 데이터 형태 확인
print("학습 이미지 shape:", train_images.shape)
print("테스트 이미지 shape:", test_images.shape)
print("학습 레이블 shape:", train_labels.shape)
print("테스트 레이블 shape:", test_labels.shape)

# 데이터 타입 확인
print("학습 이미지 타입:", train_images.dtype)
print("테스트 이미지 타입:", test_images.dtype)
print("학습 레이블 타입:", train_labels.dtype)
print("테스트 레이블 타입:", test_labels.dtype)


학습 이미지 shape: (7000, 28, 28)
테스트 이미지 shape: (3000, 28, 28)
학습 레이블 shape: (7000,)
테스트 레이블 shape: (3000,)
학습 이미지 타입: uint8
테스트 이미지 타입: uint8
학습 레이블 타입: uint8
테스트 레이블 타입: uint8
