In [1]:
import numpy as np

import numpy as np는 파이썬에서 numpy 라이브러리를 np라는 이름으로 불러오는 코드입니다. numpy는 수치 계산을 위한 파이썬 라이브러리로, 배열, 행렬, 수학적 함수 등을 지원합니다. np는 numpy 라이브러리를 간편하게 사용할 수 있도록 줄여서 사용하기 위한 약칭입니다.

In [2]:
class Mnist_model:
    def __init__(self, X_train, Y_train,lr=0.1 ,epoch=1000):
        self.lr = lr
        self.epoch = epoch
        self.X_train = X_train
        self.Y_train = Y_train
        self.input_size = 784  # 입력층 노드 수
        self.hidden_layer1_size = 50  # 첫 번째 은닉층 노드 수
        self.hidden_layer2_size = 100  # 두 번째 은닉층 노드 수
        self.output_size = 10  # 출력층 노드 수
        self.w1 = np.random.randn(self.input_size, self.hidden_layer1_size) * np.sqrt(2. / self.input_size)
        self.w2 = np.random.randn(self.hidden_layer1_size, self.hidden_layer2_size) * np.sqrt(2. / self.hidden_layer1_size)
        self.w3 = np.random.randn(self.hidden_layer2_size, self.output_size) * np.sqrt(2. / self.hidden_layer2_size)
        self.b1 = np.zeros((1, self.hidden_layer1_size))
        self.b2 = np.zeros((1, self.hidden_layer2_size))
        self.b3 = np.zeros((1, self.output_size))

    def relu(self,x):
        return np.maximum(0, x)

    def relu_derivative(self,x):
        return (x > 0).astype(float)

    def softmax(self,x):
        exp_x = np.exp(x - np.max(x, axis=1, keepdims=True))
        return exp_x / np.sum(exp_x, axis=1, keepdims=True)

    def cross_entropy_loss(self,y_true, y_pred):
        return -np.mean(np.sum(y_true * np.log(y_pred + 1e-9), axis=1))
    
    def Laerning(self):
        for ep in range(self.epoch):
            # 순전파
            z1 = np.dot(self.X_train, self.w1) + self.b1
            a1 = self.relu(z1)  # ReLU 함수 사용
            z2 = np.dot(a1, self.w2) + self.b2
            a2 = self.relu(z2)  # ReLU 함수 사용
            z3 = np.dot(a2, self.w3) + self.b3
            a3 = self.softmax(z3)
            # 손실 계산
            loss = self.cross_entropy_loss(self.Y_train, a3)
            # 역전파
            dL_da3 = a3 - self.Y_train
            dL_dw3 = np.dot(a2.T, dL_da3) / self.X_train.shape[0]
            dL_db3 = np.sum(dL_da3, axis=0, keepdims=True) / self.X_train.shape[0]

            dL_da2 = np.dot(dL_da3, self.w3.T) * self.relu_derivative(a2)  # ReLU 미분 사용
            dL_dw2 = np.dot(a1.T, dL_da2) / self.X_train.shape[0]
            dL_db2 = np.sum(dL_da2, axis=0, keepdims=True) / self.X_train.shape[0]

            dL_da1 = np.dot(dL_da2, self.w2.T) * self.relu_derivative(a1)  # ReLU 미분 사용
            dL_dw1 = np.dot(self.X_train.T, dL_da1) / self.X_train.shape[0]
            dL_db1 = np.sum(dL_da1, axis=0, keepdims=True) / self.X_train.shape[0]


            # 가중치 및 바이어스 업데이트
            self.w3 -= self.lr * dL_dw3
            self.b3 -= self.lr * dL_db3
            self.w2 -= self.lr * dL_dw2
            self.b2 -= self.lr * dL_db2
            self.w1 -= self.lr * dL_dw1
            self.b1 -= self.lr * dL_db1

            # 에폭마다 손실 출력
            #if epoch % 100 == 0:
            print(f"Epoch {ep}, Loss: {loss:.4f}")
            
    # 모델 평가
    def evaluate(self,X_test, y_test):
        z1 = np.dot(X_test, self.w1) + self.b1
        a1 = self.relu(z1)
        z2 = np.dot(a1, self.w2) + self.b2
        a2 = self.relu(z2)
        z3 = np.dot(a2, self.w3) + self.b3
        a3 = self.relu(z3)

        predictions = np.argmax(a3, axis=1)
        accuracy = np.mean(predictions == np.argmax(y_test, axis=1))
        return accuracy
    
    

python
코드 복사
class Mnist_model:
Mnist_model이라는 이름의 클래스를 정의합니다.
python
코드 복사
    def __init__(self, X_train, Y_train, lr=0.1, epoch=1000):
클래스의 초기화 메서드 __init__를 정의합니다. X_train과 Y_train은 훈련 데이터와 레이블, lr은 학습률, epoch는 에폭 수를 의미합니다.
python
코드 복사
        self.lr = lr
        self.epoch = epoch
        self.X_train = X_train
        self.Y_train = Y_train
초기화 메서드에서 학습률(lr), 에폭 수(epoch), 훈련 데이터(X_train), 훈련 레이블(Y_train)을 클래스의 인스턴스 변수로 저장합니다.
python
코드 복사
        self.input_size = 784  # 입력층 노드 수
        self.hidden_layer1_size = 50  # 첫 번째 은닉층 노드 수
        self.hidden_layer2_size = 100  # 두 번째 은닉층 노드 수
        self.output_size = 10  # 출력층 노드 수
입력층, 첫 번째 은닉층, 두 번째 은닉층, 출력층의 노드 수를 정의합니다.
python
코드 복사
        self.w1 = np.random.randn(self.input_size, self.hidden_layer1_size) * np.sqrt(2. / self.input_size)
        self.w2 = np.random.randn(self.hidden_layer1_size, self.hidden_layer2_size) * np.sqrt(2. / self.hidden_layer1_size)
        self.w3 = np.random.randn(self.hidden_layer2_size, self.output_size) * np.sqrt(2. / self.hidden_layer2_size)
각 층의 가중치를 랜덤하게 초기화합니다. He 초기화(He initialization) 방법을 사용하여 분산을 조절합니다.
python
코드 복사
        self.b1 = np.zeros((1, self.hidden_layer1_size))
        self.b2 = np.zeros((1, self.hidden_layer2_size))
        self.b3 = np.zeros((1, self.output_size))
각 층의 바이어스를 0으로 초기화합니다.
python
코드 복사
    def relu(self, x):
        return np.maximum(0, x)
ReLU(정류화 선형 유닛) 활성화 함수를 정의합니다. 입력이 0보다 크면 그대로 반환하고, 0 이하이면 0으로 반환합니다.
python
코드 복사
    def relu_derivative(self, x):
        return (x > 0).astype(float)
ReLU 함수의 미분을 정의합니다. 입력이 0보다 크면 1, 그렇지 않으면 0을 반환합니다.
python
코드 복사
    def softmax(self, x):
        exp_x = np.exp(x - np.max(x, axis=1, keepdims=True))
        return exp_x / np.sum(exp_x, axis=1, keepdims=True)
Softmax 활성화 함수를 정의합니다. 각 클래스의 확률을 반환합니다.
python
코드 복사
    def cross_entropy_loss(self, y_true, y_pred):
        return -np.mean(np.sum(y_true * np.log(y_pred + 1e-9), axis=1))
교차 엔트로피 손실 함수를 정의합니다. 모델의 예측 값(y_pred)과 실제 레이블(y_true)을 비교하여 손실 값을 계산합니다.
python
코드 복사
    def Laerning(self):
Laerning 메서드는 신경망을 학습시키는 메서드입니다. (Laerning은 아마도 Learning의 오타일 것 같습니다.)
python
코드 복사
        for ep in range(self.epoch):
지정된 에폭 수만큼 반복합니다.
python
코드 복사
            z1 = np.dot(self.X_train, self.w1) + self.b1
            a1 = self.relu(z1)  # ReLU 함수 사용
입력 데이터와 첫 번째 층의 가중치 행렬을 곱하고 바이어스를 더한 후 ReLU 함수를 적용합니다.
python
코드 복사
            z2 = np.dot(a1, self.w2) + self.b2
            a2 = self.relu(z2)  # ReLU 함수 사용
첫 번째 은닉층의 출력을 두 번째 층에 입력하여 가중치와 바이어스를 적용한 후 ReLU 함수를 적용합니다.
python
코드 복사
            z3 = np.dot(a2, self.w3) + self.b3
            a3 = self.softmax(z3)
두 번째 은닉층의 출력을 출력층에 입력하여 가중치와 바이어스를 적용한 후 Softmax 함수를 적용하여 확률 분포를 얻습니다.
python
코드 복사
            loss = self.cross_entropy_loss(self.Y_train, a3)
예측 값과 실제 레이블을 사용하여 손실 값을 계산합니다.
python
코드 복사
            dL_da3 = a3 - self.Y_train
            dL_dw3 = np.dot(a2.T, dL_da3) / self.X_train.shape[0]
            dL_db3 = np.sum(dL_da3, axis=0, keepdims=True) / self.X_train.shape[0]
출력층의 기울기를 계산하고, 가중치와 바이어스의 기울기를 계산합니다.
python
코드 복사
            dL_da2 = np.dot(dL_da3, self.w3.T) * self.relu_derivative(a2)  # ReLU 미분 사용
            dL_dw2 = np.dot(a1.T, dL_da2) / self.X_train.shape[0]
            dL_db2 = np.sum(dL_da2, axis=0, keepdims=True) / self.X_train.shape[0]
두 번째 은닉층의 기울기를 계산하고, 가중치와 바이어스의 기울기를 계산합니다.
python
코드 복사
            dL_da1 = np.dot(dL_da2, self.w2.T) * self.relu_derivative(a1)  # ReLU 미분 사용
            dL_dw1 = np.dot(self.X_train.T, dL_da1) / self.X_train.shape[0]
            dL_db1 = np.sum(dL_da1, axis=0, keepdims=True) / self.X_train.shape[0]
첫 번째 은닉층의 기울기를 계산하고, 가중치와 바이어스의 기울기를 계산합니다.
python
코드 복사
            self.w3 -= self.lr * dL_dw3
            self.b3 -= self.lr * dL_db3
            self.w2 -= self.lr * dL_dw2
            self.b2 -= self.lr * dL_db2
            self.w1 -= self.lr * dL_dw1
            self.b1 -= self.lr * dL_db1
가중치와 바이어스를 학습률(lr)에 기울기를 곱한 만큼 업데이트합니다.
python
코드 복사
            print(f"Epoch {ep}, Loss: {loss:.4f}")
매 에폭마다 손실 값을 출력합니다.
python
코드 복사
    def evaluate(self, X_test, y_test):
모델 평가를 위한 evaluate 메서드를 정의합니다. X_test는 테스트 데이터, y_test는 테스트 레이블입니다.
python
코드 복사
        z1 = np.dot(X_test, self.w1) + self.b1
        a1 = self.relu(z1)
        z2 = np.dot(a1, self.w2) + self.b2
        a2 = self.relu(z2)
        z3 = np.dot(a2, self.w3) + self.b3
        a3 = self.softmax(z3)
테스트 데이터에 대해 순전파를 수행하여 예측 결과를 얻습니다.
python
코드 복사
        predictions = np.argmax(a3, axis=1)
        accuracy = np.mean(predictions == np.argmax(y_test, axis=1))
        return accuracy
예측 결과의 클래스 인덱스를 찾고, 이와 실제 레이블의 클래스 인덱스를 비교하여 정확도를 계산한 후 반환합니다.


In [3]:

# idx 형식 파일 읽기 함수
def load_idx_file(filename):
    with open(filename, 'rb') as f:
        # 파일 헤더 부분 읽기
        magic_number = int.from_bytes(f.read(4), byteorder='big')
        if magic_number == 2051:  # 이미지 파일
            num_images = int.from_bytes(f.read(4), byteorder='big')
            rows = int.from_bytes(f.read(4), byteorder='big')
            cols = int.from_bytes(f.read(4), byteorder='big')
            data = np.frombuffer(f.read(), dtype=np.uint8).reshape(num_images, rows * cols)
        elif magic_number == 2049:  # 레이블 파일
            num_labels = int.from_bytes(f.read(4), byteorder='big')
            data = np.frombuffer(f.read(), dtype=np.uint8)
        else:
            raise ValueError(f"Wrong File: {filename}")
    return data



이 함수는 IDX 형식의 파일을 읽어 numpy 배열로 변환하는 역할을 합니다. IDX 형식은 주로 MNIST 데이터셋에서 사용되는 파일 형식입니다. 한 줄씩 해석해보겠습니다.

python
코드 복사
def load_idx_file(filename):
load_idx_file이라는 이름의 함수를 정의합니다. 이 함수는 filename이라는 파일 이름을 인자로 받아 해당 파일을 읽습니다.
python
코드 복사
    with open(filename, 'rb') as f:
filename을 바이너리 모드('rb')로 열어 파일 객체 f를 생성합니다. with 문을 사용하여 파일을 열면 파일 작업이 끝난 후 자동으로 파일이 닫힙니다.
python
코드 복사
        magic_number = int.from_bytes(f.read(4), byteorder='big')
파일의 처음 4바이트를 읽어 magic_number라는 변수에 저장합니다. magic_number는 파일의 유형을 식별하는 데 사용됩니다. int.from_bytes를 사용하여 바이트 데이터를 정수로 변환합니다. byteorder='big'은 바이트 순서가 빅 엔디안임을 의미합니다.
python
코드 복사
        if magic_number == 2051:  # 이미지 파일
magic_number가 2051인 경우, 이는 이미지 파일이라는 의미입니다.
python
코드 복사
            num_images = int.from_bytes(f.read(4), byteorder='big')
            rows = int.from_bytes(f.read(4), byteorder='big')
            cols = int.from_bytes(f.read(4), byteorder='big')
이미지 파일인 경우, 다음 12바이트를 읽어 각각 num_images (이미지 개수), rows (이미지의 행 수), cols (이미지의 열 수) 변수에 저장합니다.
python
코드 복사
            data = np.frombuffer(f.read(), dtype=np.uint8).reshape(num_images, rows * cols)
파일의 나머지 부분을 읽어 data 변수에 저장합니다. np.frombuffer를 사용하여 바이너리 데이터를 uint8 타입의 numpy 배열로 변환합니다. 이후 reshape을 사용하여 (num_images, rows * cols) 형태로 배열을 재구성합니다.
python
코드 복사
        elif magic_number == 2049:  # 레이블 파일
magic_number가 2049인 경우, 이는 레이블 파일이라는 의미입니다.
python
코드 복사
            num_labels = int.from_bytes(f.read(4), byteorder='big')
            data = np.frombuffer(f.read(), dtype=np.uint8)
레이블 파일인 경우, 다음 4바이트를 읽어 num_labels (레이블 개수) 변수에 저장한 후, 파일의 나머지 부분을 data 변수에 저장합니다. 이 데이터는 uint8 타입의 numpy 배열로 변환됩니다.
python
코드 복사
        else:
            raise ValueError(f"Wrong File: {filename}")
magic_number가 2051도 2049도 아닌 경우, 파일 형식이 잘못되었다고 판단하여 ValueError를 발생시킵니다.
python
코드 복사
    return data
읽어온 데이터를 반환합니다. 이미지 파일의 경우 (num_images, rows * cols) 형태의 배열, 레이블 파일의 경우 (num_labels,) 형태의 배열이 반환됩니다.

In [4]:
# 원-핫 인코딩 함수
def one_hot_encode(y, num_classes):
    return np.eye(num_classes)[y]

one_hot_encode 함수는 주어진 레이블을 원-핫 인코딩(One-Hot Encoding) 형식으로 변환합니다. 이 함수는 다음과 같이 동작합니다.

python
코드 복사
def one_hot_encode(y, num_classes):
one_hot_encode라는 함수를 정의합니다. 이 함수는 두 개의 인자를 받습니다:
y: 원-핫 인코딩할 레이블 배열입니다. 레이블은 정수로 이루어진 배열이어야 합니다.
num_classes: 총 클래스의 개수입니다. 이 값은 원-핫 인코딩 배열의 열 수를 결정합니다.
python
코드 복사
    return np.eye(num_classes)[y]
np.eye(num_classes)는 num_classes x num_classes 크기의 단위 행렬(identity matrix)을 생성합니다. 단위 행렬은 대각선의 요소가 1이고 나머지 요소가 0인 행렬입니다.
np.eye(num_classes)[y]는 y의 값에 따라 단위 행렬의 특정 행을 선택합니다. y는 각 레이블을 나타내는 정수 배열이므로, 각 정수는 단위 행렬에서 해당하는 행을 선택하는 인덱스로 사용됩니다.
예를 들어, num_classes=3이고 y=[0, 2, 1]일 경우, np.eye(num_classes)는 다음과 같은 3x3 단위 행렬을 생성합니다:
lua
코드 복사
[[1., 0., 0.],
 [0., 1., 0.],
 [0., 0., 1.]]
np.eye(num_classes)[y]는 이 단위 행렬에서 y의 값(0, 2, 1)에 해당하는 행들을 선택하여 원-핫 인코딩된 배열을 생성합니다:
lua
코드 복사
[[1., 0., 0.],
 [0., 0., 1.],
 [0., 1., 0.]]
따라서, 이 함수는 레이블 배열을 원-핫 인코딩 형식으로 변환하여 반환합니다.

In [5]:
# 데이터 로드
X_train = load_idx_file('train-images.idx3-ubyte')
y_train = load_idx_file('train-labels.idx1-ubyte')
X_test = load_idx_file('t10k-images.idx3-ubyte')
y_test = load_idx_file('t10k-labels.idx1-ubyte')

이 코드는 MNIST 데이터셋의 훈련 이미지, 훈련 레이블, 테스트 이미지, 테스트 레이블을 파일에서 읽어오는 작업을 수행합니다. 각 줄을 해석해보겠습니다.

python
코드 복사
X_train = load_idx_file('train-images.idx3-ubyte')
load_idx_file 함수를 호출하여 train-images.idx3-ubyte 파일에서 훈련 이미지를 읽어옵니다. 이 파일에는 훈련 이미지 데이터가 저장되어 있습니다.
반환된 데이터는 X_train 변수에 저장되며, 이 변수는 훈련 이미지의 픽셀 값들이 포함된 numpy 배열입니다.
python
코드 복사
y_train = load_idx_file('train-labels.idx1-ubyte')
load_idx_file 함수를 호출하여 train-labels.idx1-ubyte 파일에서 훈련 레이블을 읽어옵니다. 이 파일에는 훈련 이미지에 대한 레이블이 저장되어 있습니다.
반환된 데이터는 y_train 변수에 저장되며, 이 변수는 훈련 이미지에 대한 레이블을 나타내는 정수 배열입니다.
python
코드 복사
X_test = load_idx_file('t10k-images.idx3-ubyte')
load_idx_file 함수를 호출하여 t10k-images.idx3-ubyte 파일에서 테스트 이미지를 읽어옵니다. 이 파일에는 테스트 이미지 데이터가 저장되어 있습니다.
반환된 데이터는 X_test 변수에 저장되며, 이 변수는 테스트 이미지의 픽셀 값들이 포함된 numpy 배열입니다.
python
코드 복사
y_test = load_idx_file('t10k-labels.idx1-ubyte')
load_idx_file 함수를 호출하여 t10k-labels.idx1-ubyte 파일에서 테스트 레이블을 읽어옵니다. 이 파일에는 테스트 이미지에 대한 레이블이 저장되어 있습니다.
반환된 데이터는 y_test 변수에 저장되며, 이 변수는 테스트 이미지에 대한 레이블을 나타내는 정수 배열입니다.








In [6]:
# 데이터 전처리
X_train = X_train / 255.0
X_test = X_test / 255.0
y_train_encoded = one_hot_encode(y_train, 10)
y_test_encoded = one_hot_encode(y_test, 10)


이 코드는 MNIST 데이터셋의 전처리를 수행하여 모델 학습에 적합한 형식으로 변환합니다. 각 줄을 해석해보겠습니다.

python
코드 복사
X_train = X_train / 255.0
X_train의 픽셀 값들을 255.0으로 나누어 [0, 1] 범위로 정규화(normalize)합니다. MNIST 이미지 데이터는 원래 0에서 255까지의 값을 가지므로, 이를 0과 1 사이의 값으로 변환하여 신경망의 학습을 안정화하고 수렴 속도를 향상시킵니다.
python
코드 복사
X_test = X_test / 255.0
X_test의 픽셀 값들도 255.0으로 나누어 [0, 1] 범위로 정규화합니다. 훈련 데이터와 테스트 데이터 모두 동일한 전처리 과정을 거쳐야 모델의 일반화 성능이 향상됩니다.
python
코드 복사
y_train_encoded = one_hot_encode(y_train, 10)
one_hot_encode 함수를 사용하여 y_train의 레이블을 원-핫 인코딩 형식으로 변환합니다. 10은 총 클래스의 개수를 의미하며, MNIST 데이터셋은 10개의 클래스(숫자 0부터 9까지)를 가지고 있습니다. 변환된 결과는 y_train_encoded 변수에 저장되며, 이 변수는 원-핫 인코딩된 훈련 레이블을 포함합니다.
python
코드 복사
y_test_encoded = one_hot_encode(y_test, 10)
one_hot_encode 함수를 사용하여 y_test의 레이블을 원-핫 인코딩 형식으로 변환합니다. 10은 총 클래스의 개수를 의미하며, y_test_encoded 변수에 저장됩니다. 이 변수는 원-핫 인코딩된 테스트 레이블을 포함합니다.
이 전처리 과정은 이미지 데이터의 스케일을 조정하고 레이블을 원-핫 인코딩하여 신경망 모델이 데이터를 올바르게 처리할 수 있도록 합니다.

In [7]:
Mnist = Mnist_model(X_train,y_train_encoded,0.1,1000)
Mnist.Laerning()

Epoch 0, Loss: 2.3985
Epoch 1, Loss: 2.2533
Epoch 2, Loss: 2.1740
Epoch 3, Loss: 2.1098
Epoch 4, Loss: 2.0493
Epoch 5, Loss: 1.9885
Epoch 6, Loss: 1.9264
Epoch 7, Loss: 1.8629
Epoch 8, Loss: 1.7983
Epoch 9, Loss: 1.7329
Epoch 10, Loss: 1.6672
Epoch 11, Loss: 1.6017
Epoch 12, Loss: 1.5369
Epoch 13, Loss: 1.4734
Epoch 14, Loss: 1.4118
Epoch 15, Loss: 1.3524
Epoch 16, Loss: 1.2956
Epoch 17, Loss: 1.2416
Epoch 18, Loss: 1.1906
Epoch 19, Loss: 1.1426
Epoch 20, Loss: 1.0978
Epoch 21, Loss: 1.0560
Epoch 22, Loss: 1.0171
Epoch 23, Loss: 0.9810
Epoch 24, Loss: 0.9475
Epoch 25, Loss: 0.9164
Epoch 26, Loss: 0.8875
Epoch 27, Loss: 0.8606
Epoch 28, Loss: 0.8356
Epoch 29, Loss: 0.8123
Epoch 30, Loss: 0.7905
Epoch 31, Loss: 0.7702
Epoch 32, Loss: 0.7511
Epoch 33, Loss: 0.7333
Epoch 34, Loss: 0.7167
Epoch 35, Loss: 0.7010
Epoch 36, Loss: 0.6863
Epoch 37, Loss: 0.6725
Epoch 38, Loss: 0.6594
Epoch 39, Loss: 0.6472
Epoch 40, Loss: 0.6356
Epoch 41, Loss: 0.6246
Epoch 42, Loss: 0.6142
Epoch 43, Loss: 0.604

이 코드는 Mnist_model 클래스를 사용하여 MNIST 데이터셋으로 모델을 훈련시키는 과정입니다. 한 줄씩 해석해보겠습니다.

python
코드 복사
Mnist = Mnist_model(X_train, y_train_encoded, 0.1, 1000)
Mnist_model 클래스의 인스턴스를 생성합니다.
X_train은 훈련 이미지 데이터, y_train_encoded는 원-핫 인코딩된 훈련 레이블, 0.1은 학습률(learning rate), 1000은 에폭 수(epoch)를 의미합니다.
Mnist 변수에 Mnist_model 클래스의 인스턴스를 저장합니다. 이 인스턴스는 훈련 데이터와 하이퍼파라미터를 사용하여 모델을 초기화합니다.
python
코드 복사
Mnist.Laerning()
Mnist 인스턴스의 Laerning 메서드를 호출하여 모델을 훈련시킵니다. (Laerning은 아마도 Learning의 오타일 것입니다.)
이 메서드는 지정된 에폭 수만큼 데이터에 대해 순전파와 역전파를 수행하며, 가중치와 바이어스를 업데이트하고 매 에폭마다 손실 값을 출력합니다.
이 코드의 목적은 MNIST 데이터셋을 사용하여 Mnist_model 인스턴스를 학습시키는 것입니다.

In [8]:
train_accuracy = Mnist.evaluate(X_train,y_train_encoded)
test_accuracy = Mnist.evaluate(X_test,y_test_encoded)
print(f"Train Accuracy: {train_accuracy:.4f}, Test Accuracy: {test_accuracy:.4f}")

Train Accuracy: 0.9566, Test Accuracy: 0.9535


이 코드는 훈련 데이터와 테스트 데이터에 대해 모델의 정확도를 평가하고, 그 결과를 출력합니다. 각 줄을 해석해보겠습니다.

python
코드 복사
train_accuracy = Mnist.evaluate(X_train, y_train_encoded)
Mnist 인스턴스의 evaluate 메서드를 호출하여 훈련 데이터(X_train)와 원-핫 인코딩된 훈련 레이블(y_train_encoded)에 대해 모델의 정확도를 평가합니다.
evaluate 메서드는 X_train에 대한 예측을 수행하고, 이 예측과 실제 레이블(y_train_encoded)을 비교하여 훈련 정확도(train_accuracy)를 계산합니다.
이 정확도 값은 train_accuracy 변수에 저장됩니다.
python
코드 복사
test_accuracy = Mnist.evaluate(X_test, y_test_encoded)
Mnist 인스턴스의 evaluate 메서드를 호출하여 테스트 데이터(X_test)와 원-핫 인코딩된 테스트 레이블(y_test_encoded)에 대해 모델의 정확도를 평가합니다.
evaluate 메서드는 X_test에 대한 예측을 수행하고, 이 예측과 실제 레이블(y_test_encoded)을 비교하여 테스트 정확도(test_accuracy)를 계산합니다.
이 정확도 값은 test_accuracy 변수에 저장됩니다.
python
코드 복사
print(f"Train Accuracy: {train_accuracy:.4f}, Test Accuracy: {test_accuracy:.4f}")
훈련 정확도(train_accuracy)와 테스트 정확도(test_accuracy)를 포맷을 지정하여 출력합니다.
:.4f는 소수점 이하 4자리까지 표시하도록 포맷을 지정합니다.
이 코드는 모델이 훈련 데이터와 테스트 데이터에 대해 얼마나 잘 작동하는지 평가하고, 그 결과를 가독성 좋게 출력하는 역할을 합니다.

여기서 부터는 제가 개인적으로 궁금해서 예시 그림이랑 모델이 예측한 값이 맞는 지 확인하는 코드입니다.
사진을 출력하기 위해 matplotlib을 import했습니다.

In [11]:
import matplotlib.pyplot as plt  # 추가: 시각화를 위해 matplotlib를 임포트합니다.
def show_example_prediction(index):
    # 입력 이미지
    example_image = X_test[index].reshape(28, 28)  # 28x28 이미지로 변환

    # 모델 예측
    z1 = np.dot(X_test[index].reshape(1, -1), Mnist.w1) + Mnist.b1
    a1 = Mnist.relu(z1)
    z2 = np.dot(a1, Mnist.w2) + Mnist.b2
    a2 = Mnist.relu(z2)
    z3 = np.dot(a2, Mnist.w3) + Mnist.b3
    a3 = Mnist.softmax(z3)
    
    predicted_label = np.argmax(a3)

    # 실제 레이블
    actual_label = np.argmax(y_test_encoded[index])
    # 이미지와 예측 결과를 출력
    plt.imshow(example_image, cmap='gray')
    plt.title(f"Actual: {actual_label}, Predicted: {predicted_label}")
    plt.axis('off')
    plt.show()

이 코드는 MNIST 데이터셋의 특정 이미지에 대해 모델의 예측 결과를 시각화하는 함수입니다. 각 줄을 해석해보겠습니다.

python
코드 복사
import matplotlib.pyplot as plt  # 추가: 시각화를 위해 matplotlib를 임포트합니다.
matplotlib.pyplot 모듈을 plt라는 별칭으로 임포트합니다. 이는 그래프와 이미지를 시각화하는 데 사용됩니다.
python
코드 복사
def show_example_prediction(index):
show_example_prediction이라는 이름의 함수를 정의합니다. 이 함수는 index라는 인자를 받아, 해당 인덱스에 있는 이미지에 대해 모델의 예측 결과를 시각화합니다.
python
코드 복사
    example_image = X_test[index].reshape(28, 28)  # 28x28 이미지로 변환
X_test 배열에서 index 위치에 있는 이미지 데이터를 가져와 (28, 28) 크기로 변환하여 example_image 변수에 저장합니다. 이는 28x28 크기의 이미지를 복원하는 과정입니다.
python
코드 복사
    z1 = np.dot(X_test[index].reshape(1, -1), Mnist.w1) + Mnist.b1
입력 이미지(X_test[index])를 (1, -1) 형태로 변환하여 모델의 첫 번째 은닉층으로 전달합니다. 이 결과를 z1에 저장합니다. 이는 입력과 첫 번째 가중치 행렬 Mnist.w1의 내적과 첫 번째 바이어스 Mnist.b1을 더한 값입니다.
python
코드 복사
    a1 = Mnist.relu(z1)
z1에 ReLU 활성화 함수를 적용하여 첫 번째 은닉층의 출력을 계산하고 a1에 저장합니다.
python
코드 복사
    z2 = np.dot(a1, Mnist.w2) + Mnist.b2
첫 번째 은닉층의 출력을 모델의 두 번째 은닉층으로 전달합니다. a1과 두 번째 가중치 행렬 Mnist.w2의 내적과 두 번째 바이어스 Mnist.b2을 더하여 z2에 저장합니다.
python
코드 복사
    a2 = Mnist.relu(z2)
z2에 ReLU 활성화 함수를 적용하여 두 번째 은닉층의 출력을 계산하고 a2에 저장합니다.
python
코드 복사
    z3 = np.dot(a2, Mnist.w3) + Mnist.b3
두 번째 은닉층의 출력을 모델의 출력층으로 전달합니다. a2와 출력층 가중치 Mnist.w3의 내적과 출력층 바이어스 Mnist.b3을 더하여 z3에 저장합니다.
python
코드 복사
    a3 = Mnist.softmax(z3)
z3에 소프트맥스 활성화 함수를 적용하여 각 클래스의 확률을 계산하고 a3에 저장합니다.
python
코드 복사
    predicted_label = np.argmax(a3)
a3에서 가장 높은 확률을 가진 클래스의 인덱스를 predicted_label에 저장합니다. 이는 모델의 예측 레이블입니다.
python
코드 복사
    actual_label = np.argmax(y_test_encoded[index])
y_test_encoded 배열에서 index 위치에 있는 원-핫 인코딩된 레이블에서 실제 레이블의 인덱스를 actual_label에 저장합니다.
python
코드 복사
    plt.imshow(example_image, cmap='gray')
example_image를 회색조(cmap='gray')로 표시하여 이미지를 시각화합니다.
python
코드 복사
    plt.title(f"Actual: {actual_label}, Predicted: {predicted_label}")
이미지의 제목을 설정하여 실제 레이블(actual_label)과 예측 레이블(predicted_label)을 표시합니다.
python
코드 복사
    plt.axis('off')
이미지의 축을 숨깁니다.
python
코드 복사
    plt.show()
이미지를 화면에 표시합니다.
이 함수는 주어진 인덱스에 해당하는 이미지와 그에 대한 모델의 예측 결과를 시각화하여 모델의 성능을 직관적으로 평가할 수 있게 해줍니다.

In [None]:
# 예시 이미지 보기 (예: 첫 번째 테스트 이미지)
for idx in range(100):
    show_example_prediction(idx)

이 코드는 show_example_prediction 함수를 사용하여 첫 번째부터 100번째까지의 테스트 이미지와 모델의 예측 결과를 시각화합니다. 각 줄을 해석해보겠습니다.

python
코드 복사
for idx in range(100):
idx가 0부터 99까지의 값을 가지는 반복문을 시작합니다. 이 반복문은 총 100번 실행됩니다.
python
코드 복사
    show_example_prediction(idx)
현재 반복의 idx 값에 해당하는 테스트 이미지의 예측 결과를 시각화하기 위해 show_example_prediction 함수를 호출합니다.
idx는 이미지의 인덱스를 의미하며, 이 인덱스에 해당하는 테스트 이미지와 모델의 예측 결과를 시각화합니다.
이 코드는 첫 번째부터 100번째까지의 테스트 이미지와 모델의 예측 결과를 연속적으로 시각화하여 모델이 어떤 이미지를 어떻게 분류하는지 살펴보는 데 유용합니다. 이 과정은 모델의 성능을 시각적으로 평가하고, 예측 결과를 직관적으로 이해하는 데 도움이 됩니다.







