In [None]:
import tensorflow as tf 
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Model
from tensorflow.keras.utils import to_categorical
import matplotlib.pyplot as plt 
import numpy as np 

In [None]:
# mnist data download 
# keras 라이브러리를 통해 다양한 데이터 셋을 활용할 수 있음
# keras 라이브러리에서 mnist 데이터 셋을 가져옴 
# x_train에는 (60000, 28, 28)의 데이터 셋이 있고, y_train에는 레이블 데이터가 담겨 있음(0~9) 
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [None]:
# visualization
plt.imshow(x_train[0], cmap='gray')
y_train[0]

In [None]:
# flatten x train data 
# reshape 함수
# numpy 의 배열과 차원을 변형해주는 함수
# np.reshape(변경할 배열, 차원) or 배열.reshape(차원) 으로 사용할 수 있음
flatten_x_train = x_train.reshape(60000, 28*28)

# change data to onehot vector 
# to_categorical 함수
# keras.utils.np_utils 패키지에 있는 to_categorical 함수는 바로 One-hot 인코딩을 해주는 함수
# One-hot 인코딩이랑 10진 정수 형식을 특수한 2진 바이너리 형식으로 변경하는 것이다.
# 파라미터로 값에 크기만큼 0으로 된 배열을 만들고, 파라미터 값 위치에만 1(hot)을 넣어준다.
# EX) array([1,2,3]) => array([[1,0,0], [0,1,0], [0,0,1]])
y_train_onehot = to_categorical(y_train, 10)

# flatten x test data 
flatten_x_test = x_test.reshape(10000, 28*28)

# change data to onehot vector 
y_test_onehot = to_categorical(y_test, 10)

In [None]:
# Input layer 
# Input() 은 텐서를 인스턴스화 하는데 사용됨
# 입력 데이터의 크기를 인자로 입력층에 정의
inputs = Input(shape=(28*28))

# hidden layer 

# Dense : Neural Network를 구성하는 layer를 생성하는데 필요
# units : Dense를 통해서 만들 hidden layer의 노드 수를 정의하는 것
#  - Input Layer 에서 Hidden Layer로 넘어갈 때의 시냅스의 수를 적절히 조절하거나,
#  - Hidden layer의 개수를 정의하는 것은 전체 Neural Network의 성능을 크게 좌우할 수 있음.
#  => Parameter tuning
# kernel_initializer : data 셋의 구성에 따라 사용

# Stochastic Gradient Descent(SGD) : Cost Function 을 Minimize 시키는 방법 중 하나로
# 전체 데이터 셋이 아닌 잘게 쪼개 학습시키는 방식

# 다층 퍼셉트론
# 가장 기본적인 형태의 인공 신경망(Artificial Neural Networks) 구조
# 하나의 Input layer, 하나 이상의 Hidden layer, 하나의 Output layer로 구성됨

# ReLu : Rectified Linear Unit
# Sigmoid 함수를 ReLu 가 대체하게 된 이유는 Gradient Vanishing 문제 때문임
# Sigmoid 함수는 0~1 사이의 값을 가지게 되는데, gradient descent를 사용해 Backpropagation 수행시
# Layer를 지나면서 gradient는 0으로 수렴하게 됨, layer수가 많아지면 잘 동작하지 않음
# 이런 문제를 해결하기 위해 ReLu라는 activation function을 사용한다.
# (x < 0) f(x) = 0
# (x >= 0) f(x) = x

# he_normal
# 0을 중심으로 stddev = sqrt(2/fan_in)의 표준편차를 가진 절단된 정규분포에 따라 샘플이 생성됨
# (fan_in 이란 가중치 텐서의 입력 유닛 수)
layer_1 = Dense(units=128, activation='relu', kernel_initializer='he_normal')(inputs)
layer_2 = Dense(units=128, activation='relu', kernel_initializer='he_normal')(layer_1)

# output layer 
# Softmax Regression (다중 클래스 분려ayer_2 = Dense(units=128, activation='relu', kernel_initializer='he_normal')(layer_1)

# output layer 
# Softmax Regression (다중 클래스 분류)
# 소프트 맥스 함수는 분류해야하는 정답지(클래스)의 총 개수를 k라고 할 때,
# k차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정한다.
# 개념 설명 필요

# glorot_normal : Xavier 정규분포 초기값 설정기
# 0을 중심으로 stddev = sqrt(2 / (fan_in + fan_out))의 표준편차를 가진 절단된 정규분포에 따라 샘플이 생성됨
# fan_in이란 가중치 텐서의 입력 유닛의 수, fan_out은 가중치 텐서의 출력 유닛의 수를 의미함
outputs = Dense(units=10, activation='softmax', kernel_initializer='glorot_normal')(layer_2)


In [None]:
y_test.shape, outputs

In [None]:
# Model
model = Model(inputs, outputs)
# Model 을 학습하는 방법
# 모델을 학습시키기 전에 compile 메소드를 통해서 학습 방식에 대한 환경 설정을 해야함.

# categorical_crossentropy
# 다중 분류 손실 함수 
# 출력 값이 one-hot encoding된 결과로 나옴
# 클래스가 상호 배타적일 경우 사용

# sparse_categorical_crossentropy
# 다중 분류 손실 함수
# integer type 클래스 -> one-hot encoding 하지 않고 정수 형태로 label을 넣어줌
# 한 샘플에 여러 클래스가 있거나 label이 soft 확률일 경우 사용

# binary_crossentropy
# 바이너리 다중 분류 손실 함수
# label들이 독립적일 때 사용arse_categorical_crossentropy
# 다중 분류 손실 함수
# integer type 클래스 -> one-hot encoding 하지 않고 정수 형태로 label을 넣어줌
# 한 샘플에 여러 클래스가 있거나 label이 soft 확률일 경우 사용

# binary_crossentropy
# 바이너리 다중 분류 손실 함수
# label들이 독립적일 때 사용

# Optimizer
# adam(Adaptive Momentum estimation) 
# Adagrad와 momentum의 결합
model.compile('adam', loss='categorical_crossentropy', metrics=['acc'])
model.compile('adam', loss='categorical_crossentropy', metrics=['acc'])

In [None]:
# 모델 
model.fit(x=flatten_x_train, y=y_train_onehot, 
          validation_data=(flatten_x_test, y_test_onehot))

In [None]:
# 훈련된 모델을 사용하여 이미지에 대한 예측을 만들 수 있음
# 예측은 숫자 배열로 나타나고 이는 모델의 신뢰도(Confidence)를 나타냄 
test_pred = model.predict(flatten_x_test)
# test_pred.shape

# numpy argmax : 다차원 배열의 경우에 차원에 따라 가장 큰 값의 인덱스들을 반환해 주는 함수
test_cls = np.argmax(test_pred, axis=1)
# test_cls

# plt.imshow(x_test[0])
# test_cls[0]

plt.imshow(x_test[2])
test_cls[2]

In [None]:
class A()
    # constructor : magic method
    def __init__(self, )

    # call function : magic method 
    def __call__(self, a)

A()()