## 모두를 위한 딥러닝 #1

머신러닝 모델의 기본 틀은 아래와 같이 이루어진다. 우리는 계속 Supervised Learning(지도 학습)에 대해서 다룰 예정이다.

코드 상으로 나타낼 때에도 틀이 정해져 있어서 처음에 한 번 작성해놓으면 틀에 맞춰서 사용하면 된다.
1. 전처리: 
    - train/test split: 데이터를 train, test로 나눈다. 필요 시 validation set도 만들어준다.
    - normalization: 보통 데이터를 입력하기 전에 정규화를 시켜준다.
    - generator: 배치 단위로 쪼개서 입력해주어야 하기 때문에 batch를 생성해주는 generator를 만들어준다.
2. 모델: 
    - input_data: 학습을 위한 데이터 입력
        - X: 데이터 
        - y: label
    - model: 모델을 선정한다. 앞으로는 딥러닝 기반 모델을 주로 사용하게 될 예정이다.
        - Logistic regression
        - Linear regression
        - Neural Network
    - loss: loss를 선정한다. 무엇을 예측하느냐에 따라서 사용하는 방식이 나뉘고 주로 분류에는 Cross entropy를, 회귀에는 MSE를 사용한다.
        - MSE
        - Cross entropy
    - optimizer: optimizer를 선정한다. 지금까지는 Gradient descent를 사용했지만 더 다양한 학습 방법을 소개할 예정이다. 
        - Gradient descent optimizer
        - Adam optimzer
        - Adagrad optimizer 
    - train_op: 주로 loss를 최소화하는 training 방법을 사용한다.
        - minimize loss
    - prediction: 데이터를 입력해서 예상 결과를 얻는다.
3. hyperparameter: 
    - learning_rate: 한 번에 얼마나 학습시킬 것인지 결정한다. optimizer에 들어간다.
    - num_epochs: 얼마나 많이 학습을 시킬 것인지 결정한다. 모델의 iteration 수를 결정한다. 
    - batch_size: batch 크기를 얼마로 할 것인지 결정한다. 한 번에 얼만큼의 데이터 양으로 학습시킬 지 결정한다.
    - n_layers: layer를 얼마나 중첩되서 쌓을 것인지 결정한다. 
    - num_units: layer의 hidden unit의 수를 몇으로 할 것인지 결정한다.
4. 평가
    - metrics: prediction을 통해서 얻은 결과를 바탕으로 모델의 성능을 평가한다.
        - precision: 정답(참)/찍은 수(참)
        - recall: 정답(참)/정답 수(참) 
        - accuracy: 정답(참 + 거짓)/찍은 수(참 + 거짓)
    
빠진 내용: <br>
1. 에러 분석: 정확도를 통해 확인했을 때 어떤 부분에서 에러가 발생하는지에 대한 내용 (*코딩이 익숙해지면 다룰 예정*)
2. 학습 모니터링: 강의에서 `Summary` 배운 뒤 활용 예정.
3. 학습된 모델 불러와서 재사용: 강의에서 `Saver`, `restore`를 배운 뒤 활용 예정. 

### 학습 목표

1. 전반적인 위 flow를 코드를 따라서 보고 이해하기
2. 아래 코드를 객체 지향적으로 설계해보기. 위의 틀처럼 공통된 분모끼리 묶고 묶었을 때 모델의 종류가 바뀌더라도 재 사용이 가능하도록 한다.

In [3]:
from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
import numpy as np

In [2]:
# 데이터를 불러온다. 우리가 사용할 데이터는 예전에 보던 데이터와 거의 유사한데, 흑백 0~9까지의 숫자 데이터다.
mnist = input_data.read_data_sets('./', one_hot=True)

Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Extracting ./train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Extracting ./train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting ./t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting ./t10k-labels-idx1-ubyte.gz


In [4]:
# 데이터를 나누자.
X_train = mnist.train.images
y_train = mnist.train.labels

X_test = mnist.test.images
y_test = mnist.test.labels

In [5]:
# X 데이터에 대해서 정규화를 시키자.
mean = X_train.mean()
std = X_train.std()

X_train = (X_train - mean) / std
X_test = (X_test - mean) / std

In [20]:
# generator를 생성할 함수를 만들자.
def generator(data, labels, batch_size):
    size = data.shape[0]
    shuffled_indices = np.random.choice(size, size, replace=False)
    data = data[shuffled_indices]
    labels = labels[shuffled_indices]
    for i in range(size // batch_size):
        yield data[i*batch_size: (i+1)*batch_size], labels[i*batch_size: (i+1)*batch_size]           

In [22]:
tf.reset_default_graph()

# hyperparameter를 지정해준다.
learning_rate = 0.001
num_epochs = 20
batch_size = 100
num_units = 500
num_classes = 10
num_train = len(X_train)
num_iterations = num_train // batch_size

# 입력 데이터를 지정해준다. 
X = tf.placeholder(tf.float32, [None, 784])
y = tf.placeholder(tf.float32, [None, 10])

# 모델을 설계한다.
fc1 = tf.layers.dense(X, units=num_units, activation=tf.nn.relu)
logits = tf.layers.dense(fc1, units=num_classes)

# loss와 optimizer를 지정한다.
loss = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=logits))
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
train_op = optimizer.minimize(loss)

# pred 값을 예측해보자.
pred = logits
correction = tf.equal(tf.argmax(y, axis=1), tf.argmax(pred, axis=1))
accuracy = tf.reduce_mean(tf.cast(correction, tf.float32))

In [23]:
# session을 실행시킨다. 
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# epoch수 만큼 iteration을 돌리자.
for epoch in range(num_epochs):
    # batch generator를 생성하자. 
    batch_generator = generator(X_train, y_train, batch_size)     
    for i, batch in enumerate(batch_generator):
        batch_X, batch_y = batch
        _, train_loss, train_accuracy = sess.run([train_op, loss, accuracy], 
                                                 feed_dict={X: batch_X, y: batch_y})
        
    test_loss, test_accuracy = sess.run([loss, accuracy],
                                        feed_dict={X: X_test, y: y_test})
    print('Epoch: {0}, train_accuracy: {1:.3f}, test_accuracy: {2:.3f}'\
          .format(epoch, train_accuracy, test_accuracy))

Epoch: 0, train_accuracy: 0.750, test_accuracy: 0.817
Epoch: 1, train_accuracy: 0.870, test_accuracy: 0.865
Epoch: 2, train_accuracy: 0.890, test_accuracy: 0.883
Epoch: 3, train_accuracy: 0.860, test_accuracy: 0.893
Epoch: 4, train_accuracy: 0.930, test_accuracy: 0.899
Epoch: 5, train_accuracy: 0.890, test_accuracy: 0.905
Epoch: 6, train_accuracy: 0.910, test_accuracy: 0.909
Epoch: 7, train_accuracy: 0.920, test_accuracy: 0.913
Epoch: 8, train_accuracy: 0.930, test_accuracy: 0.916
Epoch: 9, train_accuracy: 0.920, test_accuracy: 0.919
Epoch: 10, train_accuracy: 0.890, test_accuracy: 0.921
Epoch: 11, train_accuracy: 0.930, test_accuracy: 0.922
Epoch: 12, train_accuracy: 0.880, test_accuracy: 0.923
Epoch: 13, train_accuracy: 0.920, test_accuracy: 0.925
Epoch: 14, train_accuracy: 0.940, test_accuracy: 0.926
Epoch: 15, train_accuracy: 0.940, test_accuracy: 0.927
Epoch: 16, train_accuracy: 0.960, test_accuracy: 0.928
Epoch: 17, train_accuracy: 0.950, test_accuracy: 0.930
Epoch: 18, train_acc

### 객체 지향적 설계

객체 지향적으로 설계하는 내용에 대해서는 2달 전인가 대략적으로 살펴보았다. (Class5_coding.ipynb, Class_Python_class.ipynb를 참고하자.)

위 코드를 가지고 어떻게 설계를 해야 중복되는 내용을 없애고 다른 모델이 추가되었을 때 잘 쓸 수 있을지 생각해보자. <br>
1. 우리가 위에서 나눠놓은 부분대로 설계를 해야 각 부분 별로 변경이 되어도 쉽게 반영할 수 있다. 
2. 너무 다른 부분은(전처리와 모델) 아예 다른 script에 짜서 넣고 불러와서 사용하는 것이 다루기 편리하다. 
3. 최종적으로 학습을 시킬 때에는 각각 내용이 나뉘어져있는 script로부터 불러와서 학습시키면 된다. 
4. 3번 학습 때 조건을 바꿔줘야 하는 부분 (hyperparameter)은 언제든지 변경되어야 하므로 3번에 지정해주는 것이 편리하다.

예시를 들어보자.

아래 코드는 위에 있는 코드 중 모델에 관한 부분에서 공통적인 특징을 가진 부분들만 모아서 함수화를 한 내용이다. 아래에는 문제가 몇 가지 있다.
1. 중복되게 입력되는 인수들이 너무 많다. `model`, `loss`, `train_op`... 앞서 반환되는 값들을 계속 입력해줘야 한다. 그리고 대부분이 입력되는 값들도 변하지 않는데 인수를 지정해주어야 하는 경우위다. 불필요하고 낭비다.
2. 우리는 지금 함수로 만들었다. 그럼 이 각각의 함수가 다른데서 쓰일 수 있어야 하는데 쓰일 수 있나? 없다. 왜냐면 모델을 만드는데 필요한 하나의 부품일 뿐이기 때문이다. 제각각 다른 곳에 사용할 수 없다면 하나로 뭉쳐주는게 낫지 않나? 

-> ***위의 문제들을 해결하기 위해서 class로 묶어준다!!***

In [11]:
tf.reset_default_graph()

# hyperparameter를 지정해준다.
learning_rate = 0.001
num_epochs = 20
batch_size = 100
num_units = 500
num_classes = 10
num_train = len(X_train)
num_iterations = num_train // batch_size

In [16]:
# 입력 데이터를 지정해준다. 
def add_placeholders():
    X = tf.placeholder(tf.float32, [None, 784])
    y = tf.placeholder(tf.float32, [None, 10])
    return X, y 

# 모델을 설계해서 logits를 구하자.
def model(X, num_units, num_classes):
    fc1 = tf.layers.dense(X, units=num_units, activation=tf.nn.relu)
    logits = tf.layers.dense(fc1, units=num_classes)
    return logits

# loss를 구하자.
def loss(logits, labels):
    loss = tf.reduce_mean(
        tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=logits))
    return loss

# train_op를 만들자.
def train_op(loss, learning_rate):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    train_op = optimizer.minimize(loss)
    return train_op

# prediction 값을 구하자. 
def accuracy(pred, labels):
    correction = tf.equal(tf.argmax(y, axis=1), tf.argmax(pred, axis=1))
    accuracy = tf.reduce_mean(tf.cast(correction, tf.float32))다
    return accuracy 

In [17]:
# 위에서 정의한 함수 합치기
X, y = add_placeholders()
logits = model(X, num_units, num_classes)
loss = loss(logits, y)
train_op = train_op(loss)
accuracy = accuracy(logits, y)

# session을 실행시킨다. 
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# epoch수 만큼 iteration을 돌리자.
for epoch in range(num_epochs):
    # batch generator를 생성하자. 
    batch_generator = generator(X_train, y_train, batch_size)     
    for i, batch in enumerate(batch_generator):
        batch_X, batch_y = batch
        _, train_loss, train_accuracy = sess.run([train_op, loss, accuracy], 
                                                 feed_dict={X: batch_X, y: batch_y})
        
    test_loss, test_accuracy = sess.run([loss, accuracy],
                                        feed_dict={X: X_test, y: y_test})
    print('Epoch: {0}, train_accuracy: {1:.3f}, test_accuracy: {2:.3f}'\
          .format(epoch, train_accuracy, test_accuracy))

Epoch: 0, train_accuracy: 0.940, test_accuracy: 0.965
Epoch: 1, train_accuracy: 0.980, test_accuracy: 0.971
Epoch: 2, train_accuracy: 0.990, test_accuracy: 0.976
Epoch: 3, train_accuracy: 0.990, test_accuracy: 0.974
Epoch: 4, train_accuracy: 1.000, test_accuracy: 0.979


KeyboardInterrupt: 

위 내용을 class로 묶어서 다시 표현해보겠다.

In [24]:
tf.reset_default_graph()

# hyperparameter를 지정해준다.
learning_rate = 0.001
num_epochs = 20
batch_size = 100
num_units = 500
num_classes = 10
num_train = len(X_train)
num_iterations = num_train // batch_size

In [31]:
class hello():
    def __init__(self, a, b, c):
        self.a = a
        self.b = b
        self.c = c
    
    def add_placeholder(self):
        self.x = self.a + self.b

In [32]:
hi = hello(1, 2, 3)

In [34]:
hi.add_placeholder()

In [None]:
hello(1,2,3)

In [31]:
class Model(object):
    def __init__(self, num_units, num_classes, 
                 learning_rate, num_epochs, batch_size):   
        self.num_units = num_units
        self.num_classes = num_classes
        self.learning_rate = learning_rate
        self.num_epochs = num_epochs
        self.batch_size = batch_size
        self.build()
        
    # 입력 데이터를 지정해준다. 
    def add_placeholders(self):
        self.X = tf.placeholder(tf.float32, [None, 784])
        self.y = tf.placeholder(tf.float32, [None, 10])

    # 모델을 설계해서 logits를 구하자.
    def build_neural_net(self):
        fc1 = tf.layers.dense(self.X, units=self.num_units, activation=tf.nn.relu)
        self.logits = tf.layers.dense(fc1, units=self.num_classes)
        self.pred = tf.identity(self.logits, 'prediction')
            
    # loss를 구하자.
    def build_loss(self):
        self.loss = tf.reduce_mean(
            tf.nn.softmax_cross_entropy_with_logits(labels=self.y, logits=self.logits))

    # train_op를 만들자.
    def build_train_op(self):
        optimizer = tf.train.GradientDescentOptimizer(self.learning_rate)
        self.train_op = optimizer.minimize(self.loss)

    # prediction 값을 구하자. 
    def build_accuracy(self):
        correction = tf.equal(tf.argmax(self.y, axis=1), tf.argmax(self.pred, axis=1))
        self.accuracy = tf.reduce_mean(tf.cast(correction, tf.float32))
    
    # 모델을 build 한다.
    def build(self):
        self.add_placeholders()
        self.build_neural_net()
        self.build_loss()
        self.build_train_op()
        self.build_accuracy()

In [32]:
# 모델을 불러오자. 훨씬 간단해졌다. 보기에도, 쓰기에도
neuralnet = Model(
    num_units=num_units,
    num_classes=num_classes,
    learning_rate=learning_rate,
    num_epochs=num_epochs,
    batch_size=batch_size)

In [34]:
# 학습에 필요한 부분을 지정해주자
train_op = neuralnet.train_op
loss = neuralnet.loss
accuracy = neuralnet.accuracy
X = neuralnet.X
y = neuralnet.y

# session을 실행시킨다. 
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# epoch수 만큼 iteration을 돌리자.
for epoch in range(num_epochs):
    # batch generator를 생성하자. 
    batch_generator = generator(X_train, y_train, batch_size)     
    for i, batch in enumerate(batch_generator):
        batch_X, batch_y = batch
        _, train_loss, train_accuracy = sess.run([train_op, loss, accuracy], 
                                                 feed_dict={X: batch_X, y: batch_y})
        
    test_loss, test_accuracy = sess.run([loss, accuracy],
                                        feed_dict={X: X_test, y: y_test})
    print('Epoch: {0}, train_accuracy: {1:.3f}, test_accuracy: {2:.3f}'\
          .format(epoch, train_accuracy, test_accuracy))

Epoch: 0, train_accuracy: 0.820, test_accuracy: 0.804
Epoch: 1, train_accuracy: 0.820, test_accuracy: 0.862
Epoch: 2, train_accuracy: 0.860, test_accuracy: 0.881
Epoch: 3, train_accuracy: 0.900, test_accuracy: 0.890
Epoch: 4, train_accuracy: 0.900, test_accuracy: 0.898
Epoch: 5, train_accuracy: 0.860, test_accuracy: 0.903
Epoch: 6, train_accuracy: 0.910, test_accuracy: 0.907
Epoch: 7, train_accuracy: 0.930, test_accuracy: 0.911
Epoch: 8, train_accuracy: 0.890, test_accuracy: 0.912
Epoch: 9, train_accuracy: 0.900, test_accuracy: 0.915
Epoch: 10, train_accuracy: 0.890, test_accuracy: 0.917
Epoch: 11, train_accuracy: 0.930, test_accuracy: 0.919
Epoch: 12, train_accuracy: 0.930, test_accuracy: 0.921
Epoch: 13, train_accuracy: 0.910, test_accuracy: 0.923
Epoch: 14, train_accuracy: 0.920, test_accuracy: 0.925
Epoch: 15, train_accuracy: 0.930, test_accuracy: 0.926
Epoch: 16, train_accuracy: 0.910, test_accuracy: 0.928
Epoch: 17, train_accuracy: 0.920, test_accuracy: 0.928
Epoch: 18, train_acc

이 외에도 더 개선할 부분이 많다. 
1. parameter들도 한 데 모아서 정리해줄 필요가 있다.
2. class 내부적으로 밖에서 꺼내서 사용하지 않을 것 같은 매서드들은 합치고 사용할 것 같은 매서드들은 인자를 받아서 우리가 새로운 데이터를 입력해서 ***해당 부분만 실행되게*** 만들어주자. (예를 들면 검증을 위해 현재 class에서 predict라는 매서드를 만들어서 새로운 데이터를 받아서 예측 값을 얻을 필요가 있다.)
3. train, feed data에 관한 부분도 정리할 수 있다.
4. 1~3이 대충 완성되었다고 하면 pycharm으로 script 별로 나눠서 정리할 수 있다.!