# 파이썬으로 배우는 기계학습
# Machine Learning with Python

# Tensorflow

## 학습목표

- 신경망 구현을 위한 패키지
- Tensorflow 란?
- Tensorflow 환경 구축
- Keras 란?
- Keras 환경 구축
- Keras 를 이용한 MNIST 데이터 분석

## 1. 신경망 구현을 위한 패키지

지금까지 우리는 인공신경망이 어떤 원리로 동작하는지에 대해 살펴보았고, 각 단계마다 직접 그것을 구현했습니다. 지난 강의에서는 MNIST 데이터셋에 적용을 해보았습니다. 혹시 여러분이 코딩하는데 어려움이 있었을지도 모르겠습니다. 인공 신경망의 은닉층이 많아지거나, 데이터의 특성에 따라 신경망에 새로운 구조를 추가시켜야 할 경우도 있습니다. 이러할 때마다 우리가 앞서 구현했던 NeuralNetwork 클래스에 새로운 기능을 추가하기에는 많은 시간과 노력이 따를 것입니다.

다행히도, 우리는 신경망을 사용할때마다 이와같이 부가적인 코딩을 하지 않아도 됩니다. 이러한 목적으로 개발된 패키지가 많이 있으며, 그 중 유명한 몇가지를 소개한다면 다음과 같습니다:

- [Tensorflow](https://www.tensorflow.org/)
- [Keras](https://keras.io/)
- [Pytorch](https://pytorch.org/)
- [Caffe](http://caffe.berkeleyvision.org/)
- [Theano](http://deeplearning.net/software/theano/)
- [Scikit-learn](http://scikit-learn.org/)

이번 강의에서는 Tensorflow 를 소개하겠습니다. Tensorflow 를 사용한다면 간단하게 신경망을 구성할 수 있습니다. 데이터를 읽어드린 다음, 신경망을 구성하고 학습시켜 결과를 예측하는 것을 보여드리겠습니다. 

## 2. Tensorflow 란?

<center><img src="https://github.com/idebtor/KMOOC-ML/blob/master/ipynb/images/ch13/tensorflow.png?raw=true" width="500">
<center>그림 1: Tensorflow [출처](https://tensorflow.org/)</center>

Tensorflow는 구글이 오픈 소스로 개발하여, 이 분야의 주류가 되어가고 있습니다. 핵심 기술은 C++로 작성되었지만,  프론트 엔드 부분은 파이썬으로 작성되어서, 파이썬으로 쉽게 접근이 가능합니다. 
Tensorflow를 이용해서 이미지, 음성, 비디오 등 다양하고 많은 자료를 기계학습 할 수 있으며, GPU(Graphics Processing Unit)와 같은 하드웨어를 사용합니다. <br>

참고로, 수학에서 0차원의 수를 스칼라$^{scalar}$, 1차원 배열을 벡터$^{vector}$, 2차원 배열을 행렬$^{matrix}$라고 부릅니다.  이와 같이 스칼라, 벡터와 행렬을 일반화한 것을 텐서$^{tensor}$라고 합니다. 
TensorBoard 라는 훌륭한 시각화 툴을 제공하고 있어 학습 과정을 모니터링 할 수 있습니다.

## 3. Tensorflow 환경 구축

Tensorflow 를 사용하기 위해서는 Python 3.6 이상 버전이 설치되어야 합니다. 하지만, 우리는 Python이 포함된 아나콘다를 이용해서 Tensorflow를 설치할 것이기 때문에, Python을 따로 설치하지는 않아도 됩니다.

### 3.1 Anaconda 설치

Anaconda3 를 설치하세요. 다음 링크를 통해 설치하시면 됩니다: [링크](https://www.continuum.io/downloads)

### 3.2 Tensorflow 설치

#### OS X or Linux

아래의 명령어를 사용해서 Tensorflow 를 설치하세요.

```
conda create -n tensorflow python=3.6
source activate tensorflow
conda install pandas matplotlib jupyter notebook scipy scikit-learn
pip install tensorflow
```

#### Windows

cmd 혹은 Anaconda 쉘에서 아래의 명령어를 사용해서 Tensorflow 를 설치하세요.

```
conda create -n tensorflow python=3.6
activate tensorflow
conda install pandas matplotlib jupyter notebook scipy scikit-learn
pip install tensorflow
```

Tensorflow 가 정상적으로 설치되었는지 확인하기 위해 아래의 코드를 실행해보세요. tensorflow 라이브러리를 import 할 때에 문제가 생기지 않는다면, 정상적으로 설치된 것입니다.

In [1]:
import tensorflow as tf

위에서 설치중에 어려움이 있다면, 아래 링크를 참고하도록 합니다.

- [Anaconda 설치](https://www.continuum.io/downloads)
- [tensorflow 설치](https://www.tensorflow.org/install/)

## 4. Keras 란?
<center><img src="https://github.com/idebtor/KMOOC-ML/blob/master/ipynb/images/ch13/keras.PNG?raw=true" width="500">
<center>그림 2: Keras [출처](https://keras.io/)</center>

Keras 는 Python 기반으로 쓰여졌으며 TensorFlow 혹은 CNTK, Theano 위에서 실행되는 신경망 API입니다. 문법을 간단하게 그리고 직관적으로 만들어 쉽게 구현할 수 있도록 만들어졌습니다. Keras 를 사용해서 Convolutional Neural Network 와 Recurrent Neural Network 도 구현할 수 있으며 두가지 딥러닝 모델을 섞어서 구현하는 것도 가능합니다. 또한 하나의 코드로 CPU 와 GPU 에서 모두 동작합니다.

## 5. Keras 환경 구축

앞에서 Tensorflow를 설치했다면, Keras를 사용할 수 있습니다. 다음과 같이 keras를 사용할 수 있습니다.

```python
import tensorflow.keras as keras
```

## 6. Keras 를 이용한 MNIST 데이터 분석
이제 Keras를 사용할 환경이 구축되었습니다. Keras를 이용해서 MNIST 데이터를 분석해보도록 합시다.

### 6.1 MNIST 데이터 읽어오기

Keras 에는 datasets 라는 모듈이 있으며, 사람들이 많이 사용하는 데이터를 쉽게 사용할 수 있도록 만들어져 있습니다. MNIST 데이터를 읽어오기 위해서 아래와 같이 두 줄이면 충분합니다. keras.datasets 에 있는 mnist 클래스에서 load_data 메소드를 호출하면 MNIST 데이터를 임의로 섞어서 학습시킬 때 사용할 데이터와 테스트할 때 사용할 데이터로 나눠줍니다.

In [2]:
from tensorflow.keras.datasets import mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()

나뉘어진 데이터 세트의 형상은 아래와 같습니다. 학습할 데이터에는 60,000개의 입력값이, 테스트할 `X` 데이터에는 10,000개의 입력값이 저장되어있는 것을 볼 수 있습니다. 각각의 입력값은 28 x 28 의 크기로 0 ~ 255 범위에 있는 숫자가 저장됩니다. `y` 에는 해당 입력값의 실제 숫자 0 ~ 9가 저장됩니다. 

In [3]:
print("X_train.shape: {}\ny_train.shape: {}\nX_test.shape: {}\ny_test.shape:{}\n".
      format(X_train.shape, y_train.shape, X_test.shape, y_test.shape))
print("X_train: minimum value={}, maximum value={}".format(X_train.min(), X_train.max()))
print("X_test: minimum value={}, maximum value={}".format(X_test.min(), X_test.max()))
print("y_train: minimum value={}, maximum value={}".format(y_train.min(), y_train.max()))
print("y_test: minimum value={}, maximum value={}".format(y_test.min(), y_test.max()))

X_train.shape: (60000, 28, 28)
y_train.shape: (60000,)
X_test.shape: (10000, 28, 28)
y_test.shape:(10000,)

X_train: minimum value=0, maximum value=255
X_test: minimum value=0, maximum value=255
y_train: minimum value=0, maximum value=9
y_test: minimum value=0, maximum value=9


### 6.2 모든 feature의 값을 0 ~ 1 사이로

기계학습을 하게되면 일반적으로 모든 feature를 0 에서 1 사이의 값으로 맞추어서 모델을 학습하곤 합니다. 여러 이유가 있겠지만, (1) 각 입력값의 특정 feature 가 큰 범위로 변할 경우 다른 feature의 영향력이 모델링 하는 단계에서 무시될 수 있기도 하며 (2) 비용함수를 계산하는 과정에서 값이 너무 크게되는 경우도 발생합니다.

MNIST 데이터는 각 feature들이 왼쪽 위에서부터 오른쪽 아래까지의 pixel 값들이기 때문에, 모든 feature들의 최소값은 0이고 최대값은 255 입니다. 따라서 모든 feature들의 값을 255로 나눠주겠습니다.

In [4]:
X_train = X_train.astype('float32')/255
X_test = X_test.astype('float32')/255

그 다음 정수로 저장된 `y` 값을 one-hot 으로 바꿔주겠습니다. `keras.utils` 에 있는 `np_utils` 메소드를 사용해서 쉽게 해결할 수 있습니다. 아래의 간단한 예제는 정수로 저장되어있는 `one_to_ten` 넘파이 어레이를 one-hot 으로 바꿔줍니다.

In [5]:
from tensorflow.keras import utils
import numpy as np

one_to_ten = np.array([0,1,2,3,4,5,6,7,8,9])
one_to_ten = utils.to_categorical(one_to_ten, 10)
print(one_to_ten)

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


### 6.3 one-hot 인코딩
이제 `y_train` 과 `y_test` 를 one-hot 인코딩 하겠습니다. `y_train` 의 처음 5개 레이블을 `[5 0 4 1 9]` 입니다. one-hot 인코딩이 정말 간단하죠?

In [6]:
print("previous five labels in y_train: {}".format(y_train[:5]))

y_train = utils.to_categorical(y_train, 10)
y_test = utils.to_categorical(y_test, 10)

print('One-hot encoded labels of y_train: \n{}'.format(y_train[:5]))

previous five labels in y_train: [5 0 4 1 9]
One-hot encoded labels of y_train: 
[[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


### 6.4 신경망 구축

이제 신경망을 구축합니다. 가장 간단한 종류의 신경망힌 `Sequential` 을 구축하겠습니다. `Sequential` 은 우리가 지금까지 배운 내용과 같이 단계적으로 층을 쌓아가는 것입니다. `Sequential()` 로 모델을 정의해주고, 층을 더할 때는 `add` 메소드를 사용하면 됩니다. 처음 입력값의 feature들이 몇개가 되는지 `model.add(Flatten(input_shape=X_train.shape[1:]))` 를 통해 알려주며, `Dense` 층 즉, 완전이 연결된 신경망을 더해줍니다. 1개의 은닉층에 총 512개의 뉴런을 사용하고 활성화함수로트 `relu` 를 사용하겠습니다.

Dropout 은 처음 보는 개념일 수도 있는데, 간단히 설명하자면 특정 연결망이 너무 강해지는것을 방지하기 위한 용도입니다. 매번 학습을 시킬 때마다 임의로 20% 정도씩의 신경망을 학습하지 않도록 하겠습니다.

마지막 층은 10개의 뉴런을 사용하며, 각각의 뉴런은 0부터 9까지의 숫자를 예측하는 역할을 합니다. 활성화함수로 `softmax` 를 사용하여서, 특정 입력값이 들어왔을 때, 마지막 층의 뉴런이 출력해내는 값의 합이 1이 되게끔 합니다. 즉, 해당 입력값에 대해 그것이 0일 확률 부터 9일 확률까지를 보여주는 것으로 해석할 수도 있습니다.

`model.summary()` 를 해주면, 우리가 구축한 모델을 요약해서 보여줍니다.

In [7]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Flatten

# define the model
model = Sequential()
model.add(Flatten(input_shape=X_train.shape[1:]))
model.add(Dense(512, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(10, activation='softmax'))

# summarize the model
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense (Dense)                (None, 512)               401920    
_________________________________________________________________
dropout (Dropout)            (None, 512)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 10)                5130      
Total params: 407,050
Trainable params: 407,050
Non-trainable params: 0
_________________________________________________________________


### 6.5 컴파일
자, 이제 신경망을 구축했으니 모델을 컴파일하면 되겠군요. 이 단계에서는 어떤 비용함수를 쓸 것인지 (loss), 어떠한 최적화기를 사용할 것인지 (optimizer), 무엇을 기준으로 학습 할 것인지 (metrics) 를 설정해줍니다. 아래의 조합은 분류를 할 때에 일반적으로 사용합니다.

In [8]:
model.compile(loss='categorical_crossentropy', optimizer='rmsprop', 
              metrics=['accuracy'])

### 6.6 모델 학습
이제 모델을 학습시키는 단계입니다. `keras.callbacks` 에 있는 `ModelCheckpoint` 메소드를 사용하면 학습 결과가 좋아질 때 마다 그때의 가중치를 지정한 `filepath` 에 저장할 수 있습니다.

`fit` 메소드를 사용하면 학습을 시작합니다. training 데이터를 학습할 때 사용 할 데이터와 검증 집합 (validation set) 으로 나누어서 각 `epoch` 마다 검증 집합의 loss 가 증가한다면 학습이 되고있다고 볼 수 있습니다. 그리고 각 `epoch` 마다 한번에 몇 묶음의 입력값을 사용하여 동시에 가중치를 변화시킬 것인지에 해당하는 `batch_size` 를 지정할 수 있습니다.

In [9]:
from tensorflow.keras.callbacks import ModelCheckpoint   

# train the model
checkpointer = ModelCheckpoint(filepath='mnist.model.best.hdf5', 
                               verbose=1, save_best_only=True)
model.fit(X_train, y_train, batch_size=128, epochs=10,
          validation_split=0.2, callbacks=[checkpointer],
          verbose=1, shuffle=True)

Epoch 1/10
Epoch 00001: val_loss improved from inf to 0.14500, saving model to mnist.model.best.hdf5
Epoch 2/10
Epoch 00002: val_loss improved from 0.14500 to 0.10910, saving model to mnist.model.best.hdf5
Epoch 3/10
Epoch 00003: val_loss improved from 0.10910 to 0.09293, saving model to mnist.model.best.hdf5
Epoch 4/10
Epoch 00004: val_loss improved from 0.09293 to 0.08559, saving model to mnist.model.best.hdf5
Epoch 5/10
Epoch 00005: val_loss improved from 0.08559 to 0.08358, saving model to mnist.model.best.hdf5
Epoch 6/10
Epoch 00006: val_loss improved from 0.08358 to 0.08101, saving model to mnist.model.best.hdf5
Epoch 7/10
Epoch 00007: val_loss did not improve from 0.08101
Epoch 8/10
Epoch 00008: val_loss improved from 0.08101 to 0.07743, saving model to mnist.model.best.hdf5
Epoch 9/10
Epoch 00009: val_loss did not improve from 0.07743
Epoch 10/10
Epoch 00010: val_loss did not improve from 0.07743


<tensorflow.python.keras.callbacks.History at 0x276ec2a46d0>

### 6.7 분류 정확도 측정
검증 집합에서 최고의 성능을 보여주는 모델의 가중치가 `mnist.model.best.hdf5` 에 저장되어 있습니다. 이 가중치를 불러온 후에, 테스트 세트를 예측해봅니다.

`evaluate` 메소드를 사용해서, 테스트 세트에 있는 입력값들의 레이블을 예측합니다. `evaluate` 메소드는 두 가지 인자를 반환하는데, `loss` 값과 `metric` 에 지정한 값입니다. `loss` 는 학습시킬 때 사용한 것이고, `metric` 은 우리가 앞서 지정한 정확도를 의미합니다. 

코드를 실행할 때마다 accuracy 는 차이가 있겠지만 위와 같은 인자들로 신경망을 학습시켰을 때에 98% 전후의 정확도를 보여줍니다. 즉, 0에서 9까지 적혀있는 28 x 28 사이즈의 입력값이 들어왔을 때에, 98% 정확도로 어떤 숫자인지 알아내는 신경망을 학습시킨 것입니다.

In [10]:
model.load_weights('mnist.model.best.hdf5')

loss_and_metrics = model.evaluate(X_test, y_test, verbose=0)
accuracy = 100 * loss_and_metrics[1]

print("Test accuracy: {}%".format(accuracy))

Test accuracy: 98.089998960495%


## 7. Keras를 이용한 CNN 구현

In [11]:
X_train = X_train.reshape(X_train.shape[0], 28, 28, 1)
X_test = X_test.reshape(X_test.shape[0], 28, 28, 1)

CNN을 이용하여 MNIST를 학습하기 위해서는 일반적인 Dense 층을 사용하는 것이 아닌,
Convolutional Layer를 나타내는 Conv2D를 이용해야 합니다. 
코드에서는 Convolutional Layer에서 2 x 2 필터 16개를 사용한다는 뜻입니다. 그 다음으로는 Convolutional Layer의 dimensionality를 줄여주기 위해 MaxPooling을 진행하는 코드입니다. 이제 이 CNN을 모델을 학습시키고, MNIST 데이터를 분류하도록 테스트해봅시다. 테스트까지의 과정은 이미 앞에서 설명드렸으므로, 간단하게 넘어가겠습니다. 

In [12]:
from keras.layers import Conv2D, MaxPooling2D
from keras.layers import GlobalAveragePooling2D
from keras.layers import Dropout, Flatten, Dense
from keras.models import Sequential

# define the model
model = Sequential()
model.add(Conv2D(filters=16, kernel_size=2,
                 padding='valid', activation='relu',
                 input_shape=(28, 28, 1)))
model.add(Dropout(0.2))
model.add(MaxPooling2D(pool_size=2))
model.add(Conv2D(filters=32, kernel_size=2,
                 padding='valid', activation='relu'))
model.add(Dropout(0.2))
model.add(MaxPooling2D(pool_size=2))
model.add(Conv2D(filters=64, kernel_size=2,
                 padding='valid', activation='relu'))
model.add(Dropout(0.2))
model.add(MaxPooling2D(pool_size=2))
model.add(Flatten())
model.add(Dense(10, activation='softmax'))

# summarize the model
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d (Conv2D)              (None, 27, 27, 16)        80        
_________________________________________________________________
dropout_1 (Dropout)          (None, 27, 27, 16)        0         
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 13, 13, 16)        0         
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 12, 12, 32)        2080      
_________________________________________________________________
dropout_2 (Dropout)          (None, 12, 12, 32)        0         
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 6, 6, 32)          0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 5, 5, 64)         

In [13]:
model.compile(
    loss='categorical_crossentropy',
    optimizer='rmsprop',
    metrics=['accuracy'])

In [14]:
from keras.callbacks import ModelCheckpoint

checkpointer = ModelCheckpoint(
                filepath='mnist.model.best.hdf5',
                verbose=1,
                save_best_only=True)
model.fit(X_train, y_train,
          batch_size=128, epochs=10,
          validation_split=0.2,
          callbacks=[checkpointer],
          verbose=1, shuffle=True)

Epoch 1/10
Epoch 00001: val_loss improved from inf to 0.33252, saving model to mnist.model.best.hdf5
Epoch 2/10
Epoch 00002: val_loss improved from 0.33252 to 0.19357, saving model to mnist.model.best.hdf5
Epoch 3/10
Epoch 00003: val_loss improved from 0.19357 to 0.16029, saving model to mnist.model.best.hdf5
Epoch 4/10
Epoch 00004: val_loss improved from 0.16029 to 0.13218, saving model to mnist.model.best.hdf5
Epoch 5/10
Epoch 00005: val_loss improved from 0.13218 to 0.10871, saving model to mnist.model.best.hdf5
Epoch 6/10
Epoch 00006: val_loss improved from 0.10871 to 0.09840, saving model to mnist.model.best.hdf5
Epoch 7/10
Epoch 00007: val_loss improved from 0.09840 to 0.08925, saving model to mnist.model.best.hdf5
Epoch 8/10
Epoch 00008: val_loss improved from 0.08925 to 0.08611, saving model to mnist.model.best.hdf5
Epoch 9/10
Epoch 00009: val_loss improved from 0.08611 to 0.07672, saving model to mnist.model.best.hdf5
Epoch 10/10
Epoch 00010: val_loss improved from 0.07672 to 

<tensorflow.python.keras.callbacks.History at 0x276edc08430>

테스트 결과 98.54%의 정확도가 나오는 것을 볼 수 있습니다. 기존 신경망보다 미묘하지만 조금 더 정확도가 커진 것을 볼 수 있지요.테스트 데이터가 10,000장인 것을 생각했을 때, 0.54%가 증가한 것은 54개의 이미지를 더 정확히 분류했다는 것을 알 수 있습니다.

In [15]:
model.load_weights('mnist.model.best.hdf5')

loss_and_metrics = model.evaluate(X_test, y_test)
accuracy = 100 * loss_and_metrics[1]

print("Test accuracy: {}%".format(accuracy))

Test accuracy: 98.54000210762024%


## 참고자료

- [Tensorflow 공식 홈페이지](https://www.tensorflow.org/versions/r1.0/get_started/mnist/beginners)
- Udacity 강의 'Artificial Intelligence Nanodegree - Convolutional Neural Networks' [aind2-cnn Jupyter Notebook 파일](https://github.com/udacity/aind2-cnn/blob/master/mnist-mlp/mnist_mlp.ipynb)
- Keras Documentation https://keras.io/