## Basic MNIST 

- dataset download
http://yann.lecun.com/exdb/mnist/

In [3]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("./samples/MNIST_data/", one_hot=True)

Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Extracting ./samples/MNIST_data/train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Extracting ./samples/MNIST_data/train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting ./samples/MNIST_data/t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting ./samples/MNIST_data/t10k-labels-idx1-ubyte.gz


다운로드한 데이터는 
1. 55000개의 학습 데이터 - mnist.train
2. 10000개의 테스트 데이터 - mnist.text
3. 5000개의 검증 데이터 - mnist.validation

이렇게 나눠진 것은 굉장히 중요!

학습하지 않은 별도의 데이터를 이용해서 학습한 결과가 실제로 일반적으로 적용되는지 검증하는 것이 
### 기계 학습의 핵심!

모든 MNIS 데이터 포인트 들은 두 부분으로 되어 있음. 
1. 손으로 쓴 숫자 이미지 - "xs"
2. 그에 해당하는 라벨 - "ys"

예를들어)
- 학습 세트의 이미지는 mnist.train.images
- 학습 세트의 라벨은 mnist.train.labels

각 이미지는 가로, 세로 각 28픽셀.
이걸 숫자로 구성된 큰 행렬로 취급 가능

<img src="https://resources.codeonweb.com/bucket/cached/d4/e5/d4e5709ebb4ba940126de44c76ca71b0.png" />

우리는 이 행렬을 28X28 = 784개의 숫자를 갖는 벡터로 단순화할 수 있음.
우리가 이미지들에 모두 동일한 방법을 적용하는 한, 어떻게 행렬을 단순화하는지는 중요하지 않음.
이 관점에서 보면 MNIST 이미지들은 그저 784차원 벡터 공간 안에서 아주 풍부한 구조를 지닌 점들일 뿐임.
(주의 : 컴퓨터 자원이 많이 필요한 시각화임.)

<font color="blue">
데이터를 단순화하는 과정은 이미지의 2차원 구조를 버린다.
이게 안좋을까? 
글쎼... 최고의 컴퓨터 비전 방법들은 이 구조도 전부 이용하고 있고, 
우리도 이후의 예제에서 그렇게 할 것임.
그러나, 우리가 여기서 이용할 간단한 방법인 소프트맥스 회귀에서는 2차원 구조를 사용하지 않음. 
</font>

결과로 mnist.train.images 는 [55000, 784] 형태의 텐서(n차원 행렬)을 얻었음.

첫 번째 차원 인덱스는 이미지에, 
두 번째 차원 인덱스는 각 이미지의 픽셀에 대응됨.

텐서의 각 구성 요소들은 특정 이미지 안의 특정한 픽셀의 진하기를 0~1 사이의 값으로 나타냄.

<img src="https://resources.codeonweb.com/bucket/cached/01/44/01442103dfbc7159abd9382d832fb07e.png" />


MNIST 안에서 대응되는 라벨들은 주어진 각 이미지가 어떤 숫자를 나타내는가를 의미하는 0~9 사이의 숫자.

이 연습의 목적으로, 우리는 우리 라벨들을 "one-hot vector"로 사용할 것.

이 경우 n번째 숫자는 n번째 차원이 1인 벡터로 표시됨.

예를 들어) 3은 [0,0,0,1,0,0,0,0,0,0]로 표시.
따라서, mnist.train.labels.sms [55000, 10] 행렬이 됨.

<img src="https://resources.codeonweb.com/bucket/cached/29/32/2932868078c91f45f92b2eefa005ff4a.png" />

## Softmax Regression

우리는 MNIST의 모든 이미지가 0~9까지의 숫자인 것을 알고 있다.
우리의 목표는 학습 모델이 이미지를 보았을 때 각 숫자로 판단할 확률을 얻고자 하는 것이다.

이 경우는 소프트맥스 회귀가 자연스럽고 간단한 모델인 고전적인 경우이다. 
만약 어떤 대상이 여러 다양한 것들 중 하나일 확률을 계산하려면 소프트맥스가 가장 적당하다. 
심지어 나중에 우리가 훨씬 더 정교한 모델들을 배웠을 떄에도 마지막 단계는 소프트맥스 레이어일 것이다.

### 소프트맥스 회귀의 두 단계
1. 우리 입력이 특정 클래스에 해당되는지에 대한 증거를 더하고
2. 그 다음 증거를 확률로 변환.

주어진 이미지가 특정한 클래스에 들어가는지의 증거를 모아 계산하기 위해 픽셀 농도의 가중합을 사용.
특정 클래스 안의 이미지들의 픽셀들에 비해 
픽셀 농도가 높을 경우 가주치는 음수이고, 
그렇지 않을 경우 가중치는 양수.

아래의 다이어그램은 세가지 클래스 각각에 대해 학습한 모델의 가중치를 보여준다. 

빨간색은 음수 가중치 / 파란색은 양수 가중치

<img src="https://resources.codeonweb.com/bucket/cached/9b/79/9b792345c0394ce51d9b08b66287f5fd.png" />

이제 편향(bias)이라고 불르는 추가적인 증거를 더함.
기본적으로, 우리는 몇몇 경우들은 입력들에 대해 더 자유롭다고 말할수 있게 하고 싶다. 
결과적으로 주어진 입력 x에 대한 클래스 i의 증거는

<img src="images/evidence.png" />

Wi는 가중치, bi는 클래스 i에 대한 편향, j는 입력한 이미지 x의 픽셀들에 따른 합을 구하기 위한 인덱스.
이제 증거 항목들을 "softmax"함수를 이용해 예측 확률로 변환함.

<img src="images/softmax.png" />

여기서 소프트맥스가 우리가 제공한 선형 함수의 출력 결과를 원하는 형태로 만들기 위해
"활성화"나 "링크" 함수의 형태로 적용됨.

이 경우, 10가지 경우에 대한 확률 분포이다. 
이것의 증거 항목들을 각 클래스에 대응하는 확률로 변환하는 과정으로 생각해도 됨. 
이 과정은 다음과 같이 정의됨.

<img src="images/normalize.png" />

이 식을 전개하면 다음과 같은 결과를 얻음. 

<img src="images/normalize_open.png" />

그러나, 종종 소프트맥스의 입력을 지수화하고 정규화하는 첫 번째 방법으로 생각하는 것이 훨씬 도움이 된다. 
지수화는 증거에 하나가 더해질 경우 가중치를 곱으로 증가시키는 의미가 된다. 

반대로 말하면, 증거에서 하나가 줄어들면 가설의 가중치가 원래 가중치의 분수비로 줄어든다는 의미가 된다. 
어떤 가설도 0이나 음수의 가중치를 가질 수 없다. 

그런 후 소프트맥스는 이러한 가중치를 정규화해서, 모두 더하면 1이 되는 확률 분포의 형태로 만든다. 
(소프트맥스 함수에 대한 더 많은 직관을 얻고 싶다면, 시각화가 있는 마이클 닐센의 책의 챕터를 참고 바람.)

소프트맥스 회귀를 아래와 같이 그려볼 수 있음. 
(훨씬 많은 x가 있다는 것만 제외하면) 각각의 출력마다, 
우리는 가중치의 합을 계산하고, 편향을 더하고, 소프트 맥스를 적용한다.

<img src="https://resources.codeonweb.com/bucket/cached/3d/eb/3debe13595e70edb78dfe62fe562688a.png" />

식 형태로 쓰면 :

<img src="https://resources.codeonweb.com/bucket/cached/c4/fe/c4febfa77b4a0c19e81e41eb6d989800.png" />

우리는 이 과정을 행렬곱과 벡터 합으로 바꾸는 식으로 "벡터화" 할 수 있다. 
벡터화는 계산 효율을 위해서 도움이 된다. 

<img src="https://resources.codeonweb.com/bucket/cached/fa/99/fa991ee0070b1abad576b2edc0aaa54f.png" />

더 간단하게는 그냥 이렇게 쓸 수 있음.

<img src="images/softmax_final.png" />



## 구현하기

In [64]:
import tensorflow as tf
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np

In [65]:
x = tf.placeholder(tf.float32, [None, 784])

x틑 특별한 값이 아니라 수식기호.

우리는 MNIST 이미지들의 어떤 숫자들이든 입력할 수 있기를 원하는데, 각 이미지들은 784차원의 벡터로 단조화 되어 있음. 

우리는 이걸 [None, 784] 형태의 부동소수점으로 이루어진 2차원 텐서로 표현함. 
(None은 해당 값이 어떤 길이도 될 수 있음을 의미)

우리는 가중치와 편향이 필요!
TensorFlow의 variable변수를 사용
이 것은 상호작용하는 작업 그래프들간에 유지되는 변경 가능한 텐서 / 꼐산 과정에서 사용되거나 변경될 수도 있음.

In [66]:
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

In [67]:
y = tf.nn.softmax(tf.matmul(x, W) + b)

## 학습시키기

모델을 학습시키기 위해서, 우선 모델에게 무엇이 좋은지를 정의하는 것이 필요함. 
기계학습에서는 일반적으로 모델에게 있어서 무엇이 나쁜지 정의하고 (비용(cost) / 손실(loss)) 나쁜정도를 최소화 하려고 시도. (두가지는 동일하다)

아주 일반적이고 굉장히 괜찮은 비용 함수는 "교차 엔트로피(cross-entropy)"이다. 
놀랍게도 교차 엔트로피는 정보 이론에서 정보 압축 코드에 대한 생각에서 출발했으나,
도박부터 기계학습까지 아주 다양한 분야들에서 중요한 아이디어가 됐음.

아래와 같이 정의됨 

<img src="images/cross-entropy.png" />

y는 우리가 예측한 확률 분포, y'는 실제 분포 (우리가 입력할 one-hot벡터)
대략적인 관점에서 보면, 교차 엔트로피는 우리 예측이 참값을 표현하는데 얼마나 비효율적인지를 측정함. 

교차 엔트로피 구현을 위해 우선적으로 정답을 입력하기 위한 새 placeholder를 추가 해야함


In [68]:
y_ = tf.placeholder(tf.float32, [None, 10])

In [69]:
cross_entropy = -tf.reduce_sum(y_ * tf.log(y))

첫 번쨰로, tf.log는 y의 원소의 로그값을 계산.

그 다음 y_의 각 원소들에 대해 tf.log(y) 를 곱함. 

마지막으로, tf.reduce_sum은 텐서의 모든 원소를 더함.
- 미니배치 안의 모든 이미지들에 걸쳐 합을 구할 뿐 아니라, 클래스에 대해 수행됨. 
- 여기서는 교차 엔트로피를 전체 미니배치에 대해 계산하고 있음. 

알아둘 것은 이 값이 단지 한 번의 예측에 대한 참값의 교차 엔트로피값이 아니라, 

우리가 본 모든 이미지들에 대한 교차 엔트로피의 합이라는 점이다. 

이 예제에서는 각 배치마다 100개의 이미지들이 있다. 
: 우리가 100개의 데이터 포인트들에 대해 얼마나 잘 동작하는지 보는 것은 하나의 데이터 포인트에 대한 것보다
훨씬 좋은 기술 방법임.

우리 모델이 무엇을 해야 하는 것을 안다면, TensorFlow에게 가르치는 것은 정말 쉽다. 

TensorFlow는 당신 계산 과정의 전체 그래프를 알고 있기 때문에, 
자동적으로 역전파(backpropagation) 알고리즘을 이요하여 비용 최소화에 어떤 변수가 얼마나 영향을 주는지를 효율적으로 계산 한다. 

그리고 우리가 선택한 최적화 알고리즘을 적용하여 변수들을 수정하고 비용을 최소화 할 수 있다. 

In [70]:
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

In [71]:
init = tf.initialize_all_variables()

In [72]:
sess = tf.Session()
sess.run(init)

In [73]:
for i in range(1000) :
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict={x : batch_xs, y_ : batch_ys})

각 반복 단계마다, 학습 세트로부터 100개의 무작위 데이터들의 일괄 처리(batch)들을 가져온다. 
placeholders 를 대체하기 위한 일괄 처리 데이터에 train_step피딩을 실행한다. 

무작위 데이터의 작은 일괄처리를 이용하는 방법을 확률적 교육(Stochastic training)라고 한다. 
이 경우에는 확률적 경사 하강법 이디ㅏ. 
이상적으로 무엇을 해야 할지에 대해 더 나은 직관을 줄 수 있도록 학습의 모든 단계에 모든 데이터를 사용하고 싶지만
그 과정은 계산의 비용이 많이 든다. 

그래서, 그 대신에 우리는 각 시간마다 다른 서브셋을 사용하는데 
이렇게 하면 계산 비용이 적게 들어가면서 비슷한 효과를 볼 수 있다. 

## 모델 평가하기

우선, 맞는 라벨을 예측했는지를 확인해보자.
tf.argmax는 특정한 축을 따라 가장 큰 원소의 색인을 알려주는 엄청나게 유용한 함수이다. 
예를 들어, tf.argmax(y, 1)는 진짜 라벨이 tf.argmax(y_, 1)일때 우리 모델이 각 입력에 대해 가장 정확하다고 생각하는 라벨이다. 

우리는 tf.equal을 이용해 예측이 실제와 맞았는지 확인 할 수 있다.

In [74]:
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))

In [75]:
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

In [79]:
print(sess.run(accuracy, feed_dict={x : mnist.test.images, y_ : mnist.test.labels}))

0.9149


mnist.images와 mnist.labels의 실제 값들을 직접 보고싶다면 아래와 같이 작성한 후 확인한다. 

In [84]:
for i in range(1) :
    batch_x, bathc_y = mnist.test.next_batch(100)
    diff_a = sess.run(tf.argmax(y, 1), feed_dict={x : batch_x})
    diff_b = sess.run(tf.argmax(y_, 1), feed_dict={y_ : bathc_y})
    
    print "diff_a = " + str(diff_a)
    print "diff_b = " + str(diff_b)

diff_a = [4 0 0 8 3 2 9 1 0 8 7 4 4 7 9 6 9 0 9 8 0 9 6 0 6 5 5 9 8 3 3 9 3 3 2 7 8
 0 1 8 1 7 0 6 5 4 3 3 0 9 6 3 8 0 9 9 6 8 6 8 5 9 8 6 0 2 9 0 2 8 3 1 9 7
 5 8 0 8 4 6 8 6 7 9 9 6 9 8 2 2 9 2 7 3 5 9 1 8 0 2]
diff_b = [4 0 0 2 3 2 7 7 0 8 7 4 4 7 9 6 9 0 9 8 0 4 6 0 6 3 5 4 8 3 3 9 3 3 3 7 8
 0 8 2 1 7 0 6 5 4 3 8 0 9 6 3 8 0 9 9 6 8 6 8 5 7 8 6 0 2 4 0 2 2 3 1 9 7
 5 1 0 8 4 6 2 6 7 9 3 2 9 8 2 2 9 2 7 3 5 9 1 8 0 2]


In [92]:
for i in range(2) :
    result_boolean = []
    batch_x, batch_y = mnist.test.next_batch(10)
    diff_a = sess.run(tf.argmax(y, 1), feed_dict={x : batch_x})
    diff_b = sess.run(tf.argmax(y_, 1), feed_dict={y_ : batch_y})
    print "Sample Output a : " + str(diff_a)
    print "Sample Output b : " + str(diff_b)
    
    for k in range(9):
        if diff_a[k] == diff_b[k] :
            result_boolean.append("T")
        else :
            result_boolean.append("F")
        print "compare: " + str(result_boolean)

        plt.figure(i)
        coordi = [191, 192, 193, 194, 195, 196, 197, 198, 199]

        for index, image in enumerate(batch_x) :
            image.shape(28, 28)
            plt.subplot(coordi[index])
            plt.imshow(image)

        print "sample input : "

Sample Output a : [7 9 0 2 0 3 3 7 4 9]
Sample Output b : [7 9 0 2 0 3 3 7 6 9]
compare: ['T']


TypeError: 'tuple' object is not callable

<matplotlib.figure.Figure at 0x12114ef50>

In [49]:
for i in range(2):
    result_boolean = []
    batch_x, batch_y = mnist.test.next_batch(9)
    diff_a = sess.run(tf.argmax(y,1), feed_dict={x:batch_x})
    diff_b = sess.run(tf.argmax(y_,1), feed_dict={y_:batch_y})
    print "sample output : " + str(diff_a)

    for k in range(9):
        if diff_a[k] == diff_b[k]:
            result_boolean.append("T")
        else:
            result_boolean.append("F")
    print "compare : " + str(result_boolean)

    plt.figure(i)
    coordi = [191, 192, 193, 194, 195, 196, 197, 198, 199]

    for index, image in enumerate(batch_x):
        image.shape(28,28)
        plt.subplot(coordi[index])
        plt.imshow(image)
print "sample input : "

sample output : [3 4 9 6 6 5 4 0 7]
compare : ['T', 'T', 'T', 'T', 'T', 'T', 'T', 'T', 'T']


TypeError: 'tuple' object is not callable

<matplotlib.figure.Figure at 0x11e823f90>