# Tensor Flowを用いたロジスティック回帰，MLP実装

# 0.  Tensorflowとは？

Googleが提供する機械学習用のフレームワーク．
機械学習用のフレームワークは他にもたくさん存在するが，Tensorflowは現在世界で最も使用されているフレームワークであると言われている．

pythonによって書くが、内部はC++やcudaによって書かれている．

### 'define and run'という形式をとり、まず計算グラフを定義し、それに対してデータを流すという使い方となっている．

※tensor flowインストールの際は，conda内でpipを使うとcondaのデータ破損原因になるので，$ conda install tensorflow　または，anaconda-navigator->Environmentsより，uninstall項目からtensorflowをinstallするのがよいと思われます．

### 必要なライブラリのインポート

In [64]:
import tensorflow as tf
from __future__ import print_function
import numpy as np
from sklearn.datasets import fetch_mldata
from sklearn.cross_validation import train_test_split

# 1.　計算グラフの構築と実行

計算グラフを構築するためにTensorflow側が用意している型を用いる必要がある.<br>

Tensorflowが用意している種類と使い方は以下のとおり．
1. tf.constant ... ハイパーパラメータなど，実行前から形(shape)の決まった定数に用いる．
2. tf.placeholder ... データの入力など，実行するまでデータのshapeはわからないが変わらないデータを入れるときに用いる(初期化不要)．例えば，データセットの大きさは実行するまでわからない．
3. tf.Variable ... ネットワークの重みなど，学習中に値が変わる最適化対象を入れる(初期化必要)． 

## 1.0　計算グラフの実行方法
計算グラフを構築するだけでは，実際に計算は行われない．<br>
計算を実行して値を評価するためには， TensorflowのSessionを作成する必要がある．<br>
例えば，$x$という値の出力が欲しい時は，その値をSessionのrunメソッドに渡してあげる．<br>
具体的には以下のように書けば良い．
```python
with tf.Session() as sess:
    result = sess.run(x)
```

## 1.1　まずはtf.constant(定数)を用いる

In [65]:
x = tf.constant(1)
y = tf.constant(2)

add_op = tf.add(x, y)
print(x,y)
print(add_op)

Tensor("Const_2:0", shape=(), dtype=int32) Tensor("Const_3:0", shape=(), dtype=int32)
Tensor("Add:0", shape=(), dtype=int32)


ここで表示された結果は定義された計算グラフについての情報で、実際に計算は行われていないことに注意．
- 以下のように計算グラフを実行させて値を確認する．

In [66]:
with tf.Session() as sess:
    print(sess.run(add_op))

3


In [67]:
with tf.Session() as sess:
    x_, y_, add_op_ = sess.run([x, y, add_op])

In [68]:
print('x is ',x_)
print('y is ', y_)
print('x + y = ',add_op_)

x is  1
y is  2
x + y =  3


足し算掛け算は以下のようにも書ける．

In [69]:
x = tf.constant(1)
y = tf.constant(2)

## 足し算掛け算は+,*で書いて良い
add_op = x+y

with tf.Session() as sess:
    x_, y_, add_op_ = sess.run([x, y, add_op])

In [70]:
print('x is ',x_)
print('y is ', y_)
print('x + y = ',add_op_)

x is  1
y is  2
x + y =  3


## 1.2　tf.placeholderを用いる(データを流す用)

placeholderは初期化不要の変数だが、intかfloatか指定する必要がある．
- tf.float32
- tf.int32

評価対象の変数の計算のために必要なデータの入力はsess.run内のfeed_dict引数内で行うことができる．<br>
feed_dictで渡す変数は一つとは限らないので，辞書型で渡す．

In [71]:
data = tf.placeholder(tf.int32)
x = tf.constant(5)
op = data*x

with tf.Session() as sess:
    result1 = sess.run(op, feed_dict={data: 5})
    result2 = sess.run(op, feed_dict={data: 10})

In [72]:
print('5*5=',result1)
print('5*10=',result2)

5*5= 25
5*10= 50


## 1.3　tf.Variableを用いる(変数用)

- 実行前に全てのVariableは初期化する必要がある．
    - sess.run(tf.global_variables_initializer())で一度に初期化できる
- Variableへの代入はtf.assignを用いる

In [73]:
var1 = tf.Variable(0)
const1 = tf.constant(2)

add_op = var1+const1
# Variableへの代入はassignを用いる
var1 = tf.assign(var1, add_op)
print (var1)

Tensor("Assign:0", shape=(), dtype=int32_ref)


In [74]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
# var1が毎回更新されている
    print(sess.run([var1]))
    print(sess.run([var1]))
    print(sess.run([var1]))

[2]
[4]
[6]


# 2，ロジスティック回帰

### 今回はKNNで扱った手書き文字分類を実装する．前回ロジスティック回帰で扱った問題は二値分類であったが，今回は多クラス分類問題となる．その際，活性化関数および誤差関数が変更される点に注意．
### 二値分類→活性化関数：シグモイド関数，目的関数：エントロピー誤差<br>多クラス分類問題→活性化関数：ソフトマックス関数，目的関数：交差エントロピー誤差

### データの準備

In [83]:
# データのロード（比較的時間がかかる）
mnist = fetch_mldata('MNIST original', data_home='./data/')

# data : 画像データ， target : 正解ラベル
X, T = mnist.data, mnist.target

# 画像データは0~255の数値となっているので，0~1の値に変換
X = X / 255.

#　訓練データとテストデータに分ける
X_train, X_test, T_train, T_test = train_test_split(X, T, test_size=0.2)

# データのサイズ
N_train = X_train.shape[0]
N_test = X_test.shape[0]

# ラベルデータをint型に統一し，学習に使いやすいようにone-hot-vectorに変換
T_train = np.eye(10)[T_train.astype("int")]
T_test = np.eye(10)[T_test.astype("int")]

In [84]:
print ('訓練データのサイズは', N_train)
print ('テストデータのサイズは', N_test)
print ('画像データのshapeは', X_train.shape)
print ('ラベルデータのshapeは', T_train.shape)
print ('ラベルデータの数値の例：')
print (T_train[:10])

訓練データのサイズは 56000
テストデータのサイズは 14000
画像データのshapeは (56000, 784)
ラベルデータのshapeは (56000, 10)
ラベルデータの数値の例：
[[ 0.  0.  0.  0.  0.  0.  1.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  1.  0.]
 [ 0.  0.  0.  1.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  1.]
 [ 0.  0.  0.  0.  0.  1.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  1.]
 [ 0.  0.  1.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  1.  0.]
 [ 0.  0.  1.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  1.  0.  0.  0.  0.  0.  0.  0.  0.]]


## one-hot-vectorとは？
たとえば$a$が，0~4の整数のみを含むベクトルだとわかっている時に，各行の数字に該当する列の要素のみを1にし，その他を0にする．
$$
\begin{equation*}
a=
\begin{pmatrix}
3\\
1\\
4\\
2\\
0
\end{pmatrix}\to
a\_onehot = 
\begin{pmatrix}
0, 0, 0, 1, 0\\
0, 1, 0, 0, 0\\
0, 0, 0, 0, 1\\
0, 0, 1, 0, 0\\
1, 0, 0, 0, 0
\end{pmatrix}
\end{equation*}
$$
学習における正解ラベルデータは，one-hot-vectorで表されることが多い．

## ロジスティック回帰クラスの定義

In [85]:
class LogisticRegression:
    def __init__(self, n_in, n_out):
        # n_in : 入力次元数
        # n_out : 出力次元数
        self.W = tf.Variable(tf.zeros([n_in, n_out])) # 重み
        self.b = tf.Variable(tf.zeros(n_out)) # バイアス

    def __call__(self, x):
        ### TODO ###
        y = tf.sigmoid(tf.matmul(x,self.W)+self.b) # Forward Propagation
        ### TODO ###
        return y

## グラフの構築

In [86]:
#グラフの初期化
tf.reset_default_graph()

In [100]:
#必要なパラメータの定義
# Learning rate (学習率)
lr = 0.7
# epoch数 （学習回数）
n_epoch = 25
# ミニバッチ学習における1バッチのデータ数
batchsize = 100

In [106]:
# 入力
# placeholderを用いると，データのサイズがわからないときにとりあえずNoneとおくことができる．
x = tf.placeholder(tf.float32, [None, 784]) # 28*28次元 
t = tf.placeholder(tf.float32, [None, 10]) # 10クラス

In [107]:
# モデルの定義
# 入力次元数：784，　出力次元数：10
model = LogisticRegression(784, 10)

In [108]:
# y : predictionの結果
y = model(x)

In [109]:
# 目的関数:softmax cross entropy
# 入力：labels->正解ラベル， logits：predictionの結果
# 出力：softmax cross entropyで計算された誤差
xentropy = tf.nn.softmax_cross_entropy_with_logits(labels=t, logits=y)
cost = tf.reduce_mean(xentropy)

In [110]:
# SGD(Stochastic Gradient Descent : 確率的勾配降下法)で目的関数を最小化する
optimizer = tf.train.GradientDescentOptimizer(lr).minimize(cost)

In [111]:
# 精度評価
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(t, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

## グラフの実行

In [96]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    
    for epoch in range(n_epoch):
        print ('epoch %d | ' % epoch, end="")

        # Training
        sum_loss = 0
        # 訓練データをシャッフルする
        perm = np.random.permutation(N_train)

        for i in range(0, N_train, batchsize):
            # ミニバッチ分のデータを取ってくる
            X_batch = X_train[perm[i:i+batchsize]]
            t_batch = T_train[perm[i:i+batchsize]]

            _, loss = sess.run([optimizer, cost], feed_dict={x:X_batch, t:t_batch})
            sum_loss += np.mean(loss) * X_batch.shape[0]

        loss = sum_loss / N_train
        print('Train loss %.3f | ' %(loss), end="")

        # Test model
        print ("Accuracy: %.3f"%(accuracy.eval(feed_dict={x: X_test, t: T_test})))

epoch 0 | Train loss 1.685 | Accuracy: 0.876
epoch 1 | Train loss 1.612 | Accuracy: 0.886
epoch 2 | Train loss 1.598 | Accuracy: 0.890
epoch 3 | Train loss 1.590 | Accuracy: 0.893
epoch 4 | Train loss 1.585 | Accuracy: 0.893
epoch 5 | Train loss 1.581 | Accuracy: 0.897
epoch 6 | Train loss 1.578 | Accuracy: 0.897
epoch 7 | Train loss 1.576 | Accuracy: 0.898
epoch 8 | Train loss 1.574 | Accuracy: 0.899
epoch 9 | Train loss 1.572 | Accuracy: 0.901
epoch 10 | Train loss 1.571 | Accuracy: 0.900
epoch 11 | Train loss 1.569 | Accuracy: 0.903
epoch 12 | Train loss 1.568 | Accuracy: 0.903
epoch 13 | Train loss 1.567 | Accuracy: 0.904
epoch 14 | Train loss 1.566 | Accuracy: 0.903
epoch 15 | Train loss 1.565 | Accuracy: 0.903
epoch 16 | Train loss 1.564 | Accuracy: 0.904
epoch 17 | Train loss 1.564 | Accuracy: 0.905
epoch 18 | Train loss 1.563 | Accuracy: 0.905
epoch 19 | Train loss 1.562 | Accuracy: 0.906
epoch 20 | Train loss 1.562 | Accuracy: 0.906
epoch 21 | Train loss 1.561 | Accuracy: 0.90

# 3. MLP

## MLPクラスについて
以下のような要件のネットワークを構築する．
```
    入力 : x　
-> Fully connected layer 1 (input : x, outputの次元数 : 256, 活性化関数 : relu関数)
-> Fully connected layer 2 (input : layer1の出力， outputの次元数 : 256, 活性化関数 : relu関数)
-> Fully connected layer 3 (input : layer2の出力， outputの次元数 : 10)
-> 出力 : out
```

<details>
    <summary>ヒント</summary>
    <div><br>
    - TensorflowでFully connected layerはtf.layers.dense (inputs, units, activation=None)で呼ぶことができる．
    <br>
    - inputs : 入力データ
    <br>
    - units :  outputの次元数
    <br>
    - activation : 活性化関数の種類（デフォルトでは無し）
    <br>
    - relu関数はTensorflowでtf.nn.reluと表される．
    </div>
</details>

## MLPクラスの定義

In [97]:
def MLP(x):
    ### TODO
    layer_1 =  tf.layers.dense(x, 256, activation=tf.nn.relu)
    layer_2 =  tf.layers.dense(layer_1, 256, activation=tf.nn.relu)
    out = tf.layers.dense(layer_2, 10, activation=tf.nn.softmax)
    ### TODO
    return out

## グラフの構築

In [98]:
tf.reset_default_graph()

# パラメータ
# Learning rate (学習率)
lr = 0.1
# epoch数 （学習回数）
n_epoch = 25
# ミニバッチ学習における1バッチのデータ数
batchsize = 100

# 入力
# placeholderを用いると，データのサイズがわからないときにとりあえずNoneとおくことができる．
x = tf.placeholder(tf.float32, [None, 784]) # 28*28次元 
t = tf.placeholder(tf.float32, [None, 10]) # 10クラス

# MLPクラスのモデルを用いてpredictionを行う
y = MLP(x)

# 目的関数:softmax cross entropy
# 入力：labels->正解ラベル， logits：predictionの結果
# 出力：softmax cross entropyで計算された誤差
xentropy = tf.nn.softmax_cross_entropy_with_logits(labels=t, logits=y)
cost = tf.reduce_mean(xentropy)

# SGD(Stochastic Gradient Descent : 確率的勾配降下法)で目的関数を最小化する
optimizer = tf.train.GradientDescentOptimizer(lr).minimize(cost)

# test用
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(t, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

## グラフの実行

In [99]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    
    for epoch in range(n_epoch):
        print ('epoch %d | ' % epoch, end="")

        # Training
        sum_loss = 0
        # 訓練データをシャッフルする
        perm = np.random.permutation(N_train)

        for i in range(0, N_train, batchsize):
            # ミニバッチ分のデータを取ってくる
            X_batch = X_train[perm[i:i+batchsize]]
            t_batch = T_train[perm[i:i+batchsize]]

            _, loss = sess.run([optimizer, cost], feed_dict={x:X_batch, t:t_batch})
            sum_loss += np.mean(loss) * X_batch.shape[0]

        loss = sum_loss / N_train
        print('Train loss %.5f | ' %(loss), end="")

        # Test model
        print ("Test Accuracy: %.3f"%(accuracy.eval(feed_dict={x: X_test, t: T_test})))

epoch 0 | Train loss 1.82402 | Test Accuracy: 0.823
epoch 1 | Train loss 1.64486 | Test Accuracy: 0.837
epoch 2 | Train loss 1.62949 | Test Accuracy: 0.845
epoch 3 | Train loss 1.62146 | Test Accuracy: 0.852
epoch 4 | Train loss 1.61572 | Test Accuracy: 0.854
epoch 5 | Train loss 1.61116 | Test Accuracy: 0.857
epoch 6 | Train loss 1.60720 | Test Accuracy: 0.859
epoch 7 | Train loss 1.60408 | Test Accuracy: 0.862
epoch 8 | Train loss 1.60120 | Test Accuracy: 0.863
epoch 9 | Train loss 1.59873 | Test Accuracy: 0.867
epoch 10 | Train loss 1.59642 | Test Accuracy: 0.867
epoch 11 | Train loss 1.59420 | Test Accuracy: 0.869
epoch 12 | Train loss 1.59228 | Test Accuracy: 0.871
epoch 13 | Train loss 1.59046 | Test Accuracy: 0.873
epoch 14 | Train loss 1.58883 | Test Accuracy: 0.873
epoch 15 | Train loss 1.58723 | Test Accuracy: 0.874
epoch 16 | Train loss 1.58572 | Test Accuracy: 0.876
epoch 17 | Train loss 1.57573 | Test Accuracy: 0.950
epoch 18 | Train loss 1.50881 | Test Accuracy: 0.955
epo