# TensorFlow ハンズオン 超入門

- Kyoto.LT 第19回 - TensorFlow ハンズオン
- 2018/3/16（金）


## 諸注意

- 初心者対象です
- ディープラーニングやCNNはやりません
- 各自のドライブにコピーを保存してください（重要）
- 資料が1ファイルのmarkdownなので，あまり先読みせずにお願いします

## 目次

1. 機械学習
1. ニューラルネットワーク
1. Google Colaboratory を使ってみる
1. TensorFlow を使ってみよう
1. TensorFlow で NN を実装する



# 1. 機械学習


## 機械学習

- 人間が自然に行なっている学習能力と同様の機能をコンピュータで実現する

- 既知の情報だけではなく，未知な情報に対しても適切な処理を行う汎用的な処理を行う


## 図例（一例）


- 赤青の2状態のラベルを持つ特徴量空間があると仮定する（左）
- そのラベルを区切る境界線が分かれば、未知な観測値のラベル付けが可能になる（右）

![特徴量空間](https://drive.google.com/uc?export=view&id=1-4yNFMFarYTvsZDcLJMyCRBUp1R6S8hh)


## （例題）1状態のモデル推定（線形回帰，最小二乗法）


下図（左）のように，黄色い観測値 $(x, y)$ がいくつか得られた．新しい $x'$ を観測した時，それに対応する $y'$ は何になるか？（数学）

- 観測値は一次関数（緑色の直線）の相関があるように見える（右）
- その一次関数 $f(x)$ を求めて，新しい $x'$ を代入して $y' = f(x')$ を求めよう


![特徴量空間](https://drive.google.com/uc?export=view&id=1rmbpCwAkk4ygdyfmHv-_OCo_9kbDvs2Y)


入力を$x$，出力を$y$として，パラメータ$\theta$を用いて，以下のようにモデルを定義する
$${y}  = f({x; \theta} )$$

以下の訓練データが与えらえたときの問題を考える（パラメータ$\theta$を求める）．
$$(x_{1},y_{1}), \ (x_{2},y_{2}), \ \dots, \ (x_{n},y_{n})$$

訓練データから理論値の誤差$J$は，以下のように定義できる．
$$J= \sum_{i=0}^{n} \left(y_{i} - f(x_{i}) \right)^{2}$$

誤差$J$を最小にするパラメータ$\theta$を求めれば，モデルが求められる．
$$\frac{d J} {d \theta} = 0$$

ここで，モデル関数を一次関数と仮定すると，
$$f(x) = ax + b$$

パラメータ$a$および$b$は以下のように求められる
$$a = \frac{n \sum_{i=1}^{n}x_{i}y_{i} - \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}
{n\sum_{i=1}^{n}x_{i}^{2} - \left( \sum_{i=1}^{n}x_{i} \right)^{2}} 
\\
b = \frac{n \sum_{i=1}^{n}x_{i}^{2}\sum_{i=1}^{n}y_{i} - \sum_{i=1}^{n}x_{i}y_{i}\sum_{i=1}^{n}x_{i}}
{n\sum_{i=1}^{n}x_{i}^{2} - \left( \sum_{i=1}^{n}x_{i} \right)^{2}} $$



## 機械学習の流れ


機械学習の大まかなの流れは以下のようになる

1. 何かしら処理したい大量のデータがある
1. 適切なモデルを仮定する（例では1次関数）
1. そのモデルのパラメータを計算する（一般に，パラメータは数値計算法を利用して近似計算を行う）
1. 評価が悪ければ2に戻る


機械学習は敷居が高いように思われるが，

- データからの関数を求める
- 関数から状態を分類する

やっていることの根底は，中学高校でも習った数学（解析学）であり，みなさんは既に機械学習を経験しているんですよ！


※ 確率的手法で解くアプローチもあります（今回やらない）



# 2. ニューラルネットワーク（NN）

脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデル


![ニューロン](https://drive.google.com/uc?export=view&id=1WxYCTE8_l5QvDLG2a3sRNU_DChSWUXFy)


入力を$x_{i}$，それぞれの重みを$w_{i}$，バイアス（閾値に相当する）を$b$とすると，出力$y$は以下のように定義される

$$y = f \left(\sum_{i} w_{i} x_{i} + b \right) $$


ここで，$f$ は活性化関数であり，シグモイド関数，ステップ関数やReLU(ランプ関数)が使われる．


![活性化関数](https://drive.google.com/uc?export=view&id=1Mn40ckzBTQfDQn01V2n6rNqqMwY5To-H)


## 単純パーセプトロン

- 入力層と出力層のみの2層からなる
- 単純なネットワークなので，非線形問題は解けない
- （以降のNN図ではバイアスや活性化関数の表示は省略してます）


![多層パーセプトロン](https://drive.google.com/uc?export=view&id=1t0SRn0N6ga7JqoitTj-xHFIsbgGMufQ8)


## 多層パーセプトロン

- 3つ以上の層（入力層と出力層と1つ以上の隠れ層）
- 一般に層が4つ以上のNNを深層学習（ディープラーニング）と呼ぶ
- 非線形問題も解ける

![多層パーセプトロン](https://drive.google.com/uc?export=view&id=1OMqbERTTW1hH9UHo-s8GGSS-DPf-_hBC)


## 学習

- 例題同様に損失関数を定義て，それを最小にするパラメータを求める
- 簡単に微分で解けないので，勾配降下法などを用いて数値解析的に解く


## NNと機械学習

- 計算モデル（前例題でいう一次関数）をNNでモデル化する
  - 機械学習の実状は非線形関数の最適化問題
- 近年まであまり人気はなかった
  - 学習コストが莫大に大きい
  - 層を増やせば増やすほど難解になる
- いまは，流行りのディープラーニングまで発展した
  - GPU並列計算，GCPやAWSなどのクラウドコンピューティング（金の弾丸で殴るスタイル）
  - ネットワークの発展で，画像処理などで良い成果をもたらした

  
  
  
## 閑話休題


- 似たような生物学的な特徴を模倣とした手法に遺伝的アルゴリズムというのものあります
- ニューラル！？遺伝！？バイオコンピュータか何かすげー！と思ったり
- しかし，実態は非線形関数や確率的手法
- 難しい言葉に騙されないようにしましょう（とくに今のAI界隈）




# 3. Google Colaboratoryを使ってみる


[Google Colaboratory](https://colab.research.google.com/) とは

- Google が公開した Jupyter notebook ライクなサービス
- Pythonコードとドキュメント（markdown）を同時に管理できる
- マシンリソースはGoogleのクラウドにあるので準備不要
- 2018年2月にGPUを利用することができるようになった

ただし，

- 利用可能時間は12時間
- コードやマークダウンは Google Drive に保存される
- 計算結果を永続化する場合は，Google Driveなどのストレージサービスをマウントする
- 長時間の計算はデータを途中保存と、再計算可能なコードを書く




In [0]:
import numpy as np

values = np.array([33, 44, 54, 23, 25, 55, 32, 76])
ave = np.average(values)
print("ave =", ave)

ave = 42.75


Colabでは ``!hogehoge`` でコマンドを実行できる。

- 例えばインストールされているTensorflowのバージョン確認してみる。
- 資料作成時は 1.6.0rc1 でしたが，前日に 1.6.0 になったようです（つらみ
- 先日 [1.7.0rc0](https://github.com/tensorflow/tensorflow/releases/tag/v1.7.0-rc0) がリリースされた

In [0]:
!pip list | grep tensorflow

tensorflow                                 1.6.0    


GPUを使用する

1. ランタイム -> ランタイムのタイプを変更
2. ハードウェアアクセラレータでGPUを選択


In [0]:
import tensorflow as tf
tf.test.gpu_device_name()
# '/device:GPU:0'

'/device:GPU:0'

# 4. TensorFlow を使ってみよう

TensorFlow

- Googleが2015年11月に公開した機械学習向け計算フレームワーク
- これ自体は機械学習ではない
- 最適化問題の学習ライブラリが提供されたので，機械学習が一般に広がった


## 基礎

足し算してみた

In [0]:
import tensorflow as tf
x = tf.constant(1)
y = tf.constant(2)
z = x + y
print("z = ", z)

z =  Tensor("add_1:0", shape=(), dtype=int32)


zには計算結果ではなく計算モデルが入っている

![tensorflow_add](https://drive.google.com/uc?export=view&id=1e8EUXvD8P0fIzX8hU7t3dpQxLEKdgeHT)

- Tensorflowは計算モデルと実行を分けて書く（Define-and-Run）．
- 実行する場合は Session を始める

In [0]:
import tensorflow as tf
x = tf.constant(1)
y = tf.constant(2)
z = x + y
sess = tf.Session()
print("z = ", sess.run(z))

z =  3


みんな大好き Hello World も Session で

In [0]:
import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

b'Hello, TensorFlow!'


変数
 - Variable で初期化
 - assign で代入

In [0]:
import tensorflow as tf
x = tf.Variable(1)
y = tf.constant(2)
z = tf.assign(x, x+y)
sess = tf.Session()
sess.run(tf.global_variables_initializer())
for i in range(3):
    print("z = ", sess.run(z))

z =  3
z =  5
z =  7


v1.5からEager Execution が追加さて、 Session なしでも実行できるようになりました（Define-by-Run）．

- エラーが出たらランタイムの再起動（jupyter系の仕様，多重呼び出しがダメみたい）

In [0]:
import tensorflow as tf
import tensorflow.contrib.eager as tfe

# 1.7.0rc0 だったら未確認
#import tensorflow.eager as tfe

tfe.enable_eager_execution()

x = tf.constant(1)
y = tf.constant(2)
z = x + y
print("z = ", z)
print("z.numpy() = ", z.numpy())

hello = tf.constant('Hello, TensorFlow!')
print("hello = ", hello)
print("hello.numpy() = ", hello.numpy())

z =  tf.Tensor(3, shape=(), dtype=int32)
z.numpy() =  3
hello =  tf.Tensor(b'Hello, TensorFlow!', shape=(), dtype=string)
hello =  b'Hello, TensorFlow!'


※ 後述のコードはEager Executionを使わずにSessionありで書いています

## GPU計算

- GPUコアを選択して実行する
- なお、GPUにすれば全てが早くなるわけではなく、規模が小さい場合はCPUの方が早い

補足

- GPU用TenforFlowを ```pip install tensorflow-gpu``` でインストールしていれば追加処理は不要
- GPUのリソース管理が面倒なので、GPU環境なら最初からGPU用TenforFlowをインストールして使うのが良い
- 本ハンズオンは規模が小さく、GPU分のコードが増えるのでCPU計算です

In [0]:
import tensorflow as tf

with tf.device('/cpu:0'):
  cx = tf.constant(1)
  cy = tf.constant(2)
  cz = cx + cy

with tf.device('/gpu:0'):
  gx = tf.constant(1)
  gy = tf.constant(2)
  gz = gx + gy

config = tf.ConfigProto()
config.gpu_options.allow_growth = True

sess = tf.Session(config=config)
sess.run(tf.global_variables_initializer())
  
def run_with_timer(models):
  import time
  start = time.time()
  sess.run(models)
  print ("time = {} sec".format(time.time() - start))
  
print("cpu:")
run_with_timer(cz)  

print("gpu:")
run_with_timer(gz)

sess.close()

cpu:
time = 0.0064198970794677734 sec
gpu:
time = 0.0058977603912353516 sec


## （例題）TensorFlowを使って，線形回帰（最小二乗法）を解く

- 上記で例に出した線形回帰問題を学習して解いてみましょう
- パラメータ $a$ および $b$ を，数値計算を使って求める（上式に代入しないで求める）


### データ用意（生成）

- 正解を $y = 0.1 x + 0.3$ として，$x$ を乱数生成してデータを作成します
- 以降の計算で $a=0.1, b = 0.3$ を近似計算する


In [0]:
import tensorflow as tf
import numpy as np
tf.set_random_seed(0)

# 正解を y = x * 0.1 + 0.3 としてデータを100個作成する．
# 通常は何かしらの状態から観測される値だが，
# 今回は演習のため，自ら生成する
X = np.random.rand(100, 1)
Y = X * 0.1 + 0.3

"""
X:
array([[ 0.65418626],
       [ 0.35404123],
       ...
       [ 0.33835396]])       
"""

### 計算モデルの作成

- $y = ax + b$ の計算モデル
- 入力データは placeholder で宣言して，実行時に値を代入する
- shape の None は，学習時に可変長個のデータ（例だと100個）を使うから，決め打ちしない

In [0]:
# 入力データ
x = tf.placeholder(tf.float32, shape=[None, 1])

# 出力層
a = tf.Variable(tf.zeros([1]))
b = tf.Variable(tf.zeros([1]))
y = x * a + b

### 学習


- 観測値 $t$ と理論値 $y$ の二乗誤差を最小にするように学習する



In [0]:
# 観測された出力（上記で乱数生成されたyにあたる）
t = tf.placeholder(tf.float32, shape=[None, 1])

# 損失関数
loss = tf.reduce_mean(tf.square(y - t))

# 損失関数を最小にするように学習
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

# 200回学習してみる
for epoch in range(200):
    sess.run(train_step, feed_dict={
        x: X,
        t: Y
    })

### まとめると


In [0]:
import tensorflow as tf
import numpy as np

tf.set_random_seed(0)

# 正解を y = x * 0.1 + 0.3 としてデータを作成
X = np.random.rand(100, 1)
Y = X * 0.1 + 0.3

# 入力データ
x = tf.placeholder(tf.float32, shape=[None, 1])
t = tf.placeholder(tf.float32, shape=[None, 1])
  
# 出力層
a = tf.Variable(tf.zeros([1]))
b = tf.Variable(tf.zeros([1]))
y = x * a + b
  
# 損失関数
loss = tf.reduce_mean(tf.square(y - t))
  
# 損失関数を最小にするように学習
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

# 初期化
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# 学習
for epoch in range(200):
    sess.run(train_step, feed_dict={
        x: X,
        t: Y
    })
    if epoch % 20 == 0:
        print("epoch={}, a={}, b={}".format(epoch, sess.run(a), sess.run(b)))

epoch=0, a=[0.0374866], b=[0.07021491]
epoch=20, a=[0.13718347], b=[0.27900204]
epoch=40, a=[0.12902495], b=[0.28416792]
epoch=60, a=[0.12247529], b=[0.28774205]
epoch=80, a=[0.1174031], b=[0.2905084]
epoch=100, a=[0.11347559], b=[0.29265046]
epoch=120, a=[0.11043443], b=[0.2943091]
epoch=140, a=[0.1080796], b=[0.2955934]
epoch=160, a=[0.10625621], b=[0.29658788]
epoch=180, a=[0.10484432], b=[0.29735795]


## 問題(1)


- 例題と同様で、関数を $ y = 0.5 x^{2} + 0.3 $ にして、パラメータ$a, b$ を近似計算せよ
- 早く解けた人は、関数を他に変えて試してみてください

ヒント

- numpyで要素ごとの積は ```x * x``` で計算できます
- 損失関数は同じので大丈夫です
- 学習回数を増やしてみる


In [0]:
""" 問題(1)の解答欄 """

# 5. TensorFlow で NN を実装する

- 上記例題の計算モデルおよび損失関数を適切なものに入れ替えば，計算できます

## ネットワーク

- 基本的なNNをモデル化してみる


### 単純パーセプトロン

![tensorflow_add](https://drive.google.com/uc?export=view&id=1aV4Igyngsmfxz9H19jVtvKFdEEvMEBhH)


$ y = f \left( \boldsymbol{w} \boldsymbol{x} + b \right) $



In [0]:
import tensorflow as tf

# 入力データ
x = tf.placeholder(tf.float32, shape=[None, 2])

# 出力層
W = tf.Variable(tf.zeros([2,1]))
b = tf.Variable(tf.zeros([1]))
y = tf.nn.sigmoid(tf.matmul(x, W) + b)

### 多層パーセプトロン


![tensorflow_add](https://drive.google.com/uc?export=view&id=19BJ6k6KqYclDpU8qbmMbtcd-R0dTvBdA)

$ \boldsymbol{h} = f \left( \boldsymbol{W} \boldsymbol{x} + \boldsymbol{b} \right)$

$ y = f \left( \boldsymbol{v} \boldsymbol{h} + c \right)$

In [0]:
import tensorflow as tf

# 入力データ
x = tf.placeholder(tf.float32, shape=[None, 2])
t = tf.placeholder(tf.float32, shape=[None, 1])

# 隠れ層
W = tf.Variable(tf.truncated_normal([2,2]))
b = tf.Variable(tf.zeros([2]))
h = tf.nn.sigmoid(tf.matmul(x,W) + b)

# 出力層
V = tf.Variable(tf.truncated_normal([2,1]))
c = tf.Variable(tf.zeros([1]))
y = tf.nn.sigmoid(tf.matmul(h,V) + c)

### （例題） 論理回路 AND をNNで表現する

![tensorflow_add](https://drive.google.com/uc?export=view&id=1prNgn6eORFKYOX3BlE8Gn6GGtt8ieBR_)


|$x_1$|$x_2$|$y$|
|---|---|---|
|0|0|0|
|0|1|0|
|1|0|0|
|1|1|1|


入力を$x_{i}$，それぞれの重みを$w_{i}$，バイアス（閾値に相当する）を$b$とすると，出力$y$は以下のように定義される．

$$y = f \left(\sum_{i=0}^{n} w_{i} x_{i} + b \right) $$

活性化関数 $f$ にシグモイド関数を用いる．2状態の分類問題なので損失関数は，訓練データの入力 $(x_{0}^{k}, x_{1}^{k})$ に対する出力を $t^{k}$ とすると，以下のようになる．

$$L = - \sum_{k}\left(　t^{k}\log y^{k} + (1-t^{k}) \log(1-y^{k})　 \right)$$

学習は，損失関数に対して学習率を $0.1$ とした勾配降下方を用いて，パラメータを求めていく．

In [0]:
import numpy as np
import tensorflow as tf

tf.set_random_seed(0)

# 入力データ
x = tf.placeholder(tf.float32, shape=[None, 2])
t = tf.placeholder(tf.float32, shape=[None, 1])

# 出力層
W = tf.Variable(tf.zeros([2,1]))
b = tf.Variable(tf.zeros([1]))
y = tf.nn.sigmoid(tf.matmul(x, W) + b)

# 損失関数
loss = - tf.reduce_sum(t * tf.log(y) + (1-t) * tf.log(1-y))

# 損失関数を最小にするように学習
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

# AND
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
Y = np.array([[0], [0], [0], [1]])

# 初期化
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

# 学習
for epoch in range(200):
    sess.run(train_step, feed_dict={
        x: X,
        t: Y
    })

# 学習結果の評価
correct_prediction = tf.equal(tf.to_float(tf.greater(y, 0.5)), t)
classfied = correct_prediction.eval(session=sess, feed_dict={
    x: X,
    t: Y
})
prob = y.eval(session=sess, feed_dict={
    x: X
})


# 結果表示
for (x, p, c) in zip(X, prob, classfied):
  print("x = {}, prob = {}, result = {}".format(x, p, c))


x = [0 0], prob = [0.01376848], result = [ True]
x = [0 1], prob = [0.17122266], result = [ True]
x = [1 0], prob = [0.17122266], result = [ True]
x = [1 1], prob = [0.75353134], result = [ True]


## 問題(2) ORをNNで実装せよ

![or](https://drive.google.com/uc?export=view&id=1Vks7BI0k9bdltDCtBVPRP4NO3jFKQ7P4)

|$x_1$|$x_2$|$y$|
|---|---|---|
|0|0|0|
|0|1|1|
|1|0|1|
|1|1|1|


## 問題(3) ORをNNで実装せよ

![xor](https://drive.google.com/uc?export=view&id=1dZXwvsgjaers2eDX4fhk3evMk_IYgY5i)


|$x_1$|$x_2$|$y$|
|---|---|---|
|0|0|0|
|0|1|1|
|1|0|1|
|1|1|0|



ヒント

- 損失関数はANDの損失関数がそのまま使えます
- うまく学習されない場合は、学習回数を増やしてみてください


In [0]:
""" 問題(2) OR の解答欄 """

In [0]:
""" 問題(3) XOR の解答欄 """