# ロジスティックシグモイド関数

## モデル化
$$
p\left( { y = 1 } | { \boldsymbol {\mathrm {x}} } \right) \approx f\left( u \right)\\
p\left( { y = 0 } | { \boldsymbol {\mathrm {x}} } \right) \approx 1 - f\left( u \right)
$$

### 活性化関数 : ロジスティックシグモイド関数
$$
f\left( u \right) = \frac {1}{1 + e^{-u}}\\
u = \boldsymbol {\mathrm {w}}^{T} \boldsymbol {\mathrm {x}} + \boldsymbol {\mathrm {b}}
$$

### 出力層の活性化関数 : ロジスティックシグモイド関数


### 誤差関数 : 交差エントロピー(負の対数尤度関数)
$$
L\left( \boldsymbol {\mathrm {w}} ; \boldsymbol {\mathrm {x}} \right) = \prod _{i=1}^{N}{p\left( { y_{i} } | { \boldsymbol {\mathrm {x}} ; \boldsymbol {\mathrm {w}}} \right)} = \prod _{i=1}^{N}{\left\{ f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right\}^{y_{i}} \left\{ 1 - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right\}^{1 - y_{i}} }\\
\log {L\left( \boldsymbol {\mathrm {w}} ; \boldsymbol {\mathrm {x}} \right)} = \sum _{i=1}^{N}{\left\{ y_{i} \log {f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right)} + (1 - y_{i}) \log {\left[ 1 - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right]} \right\}}
$$
上記の対数尤度関数の符号を反転した関数を誤差関数とし、この値の最小化を考える。
$$
E\left( \boldsymbol {\mathrm {w}} \right) = - \sum _{i=1}^{N}{\left\{ y_{i} \log {f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right)} + (1 - y_{i}) \log {\left[ 1 - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right]} \right\}}
$$
$$
\boldsymbol {\mathrm {w}} = arg \min _{ \boldsymbol {\mathrm {w}} }{E\left( \boldsymbol {\mathrm {w}} \right)}
$$

### 学習法 : 
$$
\nabla E \equiv \frac {\partial E}{\partial \boldsymbol {w}} = \left( \frac {\partial E}{\partial w_{1}}, \dots, \frac {\partial E}{\partial w_{p}} \right)^{T}\\
\boldsymbol {w}^{(t+1)} = \boldsymbol {w}^{(t)} - \epsilon \nabla E
$$

勾配ベクトルの各要素は次式になる。
$$
\frac {\partial E}{\partial w_{j}} = - \sum _{i=1}^{N}{\left[ y_{i} - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right] x_{j}}
$$

#### (バッチ)勾配降下法(gradient descent)
$$
w_{j}^{(t+1)} = w_{j}^{(t)} + \epsilon \sum _{i=1}^{N}{\left[ y_{i} - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right] x_{j}}
$$

#### 確率的勾配降下法(stochastic gradient descent)
$$
w_{j}^{(t+1)} = w_{j}^{(t)} + \epsilon \left[ y_{i} - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right] x_{j}
$$

 - ランダムに1つの訓練データ$i$を用いてパラメータを更新
 - 収束するまで、$N$個のデータ全体に対してランダムに訓練データを抽出し、繰り返し学習を行う

```python
for epoch in range(epochs):
    shuffle(data)   # エポック(反復)ごとにデータをシャッフル
    for datum in data:    # データ1個ずつでパラメータを更新
        params_grad = evaluate_gradient(error_function, params, dataum)
        params -= learning_rate * params_grad
```

#### ミニバッチ勾配降下法(minibatch gradient descent)

 - $D_{t}$ : 1つのミニバッチ$t$
 - $N_{t}$: ミニバッチ$t$が含む訓練データ

$$
w_{j}^{(t+1)} = w_{j}^{(t)} + \epsilon \sum _{i \in D_{i}}{\left[ y_{i} - f\left( \boldsymbol {\mathrm {x}}_{i} ; \boldsymbol {\mathrm {w}} \right) \right] x_{j}}
$$

```python
for epoch in range(epochs):
    shuffle(data)
    batches = get_batches(data, batch_size=M)
    for batch in batches:    # ミニバッチごとにパラメータを更新
        params_grad = evaluate_gradient(error_function, params, batch)
        params -= learning_rate * params_grad
```

# 実装
## TensorFlowによる実装

In [5]:
import numpy as np
import tensorflow as tf

### モデルの定義

 - パラメータの定義
 - 出力層の定義
 - 誤差関数の定義
 - 最適化手法の定義

In [19]:
# 重み(weight), バイアス(bias)
w = tf.Variable(tf.zeros([2, 1]))
b = tf.Variable(tf.zeros([1]))


x = tf.placeholder(tf.float32, shape=[None, 2])    # 特徴ベクトル
y = tf.placeholder(tf.float32, shape=[None, 1])    # 正解データ
f = tf.nn.sigmoid(tf.matmul(x, w) + b)    # 出力層 : シグモイド関数

# 誤差関数
cross_entropy = - tf.reduce_sum(y * tf.log(f) + (1 - y) * tf.log(1 - f))

# 学習法
LEARNING_RATE = 0.1
train_step = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(cross_entropy)

# 予測
correct_prediction = tf.equal(
        tf.to_float(tf.greater(f, 0.5)),
        y
    )

### データセットの用意

In [20]:
# 学習用データ
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
Y = np.array([[0], [1], [1], [1]])

### セッションの初期化

In [21]:
# ---セッション---

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)    # ここではじめてモデルの定義で宣言した変数・式の初期化が行われる

### 学習

In [22]:
# 学習
for epoch in range(200):
    # 勾配降下法の実行
    sess.run(
        train_step, 
        feed_dict={x: X, y: Y}
    )

### 評価

In [23]:
classified = correct_prediction.eval(session=sess, feed_dict={x: X, y: Y})   # 評価
prob = f.eval(session=sess, feed_dict={x: X})    # 学習済みのモデルで予測

print('===[classified]===')
print('{0}'.format(classified))
print('===[prob]=== ')
print('{0}'.format(prob))

===[classified]===
[[ True]
 [ True]
 [ True]
 [ True]]
===[prob]=== 
[[0.22355042]
 [0.9142595 ]
 [0.9142595 ]
 [0.99747413]]


## Kerasによる実装
### モデルの定義

 - 出力層の定義
 - 最適化手法の定義

In [25]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD    # 確率的勾配降下法

# 出力層の定義
model = Sequential([
        Dense(input_dim=2, units=1),    # 層
        Activation('sigmoid')                    # 活性化関数
    ])

Using TensorFlow backend.


 - `Sequential()` : 層構造のモデルを定義するためのメソッド. ここに実際の層を入れ込むことで、モデルを設定する.
     - `Dense(input_dim=2, units=1)` : 入力の次元2、出力の次元1のネットワーク構造を持つ層を生成. これは次式における以下に相当する層を作ったことになる.
     $$
     w_{1} x_{1} + w_{2} x_{2} + b
     $$
     - `Activation('sigmoid')` : ニューロンの出力を表現. ここに活性化関数を指定. 次式に相当する層を作る.
     $$
     y = \frac {1}{1 + \mathrm {exp}\left( w_{1} x_{1} + w_{2} x_{2} + b \right)}
     $$

これでモデルの出力部分までは定義した。また、`Sequential()`だけを事前に宣言しておき、後から`model.add()`でどんどん層を追加していく書き方も可能。
```python
model = Sequential()
model.add(Dense(input_dim=2, units=1))
model.add(Activation('sigmoid'))
```

In [26]:
# 最適化手法の定義 : 確率的勾配降下法
LEARNING_RATE = 0.1
model.compile(loss='binary_crossentropy', optimizer=SGD(lr=LEARNING_RATE))

### データセットの用意

In [27]:
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
Y = np.array([[0], [1], [1], [1]])

### 学習

In [28]:
model.fit(X, Y, epochs=200, batch_size=1)
# epochs : エポック数. 最大更新回数
# batch_size : (ミニ)バッチの大きさ

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 

<keras.callbacks.History at 0x1820f71fd0>

### 評価

In [30]:
classes = model.predict_classes(X, batch_size=1)
prob = model.predict_proba(X, batch_size=1)

print('===[classified]===')
print('{0}'.format(Y == classes))
print('===[prob]=== ')
print('{0}'.format(prob))

===[classified]===
[[ True]
 [ True]
 [ True]
 [ True]]
===[prob]=== 
[[0.21298702]
 [0.9169551 ]
 [0.91943663]
 [0.99785703]]
