# シグモイド関数

\begin{equation*}
s(x) = \frac{1}{1 + e^{-x}}
\end{equation*}

theanoでは，
```py

関数名 = theano.function([入力変数], 出力変数)
```

In [3]:
import numpy as np
import theano.tensor as T
from theano import function

x = T.dmatrix('x')
s = 1 / (1 + T.exp(-x))
logistic = function([x], s)
logistic([[0, 1], [-1, -2]])

array([[ 0.5       ,  0.73105858],
       [ 0.26894142,  0.11920292]])

\begin{equation*}
s(x) = \frac{1}{1 + e^{-x}} = \frac{1 + tanh(x/2)}{2}
\end{equation*}

In [1]:
s2 = (1 + T.tanh(x / 2)) / 2
logistic2 = function([x], s2)
logistic([[0, 1], [-1, -2]])

NameError: name 'T' is not defined

## 複数の出力に対応可能

```py

関数名 = theano.function([入力変数], [出力変数])
```

In [7]:
a, b = T.dmatrices('a', 'b')
diff = a - b # a - b
abs_diff = abs(diff) # |a - b|
diff_squared = diff ** 2 # (a - b) ^ 2
f = function([a, b], [diff, abs_diff, diff_squared])
f([[1, 1], [1, 1]], [[0, 1], [2, 3]])

[array([[ 1.,  0.],
        [-1., -2.]]), array([[ 1.,  0.],
        [ 1.,  2.]]), array([[ 1.,  0.],
        [ 1.,  4.]])]

## 指定がない場合の標準値

```py
def hoge(a, b=1):
```

っていう感じ．

In [8]:
from theano import Param
x, y = T.dscalars('x', 'y')
z = x + y
f = function([x, Param(y, default=1)], z)
f(33)
f(33, 2)

array(35.0)

In [9]:
x, y, w = T.dscalars('x', 'y', 'w')
z = (x + y) * w
f = function([x, Param(y, default=1), Param(w, default=2, name='w_by_name')], z)
f(33, y=0, w_by_name=1)

array(33.0)

## 共有変数

内部状態を保持するための変数．

### 累算器
例として，累算器が挙げられる．
最初は0だが，そのあとは引数分増加していく．

In [10]:
from theano import shared
state = shared(0)
inc = T.iscalar('inc')
accumulator = function([inc], state, updates=[(state, state+inc)])

updatesの引数は，`(共有変数, 新しい表現)`の配列になっていないといけない．

→`updates=[(共有変数, 新しい表現), (共有変数, 新しい表現), (共有変数, 新しい表現),...]`

dict型でもいい．→`updates={共有変数: 新しい表現}`

いずれも"関数が呼ばれた場合は．新しい表現によって共有変数が書き換わる"ことを意味する．


In [11]:
state.get_value()
accumulator(1)
state.get_value()
accumulator(300)
state.get_value()
state.set_value(-1)
state.get_value()
accumulator(3)
state.get_value()

array(2)

共有変数は使いたくないけど，内部保持はさせたい，みたいなときに
`given`っていうのを使えばよい.

```py
givens=[(共有変数, 引数名)]
```

ってすることで，一時的に共有変数に引数が入るっぽい．

In [15]:
fn_of_state = state * 2 + inc
foo = T.scalar(dtype=state.dtype)
skip_shared = function([inc, foo], fn_of_state, givens=[(state, foo)])
skip_shared(1, 3)
state.get_value()


array(2)

## 乱数

theanoでは基本的に，numpyのRandomStreamオブジェクトを必要に応じて呼び出すらしい．

引数で，`no_default_updates=True`とすることで，毎回変数は一緒になる．

In [39]:
from theano.tensor.shared_randomstreams import RandomStreams
from theano import function
srng = RandomStreams(seed=234)
rv_u = srng.uniform((2, 2)) # 一様分布
rv_n = srng.normal((2, 2)) # 正規分布
f = function([], rv_u)
g = function([], rv_n, no_default_updates=True)
nearly_zeros = function([], rv_u + rv_u - 2 * rv_u)
f_val0 = f()
f_val1 = f()

In [58]:
rv_u.rng.get_value()

<mtrand.RandomState at 0x10a62ded0>

In [66]:
state_after_v0 = rv_u.rng.get_value().get_state()
nearly_zeros()
v1 = f()
v1

array([[ 0.19509572,  0.33929181],
       [ 0.31679314,  0.6054008 ]], dtype=float32)

In [72]:
rng = rv_u.rng.get_value(borrow=True)
rng.set_state(state_after_v0)
rv_u.rng.set_value(rng, borrow=True)
v2 = f()
v2

array([[ 0.37383541,  0.42885411],
       [ 0.73863363,  0.10777741]], dtype=float32)

In [73]:
v3 = f()
v3

array([[ 0.19509572,  0.33929181],
       [ 0.31679314,  0.6054008 ]], dtype=float32)

# ロジスティック回帰

2値分類問題．

## 入力データについて

入力はD[0]=784次元のデータ×400種類．それぞれにランダムで0/1のラベル(D[1])が振ってある．



$$
\begin{align}
(\mathbf{x} = )\mathbf{D}[0] &= \underbrace{
\left.
\left( 
 \begin{array}{ccccc}
 5.66784922e-01&-3.85806198e-01&-4.72633487e-01&\cdots &2.81791269e+00\\
 1.41441836e+00&4.29482378e-01&-2.24327333e+00&\cdots &-1.24840723e+00\\
 -6.93807928e-01&1.76637341e+00&5.24697129e-01&\cdots &1.41143621e+00\\
 \vdots&&&\ddots&\\
 3.62074002e-01&1.87499728e-01&1.42793745e+00&\cdots &-1.70174036e+00
 \end{array}
\right)
\right\}}_{\text{784 dimensions}}\,\text{400 kinds} \\
(\mathbf{y}=)\mathbf{D}[1] &= \left.
\left(
\begin{array}{c}
0 \\
1 \\
1 \\
\vdots \\
0
\end{array}
\right)
\right\}\text{400 kinds}
\end{align}
$$



## パラメータについて

### 重み

wはデータの次元数に合わされるため，784次元のベクトル．
初期値は，ランダム．

$$
\mathbf{w} = 
\left.
\left(
\begin{array}{c}
-6.87018331e-02\\
-1.44951370e-03\\
\vdots \\
-1.71525259e-01
\end{array}
\right)
\right\}\text{784 dimensions}
$$


### バイアス

bは1種類×400ベクトル．但しブロードキャストができるから一つだけ．初期値は0．


$$
b = 0
$$


## 数式について

### ロジスティック関数による確率

$$
\begin{align}
p\_1 & = s(\mathbf{x} \cdot \mathbf{w}+b)\\ 
&= \frac{1}{1 + exp \left( -\mathbf{x} \cdot \mathbf{w}-b \right) }
\end{align}
$$

### 確率0.5以上を1とする

$$
prediction = p(>= 0.5)
$$

### 予測値と実際の値の誤差→クロスエントロピー誤差


$$
\begin{align}
H_{cr} &= - \sum p(y)log(q(x)) \\
&= -ylog(p\_1) - (1-y) log(1-p\_1)
\end{align}
$$

$\sum_{i} y log(p\_1) =1$による活用．


### コスト計算 →L2正則化を入れてる

$$
E(\theta) = - \frac{1}{n} \sum _{i} \left\{ p(y_i) log(q(x_i;\theta)) + (1-p(y_i))log(1-q(x_i;\theta)) \right\}
$$

$$
J(\theta)\gets J(\theta) + \epsilon E(\theta) + \lambda ||\theta||^2
$$







In [100]:
import numpy
import theano
import theano.tensor as T

rng = numpy.random

N = 400
feats = 784
D = (numpy.array(rng.randn(N, feats), dtype=numpy.float32), numpy.array(rng.randint(size=N, low=0, high=2), dtype=numpy.float32))

training_steps = 10000

x = T.matrix(name='x')
y = T.vector(name='y')

w = theano.shared(rng.randn(feats), name='w')
b = theano.shared(0., name='b')
print 'Initial model:'
print w.get_value(), b.get_value()

p_1 = 1 / (1 + T.exp(-T.dot(x, w) - b))
prediction = p_1 > 0.5
xent = -y * T.log(p_1) - (1 - y) * T.log(1 - p_1)
cost = xent.mean() + 0.01 * (w ** 2).sum()
gw, gb = T.grad(cost, [w, b])

train = theano.function(
            inputs=[x, y],
            outputs=[prediction, xent],
            updates=((w, w - 0.1 * gw), (b, b - 0.1 * gb)))
predict = theano.function(inputs=[x], outputs=prediction)

for i in range(training_steps):
    pred, err = train(D[0], D[1])

print "Final model:"
print w.get_value(), b.get_value()
print "target values for D:", D[1]
print "prediction on D:", predict(D[0])

Initial model:
[  5.66784922e-01  -3.85806198e-01  -4.72633487e-01   2.81791269e+00
   1.41441836e+00   4.29482378e-01  -2.24327333e+00   1.20731055e+00
   1.98977124e-01  -2.70878744e-01  -2.42218716e+00   6.23406847e-01
  -2.65240393e-01  -9.42896234e-01  -7.50632346e-01   7.97619542e-01
   4.81087373e-01   1.25946861e+00   1.03200124e-01   8.89495455e-02
   6.01165568e-01   5.05818889e-01   8.16487168e-01   1.23437353e+00
  -6.93807928e-01   1.76637341e+00   5.24697129e-01  -5.71200428e-01
   8.03100482e-01  -3.73100856e-01  -5.45398804e-01   1.80988754e+00
   2.26221443e-01  -6.27276307e-01  -1.43890852e-01  -1.09580265e+00
  -2.88378069e-01   8.59163825e-01   1.10106712e+00  -1.30787918e+00
   4.34152929e-01  -4.74573087e-01  -1.90195421e+00  -1.24840723e+00
   9.59383268e-01   1.21470266e-01  -2.53987518e-01  -6.63053756e-01
   1.03847809e+00  -2.07011895e+00  -6.24712301e-01   1.41143621e+00
   5.74156427e-01   1.07582386e+00  -6.88790568e-01   6.03294835e-01
   3.62074002e-01  

# ロジスティック回帰を使ってMNIST分類問題を解く

基本的には上のと一緒なはず．但し，重みは”クラス数”行×”入力データの次元数”列の行列．バイアスはクラス数次元のベクトルとなる．

## softmax関数

ソフトマックス関数は，シグモイド関数の出力が多変量（$n_y > 2$）になったもの．

$$
\sum_{i} p(y=i|x,W,b)=1
$$
を利用することで，

$$
\begin{align}
P(Y=i|x,W,b) & = softmax_{i}(Wx+b)\\ 
& =\frac{e^{W_{i}x+b_{i}}}{\sum_{j}e^{W_{j}x+b{j}}}
\end{align}
$$
ただし，$i=1,...,K-1$だけでよい.
$$
\begin{align}
P(Y=K|x,W,b) & = {\cal softmax}_{i}(Wx+b) \\
& =\frac{1}{\sum_{j}e^{W_{j}x+b{j}}} \\
y_{pred} & = argmax _{i} P(Y=i|x, W,b)
\end{align}
$$


$$
\begin{align}
\mathbf{z_x} = \underbrace{(\begin{array}{cccc} z_1&z_2&\cdots&z_{n\_out}\end{array})}_{\text{n_out}} & =
\mathbf{Wx} + \mathbf{b}\\ 
& = \underbrace{(\begin{array}{cccc} x_1&x_2&\cdots&x_{n\_in} \end{array})}_{\text{n_in = features}} \cdot
\left.
\underbrace{\left(
\begin{array}{cccc}
w_{11}&w_{12}&\cdots&w_{1 n\_out} \\
w_{21}&w_{22}&\cdots&w_{2 n\_out} \\
\vdots&\vdots&\ddots&\vdots \\
w_{n\_in 1}&w_{n\_in 2}&\cdots&w_{n\_in n\_out}
\end{array}
\right)}_{\text{n_out}} \right\}\text{n_in} + \underbrace{(\begin{array}{cccc} b_1&b_2&\cdots&b_{n\_out} \end{array})}_{\text{n_out = classes}}
\end{align}
$$

```py

self.W = theano.shared(
   value=numpy.zeros((n_in, n_out), dtype=theano.config.floatX),
   name='W',
   borrow=True
)

self.b = theano.shared(
    value=numpy.zeros((n_out,), dtype=theano.config.floatX),
    name='b',
    borror=True
)

self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)

self.y_pred = T.argmax(self.p_y_given_x, axis=1)


```

## 最尤推定法を用いる

$$
\begin{align}
{\cal L}(\theta = \{\mathbf{W}, \mathbf{b}\}, \mathbf{X}) &= \prod_{i}^{\mathbf{X}}P(Y=y_i|x_i, \mathbf{W}, \mathbf{b}) \\
{\cal L}_{log}(\theta = \{\mathbf{W}, \mathbf{b}\}, \mathbf{X}) &= log \left( \prod_{i}^{\mathbf{X}}P(Y=y_i|x_i, \mathbf{W}, \mathbf{b})\right) \\
&= \sum_{i}^{\mathbf{X}}log (P(Y=y_i|x_i, \mathbf{W}, \mathbf{b})) \\
\ell (\theta = \{\mathbf{W}, \mathbf{b}\}, \mathbf{X}) &= -{\cal L}(\theta=\{\mathbf{W}, \mathbf{b}\}
\end{align}
$$


```py
-T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])
```

`T.log(self.p_y_given_x)`は対数尤度の行列を表してる．

各行は1つのサンプルを示している（$z_x$）

各列は各ラベルの番号を示している．

`LP[i, y[i]]`は，$i$番目のサンプルのラベル（MNISTの数字e.g.$i$番目の文字が３だったら，`y[i]`は3になる．）の確率を示す．
`T.sum`ではなく，`T.mean`を使うことで，ミニバッチのサイズに関係なく学習率を設定できるらしい．


In [20]:
class LogisticRegression(object):
    def __init__(self, input, n_in, n_out):
        
        self.W = theano.shared(
           value=numpy.zeros((n_in, n_out), dtype=theano.config.floatX),
           name='W',
           borrow=True
        )

        self.b = theano.shared(
            value=numpy.zeros((n_out,), dtype=theano.config.floatX),
            name='b',
            borror=True
        )

        self.p_y_given_x = T.nnet.softmax(T.dot(input, self.W) + self.b)

        self.y_pred = T.argmax(self.p_y_given_x, axis=1)
        
        self.params = [self.W, self.b]
        
        self.input = input
        
    def negative_log_likelihood(self, y):
        return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])

    def errors(self, f):
        if y.dim != self.y_pred.dim:
            raise TypeError(
                'y should have the same shape as self.y_pred',
                ('y', y.type, 'y_pred', self.y_pred.type)
            )
        # 予測と正解が合ってたら0,間違ってたら1として，平均を取る→間違いが大きければ値は大きくなる
        if y.dtype.startswith('int'):
            return T.mean(T.neq(self.y_pred, y))
        else:
            raise NotImplementedError()

## LogisticRegressionのインスタンス生成

In [None]:
x = T.matrix('x')
y = T.ivector('y')
classifier = LogisticRegression(input=x, n_in=28*28, n_out=10)
cost = classifier.negative_log_likelihood(y)

## ミニバッチ確率的勾配法（Mini-batch Stochastic Gradient Descent, MSGD）

MSGDを大部分の言語（C/C++, MATLAB, Python）で実装しようとすると，まず手計算で微分しないといけない．

今回の場合であれば，$\frac{\partial \ell}{\partial \mathbf{W}}$と$\frac{\partial \ell}{\partial \mathbf{b}}$をやる必要がある．

これは複雑なモデルであればあるほど厄介だが，theanoは勝手に偏微分してくれる．

In [None]:
g_W = T.grad(cost=cost, wrt=classifier.W)
g_b = T.grad(cost=cost, wrt=classifier.b)

## 学習モデルを作成

updateは，[(代入する変数，代入する値)]っていうものでした．
givensは一時的に代入するものでした．

In [None]:
updates = [(classifier.W, classifier.W - learning_rate * g_W),
           (classifier.b, classifier.b - learning_rate * g_b)]

train_model = theano.function(
                inputs=[index],
                outputs=cost,
                updates=updates,
                givens=[(x, train_set_x[index * batch_size: (index + 1) * batch_size]),
                        (y, train_set_y[index * batch_size: (index + 1) * batch_size])]
)

## 検証モデルとテストモデルを作成

In [None]:
test_model = theano.function(
                inputs=[index],
                outputs=classifier.errors(y),
                givens={
                    x: test_set_x[index * batch_size: (index + 1) * batch_size],
                    y: test_set_y[index * batch_size: (index + 1) * batch_size]
                }
)

validate_model = theano.function(
                inputs=[index],
                outputs=classifier.errors(y),
                givens={
                    x: valid_set_x[index * batch_size: (index + 1) * batch_size],
                    y: valid_set_y[index * batch_size: (index + 1) * batch_size]
                }
)

検証モデルを使って，学習状況を判断していく．らしい．残りのコードはgistにあげておこう．