# ニューラル・ネットワーク

いよいよ2010年代の人工知能・機械学習の立役者

## ニューラル・ネットワークの原理

ニューラル・ネットワーク(neural network)は、人間の脳の構造を模した人工知能アルゴリズムです。

### ニューロン

人間の脳は、ニューロン(neuron)と呼ばれる神経細胞から構成されます。

ニューロンを単純化した数理モデルで考えます。

![neuron-fs8.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/f4485c8d-5f40-e478-a95f-043071b17ba6.png)


ネットワークの**重み**を$w_1, w_2$とすると：

__ニューロンから伝わる信号の総量__

$$
w_1 x_1 + w_2 x_2
$$

発火：次のニューロンに信号を伝える

入力の信号量がある閾値$\theta$を超えるかどうかで決まる

* 発火　$(w_1 x_1 + w_2 x_2 \ge \theta)$
* 発火しない　$ (w_1 x_1 + w_2 x_2 < \theta)$

__(学習のイメージ）誤り訂正学習法__

ある組み合わせ$(w_1, w_2)$で入力を試し、
出力が誤っていたらパラメータを調整することで徐々に正しい状態に近づける手法です。


### 単純パーセプトロン

単純パーセプトロンは、ニューラルネットワークの単純な数理モデルです。

$$
y = f(\mathbf{w}\cdot\mathbf{x}+b)
$$

* 入力: $\mathbf{x} = (x_1, x_2, ..., x_n)$
* 重み: $\mathbf{w} = (w_1, w_2, ..., w_n)$
* バイアス: $b$
* 活性化関数 $f(x) = \begin{cases}
    1 & (x>0) \\
    0  & (x\le0)
  \end{cases}$ 

### 確率モデルの導入

活性化関数は、ニューロンの発火を定める関数です。
前の説明では、ニューロンの発火を0,1で決定していましたが、
機械学習ではきれいに0,1に分類されることはありません。
発火しそうだけどギリギリ発火しないなどの中間的な状態があります。
パーセプトロンでは、活性化関数として、
ロジスティック回帰でも用いた標準シグモイド関数を使うことで、
0から1の連続値を扱えるようになります。
これで、0.49のようなギリギリ発火しない状態も表現できます。

__標準シグモイド関数__
$$
\sigma(x) = \frac{1}{1+e^{-x}}
$$

ちなみに、シグモイド関数が好まれる理由は、微分をしてみると、シグモイド関数の形で表されるからです。

$$
\sigma'(x) = \sigma(x)(1 - \sigma(x))
$$

シグモイド関数を用いると、確率的分類モデルになります。

* ニューロンが発火する確率: $p(C = 1 ~|~ x) = \sigma(\mathbf{w} \mathbf{x} + b)$
* ニューロンが発火しない確率: $p(C = 0~|~ x) = 1 - p(C = 1 ~|~ x) = 1 - \sigma(\mathbf{w} \mathbf{x} + b)$

確率変数$C$は、0か1なので、$y = \mathbf{w} \mathbf{x} + b$として、
次の式にまとめられます。

$$
p(C = t | x) = y^t(1-y)^{(1-t)}
$$

尤度関数(ゆうど）は、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさ（もっともらしさ）を表す数値を関数として捉えたものです。

尤度関数: wとbを尤度推定するための関数

$$
L(w, b) = \prod_{n=1}^{N} p(C = t_n|x_n) = \prod_{n=1}^{N} y_n^{t_n}(1 - y_n)^{1-t_n}
$$

### ニューラルネットワークの学習

ニューラル・ネットワークの学習は、
尤度関数$L(w, b)$を最大化するように$w$と$b$を調整することになります。

<div class="alert alert-info">

**最適化問題(optimization problem)**

関数が最大・最小となる状態を求める問題のこと。
関数の最大化は、符号を反転すると、最小化に置き換えられるので、
一般に関数を最適化するとは、関数を最小化するパラメータを求めることです。
</div>

パラメータの偏微分（勾配）を求める。

積の形をしているので、偏微分の計算が煩雑になります。そこで、事前の準備として、対数をとって、和の形に変形しておきます。

__交差エントロピー誤差関数(cross-entropy error function)__
$$
E(w, b) = - \log{L(w, b)} = - \sum_{n=1}^{N} t_n \log{y_n} + (1 - t_n)\log{1-y_n}
$$

$E(w, b)$を最小化することがもともとの尤度関数の最適化になります。一般的には、$E$のことを**誤差関数(error function)**、もしくは、**損失関数(loss function)**と呼びます。








### 勾配降下法

交差エントロピー誤差関数$E(w,b)$を最適化するためには、$w, b$で偏微分して0になるパラメータを求めることになります。しかし、解析的にこの値を求めるのは困難な場合があります。
そこで、パラメータを逐次的に更新することで、最適化を探索するアプローチがとられます。

__勾配降下法(gradient descent)__

$$
w^{(k+1)} = w^{(k)} - \nu \frac{\partial E(w, b)}{\partial w}　
= w^{(k)} - \nu \sum_{n=1}^{N}(t_n - y_n)x_n
$$

$$
b^{(k+1)} = b^{(k)} - \nu \frac{\partial E(w, b)}{\partial b} 
= b^{(k)} - \nu \sum_{n=1}^N (y_n - t_n)
$$

(直感的な解釈)： 予測値と実際の値との誤差(y_n - t_n)を用いて、パラメータが更新されます。つまり、ニューラルネットワークの目標は、「予測値と実際の値」の差をなくすことなので、直感に反しない解釈となります。

<div class="alert alert-info">

学習率(learning_rate): $\nu(>0)$

学習率は、収束しやすさを調整するハイパーパラメータです。
通常は、$0.1$や$0.01$などの適当な小さい値を与えます。

</div>


## 単純パーセプトロンの実装

NumPyを用いて単純パーセプトロンを実装してみましょう。



In [None]:
import numpy as np

DIM=2
LR = 0.1 #学習率

# モデルのパラメータ
w = np.random.normal(size=(DIM,))
b = 0

def forward(y):
    y = activate(np.matmul(w, x) + b)
    return y

def activate(x):
    return 1 / (1+np.exp(-x))

def compute_loss(t, y):
    return (-t * np.log(y) - (1 - t)*np.log(1-y)).sum()

def train_step(x, t):
    y = forward(x)
    delta = y - t
    dw = np.matmul(x, delta)
    db = np.matmul(np.ones(DIM), delta)
    w = w - LR * dw
    b = b - LR * db
    loss = compute_loss(t, y)
    return loss    




## 多層パーセプトロン

単純パーセプトロンは、原理的にロジスティック回帰と等価です。
（こんなに頑張っても）線形分離可能な問題しか解くことができません。

線形分離不可能な問題を解くためのアイディアは、パーセプトロンを組み合わせて多層化することです。

### 深層学習へ

多層ニューラルネットの学習は、４層以上の局所最適解や勾配消失などの技術的な問題によって、十分に学習させられず、性能も芳しくないとして、1990年代を中心とした時期には研究なども退潮気味にあった。

機械学習において、ニューラルネットワークを使用した次元圧縮のためのアルゴリズム。2006年にジェフリー・ヒントンらが提案した。

多層パーセプトロンに数々の工夫を加えたものが深層学習です。

![deep1-fs8.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/ebc23dd0-544b-7b72-185e-510a584aae8b.png)

![deep2-fs8.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/49663032-edde-3f61-c00b-cc1dcf5d0704.png)



## コースワーク

<div class="alert alert-info">

Let's try

`2 ** (1//2)` が、正しく $\sqrt{2}$ にならない理由を考えてみよう

</div>

<div class="alert alert-warning">

(プログラミングの)$N$個数える

プログラミングでは、原則、「**0から**$N-1$まで」のように数えます。

</div>

### 平均点

<div class="admonition tip">

**例題（平均点）**

期末試験は5人受験した。
点数が40点未満の生徒は全員，補習を受け，成績が40点になった。
5人の平均点を求めよ。

入力例：
```
10
65
100
30
95
```

出力例：
```
68
```

[AtCoder (JOI2014 予選)](https://atcoder.jp/contests/joi2014yo/tasks/joi2014yo_a)

</div>

__(解法) リストを使う場合__

1. 期末試験を記録する空の得点リスト `scores` を用意する
2. 5人分繰り返し、点数を読んで、`scores` に追加する 
3. 平均点は `sum(scores) // 5`
