<a href="https://colab.research.google.com/github/project-ccap/project-ccap.github.io/blob/master/2022notebooks/2022_0418ccap_neural_networks_for_primer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2022_0418ccap 資料

- filename: `2022_0418ccap_neural_networks_for_primer.ipynb`

In [None]:
import numpy as np
np.set_printoptions(precision=3)

## Python

[Python](https://www.python.org/) は
    
- 基本データ型: リスト，辞書，集合，タプル
- 関数，クラス
- [Numpy](https://numpy.org/)
- [Scipy](https://scipy.org/)
- [Matplotlib](https://matplotlib.org/)
- [PyTorch](https://pytorch.org/)

Python は高級言語である。
スクリプト言語 (awk, Perl, シェルスクリプト, R) と比較される疑似言語と捉える場合もある。
このことは，数行のコードで高度な算法を行えることを意味する。
例えば古典的なクイックソートアルゴリズムは Python では以下のようになる:

```python
def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[int(len(arr) / 2)]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)
print(quicksort([3,6,8,10,1,2,1]))
# 印字( "[1, 1, 2, 3, 6, 8, 10]")
```

上記コードを理解するためには，`def`, `if`, `len`, `return`, `arr`, `for`, `print` と言った Python の予約語を覚える必要があるだろう。

駄菓子菓子，Python の大きな特徴は，インデント (indent 字下げ) に敏感 (indent sensitive) であることだろう。

    ちなみに，字下げ幅は，一貫していれば良い。
    上例の字下げ幅は 4 である。
    コード作成者の好みだが，字下げ幅 2 を好むプログラマもいる。
    字下げ幅 8 を好むプログラマもいる。

上記の例では，関数を定義するために `def` が用いられている。
この `def` の範囲が字下げで示されている。
字下げの有効範囲からは，上例下部の `print` 文は `def quicksort():` で始まる関数定義の範囲外である。

<!-- その他は，[Python の基礎](https://komazawa-deep-learning.github.io//python_numpy_intro_ja/) 参照のこと -->


# Deep learning
- Yann LeCun, Yoshua Bengio & Geoffrey Hinton
- doi:10.1038/nature14539
- 436, NATURE, Vol. 521, 28 MAY 2015
-
REVIEW doi:10.1038/nature14539

<center>
<div style="align:center">    
<img src="https://project-ccap.github.io/figures/2015LeCun_Bengio_Hinton_fig1ab.png" width="77%">
</center>
    
<div sytle="text-align:left; width:77%; background-color:cornsilk">

図 1.  多層ニューラルネットとバックプロパゲーション。
* a)  多層ニューラルネット (つながった点で示す) は入力空間を歪め，データのクラス (赤と青の線上の例) を線形分離可能にすることができる。
入力空間の規則正しい格子 (左図) が，隠れ層ユニットによってどのように変換されるか (中央図) にも注目。
この図 は 2 入力層ユニット，2 隠れ層ユニット，1 出力層ユニットを持つ例である。
物体認識や自然言語処理に用いられるネットワークは数万から数十万のユニットを持つ。
C. Olah (http://colah.github.io/) の許可を得て複製。

<!-- Figure 1. Multilayer neural networks and backpropagation.
* a, A multilayer neural network (shown by the connected dots) can distort the input space to make the classes of data (examples of which are on the red and blue lines) linearly separable.
Note how a regular grid (shown on the left) in input space is also transformed (shown in the middle panel) by hidden units.
This is an illustrative example with only two input units, two hidden units and one output unit, but the networks used for object recognition or natural language processing contain tens or hundreds of thousands of units. Reproduced with permission from C. Olah (http://colah.github.io/).  -->

* b)  微分の連鎖則 (合成関数の微分公式のこと) は，2 つの小さな影響 ($x$ の小さな変化が $y$ に及ぼす影響と $y$ の小さな変化が $z$ に及ぼす影響) がどのように構成されるかを教えてくれる。
$x$ の小さな変化 $\Delta x$ は $\partial y/\partial x$ を掛けられることによって，まず $y$ の小さな変化 $\Delta y$ に変換される (偏微分の定義)。
同様に，変化量 $\Delta y$ は $z$ の変化量 $\Delta z$ を生み出す。
一方の式を他方の式に代入すると，微分の連鎖法則，つまり $\partial y/\partial x$ と $\partial x$ の積の掛け算で $\Delta x$ が $\Delta z$ になることがわかる。
$x, y, z$ がベクトル (そして導関数がヤコビアン Jacobian) であるときにも有効。

<!-- * b, The chain rule of derivatives tells us how two small effects (that of a small change of x on y, and that of y on z) are composed.
A small change Δx in x gets transformed first into a small change Δy in y by getting multiplied by ∂y/∂x (that is, the definition of partial derivative).
Similarly, the change Δy creates a change Δz in z.
Substituting one equation into the other gives the chain rule of derivatives — how Δx gets turned into Δz through multiplication by the product of ∂y/∂x and ∂z/∂x.
It also works when x, y and z are vectors (and the derivatives are Jacobian matrices).  -->
</div>
</div>    

In [None]:
import numpy as np                                # 必要となるライブラリの輸入
lr, N_hid = 4, 8                                  # lr: 学習率, N_hid: 中間層数
X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ]) # 入力とバイアスの定義
y = np.array([[0,1,1,0]]).T                       # ターゲットの定義
Wh = np.random.random((X.shape[1], N_hid)) - 1/2  # 入力層から中間層への結合係数の初期化
Wo = np.random.random((N_hid, y.shape[1])) - 1/2  # 中間層から出力層への結合係数の初期化
for t in range(100):                              # 繰り返し
    H  = np.tanh(np.dot(X, Wh))                   # 入力層から中間層への計算。ハイパータンジェント関数
    _y = 1/(1. + np.exp(-(np.dot(H, Wo))))        # 中間層から出力層への計算。シグモイド関数
    Dy = (y - _y) * (_y * (1. - _y))              # 誤差の微分
    DH = Dy.dot(Wo.T) * (1. - H ** 2)             # 誤差逆伝播
    Wo += lr * _y.T.dot(Dy)                       # 中間層から出力層への重み更新
    Wh += lr * X.T.dot(DH)                        # 中間層から入力層への重み更新
print(_y.T)                                       # 結果の出力

In [None]:
import numpy as np
np.set_printoptions(precision=3)

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

X = np.array([ [0,0],[0,1],[1,0],[1,1] ])
y = np.array([[0,1,1,0]]).T
X = torch.Tensor(X)
y = torch.Tensor(y)
lr = 0.01

class MLP(nn.Module):

    def __init__(self, n_inp, n_hid, n_out=1):
        super().__init__()
        self.n_inp = n_inp
        self.n_hid = n_hid
        self.n_out = n_out
        self.hid_layer = nn.Linear(in_features =self.n_inp,
                                   out_features=self.n_hid,
                                   bias=True)
        self.out_layer = nn.Linear(self.n_hid, self.n_out)
        self.sigmoid = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.hid_layer(x)
        x = self.sigmoid(x)
        x = self.out_layer(x)
        x = self.sigmoid(x)
        return x

mlp = MLP(n_inp=2, n_hid=16, n_out=1)
#loss_f = nn.MSELoss()
#loss_f = nn.CrossEntropyLoss()
loss_f = nn.BCELoss()
#optim_f = torch.optim.SGD(mlp.parameters(),lr=lr)
optim_f = torch.optim.Adam(mlp.parameters(), lr=lr)

mlp.eval()
_y = mlp(X)
_pre_loss = loss_f(_y, y)
print(f'訓練開始前の損失値:    {_pre_loss.item():.3f}')

mlp.train()
epochs = 500
for epoch in range(epochs):
    optim_f.zero_grad()

    _y = mlp(X)                  # モデルに処理させて出力を得る
    loss = loss_f(_y, y)         # 損失値の計算

    if epoch % (epochs>>2) == 0: # 途中結果の出力
        print(f'エポック:{epoch:4d}: 損失値:{loss.item():.3f}')

    loss.backward()              # 誤差逆伝播
    optim_f.step()               # 重み更新。すなわち学習

mlp.eval()
_y = mlp(X)
print(f'最終結果:{_y.squeeze().detach().numpy()}')
