<a href="https://colab.research.google.com/github/isshiki/neural-network-by-code/blob/main/01-forward-prop/nn_from_scratch_without_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##### Copyright 2021-2022 Digital Advantage - Deep Insider.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

連載『ニューラルネットワーク入門』
# 「コードで必ず分かるニューラルネットワーク（DNN）の逆伝播」


<table valign="middle">
  <td>
    <a target="_blank" href="https://atmarkit.itmedia.co.jp/ait/subtop/features/di/neuralnetwork_index.html"> <img src="https://re.deepinsider.jp/img/ml-logo/manabu.svg"/>Deep Insiderで記事を読む</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/isshiki/neural-network-by-code/tree/main/01-forward-prop/nn_from_scratch_without_numpy.ipynb"> <img src="https://re.deepinsider.jp/img/ml-logo/gcolab.svg" />Google Colabで実行する</a>
  </td>
  <td>
    <a target="_blank" href="https://studiolab.sagemaker.aws/import/github/isshiki/neural-network-by-code/tree/main/01-forward-prop/nn_from_scratch_without_numpy.ipynb"> <img src="https://re.deepinsider.jp/img/ml-logo/astudiolab.svg" />AWS  SageMaker Studio Labで実行する</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/isshiki/neural-network-by-code/tree/main/01-forward-prop/nn_from_scratch_without_numpy.ipynb"> <img src="https://re.deepinsider.jp/img/ml-logo/github.svg" />GitHubでソースコードを見る</a>
  </td>
</table>

## ■本ノートブックの目的

ニューラルネットワーク（以下、ニューラルネット）の仕組みを、数学理論からではなく**Pythonコードから学ぶ**ことを狙っています。「難しい高校以降の数学は苦手だけど、コードなら読めるぜ！」という方にピッタリです。

### ●本ノートブックの特徴

- 線形代数（linear algebra、行列演算）を使いません。つまり、NumPyを使いません。
- 基本的に掛け算や足し算などの中学までの数学のみで、ニューラルネットのロジックをコーディングしていきます。
- ※微分の導関数は、そのままコードとして記載することで、微分の計算は取り上げません。

![図1　線形代数は使わないことによるメリット](https://raw.githubusercontent.com/isshiki/neural-network-by-code/main/01-forward-prop/images/01.png)  
図1　線形代数は使わないことによるメリット

## ■ニューラルネットワークの図

基本的なニューラルネット（この例では、入力層：2、隠れ層：3、出力層：1）の図を確認しておきます。

![図2　ニューラルネットワークの図（左：通常、右：本ノートブック）](https://raw.githubusercontent.com/isshiki/neural-network-by-code/main/01-forward-prop/images/02.png)

## ■訓練（学習）処理全体の実装

深層「学習」のメインは、ニューラルネットの「訓練」処理ですよね。ここから書いていきます。

In [None]:
# 取りあえず空の関数を定義して、コードが実行できるようにしておく
def forward_prop(cache_mode=False):
    " 順伝播を行う関数。"
    return None, None, None

y_true = 1.0  # 正解値
def back_prop(y_true, cached_outs, cached_sums):
    " 逆伝播を行う関数。"
    return None, None

LEARNING_RATE = 0.1 # 学習率
def update_params(grads_w, grads_b, lr=0.1):
    " パラメーター（重みとバイアス）を更新する関数。"
    return None, None

# ---ここまでは仮の実装。ここからが必要な実装---

# 訓練処理
y_pred, cached_outs, cached_sums = forward_prop(cache_mode=True)  # （1）
grads_w, grads_b = back_prop(y_true, cached_outs, cached_sums)  # （2）
weights, biases = update_params(grads_w, grads_b, LEARNING_RATE)  # （3）

print(f'予測値：{y_pred}')  # 予測値： None
print(f'正解値：{y_true}')  # 正解値： 1.0

ニューラルネットの訓練に必要なことは、以下の3つだけ。

1. **順伝播：** `forward_prop()◎`数として実装
2. **逆伝播：** `back_prop()`関数として実装
3. **パラメーター（重みとバイアス）の更新：** `update_params()`関数として実装。これによりモデルが**最適化**される


![図3　訓練（学習）処理を示したニューラルネットワーク図](https://raw.githubusercontent.com/isshiki/neural-network-by-code/main/01-forward-prop/images/03.png)

##■モデルの定義と、仮の訓練データ

入力層のノードが2個、隠れ層のノードが3個、出力層のノードが1個のモデル（`model`変数）を定義しましょう。

In [None]:
# ニューラルネットワークは3層構成
layers = [
    2,  # 入力層の入力（特徴量）の数
    3,  # 隠れ層1のノード（ニューロン）の数
    1]  # 出力層のノードの数

# 重みとバイアスの初期値
weights = [
    [[0.0, 0.0], [0.0, 0.0], [0.0, 0.0]], # 入力層→隠れ層1
    [[0.0, 0.0, 0.0]] # 隠れ層1→出力層
]
biases = [
    [0.0, 0.0, 0.0],  # 隠れ層1
    [0.0]  # 出力層
]

# モデルを定義
model = (layers, weights, biases)

# 仮の訓練データ（1行分）を準備
x = [0.05, 0.1]  # x_1とx_2の2つの特徴量

## ■ステップ1. 順伝播の実装

ニューラルネットの最小単位である「1つのノード」における順伝播の処理をコーディングしましょう。

In [None]:
# 取りあえず空の関数を定義して、コードが実行できるようにしておく
def summation(x,weights, bias):
    " 重み付き線形和の関数。"
    return 0.0

def sigmoid(x):
    " シグモイド関数。"
    return 0.0

def identity(x):
    " 恒等関数。"
    return 0.0


w = [0.0, 0.0]  # 重み（仮の値）
b = 0.0  # バイアス（仮の値）

next_x = x  # 訓練データをノードへの入力に使う

# ---ここまでは仮の実装。ここからが必要な実装---

# 1つのノードの処理（1）： 重み付き線形和
node_sum = summation(next_x, w, b)

# 1つのノードの処理（2）： 活性化関数
is_hidden_layer = True
if is_hidden_layer:
    # 隠れ層（シグモイド関数）
    node_out = sigmoid(node_sum)
else:
    # 出力層（恒等関数）
    node_out = identity(node_sum)

1つのノードの順伝播処理に必要なことは、以下の2つの数学関数だけ。

1. **重み付き線形和の関数：** `summation()`関数として実装
2. **活性化関数：** ここでは`sigmoid()`関数や`identity()`関数として実装

![図4　訓練（学習）処理を示したニューラルネットワーク図](https://raw.githubusercontent.com/isshiki/neural-network-by-code/main/01-forward-prop/images/04.png)

### ●重み付き線形和

重み付き線形和（weighted linear summation、以下では「線形和」と表記）とは、とは、あるノードへの複数の入力（$x_1$、$x_2$など）に、それぞれの重み（$w_1$、$w_2$など）を掛けて足し合わせて、最後にバイアス（$b$）を足した値です（上の図の左）。

In [None]:
def summation(x, weights, bias):
    """
    重み付き線形和の関数。
    ※1データ分、つまりxとweightsは「一次元リスト」という前提。
    - 引数：
    x： 入力データをリスト値（各要素はfloat値）で指定する。
    weights： 重みをリスト値（各要素はfloat値）で指定する。
    bias： バイアスをfloat値で指定する。
    - 戻り値：
    線形和の計算結果をfloat値で返す。。
    """
    linear_sum = 0.0
    for x_i, w_i in zip(x, weights):
        linear_sum += x_i * w_i  # iは番号の意味（数学は基本的に1スタート）
        # print(f'x_i({x_i})×w_i({w_i})＋', end='')
    linear_sum += bias
    # print(f'b({bias})', end='')
    return linear_sum

# 線形代数を使う場合のコード例：
# linear_sum = np.dot(x, weights) + bias

ついで、次回の逆伝播（の中で使う偏微分）で必要となる線形和（linear **sum**mation）の偏導関数（partial **der**ivative function）を実装しておきます。

In [None]:
def sum_der(x, weights, bias, with_respect_to='w'):
    """
    重み付き線形和の関数の偏導関数。
    ※1データ分、つまりxとweightsは「一次元リスト」という前提。
    - 引数：
    x： 入力データをリスト値で指定する。
    weights：  重みをリスト値で指定する。
    bias: バイアスをfloat値で指定する。
    with_respect_to: 何に関して偏微分するかを指定する。
        'w'＝ 重み、'b'＝ バイアス、'x'＝ 入力。
    - 戻り値：
    with_respect_toが'w'や'x'の場合はリスト値で、'b'の場合はfloat値で
        線形和の偏微分の計算結果（微分係数）を返す。
    """    
    if with_respect_to == 'w':
        return x  # 線形和uを各重みw_iで偏微分するとx_iになる（iはノード番号）。
    if with_respect_to == 'b':
        return 1.0  # 線形和uをバイアスbで偏微分すると1になる。
    elif with_respect_to == 'x':
        return weights  # 線形和uを各入力x_iで偏微分するとw_iになる。

### ●活性化関数：シグモイド関数

隠れ層では、最も基礎的なシグモイド関数（Sigmoid function）を固定的に使うことにします。導関数も実装しておきます。

In [None]:
import math

def sigmoid(x):
    """
    シグモイド関数。
    - 引数：
    x： 入力データをfloat値で指定する。
    - 戻り値：
    シグモイド関数の計算結果をfloat値で返す。
    """
    return 1.0 / (1.0 + math.exp(-x))

# 線形代数の場合はmathをnpに変える（事前にimport numpy as np）

In [None]:
def sigmoid_der(x):
    """
    シグモイド関数の（偏）導関数。
    - 引数：
    x： 入力データをfloat値で指定する。
    - 戻り値：
    シグモイド関数の（偏）微分の計算結果（微分係数）をfloat値で返す。
    """
    output = sigmoid(x)
    return output * (1.0 - output)

### ●活性化関数：恒等関数

出力層では、回帰問題をイメージして、そのままの値を出力する活性化関数である恒等関数（Identity function）を使用します。導関数も実装しておきます。

In [None]:
def identity(x):
    """
    恒等関数の関数。
    - 引数：
    x： 入力データをfloat値で指定する。
    - 戻り値：
    恒等関数の計算結果（そのまま）をfloat値で返す。
    """
    return x

In [None]:
def identity_der(x):
    """
    恒等関数の（偏）導関数。
    - 引数：
    x： 入力データをfloat値で指定する。
    - 戻り値：
    恒等関数の（偏）微分の計算結果（微分係数）をfloat値で返す。
    """
    return 1.0

### ●順伝播の処理全体の実装

ニューラルネットには、層があり、その中に複数のノードが存在するという構造です。  従って、

- 各層を1つずつ処理する`for`ループと、  
  - 層の中のノードを1つずつ処理する`for`ループの2段階構造が必要で、
    - その中に「1つのノードにおける処理」

を記述すればよいわけです。

In [None]:
def forward_prop(layers, weights, biases, x, cache_mode=False):
    """
    順伝播を行う関数。
    - 引数：
    (layers, weights, biases)： モデルを指定する。
    x： 入力データを指定する。
    cache_mode： 予測時はFalse、訓練時はTrueにする。これにより戻り値が変わる。
    - 戻り値：
    cache_modeがFalse時は予測値のみを返す。True時は、予測値だけでなく、
        キャッシュに記録済みの線形和（Σ）値と、活性化関数の出力値も返す。
    """

    cached_sums = []  # 記録した全ノードの線形和（Σ）の値
    cached_outs = []  # 記録した全ノードの活性化関数の出力値

    # まずは、入力層を順伝播する
    # print(f'■第1層（入力層）-全て（{len(x)}個）の特徴量：')
    outs = x  # 
    # print(f'　●入力データ： ', end='')
    cached_outs.append(x)  # 何も処理せずに出力値を記録
    # print(f'何もしない＝out({x})')
    next_x = x  # 現在の層の出力（x）＝次の層への入力（next_x）

    # 次に、隠れ層や出力層を順伝播する
    SKIP_INPUT_LAYER = 1
    for layer_i, layer in enumerate(layers):  # 各層を処理
        if layer_i == 0:
            continue  # 上で処理済み

        # 各レイヤーのノードごとに処理を行う
        sums = []
        outs = []
        for node_i in range(layer):  # 層の中のノードを処理
            # print(f'■第{layer_i+1}層-第{node_i+1}ノード：')

            # ノードごとの重みとバイアスを取得
            w = weights[layer_i-SKIP_INPUT_LAYER][node_i]
            b = biases[layer_i-SKIP_INPUT_LAYER][node_i]

            # 1つのノードの処理（1）： 重み付き線形和
            # print(f'　●重み付き線形和： ', end='')
            node_sum = summation(next_x, w, b)
            # print(f'＝sum({node_sum})')

            # 1つのノードの処理（2）： 活性化関数
            if layer_i < len(layers)-SKIP_INPUT_LAYER:
                # 隠れ層（シグモイド関数）
                # print(f'　●活性化関数（隠れ層はシグモイド関数）： ', end='')
                node_out = sigmoid(node_sum)
                # print(f'sigmoid({node_sum})＝out({node_out})')
            else:
                # 出力層（恒等関数）
                # print(f'　●活性化関数（出力層は恒等関数）： ', end='')
                node_out = identity(node_sum)
                # print(f'identity({node_sum})＝out({node_out})')

            # 各ノードの線形和と（活性化関数の）出力をリストにまとめていく
            sums.append(node_sum)
            outs.append(node_out)

        # 各層内の全ノードの線形和と出力を記録
        cached_sums.append(sums)
        cached_outs.append(outs)
        next_x = outs  # 現在の層の出力（outs）＝次の層への入力（next_x）

    if cache_mode:
        return (cached_outs[-1], cached_outs, cached_sums)

    return cached_outs[-1]


# 訓練時の（1）順伝播の実行例
y_pred, cached_outs, cached_sums = forward_prop(*model, x, cache_mode=True)
# ※先ほど作成したモデルと訓練データを引数で受け取るよう改変した

print(f'cached_outs={cached_outs}')
print(f'cached_sums={cached_sums}')
# 出力例：
# cached_outs=[[0.05, 0.1], [0.5, 0.5, 0.5], [0.0]]  # 入力層／隠れ層1／出力層
# cached_sums=[[0.0, 0.0, 0.0], [0.0]]  # 隠れ層1／出力層（※入力層はない）

数値が**0.0**ばかりなので、別の計算パターンのコードも入れておきました。

In [None]:
# 記事にはないが。別の計算パターンでもチェックしてみよう
x3 = [0.05, 0.1]
layers3 = [2, 2, 2]
weights3 = [
    [[0.15, 0.2], [0.25, 0.3]],
    [[0.4, 0.45], [0.5,0.55]]
]
biases3 = [[0.35, 0.35], [0.6, 0.6]]
model3 = (layers3, weights3, biases3)

y_pred3, cached_outs3, cached_sums3 = forward_prop(*model3, x3, cache_mode=True)
print(f'y_pred={y_pred3}')
print(f'cached_outs={cached_outs3}')
print(f'cached_sums={cached_sums3}')
# y_pred=[1.10590596705977, 1.2249214040964653]
# cached_outs=[[0.05, 0.1], [0.5932699921071872, 0.596884378259767], [1.10590596705977, 1.2249214040964653]]
# cached_sums=[[0.3775, 0.39249999999999996], [1.10590596705977, 1.2249214040964653]]

ここまでのコード中に仕込んでいる`print()`関数を（※全てコメントアウトしています）のコメントを解除すると、以下のように途中の計算内容が順番にテキスト出力されます。計算内容の検証用の機能です。

![別の計算パターンの出力例](https://raw.githubusercontent.com/isshiki/neural-network-by-code/main/01-forward-prop/images/notebook-01.png)

### ●順伝播による予測の実行例

非常にシンプルで原始的な実装ですが、このように任意の層数とノード数の全結合のDNN（Deep Neural Network）のアーキテクチャーを定義して、DNNモデルによる予測が行えます。

In [None]:
# 異なるDNNアーキテクチャーを定義してみる
layers2 = [
    2,  # 入力層の入力（特徴量）の数
    3,  # 隠れ層1のノード（ニューロン）の数
    2,  # 隠れ層2のノード（ニューロン）の数
    1]  # 出力層のノードの数

# 重みとバイアスの初期値
weights2 = [
    [[-0.2, 0.4], [-0.4, -0.5], [-0.4, -0.5]], # 入力層→隠れ層1
    [[-0.2, 0.4, 0.9], [-0.4, -0.5, -0.2]], # 入力層→隠れ層1
    [[-0.5, 1.0]] # 隠れ層1→出力層
]
biases2 = [
    [0.1, -0.1, 0.1],  # 隠れ層1
    [0.2, -0.2],  # 隠れ層1
    [0.3]  # 出力層
]

# モデルを定義
model2 = (layers2, weights2, biases2)

# 仮の訓練データ（1行分）を準備
x2 = [2.3, 1.5]  # x_1とx_2の2つの特徴量

# 予測時の（1）順伝播の実行例
y_pred = forward_prop(*model2, x2)
print(y_pred)  # 予測値
# 出力例：
# [0.3828840428423274]

### ●今後のステップの準備：関数への仮引数の追加

In [None]:
def back_prop(layers, weights, biases, y_true, cached_outs, cached_sums):
    " 逆伝播を行う関数。"
    return None, None

def update_params(layers, weights, biases, grads_w, grads_b, lr=0.1):
    " パラメーター（重みとバイアス）を更新する関数。"
    return None, None

# お疲れさまでした。第1回は以上です。
第2回と第3回はこのノートブックをアップデートする予定です。