In [None]:
import math
import numpy as np


@np.vectorize
def sigmoid(x):
    return 1 / (1 + math.exp(-x))


@np.vectorize
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))


def forward(x, w1, b1, w2, b2):
    s = w1 @ x.T + b1
    h = sigmoid(s)
    z = w2 @ h.T + b2
    y = sigmoid(z)
    return y, h


Input = np.array([[0., 0.], [0., 1.], [1., 0.], [1., 1.]])
Target = np.array([0., 1., 1., 0.])
Rho = 0.01

if __name__ == '__main__':
    count = 1
    Flag = True

    rng = np.random.default_rng()

    w1 = np.random.randn(2, 2)
    b1 = np.random.randn(1, 2)
    w2 = np.random.randn(1, 2)
    b2 = np.random.randn()

    print(f'w1 = {w1}\nb1 = {b1}\nw2 = {w2}\nb2 = {b2}\n')

    for (x, t) in zip(Input, Target):
        print(f'x: {x}\ny: {forward(x, w1, b1, w2, b2)[0][0]}')

    print()

    Flag = False
    for (x, t) in zip(Input, Target):
        if not abs(forward(x, w1, b1, w2, b2)[0][0][0] - t) < 0.5:
            Flag = True
            break

    while(Flag):
        for (input, target) in zip(Input, Target):
            Flag = False
            output, hidden = forward(input, w1, b1, w2, b2)

            error = (output - target) * sigmoid_derivative(output)
            w2 = w2 - Rho * error * hidden
            b2 = b2 - Rho * error * 1

            w1 = w1 - (error * w2 * sigmoid_derivative(hidden)) * input.T
            b1 = b1 - (error * w2 * sigmoid_derivative(hidden))

            for (x, t) in zip(Input, Target):
                if not abs(forward(x, w1, b1, w2, b2)[0][0][0] - t) < 0.5:
                    Flag = True
                    break

            if not Flag:
                break

        if not Flag:
            break

    for(x, t) in zip(Input, Target):
        print(f'x: {x}\ny: {forward(x, w1, b1, w2, b2)[0][0]}')


w1 = [[-0.12775074 -0.06904337]
 [-0.06637332  0.90213537]]
b1 = [[ 0.44581177 -0.83794282]]
w2 = [[ 0.79502903 -0.26630358]]
b2 = 0.2815392825301448

x: [0. 0.]
y: [0.66503373]
x: [0. 1.]
y: [0.64922669]
x: [1. 0.]
y: [0.66038356]
x: [1. 1.]
y: [0.64457732]

x: [0. 0.]
y: [0.49458963]
x: [0. 1.]
y: [0.50000436]
x: [1. 0.]
y: [0.52175039]
x: [1. 1.]
y: [0.47072568]


## 実行環境

- CPU : AMD Ryzen 7 PRO 5850U
- ENV : Jupyter Notebook on Ubuntu(WSL2)

## 実行結果例

各実行結果は初期の重み，初期の重みによる判定結果，学習終了後の重みによる判定結果を順に表している．

1.	```
	w1 = [[-1.82779218 1.1014663][-1.26099547 0.30977176]]
	b1 = [[1.54812778 0.17810231]]
	w2 = [[0.8061677 -0.24359718]]
	b2 = -0.6053553145690919

	x: [0. 0.]
	y: [0.48171542]
	x: [0. 1.]
	y: [0.49916496]
	x: [1. 0.]
	y: [0.42070228]
	x: [1. 1.]
	y: [0.46946176]

	x: [0. 0.]
	y: [0.36650279]
	x: [0. 1.]
	y: [0.6015259]
	x: [1. 0.]
	y: [0.50001703]
	x: [1. 1.]
	y: [0.38418989]
	```

2.	```
	w1 = [[0.99764185 -0.62530017][-0.55476095 -0.03479695]]
	b1 = [[0.24746484 0.26423534]]
	w2 = [[0.81099542 -0.61500712]]
	b2 = -0.1289341453967884

	x: [0. 0.]
	y: [0.26342614]
	x: [0. 1.]
	y: [0.4646168]
	x: [1. 0.]
	y: [0.55912663]
	x: [1. 1.]
	y: [0.53505073]

	x: [0. 0.]
	y: [0.26342614]
	x: [0. 1.]
	y: [0.50021975]
	x: [1. 0.]
	y: [0.70956024]
	x: [1. 1.]
	y: [0.49798944]
	```

3.	```
	w1 = [[ 0.25168427  1.43789617]
	[ 0.01923802 -0.11445526]]
	b1 = [[-1.40698744 -0.39527868]]
	w2 = [[ 0.94151709 -0.57275338]]
	b2 = 0.7545204082524

	x: [0. 0.]
	y: [0.67022943]
	x: [0. 1.]
	y: [0.73450963]
	x: [1. 0.]
	y: [0.67849773]
	x: [1. 1.]
	y: [0.7453261]

	x: [0. 0.]
	y: [0.36167766]
	x: [0. 1.]
	y: [0.58947058]
	x: [1. 0.]
	y: [0.55779195]
	x: [1. 1.]
	y: [0.49994387]
	```

4.	```
	w1 = [[-0.12775074 -0.06904337]
	[-0.06637332  0.90213537]]
	b1 = [[ 0.44581177 -0.83794282]]
	w2 = [[ 0.79502903 -0.26630358]]
	b2 = 0.2815392825301448

	x: [0. 0.]
	y: [0.66503373]
	x: [0. 1.]
	y: [0.64922669]
	x: [1. 0.]
	y: [0.66038356]
	x: [1. 1.]
	y: [0.64457732]

	x: [0. 0.]
	y: [0.49458963]
	x: [0. 1.]
	y: [0.50000436]
	x: [1. 0.]
	y: [0.52175039]
	x: [1. 1.]
	y: [0.47072568]
	```

## 考察

30回の学習を行い，7回は60秒以内に学習が完了し，4回は300秒以内に学習が完了した．
この他は学習時間が600秒を超えたため，1例(1200秒程度)を除いてはその時点で学習を打ち切っている．
実行が60秒以内に終了した試行については初期の重みによる入力の全ての組に対する判定結果が0.4以上0.6未満であり，450秒以内に終了しなかった試行については初期の重みによる判定結果に0.3より小さいか0.8より大きい値が含まれていた．
このことから，初期の重みによる判定結果が目標値(0.5未満か否か)より大きく離れるほど，学習に要する時間も大きくなると考えられる．
ただし，初期の重みによる判定結果入力の全ての組に対する判定結果が0.4以上0.6未満であっても学習時間が600秒を超える例があり，先に述べた要因の他に学習時間に影響を与える要因があると考えられる．
またこれは筆者の主観であるが，XOR問題という人間には単純な問題に対する学習時間として1200秒以上は長く，誤差逆伝搬法による学習が最適な学習方法であるかについて調査が必要であると考えられる．．