# 第４ステージ　ニューラルネットワークを作る

## ステップ37 テンソルを扱う

### 37.1 要素ごとの計算

In [1]:
import numpy as np
import leopard.functions as F
from leopard import Variable

In [2]:
# 入力と出力が全てスカラ
x = Variable(np.array(1.0))
y = F.sin(x)
print(y)

variable(0.8414709848078965)


In [3]:
# 入力がテンソル -> 入力の各要素に適用
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sin(x)
print(y)

variable([[ 0.84147098  0.90929743  0.14112001]
          [-0.7568025  -0.95892427 -0.2794155 ]])


In [4]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
c = Variable(np.array([[10, 20, 30], [40, 50, 60]]))
y = x + c
print(y)

variable([[11 22 33]
          [44 55 66]])


### 37.2 テンソルを使用したときのバックプロパゲーション
これまで「スカラ」を対象に微分を求めたが、「テンソル」でも正しく動作する。

In [5]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
c = Variable(np.array([[10, 20, 30], [40, 50, 60]]))
y = x + c

y.backward(retain_grad=True) # retain_grad=Trueで微分を保持する
print(y.grad)
print(x.grad)
print(c.grad)

variable([[1 1 1]
          [1 1 1]])
variable([[1 1 1]
          [1 1 1]])
variable([[1 1 1]
          [1 1 1]])


### 37.3 省略

## ステップ38　形状を変える関数

### 38.1　reshape関数の実装
例えば、変数の形状を(2, 3)から(6,)へと変換する場合の逆伝播は、(6,)から(2, 3)へと変換する。

In [6]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.reshape(x, (6,))
y.backward(retain_grad=True)
print(x.grad, x.grad.shape, y.shape)

variable([[1 1 1]
          [1 1 1]]) (2, 3) (6,)


### 38.2　Variableからreshapeを使う
現状のreshape関数をNumpyのそれに近づける。

In [7]:
x = np.random.rand(1, 2, 3)

y = x.reshape((2, 3)) # tuple
y = x.reshape([2, 3]) # list
y = x.reshape(2, 3) # そのまま

In [8]:
x = Variable(np.random.randn(1, 2, 3))
y = x.reshape((2, 3))
y = x.reshape(2, 3)

### 38.3　行列の転置
順伝播で(3, 2)を(2, 3)にしたら、逆伝播では、(2, 3)を(3, 2)にする。
つまり、reshapeと同様に順伝播の逆をすると良い。

In [9]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.transpose(x)  # y = x.T
y.backward()
print(x.grad)

variable([[1 1 1]
          [1 1 1]])


In [10]:
x = Variable(np.random.rand(2, 3))
y = x.transpose()
print(y)
y = x.T
print(y)

variable([[0.02652528 0.2191978 ]
          [0.01024366 0.83980078]
          [0.21481783 0.43451516]])
variable([[0.02652528 0.2191978 ]
          [0.01024366 0.83980078]
          [0.21481783 0.43451516]])


### 38.4 【補足】実際のtranspose関数

In [11]:
A, B, C, D = 1, 2, 3, 4

x = Variable(np.random.rand(A, B, C, D))
print(x.shape)

y = x.transpose(1, 0, 3, 2)
y.backward()
print(x.grad.shape)

(1, 2, 3, 4)
(1, 2, 3, 4)


- memo<br>
    以下、`leopard/functions.py`のTranspose関数から抜粋
    ```Py
    class Transpose(Function):
        ...

        def backward(self, gy):
            if self.axes is None:
                return transpose(gy)

            axes_len = len(self.axes)
            inv_axes = tuple(np.argsort([ax % axes_len for ax in self.axes]))
            return transpose(gy, inv_axes)
    ```
    `inv_axes`の部分で、入力と同じになるように並び替えた次元のタプルが生成されている。<br>
    以下、並び替えの実験

In [12]:
A, B, C, D = 1, 2, 3, 4
axes = (D-1, A-1, B-1, C-1)
print(axes)

(3, 0, 1, 2)


- `np.argsort`は、引数を小さい順に並び替えた際の、元の引数のindexを返す。<br>
    上記の例で言うと、<br>
    `(index[0]: 3, index[1]: 0, index[2]: 1, index[3]: 2)`<br>
    ` -> (index[1]: 0, index[2]: 1, index[3]: 2, index[0]: 3)`

In [13]:
inv_axes = tuple(np.argsort(axes))
print(inv_axes)

(1, 2, 3, 0)


In [14]:
# 昇順に戻っている
[axes[i] for i in inv_axes]

[0, 1, 2, 3]

## ステップ39 和を求める関数

### 39.2 sum関数の実装

In [15]:
x = Variable(np.array([1, 2, 3, 4, 5, 6]))
y = F.sum(x)
y.backward()
print(y)
print(x.grad)

variable(21)
variable([1 1 1 1 1 1])


In [16]:
# 2次元配列（行列）の場合
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sum(x)
y.backward()
print(y)
print(x.grad)

variable(21)
variable([[1 1 1]
          [1 1 1]])


### 39.3　axisとkeepdims
Numpyの`np.sum`関数には、<strong>軸</strong>を指定する`axis`という引数と、入力と出力の次元数を保つかどうかを指定する`keepdims`がある。これを使えるよう修正する。

In [17]:
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.sum(x, axis=0)
print(y)
print(y.shape)
y = np.sum(x, axis=1)
print(y)
print(y.shape)

[5 7 9]
(3,)
[ 6 15]
(2,)


In [18]:
y = np.sum(x, keepdims=True)
print(y.shape)

y = np.sum(x, keepdims=False)
print(y)

(1, 1)
21


In [19]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sum(x, axis=0)
y.backward()
print(y)
print(x.grad)

x = Variable(np.random.randn(2, 3, 4, 5))
y = x.sum(keepdims=True)
print(y.shape)

variable([5 7 9])
variable([[1 1 1]
          [1 1 1]])
(1, 1, 1, 1)


## ステップ40 ブロードキャストを行う関数

### 40.1　broadcast_to関数とsum_to関数

In [20]:
x = np.array([1, 2, 3])
y = np.broadcast_to(x, (2, 3))
print(y)

[[1 2 3]
 [1 2 3]]


broadcast_to関数の逆伝播は、入力xの形状になるように勾配の和を求めれば良い。<br>
sum_to関数は、xの要素の和を求めてshapeの形状にする。

In [21]:
from leopard.utils import sum_to

In [22]:
x = np.array([[1, 2, 3], [4, 5, 6]])
y = sum_to(x, (1, 3))
print(y, y.shape)

y = sum_to(x, (2, 1))
print(y, y.shape)

[[5 7 9]] (1, 3)
[[ 6]
 [15]] (2, 1)


### 40.2 DeZeroのbroadcast_toとsum_to関数
sum_to関数の逆伝播は、broadcast_to関数を使って、入力の形状になるように勾配の要素を複製すると良い

### 40.3 ブロードキャストへの対応
現状では、順伝播のみ対応しているため、逆伝播にも対応する。

In [23]:
x0 = np.array([1, 2, 3])
x1 = np.array([10])

y = x0 + x1
print(y)

[11 12 13]


In [24]:
x0 = Variable(np.array([1, 2, 3]))
x1 = Variable(np.array([10]))

y = x0 + x1
print(y)

variable([11 12 13])


In [25]:
x0 = Variable(np.array([1, 2, 3]))
x1 = Variable(np.array([10]))
y = x0 + x1
print(y)

y.backward()
print(x0.grad, x1.grad)

variable([11 12 13])
variable([1 1 1]) variable([3])


## ステップ41 行列の積
### 41.1 ベクトルの内積と行列の積

In [26]:
# ベクトルの内積
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.dot(a, b)
print(c)

# 行列の積
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
c = np.dot(a, b)
print(c)

32
[[19 22]
 [43 50]]


### 41.2 行列の形状チェック


In [27]:
x = Variable(np.random.randn(2, 3))
W = Variable(np.random.randn(3, 4))
y = F.matmul(x, W)
y.backward()

print(x.grad.shape)
print(W.grad.shape)

(2, 3)
(3, 4)
