# 最近話題の[JAX](https://jax.readthedocs.io/en/latest/installation.html) の勉強をしているのでこのサイトたち[クイックスタート](https://jax.readthedocs.io/en/latest/notebooks/quickstart.html)と関数について詳しく説明していてくれる[サイト](https://jax.readthedocs.io/en/latest/notebooks/Common_Gotchas_in_JAX.html)を参考に説明していきます．

まず, こちらの[サイト]((https://jax.readthedocs.io/en/latest/notebooks/quickstart.html))を参考に説明していきます．

JAXはXLAをnumpyのコードを走らせるときやコンパイルする時により早くするために使っています，

例えば，乗算, 和算, 減算がある関数内であったときに, XLAなしでこれを使うとそれぞれの計算に一つずつのGPUカーネルを用意し, 計算しますがXLAありで使うとカーネルを一つだけのGPUカーネルで済むことを述べています．

In [1]:
import jax.numpy as jnp #numpyと同じようなもの
from jax import grad #微分する時とか勾配計算したいとき
from jax import jit #コードを早くしたいとき
from jax import vmap #ベクトルに変換したいとき
from jax import random 

----

numpyではnumpy.random.seed(0)のようなランダムに決めた値でも再現性を持たせるための関数を持ち合わせています．

一方, jaxでもそのようなkeyを持ち合わせています．

In [2]:
key = random.PRNGKey(0)
x = random.uniform(key,(10,)) #一様分布からランダムな値を取得
print(x)
print(x)
print(x)

[0.35490513 0.60419905 0.4275843  0.23061597 0.32985854 0.43953657
 0.25099766 0.27730572 0.7678207  0.71474564]
[0.35490513 0.60419905 0.4275843  0.23061597 0.32985854 0.43953657
 0.25099766 0.27730572 0.7678207  0.71474564]
[0.35490513 0.60419905 0.4275843  0.23061597 0.32985854 0.43953657
 0.25099766 0.27730572 0.7678207  0.71474564]


上の結果を見ればわかるようにしっかりとランダムだが，再現性を持つ関数になっていることがわかりますね．

---

次に上記で説明したコードを早くするjit(デコレータ)を見ていきましょう.


In [9]:
def func(x,a = 2,b = 3):
    return jnp.exp(a) + b * jnp.sin(b)

x = random.normal(key,(100000,))
%timeit func(x).block_until_ready()

27.1 µs ± 170 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [10]:
func_jit = jit(func)
%timeit func_jit(x).block_until_ready()

4.7 µs ± 87.5 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


一回ごとのループは早くなっていることがわかりますね．

しかしながら, jitを適応できない場合もあります．

あとで説明するのですが，簡潔に説明すると, 関数内で使う行列の型が引数などになっているときです．

----

次はgradの説明をしていきます．

関数の傾きなどを計算したいときにこの関数は使われます．

早速例を見ていきます．

In [15]:
def func_1(x):
    return x ** 2 + 3
x = 1.0
derivative_func = grad(func_1)
print(derivative_func(x))

2.0


func_1は $x ^ 2 + 3$ なので微分は $2x$ なので $x = 1$ の傾きは2.0であってますね．

機械学習の世界では行列にたいての傾きなどを求めたい時が多々あるのでその例を見てみましょう．

なので,次はxにベクトルを入れてみましょう．

In [16]:
def func_1(x):
    return x ** 2 + 3
x = jnp.arange(3.)
derivative_func = grad(func_1)
print(derivative_func(x))


TypeError: Gradient only defined for scalar-output functions. Output had shape: (3,).

エラーが出てしまいますね．

メッセージを見てみると, 勾配はスカラー値じゃないとできないよと言っています．

そこで1番最初に紹介したvmapを適応してみます．

In [21]:
def func_1(x):
    return x ** 2 + 3
x = jnp.arange(3.)
derivative_func = vmap(grad(func_1))
print(derivative_func(x))

[0. 2. 4.]


うまくいきましたね．
このような使い方もvmapはできます．

vmapの他の例も見てみましょう．

In [28]:
mat = random.normal(key, (150,100))
batched_x = random.normal(key, (10,100))

def apply_matrix(v):
    return mat @ v

print(mat.shape,batched_x.shape)

(150, 100) (10, 100)
(10, 100)


In [31]:
def naively_batched_apply_matrix(v_batched):
  return jnp.stack([apply_matrix(v) for v in v_batched]) # for loopでvの型は100なので行列計算できる．

print('Naively batched')
%timeit naively_batched_apply_matrix(batched_x).block_until_ready()

Naively batched
1.68 ms ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


上の計算は書くのが面倒な上に遅いので，vmapを使うと次のように書き換えられます．

In [34]:
@jit
def vmap_batch_matrix(v_batched):
    return vmap(apply_matrix)(v_batched)

print('Auto-vectorized with vmap')
%timeit vmap_batch_matrix(batched_x).block_until_ready()

Auto-vectorized with vmap
19.6 µs ± 137 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
