<a href="https://colab.research.google.com/github/yukinaga/minnano_dl/blob/main/section_3/01_differentiation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 微分の基礎
「微分」の概念を理解しましょう。  
微分とは、ある関数上の各点における変化の割合のことで、ディープラーニングにおいて頻繁に使用します。

## 関数とは？
関数とは、ある値$x$を決めると、それにともない値$y$が決まる関係のことです。  
例えば、$x$を決めると$y$の値が決定される時、関数$f$を次のように表すことができます。  
$$y=f(x)$$
これは、$y$が$x$の関数である、ということを意味します。

以下に、関数$y=f(x)$の例を示します。

$$y=3x$$
$$y=3x^2+2x+1$$
$$y=\frac{1}{x}$$

これらは全て、$x$の値を決めることで$y$の値が決まります。

## 極限とは？

「極限」とは、関数における変数の値をある値に近づけるとき、関数の値が限りなく近づく値のことです。  
例として、関数$y=x^2+1$において、$x$を徐々に「0」に近づけるケースを考えます。  

$x=2$のとき、$y=5$  
$x=1$のとき、$y=2$  
$x=0.5$のとき、$y=1.25$  
$x=0.1$のとき、$y=1.01$  
$x=0.01$のとき、$y=1.0001$  

このように、$x$を0に近づけると$y$は1に近づいていきます。  
これは、次のように式で表すことができます。  

$$\lim_{x\to 0}y = \lim_{x\to 0}(x^2+1)=1$$

この式は、「$x$を限りなく0に近づけたとき、$y$が限りなく1に近づく」ということを意味します。
$y=x^2+1$を描画し、この関数上で$x$が0に近づく様子を観察しましょう。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# y=x^2+1の描画
x = np.linspace(-3, 3)
y = x**2 + 1  # y=x^2+1
plt.plot(x, y, linestyle="dashed")  # 点線で描画

# xを0に近づける
x_lim = np.array([2, 1, 0.5, 0.1, 0.01, 0.001])
y_lim = x_lim**2 + 1  # y=x^2+1
plt.scatter(x_lim, y_lim)  # 散布図で表示

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

## 微分とは？
関数$y=f(x)$において、$x$の微小な変化量を$\Delta x$とすると、$x$を$\Delta x$だけ変化させた際の$y$の値は次のようになります。  

$$y=f(x+\Delta x)$$  

このとき、$y$の微小な変化量は次の通りです。

$$\Delta y=f(x+\Delta x)-f(x)$$  

従って、$y$の微小な変化$\Delta y$と$x$の微小な変化$\Delta x$の割合は、次の式で表されます。

$$ \frac{\Delta y}{\Delta x}=\frac{f(x+\Delta x)-f(x)}{\Delta x} $$

この式で、$\Delta x$の値を0に限りなく近づける極限を考えます。  


In [None]:
import numpy as np
import matplotlib.pyplot as plt

def my_func(x):  # y=x^2+1を表す関数
    y = x**2 + 1
    return y

x = np.linspace(-3, 3)
y = my_func(x)
plt.plot(x, y, label="y", linestyle="dashed")

delta_x = 0.01  # 0に近い⊿xの値
delta_y = my_func(x+delta_x) - my_func(x)  # ⊿y
delta_y_delta_x = delta_y / delta_x  # ⊿x/⊿y
plt.plot(x, delta_y_delta_x, label="⊿y/⊿x")

plt.legend()

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

$\frac{\Delta y}{\Delta x}$は、$y=x^2+1$がどの程度「傾いて」いるかを表します。
これの極限は、新たな関数$f'(x)$として表すことができます。  

$$ f'(x) = \lim_{\Delta x \to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} $$

この関数$f'(x)$を、$f(x)$の「導関数」といいます。  
そして、関数$f(x)$から導関数$f'(x)$を得ることを、関数$f(x)$を「微分」する、といいます。

導関数は以下のように表記することもあります。  

$$ f'(x) = \frac{df(x)}{dx} = \frac{d}{dx} f(x) $$

導関数により、関数上のある点における傾き（勾配）の大きさを求めることができます。  
関数$f(x)$上のある点、$(a, f(a))$における傾きの大きさは、$f'(a)$となります。  

## 微分の公式
いくつかの関数は、微分の公式を用いることで簡単に導関数を求めることができます。  
以下に、微分の公式をいくつか紹介します。各公式の証明はここでは行いませんので、興味のある方は各自調べましょう。 

$r$を任意の実数として$f(x) = x^r$としたとき、以下が成り立ちます 。 

（公式 1）
$$ \frac{d}{dx}f(x) = \frac{d}{dx}x^r = rx^{r-1} $$

また、関数の和$f(x)+g(x)$を微分する際は、それぞれを微分して足し合わせます。  

（公式 2）
$$ \frac{d}{dx}(f(x)+g(x)) = \frac{d}{dx}f(x)+\frac{d}{dx}g(x) $$

関数の積$f(x)g(x)$は、次のように微分することができます。  

（公式 3）
$$ \frac{d}{dx}(f(x)g(x)) = f(x)\frac{d}{dx}g(x)+g(x)\frac{d}{dx}f(x) $$

定数は、微分の外に出ることができます。$k$を任意の実数としたとき、以下の公式が成り立ちます。 

（公式 4）
$$ \frac{d}{dx}kf(x) = k\frac{d}{dx}f(x) $$

それでは、例として以下の関数を微分してみましょう。  

$$ f(x)=3x^2+4x-5 $$

この関数は、（公式 1）（公式 2）（公式 4）を組み合わせて、以下のように微分することができます。

$$ \begin{aligned} \\
f'(x) & = \frac{d}{dx}(3x^2)+\frac{d}{dx}(4x^1)-\frac{d}{dx}(5x^0) \\
& = 3\frac{d}{dx}(x^2)+4\frac{d}{dx}(x^1)-5\frac{d}{dx}(x^0) \\
& = 6x+4 \\
\end{aligned} $$

以上のように、公式を組み合わせることで様々な関数の導関数を求めることができます。

## 接線の描画

関数$y=f(x)$の曲線に、$x=a$で接する直線（接線）は、以下の式で表されます。

$$y=f'(a)x+f(a)-f'(a)a$$

この式の$x$に$a$を代入すると、$y$が$f(a)$に等しくなることが確認できます。  
上記の接線の式を使って、関数$f(x)=3x^2+4x-5$の、$x=1$における接線を描画します。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def my_func(x):
    return 3*x**2 + 4*x - 5

def my_func_dif(x):  # 導関数
    return 6*x + 4

x = np.linspace(-3, 3)
y = my_func(x)

a = 1
y_t = my_func_dif(a)*x + my_func(a) - my_func_dif(a)*a  # x=1のときの接線
plt.plot(x, y, label="y", linestyle="dashed")
plt.plot(x, y_t, label="y_t")
plt.legend()

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

導関数を使って、接線を描画することができました。  
ディープラーニングでは、このような局所的な「傾き」を使って、「重み」や「バイアス」がニューラルネットワーク全体の結果に及ぼす影響を計算します。