# 微分の基礎
微分とは、ある関数上の各点における変化の割合のことです。  
ディプーラーニングの背景となる理論には、微分が不可欠です。  
今回は、微分の基本から始めて、多変数からなる関数の微分や、複数の関数からなる合成関数の微分などを解説します。  

## ●微分
関数$y=f(x)$において、$x$の微小な変化量を$\Delta x$とすると、$x$を$\Delta x$だけ変化させた際の$y$の値は次のようになります。  

$$y=f(x+\Delta x)$$  

このとき、$y$の微小な変化量は次の通りです。

$$\Delta y=f(x+\Delta x)-f(x)$$  

従って、$y$の微小な変化$\Delta y$と$x$の微小な変化$\Delta x$の割合は、次の式で表されます。

$$ \frac{\Delta y}{\Delta x}=\frac{f(x+\Delta x)-f(x)}{\Delta x} $$

この式で、$\Delta x$の値を0に限りなく近づける極限を考えます。  
この極限は、新たな関数$f'(x)$として表すことができます。  

$$ f'(x) = \lim_{\Delta x \to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} $$

この関数$f'(x)$を、$f(x)$の**導関数**といいます。  
そして、関数$f(x)$から導関数$f'(x)$を得ることを、関数$f(x)$を**微分**する、といいます。

導関数は次のように表すこともあります。  

$$ f'(x) = \frac{df(x)}{dx} = \frac{d}{dx} f(x) $$

## ●微分の公式
いくつかの関数は、微分の公式を用いることで簡単に導関数を求めることができます。  
以下に、微分の公式をいくつか紹介します。 

$r$を任意の実数として$f(x) = x^r$としたとき、以下が成り立ちます。 

（公式 1）
$$ \frac{d}{dx}f(x) = \frac{d}{dx}x^r = rx^{r-1} $$

また、関数の和$f(x)+g(x)$を微分する際は、それぞれを微分して足し合わせます。  

（公式 2）
$$ \frac{d}{dx}(f(x)+g(x)) = \frac{d}{dx}f(x)+\frac{d}{dx}g(x) $$

関数の積$f(x)g(x)$は、次のように微分することができます。  

（公式 3）
$$ \frac{d}{dx}(f(x)g(x)) = f(x)\frac{d}{dx}g(x)+g(x)\frac{d}{dx}f(x) $$

定数は、微分の外に出ることができます。$k$を任意の実数としたとき、以下の公式が成り立ちます。 

（公式 4）
$$ \frac{d}{dx}kf(x) = k\frac{d}{dx}f(x) $$

それでは、例として以下の関数を微分してみましょう。  

$$ f(x)=3x^2+4x-5 $$

この場合、（公式 1）（公式 2）（公式 4）を用いて次のように微分を行うことができます。

$$ \begin{aligned} \\
f'(x) & = \frac{d}{dx}(3x^2)+\frac{d}{dx}(4x^1)-\frac{d}{dx}(5x^0) \\
& = 3\frac{d}{dx}(x^2)+4\frac{d}{dx}(x^1)-5\frac{d}{dx}(x^0) \\
& = 6x+4 \\
\end{aligned} $$

以上のように、公式を組み合わせることで様々な関数の導関数を求めることができます。

## ●合成関数
連鎖律を扱う前に、**合成関数**を解説します。合成関数とは、

$$ \begin{aligned} \\
y & = f(u) \\
u & = g(x) \\
\end{aligned} $$

のようにして、複数の関数の合成で表される関数のことです。    
例えば、関数 $y=(x^2+1)^3$ は、以下のような$u$を挟んだ合成関数と考えることができます。

$$ \begin{aligned} \\
y &= u^3 \\
u &= x^2+1 \\
\end{aligned} $$

## ●連鎖律（chain rule）
合成関数の微分は、構成する各関数の導関数の積で表すことができます。これを**連鎖律**（chain rule）といいます。  
連鎖律は以下の式で表されます。  

（式 1）
$$ \frac{dy}{dx} = \frac{dy}{du} \frac{du}{dx} $$

$y$が$u$の関数で、$u$が$x$の関数であるとき、この公式を用いて$y$を$x$で微分することができます。  
例として、以下の関数を微分してみましょう。  

$$ y=(x^3+2x^2+3x+4)^3 $$

この式において、$u$を以下の通り設定します。  

$$ u=x^3+2x^2+3x+4 $$

そうすると、$y$を以下のように表すことができます。  

$$ y=u^3 $$

このとき、（式 1）の連鎖律の式を用いると、$y$を$x$で微分することができます。 

$$ \begin{aligned} \\
\frac{dy}{dx} & =\frac{dy}{du} \frac{du}{dx} \\
& = 3u^2(3x^2+4x+3) \\
& =3(x^3+2x^2+3x+4)^2(3x^2+4x+3) 
\end{aligned} $$

以上のように、合成関数は連鎖律を用いて微分することができます。   

## ●偏微分
複数の変数を持つ関数に対する、1つの変数のみによる微分を**偏微分**といいます。  
偏微分の場合、他の変数は定数として扱います。  
例えば、2変数からなる関数$f(x,y)$の偏微分は、次のように表すことができます。  

$$ \frac{\partial}{\partial x}f(x,y) = \lim_{\Delta x \to 0}\frac{f(x+\Delta x,y)-f(x,y)}{\Delta x} $$

$x$のみ微小量$\Delta x$だけ変化させて、$\Delta x$を限りなく0に近づけます。$y$は微小変化しないので、偏微分の際は定数のように扱うことができます。  

例として、次のような変数$x$、$y$を持つ関数$f(x,y)$を考えてみましょう。  

$$ f(x,y)=3x^2+4xy+5y^3 $$

この関数を偏微分します。偏微分の際は、$y$を定数として扱い、微分の公式を用いて$x$で微分します。  
これにより、以下の式を得ることができます。偏微分では$d$ではなく$\partial$の記号を使います。

$$ \frac{\partial}{\partial x}f(x,y) = 6x+4y $$

このような、偏微分により求めた関数を**偏導関数**といいます。  
この場合、偏導関数は$y$の値を固定した際の、$x$の変化に対する$f(x,y)$の変化の割合になります。  

$f(x,y)$の$y$による偏微分は以下の通りです。この場合、$x$は定数として扱います。  

$$ \frac{\partial}{\partial y}f(x,y) = 4x+15y^2 $$

これは、$x$の値を固定した際の、$y$の変化に対する$f(x,y)$の変化の割合になります。　

偏微分を用いることで、特定のパラーメータの微小な変化が、結果へ及ぼす影響を予測することができます。

## ●全微分

2変数関数$z=f(x,y)$の**全微分**は、次の式で表されます。 

$$ dz = \frac{\partial z}{\partial x}dx + \frac{\partial z}{\partial y}dy $$

$x$による偏微分に$x$の微小変化$dx$をかけたものと、$y$による偏微分に$y$の微小変化$dy$をかけたものを足し合わせて、$z$の微小変化$dz$としています。

変数が2つより多い関数も考えられますので、 より汎用的な形で書いてみましょう。  
以下は、$n$個の変数を持つ関数$z$の全微分です。$x_i$が各変数を表します。  　　

$$ dz = \sum_{i=1}^n\frac{\partial z}{\partial x_i}dx_i $$

全微分を用いることで、多変数関数の微小な変化量を、各変数による偏微分と各変数の微小な変化により求めることができます。  
人工知能では多くのパラメータを持つ多変数関数を扱うので、結果の微小な変化量を求めるために全微分が役に立ちます。

## ●多変数合成関数の微分

多変数からなる合成関数に連鎖律を適用しましょう。  
まずは、以下の合成関数を考えます。

$$ \begin{aligned}
z & = f(u,v) \\
u & = g(x) \\
v & = h(x)
\end{aligned} $$

$z$は$u$と$v$の関数で、$u$と$v$はそれぞれ$x$の関数です。この合成関数で、$\frac{dz}{dx}$を求めましょう。  
この場合、以前に扱った全微分の式により以下が成り立ちます。  

$$ dz = \frac{\partial z}{\partial u}du + \frac{\partial z}{\partial v}dv $$

この式の両辺を微小量$dx$で割ることで、合成関数$z$の$x$による微分を次の式のように得ることができます。  

$$ \frac{dz}{dx} = \frac{\partial z}{\partial u}\frac{du}{dx} + \frac{\partial z}{\partial v}\frac{dv}{dx} $$

この式を一般化します。$u$や$v$のような媒介する変数が$m$個あるとすると、次のように表すことができます。    

$$ \frac{dz}{dx} = \sum_{i=1}^m\frac{\partial z}{\partial u_i}\frac{du_i}{dx} $$

$u_i$は、上記の$u$、$v$のような媒介する変数です。以前に解説した連鎖律の式に、総和の記号$\Sigma$が追加されました。  

以上のようにして、多変数からなる合成関数であっても微分できるようになりました。

## ●ネイピア数の累乗を微分

以下の、ネイピア数の累乗による関数を考えます。  

（式 2）
$$ y=e^x $$

この式は、次のように微分しても式が変わらないという大変便利な特徴を持っています。

$$ \begin{aligned}
\frac{\partial y}{\partial x} &= \lim_{\Delta x \to 0}\frac{e^{x+\Delta x}-e^x}{\Delta x}  \\
&= e^x
\end{aligned} $$

この性質のためネイピア数は数学的に扱いやすく、人工知能における様々な式で使用されています。  