# 微分

改めてきちんと定義しますが、関数を$f(x)$とおいたときに、微分は次のように定義されます。このときの $f'(x)$ を**導関数**といいます。

$$f'(x) = \lim_{h \rightarrow 0} \frac{ f(x+h) - f(x) }{ h }$$

仮に $f(x)$ を $f(x) = x^2$ としたときに、コードでは次のようになります。

In [40]:
using Printf

# hを限りなく小さい値に設定
h = 0.000000000001


# f(x) を定義
function f(x)
    return x^2
end

# 微分計算
function der_f(x)
    diff_y = f(x+h) - f(x)
    return diff_y / h
end


der_f (generic function with 1 method)

これを仮に $x=2$ で実行してみましょう。

In [38]:
println(der_f(2))

4.000355602329364


この$4.000355602329364$を$f(x)$の$x=2$における**微分係数**といいます。（厳密には$4$ですが、近似のために小数点以下が発生しています。）

これで関数$f(x)=x^2$　に対して導関数 $f'(x)$を求め、$x=2$における微分係数を計算しました。

## 微分の解説

### 平均変化率の定義

平均変化率は次のように求められます。

微分の解説に入る前に、中学校で習う**平均変化率**を確認します。平均変化率は、関数のある2点における変化の割合です。

#### 定義: 平均変化率の定義

関数$f(x)$に対して2点$A (a,f(a)), B (b,f(b))$の平均変化率は

$$ 
\begin{aligned}
\frac{yの変化量}{xの変化量} &= \frac{f(b) - f(a)}{ b - a}
\end{aligned}
$$
である。


<img src="./images/01/平均変化率.png" alt="Drawing" style="width: 500px;"/>


平均変化率は2点を結んだ直線の**傾き**です。今回の場合は、$(-1, 1)$と $(2, 4)$の平均変化率なので

$$
\frac{4 - 1}{2 - (-1)} = 1
$$

です。

平均変化率から2点が通る直線を求める式は、

$$y - f(a) = \frac{f(b) - f(a)}{ b - a }(x - a) $$

もしくは

$$y - f(b) = \frac{f(b) - f(a)}{ b - a }(x - b) $$

で求められます。


In [27]:
# 平均変化率
# aとbは関数f(x)上の2点A(a, f(a))とB(b, f(b)) のx座標
function change_ratio(a, b)
    diff_y = f(b) - f(a)
    diff_x = b - a
    return diff_y / diff_x
end

println("平均変化率: ", change_ratio(-1, 2))

平均変化率: 1.0


### 平均変化率のパターン 

平均変化率は3つに大別できます。

<img src="./images/01/平均変化率のパターン.png" alt="Drawing" style="width: 500px;"/>

平均変化率が正の値のときは増加傾向、負のときは減少傾向、0のときは一定の傾向です。

###　平均変化率と微分

平均変化率と微分は大いに関係があります。平均変化率は**2点における変化率**でしたが、微分は**1点における変化率**です。

ここで、先ほどの平均変化率を求める式の形を変えてみましょう。

<img src="./images/01/bの表現.png" alt="Drawing" style="width: 500px;"/>


点$A$の$x$座標と点$B$の$x$座標の差を$h$とすると、$h = b - a$です。式変形するは$b$は$b=a+h$と表現できます。
この表現を平均変化率の式に適用してみましょう。

$$
\begin{aligned}
平均変化率 &= \frac{f(a+h) - f(a)}{ (a+h) - a }\\
         &= \frac{f(a+h) - f(a)}{h}   
\end{aligned}
$$

最初に紹介した微分の式にだいぶ近づいてきました。$h$は$a$と$b$の差分でしたので、「$h$を限りなく$0$に近づける」ことは「$b$を限りなく$a$に近づける」、すなわち「関数$f(x)$の点$x=a$における変化率」を求めることに等しいことになります。

$f(x)=x^2$の$x=-1$における微分係数を求めてみましょう。上の平均変化率の式に$f(x)=x^2$と$a=-1$を代入します。

$$
\begin{aligned}
\frac{f(-1+h) - f(-1)}{h} &= \frac{ (-1+h)^2 - (-1)^2 }{h}\\
    &= \frac{(1 - 2h + h^2) - 1}{h}\\
    &= \frac{-2h + h^2}{h}\\
    &=  -2 + h
\end{aligned}
$$


この　$h$を限りなく$0$に近づけると、


$$\lim_{h \rightarrow 0} \frac{f(-1+h) - f(-1)}{h} = -2$$

と、微分係数が$-2$になることがわかります

In [41]:
h = 0.000000000001

function der(x)
    diff_y = (x + h)^2 - (x)^2
    return diff_y / h
end


der (generic function with 1 method)


実際にグラフで確認してみましょう。


<img src="./images/01/微分係数の確認.png" alt="Drawing" style="width: 500px;"/>

グラフを見ると$f(x)$と直線は$(-1, 1)$で接していることがわかります。

今度はJuliaで、少しずつ$b$を$a$に近づけていって平均変化率が-2に近づいていくのを確認してみましょう。


In [20]:
a = -1.0
b = 2.0

# aとbの分割数。増やせば増やすほど最終的にaに近づく。
MAX=100

for n=range(1,MAX, step=1)
    h = (b - a) / n
    # change_ratio(a, b)は平均変化率のところで定義した関数
    @printf("a=%0.6f,b=%0.6fのときの変化率は%0.6f\n", a, a+h, change_ratio(a, a+h))
end

a=-1.000000,b=2.000000のときの変化率は1.000000
a=-1.000000,b=0.500000のときの変化率は-0.500000
a=-1.000000,b=0.000000のときの変化率は-1.000000
a=-1.000000,b=-0.250000のときの変化率は-1.250000
a=-1.000000,b=-0.400000のときの変化率は-1.400000
a=-1.000000,b=-0.500000のときの変化率は-1.500000
a=-1.000000,b=-0.571429のときの変化率は-1.571429
a=-1.000000,b=-0.625000のときの変化率は-1.625000
a=-1.000000,b=-0.666667のときの変化率は-1.666667
a=-1.000000,b=-0.700000のときの変化率は-1.700000
a=-1.000000,b=-0.727273のときの変化率は-1.727273
a=-1.000000,b=-0.750000のときの変化率は-1.750000
a=-1.000000,b=-0.769231のときの変化率は-1.769231
a=-1.000000,b=-0.785714のときの変化率は-1.785714
a=-1.000000,b=-0.800000のときの変化率は-1.800000
a=-1.000000,b=-0.812500のときの変化率は-1.812500
a=-1.000000,b=-0.823529のときの変化率は-1.823529
a=-1.000000,b=-0.833333のときの変化率は-1.833333
a=-1.000000,b=-0.842105のときの変化率は-1.842105
a=-1.000000,b=-0.850000のときの変化率は-1.850000
a=-1.000000,b=-0.857143のときの変化率は-1.857143
a=-1.000000,b=-0.863636のときの変化率は-1.863636
a=-1.000000,b=-0.869565のときの変化率は-1.869565
a=-1.000000,b=-0.875000のときの変化率は-1.875000
a=-1.000000,b=-0.880

100回の思考だとまだ遠いですが、回数を増やせば増やすほど$-2$に近づいていきます。

微分係数の定義をします。

#### 定義: 微分係数
ある関数$f(x)$の$x=a$におけて

$$f'(a) = \lim_{ h \rightarrow 0} \frac{f(a+h) - f(a)}{ h }$$

が存在するとき、$f'(a)$を微分係数とする。

更に、導関数を定義します。導関数は微分係数を求めることのできる関数です。微分係数は具体的な$x=-1$について定義に従って求めましたが、導関数は$x$を具体的には設定しません。
$f(x) = x^2$ の導関数を求めてみましょう。

$$
\begin{aligned}
f'(x) &= \lim_{ h \rightarrow 0} \frac{ (x+h)^2 - x^2}{h}\\
      &= \lim_{ h \rightarrow 0} \frac{ ((x^2 +2hx + h^2) - x^2}{h}\\
      &= \lim_{ h \rightarrow 0} \frac{ 2hx + h^2}{h}\\
      &= \lim_{ h \rightarrow 0} 2x + h\\
      &= 2x
\end{aligned}
$$

関数を微分すると導関数が求められます。求めた導関数に$x=-1$を代入すれば$f'(-1)=-2$と先ほど求めた微分係数が求められます。
導関数は元の関数の微分係数を求めることのできる関数、とも見なせます。
    
導関数を改めて定義します。


#### 定義: 導関数

ある関数$f(x)$に対して、

$$f'(x)= \lim_{h \rightarrow 0} \frac{ f(x+h) - f(x)}{ h }$$

が存在するとき、$f'(x)$を導関数とする。導関数を求めることを **微分**　という。

改めて注意しますが、微分係数はある一つの**値**であり、導関数は微分係数を求めるための**関数**です。


### 微分係数と接線

平均変化率は関数上の2点を通る直線の傾きを表していましたが、微分係数は**関数上の1点と接する直線の傾き**を表しています。
ある点における接線は1本しか引けません。ですので、$f(x)=x^2$における$x=-1$における接線の傾きは$-2$しかありません。

一般的に接線の関数は次のように求められます。

#### $f(x)$の$x=a$における直線の関数
$$ y-f(a)=f'(x)(x-a) $$



### 微分可能性


機械学習を学ぶ上ではそれほど必要がないかもしれませんが重要であるため、微分可能性について解説します。
先ほどの例は特に意識することなく微分をしましたが、すべての関数で微分が可能であるわけではありません。
上の微分係数と導関数の定義の中に「存在するとき」という一言があります。つまり存在しない場合もあるわけです。

具体例を紹介します。

#### 微分不可能な例


関数 $f(x) = |x|$ は次のようなグラフです。


<img src="./images/01/絶対値.png" alt="Drawing" style="width: 500px;"/>




絶対値がある場合、「場合分け」をする必要があります。$x = |x|$の場合は、$x$が正のときは増加傾向で負のときは減少傾向になっているので、

$$
f(x) = \Biggl \{
\begin{aligned}
x & (x \geq 0)\\
-x & (x < 0)
\end{aligned}
$$

です。 0がどっちに入っているかについては

$$
f(x) = \Biggl \{
\begin{aligned}
x & (x > 0)\\
-x & (x \leq 0)
\end{aligned}
$$

でも構いません。


この関数は$x=0$の点では微分不可能です。定義にしたがって見てみましょう。



#### $x \geq 0$ の場合

$x \geq 0$ のとき $f(x) = x$ ですので、

$$
\begin{aligned}
f'(0) &= \lim_{ h \rightarrow 0 } \frac{ (0+h) - 0 }{ h }\\
      &= \lim_{ h \rightarrow 0 } \frac{ h }{ h }\\
      &= \lim_{ h \rightarrow 0 } 1\\
      &= 1
\end{aligned}
$$

です。

In [44]:
# hを限りなく小さい値に設定
h = 0.000000000001

function f_plus(x)
    diff_y = (x + h) - x
    return diff_y / h
end

@printf("右側から近づけると %0.6f", f_plus(0))

右側から近づけると 1.000000

#### $x < 0$ の場合

$x < 0$ のとき $f(x) = -x$ ですので、


$$
\begin{aligned}
f'(0) &= \lim_{ h \rightarrow 0 } \frac{- (0+h) - (-0) }{ h }\\
      &= \lim_{ h \rightarrow 0 } \frac{ -h }{ h }\\
      &= \lim_{ h \rightarrow 0 } -1\\
      &= -1
\end{aligned}
$$

です。



In [45]:
# hを限りなく小さい値に設定
h = 0.000000000001

function f_plus(x)
    diff_y = -(x + h) - (-x)
    return diff_y / h
end

@printf("右側から近づけると %0.6f", f_plus(0))

右側から近づけると -1.000000

それぞれが一致しないために $x=0$ では微分可能ではありません。

このように、局所的に微分可能ではない場合があります。これは絶対値関数がグラフで見たとおり「尖っている」からです。
すべての区間で微分可能な関数は「滑らか」出ある必要があります。

一般的に、関数$f(x)$が微分可能であり、かつその導関数$f'(x)$が連続であるとき、$f(x)$を**滑らかな関数**といいます。

また、微分については次の性質が知られています。

#### 定理: 微分と連続の関係性
ある関数が微分可能であるならば、その関数は連続である。

これの対偶をとると「ある関数が連続でなければ、その関数は微分可能ではない」ということがいえます。

### 最大最小性

平均変化率のところで、平均変化率は「増加傾向」「一定」「減少傾向」に大別できるという話をしました。これは微分でも同様のことがいえます。
ただし平均変化率と異なる点は微分はある1点における変化率を考えます。そうすると変化率が「一定」である、つまり微分係数が0となる場合というのは特別な場合にした起こりません。

Juliaでみてみましょう。

In [46]:
for x=-10:10
    # f(x) = x^2のy座標 
    y = x^2
    # 微分係数
    coef = 2 * x
    @printf("y=x^2 の (%f, %f)における微分係数は%f\n", x, y, coef)
end

y=x^2 の (-10.000000, 100.000000)における微分係数は-20.000000
y=x^2 の (-9.000000, 81.000000)における微分係数は-18.000000
y=x^2 の (-8.000000, 64.000000)における微分係数は-16.000000
y=x^2 の (-7.000000, 49.000000)における微分係数は-14.000000
y=x^2 の (-6.000000, 36.000000)における微分係数は-12.000000
y=x^2 の (-5.000000, 25.000000)における微分係数は-10.000000
y=x^2 の (-4.000000, 16.000000)における微分係数は-8.000000
y=x^2 の (-3.000000, 9.000000)における微分係数は-6.000000
y=x^2 の (-2.000000, 4.000000)における微分係数は-4.000000
y=x^2 の (-1.000000, 1.000000)における微分係数は-2.000000
y=x^2 の (0.000000, 0.000000)における微分係数は0.000000
y=x^2 の (1.000000, 1.000000)における微分係数は2.000000
y=x^2 の (2.000000, 4.000000)における微分係数は4.000000
y=x^2 の (3.000000, 9.000000)における微分係数は6.000000
y=x^2 の (4.000000, 16.000000)における微分係数は8.000000
y=x^2 の (5.000000, 25.000000)における微分係数は10.000000
y=x^2 の (6.000000, 36.000000)における微分係数は12.000000
y=x^2 の (7.000000, 49.000000)における微分係数は14.000000
y=x^2 の (8.000000, 64.000000)における微分係数は16.000000
y=x^2 の (9.000000, 81.000000)における微分係数は18.000000
y=x^2 の (10.000000, 100.000000)におけ

これはグラフでみても一目瞭然ですが、微分係数が$0$となるのは放物線の一番底である$（0, 0）$のときにのみです。一般的に次の事実が知られています。

#### 定理: 微分と最大最小値

関数$f(x)$は$x=a$で微分係数が$0$であるとき、その点において$f(x)$は最大値、もしくは最小値を持つ。またその逆もなりたつ。

これは機械学習で使われる微分において最も使われる微分の定理です。微分係数が$0$であるときにはその地点で関数が最大もしくは最小となり、逆に関数が最大、最小となる場合はその地点での微分係数は$0$です。

機械学習ではパラメータ決定等の場面において最適な値を求めるために「誤差関数」を定義し、その誤差が最小となるようなパラメータを決定します。
その際にこの微分の性質が有益です。

最後に微分積分学の基本定理の厳密なを紹介します。

####　定義: 微分積分学の基本定理 

関数$f(x)$が区間$I$で連続ならば、任意の実数$\alpha$および任意の$x \in I$（区間$I$の中の数）に対して、

$$F(x) = \int_{\alpha}^{x} f(x) dx$$

が成り立つ。この$F(x)$を$f(x)$の**原始関数**という。

$f(x)$を積分すると$F(x)$になり、$F(x)$を微分すると$f(x)$になる、ということです。