<ul class="nav nav-pills" id="language-tab" role="tablist">
  <li class="nav-item" role="presentation">
    <button class="nav-link active" id="Korean-tab" data-bs-toggle="tab" data-bs-target="#Korean" type="button" role="tab" aria-controls="Korean" aria-selected="true">Korean</button>
  </li>
  <li class="nav-item" role="presentation">
    <button class="nav-link" id="English-tab" data-bs-toggle="tab" data-bs-target="#English" type="button" role="tab" aria-controls="knitr" aria-selected="false">English</button>
  </li>

<div class="tab-content" id="language-tabcontent">

<div class="tab-pane fade  show active" id="Korean" role="tabpanel" aria-labelledby="Korean-tab">

## Overview

Neural Network (NN)는 여러 노드(node)가 여러 층(layer)을 갖고 층 사이에 함수 관계가 있는 구조이다. 
NN의 결과값을 계산할 때 순방향(forward)으로 전 층의 노드가 그 다음 층의 입력값으로 들어가 복잡한 합성 함수가 만들어져 결과값을 출력하고, 
학습을 할 때 역방향(backword)으로 그 합성 함수의 미분을 수행하게 된다 (Back Propagation). 
NN은 deep learning의 기본 구조가 되므로 합성 함수가 무엇이고 어떤 원리로 미분이 되는지 알 필요가 있다.

## Chain Rule

::: {#thm-chianRule}

If the fucntions, $f(x)$, $g(x)$, are differentiable and the composite function of $f(x)$ and $g(x)$ is $u(x)=g(f(x))$, the chain rule is
$$
\begin{aligned}
u'(x)&=g'(f(x))f'(x) \space\space \text{or}  \space\space \frac{du}{dx} = \frac{du}{df}\frac{df}{dx}
\end{aligned}
$$

:::

Chain rule은 합성 함수의 미분으로 겉에 있는 함수를 미분하고 안에 있는 함수를 미분을 연달아 하는 방식이다.
$\Delta x\rightarrow \Delta y \rightarrow \Delta z$

### Example

다음 식들의 도함수를 chain rule에 따라 구해본다.

* $u(x)=(4x^2+7x)^{50}$

$$
\begin{aligned}
&\text{when the two functions are }f(x)=4x^2+7x, \space g(x)=x^{50}, \\
&u(x)=(4x^2+7x)^{50}=g(f(x))\\
&f'(x)=8x+7\\
&g'(x)=50x^{49}\\
&u'(x)=g'(f(x))=g'(f(x))f'(x)\\
&u'(x)=50f(x)^{49}(8x+7)=50(4x^2+7x)^{49}(8x+7)
\end{aligned}
$$

* $f(x)=x+1$, $g(x)=\sqrt{x+1}$, $u(x)=g(f(x))$

$$
\begin{aligned}
&f(x)=x+1, \space g(x)=\sqrt{x+1} \\
&u(x)=g(f(x))=\sqrt{(x+1)+1}\\
&f'(x)=1\\
&g'(x)=\frac{1}{2\sqrt{x+1}}\\
&u'(x)=g'(f(x))f'(x)\\
&u'(x)=\frac{1}{2\sqrt{f(x)+1}}f'(x)=\frac{1}{2\sqrt{(x+1)+1}}
\end{aligned}
$$

$$
\begin{aligned}
\lim_{\Delta x \to0}\frac{\Delta z}{\Delta x}&=
\lim_{\Delta y \to0}\frac{\Delta z}{\Delta y}\lim_{\Delta x \to0}\frac{\Delta y}{\Delta x}\\&=\lim_{\Delta y \to0}\frac{\Delta z}{\Delta y}\frac{dy}{dx}\\
\frac{dz}{dx}&=\frac{dz}{dy}\frac{dy}{dx} \\
&(\because \Delta x \to 0 \Longrightarrow \Delta y \to 0 )

\end{aligned}
$$

* $y=e^{\sin(2x+3)}$


In [None]:
import sympy as S

# 심볼 정의
x=S.Symbol('x')
h=S.Symbol('h')
n=S.Symbol('n')
a=S.Symbol('a')
a1=S.Symbol('a1')
a2=S.Symbol('a2')
a3=S.Symbol('a3')
a4=S.Symbol('a4')

S.diff(S.E**S.sin(2*x+3))
# chain rule
z=S.Symbol('z')
out3=S.diff(S.E**z,z)
out2=S.diff(S.sin(z),z)
out1=S.diff(2*x+3)
dz=out3*out2
dw=out2*out1
print(dz)
print(dw)
dz=out3*dw
print(dz)
# substitution
dz.subs({z:3*x+1})

## Partial Derivative

::: {#thm-partialDerivative}

$$
\frac{\partial}{\partial}
$$

:::


$$
\frac{\partial f}{\partial x_k}(x_1, x_2, \dots, x_k, \dots,x_n) \\
=\lim_{h \to 0}\frac{f(x_1,x_2,\dots,x_k+h,\dots,x_n)-f(x_1,x_2,\dots,x_k,\dots,x_n)}{h}$$

$$


In [None]:
fig = plt.figure(figsize=(23,7))

f = lambda x, y :np.exp(-(x**2 + y**2))

#####################################################################
x = np.linspace(-2,2,100)
y = np.linspace(-2,2,100)
X, Y = np.meshgrid(x, y)
Z = f(X,Y)

ax1 = fig.add_subplot(131, projection='3d')
ax1.plot_surface(X, Y, Z, 
cmap=plt.cm.binary, edgecolor="gray", alpha=1)
# ax.view_init(50, 50)
ax1.xaxis.set_tick_params(labelsize=15)
ax1.yaxis.set_tick_params(labelsize=15)
ax1.zaxis.set_tick_params(labelsize=15)
ax1.set_xlabel('$x$', fontsize=20)
ax1.set_ylabel('$y$', fontsize=20)
ax1.set_zlabel('$z$', fontsize=20)
ax1.set_xlim([-2, 2])
ax1.set_ylim([-2, 2])
ax1.set_xticks( [-2, -1, 0, 1, 2] ) 
ax1.set_xticklabels([-2, -1, 0, 1, 2] , fontsize=15 )
ax1.set_yticks( [-2, -1, 0, 1, 2] ) 
ax1.set_yticklabels([-2, -1, 0, 1, 2] , fontsize=15 )

#####################################################################
x = np.linspace(-2,2,100)
y = np.linspace(-1,2,100)
X, Y = np.meshgrid(x, y)
Z = f(X,Y)

ax2 = fig.add_subplot(132, projection='3d')
ax2.plot_surface(X, Y, Z, 
cmap=plt.cm.binary, edgecolor="gray", alpha=1)
ax2.xaxis.set_tick_params(labelsize=15)
ax2.yaxis.set_tick_params(labelsize=15)
ax2.zaxis.set_tick_params(labelsize=15)
ax2.set_xlabel('$x$', fontsize=20)
ax2.set_ylabel('$y$', fontsize=20)
ax2.set_zlabel('$z$', fontsize=20)
ax2.set_xlim([-2, 2])
ax2.set_ylim([-2, 2])
ax2.set_xticks( [-2, -1, 0, 1, 2] ) 
ax2.set_xticklabels([-2, -1, 0, 1, 2] , fontsize=15 )
ax2.set_yticks( [-2, -1, 0, 1, 2] ) 
ax2.set_yticklabels([-2, -1, 0, 1, 2] , fontsize=15 )

Zx = f(x, -1)
ax2.plot3D(x, [-1.]*x.shape[0], Zx, '--', lw=3, c='k')


#####################################################################

x = np.linspace(-2,1,100)
y = np.linspace(-2,2,100)
X, Y = np.meshgrid(x, y)
Z = f(X,Y)

ax3 = fig.add_subplot(133, projection='3d')
ax3.plot_surface(X, Y, Z, cmap=plt.cm.binary, edgecolor="gray", alpha=1)
ax3.xaxis.set_tick_params(labelsize=15)
ax3.yaxis.set_tick_params(labelsize=15)
ax3.zaxis.set_tick_params(labelsize=15)
ax3.set_xlabel('$x$', fontsize=20)
ax3.set_ylabel('$y$', fontsize=20)
ax3.set_zlabel('$z$', fontsize=20)
ax3.set_xlim([-2, 2])
ax3.set_ylim([-2, 2])
ax3.set_xticks( [-2, -1, 0, 1, 2] ) 
ax3.set_xticklabels([-2, -1, 0, 1, 2] , fontsize=15 )
ax3.set_yticks( [-2, -1, 0, 1, 2] ) 
ax3.set_yticklabels([-2, -1, 0, 1, 2] , fontsize=15 )

Zy = f(1, y)
ax3.plot3D([1.]*x.shape[0], y, Zy, '--', lw=3, c='k')

::: {#def-평균변화율}


$$
\begin{aligned}
\text{평균 변화율}&=\Delta x\text{에 대한} \Delta y\text{의 비율}\\
&=\frac{\Delta y}{\Delta x}=\frac{f(b)-f(a)}{b-a}\\
&=\frac{f(a+\Delta x)-f(a)}{\Delta x}
\end{aligned}
$$


:::

* 입력에 대한 변화율을 조절하고 싶을 때 필요한 개념 
  * ex) 시약 농도 대비 신호 증폭의 변화율을 관찰
* 하지만 관심의 대상의 관계 그래프가 직선이 아닌 **곡선의 형태**의 경우 평균 변화율이 대략적인 추세 정보만 제공해줄뿐 변화량의 자세한 정보를 제공해주지 못함
  * sigmoid 형태의 경우 첫 포인트와 마지막 포인트의 평균 변화율을 보는 것 보다 구간을 짧게하여 여러 군데서 관찰하는 것이 graph의 shape를 더 잘 설명하는 것
* 이 때, 입력값의 구간을 **충분히** 짧게 만들어 출력값의 변화량을 관찰하는 것이 미분이다. (limit의 개념, $\epsilon-\delta$ method)

::: {#def-TangentLine}

The tangent line to the curve $y=f(x)$ at the point $P(a,f(a))$ is the line through P with slope

$$
m = \lim_{x\to a} f(x)
$$

provided that this limit exists.
:::



::: {#def-Derivative}

When $f: \mathbb{R} \rightarrow \mathbb{R}$ is continuous and differentiable, the derivative of a function $f$ at a number $a \in \mathbb R$, denoted by $f'(a)$, is

$$
\begin{aligned}
f'(a) &= \lim_{h\to 0} \frac{f(a+h)-f(a)}{h}
      &= \lim_{x\to a} \frac{f(x)-f(a)}{x-a}
\end{aligned}
$$

provided that this limit exists. 이때 위의 함수의 극한값, $f'(a)$ 라고도 표시하며 점 $a$ 에서의 $f(x)$ 의 도함수 (derivative) 라고 한다. 
:::

![James Stewart - Calculus Early Transcedentals, 7th Eidition, P.143](derivative.PNG)

::: {#def-Differentiable}
A function $f$ is differentiable at $a$ if $f'(a)$ exists. It is differentiable on an open interval (a,b) [or (a,$\infty$), (-$\infty$,a) or (-$\infty$,$\infty$)] if it is differentiable at every number in the interval.
:::

::: {#thm-Continuous}
If $f$ is differentiable at $a$, then $f$ is continuous at $a$.
:::

* 순간 변화율 = 미분 계수 = 접선의 기울기
* 미분 (differentiation) : 순간 변화율 구하는 행위
* 도함수 (derivative) : 도함수 자체는 equation 으로, 특정 포인트에서의 순간 변화율 (값)을 출력하는 함수
* 문제를 풀때 도함수를 구하는 것인지, 미분계수를 계산하는 것인지를 구별해야함
* 전체 도함수를 구하는것은 보통 굉장히 어려움. 하지만 한점에서의 순간변화율 즉, 미분계수를 구하는 것은 가능
* 에러를 줄이는 데에는 값으로 나오는 순간 변화율을 구하는 것이 일반적으로 실현성이 있는 문제

::: {#def-NaturalNumber}
The natural number, $e$ is the number such that $\lim_{h\to 0} \frac{e^h-1}{h}=1$.
:::

모든 지수 함수 $f(x)=a^x$ 중에서 $f(x)=e^x$ 가 점 (0.1) 에서의 접선의 기울기가 $f'(0)=1$ 이 되는 수를 $e=2.71828...$ 라고 정의한다.

### Notation

$f'(x)$ 는 다음과 같은 기호들로도 흔히 표현된다.

* Lagrange’s notation
  * $y', f'(x)$
  * 어떤 변수로 미분하는지에 대해서 명시적으로 표현되지 않았음. 고등학교때까진 univariable function을 미분 했기떄문에 이 표기법이 많이 사용되었음.
* Leibniz’s notation
  * $\frac{dy}{dx}=\frac{df}{dx}=\frac{d}{dx}f(x)$
  * 입력 변수와 출력 변수까지 모두 명시되어있음
* Newton’s notation: 
  * $\dot{y}, \ddot{y}$
  * 최적화 논문과 financial engineering 에서 본적 있음
* Euler’s notation
  * $D_xy, D_xf(x)$
  * 시계열 논문과 미분방정식 논문에서 본적 있음

### Example

다음의 함수를 미분의 정의를 이용하여 도함수를 계산하시오

1. $f(x)=c$ where c is a constant
1. $f(x)=\log x$
1. $f(x)=e^x$
1. $f(x)=\sin x$

[Derivative Formula](https://byjus.com/calculus-formulas/)는 모두 미분의 정의를 이용해서 구할 수 있음

::: {#thm-Differentiation_Rules}
1. **The Power Rule**, if $n$ is any real number, then the power function, $x^n$ is differentiated like the following:
$$
\frac{d}{dx}(x^n)=nx^{n-1}
$$

1. **The Constant Multiple Rule**, if $c$ is a constand and $f$ is a differentiable function, then
$$
\frac{d}{dx}(cf'(x))=c\frac{d}{dx}f(x)=cf'(x)
$$

1. **The Sum Rule**, if $f$ and $g$ are both differentiable, then
$$
\frac{d}{dx}[f(x)+g(x)]=\frac{d}{dx}[f(x)]+\frac{d}{dx}[g(x)]=f'(x) +g'(x)
$$

1. **The Difference Rule**, if $f$ and $g$ are both differentiable, then
$$
\frac{d}{dx}[f(x)-g(x)]=\frac{d}{dx}[f(x)]-\frac{d}{dx}[g(x)]=f'(x) -g'(x)
$$

1. **The Product Rule**, if $f$ and $g$ are both differentiable, then
$$
y=f(x)g(x), y'=f'(x)g(x)+f(x)g'(x)
$$

1. **The quotient rule**, if $f$ and $g$ are both differentiable, then
$$
y=\frac{f(x)}{g(x)}, y'=\frac{f'(x)g(x)-f(x)g'(x)}{g(x)^2}
$$
:::

증명은 James Stewart의 Calculus Series 중 1개를 골라 참고하시기 바랍니다.

### Example

1. $S(x)=\frac{1}{1+e^{-ax}}$ 를 $x$ 에 대해 미분해보시오.
1. $f(x)=\alpha_1 + \frac{\alpha_2-\alpha_1}{1+e^{-\alpha_4(x-\alpha_3)}}$ 를 어떻게 미분할 것인지 생각해 보시오.
1. $y=f(x)=(4x+3)^2$ 를  $x$ 에 대해 미분해보시오
1. $y=f(x)=(4x+3)^{20}$ 를 $x$ 에 대해 어떻게 미분할 것인지 생각해보시오. (hint: composite function - Leibniz)


### Example Answer

#### sympy package example

앞서와 언급한대로 파이썬 sympy package를 사용할 것인데 간단한 예를 본다. 먼저 기호의 정의를 해주고 수학 연산을 진행하면 된다.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sympy as S

# 심볼 정의
x=S.Symbol('x')
h=S.Symbol('h')
n=S.Symbol('n')
a=S.Symbol('a')
a1=S.Symbol('a1')
a2=S.Symbol('a2')
a3=S.Symbol('a3')
a4=S.Symbol('a4')


## 인수분해
S.factor(x**2+4*x+4)

* 인수분해와 값 넣기

In [None]:
f=S.factor(x**2-5*x+6)
print(f.subs({x:3}))
print(f.subs({x:5}))
f

* $2^x$ 미분과 값 넣기

In [None]:
df=S.limit((2**(x+h)-2**x)/h,h,0)
print(df.subs({x:3}))
print(df.subs({x:5}))

print(df.subs({x:3}).evalf()) # 정확한 값을 원할 경우
df

* $x^n$ 미분

In [None]:
df=S.limit(((x+h)**n-x**n)/h,h,0)
print(df.subs({x:3}))
print(df.subs({x:5}))
df

#### Example Answers 

* $f(x)=c$ 의 도함수 where c is a constant. c=2로 고정

In [None]:
f=2
df=S.limit(((2)-2)/h,h,0)
df

* $f(x)=\log x$ 의 도함수

In [None]:
f=S.log(x)
df=S.limit((S.log(x+h)-S.log(x))/h,h,0)
df

* $f(x)=e^x$ 의 도함수

In [None]:
f=S.exp(x)
df=S.limit((S.exp(x+h)-S.exp(x))/h,h,0)
df

* $f(x)=\sin x$ 의 도함수

In [None]:
f=S.sin(x)
df=S.limit((S.sin(x+h)-S.sin(x))/h,h,0)
df

* $S(x)=\frac{1}{1+e^{-ax}}$ 를 $x$ 에 대해 미분해보시오.

In [None]:
f=1/(1+S.exp(-a*x))
df=S.limit((1/(1+S.exp(-a*(x+h)))-1/(1+S.exp(-a*x)))/h,h,0)
df

이번 문제에서 $\frac{ae^x}{(e^{-ax}+1)^2}$ 라는 sigmoid function의 도함수를 얻었다. 이 도함수를 간단한 수학적 조작으로 다른 표현으로 유도해보면 다음과 같다.
$$
\begin{aligned}
\frac{d}{dx}S(x)&=\frac{ae^{-ax}}{(e^{ax}+1)^2}\\
                &=a\frac{1}{(e^{ax}+1)}\frac{e^{-ax}}{(e^{ax}+1)}\\
                &=a\frac{1}{(e^{ax}+1)}\frac{1+e^{-ax}-1}{(e^{ax}+1)}\\
                &=a\frac{1}{(e^{ax}+1)}(1-\frac{1}{(e^{ax}+1)})\\
                &=aS(x)(1-S(x))\\
\end{aligned}
$$

위와 같이 $S(x)$ 의 도함수는 $aS(x)(1-S(x))$ 로 표현될 수 있다. sigmoid function은 neural network에서 activation function으로 사용되는데 forward propagation에서 이미 한 번 계산이 된다. backward propagation에서 activation function인 $S(x)$ 의 도함수를 다시 연산을 해야하는데 도함수가 $aS(x)(1-S(x))$ 것을 알면 복잡한 고차원 행렬곱 연산을 다시 수행하지 않아도 된다. 그래서 $S(x)$ 의 도함수를 $\frac{ae^x}{(e^{-ax}+1)^2}$ 라고 코딩하는 것 보다는 $S(x)$ 의 행렬을 재활용하여 $aS(x)(1-S(x))$ 로 코딩해놓으면 연산 과정에서의 시간 복잡도를 줄일 수 있다. 이처럼 machine learning에서 수학적 통계적 지식을 잘 활용하면 좀 더 효율적인 모델링을 구현 할 수 있다.

* $f(x;\mathbf\alpha)=\alpha_1 + \frac{\alpha_2-\alpha_1}{1+e^{-\alpha_4(x-\alpha_3)}}$ 를 어떻게 미분할 것인지 생각해 보시오.

위의 식은 logistic fucntion의 genral formular 형태인데 sigmoid function이 특수한 예이다. 함수의 shpae는 parameter에 의해 결정되는데 위의 경우 $\alpha_1$ 은 함수의 최솟값 , $\alpha_2$ 은 함수의 최댓값, $\alpha_3$ 은 함수의 변곡점 및 $\alpha_4$ logistic curve가 변곡점을 지나면서 증가하는 변화율을 묘사한다. sigmoid 형태의 data를 fitting하기 위해 위의 함수를 이용한다면 error를 최소화하는 parameter를 구해야하는데 이 또한 최적화 문제로 4개의 변수에 대한 미분이 필요하다. 2개 이상의 변수에 대해서 미분은 partial derivative (편미분)라고 하는데 다음 블로그에서 다룰 것이다.

* $y=f(x)=(4x+3)^2$ 를  $x$ 에 대해 미분해보시오.


In [None]:
df=S.limit(((4*(x+h)+3)**2-(4*x+3)**2)/h,h,0)
df

위의 도함수는 미분 공식 중 곱의 법칙을 사용하면 구할 수 있다.

* $y=f(x)=(4x+3)^{20}$ 를 $x$ 에 대해 어떻게 미분할 것인지 생각해보시오. (hint: composite function - Leibniz)

위의 문제처럼 곱의 법칙을 사용하면 20개의 인수에 대해서 차례대로 미분을 해야하므로 계산량이 엄청나게 많아진다. 이때 composite function (합성 함수)의 derivative를 구하는 chain rule을 이용하면 간단한 연산으로 도함수를 구할 수 있게 된다. deep learning 모델의 기초인 neural network는 layer nodes이 복잡하게 합성이 되는 합성 함수를 만들면서 forward propagation을 진행하고 backward propabation에서 이 복잡한 합성 함수의 미분을 수행하게 된다. 그러므로 합성 함수의 미분이 어떻게 수행되는지 아는 것은 deep learning을 수리적으로 이해하고 싶은 사람에게 있어서 중요할 수 있다. 합성 함수의 미분은 다른 블로그에서 다루도록 하겠다.

</div>

<div class="tab-pane fade" id="English" role="tabpanel" aria-labelledby="English-tab">



</div>

## Blog Guide Map Link

* [Statistics Blog](../../statistics/guide_map/index.qmd)
* [Engineering Blog](../../Engineering/guide_map/index.qmd)
* [Deep Learning Blog](../../DL/guide_map/index.qmd)
* [Machine Learning Blog](../../ML/guide_map/index.qmd)
* [Mathematics Blog](../Mathmatics/guide_map/index.qmd)
* [Patent Blog](../../Patent/guide_map/index.qmd)
* [Validation Blog](../../Validation/guide_map/index.qmd)