인공지능을 위한 기초수학 코드 튜토리얼 (작성자 도승헌)

참고 레퍼런스
- http://codepractice.tistory.com/75?category=885676
- https://wikidocs.net/6998
- http://studymake.tistory.com/29
- https://datascienceschool.net/view-notebook/5f5f4a966f9042efa43d711008df9c0b/

## Sympy 란?


CAS (Computer Algebra System)의 일종으로, 미적분을 지원하는 라이브러리로 유명하다.

컴퓨터는 원래 수치 계산(numerical calcuation)을 빠르고 정확하게 수행할 목적으로 개발되었다. 수치 계산과는 다르게 기호식 계산(symbolic calculation)은 대수 기호가 들어간 수식을 다루는 것으로서 유한수로 정확히 표현되지 못하는 무리수를 기호로 표현하거나 또는 대수 기호가 포함된 방정식 등을 다루는 것이다. 

## 1. 함수의 극한

Limit() 함수 파라미터 소개
- 극한을 구하기 위한 함수, $\dfrac{1}{x}$
- 두번째는 변수 $x$
- 세번째는 변수가 다가가는 값이다. $\infty$

Sympy 의 심볼릭 연산

- a = symbols(‘a’, integer = True) #정수
- b = symbols(‘b’, real = True) #실수
- c = symbols(‘c’, complex = True) #복소수
- d = symbols(‘d’, positive = True) #양수로 정의
- f, g, h = symbols(‘f g h’, cls=Function) #함수 기호로 정의

In [2]:
from sympy import Limit, S, Symbol

In [3]:
x= Symbol('x')
Limit(1/x, x, S.Infinity)

Limit(1/x, x, oo, dir='-')

In [4]:
Limit(1/x, x, S.Infinity).doit()

0

In [5]:
# 우극한
Limit(1/x, x, 0).doit()

oo

In [6]:
# 좌극한
Limit(1/x, x, 0, dir='-').doit()

-oo

# 2. 미분계수와 함수의 미분


함수 $f(x)$의 $x=a$ 에서의 순간변화율(=미분계수)를 $f'(a)$구해보자.

$$
\begin{split} f'(a) &= \lim \limits_{x \to a} \dfrac{f(x)-f(a)}{x-a} \\ &= \lim \limits_{h \to 0} \dfrac{f(a+h)-f(a)}{h} \end{split}
$$

### 기본 미분 공식

- 상수를 미분하면 0이 된다
$$
\dfrac{d}{dx}(c) = 0
$$
- 거듭제곱을 미분하면, 제곱수가 감소하고, 계수에 제곱수가 붙는다.
$$
\dfrac{d}{dx}(x^n) = n x^{n-1}
$$
- 로그를 미분하면 1/x가 된다
$$
\dfrac{d}{dx}(\log x) = \dfrac{1}{x}
$$
- 지수함수는 미분해도 변하는 값이 없다
$$
\dfrac{d}{dx}(e^x) = e^x
$$
- 함수의 선형조합의 미분은, 도함수의 선형조합과 같다
$$
\dfrac{d}{dx}\left(c_1 f_1 + c_2 f_2 \right) = c_1 \dfrac{df_1}{dx} + c_2 \dfrac{df_2}{dx}
$$
- 곱셈법칙
$$
\dfrac{d}{dx}\left( f  \cdot g \right) = f \cdot  \dfrac{dg}{dx} + \dfrac{df}{dx} \cdot g
$$
- Chain rule
<br>
미분하고자 하는 함수의 힙력변수가 다른 함수의 출력 변수 인 경우 적용이 가능하다.
$$
f(x) = h(g(x))
$$

$$
\dfrac{df}{dx} = \dfrac{dh}{dg} \cdot \dfrac{dg}{dx}
$$


또한 Derivative() 클래스를 이용하여 클래스 객체를 먼저 생성한 후 .doit() 메소드로 실행할 수 있다. 다음가 같은 예제로 풀어보자

$$
f(x)=3x^2-4x+1
$$

In [7]:
from sympy import symbols, Limit 
x, a, h = symbols('x, a, h')
fx = 3 * x ** 2 - 4 * x + 1 

In [8]:
# 함수 f(x) 를 정의 
fxa = fx.subs({x:a}) 

In [9]:
# 함수 f(x) 에 x=a 를 대입
fxh = fx.subs({x: a+h}) 

In [78]:
# 함수 f(x) 에 x=a+h 를 대입 
Limit((fxh-fxa)/h, h, 0).doit() 

6*a - 4

In [12]:
from sympy import Derivative

derivative = Derivative(fx, x).doit()

In [13]:
derivative

6*x - 4

Derivative 객체로 할수 있는 것!

- Derivative(함수, 변수, 계도)
- Subs() 매서드를 활용하여, 특정 x 포인트에서의 미분계수를 구할 수 있다.

In [14]:
x, a, h = symbols('x, a, h') 
fx = 3 * x ** 2 - 4 * x + 1 

In [15]:
derivative = Derivative(fx, x).doit()
derivative.doit().subs({x:2})

8

__diff__ 를 활용한 미분

class를 호출하지않고 빠르게 할 수 있다.

In [16]:
from sympy import *

In [17]:
x, y, z, t=symbols('x, y, z, t') 
k, m, n=symbols('k, m, n', integer=True)
f, g, h=symbols('f,g,h', cls=Function)

In [22]:
cosdiff = diff(exp(x), x)
cosdiff

exp(x)

## 3. 2차도함수와 Optimization

2차 도함수는 도함수의 기울기이다. 즉 도함수의 값이 증가하면, 2차 도함수의 값은 양수이고, 도함수 값이 감소하면 2차 도함수 값은 음수이다. 2차 도함수 값이 양수인 경우 볼록(convex) 케이스라고 하며, 2차도함수 값이 음수인 경우 오목(concave)하다고 한다. 2차 도함수 값은 일반적으로 convexity라고 불린다.

In [56]:
from sympy import solve

In [57]:
# 함수를 정의
f = 3 * x**3 + 2*x**2 - 5*x + 1

In [59]:
# 도함수를 정의
derivartivel = Derivative(f,x).doit()
derivartivel

9*x**2 + 4*x - 5

In [36]:
# f'(x)의 근을 구함 list 형태
critical = solve(derivartivel)
critical

[-1, 5/9]

In [40]:
# 2차 도함수 함수를 정의
derivative2 = Derivative(f, x, 2).doit() 
# 도함수의 첫번째 근을 조회, 해서 부호를 파악
derivative2sol = []
for i in critical:
    derivative2sol.append(derivative2.subs({x:i}))

In [41]:
# 도함수의 근을 조회
derivative2sol

[-14, 14]

In [42]:
sol = []
for i in critical:
    sol.append(f.subs({x:i}))

In [44]:
sol

[5, -157/243]

만약 근이 무리수가 나온다면?

- evalf() 매서드를 호출하면 근사값을 보여준다

In [45]:
f = x**3 + 2 * x**2 - 3 * x + 1 
derivative1 = Derivative(f, x).doit()
critical=solve(derivative1, x) 
critical

[-2/3 + sqrt(13)/3, -sqrt(13)/3 - 2/3]

In [46]:
f.subs({x:critical[0]}).evalf()

0.120580253256899

## 인공지능에는 이렇게 사용된다

$$
\begin{align}\frac{d}{dx}sigmoid(x) & = \frac{d}{dx}\frac{1}{1+e^{-x}} \\& = \frac{d}{dx}(1+e^{-x})^{-1} \\& = -(1+e^{-x})^{-2}\cdot-e^{-x} \\& = \frac{e^{-x}}{(1+e^{-x})(1+e^{-x})} \\& = \frac{1}{(1+e^{-x})}\cdot\frac{1-1+e^{-x}}{(1+e^{-x})} \\& = \frac{1}{(1+e^{-})}\cdot[\frac{(1+e^{-x})}{(1+e^{-x})}-\frac{1}{(1+e^{-x})}] \\& = sigmoid(x)\cdot(1-sigmoid(x))\end{align}
$$

In [82]:
x, y = symbols("x, y")

In [84]:
sigmoid =1/(1+exp(-x))
der=Derivative(sigmoid, x)
der

Derivative(1/(1 + exp(-x)), x)

In [85]:
der.doit()

exp(-x)/(1 + exp(-x))**2

하지만 저희는 저희가 미분할일이 거의 없습니다. 논문에서 엄밀하게 검증된 모델들을 구현하고 이해하는게 목적이기 때문이죠.
<br>
일반적으로는 sympy를 쓰기보다는 numpy로 바로 호출시킵니다.

In [23]:
import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

In [30]:
sigmoid(10)

0.9999546021312976

## 편미분에 대하여(multivariate calculus)

지금까지는 독립변수 하나에 종속변수가 하나인 함수를 미분했지만, 편미분에서는 독립변수가 여러개에 종속변수도 여러 개일 수 있다.

![img](png/06.partial.png)

## Gradient 

함수에서 미분의 개념은 기울기를 의미했습니다. 하지만 차원이 확장될 수록 이제, 그래프에게는 하나의 유일한 기울기만 존재하지 않는 경우가 발생합니다.
<br>

편미분이라는 개념이 필요한 이유는 이러한 상황에서 수직인 두 방향으로만 기울기를 구하고 싶다는 이유에서 출발한다고 합니다.
<br>

즉, f(x,y)의 x방향 만으로의 기울기와 y방향 만으로의 기울기는 각각 구할 수 는 있기 때문에 y 또는 x를 상수로 놓고 미분함으로써 x 방향 만으로의 기울기와 y 방향 만으로의 기울기를 구할 수 있습니다.
<br>

함수의 Gradient 기울기란, Scalar 로 표현되어 있는 함수에서 어떤 벡터값을 얻어내게 되어있습니다. 이는 각 독립변수의 편미분 값을 백터로 표현한 것입니다.

In [72]:
x, y = sympy.symbols("x y")
f = sympy.exp(x) + x*y
f

x*y + exp(x)

In [73]:
sympy.diff(f, x)

y + exp(x)

In [74]:
sympy.diff(f, y)

x

### Gradient Vector

일반작으로 데이터 분석할때는 함수의 출력변수가 스칼라고, 입력변수 x 가 백터인 다변수 함수를 많이 사용합니다. 이렇듯 스칼라를 백터로 미분하는 경우에 우리는 Gradient Vector를 출력하며, 이때 편미분이 사용된다.

$$
\nabla f = 
\frac{\partial f}{\partial {x}} =
\begin{bmatrix}
\dfrac{\partial f}{\partial x_1}\\
\dfrac{\partial f}{\partial x_2}\\
\vdots\\
\dfrac{\partial f}{\partial x_N}\\
\end{bmatrix}
$$

__Tips!__
<br>

위 결과에서  $x$ 로 먼저 미분하고 나중에  $y$ 로 미분한 2차 도함수  $f_{x,y}$ 는  $y$ 로 먼저 미분하고 나중에  $x$ 로 미분한 2차 도함수  $f_{y,x}$ 와 같다. 만약 함수가 연속이고 미분가능하면 미분의 순서는 상관없다. 이를 슈와르츠 정리(Schwarz's theorem)라고 한다.