# 선형근사
- f(x)=x**2
- f(x+dx)=f(x)+f'(x)*dx  
dx는 델타 x 의미한다

In [1]:
x=-1
dx=0.001

f=x**2
df=2*x #1차 미분한 도함수

f_dx=f+df*dx


print((f,f_dx))
# 참값은 1, 0.998 근사값
# dx 작아질 수록 참값에 가까워짐

(1, 0.998)


In [2]:
for dx in [1E-3,1E-4,1E-5,1E-8]:
    f_dx=f+df*dx
    print((f,f_dx))
    
# 수치미분의 기본이 되는 아이디어!!

(1, 0.998)
(1, 0.9998)
(1, 0.99998)
(1, 0.99999998)


In [3]:
def f(x):
    return x**2

f(-1)

1

In [4]:
def df(x):
    return 2*x

df(-1)
# 1차 미분한 -1의 x값에서의 도함수, 기울기는 -2
# x값의 위치가 -1일때 x**2함수의 탄젠트라인의 기울기가 -2라는 것 의미

-2

In [5]:
def f_dx(x,dx):
    return f(x)+df(x)*dx

In [6]:
for dx in [1E-3,1E-4,1E-5,1E-6]:
    print('%.4f, %.4f (%.4f)' %(f(-1),f_dx(-1,dx),abs(f(-1)-f_dx(-1,dx))))
    # 문자열 포맷 지정 : %.4f 는 소수점 4자리수 까지 나타내기
    
    # 참값에 가까운 값으로 수렴된다!
    # 1E-6정도 보통으로 사용한다.

1.0000, 0.9980 (0.0020)
1.0000, 0.9998 (0.0002)
1.0000, 1.0000 (0.0000)
1.0000, 1.0000 (0.0000)


# 수치미분
- 전방차분
- 후방차분
- 중심차분

In [7]:
# 전방차분
def forward_diff(f,x,h=1E-6):
    df_=(f(x+h)-f(x))/h
    return df_

forward_diff(f,-1) 
# f라는 함수를 -1에서의 전방차분을 이용해 수치 미분 값을 얻는다.
# -2에 근사하는 값--> 참값에 근사하는 도함수의 값!

-1.999999000079633

In [8]:
# 후방차분
def backward_diff(f,x,h=1E-6):
    df_=(f(x)-f(x-h))/h
    return df_

backward_diff(f,-1)
# -2에 가까운 값이지만 전방차분과 다르게 -2보다 작은 값

-2.0000009999243673

In [9]:
# 중심차분
def central_diff(f,x,h=1E-6):
    df_=(f(x+0.5*h)-f(x-0.5*h))/h
    return df_

central_diff(f,-1)
# 전방차분과 후방차분보다 오차가 훨씬 더 적어짐
# 수치미분을 직접 구현할 때 중심차분이 가장 널리 이용됨

-2.0000000000575113

In [10]:
# h를 더 적은 값으로 하면....??

for h in [1E-4,1E-6,1E-8]:
    cf=central_diff(f,-1,h)
    print('df: %.8f, cf: %.8f (%.8f)'%(df(-1), cf, abs(df(-1) - cf)))
    # 포매팅: 소수점 8째 자리까지 찍어줘
    # 각 step size(h)마다 실제 도함수의 참값, 중심 차분 한 값  , 오차
    # 1E-8에서 오차가 증가. why?컴은 나누기 시러해. 수치미분은 컴이 시러하는 나누기 가지고 있음
    # 아주 작은 값을 나눠주면 컴이 가지고 있는 계산 정확도가 떨어지는 문제 발생
    
    
    ## 따라서 stepsize가 무조건 작다고 좋은 것 아님
    # 1E-6이 가장 많이 사용됨.

df: -2.00000000, cf: -2.00000000 (0.00000000)
df: -2.00000000, cf: -2.00000000 (0.00000000)
df: -2.00000000, cf: -1.99999999 (0.00000001)


- 수치미분 이용한 계산 결과
- 최적화 문제는 최적점(최소값) 찾는 거 
- 최소값은 도함수의 기울기가 0일때
- 그러면 중심차분 이용해 x값을 변할때, 수치미분한 도함수 값(cf)이 0에 가까워지면 최적점!
  
  
- 도함수 정리가 과연 계산적으로도 성립할까??

In [11]:
# x변화에 따른 도함수 변화
# x**2은 0에서 최적점 갖기 때문에 0에 가깝게!

for x in [-1E0,-5E-1,-2.5E-1,-1E-2,-1E-6]: #-1,-0.5,-0.25,-0.01 -0.000001
    cf=central_diff(f,x)
    print('df: %.8f, cf: %.8f (%.8f)' %(df(x), cf, abs(df(x)-cf)))
    
    # 중심차분에 의한 도함수 값이 0에 가까워짐
    # 그 때 도함수의 기울기와 차이 없음.
    # x가 0에 가까워질 수록 도함수의 값이 0에 가까워짐 
    # 기울기가 0이 되면 그 점이 최적점

df: -2.00000000, cf: -2.00000000 (0.00000000)
df: -1.00000000, cf: -1.00000000 (0.00000000)
df: -0.50000000, cf: -0.50000000 (0.00000000)
df: -0.02000000, cf: -0.02000000 (0.00000000)
df: -0.00000200, cf: -0.00000200 (0.00000000)


# 구간 탐색 알고리즘
- Algorithm 3.1 : p.36

In [12]:
# 구간의 상한 하한 설정하는 파이썬 알고리즘 1
a,c =4,3
(a,c) if a<c else (c,a) #스와핑

(3, 4)

In [13]:
# 구간의 상한 하한 설정하는 파이썬 알고리즘 1
a,c=3,4
(a,c) if a<c else (c,a)

(3, 4)

In [14]:
# 초기 구간 결정
def bracket_minimum(f,x,s=1E-2,k=2.0): 
    a,ya=x,f(x)
    b,yb=a+s,f(a+s)
    
    print('init: (a:%.4f, b:%.4f) (ya:%.4f, yb:%.4f)' %(a,b,ya,yb))
    
    if yb>ya:
        a,b=b,a #스와핑
        ya,yb=yb,ya
        s=-s #b 값 줄여나감
    
    while True:
        c,yc=b+s, f(b+s)
        print('step: (a: %.4f, b:%.4f, c:%.4f) (ya:%.4f, yb:%.4f, yc:%.4f)' %(a,b,c,ya,yb,yc))
        
        if yc>yb:
            return (a,c) if a<c else (c,a) #구간의 하한 상한 결정
            # while 루프 빠져나옴
        else:
            a,ya,b,yb=b,yb,c,yc
            s*=k #더 넓은 구간으로 이동
        
bracket_minimum(f,-1)
# 마지막의 a,b,c로 이루어진 구간 사이에 최적점 존재한다는 것 파악 가능

init: (a:-1.0000, b:-0.9900) (ya:1.0000, yb:0.9801)
step: (a: -1.0000, b:-0.9900, c:-0.9800) (ya:1.0000, yb:0.9801, yc:0.9604)
step: (a: -0.9900, b:-0.9800, c:-0.9600) (ya:0.9801, yb:0.9604, yc:0.9216)
step: (a: -0.9800, b:-0.9600, c:-0.9200) (ya:0.9604, yb:0.9216, yc:0.8464)
step: (a: -0.9600, b:-0.9200, c:-0.8400) (ya:0.9216, yb:0.8464, yc:0.7056)
step: (a: -0.9200, b:-0.8400, c:-0.6800) (ya:0.8464, yb:0.7056, yc:0.4624)
step: (a: -0.8400, b:-0.6800, c:-0.3600) (ya:0.7056, yb:0.4624, yc:0.1296)
step: (a: -0.6800, b:-0.3600, c:0.2800) (ya:0.4624, yb:0.1296, yc:0.0784)
step: (a: -0.3600, b:0.2800, c:1.5600) (ya:0.1296, yb:0.0784, yc:2.4336)


(-0.35999999999999993, 1.56)

In [15]:
bracket_minimum(f,1)
# 위 셀과는 다르게 왼쪽으로 이동하며 최적점이 포함된 구간 결정
# 최소값은 0 (참값)
# 비교적 넓은 범위!! : 점 3개로 구간 정함 -> 2개의 구간 (a와 b, b와 c)

init: (a:1.0000, b:1.0100) (ya:1.0000, yb:1.0201)
step: (a: 1.0100, b:1.0000, c:0.9900) (ya:1.0201, yb:1.0000, yc:0.9801)
step: (a: 1.0000, b:0.9900, c:0.9700) (ya:1.0000, yb:0.9801, yc:0.9409)
step: (a: 0.9900, b:0.9700, c:0.9300) (ya:0.9801, yb:0.9409, yc:0.8649)
step: (a: 0.9700, b:0.9300, c:0.8500) (ya:0.9409, yb:0.8649, yc:0.7225)
step: (a: 0.9300, b:0.8500, c:0.6900) (ya:0.8649, yb:0.7225, yc:0.4761)
step: (a: 0.8500, b:0.6900, c:0.3700) (ya:0.7225, yb:0.4761, yc:0.1369)
step: (a: 0.6900, b:0.3700, c:-0.2700) (ya:0.4761, yb:0.1369, yc:0.0729)
step: (a: 0.3700, b:-0.2700, c:-1.5500) (ya:0.1369, yb:0.0729, yc:2.4025)


(-1.55, 0.36999999999999994)

# 삼분할 탐색법
- 최적점 구하기

In [16]:
# bracketing by three fold

def trifold_search(f,x,epsilon=1E-6): #epsilon은 적절한 구간 폭
    a,b =bracket_minimum(f,x)
    print('init: (a:%.4f, b:%.4f)' %(a,b))
    
    distance=abs(a-b)
    
    i=1
    while distance > epsilon:
        x1=a+(1.0/3.0)*distance #다른 방법으로도 계산 가능!
        x2=a+(2.0/3.0)*distance
        
        y1,y2 =f(x1),f(x2)
        
        if y1>y2:
            a,b=x1,b # 구간 폭 1/3만큼 버림
        else:
            a,b =a,x2

            
        distance =abs(a-b)
        
        print('%d: (a:%.4f, b:%.4f)' %(i,a,b))
        
        i+=1
        # whiile loop 끝나면 a,b의 구간의 폭은 epsilon보다 작을 것
   
    x=0.5*abs(a-b) #가운데 값을 중앙값 계산하듯이 최적점의 근사값이라고 하자
    y=f(x) #목적함수의 최소값
    
    return x,y


trifold_search(f,-1)
# 엄청 적은 값이 나오네!! 0에 가까워~!! 최적점과 목적함수 값 모두 0!

init: (a:-1.0000, b:-0.9900) (ya:1.0000, yb:0.9801)
step: (a: -1.0000, b:-0.9900, c:-0.9800) (ya:1.0000, yb:0.9801, yc:0.9604)
step: (a: -0.9900, b:-0.9800, c:-0.9600) (ya:0.9801, yb:0.9604, yc:0.9216)
step: (a: -0.9800, b:-0.9600, c:-0.9200) (ya:0.9604, yb:0.9216, yc:0.8464)
step: (a: -0.9600, b:-0.9200, c:-0.8400) (ya:0.9216, yb:0.8464, yc:0.7056)
step: (a: -0.9200, b:-0.8400, c:-0.6800) (ya:0.8464, yb:0.7056, yc:0.4624)
step: (a: -0.8400, b:-0.6800, c:-0.3600) (ya:0.7056, yb:0.4624, yc:0.1296)
step: (a: -0.6800, b:-0.3600, c:0.2800) (ya:0.4624, yb:0.1296, yc:0.0784)
step: (a: -0.3600, b:0.2800, c:1.5600) (ya:0.1296, yb:0.0784, yc:2.4336)
init: (a:-0.3600, b:1.5600)
1: (a:-0.3600, b:0.9200)
2: (a:-0.3600, b:0.4933)
3: (a:-0.3600, b:0.2089)
4: (a:-0.1704, b:0.2089)
5: (a:-0.1704, b:0.0825)
6: (a:-0.0861, b:0.0825)
7: (a:-0.0299, b:0.0825)
8: (a:-0.0299, b:0.0450)
9: (a:-0.0299, b:0.0200)
10: (a:-0.0133, b:0.0200)
11: (a:-0.0133, b:0.0089)
12: (a:-0.0059, b:0.0089)
13: (a:-0.0059, b:0.

(4.39527352433488e-07, 1.9318429353719158e-13)

In [17]:
trifold_search(f,1)

init: (a:1.0000, b:1.0100) (ya:1.0000, yb:1.0201)
step: (a: 1.0100, b:1.0000, c:0.9900) (ya:1.0201, yb:1.0000, yc:0.9801)
step: (a: 1.0000, b:0.9900, c:0.9700) (ya:1.0000, yb:0.9801, yc:0.9409)
step: (a: 0.9900, b:0.9700, c:0.9300) (ya:0.9801, yb:0.9409, yc:0.8649)
step: (a: 0.9700, b:0.9300, c:0.8500) (ya:0.9409, yb:0.8649, yc:0.7225)
step: (a: 0.9300, b:0.8500, c:0.6900) (ya:0.8649, yb:0.7225, yc:0.4761)
step: (a: 0.8500, b:0.6900, c:0.3700) (ya:0.7225, yb:0.4761, yc:0.1369)
step: (a: 0.6900, b:0.3700, c:-0.2700) (ya:0.4761, yb:0.1369, yc:0.0729)
step: (a: 0.3700, b:-0.2700, c:-1.5500) (ya:0.1369, yb:0.0729, yc:2.4025)
init: (a:-1.5500, b:0.3700)
1: (a:-0.9100, b:0.3700)
2: (a:-0.4833, b:0.3700)
3: (a:-0.1989, b:0.3700)
4: (a:-0.1989, b:0.1804)
5: (a:-0.0725, b:0.1804)
6: (a:-0.0725, b:0.0961)
7: (a:-0.0725, b:0.0399)
8: (a:-0.0350, b:0.0399)
9: (a:-0.0350, b:0.0149)
10: (a:-0.0184, b:0.0149)
11: (a:-0.0073, b:0.0149)
12: (a:-0.0073, b:0.0075)
13: (a:-0.0073, b:0.0026)
14: (a:-0.0040

(4.395273524334884e-07, 1.931842935371919e-13)

# 피보나치 탐색법
- 구간을 더 빨리 줄이고 싶어. 계산은 복잡해짐
- 생각해낸 것은 황금비율!! --> 피보나치 수열


In [18]:
# Algorithm 3.2 : p.39
import numpy as np

def fibonacci_search(f,x,n,epsilon=1E-2):
    a,b=bracket_minimum(f,x) #구간의 상한 하한 결정하는 bracket_minimum 알고리즘 활용
    print('init: (a:%.4f, B:%.4f)' % (a,b))
    
    psi=0.5*(1.+np.sqrt(5))
    s=(1.-np.sqrt(5))/(1.+np.sqrt(5))
    
    rho=1./psi*((1.-s**(n+1))/(1.-s**n)) #n은 1,1,2,3,5,8에서 몇번째인지 결정    
    d=rho*b+(1.-rho)*a
    
    yd=f(d)
    
    for i in range(1,n):
        if i==n-1:
            c=epsilon*a+(1.-epsilon)*d
        else:
            c=rho*a+(1.-rho)*d
        yc=f(c)
        
        if yc<yd:
            b,d,yd =d,c,yc
            
        else:
            a,b=b,c
            
        rho=1./psi*((1.-s**(n-i+1)))/(1.-s**(n-i))
        
        pa,pb=(a,b) if a<b else (b,a)
        print('%d:(a:%.4f, b:%.4f)' %(i,pa,pb))
        
    a,b=(a,b) if a<b else (b,a)
    
    x=0.5*abs(a-b)
    y=f(x)
    
    return x,y



fibonacci_search(f,-1,30)
# 우리가 30번 하라고 했으니까 29번 반복됨


init: (a:-1.0000, b:-0.9900) (ya:1.0000, yb:0.9801)
step: (a: -1.0000, b:-0.9900, c:-0.9800) (ya:1.0000, yb:0.9801, yc:0.9604)
step: (a: -0.9900, b:-0.9800, c:-0.9600) (ya:0.9801, yb:0.9604, yc:0.9216)
step: (a: -0.9800, b:-0.9600, c:-0.9200) (ya:0.9604, yb:0.9216, yc:0.8464)
step: (a: -0.9600, b:-0.9200, c:-0.8400) (ya:0.9216, yb:0.8464, yc:0.7056)
step: (a: -0.9200, b:-0.8400, c:-0.6800) (ya:0.8464, yb:0.7056, yc:0.4624)
step: (a: -0.8400, b:-0.6800, c:-0.3600) (ya:0.7056, yb:0.4624, yc:0.1296)
step: (a: -0.6800, b:-0.3600, c:0.2800) (ya:0.4624, yb:0.1296, yc:0.0784)
step: (a: -0.3600, b:0.2800, c:1.5600) (ya:0.1296, yb:0.0784, yc:2.4336)
init: (a:-0.3600, B:1.5600)
1:(a:-0.3600, b:0.8266)
2:(a:-0.1869, b:0.8266)
3:(a:-0.1869, b:0.5465)
4:(a:-0.1869, b:0.0933)
5:(a:-0.1460, b:0.0933)
6:(a:-0.0799, b:0.0933)
7:(a:-0.0799, b:0.0680)
8:(a:-0.0390, b:0.0680)
9:(a:-0.0390, b:0.0524)
10:(a:-0.0390, b:0.0271)
11:(a:-0.0294, b:0.0271)
12:(a:-0.0137, b:0.0271)
13:(a:-0.0137, b:0.0212)
14:(a:-

(0.0002478044132501504, 6.140702722625132e-08)

In [19]:
fibonacci_search(f,-1,50)
# 좀 더 정확한 값

# 근데 아까 삼분할법보다 피보나치 사용하는게 반복수가 더 줄어들었으면 좋겠는데 
# 이 예에서는 삼분할법의 반복수보다 더 많아져야 계산됨

# 복잡하게 해야하나?
# 수학적으로 삼분할법 경우에 Unimodality 만족한다해도 최적점 못구하고 사이클 발생될 가능성
# 이 문제 없애기 위해 피보나치 사용

## 삼분할법보다 피보나치가 더 안정적


## but 계산오차 많이 포함될 위험성 존재: 나누기 많이 나와!
## 오히려 fn/fn-1 두 비율이 수렴된 값인 황금비를 이용해 구간 구해나가는게 더 적절하지 않을까??
### --> 이것이 바로 황금비율 분할법 (golden ratio search method)
# 사실 이게 가장 많이 사용되는 구간분할법에서의 알고리즘
# 계산량 줄어들고 안정적으로 최적점 찾을 수 있음.

init: (a:-1.0000, b:-0.9900) (ya:1.0000, yb:0.9801)
step: (a: -1.0000, b:-0.9900, c:-0.9800) (ya:1.0000, yb:0.9801, yc:0.9604)
step: (a: -0.9900, b:-0.9800, c:-0.9600) (ya:0.9801, yb:0.9604, yc:0.9216)
step: (a: -0.9800, b:-0.9600, c:-0.9200) (ya:0.9604, yb:0.9216, yc:0.8464)
step: (a: -0.9600, b:-0.9200, c:-0.8400) (ya:0.9216, yb:0.8464, yc:0.7056)
step: (a: -0.9200, b:-0.8400, c:-0.6800) (ya:0.8464, yb:0.7056, yc:0.4624)
step: (a: -0.8400, b:-0.6800, c:-0.3600) (ya:0.7056, yb:0.4624, yc:0.1296)
step: (a: -0.6800, b:-0.3600, c:0.2800) (ya:0.4624, yb:0.1296, yc:0.0784)
step: (a: -0.3600, b:0.2800, c:1.5600) (ya:0.1296, yb:0.0784, yc:2.4336)
init: (a:-0.3600, B:1.5600)
1:(a:-0.3600, b:0.8266)
2:(a:-0.1869, b:0.8266)
3:(a:-0.1869, b:0.5465)
4:(a:-0.1869, b:0.0933)
5:(a:-0.1460, b:0.0933)
6:(a:-0.0799, b:0.0933)
7:(a:-0.0799, b:0.0680)
8:(a:-0.0390, b:0.0680)
9:(a:-0.0390, b:0.0524)
10:(a:-0.0390, b:0.0271)
11:(a:-0.0294, b:0.0271)
12:(a:-0.0137, b:0.0271)
13:(a:-0.0137, b:0.0212)
14:(a:-

(2.014803210137695e-06, 4.0594319755811616e-12)