# CHAPTER 04. Gradient Descent (경사하강법)
---------------------------

## 1. Gradient Descent 란?

* 오차(error, 또는 손실(loss)) 값을 최소화 시키는 방법이다.
* 기울기(미분계수)가 최소가 되는 점의 weight를 찾는다.
* 하나의 학습 예제(입력 -> 참)쌍을 통해 weight 갱신

>### 1. 신경망

In [1]:
weight = 0.1 # 임의로 첫번째 weight 값 설정
alpha = 0.01 

def neural_network(input_data, weight):
    prediction = input_data * weight
    
    return prediction

>### 2. 예측: 예측을 수행하고 오차 평가하기

In [2]:
number_of_toes = [8.5]
win_or_lose_binary = [1] # win=1, lose=0
input_data = number_of_toes[0]
goal_pred = win_or_lose_binary[0]
pred = neural_network(input_data, weight)

error = (pred - goal_pred) ** 2

# 여러가지 오차 측정 방법 중 평균제곱오차(Mean Squared Error, MSE)방법을 사용
# 순오차 (pred - goal_pred) 를 제곱해 오직 양수 오차만 사용
# 양수 오차만을 사용하는 이유: 평균오차에 잘못된 영향을 미치지 않도록

>### 3. 비교: node delta 를 계산하고 그 결과를 출력 노드에 놓기
* delta: '예측이 얼마나 목표 예측에서 벗어났는가'를 나타내는 척도   
**(pred - goal pred)**

In [3]:
delta = pred - goal_pred

>### 4. 학습: 가중치 델타(weight_delta)를 계산해 가중치에 그 결과 내놓기
* weight_delta: 신경망의 예측이 빗나가게 하는 가중치의 크기를 재는 척도

In [4]:
weight_delta = delta * input_data

>### 5. 학습: 가중치 갱신

In [5]:
alpha = 0.01 # 신경망의 학습속도를 조절
# 숫자가 클수록 가중치 갱신이 급격하게된다. 그러면 우리가 찾아야할 오차가 최소가 되는 곳을 지나칠 가능성이 높다 ;; 오버슈팅(overshooting)<->undershooting

weight -= weight_delta * alpha


## 2. 학습 = 오차 줄이기 !

In [6]:
weight, goal_pred, input_data = 0.0, 0.8, 0.5

In [11]:
for i in range(4):
    pred = input_data * weight
    error = (pred - goal_pred) ** 2
    delta = pred - goal_pred
    weight_delta = delta * input_data
    weight -= weight_delta
    print("Error: " + str(error) + ", Prediction: " + str(pred))

Error: 0.6400000000000001, Prediction: 0.0
Error: 0.3600000000000001, Prediction: 0.2
Error: 0.2025, Prediction: 0.35000000000000003
Error: 0.11390625000000001, Prediction: 0.4625


* pred와 error의 결합: error = ((input_data * weight) - goal_pred) ** 2 로도 사용 가능 

## 3. 학습의 여러 단계를 관찰해보세요
* ### 결국 그릇의 바닥과 만나게 될까요?

In [1]:
weight, goal_pred, input_data = 0.0, 0.8, 1.1

In [2]:
for i in range(4):
    print("--------------------------------\nWeight: " + str(weight))
    pred = input_data * weight
    error = (pred - goal_pred) ** 2
    delta = pred - goal_pred
    weight_delta = delta * input_data
    weight -= weight_delta
    print("Error: " + str(error) + ", Prediction: " + str(pred))
    print("Delta: " + str(delta) + ", Weight Delta: " + str(weight_delta))

--------------------------------
Weight: 0.0
Error: 0.6400000000000001, Prediction: 0.0
Delta: -0.8, Weight Delta: -0.8800000000000001
--------------------------------
Weight: 0.8800000000000001
Error: 0.02822400000000005, Prediction: 0.9680000000000002
Delta: 0.16800000000000015, Weight Delta: 0.1848000000000002
--------------------------------
Weight: 0.6951999999999999
Error: 0.0012446784000000064, Prediction: 0.76472
Delta: -0.03528000000000009, Weight Delta: -0.0388080000000001
--------------------------------
Weight: 0.734008
Error: 5.4890317439999896e-05, Prediction: 0.8074088
Delta: 0.007408799999999993, Weight Delta: 0.008149679999999992


In [1]:
import matplotlib.pyplot as plt
import numpy as np

In [2]:
weight, goal_pred, input_data = 0.0, 0.8, 1.1

In [3]:
count = 0

while (1):
    print("--------------------------------\nWeight: " + str(weight))
    pred = input_data * weight
    error = (pred - goal_pred) ** 2
    delta = pred - goal_pred
    weight_delta = delta * input_data
    weight -= weight_delta
    
    print("Error: " + str(error) + ", Prediction: " + str(pred))
    print("Delta: " + str(delta) + ", Weight Delta: " + str(weight_delta))
    
    if error<0.000000001:
        break
    else:
        count = count + 1
        print(count)
        

--------------------------------
Weight: 0.0
Error: 0.6400000000000001, Prediction: 0.0
Delta: -0.8, Weight Delta: -0.8800000000000001
1
--------------------------------
Weight: 0.8800000000000001
Error: 0.02822400000000005, Prediction: 0.9680000000000002
Delta: 0.16800000000000015, Weight Delta: 0.1848000000000002
2
--------------------------------
Weight: 0.6951999999999999
Error: 0.0012446784000000064, Prediction: 0.76472
Delta: -0.03528000000000009, Weight Delta: -0.0388080000000001
3
--------------------------------
Weight: 0.734008
Error: 5.4890317439999896e-05, Prediction: 0.8074088
Delta: 0.007408799999999993, Weight Delta: 0.008149679999999992
4
--------------------------------
Weight: 0.72585832
Error: 2.4206629991042546e-06, Prediction: 0.798444152
Delta: -0.0015558480000000818, Weight Delta: -0.0017114328000000902
5
--------------------------------
Weight: 0.7275697528
Error: 1.0675123826048965e-07, Prediction: 0.80032672808
Delta: 0.00032672808000000497, Weight Delta: 0.00

## 4. 왜 이게 작동하죠? weight_delta는 뭔가요?

`error = ((input_data * weight) - goal_pred) ** 2` 

### **여기서 수정할 수 있는 것은?**  

* input_data & goal_pred -> **'고정'**
* 2, ** -> **'오차측정법 파괴'**
* weight -> **'수정 가능'**

>## weight 수정 = 해당 함수가 **데이터 패턴에 순응**한다는 의미
>## 즉, error 값이 0에 이를 때까지 오차 함수의 특정 부분(weight)을 수정하라!

## 5. 한 가지 개념에 집중하기
* ### 개념: 학습은 오차가 0이 되도록 가중치를 조정하는 과정