# Gradient descent

perceptron에서, 단순한 예측을 하는 신경망을 살펴보았습니다.
- 단수 또는 복수의 입력을 받아 단수 또는 복수의 예측을 하는 신경망
- 은닉층이 포함된 신경망

이제, 얼마나 잘 예측했는지 평가해 보도록 합시다.
- 오차는 항상 '양수'
- 평균제곱오차 (Mean square error)

경사하강법이 하는 일
- 각 가중치에 대해 수행한 계산 결과 (즉, 예측)가 오차를 줄이려면 가중치를 어떻게 조정해야 하는지에 대해 알려줌

### 예측과 실제 값의 비교
- 선형 회귀를 떠올려 보면서, y_true와 y_pred (=weight*input)의 관계에 대해 생각해 봅시다. 

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0050-01_alt.jpg)

In [None]:
knob_weight = 0.5
input = 0.5
y_true = 0.8

y_pred = input * knob_weight

error = (y_pred - y_true) ** 2

print(error)

### 오차에 제곱을 하면 나타나는 효과
- 큰 오차를 작은 오차보다 더 우선시하여 처리할 수 있다.
- 양수 오차와 음수 오차의 합으로 인한 오차 상쇄 효과를 방지할 수 있다.
- MAE와는 어떻게 달라지는지?

### 온냉요법 Hot and cold learning
![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0052-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0052-02_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0053-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0053-02_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0053-03_alt.jpg)

In [None]:
# weight = 0.5, input = 0.5인데, y_true = 0.8이면 좋겠음.
# weight는 바꿀 수 있다. input은 바꿀 수 있을까?
weight = 0.5
input = 0.5
y_true = 0.8

step_amount = 0.001

for iteration in range(1000):

    prediction = input * weight
    error = (prediction - y_true) ** 2

    print(f"Iteration: {iteration}, Error: {error:.4f}, Prediction: {prediction:.4f}")

    up_prediction = input * (weight + step_amount)
    up_error = (y_true - up_prediction) ** 2

    down_prediction = input * (weight - step_amount)
    down_error = (y_true - down_prediction) ** 2

    if(down_error < up_error):
        weight = weight - step_amount
    else:
        weight = weight + step_amount


### 온냉학습의 문제점
1. 비효율적
2. 파라미터에 따라 예측이 안될 때가 있음 (위 코드에서 step_amount=0.2일 때)

- 우리는 weight를 어디로 옮길지는 알 수 있으나 얼마나 옮겨야 할지는 알기 힘들다.

### 오차를 측정해서 방향과 거리를 알아봅시다.
![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0056-01_alt.jpg)

In [None]:
weight = 0.5
input = 0.5
y_true = 0.8

for iteration in range(20):
    y_pred = input * weight
    error = (y_pred - y_true) ** 2
    direction_and_amount = (y_pred - y_true) * input
    weight = weight - direction_and_amount

    print(f"Iteration: {iteration}, Error: {error:.4f}, Prediction: {pred:.4f}")


순오차: pred - goal_pred
- 양수(음수)라면, 원하는 실제 값보다 예측값이 크다(작다)는 의미
- input을 곱하는 이유
- "weight = weight - direction_and_amount"

지난 시간에 만들었던 neural_network에 적용해 봅시다.

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0058-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0058-02_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0058-03_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0059-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0059-02_alt.jpg)

In [None]:
weight = 0.1
alpha = 0.01
def neural_network(input, weight):
    prediction = input * weight
    return prediction

print(f"Weight_previous: {weight}")
number_of_toes = [8.5]
win_or_lose_binary = [1]

input = number_of_toes[0]
true = win_or_lose_binary[0]

pred = neural_network(input, weight)
error = (pred - true) ** 2

delta = pred - true
weight_delta = input * delta

weight = weight - (weight_delta * alpha)
print(f"Weight_current: {weight}")

**alpha: "Hyperparameter"**

### 학습을 단계별로 살펴봅시다.

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0062-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0062-02_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0063-01_alt.jpg)

![](https://drek4537l1klr.cloudfront.net/trask2/Figures/f0063-02_alt.jpg)

In [None]:
weight, y_true, input = (0.0, 0.8, 1.1)
for iteration in range(4):
    print(f"Iteration: {iteration}")
    print(f"Weight: {weight}")
    y_pred = input * weight
    error = (y_pred - y_true) ** 2
    delta = y_pred - y_true
    weight_delta = input * delta
    weight = weight - weight_delta
    print(f"Error: {error:.4f}, Prediction: {y_pred:.4f}")
    print(f"Delta: {delta:.4f}, Weight Delta: {weight_delta:.4f}")
    print("=====================================")


error = ((input * weight) - y_true) ** 2
- error를 최소화하려면 어떻게 해야 할까?
1. y_true를 바꾸면? 목표를 수정해 버리는 것.
2. input을 바꾸면? 데이터를 바꿔버리는 것.
3. 바꿀 수 있는 것은 weight밖에 없음. (Remind linear regression!)

- 즉, 변경할 수 있는 변수: weight (가중치)
- 변경할 수 없는 변수: input (입력 데이터), y_true (출력 데이터), error (오차)

### 미분 계수
- 오차를 줄이기 위해 weight가 어디로 얼마나 가야 할지 알 수 있다!

$ y = (ax - b)^2 $

$ \displaystyle \frac{dy}{dx} = 2(ax - b) \cdot a $

- $ax-b$: 순오차
- $a$: input
```python
-> weight_delta = input * delta (2는 단순상수)
```

### 같은 코드로 input=2로 하여 실행해 봅시다.

In [None]:
weight, y_true, input = (0.0, 0.8, 2)
for iteration in range(4):
    print(f"Iteration: {iteration}")
    print(f"Weight: {weight}")
    y_pred = input * weight
    error = (y_pred - y_true) ** 2
    delta = y_pred - y_true
    weight_delta = input * delta
    weight = weight - weight_delta
    print(f"Error: {error:.4f}, Prediction: {y_pred:.4f}")
    print(f"Delta: {delta:.4f}, Weight Delta: {weight_delta:.4f}")
    print("=====================================")


입력값이 클 수록 예측값은 가중치의 변화에 굉장히 민감해 집니다. why?

In [None]:
weight, y_true, input = (0.0, 0.8, 2)
alpha = 0.1
for iteration in range(4):
    print(f"Iteration: {iteration}")
    print(f"Weight: {weight}")
    y_pred = input * weight
    error = (y_pred - y_true) ** 2
    delta = y_pred - y_true
    weight_delta = input * delta
    weight = weight - alpha*weight_delta
    print(f"Error: {error:.4f}, Prediction: {y_pred:.4f}")
    print(f"Delta: {delta:.4f}, Weight Delta: {weight_delta:.4f}")
    print("=====================================")


## Important!
1. 오차의 정의 및 역할
2. 온냉요법의 문제점
3. 경사하강법에 있어서 미분계수의 역할
4. 변수 alpha의 역할