# Deeper Look at Gradient Descent

In [7]:
import torch
import torch.optim as optim

x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

## Hypothesis (Linear Regression) : 인공 신경망의 구조를 나타냄
### H(x) = Wx + b  => W와 b라는 변수를 학습해 주어진 데이터에 최적화
#### W : Weight,  b : Bias

주어진 input x에 대해 어떤 output y를 예측할지 알려주며 H(x)로 표현

W : 하나의 Matrix

b : vector

In [8]:
W = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True) # W와 b 초기화
hypothesis = x_train * W + b

## Simpler Hypothesis Function (Bias를 삭제한 더 간단한 모델)
## W라는 상수 하나만 학습 가능한 모델이다
### H(x) = Wx

In [9]:
W = torch.zeros(1, requires_grad = True)
# b = torch.zeros(1, requires_grad = True)
hypothesis = x_train * W

## Dummy Data
### Input = Output

In [10]:
# dataset
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]]) # 입력과 출력의 값이 동일
# PyTorch에서는 dataset을 위와 같이 torch.Float() 2개로 표현할 수 있음

입력과 출력이 동일하므로 최적의 Hypothesis function은 H(x) = x 이다. => W = 1일 때 모든 데이터의 정확한 값을 예측할 수 있음

==> W != 1 일 경우, 학습의 목표는 W를 1로 수렴시키는 것이다.

==> W가 1에 가까울수록 정확한 모델

### 모델의 좋고 나쁨을 어떻게 평가하는가? => Cost funtion : Intuition 정의
cost funtion : 모델 예측값이 실제 데이터와 얼마나 다른지 나타내는 값 => 잘 학습된 모델일수록 낮은 cost를 가짐

ex) 바로 위의 모델에서는 W = 1일 때 cost = 0 => cost는 아래로 볼록한 포물선 모양을 그래프를 가지게 됨

### Linear Regression에서 쓰이는 cost funtion은 MSE(Mean Squared Error)라고 함
### MSE : 예측값과 실제값의 차이를 제곱한 평균을 구해줌
__Pytorch로 MSE 구하는 방법__
- 차이 구하기 : hypothesis - y_train
- (차이)^2 : 차이 제곱
- torch.mean 함수 이용해 dataset 전체의 평균 구하기


Cost funtion : 예측값과 실제값의 차이를 나타냄 / gradient : 기울기
__Cost funtion 을 최소화__ 하는 것이 목표
- 기울기 음수 -> W가 더 커져야 함
- 기울기 양수 -> W가 더 작아져야 함

- 기울기가 가파를수록 cost가 큼 -> W를 크게 바꾸기
- 평평할수록 cost가 0에 가까움  -> W를 조금 바꾸기

## Gradient Descent : The Math  기울기 계산하기

### 미분 필요! => cost funtion은 W에 대한 2차 함수 -> 간단한 미분 방정식 이용

Gradient descent : Gradient를 이용해 Cost를 줄인다

## W := W - α∇W
### W : Gradient, α : Learning rate (상수)

__Gradient Descent를 PyTorch로 구현하기__

In [11]:
gradient = 2 * torch.mean((W * x_train - y_train) * x_train) # dataset의 전체 평균 gradient 구하기
lr = 0.1 # 상수 정의 // 코드에서 통상적으로 learning rate를 lr이라고 줄여 쓴다.
W -= lr * gradient # 정의한 상수대로 W 업데이트

RuntimeError: a leaf Variable that requires grad is being used in an in-place operation.

### 

## 신경망에 사용할 Full Code 예제

학습할수록 W가 1에 수렴 (학습, 반복할 때마다 dataset 전체를 사용)

cost 감소

In [None]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

# 모델 초기화
W = torch.zeros(1)

# learning rate 설정
lr = 0.1


nb_epochs = 10
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W

    # cost gradient 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    gradient = torch.sum((W * x_train - y_train) * x_train)
    print('Epoch {:4d}/{} W: {:.3f}, Cost: {:.6f}'.format( # Epoch : 데이터로 학습한 횟수
         epoch, nb_epochs, W.item(), cost.item()
     ))
 
    # cost gradient로 H(x) 개선
     W -= lr * gradient

## Gradient Descent with "torch.optim"
### __torch.optim__ 으로 __gradient descent__ 를 할 수 있음
optimizer를 정의하기 위해서는 학습가능한 변수들과 learning weight를 알아야 함

모델 :  H(x) = Wx

In [None]:
#optimizer 설정 // cost funtion 계산
optimizer = optim.SGD([W], lr = 0.15)

# cost로 H(x) 개선 // Gradient descent 수행
optimezer.zero_grad() # optimizer에 있는 모든 학습 가능한 변수의 gradient를 전부 0으로 초기화
cost.backward()       # cost function을 미분해 각 변수들의 gradient 채우기
optimizer.step()      # 저장된 gradient 값으로 gradient descent 시행

### 

## Full Code with "torch.optim"
### gradient decent를 torch.optim 을 사용한 코드로 변경

In [None]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[1], [2], [3]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W], lr=0.15)


nb_epochs = 10
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    print('Epoch {:4d}/{} W: {:.3f} Cost: {:.6f}'.format(
        epoch, nb_epochs, W.item(), cost.item()
    ))
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()