# Gradient Descent

###  필요한 이유 
* 신경망의 내부 가중치 파라미터를 잘 조절하여 **원하는 함수를 근사계산하고 싶을 때 활용** 
* 손실함수를 통해 **더 좋은 가중치 파라미터 선택 가능** 
* 손실 값을 **`가중치 파라미터로 미분`** 하여 **`그래디언트 벡터`** 를 구하고 ,
* **반대 방향으로 가중치 파라미터를 업데이트**하면서 점진적으로 더 낮은 손실 값을 갖는 가중치 파라미터를 구할 수 있음. 

In [30]:
import torch 
import torch.nn.functional as F 

In [31]:
target = torch.FloatTensor([[.1,.2,.3],
                           [.4,.5,.6],
                           [.7,.8,.9]]) 
x = torch.rand_like(target)
x.requires_grad = True 

In [32]:
print(x)

tensor([[0.0515, 0.9451, 0.0815],
        [0.7376, 0.7345, 0.3697],
        [0.9189, 0.5949, 0.6095]], requires_grad=True)


In [33]:
loss = F.mse_loss(x, target)

In [34]:
print(loss)

tensor(0.1113, grad_fn=<MseLossBackward0>)


In [35]:
#while 반복문을 사용해 두 텐서 값의 차이가 threshold 의 값보다 작아질 때 까지 반복수행 

threshold = 1e-5
learning_rate = 1
iter_cnt = 0

while loss > threshold :
    iter_cnt += 1
    loss.backward() 
    
    x = x - learning_rate * x.grad
    
    x.detach_()
    x.requires_grad_(True) 
    
    loss =F.mse_loss(x , target) 
    print('%d-th Loss : %4e' % (iter_cnt , loss))
    print(x)

1-th Loss : 6.731786e-02
tensor([[0.0623, 0.7795, 0.1301],
        [0.6626, 0.6824, 0.4209],
        [0.8702, 0.6405, 0.6741]], requires_grad=True)
2-th Loss : 4.072314e-02
tensor([[0.0707, 0.6507, 0.1678],
        [0.6042, 0.6419, 0.4607],
        [0.8324, 0.6759, 0.7243]], requires_grad=True)
3-th Loss : 2.463499e-02
tensor([[0.0772, 0.5506, 0.1972],
        [0.5588, 0.6103, 0.4917],
        [0.8030, 0.7035, 0.7633]], requires_grad=True)
4-th Loss : 1.490265e-02
tensor([[0.0823, 0.4727, 0.2200],
        [0.5235, 0.5858, 0.5157],
        [0.7801, 0.7250, 0.7937]], requires_grad=True)
5-th Loss : 9.015181e-03
tensor([[0.0862, 0.4121, 0.2378],
        [0.4961, 0.5668, 0.5345],
        [0.7623, 0.7416, 0.8173]], requires_grad=True)
6-th Loss : 5.453628e-03
tensor([[0.0893, 0.3649, 0.2516],
        [0.4747, 0.5519, 0.5490],
        [0.7485, 0.7546, 0.8357]], requires_grad=True)
7-th Loss : 3.299108e-03
tensor([[0.0916, 0.3283, 0.2624],
        [0.4581, 0.5404, 0.5603],
        [0.7377, 0.

In [36]:
print(loss)

tensor(7.9237e-06, grad_fn=<MseLossBackward0>)


# Pytoch Autograd

In [20]:
import torch 

In [21]:
x = torch.FloatTensor([[1,2],
                      [3,4]]).requires_grad_(True)

In [22]:
x1 = x+2
x2 = x-2
x3 = x1*x2 
y = x3.sum()

print(x1)
print(x2)
print(x3)
print(y)

tensor([[3., 4.],
        [5., 6.]], grad_fn=<AddBackward0>)
tensor([[-1.,  0.],
        [ 1.,  2.]], grad_fn=<SubBackward0>)
tensor([[-3.,  0.],
        [ 5., 12.]], grad_fn=<MulBackward0>)
tensor(14., grad_fn=<SumBackward0>)


* 생성된 결과 텐서들이 모두 grad_fn 속성을 갖는다. 

In [23]:
y.backward() #이때 y는 scala여야 한다. 

In [24]:
print(x.grad)

tensor([[2., 4.],
        [6., 8.]])


In [25]:
print(x)

tensor([[1., 2.],
        [3., 4.]], requires_grad=True)


In [26]:
x3.numpy()

RuntimeError: Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.

In [27]:
x3.detach_().numpy()

array([[-3.,  0.],
       [ 5., 12.]], dtype=float32)

# Why we gradient descent ? 

1. 원하는 출력값을 출력하는 함수를 근사하고 싶다.
2. 손실함수를 최소화하도록 모델의 파라미터를 조절하자.
3. 미분을 통해 `gradient`를 얻고, `loss 를 낮추는 방향`으로 파라미터 업데이트 