### 최적화
- 목적 함수의 결괏값을 최적화하는 변수를 찾는 알고리즘

#### 경사 하강법
- 함수의 기울기가 낮은 곳으로 계속 이동시켜 극값에 도달할 때 까지 반복하는 알고리즘
$$θ_{new} = θ_{old} - α∇J(θ_{old})$$

$$ α∇J(θ_{old}): 기울기 α: step size $$

- 기울기가 0인 방향으로 학습 진행


#### 가중치 갱신 방법
$$ W_{new} = W_{old} - α * ∇L(W_{old}) $$

#### 최적화 문제
- 학습률을 너무 낮게 잡으면 
    - 극소 지점을 넘지 못해 로컬 미니멈 값으로 가중치 결정될 수 있음
    - 안장점이 존재하는 함수에도 적절한 가중치를 찾을 수 없음
- 경사 하강법 이외의 최적화 알고리즘 종류
    - Momentum
    - Adagrad
    - Adam

#### 단순 선형 회귀: 넘파이

In [18]:
# 데이터 선언
import numpy as np

x = np.array(
    [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30]]
)
y = np.array(
    [[0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.16], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8]]
)

In [19]:
# 하이퍼파라미터 초기화(넘파이)
weight = 0.0
bias = 0.0
learning_rate = 0.005 # 너무 높으면 갱신 값이 발산해버림

In [20]:
# 에포크 설정
for epoch in range(10000):
    # 가설 손실함수 선언
    y_hat = weight * x + bias 
    cost = ((y - y_hat) ** 2).mean()
    # 가중치와 편향 갱신 / 손실 함수의 기울기를 계산하여 가중치와 편향을 업데이트
    weight = weight - learning_rate * ((y_hat - y) * x).mean() 
    bias = bias - learning_rate * (y_hat - y).mean()
    # 학습 기록
    if (epoch + 1) % 1000 == 0:
        print(f"Epoch : {epoch+1:4d}, Weight : {weight:.3f}, Bias : {bias:.3f}, Cost : {cost:.3f}")


Epoch : 1000, Weight : 0.872, Bias : -0.290, Cost : 1.377
Epoch : 2000, Weight : 0.877, Bias : -0.391, Cost : 1.373
Epoch : 3000, Weight : 0.878, Bias : -0.422, Cost : 1.372
Epoch : 4000, Weight : 0.879, Bias : -0.432, Cost : 1.372
Epoch : 5000, Weight : 0.879, Bias : -0.435, Cost : 1.372
Epoch : 6000, Weight : 0.879, Bias : -0.436, Cost : 1.372
Epoch : 7000, Weight : 0.879, Bias : -0.436, Cost : 1.372
Epoch : 8000, Weight : 0.879, Bias : -0.436, Cost : 1.372
Epoch : 9000, Weight : 0.879, Bias : -0.436, Cost : 1.372
Epoch : 10000, Weight : 0.879, Bias : -0.436, Cost : 1.372


#### 단순 선형 회귀: 파이토치

In [21]:
# 프레임워크 선언 및 데이터 선언
import torch
from torch import optim # optim모듈을 통해 다양한 최적화 함수를 간단하게 사용 가능

x = torch.FloatTensor([
    [1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30]
])
y = torch.FloatTensor([
    [0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.16], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8]
])

In [32]:
# 하이퍼파라미터 초기화
weight = torch.zeros(1, requires_grad=True) # requires_grad: 텐서 연산 추척, 역전파 메서드 호출 기울기 계산 저장(자동 미분)
bias = torch.zeros(1, requires_grad=True)
learning_rate = 0.001

optimizer = torch.optim.SGD(    
<blockquote>params, # 최적화될 매개변수들의 리스트</blockquote>
<blockquote>lr, # 학습률  </blockquote>
<blockquote>**kwargs # 추가적인 옵션  </blockquote>
)

In [28]:
# 최적화 선언
optimizer = optim.SGD([weight, bias], lr = learning_rate)

In [29]:
# 에폭, 가설, 손실 함수 선언
for epoch in range(10000):
    hypothesis = x * weight + bias
    cost = torch.mean((hypothesis - y) ** 2)

    # 가중치와 편향 갱신
    optimizer.zero_grad() # optimizer 변수에 포함시킨 매개변수들 기울기 0으로 초기화
    cost.backward() # 역전파 수행 이를 통해 매개변수들의 기울기 새로 계산
    optimizer.step() # learning rate 값 반영한 확률적 경사 하강법 연산 적용

    if (epoch + 1) % 1000 == 0:
        print(f"Epoch : {epoch+1:4d}, Weight : {weight.item():.3f}, Bias : {bias.item():.3f}, Cost : {cost:.3f}")

Epoch : 1000, Weight : 0.864, Bias : -0.138, Cost : 1.393
Epoch : 2000, Weight : 0.870, Bias : -0.251, Cost : 1.380
Epoch : 3000, Weight : 0.873, Bias : -0.321, Cost : 1.375
Epoch : 4000, Weight : 0.875, Bias : -0.364, Cost : 1.373
Epoch : 5000, Weight : 0.877, Bias : -0.391, Cost : 1.373
Epoch : 6000, Weight : 0.878, Bias : -0.408, Cost : 1.372
Epoch : 7000, Weight : 0.878, Bias : -0.419, Cost : 1.372
Epoch : 8000, Weight : 0.878, Bias : -0.425, Cost : 1.372
Epoch : 9000, Weight : 0.879, Bias : -0.429, Cost : 1.372
Epoch : 10000, Weight : 0.879, Bias : -0.432, Cost : 1.372


In [34]:
# 하이퍼파라미터 초기화
weight = torch.zeros(1, requires_grad=True)
bias = torch.zeros(1, requires_grad=True)
learning_rate = 0.001

# 최적화 선언
optimizer = optim.SGD([weight, bias], lr = learning_rate)

for epoch in range(3):
    hypothesis = weight * x + bias
    cost = torch.mean((hypothesis - y) ** 2)
    
    print(f"Epoch : {epoch+1:4d}")
    print(f"Step [1] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    # 기울기가 없기 때문에 zero_grad 초기값과 동일
    optimizer.zero_grad()
    print(f"Step [2] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")
    # 역전파로 기울기 계산
    cost.backward()
    print(f"Step [3] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")
    # 역전파로 인한 기울기 계산 후 weight값 반영
    optimizer.step()
    print(f"Step [4] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

Epoch :    1
Step [1] : Gradient : None, Weight : 0.00000
Step [2] : Gradient : None, Weight : 0.00000
Step [3] : Gradient : tensor([-540.4854]), Weight : 0.00000
Step [4] : Gradient : tensor([-540.4854]), Weight : 0.54049
Epoch :    2
Step [1] : Gradient : tensor([-540.4854]), Weight : 0.54049
Step [2] : Gradient : None, Weight : 0.54049
Step [3] : Gradient : tensor([-198.9818]), Weight : 0.54049
Step [4] : Gradient : tensor([-198.9818]), Weight : 0.73947
Epoch :    3
Step [1] : Gradient : tensor([-198.9818]), Weight : 0.73947
Step [2] : Gradient : None, Weight : 0.73947
Step [3] : Gradient : tensor([-73.2604]), Weight : 0.73947
Step [4] : Gradient : tensor([-73.2604]), Weight : 0.81273


#### 신경망 패키지

In [None]:
# 선형 변환 클래스
layer = torch.nn.Linear(
    in_features # 입력 차원크기
    out_features # 출력 차원 크기
    bias = True # bias 값 포함 여부
    device = None # 레이어 생성될 device지정 / 데이터와 모델은 같은 장치에 있어야함
    dtype = None  # 레이어의 데이터 타입을 설정 / 데이터와 모델 레이어는 동일한 데이터 타입
)

In [None]:
from torch import nn

# weight = torch.zeros(1, requires_grad=True)
# bias = torch.zeros(1, requires_grad=True)
model = nn.Linear(1, 1, bias=True) # 위 코드를 선형 변환 클래스로 대체해 모델 구성
criterion = nn.MSELoss()
learning_rate = 0.001

In [None]:
# 순방향 계산
for epoch in range(10000):
    output = model(x) # x전달 후 output반환
    cost = criterion(output, y) # 입력과 목표를 전달받아 순방향 연산 진행

In [35]:
# 신경망 패키지

import torch
from torch import nn
from torch import optim

x = torch.FloatTensor([
    [1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30]
])
y = torch.FloatTensor([
    [0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.16], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8]
])

model = nn.Linear(1, 1)
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001)

for epoch in range(10000):
    output = model(x)
    cost = criterion(output, y)

    optimizer.zero_grad() 
    cost.backward()
    optimizer.step()

    if (epoch + 1) % 1000 == 0:
        print(f"Epoch : {epoch+1:4d}, Model : {list(model.parameters())}, Cost : {cost:.3f}")

Epoch : 1000, Model : [Parameter containing:
tensor([[0.8448]], requires_grad=True), Parameter containing:
tensor([0.2565], requires_grad=True)], Cost : 1.486
Epoch : 2000, Model : [Parameter containing:
tensor([[0.8577]], requires_grad=True), Parameter containing:
tensor([-0.0050], requires_grad=True)], Cost : 1.416
Epoch : 3000, Model : [Parameter containing:
tensor([[0.8657]], requires_grad=True), Parameter containing:
tensor([-0.1678], requires_grad=True)], Cost : 1.389
Epoch : 4000, Model : [Parameter containing:
tensor([[0.8707]], requires_grad=True), Parameter containing:
tensor([-0.2691], requires_grad=True)], Cost : 1.379
Epoch : 5000, Model : [Parameter containing:
tensor([[0.8738]], requires_grad=True), Parameter containing:
tensor([-0.3321], requires_grad=True)], Cost : 1.375
Epoch : 6000, Model : [Parameter containing:
tensor([[0.8757]], requires_grad=True), Parameter containing:
tensor([-0.3713], requires_grad=True)], Cost : 1.373
Epoch : 7000, Model : [Parameter containi