<a href="https://colab.research.google.com/github/Youngmi-Park/pytorch-study/blob/main/%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80(Linear_Regression).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 선형 회귀(Linear Regression)

공부한 시간(x)과 점수(y)에 대한 상관관계로 선형 회귀
*   1시간 → 2점
*   2시간 → 4점
*  3시간 → 6점
일 때, 4시간을 공부한다면 몇 점을 맞을 수 있을까?


### 1. 데이터셋 구성

- 훈련 데이터셋(training dataset): 예측을 위해 모델을 학습하는데 사용하는 데이터

- 테스트 데이터셋(test dataset): 학습이 끝난 후, 모델이 얼마나 잘 작동하는지 판별하는 데이터셋

### 2. 가설(Hypothesis) 수립

머신 러닝에서 가설
- 임의로 추측해서 세우는 식
- 경험적으로 알고 있는 식
- 맞는 가설이 아니라고 판단되면 계속 수정하는 식


#### 선형회귀
학습 데이터와 가장 잘 맞는 하나의 직선 방정식을 찾는 것이다.
$$ y = Wx+b $$
가설 H를 따서 $H(x) = Wx+b$로 표현하기도 한다.
- $W$: Weight, 가중치(기울기)
- $b$: bias, 편향(절편)




### 3. 비용 함수(Cost function)

비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function)

이때, 모든 데이터에 대해서 오차(실제값-예측값)를 더하면 음수와 양수가 더해지므로 절대적인 오차의 크기를 측정할 수 없다.
따라서, 오차들의 제곱의 합을 구하고 데이터 개수인 n으로 나누어 주면 오차의 제곱합에 대한 평균을 구할 수 있다.

이를 **평균 제곱 오차(Mean Squared Error, MSE)**라고 한다. 

평균 제곱 오차는 회귀 문제에서 적절한 W
와 b를 찾기위해서 최적화된 식이다. 그 이유는 평균 제곱 오차의 값을 최소값으로 만드는 W
와 b를 찾아내는 것이 가장 훈련 데이터를 잘 반영한 직선을 찾아내는 일이기 때문이다.

$$cost(W, b) = {1 \over n} \sum^n_{i=1}[y^{(i)}-H(x^{(i)})]^2   $$

즉, $Cost(W,b)$를 최소화 하는 W, b를 찾으면 훈련 데이터를 가장 잘 나타내는 직선을 구할 수 있다.

### 4. 경사 하강법(Gradient Descent) - 옵티마이저

비용 함수(Cost Function)의 값을 최소로 하는 
$W$와 $b$를 찾는 방법, 최적화 알고리즘이라고도 하는 옵티마이저(Optimizer)이다.
- 머신 러닝에서 학습(training): 옵티마이저 알고리즘을 통해 적절한 
W와 b를 찾아내는 과정
- 경사 하강법: 가장 기본적인 옵티마이저 알고리즘

편항 $b$없이 $W$만으로 설명하면, 기울기(가중치) $W$가 무한대로 커지면 cost 값도 무한대로 커지고, $W$가 무한대로 작아져도 cost값이 무한대로 커진다.
cost가 가장 최솟값을 가지게 하는 $W$를 찾아야 하므로, 맨 아래 볼록한 부분의 $W$값을 찾아야한다.

<p align="center"><img src="https://wikidocs.net/images/page/21670/%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95.PNG"></p>

임의의 초기값 $W$에서 시작 → cost function 미분 → 현재 $W$의 접선의 기울기를 구함 → 접선의 기울기가 낮은 방향으로 $W$값 갱신 반복

<p align="center"><img src="https://wikidocs.net/images/page/21670/%EC%A0%91%EC%84%A0%EC%9D%98%EA%B8%B0%EC%9A%B8%EA%B8%B01.PNG
"></p>

- 기울기가 음수일 때: $W$ 값이 증가
$$W := W - \alpha \times (음수기울기)= W+\alpha \times (양수기울기)$$

- 기울기가 양수일 때: $W$ 값이 감소
$$W := W - \alpha \times (양수기울기)$$

두 경우 모두 접선의 기울기가 0인 방향으로 $W$조정한다.
$$W := W - \alpha{∂ \over ∂W } cost(W)$$

### 학습률(learning rate)
학습률은 위의 식에서 $\alpha$를 말한다.
$W$, $b$값을 변경할 때, 얼마나 크게 변경할지를 결정하는 값이다. 적당한 $\alpha$를 찾는 것도 중요하다. 

- 학습률이 지나치게 큰 경우:값이 발산
- 학습률이 지나치게 작은 경우: 학습 속도 저하





*가설, 비용 함수, 옵티마이저는 머신 러닝 분야에서 사용되는 포괄적 개념이다. 풀고자하는 각 문제에 따라 가설, 비용 함수, 옵티마이저는 전부 다를 수 있으며 선형 회귀에 가장 적합한 비용 함수는 평균 제곱 오차, 옵티마이저는 경사 하강법이다.*



# PyTorch로 구현한 선형 회귀 

## 직접 정의해서 구현하기

### 1. 기본 세팅

In [12]:
import torch
import torch.nn as nn
import torch.nn.functional as F 
import torch.optim as optim # optimizer

torch.manual_seed(1) # 재실행해도 같은 결과가 나오도록 랜덤 시드 설정

<torch._C.Generator at 0x7faddc1a8470>

### 2. 변수 선언

In [13]:
x_train = torch.FloatTensor([[1],[2],[3]]) # 공부한 시간
y_train = torch.FloatTensor([[2],[4],[6]]) # 점수

In [14]:
print(x_train.shape)

torch.Size([3, 1])


### 3. 가중치, 편향 초기화

선형 회귀는 학습 데이터와가장 잘 맞는 하나의 직선 $y=Wx+b$을 찾는 일이다.

즉, 직선을 정희하는 $W$와 $b$의 값을 찾는 것이 목표이다.

- requires_grad=True 인자: 학습을 통해 계속 값이 변경되는 변수임을 의미

In [15]:
# 가중치와 편향을 0으로 초기화 하고 학습을 통해 값이 변경되는 변수임을 명시
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
print(W)
print(b)

tensor([0.], requires_grad=True)
tensor([0.], requires_grad=True)


### 4. 가설 세우기
$$H(x) = Wx + b$$
파이토치 코드 상으로 직선 방정식에 해당하는 가설을 선언한다.

In [16]:
hypothesis = x_train * W + b  # hypothesis
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


### 5. 비용 함수 선언하기

파이토치 코드 상으로 선형 회귀의 비용 함수에 해당되는 평균 제곱 오차를 선언한다.

$$cost(W, b) = {1 \over n} \sum^n_{i=1}[y^{(i)}-H(x^{(i)})]^2   $$


In [17]:
cost = torch.mean((hypothesis - y_train) ** 2)# cost function
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


### 6. 경사하강법 구현하기
- SGD: 경사 하강법의 일종
- lr: 학습률(learning rate)를 의미

학습 대상인 $W$와 $b$가 SGD의 입력으로 주어진다.

In [18]:
optimizer = optim.SGD([W, b], lr=0.01)

optimizer.zero_grad()
- 실행하므로서 미분을 통해 얻은 기울기를 0으로 초기화한다. 
- 기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있다. 

cost.backward() 
- 가중치 W와 편향 b에 대한 기울기가 계산된다. 

opimizer.step() 
- 경사 하강법 최적화 함수
- 인수로 들어갔던 W와 b에서 리턴되는 변수들의 기울기에 학습률(learining rate) 0.01을 곱하여 빼줌으로서 업데이트한다.




In [19]:
optimizer.zero_grad() # gradient를 0으로 초기화
cost.backward() # 비용 함수를 미분하여 gradient 계산
optimizer.step() # W와b를 업데이트

### 7. 전체 코드



In [23]:
# 데이터 선언
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

# 모델 가중치 편향 0으로 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 에폭, 원하는 만큼 경사 하강법 반복
for epoch in range(nb_epochs+1):
  # H(X) 계산
  hypothesis = x_train * W + b # 선형회귀 직선식

  # cost 계산, 평균 제곱 오차
  cost = torch.mean((hypothesis - y_train)**2)

  # cost로 H(x) 개선
  optimizer.zero_grad() # gradient를 0으로 초기화
  cost.backward() # 비용 함수를 미분하여 gradient 계산
  optimizer.step() # W와b를 업데이트

  # 100 epoch마다 로그 출력
  if epoch % 100 == 0:
    print(f'Epoch {epoch:4d}/{nb_epochs} W: {W.item():.3f}, b: {b.item():.3f} Cost: {cost.item():.6f}')

Epoch    0/2000 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/2000 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/2000 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/2000 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/2000 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/2000 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/2000 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/2000 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/2000 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/2000 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/2000 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/2000 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/2000 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/2000 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/2000 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/2000 W: 1.997, b: 0.008 Cost: 0.000008

최종 훈련 결과를 보면 최적의 기울기 $W$
는 2에 가깝고, $b$는 0에 가까운 것을 볼 수 있다.

현재 훈련 데이터가 x_train은 [[1], [2], [3]]이고 y_train은 [[2], [4], [6]]인 것을 감안하면 실제 정답은 $W$가 2이고, $b$가 0인 
이므로 거의 정답을 찾았다고 볼 수 있다.

## nn.Module로 구현하는 선형 회귀

파이토치에서 이미 구현되어져 제공되고 있는 함수들을 불러와서 더 쉽게 선형 회귀 모델을 구현할 수 있다.

- nn.Linear(input_dim, output_dim): 선형 회귀 모델
- nn.functional.mse_loss(prediction, y_train): 평균 제곱 오차

### 1. 선형 회귀 모델 구현하기

In [29]:
import torch
import torch.nn as nn
import torch.nn.functional as F

torch.manual_seed(1) # 랜덤 시드 고정

<torch._C.Generator at 0x7faddc1a8470>

In [30]:
# 데이터 정의
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

선형 회귀 모델 구현
- nn.Linear()는 입력의 차원, 출력의 차원을 인수로 받는다.
- (1, 1): 하나의 입력 x에 대해 하나의 출력 y를 가진다.

In [31]:
model = nn.Linear(1,1) #input_dim, output_dim

- model에는 가중치 W와 편향 b가 저장되어져 있다. 
- model.parameters()라는 함수로 가중치와 편향을 불러올 수 있다.
- 첫번째 값이 W, 두번째 값이 b이다.
- 초기에는 랜덤 초기화 되어 있고, 두 값 모두 학습 대상이므로 requires_grad=True 설정 되어있다.

In [33]:
print(list(model.parameters()))

[Parameter containing:
tensor([[0.5153]], requires_grad=True), Parameter containing:
tensor([-0.4414], requires_grad=True)]


옵티마이저 정의
- model.parameters()로 W와 b를 전달한다.

In [35]:
# # optimizer 설정. 경사 하강법 SGD를 사용하고 learning rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

In [36]:
# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):
  prediction = model(x_train) # 예측값 H(x)계산, forward 연산
  cost = F.mse_loss(prediction, y_train)  # cost 계산
  
  # cost로 H(x) 개선
  optimizer.zero_grad() # gradient를 0으로 초기화
  cost.backward() # 비용 함수를 미분하여 gradient 계산, backward 연산
  optimizer.step() # W와 b를 업데이트

  if epoch % 100 == 0:
    print(f'Epoch {epoch:4d}/{nb_epochs} Cost: {cost.item():.6f}')

Epoch    0/2000 Cost: 13.103541
Epoch  100/2000 Cost: 0.002791
Epoch  200/2000 Cost: 0.001724
Epoch  300/2000 Cost: 0.001066
Epoch  400/2000 Cost: 0.000658
Epoch  500/2000 Cost: 0.000407
Epoch  600/2000 Cost: 0.000251
Epoch  700/2000 Cost: 0.000155
Epoch  800/2000 Cost: 0.000096
Epoch  900/2000 Cost: 0.000059
Epoch 1000/2000 Cost: 0.000037
Epoch 1100/2000 Cost: 0.000023
Epoch 1200/2000 Cost: 0.000014
Epoch 1300/2000 Cost: 0.000009
Epoch 1400/2000 Cost: 0.000005
Epoch 1500/2000 Cost: 0.000003
Epoch 1600/2000 Cost: 0.000002
Epoch 1700/2000 Cost: 0.000001
Epoch 1800/2000 Cost: 0.000001
Epoch 1900/2000 Cost: 0.000000
Epoch 2000/2000 Cost: 0.000000


In [37]:
new_var =  torch.FloatTensor([[4.0]]) # 임의의 입력 4를 선언
pred_y = model(new_var) # forward 연산, 입력 4에 대해 예측값 y를 pred_y에 저장
# y = 2x 이므로 입력이 4라면 y가 8에 가까운 값이 나와야 제대로 학습이 된 것
print("훈련 후 입력이 4일 때의 예측값 :", pred_y) 

훈련 후 입력이 4일 때의 예측값 : tensor([[7.9989]], grad_fn=<AddmmBackward0>)


In [38]:
print('학습 후의 W와 b의 값', list(model.parameters()))

학습 후의 W와 b의 값 [Parameter containing:
tensor([[1.9994]], requires_grad=True), Parameter containing:
tensor([0.0014], requires_grad=True)]


W의 값이 2에 가깝고, b의 값이 0에 가까운 것을 볼 수 있다.


