##  선형 회귀(Linear Regression) 
- 선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일.
- 이때 선형 회귀의 가설(직선의 방정식)
```
y=Wx+b
```
- 가설의 H를 따서 y 대신 다음과 같이 식을 표현하기도 한다. 
```
H(x)=Wx+b
```
이때 x와 곱해지는 W를 가중치(Weight)라고 하며, b를 편향(bias)이라고 한다. 

## 비용 함수(Cost function)에 대한 이해 
- 비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function) 

## 파이토치로 선형 회귀 구현
-  가중치와 편향의 초기화 
    * 선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일 
    * 가장 잘 맞는 직선을 정의하는 것은 W와 b 
    * 따라서 선형 회귀의 목표는 가장 잘 맞는 직선을 정의하는 W와 b의 값을 찾는 것 

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
torch.manual_seed(1)

<torch._C.Generator at 0x7f7520073290>

In [2]:
import torch
torch.cuda.is_available()

True

In [10]:
torch.rand(2,4,2)

tensor([[[0.1168, 0.7939],
         [0.7604, 0.6855],
         [0.7025, 0.8218],
         [0.8627, 0.4452]],

        [[0.4398, 0.3101],
         [0.7780, 0.1047],
         [0.8171, 0.5464],
         [0.7171, 0.7852]]])

In [11]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]]) 

print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [23]:
# 가중치 W를 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시함.
#  requires_grad=True : 학습을 통해 계속 값이 변경되는 변수임을 의미 
W = torch.zeros(1, requires_grad=True) 
# 가중치 W를 출력
print('W :',W) 

# 마찬가지로 편향 b도 0으로 초기화하고, 학습을 통해 값이 변경되는 변수임을 명시합니다.
b = torch.zeros(1, requires_grad=True)
print('b :',b)

# 현재 가중치 W와 b 둘 다 0이므로 현 직선의 방정식 y = 0*x + 0 
# 지금 상태에선 x에 어떤 값이 들어가도 가설은 0을 예측하게 됩니다. 즉, 아직 적절한 W와 b의 값이 아님. 

# 가설 세우기 
# 파이토치 코드 상으로 직선의 방정식에 해당되는 가설을 선언
# H(x)=Wx+b 
hypothesis = x_train * W + b
print('가설 :',hypothesis) 

# 비용 함수 선언하기 
# torch.mean으로 평균을 구한다. 
cost = torch.mean((hypothesis - y_train) ** 2) 
print('비용함수 :',cost)

# 경사 하강법 구현
# 아래의 'SGD'는 경사 하강법의 일종. r은 학습률(learning rate)를 의미합니다.
# 학습 대상인 W와 b가 SGD의 입력이 됨. 
optimizer = optim.SGD([W, b], lr=0.01) 


# optimizer.zero_grad()를 실행 : 미분을 통해 얻은 기울기를 0으로 초기화 
# 기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있음. 
#  cost.backward() 함수를 호출하면 가중치 W와 편향 b에 대한 기울기가 계산 
# 그 다음 경사 하강법 최적화 함수 opimizer의 .step() 함수를 호출하여 
# 인수로 들어갔던 W와 b에서 리턴되는 변수들의 기울기에 학습률(learining rate) 0.01을 곱하여 빼줘서 업데이트

# gradient를 0으로 초기화
optimizer.zero_grad() 
# 비용 함수를 미분하여 gradient 계산
cost.backward() 
# W와 b를 업데이트
optimizer.step() 


W : tensor([0.], requires_grad=True)
b : tensor([0.], requires_grad=True)
가설 : tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)
비용함수 : tensor(18.6667, grad_fn=<MeanBackward0>)


## 결과 분석 
- 결과적으로 훈련 과정에서 W와 b는 훈련 데이터와 잘 맞는 직선을 표현하기 위한 적절한 값으로 변화해감.
- 에포크(Epoch)는 전체 훈련 데이터가 학습에 한 번 사용된 주기.
이번 실습의 경우 2,500번을 수행. 많이 수행할수록 정확도 올라감

- 최종 훈련 결과를 보면 최적의 기울기 W는 2에 가깝고, b는 0에 가까운 것을 볼 수 있음. 
현재 훈련 데이터가 x_train은 [[1], [2], [3]]이고 y_train은 [[2], [4], [6]]인 것을 감안하면
실제 정답은 W가 2이고, b가 0인 H(x)=2x이므로 거의 정답을 찾은 셈.

In [26]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2500 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/2500 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/2500 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/2500 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/2500 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/2500 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/2500 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/2500 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/2500 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/2500 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/2500 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/2500 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/2500 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/2500 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/2500 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/2500 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/2500 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/2500 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/2500 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/2500 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/2500 W: 1.997, b: 0.008 Cost: 0.000008

## optimizer.zero_grad()가 필요한 이유 

파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있음. 

In [27]:
import torch
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs + 1):
  z = 2*w
  # 기울기 계산 
  z.backward()
  print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0


# 핵심정리 

## 한 번만 

1. 데이터 정의 
2. W,b 초기화  
3. Optimizer 정의

## 반복 수행

1. hypothesis 예측
2. cost 계산
3. Optimizer 로 학습

## 결과 
- W,b 가 각각 최적의 숫자로 수렴하게 됨.

# 다중 선형 회귀
H(x)=w1x1+w2x2+w3x3+b 

In [4]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
# 랜덤 시드 고정
torch.manual_seed(1)

<torch._C.Generator at 0x7f7520073290>

In [5]:
# x 3개 선언 
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# 가중치 W, 편향 b 초기화 
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)


# optimizer 설정
optimizer = optim.SGD([w1, w2, w3, b], lr=1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x1_train * w1 + x2_train * w2 + x3_train * w3 + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
        ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563628
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497595
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435044
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375726
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319507
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266222
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215703
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167810
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079390


In [7]:
# 행렬 연산 고려하여 재구현 

# x_train 하나에 샘플 전부 선언 
# 5x3 
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  80], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# print(x_train.shape)
# print(y_train.shape) 


# 3x1 크기 w 
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)


x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  80], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    # 편향 b는 브로드 캐스팅되어 각 샘플에 더해집니다.
    hypothesis = x_train.matmul(W) + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
    ))

Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([66.7178, 80.1701, 76.1025, 86.0194, 61.1565]) Cost: 9537.694336
Epoch    2/20 hypothesis: tensor([104.5421, 125.6208, 119.2478, 134.7862,  95.8280]) Cost: 3069.590088
Epoch    3/20 hypothesis: tensor([125.9858, 151.3882, 143.7087, 162.4333, 115.4844]) Cost: 990.670288
Epoch    4/20 hypothesis: tensor([138.1429, 165.9963, 157.5768, 178.1071, 126.6283]) Cost: 322.481873
Epoch    5/20 hypothesis: tensor([145.0350, 174.2780, 165.4395, 186.9928, 132.9461]) Cost: 107.717064
Epoch    6/20 hypothesis: tensor([148.9423, 178.9730, 169.8976, 192.0301, 136.5279]) Cost: 38.687496
Epoch    7/20 hypothesis: tensor([151.1574, 181.6346, 172.4254, 194.8856, 138.5585]) Cost: 16.499043
Epoch    8/20 hypothesis: tensor([152.4131, 183.1435, 173.8590, 196.5043, 139.7097]) Cost: 9.365656
Epoch    9/20 hypothesis: tensor([153.1250, 183.9988, 174.6723, 197.4217, 140.3625]) Cost: 7.071114
Epoch   10/20 hyp

In [12]:
# 파이토치에서 미리 구현되있는 함수 이용
# nn.Linear() : 선형 회귀 모델
# nn.functional.mse_loss() : 평균 제곱 오차

import torch
import torch.nn as nn
# 모델을 선언 및 초기화. 단순 선형 회귀이므로 input_dim=1, output_dim=1. 
model = nn.Linear(1,1) 

import torch.nn.functional as F

torch.manual_seed(1) 

x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
# input_dim=1, output_dim=1. 
model = nn.Linear(1,1) 

# model에는 가중치 W와 편향 b가 저장되어져 있습니다. 이 값은 model.parameters()라는 함수를 사용하여 불러올 수 있음 
# print(list(model.parameters())) 

# optimizer 설정. 경사 하강법 SGD를 사용하고 learning rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01) 

# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 13.103541
Epoch  100/2000 Cost: 0.002791
Epoch  200/2000 Cost: 0.001724
Epoch  300/2000 Cost: 0.001066
Epoch  400/2000 Cost: 0.000658
Epoch  500/2000 Cost: 0.000407
Epoch  600/2000 Cost: 0.000251
Epoch  700/2000 Cost: 0.000155
Epoch  800/2000 Cost: 0.000096
Epoch  900/2000 Cost: 0.000059
Epoch 1000/2000 Cost: 0.000037
Epoch 1100/2000 Cost: 0.000023
Epoch 1200/2000 Cost: 0.000014
Epoch 1300/2000 Cost: 0.000009
Epoch 1400/2000 Cost: 0.000005
Epoch 1500/2000 Cost: 0.000003
Epoch 1600/2000 Cost: 0.000002
Epoch 1700/2000 Cost: 0.000001
Epoch 1800/2000 Cost: 0.000001
Epoch 1900/2000 Cost: 0.000000
Epoch 2000/2000 Cost: 0.000000


In [13]:
# 클래스로 구현
import torch
import torch.nn as nn
import torch.nn.functional as F 

torch.manual_seed(1) 

x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])


class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)
    
model = MultivariateLinearRegressionModel()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)  


nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 31667.597656
Epoch  100/2000 Cost: 0.225993
Epoch  200/2000 Cost: 0.223911
Epoch  300/2000 Cost: 0.221941
Epoch  400/2000 Cost: 0.220059
Epoch  500/2000 Cost: 0.218271
Epoch  600/2000 Cost: 0.216575
Epoch  700/2000 Cost: 0.214950
Epoch  800/2000 Cost: 0.213413
Epoch  900/2000 Cost: 0.211952
Epoch 1000/2000 Cost: 0.210560
Epoch 1100/2000 Cost: 0.209232
Epoch 1200/2000 Cost: 0.207967
Epoch 1300/2000 Cost: 0.206761
Epoch 1400/2000 Cost: 0.205619
Epoch 1500/2000 Cost: 0.204522
Epoch 1600/2000 Cost: 0.203484
Epoch 1700/2000 Cost: 0.202485
Epoch 1800/2000 Cost: 0.201542
Epoch 1900/2000 Cost: 0.200635
Epoch 2000/2000 Cost: 0.199769
