###**훈련 데이터셋의 구성**

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

###**가설 수립**

선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일입니다.  
$ y = Wx+b $
이때 $x$와 곱해지는 $W$를 가중치(weight)라고 하고, $b$를 편향(bias)이라고 합니다.  

경사 하강법(Gradient Descent)
loss는 기울기 $W$가 커질수록 커집니다. loss가 최소가 되는 적당한 $W$를 찾기 위해 임의의 초기값 $W$를 정하고 gradient 방향으로 $\alpha$배 만큼 조금씩 이동시켜 주어야 합니다. 

여기서 $\alpha$는 learning rate를 의미합니다.
learning rate가 너무 크다면 최솟값을 찾아가지 못하고 오히려 발산하는 결과를 초래하고 learning rate가 너무 작다면 최솟값을 찾아가는데 너무 오랜 시간이 걸립니다.

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f5e42f0a910>

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

W = torch.zeros(1, requires_grad=True)    # 학습을 통해 계속 변경되도록 requires_grad = True를 준 것이다.
b = torch.zeros(1, requires_grad=True)    # True가 아닌 False로 하게 될 경우 역전파를 진행할 때 이 Tensor들을 update하지 않겠다는 것이다.

optimizer = optim.SGD([W, b], lr=0.01)    # optimizer 설정

nb_epochs = 2000
for epoch in range(nb_epochs + 1):
  hypothesis = x_train * W + b    # H(x) = Wx + b
  
  cost = torch.mean((hypothesis - y_train) ** 2)   # MSE

  optimizer.zero_grad()    # gradient를 0으로 초기화
  cost.backward()     # 비용 함수를 미분하여 gradient 계산
  optimizer.step()    # W와 b를 업데이트

  if epoch % 100 == 0:
    print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
        epoch, nb_epochs, W.item(), b.item(), cost.item()         # tensor에 저장된 값만을 가져오려면 item()을 사용해주면 된다.
    ))

Epoch    0/2000 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/2000 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/2000 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/2000 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/2000 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/2000 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/2000 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/2000 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/2000 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/2000 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/2000 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/2000 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/2000 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/2000 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/2000 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/2000 W: 1.997, b: 0.008 Cost: 0.000008

###**optimizer.zero_grad()가 필요한 이유**

In [None]:
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20

for epoch in range(nb_epochs + 1):
  z = 2*w

  z.backward()
  print("수식을 w로 미분한 값: {}".format(w.grad))

# 결과에서 볼 수 있듯이 원래라면 2가 나와야하는데 이를 누적해서 더해주는 효과가 발생한다. 그래서 0으로 항상 초기화를 해줘야 한다.

수식을 w로 미분한 값: 2.0
수식을 w로 미분한 값: 4.0
수식을 w로 미분한 값: 6.0
수식을 w로 미분한 값: 8.0
수식을 w로 미분한 값: 10.0
수식을 w로 미분한 값: 12.0
수식을 w로 미분한 값: 14.0
수식을 w로 미분한 값: 16.0
수식을 w로 미분한 값: 18.0
수식을 w로 미분한 값: 20.0
수식을 w로 미분한 값: 22.0
수식을 w로 미분한 값: 24.0
수식을 w로 미분한 값: 26.0
수식을 w로 미분한 값: 28.0
수식을 w로 미분한 값: 30.0
수식을 w로 미분한 값: 32.0
수식을 w로 미분한 값: 34.0
수식을 w로 미분한 값: 36.0
수식을 w로 미분한 값: 38.0
수식을 w로 미분한 값: 40.0
수식을 w로 미분한 값: 42.0


###**자동 미분 Autograd**

In [None]:
import torch

In [None]:
w = torch.tensor(2.0, requires_grad=True)
y = w**2
z = 2*y + 5

z.backward()

print("수식을 w로 미분한 값: {}".format(w.grad))

수식을 w로 미분한 값: 8.0


###**다중 선형 회귀**

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f5e42f0a910>

$H(x)=w_1x_1+w_2x_2+w_3x_3+b$

In [None]:
x1_train = torch.FloatTensor([73, 93, 89, 96, 73]).unsqueeze(dim=1)
x2_train = torch.FloatTensor([80, 88, 91, 98, 66]).unsqueeze(dim=1)
x3_train = torch.FloatTensor([75, 93, 90, 100, 70]).unsqueeze(dim=1)
y_train = torch.FloatTensor([152, 185, 180, 196, 142]).unsqueeze(dim=1)

w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

optimizer = optim.SGD([w1, w2, w3, b], lr=1e-5)

nb_epochs = 1000

for epoch in range(nb_epochs + 1):
  hypothesis = x1_train * w1 + x2_train * w2 + x3_train * w3 + b

  cost = torch.mean((hypothesis - y_train) ** 2)

  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

  if epoch % 100 == 0:
    print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
        epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
    ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563628
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497595
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435044
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375726
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319507
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266222
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215703
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167810
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079390


###$H(X)=XW+b$

In [None]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  80], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)     # x_train: 5 x 3, W: 3 x 1  =>  XW : 5 x 1인데 b는 1x1이므로 broadcasting에 의하여 5개 모두 같은 값으로 더해진다.

optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20

for epoch in range(nb_epochs + 1):
  hypothesis = x_train@W + b

  cost = torch.mean((hypothesis - y_train) ** 2)

  optimizer.zero_grad()
  cost.backward()
  optimizer.step()
  
  print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
  ))
  


Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([66.7178, 80.1701, 76.1025, 86.0194, 61.1565]) Cost: 9537.694336
Epoch    2/20 hypothesis: tensor([104.5421, 125.6208, 119.2478, 134.7862,  95.8280]) Cost: 3069.590088
Epoch    3/20 hypothesis: tensor([125.9858, 151.3882, 143.7087, 162.4333, 115.4844]) Cost: 990.670288
Epoch    4/20 hypothesis: tensor([138.1429, 165.9963, 157.5768, 178.1071, 126.6283]) Cost: 322.481873
Epoch    5/20 hypothesis: tensor([145.0350, 174.2780, 165.4395, 186.9928, 132.9461]) Cost: 107.717064
Epoch    6/20 hypothesis: tensor([148.9423, 178.9730, 169.8976, 192.0301, 136.5279]) Cost: 38.687496
Epoch    7/20 hypothesis: tensor([151.1574, 181.6346, 172.4254, 194.8856, 138.5585]) Cost: 16.499043
Epoch    8/20 hypothesis: tensor([152.4131, 183.1435, 173.8590, 196.5043, 139.7097]) Cost: 9.365656
Epoch    9/20 hypothesis: tensor([153.1250, 183.9988, 174.6723, 197.4217, 140.3625]) Cost: 7.071114
Epoch   10/20 hyp

###**nn.Module로 구현하는 선형 회귀**

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f5e42f0a910>

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

model = nn.Linear(1, 1)

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

nb_epochs = 2000

for epoch in range(nb_epochs + 1):
  prediction = model(x_train)

  cost = F.mse_loss(prediction, y_train)   # torch.nn.functional에서 loss function을 제공한다.

  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

  if epoch % 100 == 0:
    print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
    ))

new_y = torch.FloatTensor([[4.0]])
pred_y = model(new_y)

print("model이 훈련된 뒤 4.0일 때의 모델의 예측값: ", pred_y)

print(list(model.parameters()))

Epoch    0/2000 Cost: 15.171722
Epoch  100/2000 Cost: 0.006754
Epoch  200/2000 Cost: 0.004174
Epoch  300/2000 Cost: 0.002579
Epoch  400/2000 Cost: 0.001594
Epoch  500/2000 Cost: 0.000985
Epoch  600/2000 Cost: 0.000609
Epoch  700/2000 Cost: 0.000376
Epoch  800/2000 Cost: 0.000232
Epoch  900/2000 Cost: 0.000144
Epoch 1000/2000 Cost: 0.000089
Epoch 1100/2000 Cost: 0.000055
Epoch 1200/2000 Cost: 0.000034
Epoch 1300/2000 Cost: 0.000021
Epoch 1400/2000 Cost: 0.000013
Epoch 1500/2000 Cost: 0.000008
Epoch 1600/2000 Cost: 0.000005
Epoch 1700/2000 Cost: 0.000003
Epoch 1800/2000 Cost: 0.000002
Epoch 1900/2000 Cost: 0.000001
Epoch 2000/2000 Cost: 0.000001
model이 훈련된 뒤 4.0일 때의 모델의 예측값:  tensor([[7.9983]], grad_fn=<AddmmBackward0>)
[Parameter containing:
tensor([[1.9990]], requires_grad=True), Parameter containing:
tensor([0.0022], requires_grad=True)]


In [None]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

model = nn.Linear(3, 1)

optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

nb_epochs = 2000

for epoch in range(nb_epochs + 1):
  prediction = model(x_train)

  cost = F.mse_loss(prediction, y_train)   # torch.nn.functional에서 loss function을 제공한다.

  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

  if epoch % 100 == 0:
    print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
    ))

new_y = torch.FloatTensor([[4.0, 3.0, 2.0]])
pred_y = model(new_y)

print("model이 훈련된 뒤 [4.0, 3.0, 2.0]일 때의 모델의 예측값: ", pred_y)

print(list(model.parameters()))

Epoch    0/2000 Cost: 29938.339844
Epoch  100/2000 Cost: 1.459696
Epoch  200/2000 Cost: 1.404118
Epoch  300/2000 Cost: 1.351442
Epoch  400/2000 Cost: 1.301445
Epoch  500/2000 Cost: 1.254035
Epoch  600/2000 Cost: 1.209076
Epoch  700/2000 Cost: 1.166424
Epoch  800/2000 Cost: 1.125966
Epoch  900/2000 Cost: 1.087573
Epoch 1000/2000 Cost: 1.051147
Epoch 1100/2000 Cost: 1.016586
Epoch 1200/2000 Cost: 0.983798
Epoch 1300/2000 Cost: 0.952660
Epoch 1400/2000 Cost: 0.923131
Epoch 1500/2000 Cost: 0.895094
Epoch 1600/2000 Cost: 0.868473
Epoch 1700/2000 Cost: 0.843199
Epoch 1800/2000 Cost: 0.819206
Epoch 1900/2000 Cost: 0.796417
Epoch 2000/2000 Cost: 0.774786
model이 훈련된 뒤 [4.0, 3.0, 2.0]일 때의 모델의 예측값:  tensor([[5.9878]], grad_fn=<AddmmBackward0>)
[Parameter containing:
tensor([[0.7137, 0.5326, 0.7632]], requires_grad=True), Parameter containing:
tensor([0.0088], requires_grad=True)]


###**모델을 클래스로 구현**

In [None]:
class LinearRegressionModel(nn.Module):
  def __init__(self):
    super().__init__()
    self.linear = nn.Linear(3, 1)

  def forward(self, x):     # 함수 이름 바꾸면 안 된다. model의 객체를 생성 후 그 객체에 data를 넣을 때 자동 호출된다.
    return self.linear(x)

if __name__ == "__main__":
  x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
  y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])
  
  model = LinearRegressionModel()
  optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

  nb_epochs = 2000

  for epoch in range(nb_epochs+1):
    prediction = model(x_train)    # model(x_train)은 model.forward(x_train)와 동일함.

    cost = F.mse_loss(prediction, y_train)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    if epoch % 100 == 0:
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 47375.710938
Epoch  100/2000 Cost: 0.844645
Epoch  200/2000 Cost: 0.815248
Epoch  300/2000 Cost: 0.787375
Epoch  400/2000 Cost: 0.760944
Epoch  500/2000 Cost: 0.735871
Epoch  600/2000 Cost: 0.712089
Epoch  700/2000 Cost: 0.689536
Epoch  800/2000 Cost: 0.668133
Epoch  900/2000 Cost: 0.647833
Epoch 1000/2000 Cost: 0.628584
Epoch 1100/2000 Cost: 0.610303
Epoch 1200/2000 Cost: 0.592965
Epoch 1300/2000 Cost: 0.576510
Epoch 1400/2000 Cost: 0.560903
Epoch 1500/2000 Cost: 0.546079
Epoch 1600/2000 Cost: 0.532007
Epoch 1700/2000 Cost: 0.518654
Epoch 1800/2000 Cost: 0.505976
Epoch 1900/2000 Cost: 0.493935
Epoch 2000/2000 Cost: 0.482503


###**미니 배치와 데이터 로드**  
배치 경사 하강법은 경사 하강법을 할 때 전체 데이터의 일부만 보고 수행하므로 최적값으로 수렴하는 과정이 느리지만 계산량이 적어 더 빠릅니다.  
CPU와 GPU의 메모리가 2의 제곱수이므로 배치 크기가 2의 제곱수이면 데이터 송수신의 효율을 높일 수 있습니다.

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

In [None]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

dataset = TensorDataset(x_train, y_train)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

model = nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

nb_epochs = 20

for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    x_train, y_train = samples
    prediction = model(x_train)

    cost = F.mse_loss(prediction, y_train)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
    ))

###**Custom Dataset**

In [None]:
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [None]:
class CustomDataset(Dataset):
  def __init__(self):
    self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
    self.y_data = [[152], [185], [180], [196], [142]]

  def __len__(self): 
    return len(self.x_data)

  def __getitem__(self, idx): 
    x = torch.FloatTensor(self.x_data[idx])
    y = torch.FloatTensor(self.y_data[idx])
    return x, y

if __name__ == "__main__":
  dataset = CustomDataset()
  dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

  model = torch.nn.Linear(3, 1)
  optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

  nb_epochs = 20

  for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
      x_train, y_train = samples
      prediction = model(x_train)

      cost = F.mse_loss(prediction, y_train)

      optimizer.zero_grad()
      cost.backward()
      optimizer.step()

      print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
      ))

Epoch    0/20 Batch 1/3 Cost: 28056.785156
Epoch    0/20 Batch 2/3 Cost: 7443.491699
Epoch    0/20 Batch 3/3 Cost: 2924.795166
Epoch    1/20 Batch 1/3 Cost: 765.211670
Epoch    1/20 Batch 2/3 Cost: 276.749695
Epoch    1/20 Batch 3/3 Cost: 58.599709
Epoch    2/20 Batch 1/3 Cost: 35.451908
Epoch    2/20 Batch 2/3 Cost: 13.129348
Epoch    2/20 Batch 3/3 Cost: 1.266209
Epoch    3/20 Batch 1/3 Cost: 9.546274
Epoch    3/20 Batch 2/3 Cost: 2.845059
Epoch    3/20 Batch 3/3 Cost: 5.347515
Epoch    4/20 Batch 1/3 Cost: 2.534359
Epoch    4/20 Batch 2/3 Cost: 2.819185
Epoch    4/20 Batch 3/3 Cost: 5.662753
Epoch    5/20 Batch 1/3 Cost: 4.533195
Epoch    5/20 Batch 2/3 Cost: 1.572932
Epoch    5/20 Batch 3/3 Cost: 5.505545
Epoch    6/20 Batch 1/3 Cost: 1.481086
Epoch    6/20 Batch 2/3 Cost: 4.360450
Epoch    6/20 Batch 3/3 Cost: 6.482376
Epoch    7/20 Batch 1/3 Cost: 0.740106
Epoch    7/20 Batch 2/3 Cost: 3.656868
Epoch    7/20 Batch 3/3 Cost: 7.027564
Epoch    8/20 Batch 1/3 Cost: 2.455734
Epoch   