In [2]:
%matplotlib inline
#%matplotlib notebook
#%matplotlib widget
import matplotlib 
import numpy as np
import pandas as pd
import os, sys
#import ipywidgets
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter
from mpl_toolkits.mplot3d.art3d import Poly3DCollection    
 
# use LaTeX, choose nice some looking fonts and tweak some settings
matplotlib.rc('font', family='serif')
matplotlib.rc('font', size=16)
matplotlib.rc('legend', fontsize=16)
matplotlib.rc('legend', numpoints=1)
matplotlib.rc('legend', handlelength=1.5)
matplotlib.rc('legend', frameon=False)
matplotlib.rc('xtick.major', pad=7)
matplotlib.rc('xtick.minor', pad=7)
matplotlib.rc('text', usetex=True)
# matplotlib.rc('text.latex', 
#               preamble=[r'\usepackage[T1]{fontenc}',
#                         r'\usepackage{amsmath}',
#                         r'\usepackage{txfonts}',
#                         r'\usepackage{textcomp}'])

matplotlib.rc('figure', figsize=(12, 9))

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
device = torch.device('cuda:0')

#### Cost function

Deep learning 에서 다음 용어는 같은 의미이다.

비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function)

## 1. 선형 회귀

$(x,\, y)$ 데이터셋이 다음 관계를 갖는다고 가정하자

$$ y = Wx +b$$

이 때 $W$ 를 가중치 (weight), $b$ 를 편항 (bias) 라 한다.

만약 $n$개의. $(x,\,y)$ 데이터 셋이 있고 이를 $\{(x^{(i)},\,y^{(i)} | i=1,\,\ldots,\,n\}$ 라 하자. 이 대 오차함수는 다음과 같다.

$$
\text{cost}(W,\,b) = \sum_{i=1}^n \left[y^{(i)} - W\cdot x^{(i)} \right]^2
$$

그리고 $\dfrac{\text{cost}(W,\,b)}{n}$ 을 **평균제곱오차**(Mean square error, MSE) 라 한다.

In [38]:
# 경사하강법을 이용한 선형 회귀.

# 변수 선언

x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# 가중치와 편향의 초기화
# tensor의 requires_grad 속성을 True 로 설정하면, 그 tensor에서 이뤄진 
# 모든 연산들을 추적(track)함. 계산이 완료된 후 .backward() 를 호출하여 
# 모든 변화도(gradient)를 자동으로 계산할 수 있음. 이 Tensor의 변화도는 
# .grad 속성에 누적됨.
W = torch.zeros(1, requires_grad=True) 
b = torch.zeros(1, requires_grad=True)

# 경사 하강법 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 원하는만큼 경사 하강법을 반복

for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # optimizer.zero_grad()를 실행하므로서 미분을 통해 얻은 기울기를 0으로 초기화합니다. 
    # 기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있습니다. 그 
    # 다음 cost.backward() 함수를 호출하면 가중치 W와 편향 b에 대한 기울기가 계산되어 
    # W.grad와 b.grad로 저장된다.  
    # 그 다음 경사 하강법 최적화 함수 opimizer의 .step() 함수를 호출하여 인수로 들어갔던 
    # W와 b에서 리턴되는 변수들의 기울기에 학습률(learining rate) 0.01을 곱하여 
    # 빼줌으로서 업데이트합니다.
    # print("optimizer [0]: ", optimizer.param_groups[0]['params'])
    optimizer.zero_grad()
    # print("optimizer [zero grad]: ", optimizer.param_groups[0]['params'])
    cost.backward()
    # print("optimizer [cost backward]: ", optimizer.param_groups[0]['params'])
    optimizer.step()
    # print("optimizer [step]: ", optimizer.param_groups[0]['params'])
    # 100번마다 로그 출력
    if epoch % 200 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/2000 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  200/2000 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  400/2000 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  600/2000 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  800/2000 W: 1.953, b: 0.107 Cost: 0.001657
Epoch 1000/2000 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 2000/2000 W: 1.997, b: 0.006 Cost: 0.000005


In [35]:
W.grad

tensor([-16.6044])

In [29]:
print(hypothesis)
print(cost)

tensor([[2.0034],
        [4.0007],
        [5.9981]], grad_fn=<AddBackward0>)
tensor(5.1377e-06, grad_fn=<MeanBackward0>)


### 자동 미분


변수를 다음과 같이 선언한다고 하자. 

~~~
w = torch.tensor(2.0, requires_grad=True)
~~~

*requiers_grad=True* 는 이 텐서의 기울기를 저장한다는 의미이다.  

In [30]:
# 변수 선언
w = torch.tensor(2.0, requires_grad=True)

# 수식 설정
y = w**2
z = 2*y + 5

# z에서의 w에 대한 미분값 계산
z.backward()

# w에 대한 미분값 출력
print(w.grad)


tensor(8.)


In [9]:
z.backward()

## 2. 다중선형회귀(Multivariable Linear Regression)




In [45]:
torch.manual_seed(1)

# 훈련 데이터
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])


# 가중치 w와 편향 b 초기화
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([w1, w2, w3, b], lr=1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x1_train * w1 + x2_train * w2 + x3_train * w3 + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
        ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563628
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497595
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435044
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375726
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319507
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266222
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215703
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167810
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079390


In [44]:
torch.manual_seed(1)
# 위 셀을 행렬연산으로 구현

x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    # 편향 b는 브로드 캐스팅되어 각 샘플에 더해집니다.
    hypothesis = x_train.matmul(W) + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    if epoch%100 == 0 :
        print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
            epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
        ))

Epoch    0/1000 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch  100/1000 hypothesis: tensor([152.7691, 183.6985, 180.9591, 197.0627, 140.1336]) Cost: 1.563628
Epoch  200/1000 hypothesis: tensor([152.7273, 183.7273, 180.9465, 197.0517, 140.1731]) Cost: 1.497595
Epoch  300/1000 hypothesis: tensor([152.6866, 183.7554, 180.9343, 197.0409, 140.2116]) Cost: 1.435044
Epoch  400/1000 hypothesis: tensor([152.6470, 183.7827, 180.9224, 197.0304, 140.2491]) Cost: 1.375726
Epoch  500/1000 hypothesis: tensor([152.6085, 183.8093, 180.9108, 197.0201, 140.2856]) Cost: 1.319497
Epoch  600/1000 hypothesis: tensor([152.5711, 183.8352, 180.8996, 197.0101, 140.3211]) Cost: 1.266215
Epoch  700/1000 hypothesis: tensor([152.5346, 183.8604, 180.8887, 197.0003, 140.3557]) Cost: 1.215703
Epoch  800/1000 hypothesis: tensor([152.4992, 183.8849, 180.8780, 196.9908, 140.3895]) Cost: 1.167810
Epoch  900/1000 hypothesis: tensor([152.4647, 183.9087, 180.8677, 196.9814, 140.4223]) Cost: 1.122429
Epoch 

In [43]:
W

tensor([[0.8319],
        [0.5003],
        [0.6783]], requires_grad=True)

In [41]:
w1, w2, w3

(tensor([0.8319], requires_grad=True),
 tensor([0.5003], requires_grad=True),
 tensor([0.6783], requires_grad=True))

## 3.4. nn.Module 로 구현하는 선형회귀

#### 1. nn.Module 로 구현하는 단순선형회귀

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [3]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# 모델을 선언 및 초기화. 단순 선형 회귀이므로 input_dim=1, output_dim=1.
model = nn.Linear(1,1)

# optimizer 설정. 경사 하강법 SGD를 사용하고 learning rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01) 

# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 33.633530
Epoch  100/2000 Cost: 0.021655
Epoch  200/2000 Cost: 0.013382
Epoch  300/2000 Cost: 0.008269
Epoch  400/2000 Cost: 0.005110
Epoch  500/2000 Cost: 0.003158
Epoch  600/2000 Cost: 0.001951
Epoch  700/2000 Cost: 0.001206
Epoch  800/2000 Cost: 0.000745
Epoch  900/2000 Cost: 0.000460
Epoch 1000/2000 Cost: 0.000284
Epoch 1100/2000 Cost: 0.000176
Epoch 1200/2000 Cost: 0.000109
Epoch 1300/2000 Cost: 0.000067
Epoch 1400/2000 Cost: 0.000041
Epoch 1500/2000 Cost: 0.000026
Epoch 1600/2000 Cost: 0.000016
Epoch 1700/2000 Cost: 0.000010
Epoch 1800/2000 Cost: 0.000006
Epoch 1900/2000 Cost: 0.000004
Epoch 2000/2000 Cost: 0.000002


In [4]:
# 임의의 입력 4를 선언
new_var =  torch.FloatTensor([[4.0]]) 
# 입력한 값 4에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) # forward 연산
# y = 2x 이므로 입력이 4라면 y가 8에 가까운 값이 나와야 제대로 학습이 된 것
print("훈련 후 입력이 4일 때의 예측값 :", pred_y) 


훈련 후 입력이 4일 때의 예측값 : tensor([[7.9970]], grad_fn=<AddmmBackward>)


In [5]:
print(list(model.parameters()))

[Parameter containing:
tensor([[1.9982]], requires_grad=True), Parameter containing:
tensor([0.0040], requires_grad=True)]


#### 2. nn.Module로 구현하는 다중선형회귀

In [7]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)

optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))


Epoch    0/2000 Cost: 4959.394531
Epoch  100/2000 Cost: 3.645401
Epoch  200/2000 Cost: 3.468121
Epoch  300/2000 Cost: 3.300176
Epoch  400/2000 Cost: 3.141072
Epoch  500/2000 Cost: 2.990332
Epoch  600/2000 Cost: 2.847479
Epoch  700/2000 Cost: 2.712201
Epoch  800/2000 Cost: 2.583999
Epoch  900/2000 Cost: 2.462527
Epoch 1000/2000 Cost: 2.347440
Epoch 1100/2000 Cost: 2.238400
Epoch 1200/2000 Cost: 2.135106
Epoch 1300/2000 Cost: 2.037229
Epoch 1400/2000 Cost: 1.944457
Epoch 1500/2000 Cost: 1.856582
Epoch 1600/2000 Cost: 1.773311
Epoch 1700/2000 Cost: 1.694407
Epoch 1800/2000 Cost: 1.619645
Epoch 1900/2000 Cost: 1.548805
Epoch 2000/2000 Cost: 1.481685


In [8]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[152.7891]], grad_fn=<AddmmBackward>)


In [9]:
print(list(model.parameters()))

[Parameter containing:
tensor([[0.7401, 0.6875, 0.5893]], requires_grad=True), Parameter containing:
tensor([-0.4374], requires_grad=True)]


#### 3.5 클래스로 파이토치 모델 구현하기

In [15]:
# 전형적인 class 구현

class LinearRegressionModel(nn.Module): # torch.nn.Module을 상속받는 파이썬 클래스
    def __init__(self, dim_in, dim_out): #
        super().__init__()
        self.linear = nn.Linear(dim_in, dim_out) # 단순 선형 회귀이므로 input_dim=1, output_dim=1.

    def forward(self, x):
        return self.linear(x)

torch.manual_seed(1)
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [16]:
model = LinearRegressionModel(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 31667.597656
Epoch  100/2000 Cost: 0.225988
Epoch  200/2000 Cost: 0.223910
Epoch  300/2000 Cost: 0.221930
Epoch  400/2000 Cost: 0.220059
Epoch  500/2000 Cost: 0.218270
Epoch  600/2000 Cost: 0.216571
Epoch  700/2000 Cost: 0.214955
Epoch  800/2000 Cost: 0.213413
Epoch  900/2000 Cost: 0.211949
Epoch 1000/2000 Cost: 0.210558
Epoch 1100/2000 Cost: 0.209237
Epoch 1200/2000 Cost: 0.207971
Epoch 1300/2000 Cost: 0.206764
Epoch 1400/2000 Cost: 0.205616
Epoch 1500/2000 Cost: 0.204527
Epoch 1600/2000 Cost: 0.203479
Epoch 1700/2000 Cost: 0.202487
Epoch 1800/2000 Cost: 0.201542
Epoch 1900/2000 Cost: 0.200638
Epoch 2000/2000 Cost: 0.199769


In [17]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.2305]], grad_fn=<AddmmBackward>)


#### 3.6 미니 배치와 데이터 로드

In [18]:
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [19]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])
dataset = TensorDataset(x_train, y_train)


In [21]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)
model = LinearRegressionModel(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

nb_epochs = 20
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        # print(batch_idx)
        # print(samples)
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)

        # cost 계산
        cost = F.mse_loss(prediction, y_train)

        # cost로 H(x) 계산
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader),
            cost.item()
            ))

Epoch    0/20 Batch 1/3 Cost: 30629.378906
Epoch    0/20 Batch 2/3 Cost: 7442.509766
Epoch    0/20 Batch 3/3 Cost: 3760.326660
Epoch    1/20 Batch 1/3 Cost: 554.051819
Epoch    1/20 Batch 2/3 Cost: 461.916443
Epoch    1/20 Batch 3/3 Cost: 62.399296
Epoch    2/20 Batch 1/3 Cost: 24.052591
Epoch    2/20 Batch 2/3 Cost: 7.999709
Epoch    2/20 Batch 3/3 Cost: 2.095638
Epoch    3/20 Batch 1/3 Cost: 0.030554
Epoch    3/20 Batch 2/3 Cost: 2.218473
Epoch    3/20 Batch 3/3 Cost: 0.229401
Epoch    4/20 Batch 1/3 Cost: 0.586134
Epoch    4/20 Batch 2/3 Cost: 0.785538
Epoch    4/20 Batch 3/3 Cost: 0.137055
Epoch    5/20 Batch 1/3 Cost: 0.929107
Epoch    5/20 Batch 2/3 Cost: 0.873455
Epoch    5/20 Batch 3/3 Cost: 0.074227
Epoch    6/20 Batch 1/3 Cost: 0.303590
Epoch    6/20 Batch 2/3 Cost: 0.373322
Epoch    6/20 Batch 3/3 Cost: 1.822516
Epoch    7/20 Batch 1/3 Cost: 1.119864
Epoch    7/20 Batch 2/3 Cost: 0.118206
Epoch    7/20 Batch 3/3 Cost: 0.273157
Epoch    8/20 Batch 1/3 Cost: 1.015062
Epoch    