In [5]:
# 선형 회귀 (Linear Regression)
# 파이토치(pytorch)를 이용하여 선형 회귀 모델을 만들어보기

In [6]:
# 훈련 데이터셋의 구성
# 모델을 학습시키기 위한 데이터는 파이토치의 텐서의 형태(torch.tensor) 를 가지고 있어야 한다
# 입력과 출력을 각기 다른 텐서에 저장할 필요가 있다
# 입력 : x , 출력 : y

In [7]:
# x_train 은 공부한 시간, y_train 은 그에 맵핑되는 점수

# x_train = torch.FloatTensor([[1], [2], [3]])
# y_train = torch.FloatTensor([[2], [4], [6]])

In [8]:
# 가설(Hypothesis) 수립
# 머신 러닝에서 식을 세울 때 이 식을 가설(Hypothesis) 라고 한다. 임의로 추측하거나 경험적으로 알고 있는 식일수 있음, 계속 수정하게 된다

# 선형 회귀 가설
# y = Wx + b
# H(x) = Wx + b

# W : 가중치(Weight), b : 편향(bias)

In [9]:
# 비용 함수(Cost funtion)
# 비용 함수(Cost funtion) = 손실 함수(loss function) = 오차 함수(error funtion) = 목적 함수(objective funtion)

# 어떠한 가설 직선이 가장 적절한 직선인지를 수학적인 근거로 판단 -> 오차(error) 도입

In [10]:
# 옵티마이저 - 경사 하강법(Gradient Descent)

# 비용 함수(Cost Funtion) 의 값을 최소로 하는 W 와 b 를 찾는 방법 : 옵티마이저(Optimizer) 알고리즘 또는 최적화 알고리즘
# 적절한 W 와 b를 찾아내는 과정을 머신 러닝에서 학습(training) 이라고 한다
# 가장 기본적인 옵티마이저 알고리즘인 경사 하강법(Gradient Descent)

In [11]:
# 파이토치로 선형 회귀 구현하기

In [12]:
# 기본 세팅
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 현재 실습하고 있는 파이썬 코드를 재실행해도 다음에도 같은 결과가 나오도록 랜덤 시드(random seed) 를 준다
torch.manual_seed(1)

<torch._C.Generator at 0x228a6193150>

In [13]:
# 훈련 데이터 선언
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# x_train 과 y_train 의 크기(shape) 출력
print(x_train)
print(y_train)
print(x_train.shape)
print(y_train.shape)

tensor([[1.],
        [2.],
        [3.]])
tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])
torch.Size([3, 1])


In [14]:
# 가중치와 편향의 초기화
# 선형 회귀 : 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 것 ; 알맞는 값을 가지는 W 와 b 찾기

# 가중치 W 을 0 으로 초기화 및 값 출력
# 학습을 통해 값이 변경되는 변수임을 명시
W = torch.zeros(1, requires_grad=True)

# 가중치 W 출력
print(W)

tensor([0.], requires_grad=True)


In [15]:
# 편향 b 를 0 으로 초기화 및 값이 변경되는 변수임을 명시
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


In [None]:
# 현재 가중치 W 와 b 모두 0 이므로 현 직선의 방정식은 y = 0 * x + 0

In [16]:
# 가설 세우기
# 파이토치 코드 상으로 직선의 방정식에 해당되는 가설 선언
# H(x) = Wx + b
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [17]:
# 비용 함수 선언하기
# 파이토치 코드 상으로 선형 회귀의 비용 함수에 해당되는 평균 제곱 오차를 선언
# Cost(W, b) = 1/n * sigma(i=1, n) [y**(i) - H(x**(i))]**2

# 앞서 배운 torch.mean 으로 평균을 구한다
cost = torch.mean((hypothesis - y_train) ** 2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


In [18]:
# 경사 하강법 구현하기
# SDG : 경사 하강법의 일종, lr : 학습률(learning rate)
# 학습 대상인 W 와 b 가 SGD 의 입력이 된다

optimizer = optim.SGD([W, b], lr=0.01)

In [None]:
# Optimizer.zero_grad() 를 실행하여 미분을 통해 얻은 기울기를 0 으로 초기화한다
# 기울기를 초기화 해야 새로운 가중치 편향에 대해 새로운 기울기를 구할 수 있다

# cost.backward() 함수를 호출하여 가중치 W 와 편향 b 에 대한 기울기 계산

# 경사하강법 최적화 함수 opimizer 의 .step() 함수를 호출하여 인수로 들어갔던 W 와 b 에서 리턴되는 변수들의 기울기에
# 학습률(learning rate) 0.01을 곱하여 빼줌으로서 업데이트 

In [19]:
# gradient 를 0 으로 초기화
optimizer.zero_grad()
# 비용 함수를 미분하여 gradient 계산
cost.backward()
# W 와 b 를 업데이트
optimizer.step()

In [None]:
# Epoch : 전체 훈련 데이터가 학습에 한 번 사용된 주기
# 실습의 경우 2000번 수행

In [21]:
# 전체 코드

# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 원하는 값 만큼 경사 하강법 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost 로 H(x) 개선
    optimizer.zero_grad() # 미분값 초기화
    cost.backward()
    optimizer.step()

    # 100번 마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:3f}, b: {:3f} Cost: {:6f}'.format(epoch, nb_epochs, W.item(), b.item(), cost.item()))


Epoch    0/2000 W: 0.186667, b: 0.080000 Cost: 18.666666
Epoch  100/2000 W: 1.745691, b: 0.578072 Cost: 0.048171
Epoch  200/2000 W: 1.800099, b: 0.454421 Cost: 0.029767
Epoch  300/2000 W: 1.842860, b: 0.357217 Cost: 0.018394
Epoch  400/2000 W: 1.876473, b: 0.280805 Cost: 0.011366
Epoch  500/2000 W: 1.902897, b: 0.220738 Cost: 0.007024
Epoch  600/2000 W: 1.923668, b: 0.173520 Cost: 0.004340
Epoch  700/2000 W: 1.939996, b: 0.136403 Cost: 0.002682
Epoch  800/2000 W: 1.952832, b: 0.107225 Cost: 0.001657
Epoch  900/2000 W: 1.962921, b: 0.084289 Cost: 0.001024
Epoch 1000/2000 W: 1.970853, b: 0.066259 Cost: 0.000633
Epoch 1100/2000 W: 1.977087, b: 0.052085 Cost: 0.000391
Epoch 1200/2000 W: 1.981989, b: 0.040944 Cost: 0.000242
Epoch 1300/2000 W: 1.985842, b: 0.032185 Cost: 0.000149
Epoch 1400/2000 W: 1.988870, b: 0.025301 Cost: 0.000092
Epoch 1500/2000 W: 1.991251, b: 0.019889 Cost: 0.000057
Epoch 1600/2000 W: 1.993122, b: 0.015634 Cost: 0.000035
Epoch 1700/2000 W: 1.994594, b: 0.012290 Cost: 

In [None]:
# 최종 훈련 결과를 보면 최적의 기울기 W 는 2 d에 가깝고, b 는 0 에 가까운 것을 볼 수 있다

In [22]:
# optimizer.zero_grad() 가 필요한 이유
# 파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있다

w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs+1):
    z = 2 * w
    z.backward()
    print('수식을 w 로 미분한 값 : {}'.format(w.grad))

수식을 w 로 미분한 값 : 2.0
수식을 w 로 미분한 값 : 4.0
수식을 w 로 미분한 값 : 6.0
수식을 w 로 미분한 값 : 8.0
수식을 w 로 미분한 값 : 10.0
수식을 w 로 미분한 값 : 12.0
수식을 w 로 미분한 값 : 14.0
수식을 w 로 미분한 값 : 16.0
수식을 w 로 미분한 값 : 18.0
수식을 w 로 미분한 값 : 20.0
수식을 w 로 미분한 값 : 22.0
수식을 w 로 미분한 값 : 24.0
수식을 w 로 미분한 값 : 26.0
수식을 w 로 미분한 값 : 28.0
수식을 w 로 미분한 값 : 30.0
수식을 w 로 미분한 값 : 32.0
수식을 w 로 미분한 값 : 34.0
수식을 w 로 미분한 값 : 36.0
수식을 w 로 미분한 값 : 38.0
수식을 w 로 미분한 값 : 40.0
수식을 w 로 미분한 값 : 42.0


In [None]:
# 미분 값인 2가 누적된다. 따라서 미분값을 계속 초기화 시켜줘야한다