In [1]:
import torch

# 2. 선형회귀 (Linear Regression)

## 2.1 선형회귀

*   데이터에 대한 이해(Data Definition)
> 학습할 데이터에 대해서 알아봅니다.
*   가설(Hypothesis) 수립
> 가설을 수립하는 방법에 대해서 알아봅니다.
*   손실 계산하기(Compute loss)
> 학습데이터를 이용해서 연속적으로 모델을 개선시키는데 이 때 손실(loss)를 이용합니다.
*   경사 하강법(Gradient Descent)
> 학습을 위한 핵심 알고리즘인 경사 하강법(Gradient Descent)에 대해서 이해합니다.

### 2.1.1 데이터에 대한 이해 (Data Definition)

- 파이토치 모델에 학습시키기 위한 데이터는 파이토치의 텐서의 형태 (torch.tensor)를 가지고 있어야 함.
- 입력과 출력을 각기 다른 센터에 저장할 필요가 있음.

In [2]:
# x_train : 공부한 시간, y_train : 그에 매핑되는 점수

x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

### 2.1.2 가설(Hypothesis)수립

$y=Wx+b$  
선형회귀의 가설 (직선의 방정식)

가설의 H를 따서 y 대신 다음과 같이 식을 표현하기도 합니다.  
$H(x)=Wx+b$

이때 $x$와 곱해지는 $W$를 가중치(Weight)라고 하며, $b$를 편향(bias)이라고 합니다.



*   $W$ 와 $b$는 중학교 수학 과정인 직선의 방정식에서 기울기와 y절편에 해당됩니다.
*   직선의 방정식 링크 : https://mathbang.net/443


### 2.1.3 비용 함수 (Cost founction)에 대한 이해

비용함수(cost ft) = 손실함수(loss ft) = 오차함수(error ft) = 목적함수(objective ft)

$\sum_{i=1}^{n}[y^{(i)} - H(x^{(i)})]^{2} = (-2)^{2}+(10)^{2}+(-11)^{2}+(-5)^{2} = 250$

이때 데이터의 개수인 n으로 나누면, 오차의 제곱합에 대한 평균을 구할 수 있는데 이를 평균 제곱 오차(Mean Squered Error, MSE)라고 합니다. 수식은 아래와 같습니다.

$\frac{1}{n}\sum_{i=1}^{n}[y^{(i)} - H(x^{(i)})]^{2} = 250/4 = 62.5$

이를 실제로 계산하면 44.5가 됩니다. 이는 $y=13x+1$의 예측값과 실제값의 평균 제곱 오차의 값이 62.5임을 의미합니다.

평균 제곱 오차는 이번 회귀 문제에서 적절한 $W$와 $b$를 찾기위해서 최적화된 식입니다. 그 이유는 평균 제곱 오차의 값을 최소값으로 만드는 $W$와 $b$를 찾아내는 것이 가장 훈련 데이터를 잘 반영한 직선을 찾아내는 일이기 때문입니다.

평균 제곱 오차를 $W$와 $b$에 의한 비용 함수(Cost function)로 재정의해보면 다음과 같습니다.

$cost(W,b) = \frac{1}{n}\sum_{i=1}^{n}[y^{(i)} - H(x^{(i)})]^{2}$

다시 정리하겠습니다. $Cost(W,b)$를 최소가 되게 만드는 $W$와 $b$를 구하면 훈련 데이터를 가장 잘 나타내는 직선을 구할 수 있습니다.

### 2.1.4 옵티마이저 - 경사하강법 (Gradient Descent)

- 옵티마이저 알고리즘 (=최적화 알고리즘)



$W$와 cost의 관계를 그래프로 표현

![대체 텍스트](https://wikidocs.net/images/page/21670/%EA%B8%B0%EC%9A%B8%EA%B8%B0%EC%99%80%EC%BD%94%EC%8A%A4%ED%8A%B8.PNG)

기울기 $W$가 무한대로 커지면 커질 수록 cost의 값 또한 무한대로 커지고, 반대로 기울기 $W$가 무한대로 작아져도 cost의 값은 무한대로 커집니다. 위의 그래프에서 cost가 가장 작을 때는 맨 아래의 볼록한 부분입니다. 기계가 해야할 일은 cost가 가장 최소값을 가지게 하는 $W$를 찾는 일이므로, 맨 아래의 볼록한 부분의 $W$의 값을 찾아야 합니다.

![대체 텍스트](https://wikidocs.net/images/page/21670/%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95.PNG)

기계는 임의의 초기값 $W$값을 정한 뒤에, 맨 아래의 볼록한 부분을 향해 점차 $W$의 값을 수정해나갑니다. 위의 그림은 $W$값이 점차 수정되는 과정을 보여줍니다. 그리고 이를 가능하게 하는 것이 경사 하강법(Gradient Descent)입니다. 이를 이해하기 위해서는 고등학교 수학 과정인 미분을 이해해야 합니다. 경사 하강법은 미분을 배우게 되면 가장 처음 배우게 되는 개념인 한 점에서의 순간 변화율 또는 접선에서의 기울기의 개념을 사용합니다.

![대체 텍스트](https://wikidocs.net/images/page/21670/%EC%A0%91%EC%84%A0%EC%9D%98%EA%B8%B0%EC%9A%B8%EA%B8%B01.PNG)

위의 그림에서 초록색 선은 $W$가 임의의 값을 가지게 되는 네 가지의 경우에 대해서, 그래프 상으로 접선의 기울기를 보여줍니다. 주목할 것은 맨 아래의 볼록한 부분으로 갈수록 접선의 기울기가 점차 작아진다는 점입니다. 그리고 맨 아래의 볼록한 부분에서는 결국 접선의 기울기가 0이 됩니다. 그래프 상으로는 초록색 화살표가 수평이 되는 지점입니다.



**즉,  cost가 최소화가 되는 지점은 접선의 기울기가 0이 되는 지점이며, 또한 미분값이 0이 되는 지점** 

경사 하강법의 아이디어는 비용 함수(Cost function)를 미분하여 현재 $W$에서의 접선의 기울기를 구하고, 접선의 기울기가 낮은 방향으로 $W$의 값을 변경하는 작업을 반복하는 것에 있습니다.

이 반복 작업에는 현재 $W$에 접선의 기울기를 구해 특정 숫자 $\alpha$를 곱한 값을 빼서 새로운 $W$로 사용하는 식이 사용됩니다.

기울기$ = \frac{\partial cost(W)}{\partial W}$

기울기가 음수일 때와 양수일 때 어떻게 $W$값이 조정되는지 보겠습니다.


*   기울기가 음수일 때 : $W$의 값이 증가
> W:=W−α×(음수기울기)=W+α×(양수기울기)

기울기가 음수면 $W$의 값이 증가하는데 이는 결과적으로 접선의 기울기가 0인 방향으로 $W$의 값이 조정됩니다.
만약, 접선의 기울기가 양수라면 위의 수식은 아래와 같이 표현할 수 있습니다.

*   기울기가 양수일 때 : W의 값이 감소
> W:=W−α×(양수기울기)

기울기가 양수면 $W$의 값이 감소하게 되는데 이는 결과적으로 기울기가 0인 방향으로 $W$의 값이 조정됩니다. 즉, 아래의 수식은 접선의 기울기가 음수거나, 양수일 때 모두 접선의 기울기가 0인 방향으로 W의 값을 조정합니다.

W:=W−α$\frac{\partial }{\partial W}cost(W)$

$\alpha$ (학습률(learning rate))

학습률 $\alpha $은 $W$의 값을 변경할 때, 얼마나 크게 변경할지를 결정합니다. 또는 $W$를 그래프의 한 점으로보고 접선의 기울기가 0일 때까지 경사를 따라 내려간다는 관점에서는 얼마나 큰 폭으로 이동할지를 결정합니다. 직관적으로 생각하기에 학습률 $\alpha $의 값을 무작정 크게 하면 접선의 기울기가 최소값이 되는 $W$를 빠르게 찾을 수 있을 것같지만 그렇지 않습니다.

![대체 텍스트](https://wikidocs.net/images/page/21670/%EA%B8%B0%EC%9A%B8%EA%B8%B0%EB%B0%9C%EC%82%B0.PNG)

위의 그림은 학습률 $\alpha $가 지나치게 높은 값을 가질 때, 접선의 기울기가 0이 되는 $W$를 찾아가는 것이 아니라 $W$의 값이 발산하는 상황을 보여줍니다. 반대로 학습률 $\alpha $가 지나치게 낮은 값을 가지면 학습 속도가 느려지므로 적당한 $\alpha $의 값을 찾아내는 것도 중요합니다.

지금까지는 $b$는 배제시키고 최적의 $W$를 찾아내는 것에만 초점을 맞추어 경사 하강법의 원리에 대해서 배웠는데, 실제 경사 하강법은 $W$와 $b$에 대해서 동시에 경사 하강법을 수행하면서 최적의 $W$와 $b$의 값을 찾아갑니다.



*   가설, 비용 함수, 옵티마이저는 머신 러닝 분야에서 사용되는 포괄적 개념입니다. 풀고자하는 각 문제에 따라 가설, 비용 함수, 옵티마이저는 전부 다를 수 있으며 선형 회귀에 가장 적합한 비용 함수는 평균 제곱 오차, 옵티마이저는 경사 하강법입니다.


### 2.1.5 파이토치로 선형 회귀 구현하기

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [4]:
# 현재 실습하고 있는 파이썬 코드를 재실행해도 다음에도 같은 결과가 나오도록 랜덤 시드를 줌
torch.manual_seed(1)

<torch._C.Generator at 0x14d40bb3650>

1) 변수 선언

In [5]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [6]:
print(x_train)  # 3X1
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [7]:
print(y_train)  # 3X1
print(y_train.shape)

tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


2) 가중치와 편향의 초기화
- requires_grad=True : 학습을 통해 계속 값이 변경되는 변수임을 의미

In [8]:
# 가중치 W를 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시함.
W = torch.zeros(1, requires_grad=True) 
# 가중치 W를 출력
print(W) 

b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)
tensor([0.], requires_grad=True)


현재 가중치 $W$와 $b$ 둘 다 0이므로 현 직선의 방정식은 다음과 같습니다.

$y=0*x+0$

지금 상태에선 x에 어떤 값이 들어가도 가설은 0을 예측하게 됩니다. 즉, 아직 적절한 W와 b의 값이 아닙니다.

3) 가설 세우기

파이토치 코드 상으로 직선의 방정식에 해당되는 가설을 선언합니다.

$H(x) = Wx+b$

In [9]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


4)비용 함수 선언하기

파이토치 코드 상으로 선형 회귀의 비용 함수에 해당되는 평균 제곱 오차를 선언합니다.

$cost(W,b) = \frac{1}{n}\sum_{i=1}^{n}[y^{(i)} - H(x^{(i)})]^{2}$

In [10]:
# 앞서 배운 torch.mean으로 평균을 구한다.
cost = torch.mean((hypothesis - y_train) ** 2) 
print(cost)

# 지금 W와 b가 다 0이어서 hypothesis가 0임

tensor(18.6667, grad_fn=<MeanBackward0>)


5) 경사 하강법 구현하기

- SGD : 확률적 경사하강법
- lr(learning rate) : 학습률

In [11]:
optimizer = optim.SGD([W, b], lr=0.01)

- optimizer.zero_grad() : 미분을 통해 얻은 기울기를 0으로 초기화   
--> 기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있음.


- cost.backward() : 가중치 W와 편향 b에 대한 기울기가 계산됨 


- opimizer.step() : 인수로 들어갔던 W와 b에서 리턴되는 변수들의 기울기에 학습률 0.01을 곱하여 빼줌으로써 업데이트함

In [12]:
# gradient를 0으로 초기화
optimizer.zero_grad() 
# 비용 함수를 미분하여 gradient 계산
cost.backward() 
# W와 b를 업데이트
optimizer.step()

6) 전체코드

In [13]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 2000 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad() #미분을 통해 얻은 기울기를 0으로 초기화 
    cost.backward()       #가중치 W와 편향 b에 대한 기울기가 계산됨 
    optimizer.step()      #인수로 들어갔던 W와 b에서 리턴되는 변수들의 기울기에 학습률을 곱하여 빼줌으로써 업데이트함

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/2000 W: 0.187, b: 0.080 Cost: 18.666666
Epoch  100/2000 W: 1.746, b: 0.578 Cost: 0.048171
Epoch  200/2000 W: 1.800, b: 0.454 Cost: 0.029767
Epoch  300/2000 W: 1.843, b: 0.357 Cost: 0.018394
Epoch  400/2000 W: 1.876, b: 0.281 Cost: 0.011366
Epoch  500/2000 W: 1.903, b: 0.221 Cost: 0.007024
Epoch  600/2000 W: 1.924, b: 0.174 Cost: 0.004340
Epoch  700/2000 W: 1.940, b: 0.136 Cost: 0.002682
Epoch  800/2000 W: 1.953, b: 0.107 Cost: 0.001657
Epoch  900/2000 W: 1.963, b: 0.084 Cost: 0.001024
Epoch 1000/2000 W: 1.971, b: 0.066 Cost: 0.000633
Epoch 1100/2000 W: 1.977, b: 0.052 Cost: 0.000391
Epoch 1200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch 1300/2000 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/2000 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/2000 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/2000 W: 1.997, b: 0.008 Cost: 0.000008

### 2.1.6 optimizer.zero_grad()가 필요한 이유
파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있음.  
따라서 optimizer.zero_gra()를 통해 미분값을 계속 0으로 초기화시켜줘야 함.

In [14]:
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs + 1):
    z = 2*w
    z.backward()
    print(f'수식을 w로 미분한 값 : {w.grad}')

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0


## 2.2 자동미분 (Autograd)
- requires_grad=True, backward() : 파이토치에서 제공하는 자동미분 기능을 수행.

### 2.2.1 경사 하강법 리뷰
![대체 텍스트](https://wikidocs.net/images/page/21670/%EC%A0%91%EC%84%A0%EC%9D%98%EA%B8%B0%EC%9A%B8%EA%B8%B01.PNG)

경사 하강법을 간단히 복습해보겠습니다. 경사 하강법은 비용 함수를 미분하여 이 함수의 기울기(gradient)를 구해서 비용이 최소화 되는 방향을 찾아내는 알고리즘이었습니다.



*   비용 함수를 손실 함수, 오차 함수라고도 부르므로 비용이 최소화 되는 방향이라는 표현 대신 손실이 최소화 되는 방향 또는 오차를 최소화 되는 방향이라고도 설명할 수 있습니다.

모델이 복잡해질수록 경사 하강법을 넘파이 등으로 직접 코딩하는 것은 까다로운 일입니다. 파이토치에서는 이런 수고를 하지 않도록 자동 미분(Autograd)을 지원합니다. 자동 미분을 사용하면 미분 계산을 자동화하여 경사 하강법을 손쉽게 사용할 수 있게 해줍니다.

### 2.2.2 자동 미분(Autograd) 실습하기

자동 미분에 대해서 실습을 통해 이해해봅시다. 임의로 $2w^{2} + 5$라는 식을 세워보고, $w$에 대해 미분해보겠습니다.

값이 2인 임의의 스칼라 텐서 w를 선언합니다. 이때 required_grad를 True로 설정합니다. 이는 이 텐서에 대한 기울기를 저장하겠다는 의미입니다. 뒤에서 보겠지만, 이렇게 하면 w.grad에 w에 대한 미분값이 저장됩니다.

In [17]:
w = torch.tensor(2.0, requires_grad=True)
y = w**2
z = 2*y + 5

In [18]:
#backward() : 해당 수식의 w에 대한 기울기 계산
z.backward()

In [19]:
print(f'수식을 w로 미분한값 : {w.grad}')

수식을 w로 미분한값 : 8.0


## 2.3 다중 선형 회귀 (Multivariable Linear regression)
다수의 x로부터 y를 예측하는 다중 선형 회귀

### 2.3.1 데이터에 대한 이해 (Data Definition)
![대체 텍스트](https://wikidocs.net/images/page/54841/%ED%9B%88%EB%A0%A8%EB%8D%B0%EC%9D%B4%ED%84%B0.PNG)

독립 변수 $x$의 개수가 3개므로 이를 수식으로 표현하면 아래와 같습니다.

$H(x)=w_1x_1+w_2x_2+w_3x_3+b$

### 2.3.2 파이토치로 구현하기

$H(X) = w_{1}x_{1} + w_{2}x_{2} + w_{3}x_{3}+b$

In [24]:
# 훈련 데이터
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [25]:
# 가중치 w와 편향 b 초기화
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [26]:
# optimizer 설정
optimizer = optim.SGD([w1, w2, w3, b], lr =1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs+1):
    
    # H(x)게산
    hypothesis = x1_train*w1 + x2_train*w2 + x3_train*w3 + b
    
    # cost계산
    cost = torch.mean((hypothesis - y_train)**2)
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
        ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563634
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497607
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435026
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375730
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319511
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266222
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215696
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167818
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079378


### 2.3.2 벡터와 행렬 연산으로 바꾸기

1) 벡터 연산으로 이해하기

$H(X)=w_1x_1+w_2x_2+w_3x_3$

위 식은 아래와 같이 두 벡터의 내적으로 표현할 수 있습니다.

![대체 텍스트](https://wikidocs.net/images/page/54841/%EB%82%B4%EC%A0%81.PNG)

두 벡터를 각각 $X$와 $W$로 표현한다면, 가설은 다음과 같습니다.

$H(X)=XW$

$x$의 개수가 3개였음에도 이제는 $X$와 $W$라는 두 개의 변수로 표현된 것을 볼 수 있습니다.

2) 행렬 연산으로 이해하기

훈련 데이터를 살펴보고, 벡터와 행렬 연산을 통해 가설 $H(X)$를 표현해보겠습니다.

![대체 텍스트](https://wikidocs.net/images/page/54841/%ED%9B%88%EB%A0%A8%EB%8D%B0%EC%9D%B4%ED%84%B0.PNG)

전체 훈련 데이터의 개수를 셀 수 있는 1개의 단위를 샘플(sample)이라고 합니다. 현재 샘플의 수는 총 5개입니다.
각 샘플에서 $y$를 결정하게 하는 각각의 독립 변수 $x$를 특성(feature)이라고 합니다. 현재 특성은 3개입니다.

이는 종속 변수 $x$들의 수가 (샘플의 수 × 특성의 수) = 15개임을 의미합니다. 종속 변수 $x$들을 (샘플의 수 × 특성의 수)의 크기를 가지는 하나의 행렬로 표현해봅시다. 그리고 이 행렬을 $X$라고 하겠습니다.

$\left(
    \begin{array}{c}
      x_{11}\ x_{12}\ x_{13}\ \\
      x_{21}\ x_{22}\ x_{23}\ \\
      x_{31}\ x_{32}\ x_{33}\ \\
      x_{41}\ x_{42}\ x_{43}\ \\
      x_{51}\ x_{52}\ x_{53}\ \\
    \end{array}
  \right)$

  그리고 여기에 가중치 $w_{1}, w_{2}, w_{3}$을 원소로 하는 벡터를 $W$라 하고 이를 곱해보겠습니다.

$\left(
    \begin{array}{c}
      x_{11}\ x_{12}\ x_{13}\ \\
      x_{21}\ x_{22}\ x_{23}\ \\
      x_{31}\ x_{32}\ x_{33}\ \\
      x_{41}\ x_{42}\ x_{43}\ \\
      x_{51}\ x_{52}\ x_{53}\ \\
    \end{array}
  \right)
\left(
    \begin{array}{c}
      w_{1} \\
      w_{2} \\
      w_{3} \\
    \end{array}
  \right)
\  =
\left(
    \begin{array}{c}
      x_{11}w_{1}+ x_{12}w_{2}+ x_{13}w_{3}\ \\
      x_{21}w_{1}+ x_{22}w_{2}+ x_{23}w_{3}\ \\
      x_{31}w_{1}+ x_{32}w_{2}+ x_{33}w_{3}\ \\
      x_{41}w_{1}+ x_{42}w_{2}+ x_{43}w_{3}\ \\
      x_{51}w_{1}+ x_{52}w_{2}+ x_{53}w_{3}\ \\
    \end{array}
  \right)$

  위의 식은 결과적으로 다음과 같습니다.

$H(X) = XW$

이 가설에 각 샘플에 더해지는 편향 $b$를 추가해봅시다. 샘플 수만큼의 차원을 가지는 편향 벡터 $B$를 만들어 더합니다.

$\left(
    \begin{array}{c}
      x_{11}\ x_{12}\ x_{13}\ \\
      x_{21}\ x_{22}\ x_{23}\ \\
      x_{31}\ x_{32}\ x_{33}\ \\
      x_{41}\ x_{42}\ x_{43}\ \\
      x_{51}\ x_{52}\ x_{53}\ \\
    \end{array}
  \right)
\left(
    \begin{array}{c}
      w_{1} \\
      w_{2} \\
      w_{3} \\
    \end{array}
  \right)
+
\left(
    \begin{array}{c}
      b \\
      b \\
      b \\
      b \\
      b \\
    \end{array}
  \right)
 \ =
\left(
    \begin{array}{c}
      x_{11}w_{1}+ x_{12}w_{2}+ x_{13}w_{3} + b\ \\
      x_{21}w_{1}+ x_{22}w_{2}+ x_{23}w_{3} + b\ \\
      x_{31}w_{1}+ x_{32}w_{2}+ x_{33}w_{3} + b\ \\
      x_{41}w_{1}+ x_{42}w_{2}+ x_{43}w_{3} + b\ \\
      x_{51}w_{1}+ x_{52}w_{2}+ x_{53}w_{3} + b\ \\
    \end{array}
  \right)$

위의 식은 결과적으로 다음과 같습니다.

$H(X)=XW+B$

결과적으로 전체 훈련 데이터의 가설 연산을 3개의 변수만으로 표현하였습니다.
이와 같이 벡터와 행렬 연산은 식을 간단하게 해줄 뿐만 아니라 다수의 샘플의 병렬 연산이므로 속도의 이점을 가집니다.

이를 참고로 파이토치로 구현해봅시다.


3) 행렬 연산을 고려하여 파이토치로 구현하기

이번에는 행렬 연산을 고려하여 파이토치로 재구현해보겠습니다.
이번에는 훈련 데이터 또한 행렬로 선언해야 합니다.

In [27]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [28]:
print(x_train.shape)
print(y_train.shape)

torch.Size([5, 3])
torch.Size([5, 1])


In [29]:
# 가중치와 편향 선언
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [31]:
#전체코드

x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    # 편향 b는 브로드 캐스팅되어 각 샘플에 더해집니다.
    hypothesis = x_train.matmul(W) + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
    ))

Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([67.2578, 80.8397, 79.6523, 86.7394, 61.6605]) Cost: 9298.520508
Epoch    2/20 hypothesis: tensor([104.9128, 126.0990, 124.2466, 135.3015,  96.1821]) Cost: 2915.712402
Epoch    3/20 hypothesis: tensor([125.9942, 151.4381, 149.2133, 162.4896, 115.5097]) Cost: 915.040527
Epoch    4/20 hypothesis: tensor([137.7968, 165.6247, 163.1911, 177.7112, 126.3307]) Cost: 287.936005
Epoch    5/20 hypothesis: tensor([144.4044, 173.5674, 171.0168, 186.2332, 132.3891]) Cost: 91.371010
Epoch    6/20 hypothesis: tensor([148.1035, 178.0144, 175.3980, 191.0042, 135.7812]) Cost: 29.758139
Epoch    7/20 hypothesis: tensor([150.1744, 180.5042, 177.8508, 193.6753, 137.6805]) Cost: 10.445305
Epoch    8/20 hypothesis: tensor([151.3336, 181.8983, 179.2240, 195.1707, 138.7440]) Cost: 4.391228
Epoch    9/20 hypothesis: tensor([151.9824, 182.6789, 179.9928, 196.0079, 139.3396]) Cost: 2.493135
Epoch   10/20 hypo

## 2.4 nn.Module로 구현하는 선형 회귀
파이토치에서 이미 구현되어져 제공되고 있는 함수들을 불러오기  
예) nn.Linear() : 선형 회귀 모델, nn.functional.mse_loss() : 평균 제곱 오차

### 2.4.1 단순 선형 회귀 구현하기

아래 데이터는 $y=2x$를 가정된 상태에서 만들어진 데이터로 우리는 이미 정답이 W=2, b=0임을 알고 있는 사태입니다. 모델이 이 두 W와 b의 값을 제대로 찾아내도록 하는 것이 목표입니다.

In [32]:
x_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

In [33]:
# nn.Linear(입력의 차원, 출력의 차원)
# input_dim = 1, output_dim = 1
model = nn.Linear(1,1)

model에는 가중치 w와 편향 b가 저장되어 있음. 이 값은 model.parameters()라는 함수를 사용하여 불러올 수 있음

In [34]:
#w와 b모두 학습의 대상이므로 requires_grad=True가 되어있는 것을 볼 수 있음.
print(list(model.parameters()))

[Parameter containing:
tensor([[0.5153]], requires_grad=True), Parameter containing:
tensor([-0.4414], requires_grad=True)]


In [36]:
# model.parameters()를 사용하여 w와 b를 전달하고 학습률은 0.01로 지정.
# 경사하강법 SGD를 사용하고, lr=0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

In [38]:
#전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 13.103541
Epoch  100/2000 Cost: 0.002791
Epoch  200/2000 Cost: 0.001724
Epoch  300/2000 Cost: 0.001066
Epoch  400/2000 Cost: 0.000658
Epoch  500/2000 Cost: 0.000407
Epoch  600/2000 Cost: 0.000251
Epoch  700/2000 Cost: 0.000155
Epoch  800/2000 Cost: 0.000096
Epoch  900/2000 Cost: 0.000059
Epoch 1000/2000 Cost: 0.000037
Epoch 1100/2000 Cost: 0.000023
Epoch 1200/2000 Cost: 0.000014
Epoch 1300/2000 Cost: 0.000009
Epoch 1400/2000 Cost: 0.000005
Epoch 1500/2000 Cost: 0.000003
Epoch 1600/2000 Cost: 0.000002
Epoch 1700/2000 Cost: 0.000001
Epoch 1800/2000 Cost: 0.000001
Epoch 1900/2000 Cost: 0.000000
Epoch 2000/2000 Cost: 0.000000


In [39]:
# 임의의 입력 4를 선언
new_var =  torch.FloatTensor([[4.0]]) 
# 입력한 값 4에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) # forward 연산
# y = 2x 이므로 입력이 4라면 y가 8에 가까운 값이 나와야 제대로 학습이 된 것
print("훈련 후 입력이 4일 때의 예측값 :", pred_y) 

훈련 후 입력이 4일 때의 예측값 : tensor([[7.9989]], grad_fn=<AddmmBackward>)


In [40]:
#학습 후의 w와 b
print(list(model.parameters()))

[Parameter containing:
tensor([[1.9994]], requires_grad=True), Parameter containing:
tensor([0.0014], requires_grad=True)]


W의 값이 2에 가깝고, b의 값이 0에 가까운 것을 볼 수 있습니다.



*   $H(x)$  식에 입력 $x$로부터 예측된 $y$를 얻는 것을 forward 연산이라고 합니다.
*   학습 전, prediction = model(x_train)은 x_train으로부터 예측값을 리턴하므로 forward 연산입니다.
*   학습 후, pred_y = model(new_var)는 임의의 값 new_var로부터 예측값을 리턴하므로 forward 연산입니다.
*   학습 과정에서 비용 함수를 미분하여 기울기를 구하는 것을 backward 연산이라고 합니다.
*   cost.backward()는 비용 함수로부터 기울기를 구하라는 의미이며 backward 연산입니다.

### 2.4.2 다중 선형회귀 구현하기

이제 nn.Linear()와 nn.functional.mse_loss()로 다중 선형 회귀를 구현해봅시다. 사실 코드 자체는 달라지는 건 거의 없는데, nn.Linear()의 인자값과 학습률(learning rate)만 조절해주었습니다.

데이터를 선언해줍니다. 여기서는 3개의 $x$로부터 하나의 $y$를 예측하는 문제입니다.
즉, 가설 수식은 $H(x) = w_{1}x_{1} + w_{2}x_{2} + w_{3}x_{3} + b$입니다.

In [41]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [42]:
# nn.Linear(입력차원, 출력차원)
# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)

위 torch.nn.Linear 인자로 3, 1을 사용하였습니다. 3개의 입력 x에 대해서 하나의 출력 y을 가지므로, 입력 차원은 3, 출력 차원은 1을 인수로 사용하였습니다. model에는 3개의 가중치 w와 편향 b가 저장되어 있습니다.

In [43]:
print(list(model.parameters()))

[Parameter containing:
tensor([[-0.1119,  0.2710, -0.5435]], requires_grad=True), Parameter containing:
tensor([0.3462], requires_grad=True)]


첫번째 출력되는 것이 3개의 w고, 두번째 출력되는 것이 b에 해당됩니다. 두 값 모두 현재는 랜덤 초기화가 되어져 있습니다. 그리고 두 출력 결과 모두 학습의 대상이므로 requires_grad=True가 되어져 있는 것을 볼 수 있습니다.

이제 옵티마이저를 정의합니다. model.parameters()를 사용하여 3개의 w와 b를 전달합니다. 학습률(learning rate)은 0.00001로 정합니다. 파이썬 코드로는 1e-5로도 표기합니다. 0.01로 하지 않는 이유는 기울기가 발산하기 때문입니다. 궁금하다면 해보시기 바랍니다.

![대체 텍스트](https://wikidocs.net/images/page/21670/%EA%B8%B0%EC%9A%B8%EA%B8%B0%EB%B0%9C%EC%82%B0.PNG)

위의 그림은 앞서 배웠던 내용으로, 학습률(learning rate)이 모델의 필요한 크기보다 높을 때, 기울기가 발산하는 현상을 보여줍니다.

In [44]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [45]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 42134.707031
Epoch  100/2000 Cost: 5.960053
Epoch  200/2000 Cost: 5.654707
Epoch  300/2000 Cost: 5.365413
Epoch  400/2000 Cost: 5.091429
Epoch  500/2000 Cost: 4.831834
Epoch  600/2000 Cost: 4.585997
Epoch  700/2000 Cost: 4.353075
Epoch  800/2000 Cost: 4.132411
Epoch  900/2000 Cost: 3.923455
Epoch 1000/2000 Cost: 3.725502
Epoch 1100/2000 Cost: 3.537972
Epoch 1200/2000 Cost: 3.360326
Epoch 1300/2000 Cost: 3.192056
Epoch 1400/2000 Cost: 3.032674
Epoch 1500/2000 Cost: 2.881700
Epoch 1600/2000 Cost: 2.738672
Epoch 1700/2000 Cost: 2.603201
Epoch 1800/2000 Cost: 2.474846
Epoch 1900/2000 Cost: 2.353286
Epoch 2000/2000 Cost: 2.238110


In [46]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[153.7184]], grad_fn=<AddmmBackward>)


In [47]:
print(list(model.parameters()))

[Parameter containing:
tensor([[0.8541, 0.8475, 0.3096]], requires_grad=True), Parameter containing:
tensor([0.3568], requires_grad=True)]


## 2.5 클래스로 파이토치 모델 구현하기

파이토치의 대부분의 구현체들은 대부분 모델을 생성할 때 클래스(Class)를 사용

### 2.5.1 모델을 클래스로 구현하기

In [48]:
# 모델을 선언 및 초기화. 단순 선형 회귀이므로 input_dim=1, output_dim=1.
model = nn.Linear(1,1)

In [49]:
#클래스로 구현

class LinearRegressionModel(nn.Module): # torch.nn.Module을 상속받는 파이썬 클래스
    def __init__(self): #
        super().__init__()
        self.linear = nn.Linear(1, 1) # 단순 선형 회귀이므로 input_dim=1, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [50]:
model = LinearRegressionModel()

클래스(class) 형태의 모델은 nn.Module 을 상속받습니다. 그리고 __init__()에서 모델의 구조와 동적을 정의하는 생성자를 정의합니다. 이는 파이썬에서 객체가 갖는 속성값을 초기화하는 역할로, 객체가 생성될 때 자동으로 호출됩니다. super() 함수를 부르면 여기서 만든 클래스는 nn.Module 클래스의 속성들을 가지고 초기화 됩니다. foward() 함수는 모델이 학습데이터를 입력받아서 forward 연산을 진행시키는 함수입니다. 이 forward() 함수는 model 객체를 데이터와 함께 호출하면 자동으로 실행됩니다. 예를 들어 model이란 이름의 객체를 생성 후, model(입력 데이터)과 같은 형식으로 객체를 호출하면 자동으로 forward 연산이 수행됩니다.

*   $H(x)$  식에 입력 $x$로부터 예측된 $y$를 얻는 것을 forward 연산이라고 합니다.

In [51]:
# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)

In [52]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [53]:
model = MultivariateLinearRegressionModel()

### 2.5.2 단순 선형 회귀 클래스로 구현하기

In [54]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [55]:
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

In [56]:
model = LinearRegressionModel()

In [58]:
# optimizer 설정. 경사 하강법 SGD를 사용하고 learning rate를 의미하는 lr은 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

In [59]:
# 전체 훈련 데이터에 대해 경사 하강법을 2,000회 반복
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 4.610449
Epoch  100/2000 Cost: 0.040473
Epoch  200/2000 Cost: 0.025010
Epoch  300/2000 Cost: 0.015454
Epoch  400/2000 Cost: 0.009550
Epoch  500/2000 Cost: 0.005901
Epoch  600/2000 Cost: 0.003647
Epoch  700/2000 Cost: 0.002253
Epoch  800/2000 Cost: 0.001392
Epoch  900/2000 Cost: 0.000860
Epoch 1000/2000 Cost: 0.000532
Epoch 1100/2000 Cost: 0.000329
Epoch 1200/2000 Cost: 0.000203
Epoch 1300/2000 Cost: 0.000125
Epoch 1400/2000 Cost: 0.000078
Epoch 1500/2000 Cost: 0.000048
Epoch 1600/2000 Cost: 0.000030
Epoch 1700/2000 Cost: 0.000018
Epoch 1800/2000 Cost: 0.000011
Epoch 1900/2000 Cost: 0.000007
Epoch 2000/2000 Cost: 0.000004


### 2.5.3 다중 선형 회귀 클래스로 구현하기

In [60]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [61]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [62]:
model = MultivariateLinearRegressionModel()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [63]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 52396.968750
Epoch  100/2000 Cost: 0.960344
Epoch  200/2000 Cost: 0.934503
Epoch  300/2000 Cost: 0.909947
Epoch  400/2000 Cost: 0.886607
Epoch  500/2000 Cost: 0.864417
Epoch  600/2000 Cost: 0.843337
Epoch  700/2000 Cost: 0.823286
Epoch  800/2000 Cost: 0.804222
Epoch  900/2000 Cost: 0.786089
Epoch 1000/2000 Cost: 0.768829
Epoch 1100/2000 Cost: 0.752420
Epoch 1200/2000 Cost: 0.736803
Epoch 1300/2000 Cost: 0.721920
Epoch 1400/2000 Cost: 0.707771
Epoch 1500/2000 Cost: 0.694293
Epoch 1600/2000 Cost: 0.681443
Epoch 1700/2000 Cost: 0.669208
Epoch 1800/2000 Cost: 0.657552
Epoch 1900/2000 Cost: 0.646428
Epoch 2000/2000 Cost: 0.635827


## 2.6 미니배치와 데이터로드

### 2.6.1 미니배치와 배치크기

In [64]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

위 데이터의 샘플의 개수는 5개입니다. 전체 데이터를 하나의 행렬로 선언하여 전체 데이터에 대해서 경사 하강법을 수행하여 학습할 수 있습니다. 그런데 위 데이터는 현업에서 다루게 되는 방대한 양의 데이터에 비하면 굉장히 적은 양입니다. 만약, **데이터가 수십만개 이상이라면 전체 데이터에 대해서 경사 하강법을 수행하는 것은 매우 느릴 뿐만 아니라 많은 계산량이 필요합니다. 정말 어쩌면 메모리의 한계로 계산이 불가능한 경우도 있을 수 있습니다.**

그렇기 때문에 전체 데이터를 더 작은 단위로 나누어서 해당 단위로 학습하는 개념이 나오게 되었습니다.
이 단위를 미니 배치(Mini Batch)라고 합니다.

![대체 텍스트](https://wikidocs.net/images/page/55580/%EB%AF%B8%EB%8B%88%EB%B0%B0%EC%B9%98.PNG)

위의 그림은 전체 데이터를 미니 배치 단위로 나누는 것을 보여줍니다. 미니 배치 학습을 하게되면 미니 배치만큼만 가져가서 미니 배치에 대한 대한 비용(cost)를 계산하고, 경사 하강법을 수행합니다. 그리고 다음 미니 배치를 가져가서 경사 하강법을 수행하고 마지막 미니 배치까지 이를 반복합니다. 이렇게 전체 데이터에 대한 학습이 1회 끝나면 1 에포크(Epoch)가 끝나게 됩니다.

*   에포크(Epoch) : 전체 훈련 데이터가 학습에 한 번 사용된 주기


미니 배치 학습에서는 미니 배치의 개수만큼 경사 하강법을 수행해야 전체 데이터가 한 번 전부 사용되어 1 에포크(Epoch)가 됩니다. 미니 배치의 개수는 결국 미니 배치의 크기를 몇으로 하느냐에 따라서 달라지는데 **미니 배치의 크기를 배치 크기(batch size)라고 합니다.**

*   전체 데이터에 대해서 한 번에 경사 하강법을 수행하는 방법을 '배치 경사 하강법'이라고 부릅니다. 반면, 미니 배치 단위로 경사 하강법을 수행하는 방법을 '미니 배치 경사 하강법'이라고 부릅니다.

*   배치 경사 하강법은 경사 하강법을 할 때, 전체 데이터를 사용하므로 가중치 값이 최적값에 수렴하는 과정이 매우 안정적이지만, 계산량이 너무 많이 듭니다. 미니 배치 경사 하강법은 경사 하강법을 할 때, 전체 데이터의 일부만을 보고 수행하므로 최적값으로 수렴하는 과정에서 값이 조금 헤매기도 하지만 훈련 속도가 빠릅니다.

*   **배치 크기는 보통 2의 제곱수를 사용합니다.** ex) 2, 4, 8, 16, 32, 64... 그 이유는 CPU와 GPU의 메모리가 2의 배수이므로 배치크기가 2의 제곱수일 경우에 데이터 송수신의 효율을 높일 수 있다고 합니다.

### 2.6.2 이터레이션 (iteration)

미니 배치와 배치 크기의 정의에 대해서 이해하였다면 이터레이션(iteration)을 정의할 수 있습니다.

![대체 텍스트](https://wikidocs.net/images/page/36033/batchandepochiteration.PNG)

위의 그림은 에포크와 배치 크기와 이터레이션의 관계를 보여줍니다. 위의 그림의 예제를 통해 설명해보겠습니다.

이터레이션은 한 번의 에포크 내에서 이루어지는 매개변수인 가중치 $W$와 $b$의 업데이트 횟수입니다. 전체 데이터가 2,000일 때 배치 크기를 200으로 한다면 이터레이션의 수는 총 10개입니다. 이는 한 번의 에포크 당 매개변수 업데이트가 10번 이루어짐을 의미합니다.


### 2.6.3 데이터 로드하기

파이토치에서는 데이터를 좀 더 쉽게 다룰 수 있도록 유용한 도구로서 데이터셋(Dataset)과 데이터로더(DataLoader)를 제공합니다. 이를 사용하면 미니 배치 학습, 데이터 셔플(shuffle), 병렬 처리까지 간단히 수행할 수 있습니다. 기본적인 사용 방법은 Dataset을 정의하고, 이를 DataLoader에 전달하는 것입니다.

Dataset을 커스텀하여 만들 수도 있지만 여기서는 텐서를 입력받아 Dataset의 형태로 변환해주는 TensorDataset을 사용해보겠습니다.

TensorDataset과 DataLoader를 임포트합니다.

In [65]:
from torch.utils.data import TensorDataset 
from torch.utils.data import DataLoader 

In [66]:
# TensorDataset은 기본적으로 텐서를 입력으로 받음.

x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [67]:
dataset = TensorDataset(x_train, y_train)

파이토치의 데이터셋을 만들었다면 데이터로더를 사용 가능합니다. **데이터로더는 기본적으로 2개의 인자를 입력받는데 하나는 데이터셋, 미니 배치의 크기입니다.** 이때 미니 배치의 크기는 통상적으로 2의 제곱수를 사용합니다. 그리고 추가적으로 많이 사용되는 인자로 shuffle이 있습니다. **shuffle=True를 선택하면 Epoch마다 데이터셋을 섞어서 데이터가 학습되는 순서를 바꿉니다.**

사람도 같은 문제지를 계속 풀면 어느 순간 문제의 순서에 익숙해질 수 있습니다. 예를 들어 어떤 문제지의 12번 문제를 풀면서, '13번 문제가 뭔지는 기억은 안 나지만 어제 풀었던 기억으로 정답은 5번이었던 것 같은데' 하면서 문제 자체보단 순서에 익숙해질 수 있다는 것입니다. 그럴 때 문제지를 풀 때마다 문제 순서를 랜덤으로 바꾸면 도움이 될 겁니다. 마찬가지로 모델이 데이터셋의 순서에 익숙해지는 것을 방지하여 학습할 때는 이 옵션을 True를 주는 것을 권장합니다.

In [68]:
# DataLoader(dataset, batch_size, shuffle=True)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [69]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [70]:
b_epochs = 20
for epoch in range(nb_epochs + 1):
      for batch_idx, samples in enumerate(dataloader):
        print(batch_idx)
        print(samples)
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)

        # cost 계산
        cost = F.mse_loss(prediction, y_train)

        # cost로 H(x) 계산
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader),
            cost.item()
            ))

0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch    0/2000 Batch 1/3 Cost: 21585.316406
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch    0/2000 Batch 2/3 Cost: 10971.416016
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch    0/2000 Batch 3/3 Cost: 1447.698853
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch    1/2000 Batch 1/3 Cost: 747.465149
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch    1/2000 Batch 2/3 Cost: 339.660400
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch    1/2000 Batch 3/3 Cost: 85.896492
0
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch    2/2000 Batch 1/3 Cost: 29.055721
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch    2/2000 Batch 2/3 Cost: 13.762732
2
[tensor([[ 96

        [180.]])]
Epoch   23/2000 Batch 1/3 Cost: 5.468522
1
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch   23/2000 Batch 2/3 Cost: 1.650015
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch   23/2000 Batch 3/3 Cost: 6.766937
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch   24/2000 Batch 1/3 Cost: 3.284306
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch   24/2000 Batch 2/3 Cost: 2.716009
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch   24/2000 Batch 3/3 Cost: 6.973706
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch   25/2000 Batch 1/3 Cost: 3.199919
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch   25/2000 Batch 2/3 Cost: 4.081297
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch   25/2000 Batch 3/3 Cost: 1.460352
0
[tensor([[

Epoch   46/2000 Batch 1/3 Cost: 2.620809
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch   46/2000 Batch 2/3 Cost: 4.298007
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch   46/2000 Batch 3/3 Cost: 0.838190
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch   47/2000 Batch 1/3 Cost: 4.290676
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch   47/2000 Batch 2/3 Cost: 1.995632
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch   47/2000 Batch 3/3 Cost: 4.139688
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch   48/2000 Batch 1/3 Cost: 4.976670
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch   48/2000 Batch 2/3 Cost: 1.283424
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch   48/2000 Batch 3/3 Cost: 1.134685
0
[tensor([[73., 80., 75.],
  

Epoch   69/2000 Batch 1/3 Cost: 5.249230
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch   69/2000 Batch 2/3 Cost: 0.238966
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch   69/2000 Batch 3/3 Cost: 3.920323
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch   70/2000 Batch 1/3 Cost: 3.297898
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch   70/2000 Batch 2/3 Cost: 3.405087
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch   70/2000 Batch 3/3 Cost: 3.020826
0
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch   71/2000 Batch 1/3 Cost: 1.137418
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch   71/2000 Batch 2/3 Cost: 3.257683
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch   71/2000 Batch 3/3 Cost: 5.514643
0
[tensor([[89., 91., 90.],
     

        [196.]])]
Epoch   92/2000 Batch 2/3 Cost: 2.340814
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch   92/2000 Batch 3/3 Cost: 3.788160
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch   93/2000 Batch 1/3 Cost: 3.032135
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch   93/2000 Batch 2/3 Cost: 5.872415
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch   93/2000 Batch 3/3 Cost: 1.445638
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch   94/2000 Batch 1/3 Cost: 1.903012
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch   94/2000 Batch 2/3 Cost: 2.053069
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch   94/2000 Batch 3/3 Cost: 7.098367
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch   95/2000 Batch 1/3 Cost: 2.387751
1
[tensor([[

Epoch  115/2000 Batch 2/3 Cost: 3.318235
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  115/2000 Batch 3/3 Cost: 1.000427
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  116/2000 Batch 1/3 Cost: 0.483189
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch  116/2000 Batch 2/3 Cost: 2.328098
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  116/2000 Batch 3/3 Cost: 7.384468
0
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch  117/2000 Batch 1/3 Cost: 1.362352
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  117/2000 Batch 2/3 Cost: 2.846923
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  117/2000 Batch 3/3 Cost: 5.863853
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  118/2000 Batch 1/3 Cost: 0.036415
1
[tensor([[ 96.,  98., 100.],
  

Epoch  138/2000 Batch 2/3 Cost: 4.434735
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  138/2000 Batch 3/3 Cost: 1.613492
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  139/2000 Batch 1/3 Cost: 1.866076
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  139/2000 Batch 2/3 Cost: 2.331046
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  139/2000 Batch 3/3 Cost: 6.366582
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch  140/2000 Batch 1/3 Cost: 5.030241
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  140/2000 Batch 2/3 Cost: 1.441985
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  140/2000 Batch 3/3 Cost: 1.848398
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  141/2000 Batch 1/3 Cost: 2.650741
1
[tensor([[ 93.,  88.,  93.],

Epoch  161/2000 Batch 2/3 Cost: 2.193666
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  161/2000 Batch 3/3 Cost: 0.218227
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch  162/2000 Batch 1/3 Cost: 3.802157
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  162/2000 Batch 2/3 Cost: 2.258248
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  162/2000 Batch 3/3 Cost: 0.297322
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  163/2000 Batch 1/3 Cost: 4.449841
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  163/2000 Batch 2/3 Cost: 1.214423
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  163/2000 Batch 3/3 Cost: 0.756998
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  164/2000 Batch 1/3 Cost: 0.954993
1
[tensor([[93., 88., 93

Epoch  184/2000 Batch 2/3 Cost: 0.979823
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  184/2000 Batch 3/3 Cost: 8.949168
0
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  185/2000 Batch 1/3 Cost: 2.516076
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  185/2000 Batch 2/3 Cost: 0.530663
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  185/2000 Batch 3/3 Cost: 6.835461
0
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  186/2000 Batch 1/3 Cost: 3.086264
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  186/2000 Batch 2/3 Cost: 2.969966
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  186/2000 Batch 3/3 Cost: 0.855744
0
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  187/2000 Batch 1/3 Cost: 2.196300
1
[tensor([[73., 80., 75

Epoch  211/2000 Batch 3/3 Cost: 4.132736
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch  212/2000 Batch 1/3 Cost: 4.611990
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch  212/2000 Batch 2/3 Cost: 1.443279
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  212/2000 Batch 3/3 Cost: 0.245111
0
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch  213/2000 Batch 1/3 Cost: 4.487203
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  213/2000 Batch 2/3 Cost: 3.151278
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  213/2000 Batch 3/3 Cost: 0.268946
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  214/2000 Batch 1/3 Cost: 1.565033
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  214/2000 Batch 2/3 Cost

        [152.]])]
Epoch  260/2000 Batch 1/3 Cost: 2.117504
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  260/2000 Batch 2/3 Cost: 1.254810
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  260/2000 Batch 3/3 Cost: 4.821072
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  261/2000 Batch 1/3 Cost: 0.433599
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  261/2000 Batch 2/3 Cost: 4.402472
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  261/2000 Batch 3/3 Cost: 2.233870
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  262/2000 Batch 1/3 Cost: 2.627293
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch  262/2000 Batch 2/3 Cost: 4.262380
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  262/2000 Batch 3/3 Cost: 1.661092
0
[tensor

        [142.]])]
Epoch  307/2000 Batch 2/3 Cost: 4.286048
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  307/2000 Batch 3/3 Cost: 4.591622
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  308/2000 Batch 1/3 Cost: 0.414731
1
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch  308/2000 Batch 2/3 Cost: 2.212624
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  308/2000 Batch 3/3 Cost: 6.112746
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  309/2000 Batch 1/3 Cost: 1.027526
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  309/2000 Batch 2/3 Cost: 2.106153
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  309/2000 Batch 3/3 Cost: 5.191856
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch  310/2000 Batch 1/3 Cost: 1.549415
1
[tensor([[

Epoch  353/2000 Batch 3/3 Cost: 4.807278
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  354/2000 Batch 1/3 Cost: 0.435644
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch  354/2000 Batch 2/3 Cost: 4.101208
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  354/2000 Batch 3/3 Cost: 1.927011
0
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch  355/2000 Batch 1/3 Cost: 1.926808
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  355/2000 Batch 2/3 Cost: 4.071735
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  355/2000 Batch 3/3 Cost: 0.501081
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  356/2000 Batch 1/3 Cost: 0.751242
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch  356/2000 Batch 2/

        [180.]])]
Epoch  377/2000 Batch 1/3 Cost: 2.361414
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch  377/2000 Batch 2/3 Cost: 2.197279
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  398/2000 Batch 2/3 Cost: 5.288949
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  398/2000 Batch 3/3 Cost: 0.242128
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch  399/2000 Batch 1/3 Cost: 2.440706
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  399/2000 Batch 2/3 Cost: 2.024993
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  399/2000 Batch 3/3 Cost: 0.076852
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  400/2000 Batch 1/3 Cost: 3.458356
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  400/2000 Batch 2/3 Cost: 0.189986
2
[ten

        [180.]])]
Epoch  421/2000 Batch 1/3 Cost: 0.925236
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  421/2000 Batch 2/3 Cost: 2.211987
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  421/2000 Batch 3/3 Cost: 5.176777
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  422/2000 Batch 1/3 Cost: 3.280048
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch  422/2000 Batch 2/3 Cost: 2.660280
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  422/2000 Batch 3/3 Cost: 0.858173
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch  423/2000 Batch 1/3 Cost: 2.112828
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  423/2000 Batch 2/3 Cost: 0.410422
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  423/2000 Batch 3/3 Cost: 4.630744
0
[tensor

Epoch  465/2000 Batch 3/3 Cost: 0.273045
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  466/2000 Batch 1/3 Cost: 3.346927
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  466/2000 Batch 2/3 Cost: 0.818555
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  466/2000 Batch 3/3 Cost: 0.520315
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  467/2000 Batch 1/3 Cost: 0.758172
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch  467/2000 Batch 2/3 Cost: 3.132098
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  467/2000 Batch 3/3 Cost: 1.395626
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  468/2000 Batch 1/3 Cost: 2.028787
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  468/2000 Batch 2/

[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  510/2000 Batch 3/3 Cost: 1.623509
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch  511/2000 Batch 1/3 Cost: 2.034096
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch  511/2000 Batch 2/3 Cost: 2.167335
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  511/2000 Batch 3/3 Cost: 0.135466
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  512/2000 Batch 1/3 Cost: 1.312822
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  512/2000 Batch 2/3 Cost: 1.016403
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  512/2000 Batch 3/3 Cost: 4.288911
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  513/2000 Batch 1/3 Cost: 1.126761
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185

        [142.]])]
Epoch  555/2000 Batch 2/3 Cost: 2.121555
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  555/2000 Batch 3/3 Cost: 0.614220
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  556/2000 Batch 1/3 Cost: 1.831005
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  556/2000 Batch 2/3 Cost: 0.260358
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  556/2000 Batch 3/3 Cost: 4.362792
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  557/2000 Batch 1/3 Cost: 0.453849
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch  557/2000 Batch 2/3 Cost: 1.467355
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  557/2000 Batch 3/3 Cost: 4.649348
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  558/2000 Batch 1/3 Cost: 0.824426
1
[tensor([[93.

        [152.]])]
Epoch  603/2000 Batch 2/3 Cost: 0.416554
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  603/2000 Batch 3/3 Cost: 0.898498
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  604/2000 Batch 1/3 Cost: 2.528439
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch  604/2000 Batch 2/3 Cost: 3.098052
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  604/2000 Batch 3/3 Cost: 0.162950
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  605/2000 Batch 1/3 Cost: 2.967589
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  605/2000 Batch 2/3 Cost: 0.251043
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  605/2000 Batch 3/3 Cost: 1.095532
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch  606/2000 Batch 1/3 Cost: 0.223282
1
[tensor([[

Epoch  626/2000 Batch 2/3 Cost: 1.888165
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  626/2000 Batch 3/3 Cost: 2.999277
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  627/2000 Batch 1/3 Cost: 0.406608
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  627/2000 Batch 2/3 Cost: 4.484362
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  646/2000 Batch 3/3 Cost: 3.621060
0
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  647/2000 Batch 1/3 Cost: 1.492245
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  647/2000 Batch 2/3 Cost: 2.418319
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  647/2000 Batch 3/3 Cost: 0.000692
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch  648/2000 Batch 1/3 Cost: 2.781980
1
[tensor([[73., 8

[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  668/2000 Batch 3/3 Cost: 1.121493
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  669/2000 Batch 1/3 Cost: 0.497906
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  669/2000 Batch 2/3 Cost: 1.922950
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  669/2000 Batch 3/3 Cost: 4.502923
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  670/2000 Batch 1/3 Cost: 0.406120
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch  670/2000 Batch 2/3 Cost: 3.147048
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  670/2000 Batch 3/3 Cost: 1.169735
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  671/2000 Batch 1/3 Cost: 2.133502
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],

Epoch  713/2000 Batch 3/3 Cost: 0.568605
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  714/2000 Batch 1/3 Cost: 2.950074
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  714/2000 Batch 2/3 Cost: 0.215932
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  714/2000 Batch 3/3 Cost: 0.850557
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  715/2000 Batch 1/3 Cost: 2.200751
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch  715/2000 Batch 2/3 Cost: 2.039979
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  715/2000 Batch 3/3 Cost: 0.210415
0
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch  716/2000 Batch 1/3 Cost: 1.314417
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  716/2000 Batch 2/

        [185.]])]
Epoch  762/2000 Batch 2/3 Cost: 2.529222
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  762/2000 Batch 3/3 Cost: 0.869974
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  763/2000 Batch 1/3 Cost: 1.022658
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  763/2000 Batch 2/3 Cost: 3.343273
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  763/2000 Batch 3/3 Cost: 0.009686
0
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch  764/2000 Batch 1/3 Cost: 0.229982
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  764/2000 Batch 2/3 Cost: 2.705155
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  764/2000 Batch 3/3 Cost: 0.469912
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  765/2000 Batch 1/3 Cost: 0.610743
1
[tensor([[

[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  803/2000 Batch 3/3 Cost: 0.600970
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch  804/2000 Batch 1/3 Cost: 1.426649
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  804/2000 Batch 2/3 Cost: 1.854668
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  804/2000 Batch 3/3 Cost: 0.864120
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  805/2000 Batch 1/3 Cost: 1.146982
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  805/2000 Batch 2/3 Cost: 2.585435
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  805/2000 Batch 3/3 Cost: 0.344755
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  806/2000 Batch 1/3 Cost: 0.710783
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152

[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  848/2000 Batch 3/3 Cost: 0.264188
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch  849/2000 Batch 1/3 Cost: 0.573612
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  849/2000 Batch 2/3 Cost: 1.341134
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  849/2000 Batch 3/3 Cost: 4.104495
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch  850/2000 Batch 1/3 Cost: 2.540359
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch  850/2000 Batch 2/3 Cost: 0.212385
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  850/2000 Batch 3/3 Cost: 0.675569
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch  851/2000 Batch 1/3 Cost: 2.596152
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180

[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  871/2000 Batch 3/3 Cost: 0.413005
0
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch  872/2000 Batch 1/3 Cost: 1.688111
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  872/2000 Batch 2/3 Cost: 0.432017
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  872/2000 Batch 3/3 Cost: 2.507798
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch  873/2000 Batch 1/3 Cost: 2.621890
1
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch  899/2000 Batch 3/3 Cost: 0.644726
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch  900/2000 Batch 1/3 Cost: 0.467415
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch  900/2000 Batch 2/3 Cost: 0.992800
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch  900/2000 Batch 3/3 Co

        [185.]])]
Epoch  921/2000 Batch 1/3 Cost: 0.748064
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch  921/2000 Batch 2/3 Cost: 0.990365
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  921/2000 Batch 3/3 Cost: 3.265660
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  922/2000 Batch 1/3 Cost: 2.985986
1
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  922/2000 Batch 2/3 Cost: 1.407839
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  922/2000 Batch 3/3 Cost: 0.319866
0
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch  923/2000 Batch 1/3 Cost: 1.616726
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch  923/2000 Batch 2/3 Cost: 0.408972
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch  923/2000 Batch 3/3 Cost: 2.456306
0
[tensor([[

Epoch  961/2000 Batch 2/3 Cost: 2.197811
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch  961/2000 Batch 3/3 Cost: 0.637980
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  962/2000 Batch 1/3 Cost: 1.846878
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch  962/2000 Batch 2/3 Cost: 2.266510
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  962/2000 Batch 3/3 Cost: 0.000006
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch  963/2000 Batch 1/3 Cost: 1.712911
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch  963/2000 Batch 2/3 Cost: 2.323482
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch  963/2000 Batch 3/3 Cost: 0.000237
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch  964/2000 Batch 1/3 Cost: 1.688725
1
[tensor([[73., 80., 75

        [180.]])]
Epoch 1014/2000 Batch 2/3 Cost: 2.056602
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1014/2000 Batch 3/3 Cost: 0.993602
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch 1015/2000 Batch 1/3 Cost: 2.213179
1
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1015/2000 Batch 2/3 Cost: 0.243588
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1015/2000 Batch 3/3 Cost: 0.569111
0
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch 1016/2000 Batch 1/3 Cost: 1.659791
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1016/2000 Batch 2/3 Cost: 1.609255
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1016/2000 Batch 3/3 Cost: 0.166468
0
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1017/2000 Batch 1/3 Cost: 1.691993
1
[tensor([[

        [196.]])]
Epoch 1058/2000 Batch 1/3 Cost: 2.123678
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1058/2000 Batch 2/3 Cost: 0.352868
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1058/2000 Batch 3/3 Cost: 0.063704
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1059/2000 Batch 1/3 Cost: 1.298519
1
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1059/2000 Batch 2/3 Cost: 1.363344
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1059/2000 Batch 3/3 Cost: 0.575252
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1060/2000 Batch 1/3 Cost: 1.342444
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch 1060/2000 Batch 2/3 Cost: 0.190155
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1060/2000 Batch 3/3 Cost: 2.777337
0
[tensor([[93.

Epoch 1107/2000 Batch 1/3 Cost: 1.966291
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch 1107/2000 Batch 2/3 Cost: 0.416797
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1107/2000 Batch 3/3 Cost: 0.145100
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch 1108/2000 Batch 1/3 Cost: 0.199133
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch 1108/2000 Batch 2/3 Cost: 1.297570
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1108/2000 Batch 3/3 Cost: 3.330948
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1109/2000 Batch 1/3 Cost: 2.065125
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch 1109/2000 Batch 2/3 Cost: 0.335907
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1109/2000 Batch 3/3 Cost: 1.916984
0
[tensor([[ 96.,  98., 100.],
     

        [142.]])]
Epoch 1130/2000 Batch 2/3 Cost: 2.046896
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1130/2000 Batch 3/3 Cost: 0.391007
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1131/2000 Batch 1/3 Cost: 0.727206
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1131/2000 Batch 2/3 Cost: 0.554471
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1131/2000 Batch 3/3 Cost: 2.883456
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1132/2000 Batch 1/3 Cost: 0.342963
1

[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1164/2000 Batch 3/3 Cost: 0.479140
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1165/2000 Batch 1/3 Cost: 1.395547
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch 1165/2000 Batch 2/3 Cost: 0.172921
2
[tensor([[73

        [196.]])]
Epoch 1186/2000 Batch 1/3 Cost: 0.980085
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1186/2000 Batch 2/3 Cost: 1.497990
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1186/2000 Batch 3/3 Cost: 0.408311
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1187/2000 Batch 1/3 Cost: 0.418923
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1187/2000 Batch 2/3 Cost: 1.045869
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1187/2000 Batch 3/3 Cost: 2.527700
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch 1188/2000 Batch 1/3 Cost: 2.001049
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch 1188/2000 Batch 2/3 Cost: 0.551235
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1188/2000 Batch 3/3 Cost: 0.278719
0
[tensor([[ 89

Epoch 1234/2000 Batch 1/3 Cost: 0.634064
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1234/2000 Batch 2/3 Cost: 2.369317
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1234/2000 Batch 3/3 Cost: 0.283379
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1235/2000 Batch 1/3 Cost: 0.649908
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch 1235/2000 Batch 2/3 Cost: 1.051591
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1235/2000 Batch 3/3 Cost: 2.124185
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1236/2000 Batch 1/3 Cost: 1.653258
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1236/2000 Batch 2/3 Cost: 1.083800
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1236/2000 Batch 3/3 Cost: 0.210793
0
[tensor([[89., 91., 90.],
  

        [142.]])]
Epoch 1286/2000 Batch 2/3 Cost: 1.830247
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1286/2000 Batch 3/3 Cost: 0.362851
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1287/2000 Batch 1/3 Cost: 0.065735
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch 1287/2000 Batch 2/3 Cost: 2.052928
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1287/2000 Batch 3/3 Cost: 0.346387
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1288/2000 Batch 1/3 Cost: 0.804853
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch 1288/2000 Batch 2/3 Cost: 0.433231
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1288/2000 Batch 3/3 Cost: 2.149300
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch 1289/2000 Batch 1/3 Cost: 1.911550
1
[ten

Epoch 1330/2000 Batch 3/3 Cost: 0.327995
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1331/2000 Batch 1/3 Cost: 0.433827
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch 1331/2000 Batch 2/3 Cost: 0.919866
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1331/2000 Batch 3/3 Cost: 2.379999
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1332/2000 Batch 1/3 Cost: 0.467464
1
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch 1332/2000 Batch 2/3 Cost: 1.700508
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1332/2000 Batch 3/3 Cost: 0.740336
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1333/2000 Batch 1/3 Cost: 0.923321
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch 1333/2000 Batch 2/3 C

        [152.]])]
Epoch 1370/2000 Batch 1/3 Cost: 0.791267
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1370/2000 Batch 2/3 Cost: 0.404735
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1370/2000 Batch 3/3 Cost: 2.021164
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch 1371/2000 Batch 1/3 Cost: 0.854576
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch 1371/2000 Batch 2/3 Cost: 1.450696
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1371/2000 Batch 3/3 Cost: 0.257223
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1372/2000 Batch 1/3 Cost: 1.159705
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1372/2000 Batch 2/3 Cost: 1.156288
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1372/2000 Batch 3/3 Cost: 0.496511
0
[tensor([[

Epoch 1393/2000 Batch 1/3 Cost: 0.835550
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1393/2000 Batch 2/3 Cost: 0.289152
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1393/2000 Batch 3/3 Cost: 2.079192
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1394/2000 Batch 1/3 Cost: 0.539343
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1394/2000 Batch 2/3 Cost: 1.846778
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1394/2000 Batch 3/3 Cost: 0.256960
0
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]Epoch 1410/2000 Batch 1/3 Cost: 0.442901
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch 1410/2000 Batch 2/3 Cost: 1.612591
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1410/2000 Batch 3/3 Cost: 0.657283
0
[tensor([[ 89.,  91.,  90.],


        [196.]])]
Epoch 1431/2000 Batch 2/3 Cost: 1.369661
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1431/2000 Batch 3/3 Cost: 0.150308
0
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch 1432/2000 Batch 1/3 Cost: 0.546644
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch 1432/2000 Batch 2/3 Cost: 0.865797
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1432/2000 Batch 3/3 Cost: 2.203550
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1433/2000 Batch 1/3 Cost: 0.704826
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1433/2000 Batch 2/3 Cost: 2.044913
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1433/2000 Batch 3/3 Cost: 0.224805
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1434/2000 Batch 1/3 Cost: 1.242147
1
[tensor([[ 89

        [196.]])]
Epoch 1485/2000 Batch 1/3 Cost: 1.303263
1
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1485/2000 Batch 2/3 Cost: 0.912243
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1485/2000 Batch 3/3 Cost: 0.174774
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1486/2000 Batch 1/3 Cost: 1.282060
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1486/2000 Batch 2/3 Cost: 1.025860
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1486/2000 Batch 3/3 Cost: 0.527538
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch 1487/2000 Batch 1/3 Cost: 0.231354
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1487/2000 Batch 2/3 Cost: 0.932030
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1487/2000 Batch 3/3 Cost: 2.036552
0
[tensor([[

[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1523/2000 Batch 3/3 Cost: 0.327907
0
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch 1524/2000 Batch 1/3 Cost: 0.618276
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch 1524/2000 Batch 2/3 Cost: 0.419599
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1524/2000 Batch 3/3 Cost: 2.464731
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1525/2000 Batch 1/3 Cost: 0.512508
1
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1525/2000 Batch 2/3 Cost: 0.753417
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1525/2000 Batch 3/3 Cost: 2.259761
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch 1526/2000 Batch 1/3 Cost: 1.675335
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],

        [180.]])]
Epoch 1565/2000 Batch 2/3 Cost: 0.259048
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1565/2000 Batch 3/3 Cost: 0.278124
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1566/2000 Batch 1/3 Cost: 0.105449
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1566/2000 Batch 2/3 Cost: 1.660672
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1566/2000 Batch 3/3 Cost: 2.005057
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1567/2000 Batch 1/3 Cost: 1.429214
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1567/2000 Batch 2/3 Cost: 1.387990
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1567/2000 Batch 3/3 Cost: 0.122451
0
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch 1568/2000 Batch 1/3 Cost: 0.061590
1
[tensor([[

        [142.]])]
Epoch 1619/2000 Batch 2/3 Cost: 1.194095
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1619/2000 Batch 3/3 Cost: 0.402501
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch 1620/2000 Batch 1/3 Cost: 1.148818
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1620/2000 Batch 2/3 Cost: 1.463576
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1620/2000 Batch 3/3 Cost: 0.136998
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1621/2000 Batch 1/3 Cost: 0.485150
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1621/2000 Batch 2/3 Cost: 1.620918
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1621/2000 Batch 3/3 Cost: 0.233423
0
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch 1622/2000 Batch 1/3 Cost: 1.422684
1
[ten

Epoch 1642/2000 Batch 2/3 Cost: 1.623619
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1642/2000 Batch 3/3 Cost: 0.195635
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1643/2000 Batch 1/3 Cost: 0.899591
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1643/2000 Batch 2/3 Cost: 0.943700
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1643/2000 Batch 3/3 Cost: 0.449429
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1644/2000 Batch 1/3 Cost: 0.264731
1

Epoch 1661/2000 Batch 2/3 Cost: 0.858572
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1661/2000 Batch 3/3 Cost: 1.786319
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1662/2000 Batch 1/3 Cost: 0.462411
1
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1662/2000 Batch 2/3 Cost: 0

        [185.]])]
Epoch 1683/2000 Batch 1/3 Cost: 0.383704
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1683/2000 Batch 2/3 Cost: 1.684060
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1683/2000 Batch 3/3 Cost: 0.258044
0
[tensor([[73., 80., 75.],
        [73., 66., 70.]]), tensor([[152.],
        [142.]])]
Epoch 1684/2000 Batch 1/3 Cost: 1.080380
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1684/2000 Batch 2/3 Cost: 1.322353
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1684/2000 Batch 3/3 Cost: 0.592578
0
[tensor([[89., 91., 90.],
        [73., 80., 75.]]), tensor([[180.],
        [152.]])]
Epoch 1685/2000 Batch 1/3 Cost: 0.266540
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch 1685/2000 Batch 2/3 Cost: 0.918077
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1685/2000 Batch 3/3 Cost: 1.686598
0
[ten

[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1721/2000 Batch 3/3 Cost: 1.911116
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1722/2000 Batch 1/3 Cost: 0.793372
1
[tensor([[73., 66., 70.],
        [89., 91., 90.]]), tensor([[142.],
        [180.]])]
Epoch 1722/2000 Batch 2/3 Cost: 1.183816
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1722/2000 Batch 3/3 Cost: 0.412260
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch 1723/2000 Batch 1/3 Cost: 0.274797
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1723/2000 Batch 2/3 Cost: 0.623801
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1723/2000 Batch 3/3 Cost: 2.685846
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch 1724/2000 Batch 1/3 Cost: 1.386962
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185

        [142.]])]
Epoch 1774/2000 Batch 2/3 Cost: 1.413805
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1774/2000 Batch 3/3 Cost: 0.471105
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch 1775/2000 Batch 1/3 Cost: 1.261026
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1775/2000 Batch 2/3 Cost: 1.207245
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1775/2000 Batch 3/3 Cost: 0.282437
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1776/2000 Batch 1/3 Cost: 0.063376
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1776/2000 Batch 2/3 Cost: 1.777155
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1776/2000 Batch 3/3 Cost: 1.650607
0
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1777/2000 Batch 1/3 Cost: 0.499013
1
[tensor([[

[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1821/2000 Batch 3/3 Cost: 0.450801
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1822/2000 Batch 1/3 Cost: 1.112188
1
[tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch 1822/2000 Batch 2/3 Cost: 0.962746
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1822/2000 Batch 3/3 Cost: 0.454085
0
[tensor([[ 96.,  98., 100.],
        [ 89.,  91.,  90.]]), tensor([[196.],
        [180.]])]
Epoch 1823/2000 Batch 1/3 Cost: 0.718125
1
[tensor([[93., 88., 93.],
        [73., 80., 75.]]), tensor([[185.],
        [152.]])]
Epoch 1823/2000 Batch 2/3 Cost: 0.901918
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1823/2000 Batch 3/3 Cost: 1.238716
0
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1824/2000 Batch 1/3 Cost: 0.321184
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196

[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1860/2000 Batch 3/3 Cost: 0.415047
0
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch 1861/2000 Batch 1/3 Cost: 1.355828
1
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1861/2000 Batch 2/3 Cost: 0.168255
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1861/2000 Batch 3/3 Cost: 0.473832
0
[tensor([[73., 80., 75.],
        [93., 88., 93.]]), tensor([[152.],
        [185.]])]
Epoch 1862/2000 Batch 1/3 Cost: 0.112483
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1862/2000 Batch 2/3 Cost: 1.614467
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1862/2000 Batch 3/3 Cost: 1.602579
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1863/2000 Batch 1/3 Cost: 1.176613
1
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180

[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1883/2000 Batch 3/3 Cost: 1.552750
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1884/2000 Batch 1/3 Cost: 1.285239
1
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1884/2000 Batch 2/3 Cost: 1.098881
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1884/2000 Batch 3/3 Cost: 0.322668
0
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1885/2000 Batch 1/3 Cost: 0.283730
1
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1885/2000 Batch 2/3 Cost: 1.108487
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1885/2000 Batch 3/3 Cost: 1.292234
2
[tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch 1908/2000 Batch 3/3 Cost: 1.987723
0
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1909/2000 

        [180.]])]
Epoch 1929/2000 Batch 2/3 Cost: 0.780956
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1929/2000 Batch 3/3 Cost: 0.655997
0
[tensor([[ 96.,  98., 100.],
        [ 93.,  88.,  93.]]), tensor([[196.],
        [185.]])]
Epoch 1930/2000 Batch 1/3 Cost: 0.774059
1
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch 1930/2000 Batch 2/3 Cost: 0.397131
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1930/2000 Batch 3/3 Cost: 1.259590
0
[tensor([[ 73.,  80.,  75.],
        [ 96.,  98., 100.]]), tensor([[152.],
        [196.]])]
Epoch 1931/2000 Batch 1/3 Cost: 1.292226
1
[tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch 1931/2000 Batch 2/3 Cost: 0.624927
2
[tensor([[89., 91., 90.]]), tensor([[180.]])]
Epoch 1931/2000 Batch 3/3 Cost: 0.479415
0
[tensor([[93., 88., 93.],
        [73., 66., 70.]]), tensor([[185.],
        [142.]])]
Epoch 1932/2000 Batch 1/3 Cost: 0.679173
1
[tensor([[

        [152.]])]
Epoch 1985/2000 Batch 1/3 Cost: 0.734011
1
[tensor([[ 89.,  91.,  90.],
        [ 96.,  98., 100.]]), tensor([[180.],
        [196.]])]
Epoch 1985/2000 Batch 2/3 Cost: 1.526823
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch 1985/2000 Batch 3/3 Cost: 0.386535
0
[tensor([[89., 91., 90.],
        [73., 66., 70.]]), tensor([[180.],
        [142.]])]
Epoch 1986/2000 Batch 1/3 Cost: 0.588443
1
[tensor([[ 93.,  88.,  93.],
        [ 96.,  98., 100.]]), tensor([[185.],
        [196.]])]
Epoch 1986/2000 Batch 2/3 Cost: 0.921681
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch 1986/2000 Batch 3/3 Cost: 0.688726
0
[tensor([[93., 88., 93.],
        [89., 91., 90.]]), tensor([[185.],
        [180.]])]
Epoch 1987/2000 Batch 1/3 Cost: 0.184735
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  80.,  75.]]), tensor([[196.],
        [152.]])]
Epoch 1987/2000 Batch 2/3 Cost: 1.017367
2
[tensor([[73., 66., 70.]]), tensor([[142.]])]
Epoch 1987/2000 Batch 3/3 Cost: 1.272673
0
[ten

In [71]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[150.9178]], grad_fn=<AddmmBackward>)


## 2.7 커스텀 데이터셋 (Custom Dataset)
앞 내용을 잠깐 복습해봅시다. 파이토치에서는 데이터셋을 좀 더 쉽게 다룰 수 있도록 유용한 도구로서 torch.utils.data.Dataset과 torch.utils.data.DataLoader를 제공합니다. 이를 사용하면 미니 배치 학습, 데이터 셔플(shuffle), 병렬 처리까지 간단히 수행할 수 있습니다. 기본적인 사용 방법은 Dataset을 정의하고, 이를 DataLoader에 전달하는 것입니다.

### 2.7.1 커스텀 데이터셋

그런데 torch.utils.data.Dataset을 상속받아 직접 커스텀 데이터셋(Custom Dataset)을 만드는 경우도 있습니다. torch.utils.data.Dataset은 파이토치에서 데이터셋을 제공하는 추상 클래스입니다. Dataset을 상속받아 다음 메소드들을 오버라이드 하여 커스텀 데이터셋을 만들어보겠습니다.

커스텀 데이터셋을 만들 때, 일단 가장 기본적인 뼈대는 아래와 같습니다. 여기서 필요한 기본적인 define은 3개입니다.

In [72]:
class CustomDataset(torch.utils.data.Dataset): 
      def __init__(self):return
    #데이터셋의 전처리를 해주는 부분

      def __len__(self):return
    #데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분

      def __getitem__(self, idx):return
    #데이터셋에서 특정 1개의 샘플을 가져오는 함수

### 2.7.2 커스텀 데이터셋으로 선형 회귀 구현하기

In [76]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [78]:
# Dataset 상속
class CustomDataset(Dataset): 
    def __init__(self):
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]

    # 총 데이터의 개수를 리턴
    def __len__(self): 
        return len(self.x_data)

    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx): 
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [79]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [80]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [81]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
      for batch_idx, samples in enumerate(dataloader):
        # print(batch_idx)
        # print(samples)
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)

        # cost 계산
        cost = F.mse_loss(prediction, y_train)

        # cost로 H(x) 계산
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader),
            cost.item()
            ))

Epoch    0/20 Batch 1/3 Cost: 33429.804688
Epoch    0/20 Batch 2/3 Cost: 7550.757812
Epoch    0/20 Batch 3/3 Cost: 1854.829712
Epoch    1/20 Batch 1/3 Cost: 791.243835
Epoch    1/20 Batch 2/3 Cost: 542.468018
Epoch    1/20 Batch 3/3 Cost: 163.374786
Epoch    2/20 Batch 1/3 Cost: 30.893063
Epoch    2/20 Batch 2/3 Cost: 1.411385
Epoch    2/20 Batch 3/3 Cost: 8.766248
Epoch    3/20 Batch 1/3 Cost: 0.068443
Epoch    3/20 Batch 2/3 Cost: 2.434725
Epoch    3/20 Batch 3/3 Cost: 2.706993
Epoch    4/20 Batch 1/3 Cost: 1.682744
Epoch    4/20 Batch 2/3 Cost: 1.789318
Epoch    4/20 Batch 3/3 Cost: 1.630828
Epoch    5/20 Batch 1/3 Cost: 1.888370
Epoch    5/20 Batch 2/3 Cost: 1.338277
Epoch    5/20 Batch 3/3 Cost: 1.054307
Epoch    6/20 Batch 1/3 Cost: 0.637130
Epoch    6/20 Batch 2/3 Cost: 2.147245
Epoch    6/20 Batch 3/3 Cost: 2.215708
Epoch    7/20 Batch 1/3 Cost: 1.015862
Epoch    7/20 Batch 2/3 Cost: 1.770355
Epoch    7/20 Batch 3/3 Cost: 1.707031
Epoch    8/20 Batch 1/3 Cost: 1.399016
Epoch   

In [82]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[152.3924]], grad_fn=<AddmmBackward>)


### 혼자 적어본거..
- 다중공선성 : 회귀분석에서의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아 부정적 영향을 미치는 현상


- GD : 모든 데이터셋에 대하여 검토 -> 계산량이 너무 많아서 속도 느림
- SGD(확률적 경사하강법) : 확률적으로 시행. 
- MSGD(Mini-batch(stochastic) Gradient Descent) : 두 개씩 짝지어서..