# 선형회귀
## 훈련 데이터와 테스트 데이터셋

![img](./img/img33.PNG)

## 문제
어떤 학생이 1시간 공부를 했더니 2점, 다른 학생이 2시간 공부를 했더니 4점, 또 다른 학생이 3시간을 공부했더니 6점을 맞았음
그렇다면, 내가 4시간을 공부한다면 몇 점을 맞을 수 있을까?
![img](./img/img34.PNG)

## 가설 수립(Hypothesis)
* 머신 러닝에서 식을 세울때 이 식을 가설(Hypothesis)라고 함
* 보통 머신 러닝에서 가설은 임의로 추측해서 세워보는 식일수도 있고, 경험적으로 알고 있는 식일 수도 있움
* 맞는 가설이 아니라고 판단되면 계속 수정해나가게 되는 식이기도 합니다.

* 선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일로 선형 회귀의 가설(직선의 방정식)은 아래와 같움

$$y=Wx+b$$
가설의 H를 따서
$$H(x)=Wx+b$$
이때, x와 곱해지는 W를 가중치라고하며 b를 편향이라고 함

## 파이토치로 선형회귀 구현하기

In [6]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [8]:
# 현재 실습하고 있는 파이썬 코드를 재실행해도 다음에도 같은 결과가 나오도록 시드를 고정
torch.manual_seed(1)

<torch._C.Generator at 0x7fccb809de90>

In [9]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [10]:
print(x_train)
print(x_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [11]:
print(y_train)
print(y_train.shape)

tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


In [12]:
# 가중치 W를 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시함.
W = torch.zeros(1, requires_grad=True) 
# 가중치 W를 출력
print(W) 

tensor([0.], requires_grad=True)


In [13]:
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


In [14]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [15]:
# 앞서 배운 torch.mean으로 평균을 구한다.
cost = torch.mean((hypothesis - y_train) ** 2) 
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


In [16]:
optimizer = optim.SGD([W, b], lr=0.01)

In [17]:
# gradient를 0으로 초기화
optimizer.zero_grad() 
# 비용 함수를 미분하여 gradient 계산
cost.backward() 
# W와 b를 업데이트
optimizer.step() 

In [None]:
# 데이터
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=0.01)

nb_epochs = 1999 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

## zero_grad()가 필요한 이유
* 파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있음

In [20]:
import torch
w = torch.tensor(2.0, requires_grad=True)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

  z = 2*w

  z.backward()
  print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0


# 자동 미분
* 경사 하강법은 비용 함수를 미분하여 이 함수의 기울기(gradient)를 구해서 비용이 최소화 되는 방향을 찾아내는 알고리즘

* 비용 함수를 손실 함수, 오차 함수라고도 부르므로 비용이 최소화 되는 방향이라는 표현 대신 손실이 최소화 되는 방향 또는 오차를 최소화 되는 방향이라고 말할 수 있음
* 모델이 복잡해질수록 경사 하강법을 넘파이 등으로 직접 코딩하는 것은 까다로움
* 파이토치에서는 이런 수고를 하지 않도록 자동 미분(Autograd)을 지원
* 자동 미분을 사용하면 미분 계산을 자동화하여 경사 하강법을 손쉽게 사용할 수 있게 해줌
![img](./img/img35.png)

$2w^2+5$라는 식을 세워보고, $w$에 대해 미분   $z=4w+5$

In [22]:
import torch
w = torch.tensor(2.0, requires_grad=True)
y = w**2
z = 2*y + 5
z.backward()
print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 8.0


# 다중 선형 회귀
![img](./img/img37.PNG)

$$H(x) = w_1x_1+w_2x_2+w_3x_3+b$$
![img](./img/img38.png)

In [23]:
torch.manual_seed(1)
# 훈련 데이터
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [24]:
# 가중치 w와 편향 b 초기화
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [25]:
# optimizer 설정
optimizer = optim.SGD([w1, w2, w3, b], lr=1e-5)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x1_train * w1 + x2_train * w2 + x3_train * w3 + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()
        ))

Epoch    0/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch  100/1000 w1: 0.674 w2: 0.661 w3: 0.676 b: 0.008 Cost: 1.563628
Epoch  200/1000 w1: 0.679 w2: 0.655 w3: 0.677 b: 0.008 Cost: 1.497595
Epoch  300/1000 w1: 0.684 w2: 0.649 w3: 0.677 b: 0.008 Cost: 1.435044
Epoch  400/1000 w1: 0.689 w2: 0.643 w3: 0.678 b: 0.008 Cost: 1.375726
Epoch  500/1000 w1: 0.694 w2: 0.638 w3: 0.678 b: 0.009 Cost: 1.319507
Epoch  600/1000 w1: 0.699 w2: 0.633 w3: 0.679 b: 0.009 Cost: 1.266222
Epoch  700/1000 w1: 0.704 w2: 0.627 w3: 0.679 b: 0.009 Cost: 1.215703
Epoch  800/1000 w1: 0.709 w2: 0.622 w3: 0.679 b: 0.009 Cost: 1.167810
Epoch  900/1000 w1: 0.713 w2: 0.617 w3: 0.680 b: 0.009 Cost: 1.122429
Epoch 1000/1000 w1: 0.718 w2: 0.613 w3: 0.680 b: 0.009 Cost: 1.079390


$\left(
    \begin{array}{c}
      x_{11}\ x_{12}\ x_{13}\ \\
      x_{21}\ x_{22}\ x_{23}\ \\
      x_{31}\ x_{32}\ x_{33}\ \\
      x_{41}\ x_{42}\ x_{43}\ \\
      x_{51}\ x_{52}\ x_{53}\ \\
    \end{array}
  \right)
\left(
    \begin{array}{c}
      w_{1} \\
      w_{2} \\
      w_{3} \\
    \end{array}
  \right)
+
\left(
    \begin{array}{c}
      b \\
      b \\
      b \\
      b \\
      b \\
    \end{array}
  \right)
 \ =
\left(
    \begin{array}{c}
      x_{11}w_{1}+ x_{12}w_{2}+ x_{13}w_{3} + b\ \\
      x_{21}w_{1}+ x_{22}w_{2}+ x_{23}w_{3} + b\ \\
      x_{31}w_{1}+ x_{32}w_{2}+ x_{33}w_{3} + b\ \\
      x_{41}w_{1}+ x_{42}w_{2}+ x_{43}w_{3} + b\ \\
      x_{51}w_{1}+ x_{52}w_{2}+ x_{53}w_{3} + b\ \\
    \end{array}
  \right)$
  
  $$H(X) = XW + B$$

In [27]:
#행렬연산을 고려하여 구현
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  80], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    # 편향 b는 브로드 캐스팅되어 각 샘플에 더해집니다.
    hypothesis = x_train.matmul(W) + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(), cost.item()
    ))

Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([66.7178, 80.1701, 76.1025, 86.0194, 61.1565]) Cost: 9537.694336
Epoch    2/20 hypothesis: tensor([104.5421, 125.6208, 119.2478, 134.7862,  95.8280]) Cost: 3069.590088
Epoch    3/20 hypothesis: tensor([125.9858, 151.3882, 143.7087, 162.4333, 115.4844]) Cost: 990.670288
Epoch    4/20 hypothesis: tensor([138.1429, 165.9963, 157.5768, 178.1071, 126.6283]) Cost: 322.481873
Epoch    5/20 hypothesis: tensor([145.0350, 174.2780, 165.4395, 186.9928, 132.9461]) Cost: 107.717064
Epoch    6/20 hypothesis: tensor([148.9423, 178.9730, 169.8976, 192.0301, 136.5279]) Cost: 38.687496
Epoch    7/20 hypothesis: tensor([151.1574, 181.6346, 172.4254, 194.8856, 138.5585]) Cost: 16.499043
Epoch    8/20 hypothesis: tensor([152.4131, 183.1435, 173.8590, 196.5043, 139.7097]) Cost: 9.365656
Epoch    9/20 hypothesis: tensor([153.1250, 183.9988, 174.6723, 197.4217, 140.3625]) Cost: 7.071114
Epoch   10/20 hyp

## nn.Module로 다중 선형 회귀 구현

In [28]:
torch.manual_seed(1)

<torch._C.Generator at 0x7fccb809de90>

In [29]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [30]:
# 모델을 선언 및 초기화. 다중 선형 회귀이므로 input_dim=3, output_dim=1.
model = nn.Linear(3,1)

In [31]:
print(list(model.parameters()))


[Parameter containing:
tensor([[ 0.2975, -0.2548, -0.1119]], requires_grad=True), Parameter containing:
tensor([0.2710], requires_grad=True)]


In [32]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 


In [33]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 31667.597656
Epoch  100/2000 Cost: 0.225993
Epoch  200/2000 Cost: 0.223911
Epoch  300/2000 Cost: 0.221941
Epoch  400/2000 Cost: 0.220059
Epoch  500/2000 Cost: 0.218271
Epoch  600/2000 Cost: 0.216575
Epoch  700/2000 Cost: 0.214950
Epoch  800/2000 Cost: 0.213413
Epoch  900/2000 Cost: 0.211952
Epoch 1000/2000 Cost: 0.210560
Epoch 1100/2000 Cost: 0.209232
Epoch 1200/2000 Cost: 0.207967
Epoch 1300/2000 Cost: 0.206761
Epoch 1400/2000 Cost: 0.205619
Epoch 1500/2000 Cost: 0.204522
Epoch 1600/2000 Cost: 0.203484
Epoch 1700/2000 Cost: 0.202485
Epoch 1800/2000 Cost: 0.201542
Epoch 1900/2000 Cost: 0.200635
Epoch 2000/2000 Cost: 0.199769


In [34]:
print(list(model.parameters()))


[Parameter containing:
tensor([[0.9778, 0.4539, 0.5768]], requires_grad=True), Parameter containing:
tensor([0.2802], requires_grad=True)]


## 클래스로 다중 선형 회귀 구현하기

In [35]:
# 데이터
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [36]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [37]:
model = MultivariateLinearRegressionModel()


In [38]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 


In [39]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

Epoch    0/2000 Cost: 39633.414062
Epoch  100/2000 Cost: 11.480746
Epoch  200/2000 Cost: 10.894592
Epoch  300/2000 Cost: 10.339335
Epoch  400/2000 Cost: 9.813351
Epoch  500/2000 Cost: 9.315010
Epoch  600/2000 Cost: 8.842962
Epoch  700/2000 Cost: 8.395753
Epoch  800/2000 Cost: 7.972028
Epoch  900/2000 Cost: 7.570637
Epoch 1000/2000 Cost: 7.190376
Epoch 1100/2000 Cost: 6.830142
Epoch 1200/2000 Cost: 6.488811
Epoch 1300/2000 Cost: 6.165472
Epoch 1400/2000 Cost: 5.859105
Epoch 1500/2000 Cost: 5.568909
Epoch 1600/2000 Cost: 5.293931
Epoch 1700/2000 Cost: 5.033408
Epoch 1800/2000 Cost: 4.786575
Epoch 1900/2000 Cost: 4.552718
Epoch 2000/2000 Cost: 4.331151


## 미니배치와 데이터 로드

* 만약, 데이터가 수십만개 이상이라면 전체 데이터에 대해서 경사 하강법을 수행하는 것은 매우 느릴 뿐만 아니라 많은 계산량이 필요함
* 정말 어쩌면 메모리의 한계로 계산이 불가능한 경우도 있을 수 있음

* 그렇기 때문에 전체 데이터를 더 작은 단위로 나누어서 해당 단위로 학습하는 개념이 나오게 되었음
* 이 단위를 미니 배치(Mini Batch)라고 함

![img](./img/img39.PNG)

## 이터레이션, 배치크기, 에포크
![img](./img/img40.PNG)

In [41]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [42]:
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [43]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [44]:
dataset = TensorDataset(x_train, y_train)


In [45]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)


In [46]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [47]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 21981.667969
Epoch    0/20 Batch 2/3 Cost: 9587.075195
Epoch    0/20 Batch 3/3 Cost: 3180.415527
Epoch    1/20 Batch 1/3 Cost: 656.754761
Epoch    1/20 Batch 2/3 Cost: 208.265381
Epoch    1/20 Batch 3/3 Cost: 60.448395
Epoch    2/20 Batch 1/3 Cost: 20.464521
Epoch    2/20 Batch 2/3 Cost: 4.721592
Epoch    2/20 Batch 3/3 Cost: 7.182361
Epoch    3/20 Batch 1/3 Cost: 1.647293
Epoch    3/20 Batch 2/3 Cost: 0.378707
Epoch    3/20 Batch 3/3 Cost: 1.522778
Epoch    4/20 Batch 1/3 Cost: 1.254019
Epoch    4/20 Batch 2/3 Cost: 2.134122
Epoch    4/20 Batch 3/3 Cost: 0.052373
Epoch    5/20 Batch 1/3 Cost: 0.230407
Epoch    5/20 Batch 2/3 Cost: 1.461842
Epoch    5/20 Batch 3/3 Cost: 2.749334
Epoch    6/20 Batch 1/3 Cost: 1.041582
Epoch    6/20 Batch 2/3 Cost: 1.587178
Epoch    6/20 Batch 3/3 Cost: 1.168184
Epoch    7/20 Batch 1/3 Cost: 0.446067
Epoch    7/20 Batch 2/3 Cost: 2.133462
Epoch    7/20 Batch 3/3 Cost: 0.879393
Epoch    8/20 Batch 1/3 Cost: 0.129102
Epoch    

In [48]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.9222]], grad_fn=<AddmmBackward>)


## 커스텀 데이터셋으로 선형 회귀 구현하기

In [57]:
class CustomDataset(torch.utils.data.Dataset): 
    def __init__(self):
    #데이터셋의 전처리를 해주는 부분
    
    def __len__(self):
    #데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분
    
    def __getitem__(self, idx): 
    #데이터셋에서 특정 1개의 샘플을 가져오는 함수

IndentationError: expected an indented block (<ipython-input-57-2b1fde135706>, line 5)

In [50]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [53]:
# Dataset 상속
class CustomDataset(Dataset): 
    def __init__(self):
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]

    # 총 데이터의 개수를 리턴
    def __len__(self): 
        return len(self.x_data)

    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx): 
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [54]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [55]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [58]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 29319.011719
Epoch    0/20 Batch 2/3 Cost: 7682.496094
Epoch    0/20 Batch 3/3 Cost: 3114.664795
Epoch    1/20 Batch 1/3 Cost: 809.167480
Epoch    1/20 Batch 2/3 Cost: 300.709198
Epoch    1/20 Batch 3/3 Cost: 37.518803
Epoch    2/20 Batch 1/3 Cost: 37.871727
Epoch    2/20 Batch 2/3 Cost: 3.583126
Epoch    2/20 Batch 3/3 Cost: 15.499701
Epoch    3/20 Batch 1/3 Cost: 3.772459
Epoch    3/20 Batch 2/3 Cost: 2.178463
Epoch    3/20 Batch 3/3 Cost: 0.037612
Epoch    4/20 Batch 1/3 Cost: 0.297060
Epoch    4/20 Batch 2/3 Cost: 2.369325
Epoch    4/20 Batch 3/3 Cost: 2.928143
Epoch    5/20 Batch 1/3 Cost: 1.220536
Epoch    5/20 Batch 2/3 Cost: 1.797108
Epoch    5/20 Batch 3/3 Cost: 1.805787
Epoch    6/20 Batch 1/3 Cost: 0.409901
Epoch    6/20 Batch 2/3 Cost: 2.198052
Epoch    6/20 Batch 3/3 Cost: 2.823555
Epoch    7/20 Batch 1/3 Cost: 1.618690
Epoch    7/20 Batch 2/3 Cost: 1.817694
Epoch    7/20 Batch 3/3 Cost: 2.327748
Epoch    8/20 Batch 1/3 Cost: 2.224417
Epoch   

In [59]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[152.6855]], grad_fn=<AddmmBackward>)


# 파이토치 로지스틱 회귀 구현
$$ H(x) = sigmoid(Wx + b) = \frac{1}{1 + e^{-(Wx + b)}} = σ(Wx + b)$$

$$\text{cost}\left( H(x), y \right) = -[ylogH(x) + (1-y)log(1-H(x))]$$

In [60]:
x_data = [[1, 2], [2, 3], [3, 1], [4, 3], [5, 3], [6, 2]]
y_data = [[0], [0], [0], [1], [1], [1]]
x_train = torch.FloatTensor(x_data)
y_train = torch.FloatTensor(y_data)

In [61]:
print(x_train.shape)
print(y_train.shape)

torch.Size([6, 2])
torch.Size([6, 1])


In [62]:
W = torch.zeros((2, 1), requires_grad=True) # 크기는 2 x 1
b = torch.zeros(1, requires_grad=True)

In [63]:
hypothesis = 1 / (1 + torch.exp(-(x_train.matmul(W) + b)))

In [64]:
print(hypothesis) # 예측값인 H(x) 출력


tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<MulBackward0>)


In [65]:
hypothesis = torch.sigmoid(x_train.matmul(W) + b)


In [66]:
print(hypothesis)


tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<SigmoidBackward>)


In [67]:
print(hypothesis)
print(y_train)

tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<SigmoidBackward>)
tensor([[0.],
        [0.],
        [0.],
        [1.],
        [1.],
        [1.]])


In [70]:
-(y_train[0] * torch.log(hypothesis[0]) + 
  (1 - y_train[0]) * torch.log(1 - hypothesis[0]))

tensor([0.6931], grad_fn=<NegBackward>)

In [69]:
losses = -(y_train * torch.log(hypothesis) + 
           (1 - y_train) * torch.log(1 - hypothesis))
print(losses)

tensor([[0.6931],
        [0.6931],
        [0.6931],
        [0.6931],
        [0.6931],
        [0.6931]], grad_fn=<NegBackward>)


In [71]:
cost = losses.mean()
print(cost)

tensor(0.6931, grad_fn=<MeanBackward0>)


In [72]:
F.binary_cross_entropy(hypothesis, y_train)


tensor(0.6931, grad_fn=<BinaryCrossEntropyBackward>)

In [73]:
x_data = [[1, 2], [2, 3], [3, 1], [4, 3], [5, 3], [6, 2]]
y_data = [[0], [0], [0], [1], [1], [1]]
x_train = torch.FloatTensor(x_data)
y_train = torch.FloatTensor(y_data)
# 모델 초기화
W = torch.zeros((2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# optimizer 설정
optimizer = optim.SGD([W, b], lr=1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # Cost 계산
    hypothesis = torch.sigmoid(x_train.matmul(W) + b)
    cost = -(y_train * torch.log(hypothesis) + 
             (1 - y_train) * torch.log(1 - hypothesis)).mean()

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, cost.item()
        ))

Epoch    0/1000 Cost: 0.693147
Epoch  100/1000 Cost: 0.134722
Epoch  200/1000 Cost: 0.080643
Epoch  300/1000 Cost: 0.057900
Epoch  400/1000 Cost: 0.045300
Epoch  500/1000 Cost: 0.037261
Epoch  600/1000 Cost: 0.031673
Epoch  700/1000 Cost: 0.027556
Epoch  800/1000 Cost: 0.024394
Epoch  900/1000 Cost: 0.021888
Epoch 1000/1000 Cost: 0.019852


In [74]:
hypothesis = torch.sigmoid(x_train.matmul(W) + b)
print(hypothesis)

tensor([[2.7648e-04],
        [3.1608e-02],
        [3.8977e-02],
        [9.5622e-01],
        [9.9823e-01],
        [9.9969e-01]], grad_fn=<SigmoidBackward>)


In [75]:
prediction = hypothesis >= torch.FloatTensor([0.5])
print(prediction)

tensor([[False],
        [False],
        [False],
        [ True],
        [ True],
        [ True]])


In [76]:
print(W)
print(b)

tensor([[3.2530],
        [1.5179]], requires_grad=True)
tensor([-14.4819], requires_grad=True)


# 소프트맥스 회귀



## 원핫인코딩
* 원-핫 인코딩은 선택해야 하는 선택지의 개수만큼의 차원을 가지면서, 각 선택지의 인덱스에 해당하는 원소에는 1, 나머지 원소는 0의 값을 가지도록 하는 표현 방법
* 강아지, 고양이, 냉장고라는 3개의 선택지

강아지 = [1, 0, 0]

고양이 = [0, 1, 0]

냉장고 = [0, 0, 1]

총 선택지는 3개였으므로 위 벡터들은 전부 3차원의 벡터를 가지고, 해당 선택지의 인덱스에만 1의 값을 가지고, 나머지 원소들은 0의 값을 가짐 이와 같은 벡터 표현을 __원핫 벡터__라고 함

$$Loss\ function = \frac{1}{n} \sum_i^{n} \left(y_{i} - \hat{y_{i}}\right)^2$$\
강아지 1
고양이 2
냉장고 3일때,

예측값이 고양이, 실제 값이 강아지 일때, $(2-1)^2=1$

예측값이 냉장고, 실제 값이 강아지 일때, $(3-1)^2=4$

예측값이 고양이, 실제 값이 강아지 일때, $((1,0,0)-(0,1,0))^{2} = (1-0)^{2} + (0-1)^{2} + (0-0)^{2} = 2$

예측값이 냉장고, 실제 값이 강아지 일때, $((1,0,0)-(0,0,1))^{2} = (1-0)^{2} + (0-0)^{2} + (0-1)^{2} = 2$

## 소프트맥스 회귀

* 로지스틱 회귀

![img](./img/img41.PNG)

* 소프트맥스 회귀
![img](./img/img42.PNG)

## 소프트맥스 함수

$$p_{i}=\frac{e^{z_{i}}}{\sum_{j=1}^{k} e^{z_{j}}}\ \ for\ i=1, 2, ... k$$

$$softmax(z)=[\frac{e^{z_{1}}}{\sum_{j=1}^{3} e^{z_{j}}}\ \frac{e^{z_{2}}}{\sum_{j=1}^{3} e^{z_{j}}}\ \frac{e^{z_{3}}}{\sum_{j=1}^{3} e^{z_{j}}}] = [p_{1}, p_{2}, p_{3}] = [p_{virginica}, p_{setosa}, p_{versicolor}]$$

## 크로스엔트로피 함수

$$cost(W) = -\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{k}y_{j}^{(i)}\ log(p_{j}^{(i)})$$

## 소프트맥스 비용 함수 구현

In [78]:
import torch
import torch.nn.functional as F
z = torch.FloatTensor([1, 2, 3])
hypothesis = F.softmax(z, dim=0)
print(hypothesis)

tensor([0.0900, 0.2447, 0.6652])


In [79]:
hypothesis.sum()

tensor(1.)

In [88]:
z = torch.rand(3, 5, requires_grad=True)
z

tensor([[0.9269, 0.3060, 0.8012, 0.5149, 0.4611],
        [0.4840, 0.5850, 0.7357, 0.5802, 0.6525],
        [0.0502, 0.8643, 0.9359, 0.9133, 0.8696]], requires_grad=True)

In [81]:
hypothesis = F.softmax(z, dim=1)
print(hypothesis)

tensor([[0.1569, 0.3429, 0.1406, 0.1467, 0.2129],
        [0.1658, 0.2598, 0.1792, 0.1718, 0.2235],
        [0.2239, 0.1097, 0.1972, 0.2150, 0.2543]], grad_fn=<SoftmaxBackward>)


In [82]:
y = torch.randint(5, (3,)).long()
print(y)

tensor([1, 2, 4])


In [83]:
# 모든 원소가 0의 값을 가진 3 × 5 텐서 생성
y_one_hot = torch.zeros_like(hypothesis) 
y_one_hot.scatter_(1, y.unsqueeze(1), 1)

tensor([[0., 1., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.]])

In [84]:
print(y.unsqueeze(1))


tensor([[1],
        [2],
        [4]])


In [85]:
print(y_one_hot)


tensor([[0., 1., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.]])


$$cost(W) = \frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{k}y_{j}^{(i)}\ × (-log(p_{j}^{(i)}))$$

In [87]:
cost = (y_one_hot * -torch.log(hypothesis)).sum(dim=1).mean()
print(cost)

tensor(1.3863, grad_fn=<MeanBackward0>)


## 파이토치로 소프트맥스 비용 함수 구현
### 1. F.softmax() + torch.log() = F.log_softmax()

In [93]:
torch.log(F.softmax(z, dim=1))

tensor([[-1.3109, -1.9317, -1.4366, -1.7228, -1.7767],
        [-1.7364, -1.6354, -1.4847, -1.6402, -1.5679],
        [-2.3342, -1.5202, -1.4485, -1.4711, -1.5148]], grad_fn=<LogBackward>)

In [95]:
F.log_softmax(z, dim=1)

tensor([[-1.3109, -1.9317, -1.4366, -1.7228, -1.7767],
        [-1.7364, -1.6354, -1.4847, -1.6402, -1.5679],
        [-2.3342, -1.5202, -1.4485, -1.4711, -1.5148]],
       grad_fn=<LogSoftmaxBackward>)

### 2. F.log_softmax() + F.nll_loss() = F.cross_entropy()

In [96]:
(y_one_hot * -torch.log(F.softmax(z, dim=1))).sum(dim=1).mean()

tensor(1.6437, grad_fn=<MeanBackward0>)

In [99]:
(y_one_hot * - F.log_softmax(z, dim=1)).sum(dim=1).mean()

tensor(1.6437, grad_fn=<MeanBackward0>)

In [101]:
#원핫벡터를 넣을 필요가 없음
F.nll_loss(F.log_softmax(z, dim=1), y)

tensor(1.6437, grad_fn=<NllLossBackward>)

In [102]:
F.cross_entropy(z, y)

tensor(1.6437, grad_fn=<NllLossBackward>)

## 소프트맥스 회귀 구현

In [116]:
x_train = [[1, 2, 1, 1],
           [2, 1, 3, 2],
           [3, 1, 3, 4],
           [4, 1, 5, 5],
           [1, 7, 5, 5],
           [1, 2, 5, 6],
           [1, 6, 6, 6],
           [1, 7, 7, 7]]
y_train = [2, 2, 2, 1, 1, 1, 0, 0]
x_train = torch.FloatTensor(x_train)
y_train = torch.LongTensor(y_train)

In [114]:
# 모델을 선언 및 초기화. 4개의 특성을 가지고 3개의 클래스로 분류. input_dim=4, output_dim=3.
model = nn.Linear(4, 3)

In [115]:
# optimizer 설정
optimizer = optim.SGD(model.parameters(), lr=0.1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.cross_entropy(prediction, y_train)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 20번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, cost.item()
        ))

Epoch    0/1000 Cost: 2.070781
Epoch  100/1000 Cost: 0.671531
Epoch  200/1000 Cost: 0.577963
Epoch  300/1000 Cost: 0.521098
Epoch  400/1000 Cost: 0.475592
Epoch  500/1000 Cost: 0.435517
Epoch  600/1000 Cost: 0.398375
Epoch  700/1000 Cost: 0.362622
Epoch  800/1000 Cost: 0.327062
Epoch  900/1000 Cost: 0.290850
Epoch 1000/1000 Cost: 0.255615


## 소프트맥스 회귀 클래스로 구현

In [111]:
class SoftmaxClassifierModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(4, 3) # Output이 3!

    def forward(self, x):
        return self.linear(x)

In [112]:
model = SoftmaxClassifierModel()

In [113]:
# optimizer 설정
optimizer = optim.SGD(model.parameters(), lr=0.1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.cross_entropy(prediction, y_train)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 20번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, cost.item()
        ))

Epoch    0/1000 Cost: 2.265973
Epoch  100/1000 Cost: 0.655352
Epoch  200/1000 Cost: 0.565729
Epoch  300/1000 Cost: 0.509774
Epoch  400/1000 Cost: 0.464932
Epoch  500/1000 Cost: 0.425311
Epoch  600/1000 Cost: 0.388369
Epoch  700/1000 Cost: 0.352537
Epoch  800/1000 Cost: 0.316633
Epoch  900/1000 Cost: 0.280066
Epoch 1000/1000 Cost: 0.247460
