In [1]:
import torch
import torch.optim as optim

# Multivariate Linear Regression



여러 개의 정보로부터 하나의 추측값을 계산하는 것


## Simple Linear Regression
### H(x) = Wx + b
#### # of hours studied (1)  ->  ■  ->  Test score (2)
'한 시간을 공부하면 2점이라는 시험 성적을 기대할 수 있을 것이다.' 라고 예측할 수 있는 모델

## Multivariate Linear Regression
다양한 정보를 가지고 예측을 할 수 있음

복수의 정보다 존재할 때어떻게 하나의 추측값을 계산할 수 있는가?

### H(x) = Wx + b
#### Quiz Scores (73, 80, 75)  ->  ■  -> Final Score Prediction (152)
'쪽지시험 별 성적이 73, 80, 75인 학생이 기말고사 점수 몇점이 나올 것인가?'를 예측하는 모델

## Data

In [8]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

다섯 명의 학생이 세 번의 쪽지시험에서 받은 점수들과 기말고사 점수들을 가지고, 쪽지시험 점수를 받았을 때 기말고사 점수를 예측하자

## Hypothesis Function 인공 신경망의 구조

### H(x) = Wx + b
x라는 vector와 W라는 matrix의 곱
### H(x) = ω₁x₁ + ω₂x₂ + ω₃x₃ + b
입력 변수가 3개면 weight도 3개 => W와 x 모두 3 x 1 벡터로 표현

In [7]:
x1_train = torch.FloatTensor([[73, 80, 75], [93, 88, 93], [89, 91, 90], [96, 98, 100], [73, 66, 70]])
y1_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

x2_train = torch.FloatTensor([[73, 80, 75], [93, 88, 93], [89, 91, 90], [96, 98, 100], [73, 66, 70]])
y2_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

x3_train = torch.FloatTensor([[73, 80, 75], [93, 88, 93], [89, 91, 90], [96, 98, 100], [73, 66, 70]])
y3_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

W1 = torch.zeros(1, requires_grad = True)
W2 = torch.zeros(1, requires_grad = True)
W3 = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True) # W와 b 초기화

In [4]:
# H(x) 계산
hypothesis = x1_train * W1 + x2_train * W2 + x3_train * W3 + b

## Hypothesis Function : Naive
#### - 단순한 hypothesis 정의
#### - 하지만 x가 길이 1000의 vector라면? => hypothesis 계산식이 너무 길어짐!

## Hypothesis Function : Matrix
### - matmul()로 한번에 계산 (Matmul : Matrix multipication)
####   더 간결
####   x의 길이가 바뀌어도 코드를 바꿀 필요X
####   속도가 더 빠르다!

In [5]:
W = torch.zeros(1, requires_grad = True)
b = torch.zeros(1, requires_grad = True) # W와 b 초기화

In [6]:
# H(x)로 계산
hypothesis = x_train.matmul(W) + b # or .mm or @

RuntimeError: size mismatch, get 5, 5x3,1

## Cost function : MSE
### 기존 Simple Linear Regression 과 동일한 공식
### cost(W) = mean(H(x^(i) - y^(i)))^2 // mean 평균
x^(i) : Prediction, y^(i) : Target

In [None]:
cost = torch.mean((hypothesis - y_train) ** 2)

## Gradient Descent with "torch.optim"
### ∇W = (d cost/d W) = 2mean(Wx^(i) - y^(i))x^(i)
### W := W - α∇W

In [None]:
# optimizer 설정
optimizer = optim.SGD([W, b], lr = 1e - 5)

# optimizer 사용법
optimizer.zero_grad()
cost.backward()
optimizer.step()

cost를 구할 떄마다 optimizer의 gradient에 저장한 후 gradient descent를 시행

## 

## Full Code with "torch.optim"
- 점점 작아지는 Cost
- 점점 y에 가까워지는 H(x)
- Learning rate 에 따라 발산할수도 있음

In [9]:
# 1. 데이터 정의
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])

y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])


# 2. 모델 초기화 (모델 정의)
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# 3. optimizer 설정 (optimizer 정의)
optimizer = optim.SGD([W, b], lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # 4. H(x) 계산
    hypothesis = x_train.matmul(W) + b # or .mm or @

    # 5. cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)
    
    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(),
        cost.item()
    ))

Epoch    0/20 hypothesis: tensor([0., 0., 0., 0., 0.]) Cost: 29661.800781
Epoch    1/20 hypothesis: tensor([67.2578, 80.8397, 79.6523, 86.7394, 61.6605]) Cost: 9298.520508
Epoch    2/20 hypothesis: tensor([104.9128, 126.0990, 124.2466, 135.3015,  96.1821]) Cost: 2915.712402
Epoch    3/20 hypothesis: tensor([125.9942, 151.4381, 149.2133, 162.4896, 115.5097]) Cost: 915.040527
Epoch    4/20 hypothesis: tensor([137.7968, 165.6247, 163.1911, 177.7112, 126.3307]) Cost: 287.936005
Epoch    5/20 hypothesis: tensor([144.4044, 173.5674, 171.0168, 186.2332, 132.3891]) Cost: 91.371010
Epoch    6/20 hypothesis: tensor([148.1035, 178.0144, 175.3980, 191.0042, 135.7812]) Cost: 29.758139
Epoch    7/20 hypothesis: tensor([150.1744, 180.5042, 177.8508, 193.6753, 137.6805]) Cost: 10.445305
Epoch    8/20 hypothesis: tensor([151.3336, 181.8983, 179.2240, 195.1707, 138.7440]) Cost: 4.391228
Epoch    9/20 hypothesis: tensor([151.9824, 182.6789, 179.9928, 196.0079, 139.3396]) Cost: 2.493135
Epoch   10/20 hypo

데이터를 정의하는 부분과 W를 정의하는 부분만 달라짐

학습한 부분이 Simple Linear Regression 과 동일 => PyTorch의 확장성

## 

## nn.Module

In [None]:
# 모델 초기화
W = torch.zeros((3, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# H(x) 계산
hypothesis = x_train.matmul(W) + b # or .mm or @

- nn.Module 을 상속해서 모델 생성
- nn.Linear(3, 1) =>    입력 차원 : 3,    출력 차원 : 1
- Hypothesis 계산은 forward() 에서
- Gradient 계산은 PyTorch가 알아서 해줌 backward()

In [None]:
import torch.nn as nn

class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1)
    
    def forward(self, x):
        return self.linear(x)

hypothesis = model(x_train)

### 

## F.mse_loss
- torch.nn.functional 에서 제공하는 loss function 사용
- 쉽게 다른 loss 와 교체 가능 (l1_loss, smooth_l1_loss 등....)

PyTorch의 cost function을 사용하면 후에 다음 cost function을 바꿀 때 좀 더 편리하고, cost function을 계산하면서 생기는 버그가 없어 디버깅할 때 편리하다.

In [None]:
#cost 계산
cost = torch.mean((hypothesis - y_train) ** 2)

In [None]:
import torch.nn.funtional as F

#cost 계산
cost = F.mse_loss(prediction, y_train)

## 

## Full Code with "torch.optim"

In [None]:
# 1. 데이터 정의
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# 2. 모델 초기화 (모델 정의)
##W = torch.zeros((3, 1), requires_grad=True)
##b = torch.zeros(1, requires_grad=True)
model = MultivariateLinearRegressionModel()

# 3. optimizer 설정 (optimizer 정의)
optimizer = optim.SGD([W, b], lr = 1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):

    # 4. H(x) 계산 (Hypothesis 계산)
    hypothesis = x_train.matmul(W) + b # or .mm or @
    Hypothesis = model(x_train)

    # 5. cost 계산 (MSE)
    cost = torch.mean((hypothesis - y_train) ** 2)
    cost = F.mse_loss(prediction, y_train)

    # 6. cost로 H(x) 개선 (Gradient descent)
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    print('Epoch {:4d}/{} hypothesis: {} Cost: {:.6f}'.format(
        epoch, nb_epochs, hypothesis.squeeze().detach(),
        cost.item()
    ))

모델을 정의하는 부분이 약간 바뀜

__학습할 때 변화된 부분__
- Hypothesis를 계산할 때 model 오브젝트 사용함
- cost를 계산할 때 F.mse_loss라는 함수를 사용함

### 

### 다음 시간

많은 양의 데이터가 있지 않으면 정확한 예측이 어렵다.

 특히 딥러닝의 경우 데이터의 양이 많을수록 좋은데, PyTorch에서는 메모리에 저장할 수 없을 정도의 양의 데이터를 어떻게 다루는가?