## 1. Import Required Libraries

In [2]:
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.optim as optim
import torch.nn.init as init ## 초기값 위한 패키지

## 2. Model & Optimizer

In [6]:
# 일반적으로 python의 class를 이용해 모델을 구현합니다.
# 일반적으로 __init__, forward, predict 등으로 이루어져 있습니다.

class SimpleLinearRegression(nn.Module):
    def __init__(self):
        super(SimpleLinearRegression, self).__init__()
        self.Layer = nn.Linear(1,1) # feature가 1이고 output 역시 1개이기 때문에 (1,1)
        
    # feed forward
    def forward(self,inputs):
        x = self.Layer(inputs)
        return x
    
    def predict(self, test_input):
        x = self.Layer(test_input)
        return x
    
model = SimpleLinearRegression() # 객체 설정
criterion = nn.MSELoss() # regression의 loss function은 MSE

# gradient descent로 w, b를 찾고 optimizer는 stochastic descent사용
# momentum은 관성을 추가하는 내용. 학습속도를 위해 추가

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)

## 3. Train


In [None]:
for i in range(1000):
    
    # y = 2x + 0.1
    # input 은 일정하게 1.0, 2.0, 3.0이 들어가고 target은 2.1, 4.1, 6.1입니다.
    # 우리가 원하는 것은 w,b가 1000번의 학습을 통해 2와 0.1이 되는 것
    
    inputs = torch.Tensor([1.0, 2.0, 3.0]).unsqueeze(1)
    targets = torch.Tensor([2.1, 4.1, 6.1]).unsqueeze(1)
    
    model.zero_grad()
    # step에서 계산된 gradient로 update하고 지워줘야함(초기화)
    # 데이터가 계속 들어오는데 저번에 계산된 gradient를 지워준다. 
    y_pred = model(inputs)
    
    loss = criterion(y_pred, targets)
    loss.backward()
    
    # 계산된 gradient를 기반으로 optimizer를 이용해 w와 b를 update
    optimizer.step()
    
    if i % 200 ==0:
        print(loss)

## 4. Check Trained Parameters

In [9]:
# 1000 번 학스한 결과 w는 2, b는 0.1
# model.parameters() 하면 안에 있는 parameter들 다 출력가능
w = list(model.parameters())
print(w)

[Parameter containing:
tensor([[2.0000]], requires_grad=True), Parameter containing:
tensor([0.1000], requires_grad=True)]


In [10]:
model.predict(torch.Tensor([10.0]))

tensor([20.1000], grad_fn=<AddBackward0>)

## Non lineart Data에 Linear Model을 적용

In [6]:
num_data = 1000
num_epoch = 1000

noise = init.normal(torch.FloatTensor(num_data,1), std=1) 
                                # 노말분포에서 평균은 1 std 1인 노이즈 텐서 생성
x = init.uniform(torch.Tensor(num_data,1),-10,10)
                                # -10과 10 사이의 균일분포를 따르는 값 
y = 2*x +3
y_noise = 2**x + 3*x -2 + noise # y = 2x^2 + 3x -2 (Non_linear_data)
                                # y_noise는 라벨이 된다

  after removing the cwd from sys.path.
  


In [19]:
for i in range(1000):

    
    model.zero_grad()
    y_pred = model(Variable(x))
    # 모델 통과해서 output나오는 부분
    # output과 label모두 Variable로 감싸줘야함
    loss = criterion(y_pred, y_noise)
    loss.backward()
    
    # 계산된 gradient를 기반으로 optimizer를 이용해 w와 b를 update
    optimizer.step()
    
    if i % 200 ==0:
        print(loss) # loss가 줄어들지 않는다. 

tensor(37731.6055, grad_fn=<MseLossBackward>)
tensor(19849.1641, grad_fn=<MseLossBackward>)
tensor(19849.1641, grad_fn=<MseLossBackward>)
tensor(19849.1641, grad_fn=<MseLossBackward>)
tensor(19849.1641, grad_fn=<MseLossBackward>)


## 새로운 모델을 만들어보자

In [16]:
## fully connected model with 2 hidden layer
## nn.Sequential : 여러개의 층을 하나의 모델로 묶을 수 있다. 
model = nn.Sequential(
        nn.Linear(1,6),
        nn.ReLU(),
        nn.Linear(6,10),
        nn.ReLU(),
        nn.Linear(10,1)
        )
## Layer를 깊게 가질수록 line이 부드러워진다. 

criterion = nn.L1Loss()
optimizer = optim.SGD(model.parameters(), lr = 0.005)

In [17]:
for i in range(10000):

    
    model.zero_grad()
    y_pred = model(Variable(x)

    loss = criterion(y_pred, y_noise)
    loss.backward()
    

    optimizer.step()
    
    if i % 200==0:
        print(loss)  # Loss가 떨어진다.

tensor(91.7335, grad_fn=<L1LossBackward>)
tensor(64.7272, grad_fn=<L1LossBackward>)
tensor(56.7965, grad_fn=<L1LossBackward>)
tensor(48.1641, grad_fn=<L1LossBackward>)
tensor(37.4019, grad_fn=<L1LossBackward>)
tensor(27.2410, grad_fn=<L1LossBackward>)
tensor(24.4260, grad_fn=<L1LossBackward>)
tensor(20.5779, grad_fn=<L1LossBackward>)
tensor(24.9046, grad_fn=<L1LossBackward>)
tensor(23.8067, grad_fn=<L1LossBackward>)
tensor(22.9886, grad_fn=<L1LossBackward>)
tensor(16.9259, grad_fn=<L1LossBackward>)
tensor(19.5400, grad_fn=<L1LossBackward>)
tensor(17.4608, grad_fn=<L1LossBackward>)
tensor(15.3876, grad_fn=<L1LossBackward>)
tensor(14.7671, grad_fn=<L1LossBackward>)
tensor(14.0220, grad_fn=<L1LossBackward>)
tensor(14.0493, grad_fn=<L1LossBackward>)
tensor(13.7295, grad_fn=<L1LossBackward>)
tensor(13.4201, grad_fn=<L1LossBackward>)
tensor(12.9549, grad_fn=<L1LossBackward>)
tensor(13.1432, grad_fn=<L1LossBackward>)
tensor(12.3585, grad_fn=<L1LossBackward>)
tensor(14.9334, grad_fn=<L1LossBac