In [59]:
# import here


import torch
import torch.nn as nn
import numpy as np

In [60]:
# Tensors


x = torch.Tensor([[1,2],[3,4]])  # 기본값은 *.FloatTensor
y = torch.from_numpy(np.array([[1,2],[3,4]]))  # 책의 코드는 import 순서가 잘못됨
z = np.array([[1,2],[3,4]])

print(x, type(x))
print(y, type(y))
print(z, type(z))

tensor([[1., 2.],
        [3., 4.]]) <class 'torch.Tensor'>
tensor([[1, 2],
        [3, 4]]) <class 'torch.Tensor'>
[[1 2]
 [3 4]] <class 'numpy.ndarray'>


In [61]:
# Autograd


x = torch.FloatTensor(2,2)
y = torch.FloatTensor(2,2)

print('x =', x)
print('y =', y)

y.requires_grad_(True)

z = (x + y) + torch.FloatTensor(2,2)  # 연산 그래프에 할당

print('x\' =', x)
print('y\' =', y)
print('z =', z)

with torch.no_grad():
    z = (x + y) + torch.FloatTensor(2,2)
    print('z\' =', z)

x = tensor([[6.3490e+22, 4.5629e-41],
        [1.6715e+21, 3.0813e-41]])
y = tensor([[6.3490e+22, 4.5629e-41],
        [1.6792e+21, 3.0813e-41]])
x' = tensor([[6.3490e+22, 4.5629e-41],
        [1.6715e+21, 3.0813e-41]])
y' = tensor([[6.3490e+22, 4.5629e-41],
        [1.6792e+21, 3.0813e-41]], requires_grad=True)
z = tensor([[1.2865e+23, 1.2207e-40],
        [5.0427e+21, 9.2439e-41]], grad_fn=<AddBackward0>)
z' = tensor([[1.2717e+23, 1.2207e-40],
        [5.0096e+21, 9.2439e-41]])


In [71]:
# Feed-forward


def linear(x, W, b):
    y = torch.mm(x, W) + b  # Matrix multiplication
    return y

x = torch.FloatTensor(4,5)  # 책에서는 indentation 잘못됨
W = torch.FloatTensor(5,3)
b = torch.FloatTensor(3)

print('x =', x)
print('W =', W)
print('torch.mm(x, W) =', torch.mm(x, W))
print('b =', b)

y = linear(x, W, b)  # (16*10) * (10*5) = (16*5) --> (16*5) + (5,) 

print('y =', y)
print(y.shape)

x = tensor([[6.3491e+22, 4.5629e-41, 1.7828e+20, 3.0813e-41, 4.4842e-44],
        [0.0000e+00, 1.5695e-43, 0.0000e+00, 1.7828e+20, 3.0813e-41],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 9.1835e-41, 2.3694e-38, 2.3694e-38, 2.3694e-38]])
W = tensor([[ 6.3491e+22,  4.5629e-41,  1.8875e+20],
        [ 3.0813e-41,  4.4842e-44,  0.0000e+00],
        [ 8.9683e-44,  0.0000e+00,  1.6608e+21],
        [ 3.0813e-41, -1.8325e+25,  4.5628e-41],
        [-1.8326e+25,  4.5628e-41, -1.8325e+25]])
torch.mm(x, W) = tensor([[        inf, -5.6177e-16,         inf],
        [-5.6466e-16,        -inf, -5.6463e-16],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [-4.3421e-13, -4.3421e-13, -4.3415e-13]])
b = tensor([6.3490e+22, 4.5629e-41, 1.6589e+21])
y = tensor([[        inf, -5.6177e-16,         inf],
        [ 6.3490e+22,        -inf,  1.6589e+21],
        [ 6.3490e+22,  4.5629e-41,  1.6589e+21],
        [ 6.3490e+22, -4.3421e-13,  1.6589e+21]])
t

In [86]:
# nn.Module


class MyLinear(nn.Module):
    
    def __init__(self, input_size, output_size):
        super().__init__()
        self.W = nn.Parameter(torch.FloatTensor(input_size, output_size), requires_grad=True)  # 책에서 indentation 잘못됨
        self.b = nn.Parameter(torch.FloatTensor(output_size), requires_grad=True)
        
    def forward(self, x):
        y = torch.mm(x, self.W) + self.b
        return y
    
    
# input텐서 선언
x = torch.FloatTensor(4, 5)
print('x =', x)

# 모델 initiating
linear = MyLinear(5, 3)  # |x|=(c,r)의 r과 self.W의 input_size가 일치해야 함

# feed-forward
y = linear(x)

print('y =', y)

# 학습 가능한 파라미터 확인
print('params =', [p.size() for p in linear.parameters()])

x = tensor([[6.3491e+22, 4.5629e-41, 6.3491e+22, 4.5629e-41, 4.4842e-44],
        [0.0000e+00, 1.5695e-43, 0.0000e+00, 1.7037e+21, 3.0813e-41],
        [1.1495e+24, 3.0881e+29, 2.5226e-18, 4.2330e+21, 1.6534e+19],
        [3.0601e+32, 3.3129e-18, 7.2646e+22, 7.2250e+28, 2.5226e-18]])
y = tensor([[       inf, 6.2118e-18,        inf],
        [1.6901e+21,        inf,        inf],
        [       inf,        inf,        inf],
        [       inf,        inf,        inf]], grad_fn=<AddBackward0>)
params = [torch.Size([5, 3]), torch.Size([3])]


In [87]:
# nn.Module (Prettier version)
# c.f. https://hashcode.co.kr/questions/6419/python3-super와-supera-self의-차이는-무엇인가요


class MyLinear(nn.Module):
    
    def __init__(self, input_size, output_size):
        super().__init__()  # super(MyLinear, self).__init__()과 같은 기능
        self.linear = nn.Linear(input_size, output_size)
        
    def forward(self, x):
        y = self.linear(x)
        return y
    
    
# input텐서 선언
x = torch.FloatTensor(4, 5)
print('x =', x)

# 모델 initiating
linear = MyLinear(5, 3)  # |x|=(c,r)의 r과 self.W의 input_size가 일치해야 함

# feed-forward
y = linear(x)
print('y =', y)

# 학습 가능한 파라미터 확인
print('params =', [p.size() for p in linear.parameters()])

# linear 확인
print('linear =', linear)

x = tensor([[1.6159e+21, 3.0813e-41, 1.6921e+21, 3.0813e-41, 7.0065e-45],
        [0.0000e+00, 5.4889e-05, 1.7063e-07, 1.3147e+22, 2.1651e+23],
        [1.3224e-08, 3.3978e+21, 2.0179e-43, 0.0000e+00, 1.3593e-43],
        [0.0000e+00, 1.8040e+21, 3.0813e-41, 6.3490e+22, 4.5629e-41]])
y = tensor([[-2.6387e+20, -6.6584e+20, -4.4611e+20],
        [-6.5335e+22,  4.1922e+22, -1.7814e+22],
        [-3.8260e+19,  2.9861e+20, -6.1604e+20],
        [ 2.0433e+22, -2.2229e+22,  2.5959e+22]], grad_fn=<AddmmBackward>)
params = [torch.Size([3, 5]), torch.Size([3])]
linear = MyLinear(
  (linear): Linear(in_features=5, out_features=3, bias=True)
)


In [94]:
# Back-propagation


# 임의로 정한 정답 값을 100이라 하자
target = 100

# 입력 데이터
x = torch.FloatTensor(4,5)

# 모델 initiation
linear = MyLinear(5, 3)

# forward
prediction = linear(x)

# loss/cost 계산
loss = (target - prediction.sum()) / 2   # 두 scalar 값 사이의 거리를 구하는 것으로 loss를 계산할 경우. 
print('loss =', loss)

# target과 prediction을 단일 스칼라 값으로 표현되는 이유?
# 그냥 대충 '이만큼' 고칠 것이다를 정하고 lr * grad(loss)만큼 params를 역전파 업데이트하는 것...?

loss.backward()

loss = tensor(nan, grad_fn=<DivBackward0>)
None


In [90]:
# train() & eval()


linear.eval()   # 학습(params 업데이트 및 드롭아웃 등)되지 않음

linear.train()   # default

MyLinear(
  (linear): Linear(in_features=5, out_features=3, bias=True)
)

In [103]:
# Overall implementation


# 1. 임의로 생성한 텐서들을
# 2. 근사하고자 하는 정답 함수에 넣어 정답(y)를 구하고,
# 3. 그 정답과 신경망을 통과한 y_hat(prediction)과의 차이(error|loss)를 평균제곱오차(MSE)를 통해 구하여
# 4. 확률적 경사하강법(SGD)를 통해 최적화


import random
import torch
import torch.nn as nn


class MyModel(nn.Module):
    
    def __init__(self, input_size, output_size):
        super(MyModel, self).__init__()   # 부모 클래스의 모든 조건 상속
        self.linear = nn.Linear(input_size, output_size)   # <-- nn.Linear는 레이어 딱 한 층
        
    def forward(self, x):
        y = self.linear(x)   # x = input, y = prediction
        return y
    
    

def ground_truth(x):
    return 3 * x[:, 0] + x[:, 1] - 2 * x[:, 2]


def train(model, x, y, optim):
    
    # 모든 기울기 초기화
    optim.zero_grad()
    
    # 순전파
    prediction = model(x)
    
    # 실제 정답과 예측된 값의 오차(손실) 계산
    loss = ((y - prediction) / 2).sum() / x.size(0)
    
    # 역전파
    loss.backward()
    
    # 경사 하강 수행
    optim.step()
    
    return loss.data


# 앞의 함수들을 활용하기 위한 하이퍼파라미터 설정
batch_size = 1
epochs = 1000
iteration = 10000
learning_rate = 0.0001


# 모델 및 옵티마이저 선언
model = MyModel(3,1)
optim = torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=0.1)

print(model)


for epoch in range(epochs):
    
    avg_loss = 0
    
    for i in range(iteration):
        x = torch.rand(batch_size, 3)
        y = ground_truth(x.data)
        
        loss = train(model, x, y, optim)
        
        avg_loss += loss
        avg_loss = avg_loss / iteration
        
        
    # 모델이 정상인지 간단한 테스트
    x_valid = torch.FloatTensor([[.3, .2, .1]])
    y_valid = ground_truth(x_valid.data)
    
    model.eval()
    y_hat = model(x_valid)
    
    model.train()   # 다시 원상태로
    
    print(avg_loss, y_valid.data[0], y_hat.data[0,0])
    
    
    if avg_loss < .0001:
        break
    else:
        print(avg_loss)
        

print('done')

MyModel(
  (linear): Linear(in_features=3, out_features=1, bias=True)
)
tensor(-6.1582e-05) tensor(0.9000) tensor(1.2316)
done
