In [1]:
import torch
import numpy as np

# 1. PyTorch 기본
___

In [2]:
# 초기화 되지 않은 Tensor 생성
x = torch.empty(3, 2)
print(x)

tensor([[1.4226e-13, 3.8946e+21],
        [4.4650e+30, 7.0975e+22],
        [7.9309e+34, 1.4603e-19]])


In [3]:
# 0~1 사이의 uniform distribution 값으로 초기화 된 Tensor를 생성
x = torch.rand(3, 2)
print(x)

tensor([[0.4348, 0.2483],
        [0.8647, 0.9764],
        [0.0307, 0.5904]])


In [4]:
# Normal distribution 값으로 초기화 된 Tensor를 생성
x = torch.randn(3, 2)
print(x)

tensor([[-1.5342,  0.5737],
        [ 0.2824,  0.7125],
        [ 0.9638,  1.0521]])


In [5]:
# 0으로 채워진 tensor를 생성
x = torch.zeros(3, 2, dtype=torch.int)
print(x)

tensor([[0, 0],
        [0, 0],
        [0, 0]], dtype=torch.int32)


In [6]:
# 랜덤값을 가진, 똑같은 모양의 tensor 생성
y = torch.randn_like(x, dtype=torch.float)
print(y)

tensor([[ 0.0236,  0.1683],
        [ 1.0769,  0.7157],
        [-0.3509, -0.9264]])


#### Tensor가 CPU에 있을 때는 Numpy와 같은 메모리 공유

In [7]:
# Tensor에서 numpy로 변환
a = torch.ones(5)
print(a)
b = a.numpy()
print(b)
a.add_(1)
print(a)
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]
tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [8]:
# Numpy에서 tensor로 변환
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


In [9]:
# tensor를 새로운 shape으로 변환
x = torch.randn(4, 4)
print( x.size() )

y = x.view(16)
print( y.size() )

z = x.view(-1, 8) # the size -1 is inferred from other dimensions
print( z.size() )

k = x.view(1, 4, 4)
print( k.size() )

torch.Size([4, 4])
torch.Size([16])
torch.Size([2, 8])
torch.Size([1, 4, 4])


In [10]:
# tensor 합치기
# torch.cat()
x = torch.tensor([ [1, 2, 3], [4, 5, 6] ])

print(x)
print( torch.cat((x, x, x), 0) ) # 0차원 행을 기준으로 붙이기
print( torch.cat((x, x, x), 1) ) # 1차원 열을 기준으로 붙이기

tensor([[1, 2, 3],
        [4, 5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6],
        [1, 2, 3],
        [4, 5, 6],
        [1, 2, 3],
        [4, 5, 6]])
tensor([[1, 2, 3, 1, 2, 3, 1, 2, 3],
        [4, 5, 6, 4, 5, 6, 4, 5, 6]])


In [11]:
# Tensor를 생성할 때 GPU에서 생성
# 기존 Tensor의 .to() 메서드를 사용하여 GPU로 이동
if torch.cuda.is_available():
    device = torch.device('cuda')
else:
    device = torch.device('cpu')

x = torch.randn(3)
print(x)
y = torch.ones_like(x, device=device)
print(y, "gpu 사용")
x = x.to('cuda')
print(x, 'gpu 사용')
z = x + y
print(z)
print(z.to('cpu'))


tensor([-0.0137,  0.1029, -0.6425])
tensor([1., 1., 1.], device='cuda:0') gpu 사용
tensor([-0.0137,  0.1029, -0.6425], device='cuda:0') gpu 사용
tensor([0.9863, 1.1029, 0.3575], device='cuda:0')
tensor([0.9863, 1.1029, 0.3575])


In [12]:
# 평균, 총합, 최대
a = torch.randn(3, 3)

print(a)
print(a.mean())
print(a.sum())
print(a.argmax(dim=1))

tensor([[-2.0097, -0.8478,  0.7941],
        [ 1.0749, -2.2760,  0.3730],
        [ 0.4209,  0.6295,  0.0968]])
tensor(-0.1938)
tensor(-1.7443)
tensor([2, 0, 1])


# 2. Autograd 패키지

---


In [13]:
# Tensor 기울기 계산
x = torch.tensor(2., requires_grad=True)
print(x)

out = x * 5
print(out)
print('grad_fn : tensor가 어떤 연산의 결과로 생성되었을 경우 grad_fn 안에 그 연산이 들어있게 됨')

out.backward()
print(x.grad)
# 미분값인 5가 출력됨
# 계산 그래프에서 곱의 역전파는 교차이므로

tensor(2., requires_grad=True)
tensor(10., grad_fn=<MulBackward0>)
grad_fn : tensor가 어떤 연산의 결과로 생성되었을 경우 grad_fn 안에 그 연산이 들어있게 됨
tensor(5.)


In [14]:
x = torch.tensor( [[1.,2.],[1.,2.]], requires_grad=True )
print(x)

out = x * 5
print(out)

out.backward( torch.ones(2,2) ) # 2x2 사이즈로 만들기 위해 .ones 사용, 이때 괄호 안 사용 안 하면 에러남
print(x.grad)

tensor([[1., 2.],
        [1., 2.]], requires_grad=True)
tensor([[ 5., 10.],
        [ 5., 10.]], grad_fn=<MulBackward0>)
tensor([[5., 5.],
        [5., 5.]])


with torch.no_grad() -> 기울기 계산이 필요없는 신경망 예측 때 사용

In [15]:
x = torch.ones(2, 2, requires_grad=True)

print(x.requires_grad)
print((x * 2).requires_grad)

# no_grad라 requires_grad가 false 로 나옴
with torch.no_grad():
    print((x * 2).requires_grad)


True
True
False


### autograd를 활용한 2층 신경망

In [62]:
import torch

dtype = torch.float
# device = torch.device("cpu")
device = torch.device("cuda:0") # GPU

# N: 배치사이즈; D_in: 입력 사이즈; H: 은닉층 사이즈; D_out: 출력 사이즈
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력 위한 랜덤 텐서
x = torch.randn(N, D_in).to(device)
y = torch.randn(N, D_out).to(device)

# 가중치 텐서
# 역전파 때 기울기 계산을 위해 가중치 텐서에는 requires_grad=False 추가
w1 = torch.randn(D_in, H, requires_grad=True).to(device)
w2 = torch.randn(H, D_out, requires_grad=True).to(device)

In [63]:
learning_rate = 1e-6

for t in range(500):

    # 순전파
    # mm(): matrix multiplication - numpy의 dot()과 같음
    # clamp(min=0): 0이하의 값을 0으로 만들어 줌 - ReLU와 같음
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    # 손실함수
    # MSE를 구현
    loss = (y_pred - y).pow(2).sum()
    
    if t % 100 == 99:
        # tensor 에서 단일값을 읽어올 때는 item() 사용
        print(t, loss.item())
    
    # w의 미분 값인 grad 확인시 다음 미분 계산 값은 None이 return 됩니다.
    # 이러한 현상을 방지하기 위하여 retain_grad()를 loss.backward() 이전에 호출해 줍니다.
    w1.retain_grad()
    w2.retain_grad()
    
    # 역전파 - 기울기 계산
    loss.backward()
    
    # SGD
    # 이미 계산된 기울기로 가중치를 업데이트할 것이기 때문에 더이상 autograd 계산 필요 없음
    # 그래서 torch.no_grad() 블럭으로 지정
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

    # 기울기를 0으로 초기화
    w1.grad.zero_()
    w2.grad.zero_()

99 707.223876953125
199 4.315915107727051
299 0.041538551449775696
399 0.0007810420356690884
499 9.427357144886628e-05


# 3. NN Package

---

##### gpu로 학습시키고 싶으면 tensor도 같은 gpu로 되었는지 확인하기

x와 y를 device로 변경시켜줬고, 모델도 to(device)로 했더니 잘 된다

In [68]:
# 여러개의 module을 담는 컨테이너 클래스
# N: 배치사이즈; D_in: 입력 사이즈; H: 은닉층 사이즈; D_out: 출력 사이즈
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력 위한 랜덤 텐서
x = torch.randn(N, D_in, device=device)
y = torch.randn(N, D_out, device=device)

# nn package를 이용하여 여러 층으로 정의된 모델 생성
# nn.Sequential은 다른 모듈을 담을 수 있는 모듈이며 담겨진 모듈은 순서대로 연결
# Linear 모듈은 곧 Affine 모듈
# 3층 신경망
model = torch.nn.Sequential(torch.nn.Linear(D_in, H),
                            torch.nn.ReLU(),
                            torch.nn.Linear(H, H),
                            torch.nn.ReLU(),
                            torch.nn.Linear(H, D_out),
                            ).to(device)


In [69]:
# nn package 에서 제공하는 MSE loss 함수
loss_fn = torch.nn.MSELoss()

learning_rate = 1e-2

for t in range(500):
    
    # 순전파 - Sequential 안에 있는 모듈 순방향 통과
    y_pred = model(x)
    
    # 손실 계산 - MSE loss
    loss = loss_fn(y_pred, y)
    
    if t % 100 == 99:
        print(t, loss.item())
    
    # 기울기 초기화
    model.zero_grad()
    
    # 역전파
    # 모델 안의 모든 학습 가능한 파라미터의 기울기 계산 (내부적으로 requires_grad=True로 되어 있음)
    loss.backward()
    
    # SGD
    with torch.no_grad():
        # 학습가능한 모든 파라미터에 대해
        for param in model.parameters():
            param -= learning_rate * param.grad

99 0.7869958281517029
199 0.6603291630744934
299 0.5151079893112183
399 0.3576714098453522
499 0.21998897194862366


#### optime package: 다양한 최적화 알고리즘 제공

In [71]:
# optim package
learning_rate = 1e-4

# Adam optimizer 사용
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500):

    # 순전파 - Sequential 안에 있는 모듈 순방향 통과
    y_pred = model(x)

    # 손실 계산 - MSE loss
    loss = loss_fn(y_pred, y)
    
    if t % 100 == 99:
        print(t, loss.item())
    
    # 기울기 초기화
    model.zero_grad()
    
    # 역전파
    # 모델 안의 모든 학습 가능한 파라미터의 기울기 계산 (내부적으로 requires_grad=True로 되어 있음)
    loss.backward()
    
    # Adam
    optimizer.step()

99 0.0003501845640130341
199 7.373793575737864e-09
299 2.6318484609537396e-13
399 9.686402816454741e-15
499 6.8747408990316086e-15


#### Custom nn Modules

In [72]:
# 보다 복잡한 구조의 모델 구성 적합

# 2층 신경망
# torch.nn.Module을 상속받아 TwoLayerNet 클래스 정의
class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        super().__init__()
        # FC(Fully connected) layer 2개 초기화
        self.fc1 = torch.nn.Linear(D_in, H)
        self.fc2 = torch.nn.Linear(H, D_out)
        
    def forward(self, x):
        # 순전파: fc1 -> relu -> fc2 ->
        x = torch.nn.functional.relu( self.fc1(x) )
        return self.fc2(x)

In [73]:
# N: 배치사이즈; D_in: 입력 사이즈; H: 은닉층 사이즈; D_out: 출력 사이즈
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력 위한 랜덤 텐서
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# TwoLayerNet 생성
model = TwoLayerNet(D_in, H, D_out)

# 손실함수: MSE
# Optimizer: SGD
# model.parameters(): 학습 가능한 파라미터들 (가중치)
loss_fn = torch.nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-2)

for t in range(1500):
    # 순전파
    y_pred = model(x)

    # 손실 계산 - MSE loss
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # 기울기 초기화
    optimizer.zero_grad()
    # 역전파 - 기울기 계산
    loss.backward()
    # SGD - 가중치 업데이트
    optimizer.step()

99 0.4407981336116791
199 0.16872604191303253
299 0.05944230407476425
399 0.021671947091817856
499 0.008559996262192726
599 0.0036300544161349535
699 0.0016272393986582756
799 0.000760897877626121
899 0.0003680773952510208
999 0.00018429808551445603
1099 9.561075421515852e-05
1199 5.1216989959357306e-05
1299 2.830201992765069e-05
1399 1.6113513993332162e-05
1499 9.43658142205095e-06


## MNIST

---

In [76]:
# 6.21

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

from torchvision import datasets, transforms

import matplotlib.pyplot as plt
%matplotlib inline

In [77]:
# gpu 사용할 수 있는지 여부

if torch.cuda.is_available():
    device = torch.device('cuda')          
else:
    device = torch.device('cpu')


In [79]:
# 6.23

# MNIST 데이타셋 다운로드
mnist_train = datasets.MNIST(root='data/',
                          train=True,
                          transform=transforms.Compose(
                              [transforms.ToTensor(), 
                               transforms.Normalize((0.1307,), (0.3081,))]),
                          download=True)

mnist_test = datasets.MNIST(root='data/',
                         train=False,
                          transform=transforms.Compose(
                              [transforms.ToTensor(), 
                               transforms.Normalize((0.1307,), (0.3081,))]),
                         download=True)

In [80]:
print( mnist_train.data.size() )
print( mnist_test.data.size() )

torch.Size([60000, 28, 28])
torch.Size([10000, 28, 28])


In [82]:
batch_size = 100

# DataLoader - 데이터셋에서 편하게 미니배치 가져올 수 있게 함
train_loader  = torch.utils.data.DataLoader( dataset=mnist_train,
                                     batch_size=batch_size,
                                     shuffle=True,
                                     num_workers=0 )

test_loader  = torch.utils.data.DataLoader( dataset=mnist_test,
                                     batch_size=batch_size,
                                     shuffle=False,
                                     num_workers=0 )

In [83]:
class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        super().__init__()
        self.fc1 = torch.nn.Linear(D_in, H)
        self.fc2 = torch.nn.Linear(H, D_out)

    def forward(self, x):
        x = F.relu( self.fc1(x) )
        return self.fc2(x)

In [88]:
model = TwoLayerNet(784, 100, 10)
# gpu 설정
model.to(device)

# 크로스엔트로피를 loss function으로
# sgd를 optimizer로
loss_func = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.001)

In [85]:
# 훈련 함수
def train(epoch):

    model.train() # 훈련 모드

    # train_loader에서 배치 단위로 훈련, 정답 가져오면서 반복
    for i, (data, target) in enumerate(train_loader):
        # device로 데이터 전송
        data, target = data.to(device), target.to(device)

        # 입력 사이즈가 728이므로 하나의 데이터 당 (28, 28)을 (728,)로 reshape
        data = data.view(-1, 28 * 28)

        # 순전파
        output = model( data )

        # 손실함수
        cost = loss_func( output, target )

        # 기울기 초기화 > 역전파 > 가중치 업데이트
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        if i % 100 == 99:
            print('Train epoch: {} [{}/{}] Loss: {}'.format(
                epoch, (i+1) * len(data), len(train_loader.dataset), cost.item()) )

In [86]:
# 평가 함수
def test():
    model.eval() # 평가 모드

    correct = 0 # 맞춘 갯수 초기화
    
    # 기울기 사용하지 않는 부분
    with torch.no_grad():
        for data, target in test_loader:
            # device로 데이터 전송
            data, target = data.to(device), target.to(device)

            # 입력 사이즈가 728이므로 하나의 데이터 당 (28, 28)을 (728,)로 reshape
            data = data.view(-1, 28 * 28)

            # 순전파
            output = model( data )

            # 최고 값 인덱스
            output = torch.argmax(output, 1)
            
            # 정답과 맞은 횟수 correct에 누적
            correct += (output == target).sum().item()

    acc = 100 * float(correct) / len(test_loader.dataset) 
    print( 'Test accuracy: {}/{} ({}%)'.format( correct, len(test_loader.dataset), acc ) )  

In [89]:
num_epochs = 20

for epoch in range(num_epochs):
    train(epoch+1)
    test()

Train epoch: 1 [10000/60000] Loss: 2.1939334869384766
Train epoch: 1 [20000/60000] Loss: 2.0592868328094482
Train epoch: 1 [30000/60000] Loss: 1.9057742357254028
Train epoch: 1 [40000/60000] Loss: 1.7800449132919312
Train epoch: 1 [50000/60000] Loss: 1.6459760665893555
Train epoch: 1 [60000/60000] Loss: 1.5457658767700195
Test accuracy: 7513/10000 (75.13%)
Train epoch: 2 [10000/60000] Loss: 1.2998744249343872
Train epoch: 2 [20000/60000] Loss: 1.2610658407211304
Train epoch: 2 [30000/60000] Loss: 1.1641279458999634
Train epoch: 2 [40000/60000] Loss: 1.0673118829727173
Train epoch: 2 [50000/60000] Loss: 0.9196450710296631
Train epoch: 2 [60000/60000] Loss: 0.9864784479141235
Test accuracy: 8235/10000 (82.35%)
Train epoch: 3 [10000/60000] Loss: 1.031297206878662
Train epoch: 3 [20000/60000] Loss: 0.7700332403182983
Train epoch: 3 [30000/60000] Loss: 0.8998186588287354
Train epoch: 3 [40000/60000] Loss: 0.8019397854804993
Train epoch: 3 [50000/60000] Loss: 0.6305915713310242
Train epoch: 