## 텐서 (Tensors)

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
# import torchvision.datasets as dsets
# import torchvision.transforms as transforms
#from torch.autograd import Variable
# 파이토치 0.4.0.부터는 Variable 선언을 해주지 않아도 된다!!

In [2]:
# 초기화되지 않은 5 x 3 행렬
x = torch.empty(5,3)
print(x)

tensor([[0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])


In [3]:
# 랜덤으로 초기화된 5 x 3행렬
x = torch.rand(5,3)
# x 에 대한 설명 : 0~1 균등분포
print(x)
# 0으로 채워지고 long 데이터 타입을 가지는 행렬
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0.2067, 0.1282, 0.4910],
        [0.9297, 0.0594, 0.8687],
        [0.1551, 0.9425, 0.7469],
        [0.6159, 0.0602, 0.8203],
        [0.1098, 0.4909, 0.7488]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [4]:
x = torch.tensor([5.5,3])
print(x)

tensor([5.5000, 3.0000])


In [5]:
# 이미 존재하는 텐서를 기반으로 새로운 텐서 생성가능
# 입력 텐서의 type들이 사용자에 의해 새롭게 제공되지 않는 이상 기존의 값들을 사용
x = x.new_ones(5, 3, dtype=torch.double)
print(x) # new_* methods take in sizes

In [6]:
x = torch.randn_like(x, dtype=torch.float) # override dtype
# x 에 대한 설명 : 평균 0 표준편차 1인 정규분포
print(x)      # result has the same size
print(x.size())

tensor([[-0.1121, -0.3816, -1.4183],
        [-0.5780,  0.1633, -0.2289],
        [ 1.2817, -1.1504, -2.3666],
        [ 0.0484,  0.1768,  0.1669],
        [ 0.5859, -0.1288,  0.0841]])
torch.Size([5, 3])


## 연산 (Operations)

In [7]:
y = torch.rand(5, 3)
print(x+y)
# print(torch.add(x, y)) # 완전히 같다
print(x*y)

tensor([[ 0.4619,  0.4768, -0.9055],
        [ 0.4043,  0.9891, -0.2033],
        [ 1.9780, -0.6412, -1.6208],
        [ 0.9216,  1.0739,  0.8096],
        [ 0.9426,  0.5438,  0.3404]])
tensor([[-0.0644, -0.3276, -0.7274],
        [-0.5677,  0.1348, -0.0059],
        [ 0.8924, -0.5858, -1.7649],
        [ 0.0422,  0.1586,  0.1073],
        [ 0.2090, -0.0866,  0.0215]])


In [8]:
# 더하기 : 파라미터로(결과가 저장되는) 결과 텐서(output tensor) 이용
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

tensor([[ 0.4619,  0.4768, -0.9055],
        [ 0.4043,  0.9891, -0.2033],
        [ 1.9780, -0.6412, -1.6208],
        [ 0.9216,  1.0739,  0.8096],
        [ 0.9426,  0.5438,  0.3404]])


* 텐서를 제자리에서 변조하는 연산은 _문자를 이용해 postfix(연산자를 피연산자의 뒷쪽에 표시)로 표기한다.
* 예를 들면 x.copy_(y)와 x.t_()는 x를 변경시킨다

In [9]:
# 더하기 : 제자리(in-place)
# adds x to y
y.add_(x); print(y)

tensor([[ 0.4619,  0.4768, -0.9055],
        [ 0.4043,  0.9891, -0.2033],
        [ 1.9780, -0.6412, -1.6208],
        [ 0.9216,  1.0739,  0.8096],
        [ 0.9426,  0.5438,  0.3404]])


In [10]:
# Resizing : 텐서 사이즈를 재변경하거나, 모양(shape)을 변경하고 싶다면 view 사용
x = torch.randn(4, 4)
y = x.view(16) # 1*16 reshape
z = x.view(-1, 8) # ?*8 reshape
print('------Size------')
print(x.size(), y.size(), z.size())
print('----------Tensor Y (1 x 16)----------')
print(y)
print('----------Tensor Z (2 x 8)----------')
print(z)

------Size------
torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])
----------Tensor Y (1 x 16)----------
tensor([-0.3853,  1.5593,  0.2423, -1.2236,  1.5524, -2.0325, -0.5227,  1.0139,
         0.3413, -1.4049, -0.6174, -0.4557,  0.0299, -0.2832,  1.1442, -0.2201])
----------Tensor Z (2 x 8)----------
tensor([[-0.3853,  1.5593,  0.2423, -1.2236,  1.5524, -2.0325, -0.5227,  1.0139],
        [ 0.3413, -1.4049, -0.6174, -0.4557,  0.0299, -0.2832,  1.1442, -0.2201]])


## NumPy 변환 (Bridge)
* 토치 텐서와 배열은 근본적으로 메모리 위치를 공유하기 때문에 하나를 변경하면 다른 하나도 변경된다.

In [13]:
# Tensor -> Array
a = torch.ones(5)
b = a.numpy()
print(a,b)

tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]


In [14]:
a.add_(1) # a를 참조하고 있는 b도 변한다
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [18]:
# Array -> Tensor
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


In [19]:
# 텐서는 .to 메소드를 이용해 (CUDA를 지원하는)그 어떠한 디바이스로도 옮길 수 있다
# let us run this cell only if CUDA is available
# We will use 'torch.device' objects to move tensors in and out of GPU
if torch.cuda.is_available():
    device = torch.device('cuda')
    y = torch.ones_like(x, device=device)   # a CUDA device object
    x = x.to(device)                        # directly create a tensor on GPU
    z = x + y                               # or just use strings ''.to('cuda')
    print(z)
    print(z.to('cpu', torch.double))        # ''.to'' cna also change dtype together!

## Autograd : 자동 미분 (Automatic Diff)
**autograd** 패키지는 텐서의 모든 연사에 대하여 자동 미분을 제공한다. 이 패키지는 실행 시점에 정의되는(define-by-run) 프레임워크인데 다시 말하면 코드가 어떻게 실행되는지에 따라 역전파(backprop)가 정의되며, 각각의 반복마다 역전파가 달라질 수 있다는 것이다.

* 텐서플로는 정의된 다음 실행되는(defined-and-run) 프레임워크인데 이는 그래프 구조에서 미리 조건과 반복을 정의하고 나서 실행된다.
* PyTorch를 비롯한 Chainer, DyNet 등은 define-by-run 프레임워크이다.

## torch.Tensor는 패키지에서 가장 중심이 되는 클래스

-- 텐서의 속성 중 하나인 **.requires_grad**를 **True**로 세팅하면, 텐서의 모든 연산에 대해 추적을 시작한다.

-- 계산 작업이 모두 수행됐다면 **.backward()** 를 호출하여 모든 그라디언트들을 자동으로 계산할 수 있다.

-- 이 텐서를 위한 그라디언트는 **.grad** 속성에 누적되어 저장된다.

-- 텐서에 대해 기록(history) 추적을 중지하려면 **.detach()** 를 호출해 현재의 계산 기록으로부터 분리시키고 이후에 일어나는 계산들은 추적되지 않게 할 수 있다.

-- 기록 추적(및 메모리 사용)에 대해 방지를 하려면, 코드 블럭을 **with torch.no_grad():** 로 래핑(wrap)할 수 있다. 이는 특히 모델을 평가할 때 엄청난 도움이 되는데, 왜냐하면 모델은 requires_grad=True 속성이 적용된 학습 가능한 파라미터를 가지고 있을 수 있으나 우리는 그라디언트가 필요하지 않기 때문이다.

-- 자동 미분을 위해 매우 중요한 클래스가 하나 더 있는데 바로 **Function**이다.

-- **Tensor**와 **Function**은 상호 연결되어 있으며, 비순환(비주기) 그래프를 생성하는데, 이 그래프는 계싼 기록 전체에 대하여 인코딩을 수행한다. 각 변수는 **Tensor**를 생성한 **Function**을 참조하는 **.grad_fn** 속성을 가지고 있다. (단, 사용자에 의해 생성된 텐서는 제외한다 ; 해당 텐서들은 **grad_fn** 자체가 **None** 상태이다)

-- 만약 도함수(derivatives)들을 계산하고 싶다면, Tensor의 **.backward()** 를 호출하면 된다. 만약 **Tensor**가 스칼라 형태라면, **backward()** 사용에 있어 그 어떠한 파라미터도 필요하지 않는다. 그러나 한 개 이상의 요소를 가지고 있다면 올바른 모양(matching shape)의 텐서인 **gradient** 파라미터를 명시할 필요가 있다.

In [29]:
import torch
# 텐서를 생성하고 requires~ 로 세팅해 계산 추적한다.
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [30]:
y = x+2
print(y)
# y는 연산의 결과로서 생성된 것이므로 grad_fn을 가지고 있다.
print(y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward>)
<AddBackward object at 0x000001CAF754E9B0>


In [31]:
z = y*y
out = z.sum()
print(z, out)

tensor([[9., 9.],
        [9., 9.]], grad_fn=<ThMulBackward>) tensor(36., grad_fn=<SumBackward0>)


**requires_grad(...)** 은 이미 존재하는 텐서의 **requires_grad** 플래그를 제자리(in-place)에서 변경한다.

In [22]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print('-----1st-----')
print(a.requires_grad)
a.requires_grad_(True)
print('-----2nd-----')
print(a.requires_grad)
b = (a * a).sum()
print('-----3rd-----')
print(b.grad_fn)

-----1st-----
False
-----2nd-----
True
-----3rd-----
<SumBackward0 object at 0x000001CAF753A240>


## 그라디언트 (Gradients)
* 다시 돌아와서 이제 **out**은 하나의 스칼라 값을 가지고 있기 때문에 **out.bacward()**는 **out.backward(torch.tensor(1))**와 동등한 결과를 리턴한다.

In [32]:
out.backward()
print(x.grad)
# y = x+2
# z = y^2 = x^2 + 4*x + 4
# dz/dx = 2*x + 4
# then, x.grad = 2*1 + 4 =6

tensor([[6., 6.],
        [6., 6.]])


In [34]:
x = torch.ones(3, requires_grad=True)
y = x**2
z = y*3
print(z)
gradient = torch.tensor([0.1, 1, 10], dtype=torch.float)
# backward 인자가 곱해져 그라디언트 값 출력
z.backward(gradient) # * gradient 의 결과
print(x.grad)

tensor([3., 3., 3.], grad_fn=<MulBackward>)
tensor([ 0.6000,  6.0000, 60.0000])


## nn과 nn.functional

### nn의 기능들 (weight를 자동 설정해줌, conv2d의 경우)
* Parameters    
* Linear    
* Container    
* Dropout    
* Conv  
* Sparse    
* Pooling    
* Distance    
* Padding    
* Loss  
* Non-linear Activation    
* Vision    
* Normalization  
* Data Parallel   
* Utilities   
* Recurrent  

### nn.functional의 기능들(외부에서 만든 filter, weight를 넣어야 함)
* Conv    
* Pooling   
* Non-linear activation   
* Normalization  
* Linear function(=fully connected layer)  
* Dropout  
* Distance
* Loss   
* Vision  

In [36]:
#### nn.functional ####
inp = torch.ones(1,1,3,3, requires_grad = True)
filter = torch.ones(1,1,3,3)
print(inp)
print(filter)

tensor([[[[1., 1., 1.],
          [1., 1., 1.],
          [1., 1., 1.]]]], requires_grad=True)
tensor([[[[1., 1., 1.],
          [1., 1., 1.],
          [1., 1., 1.]]]])


In [37]:
out = F.conv2d(inp, filter)
print("----output----")
print(out)
out.backward()
print("----grad_fn----")
print(out.grad_fn)
print("----Gradient----")
print(inp.grad)

----output----
tensor([[[[9.]]]], grad_fn=<ThnnConv2DBackward>)
----grad_fn----
<ThnnConv2DBackward object at 0x000001CAF7537B00>
----Gradient----
tensor([[[[1., 1., 1.],
          [1., 1., 1.],
          [1., 1., 1.]]]])


In [58]:
filter += 1
out = F.conv2d(inp, filter)
print("----output----")
print(out)
out.backward()
print("----grad_fn----")
print(out.grad_fn)
print("----Gradient----")
print(inp.grad)

----output----
tensor([[[[ 18.]]]])
----grad_fn----
<ThnnConv2DBackward object at 0x000001CD86020B38>
----Gradient----
tensor([[[[ 3.,  3.,  3.],
          [ 3.,  3.,  3.],
          [ 3.,  3.,  3.]]]])


In [50]:
#### nn ####
inp = torch.ones(1,1,3,3, requires_grad = True)
func = nn.Conv2d(1, 1, 3) # (input_channel, output_channel, filter_size or kernel_size)
func.weight

Parameter containing:
tensor([[[[-0.0186, -0.1918, -0.0093],
          [ 0.2435,  0.0279,  0.1439],
          [ 0.1880, -0.2797, -0.0804]]]])

In [51]:
out = func(inp)
print(out)
# nn.Conv2d는 자동으로 bias를 포함시키기 때문에 값이 위의 weight 총합 값과 다름
print(inp.grad)

tensor([[[[ 0.3047]]]])
None


In [52]:
out.backward()
print(inp.grad) # 그냥 weight 자체가 산출됨

tensor([[[[-0.0186, -0.1918, -0.0093],
          [ 0.2435,  0.0279,  0.1439],
          [ 0.1880, -0.2797, -0.0804]]]])


In [38]:
### 다양한 활성함수들
# import torch.nn.functional as F
# import torch.nn as nn
inp2 = torch.randn(1,1,3,3)
a = F.relu(inp2)
print("---- ReLU activation ----")
print(a)
b = nn.MaxPool2d(2, stride=1)
print("---- Max Pooling 2 x 2 by stride 1 ----")
bb = b(a)
print(bb)
c = F.sigmoid(bb)
print("---- Sigmoid ----")
print(c)
d = F.tanh(bb)
print("---- Tanh of Max Pooled image ----")
print(d)
e = nn.AvgPool2d(2, stride=1)
print("---- Average Pooling 2 x 2 by stride 1 ----")
ee = e(d)
print(ee)

---- ReLU activation ----
tensor([[[[0.4061, 0.0000, 0.0704],
          [0.0000, 1.2012, 0.0000],
          [0.0000, 0.0994, 0.0000]]]])
---- Max Pooling 2 x 2 by stride 1 ----
tensor([[[[1.2012, 1.2012],
          [1.2012, 1.2012]]]])
---- Sigmoid ----
tensor([[[[0.7687, 0.7687],
          [0.7687, 0.7687]]]])
---- Tanh of Max Pooled image ----
tensor([[[[0.8340, 0.8340],
          [0.8340, 0.8340]]]])
---- Average Pooling 2 x 2 by stride 1 ----
tensor([[[[0.8340]]]])




In [48]:
# 이 일련의 과정을 한 번에 클래스로 묶어서 
# 처리하도록 직접 모델을 설계한다!
class model(nn.Module):
    def __init__(self):
        super(model, self).__init__()
        self.Max_pool = nn.MaxPool2d(2, stride=1)
        self.Avg_pool = nn.AvgPool2d(2, stride=1)
    def forward(self, x):
        x = F.relu(x)
        x = self.Max_pool(x)
        x = torch.tanh(x)
        x = self.Avg_pool(x)
        return x

In [49]:
net = model()
net(inp2)

tensor([[[[0.8340]]]])

In [51]:
net

model(
  (Max_pool): MaxPool2d(kernel_size=2, stride=1, padding=0, dilation=1, ceil_mode=False)
  (Avg_pool): AvgPool2d(kernel_size=2, stride=1, padding=0)
)