# `tensor` 탐구


In [2]:
import torch


def print_tensors(*tensors):
    for tensor in tensors:
        print("=" * 20)
        print(tensor.shape)
        print(tensor)


## 텐서의 속성

- `shape`
- `dtype`
- `device`
- `layout`
- `memory_format`


### `shape`


In [107]:
data = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(data)
print(data.shape)
print(data.size())


tensor([[1, 2, 3],
        [4, 5, 6]])
torch.Size([2, 3])
torch.Size([2, 3])


### `dtype`


In [30]:
import torch

float_tensor1 = torch.tensor([1, 2, 3], dtype=torch.float)
float_tensor2 = torch.tensor([4, 5, 6], dtype=torch.float32)
float_tensor3 = torch.FloatTensor([7, 8, 9])  # Legacy Constructors

for tensor in [float_tensor1, float_tensor2, float_tensor3]:
    print(f"{tensor}'s element data type is {tensor.dtype}")


tensor([1., 2., 3.])'s element data type is torch.float32
tensor([4., 5., 6.])'s element data type is torch.float32
tensor([7., 8., 9.])'s element data type is torch.float32


In [31]:
# 32-bit floating point
print(torch.float)
# 32-bit integer (signed)
print(torch.int)
# Boolean
print(torch.bool)

# 64-bit floating point
print(torch.double)
# 64-bit inteber (signed)
print(torch.long)


torch.float32
torch.int32
torch.bool
torch.float64
torch.int64


`numpy`에서 기본은 `float64`이지만 `torch`에서는 기본이 `float32`이다.  
만약 `numpy`와 `tensor`을 동시에 사용한다면 `dtype`에 유의하자.


In [None]:
import torch
import numpy as np

numpy_data = np.zeros((3, 4), dtype=float)
tensor_data = torch.from_numpy(numpy_data)
tensor_data.dtype


torch.float64

### `device`

- cpu  
  `"cpu"`를 사용하면 된다.
- gpu  
  `"cuda"`를 사용하면 된다.


In [32]:
cpu_tensor = torch.tensor([1, 2, 3])
gpu_tensor1 = torch.tensor([4, 5, 6], device="cuda")
gpu_tensor2 = torch.tensor([7, 8, 9], device=torch.device("cuda"))

for tensor in [cpu_tensor, gpu_tensor1, gpu_tensor2]:
    print(f"{tensor}'s device is {tensor.device}")


AssertionError: Torch not compiled with CUDA enabled

보통 아래와 같이 사용자 환경에 따라서 동작되도록 설정한다.


In [8]:
available_device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(available_device)


cpu


### `layout`

아직 베타 버전, 바뀔 수 있음

> The `torch.layout` class is in beta and subject to change.

- `torch.strided`: Dense Tensor
- `torch.sparse_coo`: Sparse Tensor


### `memory_format`

- `torch.contiguous_format`
  > Strides represented by values in decreasing order.
- `torch.channels_last`
  > strides[0] > strides[2] > strides[3] > strides[1] == 1  
  > aka NHWC order.
- `torch.preserve_format`
  > Used in functions like clone to preserve the memory format of the input tensor. If input tensor is allocated in dense non-overlapping memory, the output tensor strides will be copied from the input. Otherwise output strides will follow torch.contiguous_format


In [134]:
import torch

data = torch.arange(0, 24).reshape(1, 2, 3, 4)
print("stride:", data.stride())


stride: (24, 12, 4, 1)


## 텐서 생성하기

모두 Deep Copy이다.

- `torch.tensor()`  
  인자로 전달된 array-like 데이터로 새로운 텐서를 반환한다.
- `torch.XXX()`  
  인자로 전달된 size의 텐서를 새로 만든다.
- `torch.XXX_like()`  
  인자로 전달된 텐서와 같은 `size`의 텐서를 새로 만든다.  
  `dtype`, `layout`, `device`를 따로 설정하지 않으면 인자로 전달된 텐서와 같은 것을 따른다.
- `self.new_XXX()`  
  인자로 size를 전달한다.  
  `dtype`과 `device`를 유지하는 대신 새로운 텐서를 만든다.


In [33]:
import torch

data1 = torch.tensor([1, 2, 3, 4])
data2 = torch.zeros(2, 3)
data3 = torch.zeros_like(data1)
data4 = data3.new_ones(3, 2)

print_tensors(data1, data2, data3, data4)


torch.Size([4])
tensor([1, 2, 3, 4])
torch.Size([2, 3])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
torch.Size([4])
tensor([0, 0, 0, 0])
torch.Size([3, 2])
tensor([[1, 1],
        [1, 1],
        [1, 1]])


Legacy Constructor

- `torch.FloatTensor()`
- `torch.cuda.FloatTensor()`


In [34]:
legacy_tensor1 = torch.FloatTensor([1, 2, 3])
legacy_tensor2 = torch.cuda.FloatTensor([4, 5, 6])

print_tensors(legacy_tensor1, legacy_tensor2)


TypeError: type torch.cuda.FloatTensor not available. Torch not compiled with CUDA enabled.

랜덤 샘플링

- `rand`  
  $[0, 1)$
- `randn`  
  $N(0, 1)$
- `randint`  
  $[low, high)$


In [None]:
rand_tensor = torch.rand(2, 3)
randn_tensor = torch.randn(2, 3)
randint_tensor = torch.randint(10, (2, 3))

print_tensors(rand_tensor, randn_tensor, randint_tensor)


torch.Size([2, 3])
tensor([[0.4011, 0.1791, 0.7824],
        [0.0996, 0.0802, 0.4586]])
torch.Size([2, 3])
tensor([[-1.9820, -0.8721, -1.4842],
        [-0.9245,  1.1482, -0.6213]])
torch.Size([2, 3])
tensor([[4, 1, 9],
        [1, 1, 5]])


- `full`
- `empty`
- `ones`
- `zeros`


In [36]:
full_data = torch.full((2, 3), 3.14)
empty_data = torch.empty(2, 3)
ones_data = torch.ones(2, 3)
zeros_data = torch.zeros(2, 3)

print_tensors(full_data, empty_data, ones_data, zeros_data)


torch.Size([2, 3])
tensor([[3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400]])
torch.Size([2, 3])
tensor([[-6.3660e+33,  3.0744e-41, -6.4722e+33],
        [ 3.0744e-41,  1.1210e-43,  0.0000e+00]])
torch.Size([2, 3])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
torch.Size([2, 3])
tensor([[0., 0., 0.],
        [0., 0., 0.]])


### 다른 데이터에서 tensor로

- `torch.tensor()`  
  항상 새롭게 복사된다. (deep copy)

- `torch.from_numpy()`  
  항상 `ndarray`와 같은 메모리를 공유한다.(shallow copy)  
  `dtype`, `device`등을 바꿀 수 없다.
- `torch.asarray()` or `torch.as_tensor()`  
  조건에 따라서 복사될 수도, 메모리를 공유할 수도 있다.  
  `dtype`, `device`등을 새로 설정할 수 있다. (이럴 때 복사된다.)


In [118]:
import torch
import numpy as np

numpy_data = np.zeros((3,))
tensor_data1 = torch.tensor(numpy_data)
tensor_data2 = torch.from_numpy(numpy_data)
tensor_data3 = torch.as_tensor(numpy_data)
numpy_data += 10
print_tensors(numpy_data, tensor_data1, tensor_data2, tensor_data3)


(3,)
[10. 10. 10.]
torch.Size([3])
tensor([0., 0., 0.], dtype=torch.float64)
torch.Size([3])
tensor([10., 10., 10.], dtype=torch.float64)
torch.Size([3])
tensor([10., 10., 10.], dtype=torch.float64)


### tensor에서 다른 데이터로

- `np.array()`  
  tensor와 메모리가 공유되지 않는다. (deep copy)

- `self.numpy()`  
  tensor와 메모리가 공유된다. (shallow copy)


In [120]:
import torch
import numpy as np

tensor_data = torch.zeros(2, 3)
numpy_data1 = np.array(tensor_data)
numpy_data2 = tensor_data.numpy()

tensor_data.add_(10)
print_tensors(tensor_data, numpy_data1, numpy_data2)


torch.Size([2, 3])
tensor([[10., 10., 10.],
        [10., 10., 10.]])
(2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
(2, 3)
[[10. 10. 10.]
 [10. 10. 10.]]


## 연산

`self.XXX`는 연산 결과가 반환되지만 self는 반영되지 않는다.  
`self.XXX_`는 연산 결과가 in-place로 적용되고 반환도 된다.


In [4]:
data = torch.zeros(2, 3)
print("===Before===")
print(data)
data.add_(12)
print("===After===")
print(data)


===Before===
tensor([[0., 0., 0.],
        [0., 0., 0.]])
===After===
tensor([[12., 12., 12.],
        [12., 12., 12.]])


## View


### Reshape

`view`  
반드시 같은 데이터를 공유한다. (shallow copy)  
조건에 따라서 데이터를 반환할 수 없을 때 `RuntimeError`을 띄운다.

`reshape`  
같은 데이터를 공유할 때도 있지만, 조건에 따라서 복사해서 제공할 때도 있다.  
그러나 Copying과 viewing이 되는 상황을 구분해서 사용하는 것은 좋지 않다.

> but you should not depend on the copying vs. viewing behavior.


In [35]:
data = torch.arange(0, 24).reshape(1, 2, 3, 4)
viewed_data = data.view(1, 3, 2, 4)
reshaped_data = data.view(1, 3, 2, 4)

for tensor in [data, viewed_data, reshaped_data]:
    print("shape:", tensor.shape)


shape: torch.Size([1, 2, 3, 4])
shape: torch.Size([1, 3, 2, 4])
shape: torch.Size([1, 3, 2, 4])


In [122]:
tranposed_data = torch.arange(0, 24).reshape(1, 2, 3, 4).T
try:
    viewed_data = tranposed_data.view(1, 3, 2, 4)
except RuntimeError as error:
    print("RuntimeError:", error)
reshaped_data = tranposed_data.reshape(1, 3, 2, 4)

reshaped_data.add_(10)
for tensor in [tranposed_data, reshaped_data]:
    print("shape:", tensor.shape)


RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.
shape: torch.Size([4, 3, 2, 1])
shape: torch.Size([1, 3, 2, 4])


### Dimension swap

- `transpose()`또는 `swapdims()`, `swapaxes()`  
  두 차원끼리 교환할 때 사용한다.
- `permute()`  
  원하는 차원들을 교환할 때 사용한다.
- `T`  
  `permute(n-1, n-2, ..., 0)`과 동일하다.
- `view()` and `reshape()`


In [16]:
data = torch.arange(0, 12).reshape(4, 3, 1)
data_t = data.T
transposed_data = data.transpose(dim0=1, dim1=2)
permuted_data = data.permute(2, 0, 1)


print_tensors(data_t, transposed_data, permuted_data)


torch.Size([1, 3, 4])
tensor([[[ 0,  3,  6,  9],
         [ 1,  4,  7, 10],
         [ 2,  5,  8, 11]]])
torch.Size([4, 1, 3])
tensor([[[ 0,  1,  2]],

        [[ 3,  4,  5]],

        [[ 6,  7,  8]],

        [[ 9, 10, 11]]])
torch.Size([1, 4, 3])
tensor([[[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8],
         [ 9, 10, 11]]])


In [13]:
import torch

data = torch.arange(0, 6).reshape(3, 2)
transposed_data = data.T
viewed_data = data.view(2, 3)

print_tensors(transposed_data, viewed_data)


torch.Size([2, 3])
tensor([[0, 2, 4],
        [1, 3, 5]])
torch.Size([2, 3])
tensor([[0, 1, 2],
        [3, 4, 5]])


### Dimension insert

- `unsqueeze`
- `view` and `reshape`


In [18]:
data = torch.arange(0, 6)
unsqueezed_data = data.unsqueeze(dim=0)
viewed_data = data.view(-1, 6)

print_tensors(unsqueezed_data, viewed_data)


torch.Size([1, 6])
tensor([[0, 1, 2, 3, 4, 5]])
torch.Size([1, 6])
tensor([[0, 1, 2, 3, 4, 5]])


### Dimension reduction

- `ravel`  
  항상 뷰가 반환된다. (shallow copy)  
  모든 차원에 대해서 flatten한다.
- `flatten`  
  `numpy`와 다르게 조건에 따라서 원래 객체 또는 뷰가 반환된다.  
  flatten할 차원을 지정할 수 있다.
- `squeeze`  
  size가 1인 차원을 제거한다.  
  입력된 차원의 size가 1이면 그 차원을 제거한다.


In [24]:
data = torch.arange(0, 6).reshape(1, 2, 3).T
raveled_data = data.ravel()
flattened_data = data.flatten()
squeeze_data = data.squeeze()

print_tensors(raveled_data, flattened_data, squeeze_data)


torch.Size([6])
tensor([0, 3, 1, 4, 2, 5])
torch.Size([6])
tensor([0, 3, 1, 4, 2, 5])
torch.Size([3, 2])
tensor([[0, 3],
        [1, 4],
        [2, 5]])


### Concatenate

모두 deep copy 된다.

- `torch.cat()` 또는 `torch.concat()`  
  인자로 주어진 차원에서 이어 붙인다.
- `torch.stack()`
  인자로 주어진 차원을 새로 생성한 뒤, 이어 붙인다.
- `vstack` and `row_stack`  
  Stack tensors in sequence vertically (row wise).
- `hstack`  
  Stack tensors in sequence horizontally (column wise).
- `dstack`  
  Stack tensors in sequence depthwise (along third axis).


In [37]:
import torch

data = torch.arange(0, 6).reshape(2, 3)
concat_data = torch.concat([data, data], dim=0)
stack_data = torch.stack([data, data], dim=0)

for tensor in [concat_data, stack_data]:
    print("=" * 10)
    print(tensor.shape)
    print(tensor)


torch.Size([4, 3])
tensor([[0, 1, 2],
        [3, 4, 5],
        [0, 1, 2],
        [3, 4, 5]])
torch.Size([2, 2, 3])
tensor([[[0, 1, 2],
         [3, 4, 5]],

        [[0, 1, 2],
         [3, 4, 5]]])


In [39]:
data = torch.arange(0, 6).reshape(1, 2, 3)
vstacked_data = torch.vstack([data, data])
hstacked_data = torch.hstack([data, data])
dstacked_data = torch.dstack([data, data])

print_tensors(vstacked_data, hstacked_data, dstacked_data)


torch.Size([2, 2, 3])
tensor([[[0, 1, 2],
         [3, 4, 5]],

        [[0, 1, 2],
         [3, 4, 5]]])
torch.Size([1, 4, 3])
tensor([[[0, 1, 2],
         [3, 4, 5],
         [0, 1, 2],
         [3, 4, 5]]])
torch.Size([1, 2, 6])
tensor([[[0, 1, 2, 0, 1, 2],
         [3, 4, 5, 3, 4, 5]]])


### Scalar tensor

차원이 없이 스칼라 값을 갖는 tensor


In [124]:
import torch

scalar = torch.tensor(11)
print(scalar)
print(scalar.item())


tensor(11)
11


### to

조건에 따라서 copy가 될 수도 있고 안 될 수도 있다.


In [127]:
int_tensor = torch.tensor([1, 2, 3], dtype=torch.int)
double_tensor = int_tensor.to(dtype=torch.double)
print_tensors(int_tensor, double_tensor)


torch.Size([3])
tensor([1, 2, 3], dtype=torch.int32)
torch.Size([3])
tensor([1., 2., 3.], dtype=torch.float64)


## Autograd


`requires_grad`을 설정해주면 이후의 연산들이 tacking 된다.


In [84]:
data1 = torch.zeros(2, 3, requires_grad=True)
data2 = torch.zeros(2, 3)
data2.requires_grad_(True)

print(data1)
print(data2)


tensor([[0., 0., 0.],
        [0., 0., 0.]], requires_grad=True)
tensor([[0., 0., 0.],
        [0., 0., 0.]], requires_grad=True)


이후 연산할 때마다 연산되는 함수를 텐서에 저장하여 계산 그래프를 구성한다.  
속성`self.grad_fn`으로 확인할 수 있다.


In [50]:
x = torch.zeros(3, 3, requires_grad=True)
y = x @ x
y


tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]], grad_fn=<MmBackward0>)

`self.backward()`로 도함수를 계산하게 할 수 있다.  
다만, backward하는 텐서가 scalar이거나 매개변수 `grad_output`에 인자를 전달해야 한다.  
연산 중간에 있는 텐서의 `grad`를 보고 싶으면 `backward` 전에 `retain_grad`를 호출한다.


In [151]:
from torch import sigmoid

x = torch.linspace(-1, 1, 5, requires_grad=True)
y = sigmoid(x)
z = sum(y)
print("====Before Backward=====")
print("x:", x)
print("y:", y)
print("z:", z)
y.retain_grad()
z.backward()
print("====After Backward=====")
print("x.grad:", x.grad)
print("y.grad:", y.grad)


====Before Backward=====
x: tensor([-1.0000, -0.5000,  0.0000,  0.5000,  1.0000], requires_grad=True)
y: tensor([0.2689, 0.3775, 0.5000, 0.6225, 0.7311], grad_fn=<SigmoidBackward0>)
z: tensor(2.5000, grad_fn=<AddBackward0>)
====After Backward=====
x.grad: tensor([0.1966, 0.2350, 0.2500, 0.2350, 0.1966])
y.grad: tensor([1., 1., 1., 1., 1.])


In [163]:
x = torch.linspace(-5, 5, 5, dtype=torch.float, requires_grad=True)
w = torch.arange(0, 15, dtype=torch.float).reshape(3, 5).requires_grad_(True)
b = torch.arange(0, 3, dtype=torch.float, requires_grad=True)
y = w @ x + b
z = sum(y)
print("====Before Backward=====")
print("x:", x)
print("w:", w)
print("b:", b)
print("y:", y)
print("z:", z)
y.retain_grad()
z.backward()
print("====After Backward=====")
print("x.grad:", x.grad)
print("w.grad:", w.grad)
print("b.grad:", b.grad)
print("y.grad:", y.grad)
print("====검산====")
print("x.grad:", torch.equal(x.grad, w.T @ y.grad))
print("w.grad:", torch.equal(w.grad, y.grad.unsqueeze(dim=1) @ x.unsqueeze(0)))


====Before Backward=====
x: tensor([-5.0000, -2.5000,  0.0000,  2.5000,  5.0000], requires_grad=True)
w: tensor([[ 0.,  1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.,  9.],
        [10., 11., 12., 13., 14.]], requires_grad=True)
b: tensor([0., 1., 2.], requires_grad=True)
y: tensor([25., 26., 27.], grad_fn=<AddBackward0>)
z: tensor(78., grad_fn=<AddBackward0>)
====After Backward=====
x.grad: tensor([15., 18., 21., 24., 27.])
w.grad: tensor([[-5.0000, -2.5000,  0.0000,  2.5000,  5.0000],
        [-5.0000, -2.5000,  0.0000,  2.5000,  5.0000],
        [-5.0000, -2.5000,  0.0000,  2.5000,  5.0000]])
b.grad: tensor([1., 1., 1.])
y.grad: tensor([1., 1., 1.])
====검산====
x.grad: True
w.grad: True


### Stops autograd from tracking history on Tensor

- `with torch.no_grad()`
- `self.detach()`


In [131]:
with torch.no_grad():
    x = torch.linspace(-1, 1, 5, requires_grad=True)
    y = sigmoid(x)
    z = sum(y)
    print("x:", x)
    print("y:", y)
    print("z:", z)
    try:
        z.backward()
    except RuntimeError as error:
        print("RuntimeError:", error)


x: tensor([-1.0000, -0.5000,  0.0000,  0.5000,  1.0000], requires_grad=True)
y: tensor([0.2689, 0.3775, 0.5000, 0.6225, 0.7311])
z: tensor(2.5000)
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn


In [132]:
x = torch.linspace(-1, 1, 5, requires_grad=True)
y = sigmoid(x)
y.detach_()
z = sum(y)
print("x:", x)
print("y:", y)
print("z:", z)


x: tensor([-1.0000, -0.5000,  0.0000,  0.5000,  1.0000], requires_grad=True)
y: tensor([0.2689, 0.3775, 0.5000, 0.6225, 0.7311])
z: tensor(2.5000)
