# 파이토치(PyTorch)

## 파이토치의 구성요소
- `torch`: 텐서를 생성하는 라이브러리
- `torch.autograd`: 자동미분 기능을 제공하는 라이브러리
- `torch.nn`: 신경망을 생성하는 라이브러리
- `torch.multiprocessing`: 병렬처리 기능을 제공하는 라이브러리
- `torch.utils`: 데이터 조작 등 유틸리티 기능 제공
- `torch.legacy`(./nn/.optim): Torch로부터 포팅해온 코드
- `torch.onnx`: ONNX(Open Neural Network Exchange)
    - 서로 다른 프레임워크 간의 모델을 공유할 때 사용

## 텐서(Tensors)
- 넘파이(Numpy)의 ndarray와 유사
- GPU를 사용한 연산 가속도 가

In [None]:
import torch

In [None]:
torch.__version__

'1.9.0+cu102'

### 초기화 되지 않은 행렬

In [None]:
x = torch.empty(4, 2)
print(x)

tensor([[-3.3642e-08,  3.0948e-41],
        [ 3.3631e-44,  0.0000e+00],
        [        nan,  6.4460e-44],
        [ 1.1578e+27,  1.1362e+30]])


### 무작위로 초기화된 행렬

In [None]:
x = torch.rand(4, 2)
print(x)

tensor([[0.3968, 0.5963],
        [0.8655, 0.3621],
        [0.1989, 0.2185],
        [0.9455, 0.2194]])


### dtype이 long, 0으로 채워진 텐서

In [None]:
x = torch.zeros(4, 2, dtype=torch.long)
print(x)

tensor([[0, 0],
        [0, 0],
        [0, 0],
        [0, 0]])


In [None]:
x = torch.tensor([3, 2.3])
print(x)

tensor([3.0000, 2.3000])


In [None]:
x = x.new_ones(2, 4, dtype=torch.double)
print(x)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]], dtype=torch.float64)


In [None]:
x = torch.randn_like(x, dtype=torch.float)
print(x)

tensor([[-1.1085,  1.3684, -0.2359, -0.6701],
        [ 0.1358,  0.6955,  1.4884,  1.3300]])


### 텐서의 크기

In [None]:
print(x.size())

torch.Size([2, 4])


### 텐서의 연산(operations)

#### 덧셈1

In [None]:
print(x)

tensor([[-1.1085,  1.3684, -0.2359, -0.6701],
        [ 0.1358,  0.6955,  1.4884,  1.3300]])


In [None]:
y = torch.rand(2, 4)
print(y)
print(x + y)

tensor([[0.8936, 0.7196, 0.1018, 0.7896],
        [0.9148, 0.3923, 0.5982, 0.3648]])
tensor([[-0.2150,  2.0880, -0.1342,  0.1196],
        [ 1.0506,  1.0879,  2.0865,  1.6948]])


#### 덧셈2

In [None]:
print(torch.add(x, y))

tensor([[-0.2150,  2.0880, -0.1342,  0.1196],
        [ 1.0506,  1.0879,  2.0865,  1.6948]])


#### 덧셈3
- 결과 텐서를 인자로 제공

In [None]:
result = torch.empty(2, 4)
torch.add(x, y, out=result)
print(result)

tensor([[-0.2150,  2.0880, -0.1342,  0.1196],
        [ 1.0506,  1.0879,  2.0865,  1.6948]])


#### 덧셈4
- `in-place` 방식
- (참고) in-place 방식
    - in-place 방식으로 텐서의 값을 변경하는 연산 뒤에는 _"가 붙음
    - `x.copy_(y), x.t_()`

In [None]:
print(x)
print(y)
y.add_(x)  # y += x
print(y)

tensor([[-1.1085,  1.3684, -0.2359, -0.6701],
        [ 0.1358,  0.6955,  1.4884,  1.3300]])
tensor([[0.8936, 0.7196, 0.1018, 0.7896],
        [0.9148, 0.3923, 0.5982, 0.3648]])
tensor([[-0.2150,  2.0880, -0.1342,  0.1196],
        [ 1.0506,  1.0879,  2.0865,  1.6948]])


#### 그 외의 연산
- `torch.sub`: 뺄셈
- `torch.mul`: 곱셈
- `torch.div`: 나눗셈
- `torch.mm`: 내적(dot product)

In [None]:
x = torch.Tensor([[1, 3],
                  [5, 7]])
y = torch.Tensor([[2, 4],
                  [6, 8]])
print(x - y)
print(torch.sub(x, y))
print(x.sub(y))

tensor([[-1., -1.],
        [-1., -1.]])
tensor([[-1., -1.],
        [-1., -1.]])
tensor([[-1., -1.],
        [-1., -1.]])


In [None]:
x = torch.Tensor([[1, 3],
                  [5, 7]])
y = torch.Tensor([[2, 4],
                  [6, 8]])
print(x * y)
print(torch.mul(x, y))
print(x.mul(y))

tensor([[ 2., 12.],
        [30., 56.]])
tensor([[ 2., 12.],
        [30., 56.]])
tensor([[ 2., 12.],
        [30., 56.]])


In [None]:
x = torch.Tensor([[1, 3],
                  [5, 7]])
y = torch.Tensor([[2, 4],
                  [6, 8]])
print(x / y)
print(torch.div(x, y))
print(x.div(y))

tensor([[0.5000, 0.7500],
        [0.8333, 0.8750]])
tensor([[0.5000, 0.7500],
        [0.8333, 0.8750]])
tensor([[0.5000, 0.7500],
        [0.8333, 0.8750]])


In [None]:
x = torch.Tensor([[1, 3],
                  [5, 7]])
y = torch.Tensor([[2, 4],
                  [6, 8]])
print(torch.mm(x, y))

tensor([[20., 28.],
        [52., 76.]])


### 텐서의 조작

#### 인덱싱
- 넘파이처럼 인덱싱 사용가능

In [None]:
print(x)

tensor([[1., 3.],
        [5., 7.]])


In [None]:
print(x[:, 1])

tensor([3., 7.])


#### view
- 텐서의 크기(size)나 모양(shape(을 변경

In [None]:
x = torch.randn(4, 5)
y = x.view(20)
z = x.view(5, -1)

print(x)
print(y)
print(z)

tensor([[-0.0870, -0.6358, -0.9602, -0.3054,  0.2436],
        [ 0.4682, -0.2828,  0.2224, -0.1493, -0.8952],
        [ 0.4196,  0.0883,  0.3394, -0.4463,  0.8229],
        [-0.4553,  0.3441,  0.7871,  1.2921, -0.1862]])
tensor([-0.0870, -0.6358, -0.9602, -0.3054,  0.2436,  0.4682, -0.2828,  0.2224,
        -0.1493, -0.8952,  0.4196,  0.0883,  0.3394, -0.4463,  0.8229, -0.4553,
         0.3441,  0.7871,  1.2921, -0.1862])
tensor([[-0.0870, -0.6358, -0.9602, -0.3054],
        [ 0.2436,  0.4682, -0.2828,  0.2224],
        [-0.1493, -0.8952,  0.4196,  0.0883],
        [ 0.3394, -0.4463,  0.8229, -0.4553],
        [ 0.3441,  0.7871,  1.2921, -0.1862]])


#### item
- 텐서에 값이 단 하나라도 존재하면 숫자값을 얻을 수 있음

In [None]:
x = torch.randn(1)
print(x)
print(x.item())
print(x.dtype)

tensor([-0.3639])
-0.36385467648506165
torch.float32


- 스칼라값 하나만 존재해야함

In [None]:
x = torch.randn(2)
print(x)
print(x.item())
print(x.dtype)

tensor([0.5736, 0.1307])


ValueError: ignored

#### squeeze
- 차원을 축소(제거)

In [None]:
tensor = torch.rand(1, 3, 3)
print(tensor)
tensor.shape

tensor([[[0.5053, 0.1412, 0.2698],
         [0.9495, 0.4886, 0.8683],
         [0.8653, 0.3016, 0.4464]]])


torch.Size([1, 3, 3])

In [None]:
t = tensor.squeeze()
print(t)
print(t.shape)

tensor([[0.1061, 0.8453, 0.0494],
        [0.7425, 0.7393, 0.4664],
        [0.7464, 0.9410, 0.1089]])
torch.Size([3, 3])


#### unsqueeze
- 차원을 증가(생성)

In [None]:
tensor = torch.rand(1, 3, 3)
print(tensor)
print(tensor.shape)

tensor([[[0.4493, 0.7011, 0.4115],
         [0.1104, 0.7321, 0.6606],
         [0.7319, 0.4084, 0.4996]]])
torch.Size([1, 3, 3])


In [None]:
t = tensor.unsqueeze(dim=0)
print(t)
print(t.shape)

tensor([[[[0.4493, 0.7011, 0.4115],
          [0.1104, 0.7321, 0.6606],
          [0.7319, 0.4084, 0.4996]]]])
torch.Size([1, 1, 3, 3])


#### stack
- 텐서간 결합

In [None]:
x = torch.FloatTensor([1, 4])
y = torch.FloatTensor([2, 5])
z = torch.FloatTensor([3, 6])

print(torch.stack([x, y, z]))

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


#### cat
- 텐서를 결합하는 메소드(concatenate)
- 넘파이의 `stack`과 유사하지만, 쌓을 dim이 존재해야함
    - 예를 들어, 해당 차원을 늘려준 후 결합

In [None]:
a = torch.randn(1, 1, 3, 3)
b = torch.randn(1, 1, 3, 3)
c = torch.cat((a, b), dim=0)

print(c)
print(c.size())

tensor([[[[-0.2923,  2.0430, -0.1426],
          [-0.3850,  0.2610,  1.1237],
          [-1.4018,  0.8863, -0.7099]]],


        [[[ 0.2371, -0.4191, -2.3143],
          [-1.1595, -1.3909,  0.8248],
          [ 0.2405, -1.0632,  0.0067]]]])
torch.Size([2, 1, 3, 3])


In [None]:
a = torch.randn(1, 3, 3)
b = torch.randn(1, 3, 3)
c = torch.cat((a, b), dim=2)

print(c)
print(c.size())

tensor([[[-2.0697,  1.3026, -1.1606,  1.4602, -0.7420,  0.5580],
         [-1.2083, -0.4265,  1.0785,  1.5325, -0.3462,  0.1130],
         [-0.0976,  2.2121, -0.5658,  0.1557, -0.2052,  0.8370]]])
torch.Size([1, 3, 6])


#### chunk
- 텐서를 여러 개로 나눌 때 사용
- 몇 개의 텐서로 나눌 것이냐

In [None]:
tensor = torch.rand(3, 6)
t1, t2, t3 = torch.chunk(tensor, 3, dim=1)

print(tensor)
print(t1)
print(t2)
print(t3)

tensor([[0.7648, 0.7297, 0.1965, 0.7727, 0.3092, 0.8953],
        [0.0584, 0.1341, 0.8986, 0.7202, 0.9043, 0.0023],
        [0.5042, 0.7820, 0.8555, 0.4088, 0.2089, 0.6553]])
tensor([[0.7648, 0.7297],
        [0.0584, 0.1341],
        [0.5042, 0.7820]])
tensor([[0.1965, 0.7727],
        [0.8986, 0.7202],
        [0.8555, 0.4088]])
tensor([[0.3092, 0.8953],
        [0.9043, 0.0023],
        [0.2089, 0.6553]])


#### split
- `chunk`와 동일한 기능이지만 조금 다름
- 하나의 텐서당 크기가 얼마이냐

In [None]:
tensor = torch.rand(3, 6)
t1, t2 = torch.split(tensor, 3, dim=1)

print(tensor)
print(t1)
print(t2)

tensor([[0.0044, 0.6661, 0.6375, 0.0461, 0.0627, 0.0266],
        [0.9675, 0.2821, 0.1412, 0.3919, 0.6007, 0.2681],
        [0.4882, 0.1190, 0.3721, 0.1073, 0.3322, 0.0310]])
tensor([[0.0044, 0.6661, 0.6375],
        [0.9675, 0.2821, 0.1412],
        [0.4882, 0.1190, 0.3721]])
tensor([[0.0461, 0.0627, 0.0266],
        [0.3919, 0.6007, 0.2681],
        [0.1073, 0.3322, 0.0310]])


#### torch <-> numpy
- Torch Tensor(텐서)를 Numpy array(배열)로 변환 가능
    - `numpy()`
    - `from_numpy()`
- (참고)
    - Tensor가 CPU상에 있다면 Numpy 배열은 메모리 공간을 공유하므로 하나가 변하면, 다른 하나도 변함

In [None]:
a = torch.ones(7)
print(a)

tensor([1., 1., 1., 1., 1., 1., 1.])


In [None]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1. 1. 1.]


In [None]:
a.add_(1)  # Tensor가 CPU상에 있기 때문에 a, b 둘 다 변했다!
print(a)
print(b)

tensor([2., 2., 2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2. 2. 2.]


In [None]:
import numpy as np

a = np.ones(7)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64)


#### CUDA Tensor
- `.to` 메소드를 사용하여 텐서를 어떠한 장치로도 옮길 수 있음
    - 예) cpu, gpu

In [None]:
import torch

In [None]:
x = torch.randn(1)
print(x)
print(x.item())
print(x.dtype)

tensor([-1.3242])
-1.3242480754852295
torch.float32


In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

y = torch.ones_like(x, device=device)
x = x.to(device)
z = x + y
print(device)
print(z)
print(z.to("cpu", torch.double))

cuda
tensor([-0.3242], device='cuda:0')
tensor([-0.3242], dtype=torch.float64)


## AUTOGRAD (자동미분)
- autograd 패키지는 Tensor의 모든 연산에 대해 자동 미분 제공
- 이는 코드를 어떻게 작성하여 실행하느냐에 따라 역전파가 정의된다는 뜻
- backprop을 위한 미분값을 자동으로 계산

### Tensor
- data: tensor형태의 데이터
- grad: data가 거쳐온 layer에 대한 미분값 저장
- grad_fn: 미분값을 계산한 함수에 대한 정보를 저장 (어떤 함수에 대해서 backprop 했는지)
- ...