# PyTorch

##### PyTorch = numpy + AutoGrad
###### numpy를 잘 알면 PyTorch도 쉽게 이해 할 수 있다.

1. numpy의 operation와 거의 비슷하다
2. reshape대신 view 써라
3. unsqueeze와 squeeze의 차이를 이해해라
4. mm과 dot, matrixmultiplication(matmul)의 차이를 이해해라.

---

### numpy vs torch

**numpy - ndarray

In [2]:
import numpy as np
n_array = np.arange(10).reshape(2,5)
print(n_array)
print("ndim :", n_array.ndim, "shape :", n_array.shape)

[[0 1 2 3 4]
 [5 6 7 8 9]]
ndim : 2 shape : (2, 5)


**pytorch - tensor

In [4]:
import torch
t_array = torch.FloatTensor(n_array)
print(t_array)
print("ndim :", t_array.ndim, "shape :", t_array.shape)

tensor([[0., 1., 2., 3., 4.],
        [5., 6., 7., 8., 9.]])
ndim : 2 shape : torch.Size([2, 5])


**data to tensor

In [263]:
data = [[3, 5],[10, 5]]
x_data = torch.tensor(data)
x_data

tensor([[ 3,  5],
        [10,  5]])

**ndarray to tensor

In [265]:
nd_array_ex = np.array(data)
tensor_array = torch.from_numpy(nd_array_ex)
tensor_array

tensor([[ 3,  5],
        [10,  5]])

In [266]:
torch.Tensor.numpy(tensor_array)

array([[ 3,  5],
       [10,  5]])

**이런 방식들로 tensor를 사용 할 수 있지만 이렇게 생성 할 일은 거의 없을 듯
**numpy와 차이점은 GPU를 사용 할 수 있는 점

In [14]:
data = [[3, 5, 20],[10, 5, 50], [1, 5, 10]]
x_data = torch.tensor(data)
x_data

tensor([[ 3,  5, 20],
        [10,  5, 50],
        [ 1,  5, 10]])

In [13]:
x_data[1:]

tensor([[10,  5, 50],
        [ 1,  5, 10]])

In [15]:
x_data[:2,1:]

tensor([[ 5, 20],
        [ 5, 50]])

In [16]:
x_data.flatten()

tensor([ 3,  5, 20, 10,  5, 50,  1,  5, 10])

In [17]:
torch.ones_like(x_data)

tensor([[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]])

In [18]:
x_data.numpy()

array([[ 3,  5, 20],
       [10,  5, 50],
       [ 1,  5, 10]])

In [19]:
x_data.shape

torch.Size([3, 3])

In [20]:
x_data.dtype

torch.int64

**행렬을 다루는 방식이 numpy와 비슷하다.

**numpy와의 차이

In [215]:
x_data.device

device(type='cpu')

In [22]:
if torch.cuda.is_available():
    x_data_cuda = x_data.to('cuda')
x_data_cuda.device

NameError: name 'x_data_cuda' is not defined

**colab에서 런타임 유형을 GPU로 변경하고 돌리면 
device(type='cuda', index=0) 이렇게 나옴

---

### view vs reshape

In [24]:
tensor_ex = torch.rand(size=(2, 3, 2))
tensor_ex

tensor([[[0.6749, 0.4389],
         [0.0604, 0.5154],
         [0.2493, 0.5520]],

        [[0.9478, 0.7320],
         [0.5665, 0.4165],
         [0.7390, 0.3973]]])

In [25]:
tensor_ex.view([-1,6])

tensor([[0.6749, 0.4389, 0.0604, 0.5154, 0.2493, 0.5520],
        [0.9478, 0.7320, 0.5665, 0.4165, 0.7390, 0.3973]])

In [26]:
tensor_ex.reshape([-1,6])

tensor([[0.6749, 0.4389, 0.0604, 0.5154, 0.2493, 0.5520],
        [0.9478, 0.7320, 0.5665, 0.4165, 0.7390, 0.3973]])

---

**view와 reshape은 비슷하지만 contiguity 보장의 차이

In [174]:
a = torch.zeros(3,2)
a.fill_(1)
aa = a.t()
b = aa.view(2,3)
a

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [175]:
b

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [169]:
c = torch.zeros(3,2)
c.fill_(2)
d = a.t().reshape(6)
c

tensor([[2., 2.],
        [2., 2.],
        [2., 2.]])

In [170]:
d

tensor([1., 1., 1., 1., 1., 1.])

**view와 reshape을 이리저리 만저보고 느낀점은

**view는 데이터의 연결을 깨뜨리는 모양의 변형을 막아서 손실이 없이 복사해주고
shape는 모양을 원소 개수만 맞으면 다양하게 차원을 바꿀 수 있는데 데이터의 연결이 끊어지게 복사됨

**view를 쓰라는 이유를 조금 알 것 같음.

---

### squeeze, unsqueeze

In [196]:
tensor_ex = torch.rand(size=(1,2,1,2,1,1))
tensor_ex

tensor([[[[[[0.2795]],

           [[0.4292]]]],



         [[[[0.1845]],

           [[0.3284]]]]]])

In [197]:
tensor_ex.squeeze()

tensor([[0.2795, 0.4292],
        [0.1845, 0.3284]])

**squeeze는 크기가 1인 차원을 모두 제거해준다.

In [199]:
tensor_ex = torch.rand(size=(2, 2))

In [200]:
tensor_ex.unsqueeze(0).shape

torch.Size([1, 2, 2])

In [201]:
tensor_ex.unsqueeze(1).shape

torch.Size([2, 1, 2])

In [202]:
tensor_ex.unsqueeze(2).shape

torch.Size([2, 2, 1])

In [204]:
tensor_ex.unsqueeze(0).unsqueeze(2).shape

torch.Size([1, 2, 1, 2])

**unsqueeze는 크기가 1인 차원을 원하는 위치에 넣어준다.

---

### dot, mm, matmul

In [224]:
n1 = np.arange(10).reshape(2,5)
t1 = torch.FloatTensor(n1)
t1.shape

torch.Size([2, 5])

In [219]:
t1 + t1

tensor([[ 0.,  2.,  4.,  6.,  8.],
        [10., 12., 14., 16., 18.]])

In [220]:
t1 - t1

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [221]:
t1 + 10

tensor([[10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19.]])

**기본적인 tensor의 operations는 numpy와 동일

In [225]:
n2 = np.arange(10).reshape(5,2)
t2 = torch.FloatTensor(n2)
t2.shape

torch.Size([5, 2])

In [223]:
t1.mm(t2)

tensor([[ 60.,  70.],
        [160., 195.]])

In [226]:
t1.dot(t2)

RuntimeError: 1D tensors expected, but got 2D and 2D tensors

In [227]:
t1.matmul(t2)

tensor([[ 60.,  70.],
        [160., 195.]])

In [228]:
a = torch.rand(10)
b = torch.rand(10)
a.dot(b)

tensor(2.5192)

In [229]:
a = torch.rand(10)
b = torch.rand(10)
a.mm(b)

RuntimeError: self must be a matrix

In [230]:
a.matmul(b)

tensor(1.7447)

|separation|  dot |  mm | matmul |
|----------|------|-----|--------|
|  vector  | True |False|  True  |
|  matrix  | False| True|  True  |

**matmul은 broadcasting을 지원해서 두 연산 모두 가능하지만 혼동할 수도 있다.

In [231]:
a = torch.rand(5, 2, 3)
b = torch.rand(5)
a.mm(b)

RuntimeError: self must be a matrix

In [232]:
a = torch.rand(5, 2, 3)
b = torch.rand(3)
a.matmul(b)

tensor([[1.1637, 0.6587],
        [1.2324, 0.2820],
        [0.4573, 1.3217],
        [0.8825, 0.9293],
        [0.3246, 1.0324]])

In [235]:
a[0].mm(torch.unsqueeze(b,1)).squeeze()

tensor([1.1637, 0.6587])

In [236]:
a[1].mm(torch.unsqueeze(b,1)).squeeze()

tensor([1.2324, 0.2820])

In [237]:
a[2].mm(torch.unsqueeze(b,1)).squeeze()

tensor([0.4573, 1.3217])

In [238]:
a[3].mm(torch.unsqueeze(b,1)).squeeze()

tensor([0.8825, 0.9293])

In [239]:
a[4].mm(torch.unsqueeze(b,1)).squeeze()

tensor([0.3246, 1.0324])

### Tensor operations for ML/DL formula

In [240]:
import torch
import torch.nn.functional as F
tensor = torch.FloatTensor([0.5, 0.7, 0.1])
h_tensor = F.softmax(tensor, dim=0)
h_tensor

tensor([0.3458, 0.4224, 0.2318])

In [244]:
y = torch.randint(5, (10,5))
y_label = y.argmax(dim=1)
torch.nn.functional.one_hot(y_label)

tensor([[1, 0, 0, 0, 0],
        [1, 0, 0, 0, 0],
        [0, 1, 0, 0, 0],
        [0, 0, 0, 0, 1],
        [0, 1, 0, 0, 0],
        [1, 0, 0, 0, 0],
        [0, 1, 0, 0, 0],
        [0, 0, 0, 0, 1],
        [1, 0, 0, 0, 0],
        [0, 0, 1, 0, 0]])

### AutoGrad

In [258]:
w = torch.tensor(2.0,requires_grad=True)
y = w**2
z = 10*y + 2
z.backward()
w.grad

tensor(40.)

In [259]:
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)
Q = 3*a**3 - b**2
external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

In [260]:
a.grad

tensor([36., 81.])

In [261]:
b.grad

tensor([-12.,  -8.])