# 2. PyTorch Basics

## References

- [AutoGrad 튜토리얼](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html)
- [Tensor와 Autograd 튜토리얼](https://pytorch.org/tutorials/beginner/examples_autograd/two_layer_net_autograd.html)

## 2.1 PyTorch Operations

- numpy + AutoGrad

<br>

## 2.2 Tensor

- 다차원 Arrays 를 표현하는 PyTorch 클래스
- 사실상 numpy의 ndarray와 동일
  - 그러므로 TensorFlow의 Tensor와도 동일
- Tensor를 생성하는 함수도 거의 동일


<br>

### 2.2.1 numpy - ndarray

In [16]:
import numpy as np
n_array = np.arange(10).reshape(2,5)
print(n_array)
print('ndim :', n_array.ndim, 'shape :', n_array.shape)

[[0 1 2 3 4]
 [5 6 7 8 9]]
ndim : 2 shape : (2, 5)


<br>

### 2.2.2 pytorch - tensor

In [17]:
import torch
t_array = torch.FloatTensor(n_array) # torch.FloatTensor
print(t_array)
print('n_dim :', t_array.ndim, 'shape :', t_array.shape)

tensor([[0., 1., 2., 3., 4.],
        [5., 6., 7., 8., 9.]])
n_dim : 2 shape : torch.Size([2, 5])


In [70]:
print(t_array.shape)
print(t_array.ndim)
print(t_array.size())

torch.Size([2, 5])
2
torch.Size([2, 5])


<br>

## 2.3 Array to Tensor

- Tensor 생성은 list나 ndarray를 사용 가능

<br>

### 2.3.1 data to tensor

- list to tensor

In [5]:
data = [[3, 5],[10, 5]]
x_data = torch.tensor(data)
x_data

tensor([[ 3,  5],
        [10,  5]])

<br>

### 2.3.2 ndarray to tensor

- `torch.from_numpy()` 사용

In [6]:
nd_array_ex = np.array(data)
tensor_array = torch.from_numpy(nd_array_ex) # torch.from_numpy()
tensor_array

tensor([[ 3,  5],
        [10,  5]])

<br>

## 2.4 Tensor data types

- 기본적으로 tensor가 가질수 있는 data 타입은 numpy와 동일
- 한 가지 차이점은 GPU 를 쓸 수 있게 해주냐 아니냐 이다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1ySVBPcwXav3Sg4ugEhq1s662fPkBU_pq' width=600/>

<br>

## 2.5 numpy like operations

기본적으로 pytorch의 대부분의 사용법이 그대로 적용됨

In [5]:
data = [[3, 5, 20],[10, 5, 50], [1, 5, 10]]
x_data = torch.tensor(data)
x_data

tensor([[ 3,  5, 20],
        [10,  5, 50],
        [ 1,  5, 10]])

In [8]:
x_data[1:] # slicing

tensor([[10,  5, 50],
        [ 1,  5, 10]])

In [9]:
x_data[:2, 1:]

tensor([[ 5, 20],
        [ 5, 50]])

In [10]:
x_data.flatten()

tensor([ 3,  5, 20, 10,  5, 50,  1,  5, 10])

In [11]:
torch.ones_like(x_data) # 많이 사용한다.

tensor([[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]])

In [12]:
x_data.numpy() # numpy 로 변환

array([[ 3,  5, 20],
       [10,  5, 50],
       [ 1,  5, 10]])

In [13]:
x_data.shape

torch.Size([3, 3])

In [14]:
x_data.dtype

torch.int64

<br>

- pytorch의 tensor는 GPU에 올려서 사용가능


In [15]:
x_data.device

device(type='cpu')

In [7]:
if torch.cuda.is_available():
    x_data_cuda = x_data.to('cuda')
x_data_cuda.device

device(type='cuda', index=0)

<br>

## 2.6 Tensor handling

- `view`, `squeeze`, `unsqueeze` 등으로 tensor 조정가능


<br>

### 2.6.1 `view`

- `reshape` 과 동일하게 tensor 의 shape 을 변환

In [18]:
tensor_ex = torch.rand(size=(2,3,2))
tensor_ex

tensor([[[0.5297, 0.1181],
         [0.6085, 0.4190],
         [0.1144, 0.4008]],

        [[0.7241, 0.7453],
         [0.9095, 0.3502],
         [0.5790, 0.2955]]])

In [19]:
tensor_ex.view([-1, 6]) # 2x6

tensor([[0.5297, 0.1181, 0.6085, 0.4190, 0.1144, 0.4008],
        [0.7241, 0.7453, 0.9095, 0.3502, 0.5790, 0.2955]])

In [20]:
tensor_ex.reshape([-1, 6]) # 2x6

tensor([[0.5297, 0.1181, 0.6085, 0.4190, 0.1144, 0.4008],
        [0.7241, 0.7453, 0.9095, 0.3502, 0.5790, 0.2955]])

<br>

- `view` 와 `reshape` 은 contiguity 보장의 차이
  - 차이점을 몰라도 상관없다.
  - `reshape` 대신 `view` 를 쓴다는 것 정도만 인식하고 잇으면 된다.

In [72]:
a = torch.zeros(3, 2)
b = a.view(2,3)
a.fill_(1)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [73]:
b # view 는 copy 가 아닌 메모리 주소를 그대로 사용하여 형태만 변환한다.

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [74]:
a = torch.zeros(3, 2)
b = a.t().reshape(6)
a.fill_(1)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [75]:
b # reshape 은 contiguity 를 보장하지 않는다.

tensor([0., 0., 0., 0., 0., 0.])

<br>

### 2.6.2 `squeeze` & `unsqueeze`

- `squeeze` : 차원의 개수가 1인 차원을 삭제 (압축)
- `unsqueeze` : 차원의 개수가 1인 차원을 추가

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1kHmqFbybIqgM5MI_yYIWiEdcJFaGDUwx' width=800/>

In [27]:
tensor_ex = torch.rand(size=(2, 1, 2))
tensor_ex, tensor_ex.shape

(tensor([[[0.4207, 0.2744]],
 
         [[0.5694, 0.3909]]]), torch.Size([2, 1, 2]))

In [28]:
tensor_ex.squeeze(), tensor_ex.squeeze().shape

(tensor([[0.4207, 0.2744],
         [0.5694, 0.3909]]), torch.Size([2, 2]))

In [29]:
tensor_ex = torch.rand(size=(2, 2))
tensor_ex, tensor_ex.shape

(tensor([[0.3620, 0.7929],
         [0.1603, 0.3443]]), torch.Size([2, 2]))

In [30]:
tensor_ex.unsqueeze(0), tensor_ex.unsqueeze(0).shape

(tensor([[[0.3620, 0.7929],
          [0.1603, 0.3443]]]), torch.Size([1, 2, 2]))

In [31]:
tensor_ex.unsqueeze(1), tensor_ex.unsqueeze(1).shape

(tensor([[[0.3620, 0.7929]],
 
         [[0.1603, 0.3443]]]), torch.Size([2, 1, 2]))

In [32]:
tensor_ex.unsqueeze(2), tensor_ex.unsqueeze(2).shape

(tensor([[[0.3620],
          [0.7929]],
 
         [[0.1603],
          [0.3443]]]), torch.Size([2, 2, 1]))

<br>

## 2.7 Tensor operations

### 2.7.1 기본 연산

- 기본적인 tensor의 operations는 numpy와 동일

In [35]:
n1 = np.arange(10).reshape(2, 5)
t1 = torch.FloatTensor(n1)
t1

tensor([[0., 1., 2., 3., 4.],
        [5., 6., 7., 8., 9.]])

In [34]:
t1 + t1

tensor([[ 0.,  2.,  4.,  6.,  8.],
        [10., 12., 14., 16., 18.]])

In [36]:
t1 - t1

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [37]:
t1 + 10

tensor([[10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19.]])

<br>

### 2.7.2 행렬 곱셈 연산

- 행렬곱셈 연산은 함수는 `dot`이 아닌 `mm` 사용
  - `dot` : 내적
  - `mm` : 행렬곱, `matmul` 대신 `mm` 을 쓰는 것이 좋다.

In [38]:
n2 = np.arange(10).reshape(5,2)
t2 = torch.FloatTensor(n2)
t2

tensor([[0., 1.],
        [2., 3.],
        [4., 5.],
        [6., 7.],
        [8., 9.]])

In [39]:
t1.mm(t2)

tensor([[ 60.,  70.],
        [160., 195.]])

In [40]:
t1.dot(t2) # RuntimeError

RuntimeError: ignored

In [41]:
t1.matmul(t2)

tensor([[ 60.,  70.],
        [160., 195.]])

In [42]:
a = torch.rand(10)
b = torch.rand(10)
a, b

(tensor([0.3846, 0.1456, 0.0883, 0.3242, 0.8338, 0.0317, 0.0238, 0.0672, 0.8488,
         0.0289]),
 tensor([0.8752, 0.4580, 0.7996, 0.7533, 0.7625, 0.3919, 0.0666, 0.2166, 0.3462,
         0.7067]))

In [43]:
a.dot(b)

tensor(1.6968)

In [44]:
a.mm(b) # mm 은 벡터 간의 연산을 지원하지 않는다.

RuntimeError: ignored

<br>

### 2.7.3 행렬 곱셈 broadcasting

- `mm`과 `matmul`은 broadcasting 지원 차리

In [53]:
a = torch.rand(5, 2, 3)
b = torch.rand(5)
a, b

(tensor([[[0.6282, 0.6176, 0.3826],
          [0.5647, 0.8693, 0.0171]],
 
         [[0.1470, 0.8121, 0.8813],
          [0.8725, 0.8595, 0.0591]],
 
         [[0.3958, 0.7399, 0.2723],
          [0.6436, 0.1906, 0.2711]],
 
         [[0.3449, 0.0572, 0.7652],
          [0.5220, 0.2364, 0.5620]],
 
         [[0.5806, 0.6246, 0.9703],
          [0.7424, 0.7539, 0.6715]]]),
 tensor([0.2540, 0.0222, 0.2296, 0.4341, 0.9119]))

In [54]:
a.mm(b) # 연산 x

RuntimeError: ignored

In [76]:
a = torch.rand(5, 2, 3)
b = torch.rand(3)
a, b

(tensor([[[0.5523, 0.1459, 0.1383],
          [0.2098, 0.5711, 0.8194]],
 
         [[0.5574, 0.6984, 0.4764],
          [0.8086, 0.7268, 0.1996]],
 
         [[0.0573, 0.4801, 0.3820],
          [0.1874, 0.0147, 0.1674]],
 
         [[0.8925, 0.2784, 0.8573],
          [0.9286, 0.3307, 0.7153]],
 
         [[0.6958, 0.0196, 0.4298],
          [0.7366, 0.4742, 0.9293]]]), tensor([0.6935, 0.2883, 0.9316]))

In [78]:
a.matmul(b) # 연산 o, 아래 코드와 수행 결과가 동일하다.

tensor([[0.5539, 1.0734],
        [1.0317, 0.9563],
        [0.5340, 0.2901],
        [1.4978, 1.4056],
        [0.8886, 1.5132]])

In [82]:
for i in range(a.size(0)): # 0 ~ 4
    print(a[i].mm(torch.unsqueeze(b, 1)).squeeze())

tensor([0.5539, 1.0734])
tensor([1.0317, 0.9563])
tensor([0.5340, 0.2901])
tensor([1.4978, 1.4056])
tensor([0.8886, 1.5132])


<br>

## 2.8 Tensor operations for ML/DL formula

- `nn.functional` 모듈을 통해 다양한 수식 변환을 지원함

In [62]:
import torch
import torch.nn.functional as F

tensor = torch.FloatTensor([0.5, 0.7, 0.1])
h_tensor = F.softmax(tensor, dim=0) # softmax
h_tensor

tensor([0.3458, 0.4224, 0.2318])

In [63]:
y = torch.randint(5, (10, 5))
y

tensor([[4, 3, 4, 1, 2],
        [4, 0, 3, 1, 1],
        [3, 4, 0, 0, 4],
        [0, 0, 0, 3, 2],
        [1, 4, 0, 1, 4],
        [3, 1, 4, 3, 2],
        [3, 0, 3, 1, 0],
        [2, 3, 0, 1, 0],
        [0, 4, 4, 1, 3],
        [4, 0, 1, 3, 0]])

In [64]:
y_label = y.argmax(dim=1)
y_label

tensor([0, 0, 1, 3, 1, 2, 0, 1, 1, 0])

In [65]:
F.one_hot(y_label) # one_hot

tensor([[1, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 1, 0, 0],
        [0, 0, 0, 1],
        [0, 1, 0, 0],
        [0, 0, 1, 0],
        [1, 0, 0, 0],
        [0, 1, 0, 0],
        [0, 1, 0, 0],
        [1, 0, 0, 0]])

<br>

## 2.9 AutoGrad

- PyTorch의 핵심은 자동 미분의 지원 → `backward` 함수 사용
- 미분을 해주는 대상이 되는 변수에는 `requires_grad=True` 를 지정해준다.

### 2.9.1 Ex 1

$$
\begin{align*}
&y=w^{2} \\
&z=10 * y+25 \\
&z=10 * w^{2}+25
\end{align*}
$$

In [66]:
w = torch.tensor(2.0, requires_grad=True)
y = w**2
z = 10*y + 25
z.backward() # z 에 대해 requires_grad 가 True 로 지정된 변수들의 미분이 수행된다.
w.grad # 20w

tensor(40.)

<br>

### 2.9.2 Ex 2

$$
\begin{aligned}
&Q=3 a^{3}-b^{2} \\
&\frac{\partial Q}{\partial a}=9 a^{2} , \quad \frac{\partial Q}{\partial b}=-2 b
\end{aligned}
$$

In [67]:
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)
Q = 3*a**3 - b**2

external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

In [68]:
a.grad

tensor([36., 81.])

In [69]:
b.grad

tensor([-12.,  -8.])