# Lab: Introduction to Deep Learning with Pytorch

* 본 실습에서는 총 3개의 exercise가 있습니다


# PyTorch

* 이번 실습에서는 [PyTorch](http://pytorch.org/)에 대해서 소개하겠니다. 
* numpy array 역시 tensor 이기때문에 Pytorch는 기본적으로 numpy와 매우 유사한 점이 많이 있습니다 (Pytorch의 디자인 철학이기도 합니다)
* 또한 GPU를 활용하기 위해서 매우 편리한 방법을 제공합니다
* 궁극적으로 network 만드는 것 부터 network training을 하기 위한 유용한 모듈을 모두 제공합니다. 
* 또한 Tensorflow에 비해서 Numpy/scipy와 더욱 유기적으로 작업이 가능합니다

## Tensors

* Neural network (NN)을 활용하기 위해서 필요한 수학적 연산은 대부분 
*tensors* 단위로 수행하는 선형 연산입니다
* Tensor는 2차원 이상의 array이며 matrix, vector의 일반화된 개체입니다
 - vector 는 1-dimensional tensor
 - Matrix 는 2-dimensional tensor, 
 - 3-dimensional tensor (예) RGB color images
* 이와 같은 이유로 pytorch의 가장 기본적인 data structure는 tensors 입니다

<img src="assets/tensor_examples.svg" width=600px>

그럼 첫 단계를 시작해보죠!

1. python에서 필요한 package를 불러와야합니다
2. pytorch 불러오는 명령어는 다음과 같습니다. 거의 항상 첫줄에 아래 명령어를 사용한다고 생각하세요

In [34]:
# First, import PyTorch

#torch 패키지를 불러온다.
import torch
import numpy as np
print(torch.__version__)

1.4.0


### Creating a tensor
`torch.tensor()` function

In [35]:
V_data = [1., 2., 3.]
V = torch.tensor(V_data)
print(V)

tensor([1., 2., 3.])


In [36]:
# Creates a matrix
M_data = [[1., 2., 3.], [4., 5., 6]]
M = torch.tensor(M_data)
print(M)

# Create a 3D tensor of size 2x2x2.
T_data = [[[1., 2.], [3., 4.]],
          [[5., 6.], [7., 8.]]]
T = torch.tensor(T_data)
print(T)

tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])


# Indexing tensors
* 1D tensor를 index로 들어 있는 자료를 불러오면 scalar (0D tensor)로 return
  * python scalar로 불러오기위해서 item() 활용
* 2D tensor를 index로 들어 있는 자료를 불러오면 vector (1D tensor)로 return
* 3D tensor를 index로 들어 있는 자료를 불러오면 matrix (2D tensor)로 return

In [37]:
# Index into V and get a scalar (0 dimensional tensor)
print(V[0])
# Get a Python number from it
print(V[0].item())# 값만 불러오기 위해 사용

# Index into M and get a vector
print(M[0][1])

# Index into T and get a matrix
print(T[0])

tensor(1.)
1.0
tensor(2.)
tensor([[1., 2.],
        [3., 4.]])


# dtype=torch.data_type

In [38]:
V_integer = torch.tensor([1.0, 2.0, 3.0], dtype=torch.int)
print(V_integer)


tensor([1, 2, 3], dtype=torch.int32)


# Generate random Gaussians $\mathcal{N}(0,1)$

In [39]:
x = torch.randn((3, 4, 5))
print(x)

tensor([[[ 1.7406, -1.0118,  0.4638, -0.3071,  0.1452],
         [-1.3805,  0.5380,  1.6129, -0.1540, -1.4109],
         [ 1.3949,  0.3928, -0.3801, -0.4246, -0.8367],
         [ 0.2114, -1.0704, -0.7628,  2.0018,  1.2637]],

        [[ 0.9124,  0.2211,  0.6594, -2.1463,  0.0903],
         [ 0.0998,  0.4822, -0.9694, -0.5497,  0.1569],
         [ 0.8536, -0.3293,  0.6815,  0.3578,  1.1874],
         [ 0.8566,  0.5121,  0.5222,  1.9607,  0.3652]],

        [[ 0.1299,  0.2500, -0.8542,  0.4376, -2.0960],
         [ 1.7293,  0.7944, -1.8832,  0.0834,  0.4725],
         [ 0.1065,  1.6914, -1.1708,  0.8595, -0.9490],
         [-0.4279,  0.9945,  0.1833,  1.7559, -0.3789]]])


# Tensor Operations


In [40]:
x = torch.tensor([1., 2., 3.])
y = torch.tensor([4., 5., 6.])
z = x + y
print(z)

tensor([5., 7., 9.])


In [41]:
# By default, it concatenates along the first axis (concatenates rows)
x_1 = torch.randn(2, 5)
y_1 = torch.randn(3, 5)
z_1 = torch.cat([x_1, y_1])
print(z_1)

# Concatenate columns:
x_2 = torch.randn(2, 3)
y_2 = torch.randn(2, 5)
# second arg specifies which axis to concat along
z_2 = torch.cat([x_2, y_2], 1)
print(z_2)

# Tensor의 크기가 잘 맞지 않으면 error 발생함
# torch.cat([x_1, x_2])
# print(x_1.size())
# print(x_2.size())

tensor([[-0.2407,  0.8575, -0.0868,  1.6569, -0.1239],
        [-0.4377,  0.7829,  0.2390, -0.2472,  0.6825],
        [ 2.2316,  0.6601, -0.7915, -1.1909, -0.8113],
        [ 1.2105, -0.3868, -0.5347, -0.4286, -0.4133],
        [-0.3539,  0.7848,  0.2220, -1.9052,  1.7632]])
tensor([[ 1.9673,  1.5108,  1.2928, -0.9184, -0.3289,  0.7116, -1.1284,  0.7913],
        [-1.1322, -0.8267,  2.5374, -0.0592, -0.0226, -0.2185, -0.0826,  0.1348]])


## Reshaping Tensors
* Use the .view() method to reshape a tensor
* This method receives heavy use, because many neural network components expect their inputs to have a certain shape
* Often you will need to reshape before passing your data to the component

In [42]:
x = torch.randn(2, 3, 4)
print(x)
print(x.view(2, 12))  # Reshape to 2 rows, 12 columns
# Same as above.  If one of the dimensions is -1, its size can be inferred
print(x.view(2, -1))


tensor([[[-1.0517,  0.2619, -0.5419,  0.6253],
         [-0.4292,  0.4859,  0.0560, -0.7862],
         [-0.4144,  0.7745,  0.1532,  0.2560]],

        [[-0.9583,  0.1465,  0.1407, -1.7251],
         [ 0.2827,  1.3205, -0.0999,  0.0183],
         [-0.7159,  0.2780,  0.7799, -0.4495]]])
tensor([[-1.0517,  0.2619, -0.5419,  0.6253, -0.4292,  0.4859,  0.0560, -0.7862,
         -0.4144,  0.7745,  0.1532,  0.2560],
        [-0.9583,  0.1465,  0.1407, -1.7251,  0.2827,  1.3205, -0.0999,  0.0183,
         -0.7159,  0.2780,  0.7799, -0.4495]])
tensor([[-1.0517,  0.2619, -0.5419,  0.6253, -0.4292,  0.4859,  0.0560, -0.7862,
         -0.4144,  0.7745,  0.1532,  0.2560],
        [-0.9583,  0.1465,  0.1407, -1.7251,  0.2827,  1.3205, -0.0999,  0.0183,
         -0.7159,  0.2780,  0.7799, -0.4495]])


## Numpy to Torch and back

* 마무리 하면서, 간단하게 pytorch와 numpy간 자료변경하는 방법을 review 합니다
* Numpy array에서 torch tensor로 자료변경은 `torch.from_numpy()` method를 사용
* torch tensor를 numpy array로 변경은 `.numpy()` method를 사용합니다 

In [43]:
a = np.random.rand(4,3)
a

array([[0.22738565, 0.11617435, 0.12148869],
       [0.37713729, 0.57010557, 0.26147698],
       [0.29290953, 0.52450962, 0.88551364],
       [0.74267067, 0.3621317 , 0.80984931]])

In [44]:
b = torch.from_numpy(a)

In [45]:
b.numpy()

array([[0.22738565, 0.11617435, 0.12148869],
       [0.37713729, 0.57010557, 0.26147698],
       [0.29290953, 0.52450962, 0.88551364],
       [0.74267067, 0.3621317 , 0.80984931]])

* 위에서 수행한 모든 작업은 in-place 변환으로 (메모리를 새로 할당하지 않음) 두 개체는 memory 관점에서 같습니다. 즉, 하나를 변경하면 다른 하나도 변합니다. 

In [46]:
# Multiply PyTorch Tensor by 2, in place
b.mul_(2)

tensor([[0.4548, 0.2323, 0.2430],
        [0.7543, 1.1402, 0.5230],
        [0.5858, 1.0490, 1.7710],
        [1.4853, 0.7243, 1.6197]], dtype=torch.float64)

In [47]:
# Numpy array matches new values from Tensor
a

array([[0.4547713 , 0.2323487 , 0.24297737],
       [0.75427459, 1.14021115, 0.52295396],
       [0.58581907, 1.04901924, 1.77102728],
       [1.48534135, 0.7242634 , 1.61969862]])

## Neural Networks

* Perceptron
 - Perceptron은 deep neural network에서 가장 기본적인 neuron을 본뜬 단위이며, 동작 방식은 input vector에 weight를 곱하고 더하여 (결국 innerproduct) activation function이라는 함수에 결과값을 출력하는 구조입니다. 

<img src="assets/simple_neuron.png" width=400px>

수식: 

$$
\begin{align}
y &= f(w_1 x_1 + w_2 x_2 + b) \\
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$

Vector inner product:

$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

# Activation function
* 예제로 activation fuction 하나를 만들어 보겠습니다.
* 다름 activation function을 완성하세요

$$
y = \frac{1}{1+e^{-x}}
$$

In [48]:
def activation(x):
    """ Sigmoid activation function 
    
        Arguments
        ---------
        x: torch.Tensor
    """
    return 1/(1+torch.exp(-x))

In [49]:
torch.exp(torch.tensor([1.]))

tensor([2.7183])

# Data, feature, weight tensors

In [54]:
### Generate some data
torch.manual_seed(7) # random 함수사용을 위한 seed 설정입니다

# Data (feature)
features = torch.randn(1, 5)
# True weights for our data, random normal variables
weights = torch.randn_like(features)
# bias term
bias = torch.randn(1,1)

* 각 줄별로 작업한 부분을 살펴보죠

 - `features = torch.randn((1, 5))` 
   - shape `(1, 5)` , one row and five columns, 
   - 정규분보 (평균 = 0, 표준편차 1)
   - 왜 평균과 표준편차를 위와 같이 고정해도 되나요?

 - `weights = torch.randn_like(features)` 
   - `features`와 같은 shape로 randn을 불러옵니다 (편리하죠)
 -  `bias = torch.randn((1, 1))` 
   

- PyTorch tensors 는 numpy arrray와 같이 기본적 연산이 가능합니다 (-,+,* 등) 


**Exercise 1 [2점]**: 위에서 정의한 `features`, `weights`, `bias`, `activation`을 활용하여 아래 수식을 와성하세요. 
  - [`torch.sum()`](https://pytorch.org/docs/stable/torch.html#torch.sum) 함수 또는, *some_tensor*`.sum()` 사용
  - 아래 $f(\cdot)$ 함수는 위에서 정의한  `activation` 함수입니다, $x$는 `feature`, $w$는 `weights`, $b$는 `bias`입니다

$$
\begin{align}
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$

`Output`:

`tensor([[0.1595]])`


In [51]:
a=torch.randn(1,2)
b=torch.randn(1,2)
z=a+b
print(z)
print(z.sum())
torch.sum(z)

tensor([[0.3734, 1.5328]])
tensor(1.9061)


tensor(1.9061)

In [52]:
# 답 작성

y = activation(torch.sum(features * weights) + bias)
y = activation((features * weights).sum() + bias)
print(y)

tensor([[0.1595]])


# Using Matrix Operations

- 위에서 곱과 합연산을 matrix operation을 활용하여 더욱 효율적으로 할 수 있습니다
- syntax만 간단해지는것이 아니고, 컴퓨터 내부적으로 연산도 더욱 효율적으로 합니다

[`torch.mm()`](https://pytorch.org/docs/stable/torch.html#torch.mm) 또는 [`torch.matmul()`](https://pytorch.org/docs/stable/torch.html#torch.matmul) 를 활용합니다. `matmul()`은 broadcasting 가능한 함수입니다. 

1. 우선 다음관 같이 실행해보세요

```python
>> torch.mm(features, weights)

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-13-15d592eb5279> in <module>()
----> 1 torch.mm(features, weights)

RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5] at /Users/soumith/minicondabuild3/conda-bld/pytorch_1524590658547/work/aten/src/TH/generic/THTensorMath.c:2033
```

- Python으로 코딩할때, 또는 NN 코딩을 할때 수없이 볼 수 있는 에러 메시지 입니다. 
- 여기 예제에서는 간단한 이유입니다
- 위에서 `mm` 함수는 (내적, 또는 수학적 matrix 곱으로 정의됩니다) 즉,
$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$
- 하지만, `features` and `weights` 모두 `(1, 5)` 차원이죠 (shape)
- 결론적으로 `weights`의 차원을 바꿔줘야합니다
- **Note** pytorch에서 data (features)의 차원은 row vector 입니다.

**Note:** Tensor의 shape를 확인하기 위해서 `tensor.shape`

In [53]:
torch.mm(features,weights)#torch.mm은 내적해주는거 


RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5] at C:\w\1\s\windows\pytorch\aten\src\TH/generic/THTensorMath.cpp:136

In [None]:
torch.mm(features,weights.view(5,-1))+bias

In [None]:
weights.shape

In [None]:
bias2=torch.tensor([1.])
torch.mm(features,weights.view(5,-1))+bias2

# Reshaping for Matrix multiplication 


차원 변경 복습:
- [`weights.reshape()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.reshape), 
  - `weights.reshape(a, b)`는 `weights`와 같은 원소를 size `(a, b)`로 변경한 tensor를 리턴 합니다. 새로운 메모리에 저장합니다. (즉, `weights` tensor에는 변확가 없습니다.) 
- [`weights.resize_()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.resize_), 
  - `weights.resize_(a, b)` 위와 같은 작업을 합니다. 다만, 이경우 차원 변경하고자 하는 차원이 원래 원소를 다 포함하지 못하는 경우 절삭합니다. 더 많은 차원이면 초기화 없이 원소를 추가하여 만들어집니다. 언더바 `_`는 inplace operation을 수행하는 함수를 나타내는 약속입니다 (메모리 복사없이). 이경우 직접 `weights`를 변경합니다.

- [`weights.view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view).
  - `weights`와 같은 원소를 size `(a, b)`로 변경한 tensor를 리턴 합니다

In [None]:
test = torch.tensor([1,2,3,4])
test.view(2,2)
test

In [None]:
test.resize_(2,2)
test

**Exercise 2 [2점]**: Exercise의 함수를 `torch.mm`을 사용하여 연산하세요

In [None]:
## 답안작성

y = activation(torch.mm(features, weights.view(5,1)) + bias)
print(y)

### Neural networks

* 지금까지는 한개의 neuron이 있을 때를 가정하여 실습하였습니다
* 이제 layer로 perceptron(neuron)을 쌓아서 동작하도록 해보겠습니다
* 즉 각 perceptron의 출력은 다음 perceptron의 입력이 되는거죠

<img src='assets/multilayer_diagram_weights.png' width=450px>

* 위 그림에서 첫 layer (가장아래) 는 inputs 즉, **input layer**
* 중간 layer (아래에서 두번째) **hidden layer**
* 그리고 가장위 출력을 담당하는 layer는 **output layer**라고 합니다
* 위에서 살펴본 것 처럼, matrix operation을 통해서 각 layer에서 수행하는 연산을 할 수 있습니다. 
* 예를 들어서 중간 hidden layer $\mathbf{h}=[h_1, h_2]$의 출력은 다음과 같이 연산합니다:
$$
\mathbf{h} = [h_1 \, h_2] = 
\begin{bmatrix}
x_1 \, x_2 \cdots \, x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           \vdots &\vdots \\
           w_{n1} &w_{n2}
\end{bmatrix}
$$

* 각 layer 마다 출력을 다음 layer에 입력으로 받아서 연산을 수행하면 다음과 같습니다

$$
\mathbf{y} =  f_2 \! \left(\, f_1 \! \left(\mathbf{x} \, \mathbf{W_1}\right) \mathbf{W_2} \right)
$$

* 위에서 $f_i()$ 함수들은 activation function으로 vector의 원소별로 연산됩니다 (위에서와 같이)
* 아래 실습에서는 위에서 만든 activation function이 $f_1$, $f_2$라고 가정합니다

**Exercise [10점]:** 위에서 배운 2 layer network를 만들고 출력값을 확인하는 문제입니다. 

* 변수
  * Network의 weight matrix `W1`(첫 layer) & `W2`(두번째 layer)
  * Network의 bias vector, `B1` & `B2`
  * input layer 크기(원소수) n_input = 5
  * hidden layer 크기(원소수) n_input = 3
  * output layer 크기(원소수) n_input = 2
* 생성
  * (1, n_input) shape의 정규분포 data를 `features` 변수에 저장
  * 위에서 정의한 크기에 맞추어서 `W_1`, `W_2` matrix를 정규분포로 생성
  * 위에서 정의한 크기에 맞추어서 `B_1`, `B_2` vector를 정규분포로 생성
* Output 연산
  * hidden layer output `h`로 저장
  * outer layer output `output`로 저장 (h가 입력 이겠죠)


In [None]:
### Data 생성 
torch.manual_seed(7) # 답 확인을 위한 Seed 설정 

#fhidden layer와 width가 클수록 성능이 좋아지지만 overfitting (연산 복잡도 증가)문제를 일으킴
# 네트워크 구조 size
n_input =  5     # Number of input units
n_hidden = 3                    # Number of hidden units 
n_output = 2



### 답안작성
# Features are 3 random normal variables
features = torch.randn((1, n_input))

# Weights for inputs to hidden layer
W1 = torch.randn(n_input, n_hidden)
# Weights for hidden layer to output layer
W2 = torch.randn(n_hidden, n_output)

# and bias terms for hidden and output layers
B1 = torch.randn((1, n_hidden))
B2 = torch.randn((1, n_output))

h = activation(torch.mm(features, W1) + B1)
output = activation(torch.mm(h, W2) + B2)
print(output)

잘되었다면, 답이 `tensor([[0.9835, 0.0738]])`로 나왔을 것입니다

Hidden unit의 크기는 보통  **hyperparameter** 의 한 종류로 간주합니다. 일반적으로 hidden layer의 수와 layer의 width가 클수록 성능이 좋아지는데, 반대로 overfitting, 연산복잡도 증가 등의 문제를 발생시킵니다.