<a href="https://colab.research.google.com/github/JLee823/2023-1st-AI-assisted-drug-discovery-SNU/blob/main/Week4_introduction_to_PyTorch_Tensor_Multilayer_percetron.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텐서, 다중 퍼셉트론의 기초
------
본 수업에서는 딥러닝의 기초가 되는 텐서와 다중 퍼셉트론의 기초 개념에 대해서 다루어 본다. 

본 노트는 University of Amsterdam의 deep learning tutorial 강좌와 위키 독스의 파이토치로 시작하는 딥러닝 입문에서 많이 참고하였습니다. 
 
본 수업에서는 다양한 딥러닝 라이브러리(tensorflow, caffe, Theano 등)중에서 현재 가장 널리 사용되고 있는 파이토치 라이브러리를 사용한다. 

2023년 3월 현재 파이토치에 관한 다양한 온라인 material들이 있으며, 자세한 설명이 필요할 경우에는 다음의 material들을 참고할 수 있다. 
* 파이토치 한국어 튜토리얼: https://tutorials.pytorch.kr/
* 파이토치 60분만에 끝내기: https://tutorials.pytorch.kr/beginner/deep_learning_60min_blitz.html
* PyTorch로 시작하는 딥 러닝 입문: https://wikidocs.net/book/2788
* University of Amsterdam, deep learning tutorial: https://github.com/phlippe/uvadlc_notebooks

파이토치는 다음과 같이 불러 올 수 있다. 



In [1]:
import torch
print("Using torch", torch.__version__)

Using torch 1.13.1+cu116


이 강의노트를 작성하는 2023년 3월 현재 colab에서 기본으로 제공되는 PyTorch 버젼은 1.13.1이다.

PyTorch 2.0 버젼이 공식적으로 공개되었으므로 조만간 2.0이 서비스 될 것으로 예상됩니다. 

In [2]:
import numpy as np

## 텐서(Tensor)
--------
텐서는 벡터(vector)와 행렬(matrix)과 유사하게 숫자들이 일정한 index를 가지고 배열되어 있는 데이터 형태이다. 

이는 수치 계산을 빠르게 하기 위한 라이브러리인 numpy의 array와 유사하다. 
 
사실 우리가 잘 아는 scalar, vector, matrix는 텐서의 특수한 경우이다. 

scalar는 rank 0의 텐서이고, vector는 rank 1의 텐서, matrix는 rank 2의 텐서이다. 

<img src="https://hkilter.com/images/7/7a/Tensors.png" width=800>

### 초기화 

텐서는 다음과 같이 리스트로 부터 초기화 할 수 있다. 

In [3]:
data = [[1, 2],[3, 4]]
x_data = torch.tensor(data)

위와 같이 생성된 x_data는 2X2 형태의 tensor (matrix) 이다. 

In [4]:
x_data

tensor([[1, 2],
        [3, 4]])

In [5]:
x_data.shape

torch.Size([2, 2])

#### NumPy 배열로부터 생성하기

텐서는 NumPy 배열로 생성할 수 있다. 

In [6]:
np_array = np.array(data)
x_np = torch.from_numpy(np_array)

#### 랜덤한 텐서 초기화

다음과 같은 방식으로 임의의 값이 들어가 있는 무작위 텐서를 초기화 할 수 있다. 

무작위 텐서를 매번 동일하게 생성되도록 하기 위해서 random seed를 고정시켜 준다. 


In [7]:
torch.manual_seed(42) # Setting the seed

<torch._C.Generator at 0x7f44accfde30>

In [8]:
x = torch.Tensor(2, 3, 4)
print(x)

tensor([[[1.4013e-45, 3.2230e-44, 1.4013e-45, 3.3631e-44],
         [1.5428e-42, 4.6168e+24, 1.5808e-34, 0.0000e+00],
         [1.5414e-44, 1.3563e-19, 1.5808e-34, 0.0000e+00]],

        [[1.5400e-42, 7.2133e+22, 1.5808e-34, 0.0000e+00],
         [1.5414e-44, 7.5551e+31, 1.5808e-34, 0.0000e+00],
         [1.5134e-42, 1.7664e+22, 1.5808e-34, 0.0000e+00]]])


`torch.Tensor`는 주어진 크기의 텐서를 생성한다. 

무작위 텐선 뿐만 아니라 다음의 함수를 사용하면 다양한 텐서들을 초기화 할 수 있다. 

* `torch.zeros`: 0으로 채운 텐서
* `torch.ones`: 1로 채운 텐서
* `torch.rand`: 0~1 사이의 무작위 값으로 채워진 텐서
* `torch.randn`: 평균이 0이고 표준편차가 1인 정규 분포를 따르는 무작위 값으로 채워진 텐서
* `torch.arange`: $N,N+1,N+2,...,M$ 의 값을 가지는 텐서
* `torch.Tensor` (input list): 주어진 input 값을 가진 텐서

In [9]:
# Create a tensor with random values between 0 and 1 with the shape [2, 3, 4]
x = torch.rand(2, 3, 4)
print(x)

tensor([[[0.8823, 0.9150, 0.3829, 0.9593],
         [0.3904, 0.6009, 0.2566, 0.7936],
         [0.9408, 0.1332, 0.9346, 0.5936]],

        [[0.8694, 0.5677, 0.7411, 0.4294],
         [0.8854, 0.5739, 0.2666, 0.6274],
         [0.2696, 0.4414, 0.2969, 0.8317]]])


텐서의 크기는 x.shape과 x.size를 통해서 확인할 수 있다. 

In [10]:
shape = x.shape
print("Shape:", x.shape)

size = x.size()
print("Size:", size)

dim1, dim2, dim3 = x.size()
print("Size:", dim1, dim2, dim3)

Shape: torch.Size([2, 3, 4])
Size: torch.Size([2, 3, 4])
Size: 2 3 4


### 텐서 연산 
------

#### 덧셈 연산

파이토치에서 제공하는 다양한 텐서 연산에 대한 문서는 다음에서 찾을 수 있다. 

[PyTorch documentation](https://pytorch.org/docs/stable/tensors.html#)

본 노트에서는 중요한 몇 가지의 예시를 리뷰하도록 한다. 

가장 기본적인 연산은 덧셈 연산이다. 


In [11]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 3)
y = x1 + x2

print("X1", x1)
print("X2", x2)
print("Y", y)

X1 tensor([[0.1053, 0.2695, 0.3588],
        [0.1994, 0.5472, 0.0062]])
X2 tensor([[0.9516, 0.0753, 0.8860],
        [0.5832, 0.3376, 0.8090]])
Y tensor([[1.0569, 0.3448, 1.2448],
        [0.7826, 0.8848, 0.8151]])


당연하게도 두 개의 텐서의 크기가 다르면 덧셈(뺄셈)이 불가능하다. 

In [12]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 4)
y=x1+x2

RuntimeError: ignored

그러나 [브로드캐스팅](https://pytorch.org/docs/stable/notes/broadcasting.html)이라는 기능 때문에 크기가 다르더라도 덧셈이 가능한 경우가 있다. 


In [13]:
x1 = torch.tensor([1,2,3,4])
x2 = torch.tensor([2]) 
print(x1.shape)
print(x2.shape)
print(x1+x2)


torch.Size([4])
torch.Size([1])
tensor([3, 4, 5, 6])


In [14]:
# 다차원의 경우에도 가능
x1 = torch.rand(2,3)
x2 = torch.tensor([1])
print(x1)
print(x1+x2)

tensor([[0.0050, 0.3068, 0.1165],
        [0.9103, 0.6440, 0.7071]])
tensor([[1.0050, 1.3068, 1.1165],
        [1.9103, 1.6440, 1.7071]])


#### view 연산
--------

파이토치에서 많이 사용되는 텐서 연산 중의 하나는 텐서의 크기 변환이다. 

텐서의 크기는 view라는 method를 이용해서 다음과 같이 수행할 수 있다. 

In [15]:
x = torch.arange(6)
print("X", x)
print(x.shape)

X tensor([0, 1, 2, 3, 4, 5])
torch.Size([6])


위의 텐서는 scalar 값 6개를 가지고 있는 1차원 텐서이다. 

위 텐서를 2차원 텐서로 다음과 같이 변환 할 수 있다. 

In [16]:
x = x.view(2, 3)
print("X", x)

X tensor([[0, 1, 2],
        [3, 4, 5]])


**index에 -1이 들어가면 해당 차원은 파이토치가 알아서 채우도록 한다는 뜻이다.**

In [17]:
x=torch.arange(12)
x=x.view(-1, 3) # 
print(x)
print(x.shape)

tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])
torch.Size([4, 3])


In [18]:
x=x.view(-1, 4)
print(x)
print(x.shape)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
torch.Size([3, 4])


아래 코드는 12개짜리 숫자를 3 X 2 X 2 형태의 3차원 텐서로 변환시킨다. 

In [19]:
x=x.view(3, -1, 2)
print(x)
print(x.shape)

tensor([[[ 0,  1],
         [ 2,  3]],

        [[ 4,  5],
         [ 6,  7]],

        [[ 8,  9],
         [10, 11]]])
torch.Size([3, 2, 2])


view를 수행할 때, 전체 숫자의 개수에는 변화가 없다. 

그러므로 차원의 수가 맞지 않으면 에러를 준다. 

다음의 코드를 보자. 

In [20]:
x=x.view(-1, 5)
print(x)
print(x.shape)

RuntimeError: ignored

즉 view에서는 숫자들을 새로운 방식으로 정렬하게 되는데 이 때, 가장 앞에 있는 차원부터 순서대로 채워지도록 약속되어 있습니다. 


<img src="https://i.stack.imgur.com/ORqaP.png" width=800>

<img src="https://i.stack.imgur.com/26Q9g.png" width=800>

다시 말해, view는 다음과 같은 규칙을 가지고 있습니다. 

* view는 기본적으로 변경 전과 변경 후의 텐서 안의 원소의 개수가 유지되어야 합니다.

* 파이토치의 view는 사이즈가 -1로 설정되면 다른 차원으로부터 해당 값을 유추합니다.

#### Permute 연산
-------
permute는 두 개의 차원을 서로 바꾸어 줍니다. 


In [21]:
x=torch.arange(6)
x=x.view(2,3)
print("X (before):\n", x)
print("--------")
x = x.permute(1, 0) # 0번째 차원과 1번째 차원 (열과 행)을 서로 교환한다. 2X3 => 3X2 
print("X (after) :\n", x)

X (before):
 tensor([[0, 1, 2],
        [3, 4, 5]])
--------
X (after) :
 tensor([[0, 3],
        [1, 4],
        [2, 5]])


#### 텐서의 곱 (tensor multiplication)
-------

파이토치에서 텐서 연산은 기본적으로 각 성분 별로 이루어지도록 되어 있습니다. 

다음의 예시를 봅시다. 



In [22]:
x=torch.tensor([1,2,3])
y=torch.tensor([2,3,4])
print(x*y)

tensor([ 2,  6, 12])


우리가 익숙한 벡터의 내적이나 행렬의 곱과 달리 각 원소 별로 곱셈이 이루어지게 됩니다. 

그러므로 기본적으로 텐서의 크기가 동일해야 연산이 가능합니다. 

그러나 텐서의 크기가 다르더라도 텐서의 크기를 암묵적으로 확장하여 계산을 수행하는 경우들이 있는데 이를 **브로드캐스팅**이라고 부릅니다. 


In [23]:
x=torch.tensor([1,2,3])
y=torch.tensor([2])
print(x.size())
print(y.size())
print(x*y)

torch.Size([3])
torch.Size([1])
tensor([2, 4, 6])


위의 예제에서 1X3의 크기를 가진 텐서와 텐서 [2]는 사실상 [2, 2, 2]로 확장되었다. 

<img src="https://numpy.org/doc/stable/_images/broadcasting_1.png" width=600>

위와 같은 브로드캐스팅은 다음의 조건을 만족할 때, 가능하다. 
1. 가장 마지막 차원(가장 오른쪽)의 차원이 동일해야 한다.
2. 또는 차원의 값이 1이어야 한다. 

두 개의 텐서는 동일한 차원을 가질 필요는 없다. 

브로드캐스팅이 일어날 때는 둘 중에 더 큰 차원을 따라가도록 작동한다. 



예를 들어서 크기가 서로 다른 아래의 두 개의 텐서 연산이 일어나면 최종적인 결과물은 아래와 같다. 


> A      (4d array):  8 x 1 x 6 x 1
>
> B      (3d array):      7 x 1 x 5
> 
> Result (4d array):  8 x 7 x 6 x 5

즉, 차원 값이 1인 차원은 다른 연산의 대상이 되는 텐서의 차원 값을 따라가면서 확장이 일어난다. 

In [24]:
a = torch.tensor([[ 0.0,  0.0,  0.0],
              [10.0, 10.0, 10.0],
              [20.0, 20.0, 20.0],
              [30.0, 30.0, 30.0]])
b = torch.tensor([1.0, 2.0, 3.0])
c = a+b
print(a.size())
print(b.size())
print(c.size())
print(c)

torch.Size([4, 3])
torch.Size([3])
torch.Size([4, 3])
tensor([[ 1.,  2.,  3.],
        [11., 12., 13.],
        [21., 22., 23.],
        [31., 32., 33.]])


<img src="https://numpy.org/doc/stable/_images/broadcasting_2.png" width=800>

1차원 텐서가 2차원 텐서로 확장이 이루어졌다. 

In [25]:
b = torch.tensor([1.0, 2.0, 3.0, 4.0])
c = a + b

RuntimeError: ignored

<img src="https://numpy.org/doc/stable/_images/broadcasting_3.png" width=600>

그러나 마지막 차원의 크기가 맞지 않으면 broadcasting이 이루어지지 않는다. 

다음 예제 처럼 차원 확장을 통한 계산도 가능하다. 

np.newaxis는 존재하지 않던 차원을 확장하도록 해주는 기능을 가진다.  

In [48]:
a = torch.tensor([0.0, 10.0, 20.0, 30.0])
print("a:", a)
print("a.shape:", a.shape)

b = torch.tensor([1.0, 2.0, 3.0])
print("b:", b)
print(b.shape)

c = a[:, np.newaxis] # [4] -> [4,1] 차원의 2차원 텐서로 변환되었다. 
print("c:", c)
print(c.shape)

print("c+b:", c + b) 

a: tensor([ 0., 10., 20., 30.])
a.shape: torch.Size([4])
b: tensor([1., 2., 3.])
torch.Size([3])
c: tensor([[ 0.],
        [10.],
        [20.],
        [30.]])
torch.Size([4, 1])
c+b: tensor([[ 1.,  2.,  3.],
        [11., 12., 13.],
        [21., 22., 23.],
        [31., 32., 33.]])


<img src="https://numpy.org/doc/stable/_images/broadcasting_4.png" width=600>

#### matrix multiplication
------
딥러닝에서 가장 많이 사용되는 연산은 바로 행렬의 곱입니다. 

많은 경우, 입력 벡터 $\mathbf{x}$를 받아서 학습된 가중치 행렬 $\mathbf{W}$를 사용하여 변환되는 경우가 많습니다 

행렬 곱셈을 수행하는 여러 가지 함수가 파이토치에서는 구현되어 있다. 

그 중 일부는 다음과 같습니다:

* `torch.matul`: 두 개의 텐서에 대해 행렬 곱을 수행한다. 여기서 특정 동작은 차원에 따라 달라집니다. 두 입력이 모두 행렬(2차원 텐서)인 경우 표준 행렬 곱을 수행한다. 고차원 입력의 경우 이 기능은 브로드캐스트를 지원한다. 
(자세한 내용은 [manual](https://pytorch.org/docs/stable/generated/torch.matmul.html?highlight=matmul#torch.matmul) 참조). **numpy와 비슷하게 a @ b로도 쓸 수 있다.**
* `torch.mm`: 두 개의 행렬에 걸쳐 행렬 곱을 수행하지만 브로드 캐스트 기능은 지원하지 않는다([설명](https://pytorch.org/docs/stable/generated/torch.mm.html?highlight=torch%20mm#torch.mm)  참조)
* `torch.bmm`: 지원 배치 차원으로 매트릭스 제품을 수행한다. 첫 번째 텐서 $T$가 모양($b\times n\times m$)이고 두 번째 텐서 $R$($b\times m\times p$)인 경우 출력 $O$는 모양($b\times n\times p$)이며 $T$와 $R$의 하위 행렬의 $b$ 행렬 곱셈을 수행한다. 
* `torch.einsum`: 아인슈타인 합계 규칙을 사용하여 행렬 곱셈 등(즉, 곱셈)을 수행합니다. 

보통 **torch.matul**이나 **torch.bmm**을 많이 사용합니다. 

아래의 `torch.matul`을 사용하여 행렬 곱셈을 시도할 수 있습니다.

In [27]:
x = torch.arange(6)
x = x.view(2, 3)
print("X\n", x)

X
 tensor([[0, 1, 2],
        [3, 4, 5]])


In [28]:
W = torch.arange(9).view(3, 3) # We can also stack multiple operations in a single line
print("W\n", W)

W
 tensor([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]])


In [29]:
h = torch.matmul(x, W) # Verify the result by calculating it by hand too!
print("h \n", h)

h 
 tensor([[15, 18, 21],
        [42, 54, 66]])


#### 인덱싱(Indexing)

일반적인 파이썬의 iterable과 같이 인덱싱이 가능하다. 
 

In [30]:
x = torch.arange(12).view(3, 4)
print("X", x)

X tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


In [31]:
print(x[:, 1])   # Second column

tensor([1, 5, 9])


In [32]:
print(x[0])      # First row

tensor([0, 1, 2, 3])


In [33]:
print(x[:2, -1]) # First two rows, last column

tensor([3, 7])


In [34]:
print(x[1:3, :]) # Middle two rows

tensor([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


### 퍼셉트론
------

딥러닝에서 가장 기본이 되는 개념은 퍼셉트론이라고 하는 개념이다. 

퍼셉트론은 1957년 프랑크 로젠블라트에 의해서 제안되었으며, 초창기에는 아주 간단한 선형 분류만 가능한 모델이었으나 다층 퍼셉트론을 이용하면 더 복잡한 모델을 구성할 수 있다는 것을 발견하였다. 

퍼셉트론은 신경 세포의 구조를 모사한 것이다. 



<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Neuron.svg/800px-Neuron.svg.png" width=600>

<img src="https://www.nomidl.com/wp-content/uploads/2022/04/image-5.png" width=600>


기본적으로 perceptron은 $n$차원의 입력 $x_1$, $x_2$, $x_3$, $\dots$, $x_n$을 받아서 이 입력의 **선형 결합** $\sum w_i x_i + b$으로 근사한다. 

그 후, 선형 결합으로 얻은 값을 **비선형 활성 함수(activation function)**에 한 번 더 통과시켜 최종적인 추정 값을 얻는다. 

$\hat{y}=f(\sum w_i x_i + b)$ 

여기에서 $f$는 비선형의 활성함수이다. 

비선형의 활성함수를 이용하는 이유는 선형 결합의 선형 결합을 여러번 취하더라도 그 결과는 선형이기 때문에 선형이 아닌 관계를 추론하기 위해서는 반드시 비선형의 활성함수가 중간에 필요하다. 



하나의 퍼셉트론이 아니라 여러개의 퍼셉트론을 사용할 경우는 다음과 같이 그림으로 나타낼 수 있다. 

<img src="https://python-course.eu/images/machine-learning/example_network_3_4_2_without_bias.webp" width=600>

위와 같이 3차원의 입력을 받아서 4차원의 출력으로 바꾸는 연산은 다음의 행렬 곱으로 나타낼 수 있다. 

$
f\left[\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix}
\begin{pmatrix}
w_{11} w_{12} w_{13} w_{14} \\
w_{21} w_{22} w_{23} w_{24} \\
w_{31} w_{32} w_{33} w_{34} \\
\end{pmatrix}
+
\begin{pmatrix}
b_1\\
b_2\\
b_3\\
b_4
\end{pmatrix}\right]
=
\begin{pmatrix}
h_1\\
h_2\\
h_3\\
h_4\\
\end{pmatrix}
$

이 때, $f$는 활성 함수이고, 입력 차원은 3차원이고 숨겨진 차원은 4차원이다. 



<img src="https://static.javatpoint.com/tutorial/tensorflow/images/single-layer-perceptron-in-tensorflow.png" width=500>




그 후, 최종 출력을 2차원으로 만들기 위해서는 4차원 입력을 2차원으로 바꾸어주는 두 번째 행렬을 곱해주면 된다. 

$\mathbf{O} = \mathbf{h}\mathbf{W_2} + \mathbf{b_2}$

이 때, $\mathbf{W_2}$의 형태는 $4 × 2$가 되어 4차원의 벡터를 2차원으로 변환시켜 준다. 

즉, 이렇게 여러개의 perceptron을 여러 층으로 쌓은 경우를 multi-layer perceptron(MLP)라고 부른다. 

그리고 multilayer perceptron은 결국 여러 층의 **파라미터 행렬**의 연산을 계속 수행하는 것이라고 이해할 수 있다. 

다시 말해, 입력 텐서의 차원이 $N$차원이고 이를 $M$차원의 출력으로 바꾸어 주는 perceptron layer는 $N \times M$ 의 크기를 가지는 **행렬곱**에 해당한다. 

우리가 **학습**이라고 부르는 것은 원하는 목적 값(objective value)를 정확하게 예측하는 **파라미터들**, 또는 **가중치**라고도 부름, ($w_i$ 값)을 찾아내는 것이라고 할 수 있다. 


<img src="https://www.researchgate.net/publication/334609713/figure/fig1/AS:783455927406593@1563801857102/Multi-Layer-Perceptron-MLP-diagram-with-four-hidden-layers-and-a-collection-of-single_Q640.jpg" width=600>

딥러닝이라는 이름이 명명된 이유는 불과 20여년전의 인공 지능 모델만 하더라도 컴퓨터 메모리의 한계와 계산 속도의 한계로 인해서 hidden layer를 몇 층 정도만을 쌓을 수 있었다. 

그러나 GPU를 이용한 계산과 컴퓨터 메모리의 발전에 의해서 최근에는 수십, 수백층 까지의 layer를 쌓을 수 있게 되었다. 

그리고 이와 같이 매우 깊이 층을 쌓았을 때, 많은 문제에서 기존의 몇 개의 층을 쌓은 문제에 비해서 훨씬 정확한 결과를 얻을 수 있다는 것을 발견하였다. 



다음의 그래프는 image를 분류하는 ImageNet challenge의 정확도 향상을 보여준다. 

<img src="https://blog.roboflow.com/content/images/2021/06/image-18.png" width=600>

<img src="https://www.researchgate.net/publication/332452649/figure/fig1/AS:770098897887234@1560617293964/Error-rates-on-the-ImageNet-Large-Scale-Visual-Recognition-Challenge-Accuracy.ppm" width=600>

딥러닝 방법이 처음 제안된 2012년부터 에러율이 급격히 낮아짐을 확인할 수 있다. 

2015년부터는 인간의 에러율을 넘어서는 성능을 보여주고 있다. 

이렇게 얻어진 최종적인 output 값을 원하는 true 값과 비교를 통해 손실 함수($L$)를 계산한다. 

얻어진 손실 함수의 값을 **최소화**하는 방향으로 파라미터들이 업데이트 된다. 

이를 수식으로 표현하면 다음과 같다. 

$w_{i,\mathrm{new}} = w_{i,\mathrm{old}} - \eta \frac{\partial L}{\partial w_i}$

### 계산 그래프와 역전파
---------

딥러닝이 폭발적으로 발전할 수 있었던 중요한 계기 중의 하나는 복잡한 손실 함수의 기울기를 빠르게 계산하여 파라미터를 효율적으로 업데이트 할 수 있었기 때문입니다. 

파이토치에서는 어떤 연산을 수행하면 내부적으로 연산에 참여한 모든 변수에 대한 기울기를 계산할 수 있는 기능을 가지고 있습니다. 

이는 계산 그래프와 역전파를 통해서 이루어집니다. 

다음의 예시를 봅시다. 

In [35]:
x = torch.ones((3,))
print(x.requires_grad)

False


기본적으로 텐서를 생성하면 gradient를 계산하지 않도록 초기화 됩니다. 

In [36]:
x.requires_grad_(True)
print(x.requires_grad)

True


위와 같이 requires_grad_라는 method를 실행하면 주어진 텐서의 기울기를 계산하도록 설정되게 됩니다. 

계산 그래프의 개념과 익숙해지기 위해서 다음의 함수를 생각해봅시다. 

$$y = \frac{1}{|x|}\sum_i \left[(x_i + 2)^2 + 3\right]$$

위 식에서 $x$가 파라미터이고, 목적 값인 $y$를 최소화 또는 최대화 하는 것이 우리의 목표입니다. 

이를 위해서 $y$에 대한 편미분을 계산해야 합니다: $\partial y / \partial \mathbf{x}$. 

본 예시에서는 $\mathbf{x}=[0,1,2]$ 를 입력 값으로 사용합니다. 

In [37]:
x = torch.arange(3, dtype=torch.float32, requires_grad=True) # Only float tensors can have gradients
print("X", x)

X tensor([0., 1., 2.], requires_grad=True)


위의 함수 값을 얻기 위한 연산을 단계별로 나누어 보면 다음과 같이 쓸 수 있습니다. 

In [38]:
a = x + 2
b = a ** 2
c = b + 3
y = c.mean()
print("Y", y)

Y tensor(12.6667, grad_fn=<MeanBackward0>)


 위의 연산을 그래프로 나타내면 아래와 같습니다. 

<img src="https://github.com/phlippe/uvadlc_notebooks/blob/master/docs/tutorial_notebooks/tutorial2/pytorch_computation_graph.svg?raw=1" width=200>

각 화살표는 하나의 연산에 해당합니다. 

이 때, 각 연산에 해당하는 미분 값을 빠르게 구할 수 있습니다. 

각 단계의 미분 값을 얻으면 이를 chain rule을 이용해서 연결하면, 최종적으로 우리가 원하는 변수의 기울기 값을 구할 수 있습니다. 

그렇기 때문에 최종적인 목적 함수 값 $y$에서 역으로 따라가면서 입력 값 $x$에 대한 미분 값을 얻게 되기 때문에 이를 backpropagation이라고 부릅니다. 

backpropagation은 다음의 명령을 통해서 수행됩니다. 

In [39]:
y.backward()

`x.grad` 는 이제 $\partial y/ \partial \mathcal{x}$ 값을 저장하게 됩니다. 

이 값은 입력 값인 $\mathbf{x}=[0,1,2]$에서 $y$ 값의 변화량을 나타내게 됩니다. 

In [40]:
print(x.grad)

tensor([1.3333, 2.0000, 2.6667])


위의 역전파를 수식으로 나타내면 다음과 같습니다. 

$$\frac{\partial y}{\partial x_i} = \frac{\partial y}{\partial c_i}\frac{\partial c_i}{\partial b_i}\frac{\partial b_i}{\partial a_i}\frac{\partial a_i}{\partial x_i}$$

Note that we have simplified this equation to index notation, and by using the fact that all operation besides the mean do not combine the elements in the tensor. The partial derivatives are:

$$
\frac{\partial a_i}{\partial x_i} = 1,\hspace{1cm}
\frac{\partial b_i}{\partial a_i} = 2\cdot a_i\hspace{1cm}
\frac{\partial c_i}{\partial b_i} = 1\hspace{1cm}
\frac{\partial y}{\partial c_i} = \frac{1}{3}
$$

Hence, with the input being $\mathbf{x}=[0,1,2]$, our gradients are $\partial y/\partial \mathbf{x}=[4/3,2,8/3]$. The previous code cell should have printed the same result.

### GPU support
------
앞서 논의 했듯이 GPU를 이용한 계산이 딥러닝의 발전에 매우 중요한 역할을 하였습니다. 

GPU의 경우, 매우 단순한 연산(덧셈, 곱셈)을 평행하게 처리하는데 특화되어 있어서 특정 계산에 있어서는 CPU에 비해서 훨씬 빠른 성능을 보여줍니다. 


<center style="width: 100%"><img src="https://github.com/phlippe/uvadlc_notebooks/blob/master/docs/tutorial_notebooks/tutorial2/comparison_CPU_GPU.png?raw=1" width="700px"></center>

아래 cell을 실행하면 여러분의 현재 colab 세션에서 GPU를 사용가능한지 보여줍니다. 

In [41]:
gpu_avail = torch.cuda.is_available()
print(f"Is the GPU available? {gpu_avail}")

Is the GPU available? True


<img src="https://devsoyoung.github.io/static/874712e6233d2209010f47e7229ff3d2/4f5bc/runtime.webp" width=500>


<img src="https://t1.daumcdn.net/cfile/tistory/99924D345B435A7003" width=600>

위와 같이 하드웨어 가속기를 GPU로 설정하면 gpu를 사용하실 수 있습니다. 

In [42]:
gpu_avail = torch.cuda.is_available()
print(f"Is the GPU available? {gpu_avail}")

Is the GPU available? True


기본적으로 텐서가 정의되면 CPU에서 계산이 되게 되어 있습니다. 

텐서의 값이 GPU에서 계산되도록 하려면 `.to(...)`, 또는 `.cuda()` 함수를 이용해서 GPU에서 계산이 수행되도록 할 수 있습니다. 

또는 아래와 같이 `.device()` method를 이용해서 계산이 수행되는 플랫폼을 지정할 수 있습니다. 

In [43]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
print("Device", device)

Device cuda


아래 코드를 이용하면 텐서를 선언하고 GPU에서 계산이 되도록 할 수 있다. 

In [44]:
x = torch.zeros(2, 3)
x = x.to(device)
print("X", x)

X tensor([[0., 0., 0.],
        [0., 0., 0.]], device='cuda:0')


다음의 코드를 실행시키면 CPU와 GPU의 행렬 곱셈 연산에서의 속도 차이를 알 수 있다. 

In [45]:
import time

x = torch.randn(5000, 5000)

## CPU version
start_time = time.time()
_ = torch.matmul(x, x)
end_time = time.time()
print(f"CPU time: {(end_time - start_time):6.5f}s")

## GPU version
x = x.to(device)
#_ = torch.matmul(x, x)  # First operation to 'burn in' GPU
# CUDA is asynchronous, so we need to use different timing functions
start = torch.cuda.Event(enable_timing=True)
end = torch.cuda.Event(enable_timing=True)
start.record()
_ = torch.matmul(x, x)
end.record()
torch.cuda.synchronize()  # Waits for everything to finish running on the GPU
print(f"GPU time: {0.001 * start.elapsed_time(end):6.5f}s")  # Milliseconds to seconds

CPU time: 4.99674s
GPU time: 3.62808s


## 파이토치 기반의 multilayer perceptron 모델을 이용한 분자 독성 예측
-------

### torch.nn 모듈

`torch.nn` 모듈에서는 기본적인 딥러닝 훈련을 위해서 필요한 대부분의 함수들이 구현되어 있습니다. 
전체 함수의 리스트는 본 [링크](https://pytorch.org/docs/stable/nn.html) 에서 받을 수 있습니다. 많은 레이어들이 이미 구현되어 있으므로 torch.nn의 문서를 잘 읽어보시는 것이 도움이 될 것입니다. 

In [81]:
import torch.nn as nn

또한 많은 유용한 함수들이 `torch.nn.functional` 모듈 아래에 구현되어 있습니다.

https://pytorch.org/docs/stable/nn.functional.html

In [82]:
import torch.nn.functional as F

#### nn.Module

파이토치에서 신경망 모델은 nn.Module을 기본으로 하여 작성된다. 

즉, nn.Module은 모든 파이토치 신경망 모델의 기본 Base class가 된다고 할 수 있다. 

대부분의 파이토치를 이용해서 작성한 신경망 모델은 nn.Module을 상속 받아서 작성된다고 생각하면 된다. 

기본적인 파이토치의 신경망 모델은 다음과 같은 구조를 가진다. 

처음 신경망이 생성될 때 실행될 **\_\_init\_\_** 함수와 입력 텐서가 들어왔을 때 손실 함수를 계산하게 될 **foward** method를 정의해주어야 한다. 

일반적으로 **\_\_init\_\_** 에서는 신경망을 구성하는 레이어들을 선언하게 된다. 

그리고 forward 함수에서는 텐서가 어떤 순서로 계산되는지를 정의하게 된다. 

In [None]:
class MyModule(nn.Module):
    
    def __init__(self):
        super().__init__()
        # Some init for my module
        
    def forward(self, x):
        # Function for performing the calculation of the module.
        pass

#### MLP 기반의 classification model

연습을 위해서 hidden layer가 하나이고 tanh 함수를 activation 함수로 사용하는 간단한 classifier를 정의해보자. 

<img src="https://github.com/phlippe/uvadlc_notebooks/blob/master/docs/tutorial_notebooks/tutorial2/small_neural_network.svg?raw=1" width=400>

In [84]:
class SimpleClassifier(nn.Module):

    def __init__(self, num_inputs, num_hidden, num_outputs):
        super().__init__()
        # 네트워크를 구성하는 위한 기반이 되는 layer들을 정의한다. 
        self.linear1 = nn.Linear(num_inputs, num_hidden)
        self.act_fn = nn.Tanh()
        self.linear2 = nn.Linear(num_hidden, num_outputs)

    def forward(self, x):
        # Perform the calculation of the model to determine the prediction
        x = self.linear1(x)
        x = self.act_fn(x)
        x = self.linear2(x)
        return x

만일 위의 그림과 같이 입력 텐서의 차원이 2이고, 숨겨진 차원이 4, 출력 차원이 2라면 다음과 같이 모델을 초기화 할 수 있다. 

In [85]:
model = SimpleClassifier(num_inputs=2, num_hidden=4, num_outputs=2)

In [86]:
print(model)

SimpleClassifier(
  (linear1): Linear(in_features=2, out_features=4, bias=True)
  (act_fn): Tanh()
  (linear2): Linear(in_features=4, out_features=2, bias=True)
)


신경망을 구성하는 모든 서브 모듈, 레이어들의 파라미터들을 확인하기 위해서는 `parameters()` 또는 `named_parameters()` 함수를 이용하여 출력할 수 있다. 

In [87]:
for name, param in model.named_parameters():
    print(f"Parameter {name}, shape {param.shape}")

Parameter linear1.weight, shape torch.Size([4, 2])
Parameter linear1.bias, shape torch.Size([4])
Parameter linear2.weight, shape torch.Size([2, 4])
Parameter linear2.bias, shape torch.Size([2])


각 layer는 $4\times2$, $2\times4$ 형태를 가지는 파라미터 행렬로 이루어져 있음을 알 수 있다. 

각 layer의 bias 값은 output 텐서의 크기와 동일하다. 

tanh 함수는 학습 가능한 파라미터를 가지고 있지 않다. 

그리고 기본적으로 모든 layer들은 class의 직접적인 attribute로 정의되는 것, `self.a = ...`이 추천되는 정의 방법이다. 

### 데이터셋
------

이제 MLP 모델을 이용해서 분자의 독성을 예측하는 예제를 수행해봅시다. 

이번 실습에서 사용할 데이터는 Tox21 데이터입니다. 
https://moleculenet.org/datasets-1

Tox21 데이터는 12개의 타겟에 대한 독성 정보를 담고 있습니다. 


* Tox21 data를 다운 받습니다. 

In [64]:
!wget -O tox21.csv.gz https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/tox21.csv.gz

--2023-03-27 12:30:00--  https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/tox21.csv.gz
Resolving deepchemdata.s3-us-west-1.amazonaws.com (deepchemdata.s3-us-west-1.amazonaws.com)... 52.219.216.34
Connecting to deepchemdata.s3-us-west-1.amazonaws.com (deepchemdata.s3-us-west-1.amazonaws.com)|52.219.216.34|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 122925 (120K) [application/x-gzip]
Saving to: ‘tox21.csv.gz’


2023-03-27 12:30:01 (1.22 MB/s) - ‘tox21.csv.gz’ saved [122925/122925]



* RDKit을 설치해줍니다. 

In [61]:
pip install rdkit

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [62]:
import pandas as pd
import rdkit
import rdkit.Chem as Chem

pandas의 read_csv는 압축된 csv 파일을 자동으로 압축을 풀어서 읽을 수 있습니다. 

In [67]:
df = pd.read_csv('tox21.csv.gz')

In [68]:
df

Unnamed: 0,NR-AR,NR-AR-LBD,NR-AhR,NR-Aromatase,NR-ER,NR-ER-LBD,NR-PPAR-gamma,SR-ARE,SR-ATAD5,SR-HSE,SR-MMP,SR-p53,mol_id,smiles
0,0.0,0.0,1.0,,,0.0,0.0,1.0,0.0,0.0,0.0,0.0,TOX3021,CCOc1ccc2nc(S(N)(=O)=O)sc2c1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,,0.0,0.0,TOX3020,CCN1C(=O)NC(c2ccccc2)C1=O
2,,,,,,,,0.0,,0.0,,,TOX3024,CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCC[C@@H]4[C@H]...
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,,0.0,0.0,TOX3027,CCCN(CC)C(CC)C(=O)Nc1c(C)cccc1C
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,TOX20800,CC(O)(P(=O)(O)O)P(=O)(O)O
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7826,,,,,,,,0.0,,0.0,,,TOX2725,CCOc1nc2cccc(C(=O)O)c2n1Cc1ccc(-c2ccccc2-c2nnn...
7827,1.0,1.0,0.0,0.0,1.0,0.0,,,0.0,0.0,,0.0,TOX2370,CC(=O)[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(...
7828,1.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,TOX2371,C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C...
7829,1.0,1.0,0.0,,1.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,TOX2377,C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C...


In [69]:
df.describe()

Unnamed: 0,NR-AR,NR-AR-LBD,NR-AhR,NR-Aromatase,NR-ER,NR-ER-LBD,NR-PPAR-gamma,SR-ARE,SR-ATAD5,SR-HSE,SR-MMP,SR-p53
count,7265.0,6758.0,6549.0,5821.0,6193.0,6955.0,6450.0,5832.0,7072.0,6467.0,5810.0,6774.0
mean,0.042533,0.03507,0.11727,0.051538,0.128048,0.050324,0.028837,0.161523,0.03733,0.057523,0.158003,0.062445
std,0.201815,0.183969,0.321766,0.22111,0.33417,0.218627,0.167362,0.368044,0.189583,0.232857,0.364776,0.241979
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


이번 실습에서는 NR-AR 타겟에 대한 독성 예측을 수행해 봅시다. 

In [74]:
df_sub=df[["NR-AR", "smiles"]]

In [75]:
df_sub

Unnamed: 0,NR-AR,smiles
0,0.0,CCOc1ccc2nc(S(N)(=O)=O)sc2c1
1,0.0,CCN1C(=O)NC(c2ccccc2)C1=O
2,,CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCC[C@@H]4[C@H]...
3,0.0,CCCN(CC)C(CC)C(=O)Nc1c(C)cccc1C
4,0.0,CC(O)(P(=O)(O)O)P(=O)(O)O
...,...,...
7826,,CCOc1nc2cccc(C(=O)O)c2n1Cc1ccc(-c2ccccc2-c2nnn...
7827,1.0,CC(=O)[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(...
7828,1.0,C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C...
7829,1.0,C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C...


독성 데이터가 NaN (Not a Number)인 경우들을 dropna method를 이용하여 제거하도록 합니다. 

In [76]:
df_sub=df_sub.dropna(axis='index', subset='NR-AR')

In [77]:
df_sub

Unnamed: 0,NR-AR,smiles
0,0.0,CCOc1ccc2nc(S(N)(=O)=O)sc2c1
1,0.0,CCN1C(=O)NC(c2ccccc2)C1=O
3,0.0,CCCN(CC)C(CC)C(=O)Nc1c(C)cccc1C
4,0.0,CC(O)(P(=O)(O)O)P(=O)(O)O
5,0.0,CC(C)(C)OOC(C)(C)CCC(C)(C)OOC(C)(C)C
...,...,...
7825,0.0,CCCNCC(O)COc1ccccc1C(=O)CCc1ccccc1
7827,1.0,CC(=O)[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(...
7828,1.0,C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C...
7829,1.0,C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C...


이번 실습에서는 smiles를 ECFP4 fingerprint로 변환한 후, input feature로 사용합니다. 

In [78]:
from tqdm import tqdm
from rdkit.Chem import AllChem

fp_list = []
for smi in tqdm(df_sub["smiles"]):
  m = Chem.MolFromSmiles(smi)
  fp = AllChem.GetMorganFingerprintAsBitVect(m,2,nBits=1024)
  fp_list.append(fp.ToList())

100%|██████████| 7265/7265 [00:01<00:00, 5227.58it/s]


In [79]:
fp_df = pd.DataFrame(fp_list)

In [80]:
fp_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1014,1015,1016,1017,1018,1019,1020,1021,1022,1023
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7260,0,1,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
7261,0,0,0,0,0,0,0,1,0,0,...,0,0,0,1,0,1,0,0,0,0
7262,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
7263,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [88]:
 pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/tox21.csv.gz')

Unnamed: 0,NR-AR,NR-AR-LBD,NR-AhR,NR-Aromatase,NR-ER,NR-ER-LBD,NR-PPAR-gamma,SR-ARE,SR-ATAD5,SR-HSE,SR-MMP,SR-p53,mol_id,smiles
0,0.0,0.0,1.0,,,0.0,0.0,1.0,0.0,0.0,0.0,0.0,TOX3021,CCOc1ccc2nc(S(N)(=O)=O)sc2c1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,,0.0,0.0,TOX3020,CCN1C(=O)NC(c2ccccc2)C1=O
2,,,,,,,,0.0,,0.0,,,TOX3024,CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCC[C@@H]4[C@H]...
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,,0.0,0.0,TOX3027,CCCN(CC)C(CC)C(=O)Nc1c(C)cccc1C
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,TOX20800,CC(O)(P(=O)(O)O)P(=O)(O)O
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7826,,,,,,,,0.0,,0.0,,,TOX2725,CCOc1nc2cccc(C(=O)O)c2n1Cc1ccc(-c2ccccc2-c2nnn...
7827,1.0,1.0,0.0,0.0,1.0,0.0,,,0.0,0.0,,0.0,TOX2370,CC(=O)[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(...
7828,1.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,TOX2371,C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C...
7829,1.0,1.0,0.0,,1.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,TOX2377,C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C...


### 데이터 입력
------
파이토치에서는 데이터를 효율적으로 읽어오고 다루기 위한 함수들을 `torch.utils.data` 라는 모듈에 구현되어 있다. 

In [107]:
import torch.utils.data as data

파이토치에서는 데이터를 효과적으로 다루기 위해서 `torch.utils.data.Dataset`과 `torch.utils.data.DataLoader`라는 두가지 클래스를 제공하고 있다. 

위의 두 클래스는 데이터를 읽어들이고 학습/테스트 셋을 나누고 편리하게 읽어들이기 위한 기능을 제공한다. 

#### `data.Dataset`
-----

data.Dataset은 전체 데이터를 저장하고 필요한 데이터를 뽑아내는 class이다. 

이 class를 정의하기 위해서는 전체 데이터 길이를 리턴하는 `__len__` 함수와 `__getitem__` 함수를 정의해주어야 한다. 

위에서 사용한 분자를 feature vector로 바꾸는 procedure를 이용하여 Tox21Dataset 클래스를 아래와 같이 정의해보자. 

In [154]:
class Tox21Dataset(data.Dataset):
    
    def __init__(self):
        """
        Inputs:
            raw_df: 초기 tox21 데이터
            df_sub: "NR-AR"과 "smiles" 열 만으로 구성된 DataFrame
        """
        super().__init__()
        self.raw_df=pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/tox21.csv.gz')
        self.df_sub=self.raw_df[["NR-AR", "smiles"]] # NR-AR과 smiles 열만 추출
        self.df_sub=self.df_sub.dropna(axis='index', subset='NR-AR') # NR-AR column에 NaN이 있는 raw를 제거.
        
        fp_list = []
        for smi in tqdm(self.df_sub["smiles"]):
          m = Chem.MolFromSmiles(smi)
          fp = AllChem.GetMorganFingerprintAsBitVect(m,2,nBits=1024)
          fp_list.append(fp.ToList())

        self.data=torch.tensor(fp_list, dtype=torch.float32)  #input data to tensor
        print("self.data:")
        print(self.data)

        self.label=torch.tensor(self.df_sub["NR-AR"].values, dtype=torch.float32)  # target_label to tensor
        print("self.label:")
        print(self.label)

    def __len__(self):
        # 전체 데이터의 개수를 return하는 함수
        return len(self.data)

    def __getitem__(self, idx):
        # idx 번째 데이터와 레이블을 리턴하는 함수
        data_point = self.data[idx]
        data_label = self.label[idx]
        return data_point, data_label

In [155]:
tox21 = Tox21Dataset()

100%|██████████| 7265/7265 [00:01<00:00, 5077.80it/s]


self.data:
tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 1., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.]])
self.label:
tensor([0., 0., 0.,  ..., 1., 1., 0.])


파이토치에서는 `torch.utils.data.random_split` 함수를 이용해서 train/test 셋을 나눌 수 있다. 

In [156]:
dataset_size = len(tox21)
train_size = int(dataset_size * 0.8)
validation_size = int(dataset_size * 0.1)
test_size = dataset_size - train_size - validation_size

train_dataset, validation_dataset, test_dataset = data.random_split(tox21, [train_size, validation_size, test_size])

print(f"Training Data Size : {len(train_dataset)}")
print(f"Validation Data Size : {len(validation_dataset)}")
print(f"Testing Data Size : {len(test_dataset)}")

Training Data Size : 5812
Validation Data Size : 726
Testing Data Size : 727


In [157]:
train_dataset[0]

(tensor([0., 1., 0.,  ..., 0., 0., 0.]), tensor(0.))

#### DataLoader 클래스

`torch.utils.data.DataLoader` 클래스는 자동 일괄 처리, 다중 프로세스 데이터 로드 및 더 많은 기능을 python iterable입니다. 

데이터 로더는 `__getitem__` 함수를 사용하여 데이터세트와 통신하고 출력을 첫 번째 차원에 텐서로 쌓아 배치를 형성합니다.

데이터세트 클래스와 달리 일반적으로 자체 데이터 로더 클래스를 정의할 필요는 없지만 데이터세트를 입력으로 사용하여 개체를 만들 수 있습니다. 

또한 다음 입력 인수를 사용하여 데이터 로더를 구성할 수 있습니다([전체 문서](https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader)):

* `batch_size`: 배치당 사용할 샘플 수
* `shuffle`: True이면 무작위 순서로 데이터가 반환됩니다. 이것은 확률론을 도입하기 위한 훈련 중에 중요합니다.
* `num_workers`: 데이터 로드에 사용할 하위 프로세스의 수입니다. 데이터의 크기가 크다면 더 많은 작업자가 권장되지만 Windows 컴퓨터에서 문제가 발생할 수 있습니다. 작은 데이터 세트의 경우 일반적으로 0 작업자가 더 빠릅니다.
* `pin_memory`: True인 경우 데이터 로더는 Tensor를 반환하기 전에 CUDA 고정 메모리에 복사합니다. 이렇게 하면 GPU의 대용량 데이터 포인트를 읽어들이는 시간을 절약할 수 있습니다. 일반적으로 학습데이터 세트에 사용하는 것이 좋습니다.
* `drop_last`: True인 경우 지정된 배치 크기보다 작은 경우 마지막 배치를 삭제합니다. 이는 데이터 세트 크기가 배치 크기의 배수가 아닌 경우에 발생합니다. 일관된 배치 크기를 유지하기 위해 훈련 중에 잠재적으로 도움이 될 수 있습니다.

In [158]:
train_loader = data.DataLoader(train_dataset, batch_size=8, shuffle=True)

In [159]:
# next(iter(...)) catches the first batch of the data loader
# If shuffle is True, this will return a different batch every time we run this cell
# For iterating over the whole dataset, we can simple use "for batch in data_loader: ..."
data_inputs, data_labels = next(iter(train_loader))

# The shape of the outputs are [batch_size, d_1,...,d_N] where d_1,...,d_N are the 
# dimensions of the data point returned from the dataset class
print("Data inputs", data_inputs.shape, "\n", data_inputs)
print("Data labels", data_labels.shape, "\n", data_labels)

Data inputs torch.Size([8, 1024]) 
 tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.]])
Data labels torch.Size([8]) 
 tensor([0., 0., 0., 0., 0., 0., 0., 0.])


### Optimization

After defining the model and the dataset, it is time to prepare the optimization of the model. During training, we will perform the following steps:

1. Get a batch from the data loader
2. Obtain the predictions from the model for the batch
3. Calculate the loss based on the difference between predictions and labels
4. Backpropagation: calculate the gradients for every parameter with respect to the loss
5. Update the parameters of the model in the direction of the gradients

We have seen how we can do step 1, 2 and 4 in PyTorch. Now, we will look at step 3 and 5.

#### Loss modules

We can calculate the loss for a batch by simply performing a few tensor operations as those are automatically added to the computation graph. For instance, for binary classification, we can use Binary Cross Entropy (BCE) which is defined as follows:

$${L}_{BCE} = -\sum_i \left[ y_i \log x_i + (1 - y_i) \log (1 - x_i) \right]$$

where $y$ are our labels, and $x$ our predictions, both in the range of $[0,1]$. However, PyTorch already provides a list of predefined loss functions which we can use (see [here](https://pytorch.org/docs/stable/nn.html#loss-functions) for a full list). For instance, for BCE, PyTorch has two modules: `nn.BCELoss()`, `nn.BCEWithLogitsLoss()`. While `nn.BCELoss` expects the inputs $x$ to be in the range $[0,1]$, i.e. the output of a sigmoid, `nn.BCEWithLogitsLoss` combines a sigmoid layer and the BCE loss in a single class. This version is numerically more stable than using a plain Sigmoid followed by a BCE loss because of the logarithms applied in the loss function. Hence, it is adviced to use loss functions applied on "logits" where possible (remember to not apply a sigmoid on the output of the model in this case!). For our model defined above, we therefore use the module `nn.BCEWithLogitsLoss`. 

In [160]:
loss_module = nn.BCEWithLogitsLoss()

#### Stochastic Gradient Descent

For updating the parameters, PyTorch provides the package `torch.optim` that has most popular optimizers implemented. We will discuss the specific optimizers and their differences later in the course, but will for now use the simplest of them: `torch.optim.SGD`. Stochastic Gradient Descent updates parameters by multiplying the gradients with a small constant, called learning rate, and subtracting those from the parameters (hence minimizing the loss). Therefore, we slowly move towards the direction of minimizing the loss. A good default value of the learning rate for a small network as ours is 0.1. 

In [161]:
# Input to the optimizer are the parameters of the model: model.parameters()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

The optimizer provides two useful functions: `optimizer.step()`, and `optimizer.zero_grad()`. 

The step function updates the parameters based on the gradients as explained above. The function `optimizer.zero_grad()` sets the gradients of all parameters to zero. While this function seems less relevant at first, it is a crucial pre-step before performing backpropagation. If we call the `backward` function on the loss while the parameter gradients are non-zero from the previous batch, the new gradients would actually be added to the previous ones instead of overwriting them. This is done because a parameter might occur multiple times in a computation graph, and we need to sum the gradients in this case instead of replacing them. Hence, remember to call `optimizer.zero_grad()` before calculating the gradients of a batch.

### Training

Finally, we are ready to train our model. As a first step, we create a slightly larger dataset and specify a data loader with a larger batch size. 

In [168]:
model = SimpleClassifier(num_inputs=1024, num_hidden=512, num_outputs=1)

In [169]:
print(model)

SimpleClassifier(
  (linear1): Linear(in_features=1024, out_features=512, bias=True)
  (act_fn): Tanh()
  (linear2): Linear(in_features=512, out_features=1, bias=True)
)


In [170]:
train_loader = data.DataLoader(train_dataset, batch_size=128, shuffle=True)

In [171]:
# Push model to device. Has to be only done once
model.to(device)

SimpleClassifier(
  (linear1): Linear(in_features=1024, out_features=512, bias=True)
  (act_fn): Tanh()
  (linear2): Linear(in_features=512, out_features=1, bias=True)
)

In addition, we set our model to training mode. This is done by calling `model.train()`. There exist certain modules that need to perform a different forward step during training than during testing (e.g. BatchNorm and Dropout), and we can switch between them using `model.train()` and `model.eval()`.

In [172]:
def train_model(model, optimizer, data_loader, loss_module, num_epochs=100):
    # Set model to train mode
    model.train() 
    
    # Training loop
    for epoch in tqdm(range(num_epochs)):
        for data_inputs, data_labels in train_loader:
            
            ## Step 1: Move input data to device (only strictly necessary if we use GPU)
            data_inputs = data_inputs.to(device)
            data_labels = data_labels.to(device)
            
            ## Step 2: Run the model on the input data
            preds = model(data_inputs)
            preds = preds.squeeze(dim=1) # Output is [Batch size, 1], but we want [Batch size]
            
            ## Step 3: Calculate the loss
            loss = loss_module(preds, data_labels.float())
            
            ## Step 4: Perform backpropagation
            # Before calculating the gradients, we need to ensure that they are all zero. 
            # The gradients would not be overwritten, but actually added to the existing ones.
            optimizer.zero_grad() 
            # Perform backpropagation
            loss.backward()
            
            ## Step 5: Update the parameters
            optimizer.step()

In [173]:
train_model(model, optimizer, train_loader, loss_module)

100%|██████████| 100/100 [00:10<00:00,  9.72it/s]


#### Saving a model

After finish training a model, we save the model to disk so that we can load the same weights at a later time. For this, we extract the so-called `state_dict` from the model which contains all learnable parameters. For our simple model, the state dict contains the following entries:

In [None]:
state_dict = model.state_dict()
print(state_dict)

To save the state dictionary, we can use `torch.save`:


In [175]:
# torch.save(object, filename). For the filename, any extension can be used
torch.save(state_dict, "our_model.tar")

To load a model from a state dict, we use the function `torch.load` to load the state dict from the disk, and the module function `load_state_dict` to overwrite our parameters with the new values:

In [None]:
# Load state dict from the disk (make sure it is the same name as above)
state_dict = torch.load("our_model.tar")

# Create a new model and load the state
new_model = SimpleClassifier(num_inputs=1024, num_hidden=512, num_outputs=1)
new_model.load_state_dict(state_dict)

# Verify that the parameters are the same
print("Original model\n", model.state_dict())
print("\nLoaded model\n", new_model.state_dict())

A detailed tutorial on saving and loading models in PyTorch can be found [here](https://pytorch.org/tutorials/beginner/saving_loading_models.html).

### Evaluation

Once we have trained a model, it is time to evaluate it on a held-out test set. As our dataset consist of randomly generated data points, we need to first create a test set with a corresponding data loader.

In [179]:
test_data_loader = data.DataLoader(test_dataset, batch_size=128, shuffle=False, drop_last=False) 

As metric, we will use accuracy which is calculated as follows:

$$acc = \frac{\#\text{correct predictions}}{\#\text{all predictions}} = \frac{TP+TN}{TP+TN+FP+FN}$$

where TP are the true positives, TN true negatives, FP false positives, and FN the fale negatives. 

When evaluating the model, we don't need to keep track of the computation graph as we don't intend to calculate the gradients. This reduces the required memory and speed up the model. In PyTorch, we can deactivate the computation graph using `with torch.no_grad(): ...`. Remember to additionally set the model to eval mode.

In [180]:
def eval_model(model, data_loader):
    model.eval() # Set model to eval mode
    true_preds, num_preds = 0., 0.
    
    with torch.no_grad(): # Deactivate gradients for the following code
        for data_inputs, data_labels in data_loader:
            
            # Determine prediction of model on dev set
            data_inputs, data_labels = data_inputs.to(device), data_labels.to(device)
            preds = model(data_inputs)
            preds = preds.squeeze(dim=1)
            preds = torch.sigmoid(preds) # Sigmoid to map predictions between 0 and 1
            pred_labels = (preds >= 0.5).long() # Binarize predictions to 0 and 1
            
            # Keep records of predictions for the accuracy metric (true_preds=TP+TN, num_preds=TP+TN+FP+FN)
            true_preds += (pred_labels == data_labels).sum()
            num_preds += data_labels.shape[0]
            
    acc = true_preds / num_preds
    print(f"Accuracy of the model: {100.0*acc:4.2f}%")

In [181]:
eval_model(model, test_data_loader)

Accuracy of the model: 19.67%


In [187]:
class Classifier2(nn.Module):

    def __init__(self, num_inputs, num_hidden, num_outputs):
        super().__init__()
        # 네트워크를 구성하는 위한 기반이 되는 layer들을 정의한다. 
        self.linear1 = nn.Linear(num_inputs, num_hidden)
        self.act_fn = nn.Tanh()
        self.linear2 = nn.Linear(num_hidden, num_hidden)
        self.linear3 = nn.Linear(num_hidden, num_hidden)
        self.linear4 = nn.Linear(num_hidden, num_outputs)

    def forward(self, x):
        # Perform the calculation of the model to determine the prediction
        x = self.linear1(x)
        x = self.act_fn(x)
        x = self.linear2(x)
        x = self.act_fn(x)
        x = self.linear3(x)
        x = self.act_fn(x)
        x = self.linear4(x)

        return x

In [188]:
model2 = Classifier2(num_inputs=1024, num_hidden=512, num_outputs=1)

In [190]:
model2.to(device)

Classifier2(
  (linear1): Linear(in_features=1024, out_features=512, bias=True)
  (act_fn): Tanh()
  (linear2): Linear(in_features=512, out_features=512, bias=True)
  (linear3): Linear(in_features=512, out_features=512, bias=True)
  (linear4): Linear(in_features=512, out_features=1, bias=True)
)

In [191]:
train_model(model2, optimizer, train_loader, loss_module)

100%|██████████| 100/100 [00:12<00:00,  8.09it/s]


In [193]:
eval_model(model2, test_data_loader)

Accuracy of the model: 95.19%
