# Tutorial Part 6: Introduction to Graph Convolutions

이 튜토리얼에서는 "graph convolutions"에 대해 자세히 알아보겠습니다. 이것들은 분자 데이터를 다루는 가장 강력한 딥 러닝 도구 중 하나입니다. 그 이유는 분자가 자연스럽게 그래프로 볼 수 있기 때문이다.

![Molecular Graph](https://github.com/deepchem/deepchem/blob/master/examples/tutorials/basic_graphs.gif?raw=1)

우리가 고등학교 때부터 익숙했던 표준 화학 도표가 어떻게 분자를 그래프로 시각화하는 데 자연스럽게 도움이 되는지 보세요. 이 튜토리얼의 나머지 부분에서는 이 관계에 대해 훨씬 더 자세히 알아보겠습니다. 이를 통해 이러한 시스템의 작동 방식을 보다 깊이 이해할 수 있습니다.

## What are Graph Convolutions?

이미지를 처리하는 데 일반적으로 사용되는 종류의 표준 convolutional neural network (CNN)을 고려해보자. 입력은 grid of pixels입니다. 각 픽셀에 대한 데이터 값의 벡터가 있습니다(예: 빨간색, 녹색 및 파란색 채널). 데이터는 일련의 컨볼루션 레이어를 통과한다. 각 레이어는 픽셀과 그 이웃의 데이터를 결합하여 픽셀에 대한 새로운 데이터 벡터를 생성한다. 초기 계층은 small scale local patterns을 탐지하는 반면, 이후 계층은 larger, more abstract patterns을 탐지한다. 종종 convolutional layers는 로컬 영역에 대해 max 또는 min과 같은 작업을 수행하는 pooling layers와 교대한다.

Graph convolutions도 비슷하지만 그래프에서 작동합니다. 이들은 그래프의 각 노드에 대한 데이터 벡터(예: 노드가 나타내는 원자의 화학적 특성)로 시작한다. Convolutional and pooling layers는 연결된 노드(예: 서로 결합된 원자)의 정보를 결합하여 각 노드에 대한 새로운 데이터 벡터를 생성한다.

## Training a GraphConvModel

MoleculeNet을 사용하여 Tox21 데이터 세트를 로드합니다. graph convolutional 네트워크가 사용할 수 있는 방식으로 데이터를 특징짓기 위해 featurizer 옵션을 `'GraphConv'`로 설정했다. MoleculeNet 호출은 우리가 사용할 훈련 세트, 검증 세트 및 테스트 세트를 반환합니다. 또한 작업 이름 목록인 `tasks`과 데이터 세트 전처리에 적용된 데이터 변환 목록인 `transformers`도 반환한다. (대부분의 심층 네트워크는 매우 까다롭고 교육이 안정적으로 진행될 수 있도록 일련의 데이터 변환이 필요합니다

In [2]:
import deepchem as dc

tasks, datasets, transformers = dc.molnet.load_tox21(featurizer='GraphConv')
train_dataset, valid_dataset, test_dataset= datasets

이제 이 데이터 세트에 대한 그래프 컨볼루션 네트워크를 학습해 봅시다. DeepChem은 사용자 편의를 위해 후드 아래에 표준 graph convolutional 아키텍처를 감싸는 클래스 `GraphConvModel`을 가지고 있다. 이 클래스의 개체를 인스턴스화하고 데이터 세트에서 학습해 보겠습니다.

In [3]:
n_tasks = len(tasks)
model = dc.models.GraphConvModel(n_tasks, mode = 'classification')
model.fit(train_dataset, nb_epoch=50)

  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)


  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." %

  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)


  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)


0.2715944480895996

지금까지 학습한 모델의 성능을 평가해 보겠습니다. 이를 위해, 우리는 모델 성능의 척도인 메트릭을 정의해야 한다. `dc.metrics`에는 이미 메트릭 컬렉션이 있습니다. 이 데이터 세트의 경우, receiver operating characteristic curve 아래의 영역인 ROC-AUC 점수를 사용하는 것이 표준이다(precision와 recall 간의 tradeoff를 측정한다). 다행히도, ROC-AUC 점수는 DeepChem에서 이미 구할 수 있다. 

이 메트릭에서 모델의 성능을 측정하기 위해 편의 기능 `model.evaluate()`를 사용할 수 있습니다.

In [4]:
metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
print('Training set score:', model.evaluate(train_dataset, [metric], transformers))
print('Test set score:', model.evaluate(test_dataset, [metric], transformers))

Training set score: {'roc_auc_score': 0.972129622753228}
Test set score: {'roc_auc_score': 0.7002389771096547}


결과는 꽤 괜찮고, `GraphConvModel` 은 매우 사용하기 쉽다. DeepChem은 그래프 컨볼루션과 관련된 모든 계산을 위한 케라스 레이어를 제공한다. 우리는 DeepChem의 다음 레이어를 적용할 것입니다.

-  `GraphConv` layer: 이 레이어는 그래프 컨볼루션(graph convolution)을 구현한다. 그래프 컨볼루션은 비선형 방식으로 노드당 형상 벡터와 인접 노드의 형상 벡터를 결합한다.  이것은 그래프의 지역 이웃에 있는 정보를 "혼합"한다.

- `GraphPool` layer: 이 레이어는 이웃에 있는 원자의 특성 벡터에 대해 최대 풀링을 수행한다. 이 계층은 2D 컨볼루션의 최대 풀링 계층과 유사하지만 그래프에서 대신 작동하는 계층이라고 생각할 수 있다. 

- `GraphGather`: 많은 그래프 컨볼루션 네트워크가 그래프 노드당 피처 벡터를 조작한다. 예를 들어 분자의 경우, 각 노드는 원자를 나타낼 수 있으며, 네트워크는 원자의 국소 화학을 요약하는 atomic feature vectors를 조작할 수 있다. 그러나 애플리케이션이 끝날 때, 우리는 molecule level feature representation으로 작업하기를 원할 것 같다. 이 레이어는 모든 node-level feature vectors를 결합하여 graph level feature vector를 작성합니다.

이와 별도로, 우리는 [Dense](https://keras.io/api/layers/core_layers/dense/), [Batch Normalization](https://keras.io/api/layers/normalization_layers/batch_normalization/) 및 [Softmax](https://keras.io/api/layers/activation_layers/softmax/)) 레이어와 같은 standard neural network layers를 적용할 것이다.

In [11]:
from deepchem.models.layers import GraphConv, GraphPool, GraphGather
import tensorflow as tf
import tensorflow.keras.layers as layers

batch_size = 100

class MyGraphConvModel(tf.keras.Model):

    def __init__(self):
        super(MyGraphConvModel, self).__init__()
        self.gc1 = GraphConv(128, activation_fn=tf.nn.tanh)
        self.batch_norm1 = layers.BatchNormalization()
        self.gp1 = GraphPool()

        self.gc2 = GraphConv(128, activation_fn=tf.nn.tanh)
        self.batch_norm2 = layers.BatchNormalization()
        self.gp2 = GraphPool()

        self.dense1 = layers.Dense(256, activation=tf.nn.tanh)
        self.batch_norm3 = layers.BatchNormalization()
        self.readout = GraphGather(batch_size=batch_size, activation_fn=tf.nn.tanh)

        self.dense2 = layers.Dense(n_tasks*2)
        self.logits = layers.Reshape((n_tasks, 2))
        self.softmax = layers.Softmax()

    def call(self, inputs):
        gc1_output = self.gc1(inputs)
        batch_norm1_output = self.batch_norm1(gc1_output)
        gp1_output = self.gp1([batch_norm1_output] + inputs[1:])

        gc2_output = self.gc2([gp1_output] + inputs[1:])
        batch_norm2_output = self.batch_norm1(gc2_output)
        gp2_output = self.gp2([batch_norm2_output] + inputs[1:])

        dense1_output = self.dense1(gp2_output)
        batch_norm3_output = self.batch_norm3(dense1_output)
        readout_output = self.readout([batch_norm3_output] + inputs[1:])

        logits_output = self.logits(self.dense2(readout_output))
        return self.softmax(logits_output)

우리는 지금 무슨 일이 일어나고 있는지 더 명확하게 볼 수 있다.  두 개의 컨볼루션 블록이 있는데, 각각은 `GraphConv`로 구성되고, 그 다음에는 batch normalization로 구성되며, 이어서 `GraphPool`이 최대 풀링을 수행한다.  우리는 dense layer, 또 다른 배치 정규화, 모든 다른 노드의 데이터를 결합하는 `GraphGather` 및 global output을 생성하기 위한 final dense layer으로 마무리한다. 

이제 방금 만든 케라스 모델을 감싸는 DeepChem 모델을 만들어 봅시다. 또한 모델이 최소화하고자 하는 목표를 알 수 있도록 손실 함수를 지정할 것입니다.

In [12]:
model = dc.models.KerasModel(MyGraphConvModel(), loss=dc.models.losses.CategoricalCrossEntropy())

이 모델의 입력은 무엇입니까?  그래프 컨볼루션에는 노드 목록(원자)과 어떤 노드가 서로 결합되는지에 대한 설명을 포함하여 각 분자에 대한 완전한 설명이 필요하다.  실제로 데이터 세트를 검사하면 feature array에 `ConvMol` 유형의 Python 개체가 포함되어 있음을 알 수 있다.

In [13]:
test_dataset.X[0]

<deepchem.feat.mol_graphs.ConvMol at 0x1d7406b7308>

모델들은 Python 객체가 아닌 숫자 배열을 입력으로 예상한다. 우리는 `ConvMol` 객체를 `GraphConv`, `GraphPool`, and `GraphGather` 레이어에 의해 예상되는 특정 어레이 세트로 변환해야 한다. 다행히도, `ConvMol` 클래스에는 이를 위한 코드가 포함되어 있고, 모든 분자를 일괄적으로 결합하여 단일 배열 집합을 만듭니다.

다음 코드는 Python 생성기를 생성하여 데이터 배치에 따라 Numpy 배열인 입력, 레이블 및 가중치 목록을 생성합니다. `atom_features`는 각 원자에 대해 길이 75의 feature vector를 가지고 있다. TensorFlow에서 minibatching를 지원하려면 다른 입력이 필요하다. `degree_slice`는 주어진 degree에서 모든 분자의 원자를 쉽게 찾을 수 있도록 해주는 indexing convenience입니다. `membership`은 분자 내 원자의 멤버십(원자 `i`는 분자 `membership[i]`에 속함)을 결정한다.  `deg_adjs`은 atom degree로 그룹화된 인접 목록을 포함하는 목록입니다. 자세한 내용은 [code](https://github.com/deepchem/deepchem/blob/master/deepchem/feat/mol_graphs.py))를 참조하십시오.

In [15]:
from deepchem.metrics import to_one_hot
from deepchem.feat.mol_graphs import ConvMol
import numpy as np

def data_generator(dataset, epochs=1):
  for ind, (X_b, y_b, w_b, ids_b) in enumerate(dataset.iterbatches(batch_size, epochs,
                                                                   deterministic=False, pad_batches=True)):
    multiConvMol = ConvMol.agglomerate_mols(X_b)
    inputs = [multiConvMol.get_atom_features(), multiConvMol.deg_slice, np.array(multiConvMol.membership)]
    for i in range(1, len(multiConvMol.get_deg_adjacency_lists())):
      inputs.append(multiConvMol.get_deg_adjacency_lists()[i])
    labels = [to_one_hot(y_b.flatten(), 2).reshape(-1, n_tasks, 2)]
    weights = [w_b]
    yield (inputs, labels, weights)

이제, 우리는 우리가 정의한 generator를 사용하여 모델을 훈련시키는 `fit_generator(generator)`를 사용하여 모델을 훈련시킬 수 있다.

In [16]:
model.fit_generator(data_generator(train_dataset, epochs=50))

  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)


  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." %

  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)




  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)




  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)
  "shape. This may consume a large amount of memory." % value)


0.2109064292907715

그래프 컨볼루션 방법을 학습했으므로 이제 성능을 평가해 봅시다. 우리는 모델 성능을 평가하기 위해 정의된 생성기를 다시 사용해야 한다.

In [17]:
print('Training set score:', model.evaluate_generator(data_generator(train_dataset), [metric], transformers))
print('Test set score:', model.evaluate_generator(data_generator(test_dataset), [metric], transformers))

Training set score: {'roc_auc_score': 0.8293892453296042}
Test set score: {'roc_auc_score': 0.6117000048749678}


성공! 우리가 구성한 모델은 `GraphConvModel`과 거의 동일하게 동작한다. 사용자 지정 모델을 구축하려는 경우 여기에 제공된 예를 따라 모델을 구축할 수 있습니다. 우리는 곧 여러분의 끝에서 신나는 constructions을 볼 수 있기를 바랍니다!