<a href="https://colab.research.google.com/github/Tatsuro0726/chemoinfomatics/blob/main/deepchem/Tutorial4_Fingerprint.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Tutorial 4: Molecular Fingerprints
分子は多くの方法で表現することができます。このチュートリアルでは、「分子の指紋」と呼ばれる表現の一種を紹介します。これは非常にシンプルな表現で、小さな薬物のような分子によく機能することが多いです。

#### Setup

In [1]:
!curl -Lo conda_installer.py https://raw.githubusercontent.com/deepchem/deepchem/master/scripts/colab_install.py
import conda_installer
conda_installer.install()
!/root/miniconda/bin/conda info -e

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  3490  100  3490    0     0  14244      0 --:--:-- --:--:-- --:--:-- 14186


add /root/miniconda/lib/python3.6/site-packages to PYTHONPATH
python version: 3.6.9
fetching installer from https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
done
installing miniconda to /root/miniconda
done
installing rdkit, openmm, pdbfixer
added conda-forge to channels
added omnia to channels
done
conda packages installation finished!


# conda environments:
#
base                  *  /root/miniconda



In [2]:
!pip install --pre deepchem

Collecting deepchem
[?25l  Downloading https://files.pythonhosted.org/packages/b7/f7/5828211eb0b9a78e4dad42de96dcc61d616330586c28fceda6651d8ae324/deepchem-2.5.0.dev20210116000740-py3-none-any.whl (531kB)
[K     |▋                               | 10kB 14.9MB/s eta 0:00:01[K     |█▎                              | 20kB 20.3MB/s eta 0:00:01[K     |█▉                              | 30kB 13.9MB/s eta 0:00:01[K     |██▌                             | 40kB 9.4MB/s eta 0:00:01[K     |███                             | 51kB 8.3MB/s eta 0:00:01[K     |███▊                            | 61kB 6.8MB/s eta 0:00:01[K     |████▎                           | 71kB 7.6MB/s eta 0:00:01[K     |█████                           | 81kB 8.4MB/s eta 0:00:01[K     |█████▌                          | 92kB 8.3MB/s eta 0:00:01[K     |██████▏                         | 102kB 7.5MB/s eta 0:00:01[K     |██████▉                         | 112kB 7.5MB/s eta 0:00:01[K     |███████▍                        

In [3]:
import deepchem as dc
dc.__version__

'2.5.0.dev'

#### Fingerprintとは？
Deeplearningでは、一般的に数値の配列を入力としている。分子を入力するには各分子を1つまたは複数の数値の配列として表現する必要がある。  
多くの予測モデルでは、入力のサイズを固定する必要がある。分子によって原子数が異なるため、分子を扱う上で難しい問題である。  

上記の問題の対処方法として、Fingerprintが提案されている。<br>Fingerprintは、固定長の配列で、各要素が分子の特徴を示している。２つの分子が似たようなFingerprintの場合、同じ特徴を多く含んでいることを示しており、化学的性質も似ている可能性が高いことが示される。  

DeepChemでは、Exteded Connectivity Fingerprint(ECFP)と呼ばれるフィンガープリントをサポートしている。<br>
ECFPアルゴリズムは、特性と結合に基づいて原子を分類することから始まる。それぞれの固有なパターンが特徴となる。例えば、「2つの水素と2つの重原子に結合した炭素原子」が特徴となり、この特徴を有する任意の分子に対して、Fingerprintの特定の要素に<b>"1"</b>が設定される。その次に、より大きな部分の近傍領域を見て、新しい特徴を反復的に識別する。他の2つの特定の特徴に結合した1つの特定の特徴が上位の特徴となり、その特徴を含むすべての分子に対応する要素が設定される。これを一定回数、多くの場合は2回繰り返す。

In [4]:
# ECPFで変換されたデータを見てみる
tasks, datasets, transformers = dc.molnet.load_tox21(featurizer='ECFP')
train, valid, test = datasets
print(train)

<DiskDataset X.shape: (6264, 1024), y.shape: (6264, 12), w.shape: (6264, 12), task_names: ['NR-AR' 'NR-AR-LBD' 'NR-AhR' ... 'SR-HSE' 'SR-MMP' 'SR-p53']>


y.shape(6264, 12)　⇒　マルチタスクデータセットを意味する。  
tox21には、毒性のサインを探すために12の異なるアッセイが使用された。

In [5]:
# 重み配列の確認
train.w

array([[1.0450224215246637, 1.036325992847732, 1.1250265336446614, ...,
        1.0557650327445922, 1.1746499631540162, 1.05288369419429],
       [1.0450224215246637, 1.036325992847732, 1.1250265336446614, ...,
        1.0557650327445922, 1.1746499631540162, 1.05288369419429],
       [1.0450224215246637, 1.036325992847732, 1.1250265336446614, ...,
        1.0557650327445922, 0.0, 1.05288369419429],
       ...,
       [1.0450224215246637, 0.0, 1.1250265336446614, ...,
        1.0557650327445922, 6.725738396624473, 1.05288369419429],
       [1.0450224215246637, 1.036325992847732, 1.1250265336446614, ...,
        1.0557650327445922, 6.725738396624473, 1.05288369419429],
       [1.0450224215246637, 1.036325992847732, 1.1250265336446614, ...,
        0.0, 1.1746499631540162, 1.05288369419429]], dtype=object)

* 0である要素があることに注意する。  
* wは欠損データを示すために使用されている。
* すべての分子に対して、全てのアッセイが実施されているわけではない。
* サンプル、サンプル/タスクの重みを"0"に設定すると、フィッティングや評価の際に無視される。損失関数や他の指標には影響を与えない。

* wが1ではない理由。
  - 各タスクの陽性サンプルと陰性サンプルの全体的な重みのバランスを取るため。  
  - モデルを学習するときに、12個のタスクのそれぞれが等価であり、各タスクで陽性・陰性サンプルに対して等しく重みを与えたい。⇒ある特定の方向(毒性がない)などの方向に偏ってしまう可能性がある。

#### モデルの学習
ECFPではGraphConvModelに比べて、シンプルなタイプのモデルを使用することができる。

In [11]:
# マルチタスク分類
model = dc.models.MultitaskClassifier(n_tasks=12, n_features=1024, layer_sizes=[1000])

MultitaskClassifier は、全結合レイヤーの単純なスタックです。この例では、1000 の隠れ層を使用するように指示しています。また，各入力は1024個の特徴量を持ち，12個の異なるタスクの予測値を生成するように指示しています

In [12]:
# モデルの評価
import numpy as np

model.fit(train, nb_epoch=10)
metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
print('training set score: {}'.format(model.evaluate(train,[metric], transformers)))
print('test set socre: {}'.format(model.evaluate(test, [metric], transformers)))

training set score: {'roc_auc_score': 0.9578183320116023}
test set socre: {'roc_auc_score': 0.6876368927833357}
