<a href="https://colab.research.google.com/github/Tatsuro0726/chemoinfomatics/blob/main/deepchem/Tutorial3_MolculeNet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Tutorial 3: MoleculeNetの紹介
オリジナルのMoleculeNetスイートには、主に分子特性に焦点を当てた17のデータセットがありました。ここ数年の間に、MoleculeNetは、科学的な機械学習ツールの広範な使用と開発を促進するために、より広範な科学的データセットのコレクションへと進化しました。

#### Setup

In [2]:
!curl -Lo conda_installer.py https://raw.githubusercontent.com/deepchem/deepchem/master/scripts/colab_install.py
import conda_installer
conda_installer.install()
!/root/miniconda/bin/conda info -e

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  3490  100  3490    0     0  19071      0 --:--:-- --:--:-- --:--:-- 18967


add /root/miniconda/lib/python3.6/site-packages to PYTHONPATH
python version: 3.6.9
fetching installer from https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
done
installing miniconda to /root/miniconda
done
installing rdkit, openmm, pdbfixer
added omnia to channels
added conda-forge to channels
done
conda packages installation finished!


# conda environments:
#
base                  *  /root/miniconda



In [3]:
!pip install --pre deepchem

Collecting deepchem
[?25l  Downloading https://files.pythonhosted.org/packages/b7/f7/5828211eb0b9a78e4dad42de96dcc61d616330586c28fceda6651d8ae324/deepchem-2.5.0.dev20210116000740-py3-none-any.whl (531kB)
[K     |▋                               | 10kB 15.9MB/s eta 0:00:01[K     |█▎                              | 20kB 21.1MB/s eta 0:00:01[K     |█▉                              | 30kB 15.0MB/s eta 0:00:01[K     |██▌                             | 40kB 10.5MB/s eta 0:00:01[K     |███                             | 51kB 5.0MB/s eta 0:00:01[K     |███▊                            | 61kB 5.5MB/s eta 0:00:01[K     |████▎                           | 71kB 5.7MB/s eta 0:00:01[K     |█████                           | 81kB 6.2MB/s eta 0:00:01[K     |█████▌                          | 92kB 6.2MB/s eta 0:00:01[K     |██████▏                         | 102kB 5.0MB/s eta 0:00:01[K     |██████▉                         | 112kB 5.0MB/s eta 0:00:01[K     |███████▍                       

In [4]:
import deepchem as dc
dc.__version__

'2.5.0.dev'

#### MoleuleNetの概要

In [5]:
# データの読み込み
tasks, datasets, transformers = dc.molnet.load_delaney(featurizer='GraphConv', splitter='random')

In [6]:
# dir(dc.molnet) : ローカルスコープにある名前のリスト(関数とか)
# molnet内にある関数名等をリストとして取得
molnet_dataset_name = [method for method in dir(dc.molnet) if "load_" in method ]

In [7]:
# データセット数
len(molnet_dataset_name)

40

#### MoleculeNet Loaderの説明
■ dc.molnet.load_<b>XX</b>の形。  
戻り値：(tasks, datasets,transformers)のタプル

■ 戻り値の引数(arguments)について  
* tasks<br>タスク名のリスト。多くのデータセットは「マルチタスク」。複数の目的変数がセットされている |
* datasets<br> dc.data.Datasetオブジェクト(train, valid, test)のタプル。  
* transformers<br>loaderの処理でデータセットに適用されたdc.trans.Transformerオブジェクトのリスト。

In [8]:
tasks

['measured log solubility in mols per litre']

In [9]:
datasets

(<DiskDataset X.shape: (902,), y.shape: (902, 1), w.shape: (902, 1), ids: ['CCCC1COC(Cn2cncn2)(O1)c3ccc(Cl)cc3Cl' 'CC#N' 'Nc2cnn(c1ccccc1)c(=O)c2Cl'
  ... 'O=c2c(C3CCCc4ccccc43)c(O)c1ccccc1o2 ' 'CCC' 'CCCCCCCCBr'], task_names: ['measured log solubility in mols per litre']>,
 <DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['OC1C(O)C(O)C(O)C(O)C1O' 'OCC(O)C2OC1OC(OC1C2O)C(Cl)(Cl)Cl '
  'COc1c(O)c(Cl)c(Cl)c(Cl)c1Cl ' ... 'CCOc1ccc(NC(N)=O)cc1'
  'CN(C)C(=O)NC1CCCCCCC1' 'Nc3cc2c1ccccc1ccc2c4ccccc34 '], task_names: ['measured log solubility in mols per litre']>,
 <DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['Cc1cc(cc(N(=O)=O)c1O)N(=O)=O' 'Clc1ccc(cc1)c2c(Cl)cccc2Cl ' 'CCCOCCC'
  ... 'Cc1cccc2c1ccc3ccccc32' 'Fc1ccc(F)cc1'
  'Clc1ccc(c(Cl)c1Cl)c2c(Cl)cc(Cl)c(Cl)c2Cl '], task_names: ['measured log solubility in mols per litre']>)

In [10]:
# datasetsの中身
train, valid, test = datasets

In [15]:
train

<DiskDataset X.shape: (902,), y.shape: (902, 1), w.shape: (902, 1), ids: ['CCCC1COC(Cn2cncn2)(O1)c3ccc(Cl)cc3Cl' 'CC#N' 'Nc2cnn(c1ccccc1)c(=O)c2Cl'
 ... 'O=c2c(C3CCCc4ccccc43)c(O)c1ccccc1o2 ' 'CCC' 'CCCCCCCCBr'], task_names: ['measured log solubility in mols per litre']>

In [16]:
test

<DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['Cc1cc(cc(N(=O)=O)c1O)N(=O)=O' 'Clc1ccc(cc1)c2c(Cl)cccc2Cl ' 'CCCOCCC'
 ... 'Cc1cccc2c1ccc3ccccc32' 'Fc1ccc(F)cc1'
 'Clc1ccc(c(Cl)c1Cl)c2c(Cl)cc(Cl)c(Cl)c2Cl '], task_names: ['measured log solubility in mols per litre']>

In [17]:
valid

<DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['OC1C(O)C(O)C(O)C(O)C1O' 'OCC(O)C2OC1OC(OC1C2O)C(Cl)(Cl)Cl '
 'COc1c(O)c(Cl)c(Cl)c(Cl)c1Cl ' ... 'CCOc1ccc(NC(N)=O)cc1'
 'CN(C)C(=O)NC1CCCCCCC1' 'Nc3cc2c1ccccc1ccc2c4ccccc34 '], task_names: ['measured log solubility in mols per litre']>

In [18]:
# trainの先頭データ
# dc.feat.ConvMolFeaturizerによって生成されたdc.feat.mol_graphs.ConvMolオブジェクト。
train.X[0]

<deepchem.feat.mol_graphs.ConvMol at 0x7fdb05e067f0>

In [19]:
# transformersの確認
transformers

[<deepchem.trans.transformers.NormalizationTransformer at 0x7fdb0569c860>]

- transformerについて  
  - 上記よりdc.trans.NormalizationTransformerという一つの変換が適用されていることが分かる。
  - featurizer, splitterのキーワード引数を使用する。
    - featurizer: ECFP, GraphConv, Weave, smiles2img
    - splitter: None, index, random, scaffold, stratified(分割なし)
    - 指定の文字列の代わりに、任意のFeaturizer/Splitterオブジェクトを渡すことも可能。⇒カスタマイズできるよー

In [21]:
# 別のFeaturization、分割手法を選んでみる
# scaffold: 構造で分割するイメージ？？？
tasks, datasets, transformers = dc.molnet.load_delaney(featurizer='ECFP', splitter='scaffold')

In [22]:
(train, valid, test) = datasets

In [23]:
train

<DiskDataset X.shape: (902, 1024), y.shape: (902, 1), w.shape: (902, 1), ids: ['CC(C)=CCCC(C)=CC(=O)' 'CCCC=C' 'CCCCCCCCCCCCCC' ...
 'Nc2cccc3nc1ccccc1cc23 ' 'C1CCCCCC1' 'OC1CCCCCC1'], task_names: ['measured log solubility in mols per litre']>

In [26]:
# Fingerprintで1024ビットに変換されている
train.X.shape

(902, 1024)