# Introducción a MoleculeNet

Una de las características más poderosas de DeepChem es que viene "con baterías incluidas" con conjuntos de datos listos para usar. La comunidad de desarrolladores de DeepChem mantiene el conjuntos de datos MoleculeNet [1], que cuenta con una gran colección de diversos conjuntos de datos científicos para su uso en aplicaciones de aprendizaje automático.

Estos conjuntos de datos están integrados en el resto de la suite de DeepChem, por lo que puedes acceder a ellos de manera conveniente a través de funciones en el **submódulo dc.molnet**. Podemos ver los distintos datasets de MolecularNet en [2].

[1] Wu, Zhenqin, et al. "MoleculeNet: un punto de referencia para el aprendizaje automático molecular." Chemical science 9.2 (2018): 513-530.

[2] https://deepchem.readthedocs.io/en/latest/moleculenet.html

In [1]:
import deepchem as dc
dc.__version__

Skipped loading modules with pytorch-geometric dependency, missing a dependency. No module named 'torch_geometric'
Skipped loading modules with pytorch-geometric dependency, missing a dependency. cannot import name 'DMPNN' from 'deepchem.models.torch_models' (C:\Users\alloh\Miniconda3\lib\site-packages\deepchem\models\torch_models\__init__.py)
Skipped loading modules with pytorch-lightning dependency, missing a dependency. No module named 'pytorch_lightning'
Skipped loading some Jax models, missing a dependency. No module named 'jax'


'2.7.1'

En los dos tutoriales anteriores, cargamos el dataset de la solubilidad de distintas moléculas:

In [2]:
tasks, datasets, transformers = dc.molnet.load_delaney(featurizer='GraphConv', splitter='random')


La función loader que invocamos en dc.molnet.load_delaney se encuentra dentro del submodulo de los loaders de MoleculeNet. Veamos la colección completa de estos:

In [3]:
[method for method in dir(dc.molnet) if "load_" in method ]

['load_Platinum_Adsorption',
 'load_bace_classification',
 'load_bace_regression',
 'load_bandgap',
 'load_bbbc001',
 'load_bbbc002',
 'load_bbbp',
 'load_cell_counting',
 'load_chembl',
 'load_chembl25',
 'load_clearance',
 'load_clintox',
 'load_delaney',
 'load_factors',
 'load_freesolv',
 'load_function',
 'load_hiv',
 'load_hopv',
 'load_hppb',
 'load_kaggle',
 'load_kinase',
 'load_lipo',
 'load_mp_formation_energy',
 'load_mp_metallicity',
 'load_muv',
 'load_nci',
 'load_pcba',
 'load_pdbbind',
 'load_perovskite',
 'load_ppb',
 'load_qm7',
 'load_qm8',
 'load_qm9',
 'load_sampl',
 'load_sider',
 'load_sweet',
 'load_thermosol',
 'load_tox21',
 'load_toxcast',
 'load_uspto',
 'load_uv',
 'load_zinc15']

Podemos ver el total de datasets que tenemos actualmente aqui

In [4]:
len([method for method in dir(dc.molnet) if "load_" in method ])

42

## Categorias de los datasets en MoleculeNet

Vamos a separar los distintos datasets dentro de MoleculeNet en categorias. Más detalles sobre estos en: https://deepchem.readthedocs.io/en/latest/moleculenet.html

Los datasets que recoge el paper [1] son los denominados V1 y los que se añadieron más adelante a la publicación del paper los llamaremos V2

### Datasets de mecánica cuántica

### Quantum Mechanical Datasets
Estos datasets contienen varias propiedades cuánticas para tareas de predicción
- **QM7**: Cargado con `dc.molnet.load_qm7` (V1)
- **QM7b**: Cargado con `dc.molnet.load_qm7b_from_mat` (V1)
- **QM8**: Cargado con `dc.molnet.load_qm8` (V1)
- **QM9**: Cargado con `dc.molnet.load_qm9` (V1)

### Physical Chemistry Datasets
Estos datasets sirven para predecir las propiedades físicas de las moléculas.
- **Delaney (ESOL)**: Cargado con `dc.molnet.load_delaney` (V1)
- **SAMPL (FreeSolv)**: Cargado con `dc.molnet.load_sampl` (V1)
- **Lipo (Lipophilicity)**: Cargado con `dc.molnet.load_lipo` (V1)
- **Thermosol**: Cargado con `dc.molnet.load_thermosol` (V2)
- **HPPB**: Cargado con `dc.molnet.load_hppb` (V2)
- **HOPV**: Cargado con `dc.molnet.load_hopv` (V2)

### Chemical Reaction Datasets
Aquellos datasets que mantienen reacciones químicas
- **USPTO**: Cargado con `dc.molnet.load_uspto`

### Biochemical/Biophysical Datasets
Aquellos datasets relacionados con datasets bioquimicos/biofisicos que miden cosas como la afinidad de determinados componentes a proteinas
- **PCBA**: Cargado con `dc.molnet.load_pcba` (V1)
- **NCI**: Cargado con `dc.molnet.load_nci` (V2)
- **MUV**: Cargado con `dc.molnet.load_muv` (V1)
- **HIV**: Cargado con `dc.molnet.load_hiv` (V1)
- **PPB**: Cargado con `dc.molnet.load_ppb` (V2)
- **BACE Classification**: Cargado con `dc.molnet.load_bace_classification` (V1)
- **BACE Regression**: Cargado con `dc.molnet.load_bace_regression` (V1)
- **Kaggle**: Cargado con `dc.molnet.load_kaggle` (V2)
- **Factors**: Cargado con `dc.molnet.load_factors` (V2)
- **UV**: Cargado con `dc.molnet.load_uv` (V2)
- **Kinase**: Cargado con `dc.molnet.load_kinase` (V2)

### Molecular Catalog Datasets
Estos datasets proporcionan datasets moleculares que no tienen asociado propiedades más allá de su fórmula SMILES o estructura. Son muy útiles para las tareas de modelos generativos
- **ZINC15**: Cargado con `dc.molnet.load_zinc15` (V2)
- **ChEMBL**: Cargado con `dc.molnet.load_chembl` (V2)
- **ChEMBL25**: Cargado con `dc.molnet.load_chembl25` (V2)

### Physiology Datasets
Estos datasets miden propiedades fisiológicas de como las moléculas interactuan con los pacientes humanos
- **BBBP**: Cargado con `dc.molnet.load_bbbp` (V1)
- **TOX21**: Cargado con `dc.molnet.load_tox21` (V1)
- **TOXCAST**: Cargado con `dc.molnet.load_toxcast` (V1)
- **SIDER**: Cargado con `dc.molnet.load_sider` (V1)
- **ClinTox**: Cargado con `dc.molnet.load_clintox` (V1)
- **Clearance**: Cargado con `dc.molnet.load_clearance` (V2)

### Structural Biology Datasets
Estos datasets contienen las estructuras 3D de macromoléculas con sus propiedades asociadas
- **PDBbind**: Cargado con `dc.molnet.load_pdbbind` (V1)

### Microscopy Datasets
Estos datasets contienen imagenes de microscopía, tipicamente de lineas celulares
- **BBBC001**: Cargado con `dc.molnet.load_bbbc001` (V2)
- **BBBC002**: Cargado con `dc.molnet.load_bbbc002` (V2)
- **Cell Counting**: Cargado con `dc.molnet.load_cell_counting` (V2)

### Materials Properties Datasets
Computan propiedades de distintos materiales
- **Bandgap**: Cargado con `dc.molnet.load_bandgap` (V2)
- **Perovskite**: Cargado con `dc.molnet.load_perovskite` (V2)
- **MP Formation Energy**: Cargado con `dc.molnet.load_mp_formation_energy` (V2)
- **MP Metallicity**: Cargado con `dc.molnet.load_mp_metallicity` (V2)

### Loaders de MoleculeNet

Todas los loader de MoleculeNEt tienen la forma dc.molnet.load_X. La función loader devuelve una tupla de argumentos (tasks, datasets, transformers).

- **Tasks:** Es una lista del nombre de las tareas. Muchos datasets en MoleculeNet son multitarea, es decir, un datapoint tiene múltiples etiquetas asociadas como diferentes valores o medidas dentro de ese datapoint

- **Datasets:** Este campo es una tupla de tres dc.data.Dataset objects (train, valid, test). Corresponden al entrenamiento, validación y pruebas

- **Transformers:** Este campo es una lista de dc.trans.Transformer los cuales fueron aplicados a este dataset durante su procesamiento

Veamos todo esto con el dataset de solubilidades que cargamos anteriormente

In [5]:
tasks #Tenemos una única tarea que es la logsolubilidad en mol/litro

['measured log solubility in mols per litre']

In [6]:
datasets #Separemos esta tupla de 3 elementos en la siguiente linea

(<DiskDataset X.shape: (902,), y.shape: (902, 1), w.shape: (902, 1), ids: ['CCC(C)CO' 'O=C1N(COC(=O)CCCCCC)C(=O)C(N1)(c2ccccc2)c3ccccc3'
  'Clc1ccccc1C2=NCC(=O)Nc3ccc(cc23)N(=O)=O' ... 'ClCBr'
  'O=C1NC(=O)C(N1)(c2ccccc2)c3ccccc3'
  'CC(=O)OC3CCC4C2CCC1=CC(=O)CCC1(C)C2CCC34C '], task_names: ['measured log solubility in mols per litre']>,
 <DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['Clc1ccc(cc1)N(=O)=O' 'CCSSCC' 'Nc1ccccc1Cl' ... 'CCCCCC'
  'CN2C(=O)CN=C(c1ccccc1)c3cc(ccc23)N(=O)=O' 'Clc1ccccc1c2ccccc2'], task_names: ['measured log solubility in mols per litre']>,
 <DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['CN(C=Nc1ccc(C)cc1C)C=Nc2ccc(C)cc2C' 'Cc1cccc2c1ccc3ccccc32'
  'Oc1ccccc1Cl' ... 'O=c2[nH]c(=O)c1[nH]c(=O)[nH]c1[nH]2 '
  'O=C1N(COC(=O)C)C(=O)C(N1)(c2ccccc2)c3ccccc3' 'CCCCC(O)CC'], task_names: ['measured log solubility in mols per litre']>)

In [7]:
train, valid, test = datasets

In [8]:
train

<DiskDataset X.shape: (902,), y.shape: (902, 1), w.shape: (902, 1), ids: ['CCC(C)CO' 'O=C1N(COC(=O)CCCCCC)C(=O)C(N1)(c2ccccc2)c3ccccc3'
 'Clc1ccccc1C2=NCC(=O)Nc3ccc(cc23)N(=O)=O' ... 'ClCBr'
 'O=C1NC(=O)C(N1)(c2ccccc2)c3ccccc3'
 'CC(=O)OC3CCC4C2CCC1=CC(=O)CCC1(C)C2CCC34C '], task_names: ['measured log solubility in mols per litre']>

In [9]:
valid

<DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['Clc1ccc(cc1)N(=O)=O' 'CCSSCC' 'Nc1ccccc1Cl' ... 'CCCCCC'
 'CN2C(=O)CN=C(c1ccccc1)c3cc(ccc23)N(=O)=O' 'Clc1ccccc1c2ccccc2'], task_names: ['measured log solubility in mols per litre']>

In [10]:
test

<DiskDataset X.shape: (113,), y.shape: (113, 1), w.shape: (113, 1), ids: ['CN(C=Nc1ccc(C)cc1C)C=Nc2ccc(C)cc2C' 'Cc1cccc2c1ccc3ccccc32'
 'Oc1ccccc1Cl' ... 'O=c2[nH]c(=O)c1[nH]c(=O)[nH]c1[nH]2 '
 'O=C1N(COC(=O)C)C(=O)C(N1)(c2ccccc2)c3ccccc3' 'CCCCC(O)CC'], task_names: ['measured log solubility in mols per litre']>

Podemos acceder a un datapoint del conjunto de entrenamiento

In [12]:
train.X[0] #Objeto tipo dc.feat.ConvMolFeaturizer

<deepchem.feat.mol_graphs.ConvMol at 0x11b12b65730>

In [14]:
transformers #Podemos ver que se aplico un
             # dc.trans.NormalizationTransformer

[<deepchem.trans.transformers.NormalizationTransformer at 0x11b28e843d0>]

# Control de Featurización y División de Conjuntos de Datos

Los conjuntos de datos se pueden procesar con diferentes elecciones de featurer. ¿Podemos controlar la elección de la featurización aquí? Además, ¿cómo se dividió el conjunto de datos fuente en conjuntos de entrenamiento, validación y prueba como tres conjuntos de datos diferentes?

Puedes utilizar los argumentos de palabras clave 'featurizer' y 'splitter' y pasar diferentes cadenas. Las elecciones comunes para 'featurizer' son:
- 'ECFP' para Fingerprint Circular (featurizador `dc.feat.CircularFingerprint`)
- 'GraphConv' para ConvMolFeaturizer (featurizador `dc.feat.ConvMolFeaturizer`)
- 'Weave' para WeaveFeaturizer (featurizador `dc.feat.WeaveFeaturizer`)
- 'smiles2img' para SmilesToImage (featurizador `dc.feat.SmilesToImage`)

Las opciones comunes para 'splitter' son 
- none 
- index 
- random
- scaffold 
- stratified

Los "splitters" son intuitivamente son una forma de dividir un conjunto de datos según diferentes criterios. Hablaremos más sobre esto en futuros tutoriales.

Una característica interesante es que, en lugar de utilizar cadenas, puedes pasar objetos Featurizer o Splitter personalizados. Esto es especialmente útil cuando, por ejemplo, un Featurizer tiene argumentos de constructor que puedes usar para personalizar su comportamiento.

In [15]:
tasks, datasets, transformers = dc.molnet.load_delaney(featurizer="ECFP", splitter="scaffold")

In [16]:
(train, valid, test) = datasets

In [17]:
train

<DiskDataset X.shape: (902, 1024), y.shape: (902, 1), w.shape: (902, 1), ids: ['CC(C)=CCCC(C)=CC(=O)' 'CCCC=C' 'CCCCCCCCCCCCCC' ...
 'Nc2cccc3nc1ccccc1cc23 ' 'C1CCCCCC1' 'OC1CCCCCC1'], task_names: ['measured log solubility in mols per litre']>

In [18]:
train.X[0] #Ya no es un gravConv si no un vector numérico ECFP

array([0., 0., 0., ..., 0., 0., 0.])