In [30]:
from collections import defaultdict as ddict, OrderedDict as odict
from typing import Any, Dict, List

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor
from rdkit.ML.Descriptors.MoleculeDescriptors import MolecularDescriptorCalculator
from rdkit.Chem import PandasTools, AllChem as Chem, Descriptors
from rdkit.Chem.Descriptors import MolWt
from sklearn.ensemble import RandomForestRegressor
import sklearn
from rdkit.Chem.rdmolops import GetFormalCharge
import torch
import deepchem as dc
import copy
from sklearn.model_selection import train_test_split
import imp

In [31]:
import sys
sys.path.append('../')
from modules.RNN import double_RNN, RNN
from modules.MPNN import double_MPNN, MPNN
import modules.pretraining as p

---
## Training + testing

### Single input models

In [32]:
s_DMPNN = p.Model(name='DMPNN',
                model=MPNN(MP_depth=3, MP_hidden=256, NN_depth=2, NN_hidden=512, activation='ReLU', 
                                atom_messages=False, dropout=0, readout='sum'),
                lr=0.001,
                batch_size=64,
                data_type='graphs',
                inputs=1)
s_DMPNN_att = p.Model(name='DMPNN with attention',
                      model=MPNN(MP_depth=4, MP_hidden=128, NN_depth=4, NN_hidden=64, activation='ELU', 
                                        atom_messages=False, dropout=0, readout='mean'),
                      lr=0.001,
                      batch_size=64,
                      data_type='graphs',
                      inputs=1)
s_MPNN = p.Model(name='MPNN',
               model=MPNN(MP_depth=3, MP_hidden=256, NN_depth=2, NN_hidden=512, activation='LeakyReLU', 
                          atom_messages=True, dropout=0, readout='sum'),
               lr=0.001,
               batch_size=64,
               data_type='graphs',
               inputs=1)
s_MPNN_att = p.Model(name='MPNN with attention',
                   model=MPNN(MP_depth=2, MP_hidden=64, NN_depth=4, NN_hidden=512, activation='ReLU', 
                                     atom_messages=True, dropout=0, readout='max'),   
                   lr=0.001,
                   batch_size=64,
                   data_type='graphs',
                   inputs=1)
s_RNN = p.Model(name='RNN',
              model=RNN(NN_depth=3, NN_hidden=512, RNN_hidden=512, activation='ReLU', dropout=0.3,
                        features=300, readout='max'),
              lr=0.001,
              batch_size=32,
              data_type='sentences',
              inputs=1)
s_RNN_att = p.Model(name='RNN with attention',
                    model=RNN(NN_depth=1, NN_hidden=1024, RNN_hidden=512, activation='PReLU', dropout=0.1,
                                     features=300, readout='max'),
                    lr=0.001,
                    batch_size=32,
                    data_type='sentences',
                    inputs=1)

#list of all models for testing
s_models = [s_DMPNN, s_DMPNN_att, s_MPNN, s_MPNN_att, s_RNN, s_RNN_att]
s_graph_models = [s_DMPNN, s_DMPNN_att, s_MPNN, s_MPNN_att]
s_sen_models = [s_RNN, s_RNN_att]

### Water pka

In [33]:
data = pd.read_csv('pretrain_data/water_pka.csv')
solute = data['Solute SMILES'].tolist()
pka = data['pKa (avg)'].tolist()
datasets = p.data_maker(solute, pka)

exp_name = "Water pka"
for m in s_models:
    data = datasets[m.data_type]
    print('testing '+m.name+' ...')
    p.fit_no_test(m, exp_name, data)

testing DMPNN ...
testing DMPNN with attention ...
testing MPNN ...
testing MPNN with attention ...
testing RNN ...
testing RNN with attention ...


In [None]:
max(pka)

### QM9

In [15]:
#data
data = pd.read_csv('pretrain_data/qm9.csv')
smiles = data['smiles'].tolist()
#properties = ['mu','alpha','homo','lumo','gap','r2','zpve','u0','u298','h298','g298','cv']
properties = ['mu','alpha','gap','r2','g298','cv','g298_atom']

In [16]:
#graph models
for prop in properties:
    exp_name = 'QM9_'+prop
    print('---loading '+prop)
    prop_list = data[prop].tolist()
    dataset = p.data_maker_decon(smiles, prop_list, 'graphs')
    prop_list = None
    for m in s_graph_models:
        print('testing '+m.name+' ...')
        p.fit_no_test(m, exp_name, dataset)

---loading mu
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.06it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.41it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.03it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.06it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.29it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.00it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.56it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.26it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.05it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 54.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:37<00:00, 50.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 54.20it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 53.81it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 55.06it/s]
100%|███████████████████████████████████████| 1883/1883 [00:35<00:00, 53.48it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 55.24it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 54.68it/s]
100%|███████████████████████████████████████| 1883/1883 [00:35<00:00, 53.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 53.83it/s]
100%|███████████████████████████████████████| 1883/1883 [00:36<00:00, 51.75it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.26it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.76it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 69.94it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 75.95it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.64it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.08it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.01it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.85it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.95it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.00it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.75it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.60it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 54.11it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.06it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.47it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 58.97it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.41it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.31it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.70it/s]
100%|███████████████████████

---loading r2
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.59it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.84it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.37it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.24it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.55it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.67it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.67it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.00it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.99it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.97it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.26it/s]
100%|███████████████████████████████████████| 1883/1883 [00:33<00:00, 55.75it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.13it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.34it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.26it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.14it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.67it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.80it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 75.11it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.30it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.52it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.37it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.36it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.48it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.16it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 75.50it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.83it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.52it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.71it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 67.34it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.14it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.93it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.96it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.01it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.47it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.47it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.44it/s]
100%|███████████████████████

---loading g298
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.80it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.94it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.17it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.26it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.67it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.10it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.76it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.31it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.53it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.45it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.41it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.80it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.42it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.97it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.29it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.17it/s]
100%|███████████████████████████████████████| 1883/1883 [00:35<00:00, 53.39it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.39it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.31it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.73it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 75.48it/s]
100%|███████████████████████████████████████| 1883/1883 [00:21<00:00, 86.21it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.20it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.21it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 75.51it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.70it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.07it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 81.38it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 81.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:21<00:00, 85.66it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.24it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.64it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.43it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.17it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.07it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.33it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.91it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.65it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 57.84it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.39it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.20it/s]
100%|███████████████████████

---loading cv
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.71it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.44it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.29it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.44it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.37it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.16it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.52it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.03it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.35it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.16it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.58it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.04it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.80it/s]
100%|███████████████████████████████████████| 1883/1883 [00:34<00:00, 54.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.21it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.51it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.08it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.44it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 67.21it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.49it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.69it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.63it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 75.83it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.30it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.19it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.62it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 81.29it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.88it/s]
100%|███████████████████████████████████████| 1883/1883 [00:21<00:00, 89.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.27it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.65it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 64.99it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 64.95it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.47it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.59it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.93it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.05it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 58.88it/s]
100%|███████████████████████

---loading alpha
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.41it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.94it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.63it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.80it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 69.92it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.87it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.10it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.21it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.64it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.48it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.34it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.10it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.79it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.31it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 60.77it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.46it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.35it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.13it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.58it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.61it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 60.84it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.62it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.23it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.83it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.15it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 69.99it/s]
100%|███████████████████████████████████████| 1883/1883 [00:22<00:00, 83.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.23it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 78.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:22<00:00, 84.95it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.18it/s]
100%|███████████████████████████████████████| 1883/1883 [00:22<00:00, 84.29it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.07it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 67.08it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.69it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.07it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.86it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.92it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.56it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.38it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.82it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.80it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.89it/s]
100%|███████████████████████

---loading gap
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.57it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.99it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.70it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 75.13it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 72.87it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.74it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.20it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.13it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.13it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.17it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.22it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.71it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.06it/s]
100%|███████████████████████████████████████| 1883/1883 [00:32<00:00, 58.38it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.94it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.41it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.36it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 59.98it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.18it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.71it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.84it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.41it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.77it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.55it/s]
100%|███████████████████████████████████████| 1883/1883 [00:22<00:00, 83.33it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.37it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.42it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.44it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.75it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.19it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 81.43it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.76it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 78.65it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.51it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 67.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.24it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.16it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.04it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.52it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 70.07it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.00it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.86it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.67it/s]
100%|███████████████████████

---loading g298_atom
testing DMPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.04it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.36it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.47it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.64it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 73.19it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.36it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.65it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.67it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 75.01it/s]
100%|███████████████████████████████████████| 1883/1883 [00:25<00:00, 74.10it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 72.31it/s]
100%|███████████████████████

testing DMPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.02it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.59it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.53it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.71it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 61.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.22it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.54it/s]
100%|███████████████████████████████████████| 1883/1883 [00:31<00:00, 60.46it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 60.91it/s]
100%|███████████████████████████████████████| 1883/1883 [00:30<00:00, 62.18it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.65it/s]
100%|███████████████████████

testing MPNN ...


100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 81.32it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.50it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 78.08it/s]
100%|███████████████████████████████████████| 1883/1883 [00:22<00:00, 83.75it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 76.01it/s]
100%|███████████████████████████████████████| 1883/1883 [00:24<00:00, 77.77it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 79.09it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 78.62it/s]
100%|███████████████████████████████████████| 1883/1883 [00:21<00:00, 86.84it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 80.69it/s]
100%|███████████████████████████████████████| 1883/1883 [00:21<00:00, 85.90it/s]
100%|███████████████████████████████████████| 1883/1883 [00:23<00:00, 78.67it/s]
100%|███████████████████████

testing MPNN with attention ...


100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.38it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.89it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.60it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 64.27it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 67.12it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 65.49it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 68.38it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 67.18it/s]
100%|███████████████████████████████████████| 1883/1883 [00:29<00:00, 63.04it/s]
100%|███████████████████████████████████████| 1883/1883 [00:27<00:00, 69.73it/s]
100%|███████████████████████████████████████| 1883/1883 [00:28<00:00, 66.29it/s]
100%|███████████████████████████████████████| 1883/1883 [00:26<00:00, 71.19it/s]
100%|███████████████████████

In [None]:
import importlib 
importlib.reload(p)

#sentence models
for prop in properties:
    exp_name = 'QM9_'+prop
    print('---loading '+prop)
    prop_list = data[prop].tolist()
    dataset = p.data_maker_decon(smiles, prop_list, 'sentences')
    prop_list = None
    for m in s_sen_models:
        print('testing '+m.name+' ...')
        p.fit_no_test(m, exp_name, dataset)

---loading mu


---
### Dual input models

In [24]:
d_DMPNN = p.Model(name='DMPNN',
                model=double_MPNN(MP_depth=3, MP_hidden=256, NN_depth=2, NN_hidden=512, activation='ReLU', 
                                  interaction=None, atom_messages=False, dropout=0, readout='sum'),
                lr=0.001,
                batch_size=64,
                data_type='graphs',
                inputs=2)
d_DMPNN_att = p.Model(name='DMPNN with attention',
                      model=double_MPNN(MP_depth=4, MP_hidden=128, NN_depth=4, NN_hidden=64, activation='ELU', 
                                        atom_messages=False, dropout=0, interaction='tanh', readout='mean'),
                      lr=0.001,
                      batch_size=64,
                      data_type='graphs',
                      inputs=2)
d_MPNN = p.Model(name='MPNN',
                 model=double_MPNN(MP_depth=3, MP_hidden=256, NN_depth=2, NN_hidden=512, activation='LeakyReLU', 
                                   atom_messages=True, dropout=0, interaction=None, readout='sum'),
                 lr=0.001,
                 batch_size=64,
                 data_type='graphs',
                 inputs=2)
d_MPNN_att = p.Model(name='MPNN with attention',
                     model=double_MPNN(MP_depth=2, MP_hidden=64, NN_depth=4, NN_hidden=512, activation='ReLU', 
                                       atom_messages=True, dropout=0, interaction='tanh', readout='max'), 
                     lr=0.001,
                     batch_size=64,
                     data_type='graphs',
                     inputs=2)
d_RNN = p.Model(name='RNN',
                model=double_RNN(NN_depth=3, NN_hidden=512, RNN_hidden=512, activation='ReLU', dropout=0.3,
                                 features=300, interaction=None, readout='max'),
                lr=0.001,
                batch_size=32,
                data_type='sentences',
                inputs=2)
d_RNN_att = p.Model(name='RNN with attention',
                    model=double_RNN(NN_depth=1, NN_hidden=1024, RNN_hidden=512, activation='PReLU', dropout=0.1,
                                     features=300, interaction='exp', readout='max'),
                    lr=0.001,
                    batch_size=32,
                    data_type='sentences',
                    inputs=2)

#list of all models for testing
#d_models = [d_DMPNN, d_DMPNN_att, d_MPNN, d_MPNN_att, d_RNN, d_RNN_att]
d_graph_models = [d_DMPNN, d_DMPNN_att, d_MPNN, d_MPNN_att]
d_sen_models = [d_RNN, d_RNN_att]

---
### Gsolv

In [4]:
# The very last Gsolv value is nan, which breaks the validation loss or training loss at a certain point whenever it arises. To avoid this, I have dropped it here.
data = pd.read_csv('pretrain_data/comp_solv.csv')
data.drop([342158],inplace=True) # This is the last index.

solute = data['mol solvent'].tolist()
solvent = data['mol solute'].tolist()
Gsolv = data['target Gsolv kcal'].tolist()
exp_name = "Gsolv"

In [6]:
graph_datasets = p.data_maker_decon(solute, Gsolv, 'graphs', solvent=solvent)

KeyboardInterrupt: 

In [106]:
import importlib 
importlib.reload(p)

<module 'modules.pretraining' from '../modules/pretraining.py'>

In [17]:
for m in d_graph_models:
    print('testing '+m.name+' ...')
    p.fit_no_test(m, exp_name, graph_datasets)

testing DMPNN ...
tensor([[[ 0.1655,  0.0495, -0.1016,  ..., -0.2221, -0.1312,  0.1659],
         [-0.1367,  0.0673, -0.0521,  ..., -0.1420, -0.4025, -0.2129],
         [ 0.0373, -0.1383, -0.3160,  ..., -0.2490, -0.2950, -0.0161],
         ...,
         [-0.1367,  0.0673, -0.0521,  ..., -0.1420, -0.4025, -0.2129],
         [-0.1367,  0.0673, -0.0521,  ..., -0.1420, -0.4025, -0.2129],
         [ 0.1612,  0.1427, -0.0699,  ..., -0.3203, -0.2415,  0.0655]],

        [[ 0.0723,  0.2225,  0.0227,  ..., -0.1677, -0.2336,  0.1446],
         [ 0.0461,  0.1143, -0.0683,  ..., -0.1665, -0.1754, -0.5153],
         [-0.1259, -0.0966, -0.4584,  ..., -0.0063, -0.4361,  0.1118],
         ...,
         [-0.0845, -0.0193, -0.2386,  ..., -0.2852, -0.3526,  0.0738],
         [ 0.2763, -0.0210, -0.0667,  ...,  0.0091, -0.1528, -0.4056],
         [ 0.3596, -0.1918,  0.2411,  ..., -0.2958, -0.1595, -0.1761]],

        [[ 0.0514,  0.0482, -0.1205,  ...,  0.0075, -0.2370,  0.1635],
         [-0.0090,  0.0072,

AttributeError: 'Tensor' object has no attribute 'get_components'

In [10]:
import importlib 
importlib.reload(p)

<module 'modules.pretraining' from '../modules/pretraining.py'>

In [9]:
sentence_datasets = p.data_maker_decon(solute, Gsolv, 'sentences', solvent=solvent)

In [None]:
# This will tell you what the index of the nan value is, if there is one.

index = data['target Gsolv kcal'].index[data['target Gsolv kcal'].apply(np.isnan)]
index

In [95]:
# This cell is to check that none of the converted mol2vec sentence tensors do not contain nan values. If they do, then there would be an issue with that row. 
# Fortunately, none of them do have issues.

import tqdm 

problems = []

for i,lst in tqdm.tqdm(enumerate(dataset[0])):
    for j,tensor in enumerate(lst):
        if torch.any(torch.isnan(tensor)):
            problems.append((i,j))

342159it [00:06, 56232.69it/s]


In [11]:
import warnings
warnings.filterwarnings("ignore")

for m in d_sen_models:
    print('testing '+m.name+' ...')
    p.fit_no_test(m, exp_name, sentence_datasets)

testing RNN ...


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.79it/s]


71.12207455933094


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.34it/s]


56.66886026505381


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.26it/s]


46.39378432184458


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.19it/s]


48.75423984415829


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.08it/s]


38.70718352822587


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.06it/s]


35.64112209761515


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.09it/s]


33.946585356257856


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.12it/s]


32.7047154167667


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 72.99it/s]


34.56027695070952


100%|███████████████████████████████████████| 9624/9624 [02:12<00:00, 72.87it/s]


35.923123894259334


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 72.97it/s]


40.88123241532594


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 72.98it/s]


28.84851195383817


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.02it/s]


30.836538434959948


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 72.97it/s]


26.13662787200883


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.01it/s]


28.28082644054666


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 72.92it/s]


32.54078679904342


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.26it/s]


35.63239926798269


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.18it/s]


27.50875665154308


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.17it/s]


27.32321342919022


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.08it/s]


25.70926455873996


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.14it/s]


23.60558991599828


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.22it/s]


26.167618814390153


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.05it/s]


27.339285044465214


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.14it/s]


28.08898804197088


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 74.01it/s]


25.699288520962


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.11it/s]


29.74380037561059


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.26it/s]


25.58741557598114


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.12it/s]


24.344582916237414


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.15it/s]


23.76992323761806


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.13it/s]


23.19509075814858


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.16it/s]


26.43078440707177


100%|███████████████████████████████████████| 9624/9624 [02:09<00:00, 74.07it/s]


23.75357041787356


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.53it/s]


25.601582555565983


100%|███████████████████████████████████████| 9624/9624 [02:11<00:00, 73.37it/s]


24.57093757810071


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.73it/s]


25.561540625058115


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.51it/s]


26.27965380437672


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.84it/s]


24.583129405975342


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.67it/s]


24.953209390398115


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.87it/s]


26.871372437337413


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.87it/s]


23.51680249068886


100%|███████████████████████████████████████| 9624/9624 [02:10<00:00, 73.90it/s]


28.666281525976956
testing RNN with attention ...


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


30.170221542939544


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.44it/s]


17.61550363455899


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.62it/s]


11.857202719897032


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.70it/s]


11.874043655348942


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.36it/s]


8.511131233419292


100%|███████████████████████████████████████| 9624/9624 [05:18<00:00, 30.21it/s]


8.770546770538203


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.42it/s]


8.317388945491984


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.32it/s]


7.066516993800178


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.45it/s]


6.687952041509561


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.66it/s]


6.63007666519843


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.72it/s]


6.001795934222173


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.75it/s]


5.823444815701805


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.72it/s]


5.883490364998579


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.76it/s]


4.9200392625061795


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.66it/s]


5.104801474371925


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.55it/s]


4.8054833332425915


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.31it/s]


5.350575298070908


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.33it/s]


4.552329845435452


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.39it/s]


5.576401703176089


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.73it/s]


5.895338301314041


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.60it/s]


5.806874363217503


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.41it/s]


5.195259285799693


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.69it/s]


5.068025627348106


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.66it/s]


4.607153494260274


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.73it/s]


4.599189557193313


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.79it/s]


4.302338709472679


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.66it/s]


4.366279973706696


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.71it/s]


4.360775749606546


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.85it/s]


3.521574124781182


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.79it/s]


3.8944770998787135


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.58it/s]


3.540498239279259


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.28it/s]


4.168075841385871


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.47it/s]


3.698469573224429


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.47it/s]


4.068840560677927


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.30it/s]


4.0196972683188505


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.74it/s]


3.8113561653881334


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.57it/s]


3.4230716992751695


100%|███████████████████████████████████████| 9624/9624 [05:11<00:00, 30.89it/s]


3.3434655819437467


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.50it/s]


4.163344989938196


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.85it/s]


4.2005196500686


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.64it/s]


3.8615677570924163


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.79it/s]


3.4717446509748697


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.84it/s]


3.3942136132973246


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.56it/s]


4.045691330335103


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.71it/s]


3.8344600411946885


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.76it/s]


3.1497112454962917


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.43it/s]


3.5839369636960328


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.69it/s]


3.710450198035687


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.47it/s]


3.4889923751470633


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.73it/s]


3.3041237599682063


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.78it/s]


3.134844828862697


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.60it/s]


3.6797199609573


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.70it/s]


3.4906805080827326


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.74it/s]


3.1749566940416116


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


3.5446284582139924


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.42it/s]


3.5219834747258574


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.77it/s]


3.359676052321447


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.54it/s]


3.895153410441708


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.62it/s]


3.280839228827972


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.64it/s]


3.1965524933766574


100%|███████████████████████████████████████| 9624/9624 [05:17<00:00, 30.35it/s]


3.2610317762882914


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.53it/s]


3.1256491091335192


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


3.314074347668793


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.68it/s]


2.9033058320637792


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.74it/s]


3.1017394872033037


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.55it/s]


3.162562310870271


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.63it/s]


3.2602801590401214


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.56it/s]


3.111359456961509


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.63it/s]


3.1130658432957716


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.44it/s]


3.1065925563452765


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.53it/s]


2.942455549025908


100%|███████████████████████████████████████| 9624/9624 [05:11<00:00, 30.94it/s]


2.781649888114771


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


2.89990997230052


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.76it/s]


2.8055592983728275


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.70it/s]


2.75762479469995


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.52it/s]


3.525169662258122


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.70it/s]


3.1381932153599337


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.71it/s]


3.0529603332979605


100%|███████████████████████████████████████| 9624/9624 [05:15<00:00, 30.50it/s]


3.846684780844953


100%|███████████████████████████████████████| 9624/9624 [05:16<00:00, 30.43it/s]


2.796005157462787


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.73it/s]


2.9569521012017503


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.70it/s]


2.7149954040069133


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.62it/s]


3.1452722919057123


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


3.1577132659731433


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.73it/s]


2.8295468852156773


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


2.8076560781046283


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.59it/s]


3.6041928337072022


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.77it/s]


2.998731471860083


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.65it/s]


2.7500334140786435


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.60it/s]


2.9359656533342786


100%|███████████████████████████████████████| 9624/9624 [05:11<00:00, 30.87it/s]


2.6572045176872052


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.71it/s]


2.930303240660578


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.63it/s]


2.8251092460704967


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.60it/s]


2.800888241676148


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.80it/s]


3.094137016683817


100%|███████████████████████████████████████| 9624/9624 [05:11<00:00, 30.92it/s]


3.0428748166305013


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.59it/s]


2.961327054683352


100%|███████████████████████████████████████| 9624/9624 [05:14<00:00, 30.61it/s]


2.84603847831022


100%|███████████████████████████████████████| 9624/9624 [05:12<00:00, 30.80it/s]


2.9043721532216296


100%|███████████████████████████████████████| 9624/9624 [05:13<00:00, 30.69it/s]


2.917630126554286


In [25]:
from os import listdir
from os.path import isfile, join
trained_models = [f for f in listdir('trained/') if isfile(join('trained/', f))]

def task_func(file):
    if 'Water' in file:
        task = 'Water pKa'
    elif 'Gsolv' in file:
        task = 'Gsolv'
    else:
        task = file[-11:-3]
    return task

model_weights = []
for file in trained_models:
    task = task_func(file)
    if 'RNN_w' in file:
        model_weights.append((d_RNN_att,file,task))
    elif 'DMPNN_w' in file:
        model_weights.append((d_DMPNN_att,file,task))        
    elif 'MPNN_w' in file:
        model_weights.append((d_MPNN_att,file,task))
    elif 'RNN' in file:
        model_weights.append((d_RNN,file,task))
    elif 'DMPNN' in file:
        model_weights.append((d_DMPNN,file,task))
    elif 'MPNN' in file:
        model_weights.append((d_MPNN,file,task))

In [None]:
def load_exp(model, exp_name, data, train_ids):
    load_model(model, exp_name)
    scaler = pka_scaler(data[1][train_ids])
    model.experiments[exp_name]['scaler'] = scaler
    if model.data_type == 'descriptors':
        scaling_data = data[0][train_ids]
        model.experiments[exp_name]['desc scaling data'] = scaling_data