In [1]:
import pickle
from datetime import datetime

from tqdm import tqdm

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

from torch_geometric.nn import GCNConv, global_mean_pool
from torch_geometric.data import Data, Batch

In [2]:
# dataset
class SensitivityDataset(Dataset):
    def __init__(self, sensitivity_data, cell_line_to_gene_expr, drug_to_features):
        # cell_line_to_gene_expr: dict<cosmic_id -> gene expr>
        # sensitivity_data: DataFrame<cosmic_id, drug_id, ln_ic50>
        # drug_to_features: dict<drug_id -> molecular features>
        
        self.sensitivity_data = sensitivity_data
        self.cell_line_to_gene_expr = cell_line_to_gene_expr
        self.drug_to_features = drug_to_features
        
    @staticmethod
    def collate(batch_list):
        gexpr_batch = torch.tensor([i[0][0] for i in batch_list])
        molgraphs = [i[0][1] for i in batch_list]
        molgraph_batch = Batch.from_data_list(molgraphs)
        targets = torch.tensor([i[1] for i in batch_list]).float()
        
        return (gexpr_batch, molgraph_batch), targets
        
    
    def __len__(self):
        return len(self.sensitivity_data)
    
    def __getitem__(self, idx):
        row = self.sensitivity_data.iloc[idx]
        cell_line = row["cosmic_id"]
        # make gene expr
        gexpr = self.cell_line_to_gene_expr[cell_line]
        
        # make drug
        drug_id = row["drug_id"]
        atoms = torch.tensor(self.drug_to_features[drug_id]["atoms"]).float()
        bonds = torch.tensor(self.drug_to_features[drug_id]["bonds"])
        mol_graph = Data(x=atoms, edge_index=bonds)
        
        
        ln_ic50 = row["ln_IC50"]
        return (gexpr, mol_graph), ln_ic50


In [3]:
with open("./drug_response_with_cell_line.pkl", "rb") as fin:
    sensitivity_data = pickle.load(fin)
    
with open("./cell_line_gexpr.pkl", "rb") as fin:
    cell_line_to_gene_expr = pickle.load(fin)
    
with open("./drugid_to_molecular_graphs.pkl", "rb") as fin:
    drug_to_features = pickle.load(fin)
    
dataset = SensitivityDataset(sensitivity_data, cell_line_to_gene_expr, drug_to_features)
train_loader = DataLoader(dataset, batch_size=64, collate_fn=SensitivityDataset.collate, shuffle=True)

In [4]:
# molecule encoder
class ResGCNConv(nn.Module):
    def __init__(self, in_dim, hidden_dim, out_dim):
        super().__init__()
        self.conv1 = GCNConv(in_dim, hidden_dim)
        self.conv2 = GCNConv(hidden_dim, out_dim)

    def forward(self, x, edge_index):
        out = F.relu(self.conv1(x, edge_index))
        out = self.conv2(out, edge_index)
        out += x
        
        return F.relu(out)

class MoleculeEncoder(nn.Module):
    def __init__(self, in_features, out_features):
        super().__init__()
        
        self.in_features = in_features
        self.out_features = out_features
        
        self.conv1 = ResGCNConv(in_features, 32, 32)
        self.conv2 = ResGCNConv(32, 32, 32)
        self.conv3 = ResGCNConv(32, 32, 32)
        self.lin = nn.Linear(32, out_features)
    
    def forward(self, x, edge_index, batch):
        # x is node features
        # edge_index is connectivity
        # batch assigns each node to its graph index
        
        x = F.relu(self.conv1(x, edge_index))
        x = F.dropout(x, training=self.training)
        x = F.relu(self.conv2(x, edge_index))
        x = F.dropout(x, training=self.training)
        x = F.relu(self.conv3(x, edge_index))
        
        # takes the average over all node embeddings
        # if we implement this ourselves, we need to account for batch
        # it's not automatic
        x = global_mean_pool(x, batch)
        x = F.dropout(x, training=self.training)
        x = self.lin(x)
        
        return x

In [5]:
# sensitivity model
class SensitivityPredictor(nn.Module):
    def __init__(self, mol_dim, num_genes):
        super().__init__()
        self.mol_dim = mol_dim
        self.num_genes = num_genes
        
        self.mol_encoder = MoleculeEncoder(1, mol_dim)
        self.lin1 = nn.Linear(mol_dim + num_genes, 1024)
        self.lin2 = nn.Linear(1024, 1024)
        self.lin3 = nn.Linear(1024, 1024)
        self.lin4 = nn.Linear(1024, 1)
    
    def forward(self, gexprs, molgraphs):
        molembed = self.mol_encoder(molgraphs.x, molgraphs.edge_index, molgraphs.batch)
        
        inputs = torch.cat((gexprs, molembed), dim=1)
        
        out = F.relu(self.lin1(inputs))
        out = F.relu(self.lin2(out))
        out = F.relu(self.lin3(out))
        out = self.lin4(out)
        
        return out

In [6]:
def training_loop(model, optimizer, num_epochs):
    for epoch in range(1, num_epochs + 1):
        total_loss = 0
        num_batches = 0
        
        for (gexprs, molgraphs), target in tqdm(train_loader):
            pred = model(gexprs, molgraphs).squeeze()
            
            optimizer.zero_grad()
            loss = F.mse_loss(pred, target)
            loss.backward()
            optimizer.step()
            
            num_batches += 1
            total_loss += loss.detach().item()
        
        avg_loss = total_loss / num_batches
        
        print(f"Epoch {epoch}, Loss {avg_loss}")
        
model = SensitivityPredictor(32, 17419)
optimizer = optim.Adam(model.parameters(), lr=1e-4)
# 3e-5: 4.8
training_loop(model, optimizer, 100)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:56<00:00,  5.90it/s]


Epoch 1, Loss 6.920375339002942


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 2, Loss 6.766567982569833


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 3, Loss 6.722615174119982


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:48<00:00,  6.03it/s]


Epoch 4, Loss 6.674163689659825


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 5, Loss 6.659945701603769


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:50<00:00,  5.99it/s]


Epoch 6, Loss 6.6352731804843845


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:48<00:00,  6.03it/s]


Epoch 7, Loss 6.611061906156067


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:50<00:00,  5.99it/s]


Epoch 8, Loss 6.601861732554184


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 9, Loss 6.601115255894262


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 10, Loss 6.568175200811738


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:55<00:00,  5.93it/s]


Epoch 11, Loss 6.551207387089051


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:04<00:00,  5.81it/s]


Epoch 12, Loss 6.553342818439152


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:49<00:00,  6.01it/s]


Epoch 13, Loss 6.549047500887699


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.09it/s]


Epoch 14, Loss 6.522797657937949


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 15, Loss 6.536578236993593


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 16, Loss 6.5074002837669935


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 17, Loss 6.514707987527359


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 18, Loss 6.505148222250826


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:48<00:00,  6.03it/s]


Epoch 19, Loss 6.500720249550987


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 20, Loss 6.492346724390886


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 21, Loss 6.494885029200129


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.05it/s]


Epoch 22, Loss 6.491876724093644


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 23, Loss 6.484973980681282


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.08it/s]


Epoch 24, Loss 6.490448174681923


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.08it/s]


Epoch 25, Loss 6.476387348531418


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 26, Loss 6.466955225318549


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.06it/s]


Epoch 27, Loss 6.462722751302122


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.05it/s]


Epoch 28, Loss 6.46083834237146


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.08it/s]


Epoch 29, Loss 6.446198422089521


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.08it/s]


Epoch 30, Loss 6.455611975961928


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.05it/s]


Epoch 31, Loss 6.437423586651719


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 32, Loss 6.443524720705592


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.06it/s]


Epoch 33, Loss 6.43032958350658


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 34, Loss 6.429764626183033


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.09it/s]


Epoch 35, Loss 6.428652033488214


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 36, Loss 6.4232884964063635


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 37, Loss 6.423022915443495


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.09it/s]


Epoch 38, Loss 6.425710174051559


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.06it/s]


Epoch 39, Loss 6.421540132583785


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.05it/s]


Epoch 40, Loss 6.406652171470401


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 41, Loss 6.408716121696051


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.08it/s]


Epoch 42, Loss 6.40348111062782


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 43, Loss 6.398091166606286


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 44, Loss 6.382406250332353


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 45, Loss 6.380438873479271


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 46, Loss 6.369764732501063


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 47, Loss 6.368185548352382


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.09it/s]


Epoch 48, Loss 6.360831752722095


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.05it/s]


Epoch 49, Loss 6.350092402035196


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 50, Loss 6.337590112422754


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:44<00:00,  6.09it/s]


Epoch 51, Loss 6.3272778887171555


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 52, Loss 6.320703343973229


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 53, Loss 6.308185549502833


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.05it/s]


Epoch 54, Loss 6.300573878904167


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.06it/s]


Epoch 55, Loss 6.301141625008478


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.06it/s]


Epoch 56, Loss 6.290615213295001


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 57, Loss 6.286689966699149


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 58, Loss 6.288251415488199


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 59, Loss 6.275267918646384


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:45<00:00,  6.07it/s]


Epoch 60, Loss 6.272729224445953


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.05it/s]


Epoch 61, Loss 6.2758131944290705


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.06it/s]


Epoch 62, Loss 6.270480371218789


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.04it/s]


Epoch 63, Loss 6.264176401832451


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:46<00:00,  6.06it/s]


Epoch 64, Loss 6.259416070437644


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:47<00:00,  6.05it/s]


Epoch 65, Loss 6.261849154697793


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:15<00:00,  5.65it/s]


Epoch 66, Loss 6.257657863472072


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:10<00:00,  5.72it/s]


Epoch 67, Loss 6.261951677785667


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:51<00:00,  5.99it/s]


Epoch 68, Loss 6.251563083437959


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:54<00:00,  5.95it/s]


Epoch 69, Loss 6.243923393330082


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:09<00:00,  5.73it/s]


Epoch 70, Loss 6.24078784387931


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:32<00:00,  5.44it/s]


Epoch 71, Loss 6.234896053636491


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:13<00:00,  5.68it/s]


Epoch 72, Loss 6.238304260685423


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:03<00:00,  5.82it/s]


Epoch 73, Loss 6.244499864857144


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:09<00:00,  5.73it/s]


Epoch 74, Loss 6.2348379947420645


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:26<00:00,  5.52it/s]


Epoch 75, Loss 6.233486445137972


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:00<00:00,  5.85it/s]


Epoch 76, Loss 6.230986128194268


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:52<00:00,  5.96it/s]


Epoch 77, Loss 6.224500054174279


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:52<00:00,  5.96it/s]


Epoch 78, Loss 6.229443346553465


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:05<00:00,  5.78it/s]


Epoch 79, Loss 6.224625592208509


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:23<00:00,  5.56it/s]


Epoch 80, Loss 6.22832159382071


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:16<00:00,  5.64it/s]


Epoch 81, Loss 6.228375922558659


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:56<00:00,  5.91it/s]


Epoch 82, Loss 6.2145493998942


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:54<00:00,  5.94it/s]


Epoch 83, Loss 6.216506086840656


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:52<00:00,  5.97it/s]


Epoch 84, Loss 6.20940574517006


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:01<00:00,  5.85it/s]


Epoch 85, Loss 6.2060147482239065


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [06:59<00:00,  5.87it/s]


Epoch 86, Loss 6.212786646803446


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:28<00:00,  5.49it/s]


Epoch 87, Loss 6.215484268388353


100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 2462/2462 [07:19<00:00,  5.61it/s]


Epoch 88, Loss 6.20584647574142


 53%|███████████████████████████████████████████████████▋                                              | 1299/2462 [03:43<03:19,  5.82it/s]


KeyboardInterrupt: 