In [1]:
import torch
import numpy as np
import pandas as pd
import os
import sys
import json

sys.path.append(os.path.join(sys.path[0], '../'))
from models import manager_for_sagittarius
from evaluation import initialize_experiment
from LINCS import utils

In [2]:
device = 'cuda:1'

# Load the data

In [3]:
initialize_experiment.initialize_random_seed(0)

dl = utils.load_all_joint_data(0, device, False, 'full_dataset')

# Load the model

In [4]:
def load_config_file():
    with open('model_config_files/Sagittarius_config.json', 'r') as f:
        return json.load(f)

In [5]:
# Now, conduct extrapolation experiment task
initialize_experiment.initialize_random_seed(0)

# Train the model
D = len(dl.get_drug_list())
C = len(dl.get_cell_list())
M = dl.get_feature_dim()
max_dsg = dl.get_max_dosage()
max_time = dl.get_max_time()

sagittarius_manager = manager_for_sagittarius.Sagittarius_Manager_DataLoader(
    M, 2, [D, C], **load_config_file(), minT=0, maxT=max_dsg, num_cont=2,
    device=device, train_transfer=False, other_minT=[0], other_maxT=[max_time])
sagittarius_manager.train_model(
    dl, reload=True, mfile='trained_models/Sagittarius_full_model.pth')

# Start the extrapolation

### These doses and treatment times can be updates to specific doses/treatment times of interest!

In [7]:
dosages_to_simulate = torch.tensor([
    0, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 0.5, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 
    1.6, 1.7, 1.8, 1.9, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0, 7.5, 8.0,
    8.5, 9.0, 9.5, 10.0] + np.arange(10, 20.1, 0.5).tolist())
treatment_times_to_simulate = torch.tensor(np.arange(4, 49, 4))
gen_k = 10

In [8]:
dosages_to_simulate.shape, treatment_times_to_simulate.shape

(torch.Size([63]), torch.Size([12]))

In [9]:
cell_lines = dl.get_cell_list()
drugs = dl.get_drug_list()

print(C, 'x', D, '=', C * D)

33 x 775 = 25575


In [10]:
# construct a dictionary of possible sources
drug2idx = dl.train_dataset.drug_id_to_idx_mapping
idx2drug = {drug2idx[dr]: dr for dr in drug2idx}
cell2idx = dl.train_dataset.cell_id_to_idx_mapping
idx2cell = {cell2idx[ce]: ce for ce in cell2idx}

sources = {ce: {} for ce in dl.get_cell_list()}  # cell line -> drug -> details
for split in ['train', 'val', 'test']:  # go through the complete dataset
    for expr, dr, ce, dsg, time, mask in dl.get_data_loader(split):
        for i in range(len(expr)):
            sources[idx2cell[ce[i].item()]].update({
                idx2drug[dr[i].item()]: (expr[i], dr[i], ce[i], dsg[i], time[i], mask[i])})

## Create .h5ad file for each cell line

In [11]:
from tqdm import tqdm
import anndata

if not os.path.exists('../simulated_datasets/LINCS/'):
    os.makedirs('../simulated_datasets/LINCS/')

with open('gene_symbol_ordering.txt', 'r') as f:
    gene_ordering = json.load(f)
        
cl_idx = -1
for cl in tqdm(cell_lines):
    initialize_experiment.initialize_random_seed(0)
    
    cl_idx += 1
    print('...{}/{}'.format(cl_idx, C))
    cl_id = cell2idx[cl]
    cl_tensor_src = torch.tensor([cl_id for _ in range(dl.train_dataset.max_unique_cont)]).to(device)
    cl_tensor_tgt = torch.tensor([cl_id for _ in range(len(dosages_to_simulate))]).to(device)
    
    sim_drugs = []
    sim_doses = []
    sim_times = []
    sim_expr = []

    with tqdm(total=D, position=0, leave=True) as pbar:
        for dr in drugs:
            pbar.update()
            dr_id = drug2idx[dr]
            dr_tensor_tgt = torch.tensor([dr_id for _ in range(len(dosages_to_simulate))]).to(device)

            if dr in sources[cl]:  # use this sequence as our starting point
                src_dr = torch.tensor([dr_id for _ in range(dl.train_dataset.max_unique_cont)]).to(device)
                drug_key = dr
            else:  # pick a random drug
                drug_key = np.random.choice(sorted(sources[cl].keys()))
                src_dr = torch.tensor([drug2idx[drug_key] for _ in range(dl.train_dataset.max_unique_cont)]).to(device)
            src_expr = sources[cl][drug_key][0]
            src_dsg = sources[cl][drug_key][3]
            src_time = sources[cl][drug_key][4]
            src_mask = sources[cl][drug_key][5]

            for treatment_time in treatment_times_to_simulate:
                tgt_ttime = torch.tensor([treatment_time for _ in range(len(dosages_to_simulate))]).to(device)

                gen, _, _ = sagittarius_manager.model.generate(
                    src_expr.unsqueeze(0).float(), src_dsg.unsqueeze(0).float(),
                    dosages_to_simulate.unsqueeze(0).float().to(device),
                    [src_dr.unsqueeze(0), cl_tensor_src.unsqueeze(0)], 
                    [dr_tensor_tgt.unsqueeze(0), cl_tensor_tgt.unsqueeze(0)],
                    old_other_ts=[src_time.unsqueeze(0).float()],
                    new_other_ts=[tgt_ttime.unsqueeze(0).float()],
                    old_mask=src_mask.unsqueeze(0), k=gen_k)

                sim_drugs.extend([dr for _ in range(len(dosages_to_simulate))])
                sim_doses.extend([d.item() for d in dosages_to_simulate])
                sim_times.extend(treatment_time for _ in range(len(dosages_to_simulate)))
                sim_expr.append(gen[0].detach().cpu().numpy())  # T' x M
    
    x = np.concatenate(sim_expr)
    obsm = {'drugs': np.asarray(sim_drugs),
            'doses': np.asarray(sim_doses),
            'times': np.asarray(sim_times)}
    var = pd.DataFrame.from_dict({'gene': gene_ordering})
    
    adata = anndata.AnnData(X=x, obsm=obsm, var=var)
    adata.write('../simulated_datasets/LINCS/simulated_{}.h5ad'.format(cl))

  0%|                                                                     | 0/33 [00:00<?, ?it/s]

...0/33


  input = module(input)
100%|██████████████████████████████████████████████████████████| 775/775 [00:52<00:00, 14.89it/s]
  3%|█▊                                                           | 1/33 [01:07<35:47, 67.11s/it]

...1/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.66it/s]
  6%|███▋                                                         | 2/33 [02:00<30:23, 58.81s/it]

...2/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.65it/s]
  9%|█████▌                                                       | 3/33 [02:53<28:04, 56.15s/it]

...3/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.66it/s]
 12%|███████▍                                                     | 4/33 [03:46<26:31, 54.89s/it]

...4/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.55it/s]
 15%|█████████▏                                                   | 5/33 [04:39<25:21, 54.33s/it]

...5/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:50<00:00, 15.50it/s]
 18%|███████████                                                  | 6/33 [05:32<24:19, 54.05s/it]

...6/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:50<00:00, 15.48it/s]
 21%|████████████▉                                                | 7/33 [06:26<23:21, 53.90s/it]

...7/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.59it/s]
 24%|██████████████▊                                              | 8/33 [07:19<22:21, 53.68s/it]

...8/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.58it/s]
 27%|████████████████▋                                            | 9/33 [08:12<21:25, 53.56s/it]

...9/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.59it/s]
 30%|██████████████████▏                                         | 10/33 [09:06<20:29, 53.46s/it]

...10/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:51<00:00, 14.98it/s]
 33%|████████████████████                                        | 11/33 [10:01<19:47, 54.00s/it]

...11/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.55it/s]
 36%|█████████████████████▊                                      | 12/33 [10:54<18:49, 53.79s/it]

...12/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.65it/s]
 39%|███████████████████████▋                                    | 13/33 [11:47<17:51, 53.56s/it]

...13/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.60it/s]
 42%|█████████████████████████▍                                  | 14/33 [12:41<16:57, 53.53s/it]

...14/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:51<00:00, 15.17it/s]
 45%|███████████████████████████▎                                | 15/33 [13:35<16:09, 53.85s/it]

...15/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.71it/s]
 48%|█████████████████████████████                               | 16/33 [14:28<15:10, 53.54s/it]

...16/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.60it/s]
 52%|██████████████████████████████▉                             | 17/33 [15:21<14:14, 53.43s/it]

...17/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.52it/s]
 55%|████████████████████████████████▋                           | 18/33 [16:15<13:21, 53.43s/it]

...18/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.68it/s]
 58%|██████████████████████████████████▌                         | 19/33 [17:08<12:25, 53.28s/it]

...19/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.67it/s]
 61%|████████████████████████████████████▎                       | 20/33 [18:01<11:31, 53.18s/it]

...20/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.64it/s]
 64%|██████████████████████████████████████▏                     | 21/33 [18:54<10:37, 53.13s/it]

...21/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.61it/s]
 67%|████████████████████████████████████████                    | 22/33 [19:47<09:44, 53.14s/it]

...22/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.65it/s]
 70%|█████████████████████████████████████████▊                  | 23/33 [20:40<08:51, 53.10s/it]

...23/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.67it/s]
 73%|███████████████████████████████████████████▋                | 24/33 [21:33<07:57, 53.05s/it]

...24/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.65it/s]
 76%|█████████████████████████████████████████████▍              | 25/33 [22:26<07:04, 53.04s/it]

...25/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.65it/s]
 79%|███████████████████████████████████████████████▎            | 26/33 [23:19<06:11, 53.04s/it]

...26/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.67it/s]
 82%|█████████████████████████████████████████████████           | 27/33 [24:12<05:18, 53.01s/it]

...27/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.63it/s]
 85%|██████████████████████████████████████████████████▉         | 28/33 [25:05<04:25, 53.02s/it]

...28/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.69it/s]
 88%|████████████████████████████████████████████████████▋       | 29/33 [25:58<03:31, 52.98s/it]

...29/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.68it/s]
 91%|██████████████████████████████████████████████████████▌     | 30/33 [26:51<02:38, 52.97s/it]

...30/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:49<00:00, 15.57it/s]
 94%|████████████████████████████████████████████████████████▎   | 31/33 [27:44<01:46, 53.05s/it]

...31/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:50<00:00, 15.47it/s]
 97%|██████████████████████████████████████████████████████████▏ | 32/33 [28:37<00:53, 53.21s/it]

...32/33


100%|██████████████████████████████████████████████████████████| 775/775 [00:50<00:00, 15.48it/s]
100%|████████████████████████████████████████████████████████████| 33/33 [29:31<00:00, 53.68s/it]
