In [1]:
import math
from tqdm import tqdm
import scvi
import torch
import numpy as np
import pytorch_lightning as pl
import os

import scanpy as sc

from pytorch_lightning.callbacks import TQDMProgressBar
from datamodules import FMDataset, fm_collate, CFMDataset, SCFMDataset, cfm_collate, StratifiedBatchSampler, ot_collate
from torch.utils.data import RandomSampler
from sc_etl_utils import *
from arch import *
from flow_utils import compute_conditional_flow
import json

import scvi
import torch
import numpy as np
import pytorch_lightning as pl
import os

import scanpy as sc

from torchcfm.conditional_flow_matching import *
import scanpy as sc
import hashlib
from llm import MAE

In [2]:
# load some data
adata = sc.read_h5ad('/orcd/archive/abugoot/001/Projects/dlesman/datasets/satija_IFNB_HVG_and_perturbed_genes_raw.h5ad')

In [3]:
gene_map = {'NT': 0} | {k: i for i, k in enumerate(adata.var.index)}
gene_unmap = {gene_map[k]: k for k in gene_map}
perts = adata.obs.gene.unique().map(gene_map)
adata.obs['pert_type'] = adata.obs.gene.map(gene_map)
pert_ids = np.array(adata.obs['pert_type'])
pert_mat = np.arange(pert_ids.max() + 1)[:, None]

In [4]:
cell_col = 'cell_type'
pert_col = 'pert_type'
control_pert, holdout_cells, holdout_perts = 0, ['HT29'], [gene_map['USP18']]

In [5]:
from sc_etl_utils import *
control_idx, pert_idx, eval_idx, eval_cell_idx, eval_pert_idx = get_train_eval_idxs(
    adata, control_pert, holdout_cells, holdout_perts, cell_col=cell_col, pert_col=pert_col
)

_, _, cell_types = get_identity_features(
    adata, cell_col=cell_col, pert_col=pert_col, cell_type_features=False
)

adata.obsm["standard"] = adata.X
X = adata.obsm["standard"]
X = X.toarray()
X = X / X.sum(axis=1)[:, None]

control_train, pert_train, pert_ids_train, control_cell_types, pert_cell_types, control_eval, pert_eval, pert_ids_eval = get_train_eval(
    X, pert_ids, cell_types, control_idx, pert_idx, eval_idx, eval_cell_idx, eval_pert_idx
)


Controls: 14582, Perturbations: 313080,  Eval: 880


In [6]:
batch_size = 512
base_learning_rate = 5e-5
weight_decay=0.0
total_epoch = 5000
warmup_epoch = 1

In [7]:
dset = SCFMDataset(
    control_train, pert_train, 
    pert_ids_train, pert_mat, 
    control_cell_types, pert_cell_types,
    batch_size=batch_size, size=X.shape[0]
)
dl = torch.utils.data.DataLoader(
    dset, collate_fn=ot_collate, 
    batch_sampler=StratifiedBatchSampler(
        RandomSampler(dset), batch_size=batch_size, drop_last=True, 
        probs=dset.probs, num_strata=dset.num_strata
    )
)

[0.09837271 0.2565357  0.2074058  0.17077354 0.08714468 0.17976757]


In [9]:
# model = MAE(X.shape[1])
model = torch.load(f"transformer_v4.1")
device = 'cuda'
# device = 'cpu'
model = model.to(device)

In [10]:
base_learning_rate = 5e-4
optim = torch.optim.AdamW(model.parameters(), lr=base_learning_rate, betas=(0.9, 0.95), weight_decay=weight_decay)
lr_func = lambda epoch: min((epoch + 1) / (warmup_epoch + 1e-5), 0.5 * (math.cos(epoch / total_epoch * math.pi) + 1))
lr_scheduler = torch.optim.lr_scheduler.LambdaLR(optim, lr_lambda=lr_func, verbose=True)

Adjusting learning rate of group 0 to 5.0000e-04.


In [11]:
minibatch_size = 64

In [13]:
step_count = 0
optim.zero_grad()
pert_task = 0
for e in range(2):
    model.train()
    losses = {(0, 0): [], (0, 1): [], (1, 0): [], (1, 1): []}
    for (bcontrol, bpert, bpert_index) in (pbar := tqdm(iter(dl))):
        for i in range(batch_size // minibatch_size):
            control = bcontrol[(i * minibatch_size):((i + 1) * minibatch_size)]
            pert = bpert[(i * minibatch_size):((i + 1) * minibatch_size)]
            pert_index = bpert_index[(i * minibatch_size):((i + 1) * minibatch_size)]
            
            control_sparsity = (control > 0).float().to(device)
            active_weights = 10 * control_sparsity + 1
            control = control.float().to(device)
            pert = pert.float().to(device)
            step_count += 1
            mask_task = step_count % 2
            control_recon, sparsity_probs, _ = model(control, mask=mask_task)
            loss = torch.sum(active_weights * torch.abs(control_recon - control)) / minibatch_size
            loss += torch.sum(active_weights * torch.abs(control_sparsity - sparsity_probs)) / minibatch_size
            loss.backward()
            optim.step()
            optim.zero_grad()
            losses[(pert_task, mask_task)].append(loss.item())
        if step_count % 100 == 0:
            lr_scheduler.step()
        if pert_task == 0 and mask_task == 0:
            pbar.set_description(
                f"tv: {np.array(losses[(0, 0)])[-100:].mean():.3f}, mtv: {np.array(losses[(0, 1)])[-100:].mean():.3f}")
    
    avg_loss = sum(losses[(0, 0)]) / len(losses[(0, 0)])
    torch.save(model, f"transformer_v3.{e}")
    # writer.add_scalar('mae_loss', avg_loss, global_step=e)
    print(f'In epoch {e}, average traning loss is {avg_loss}.')

tv: 2375.500, mtv: 2534.008:   4%|█████▊                                                                                                                                              | 25/641 [03:06<1:16:42,  7.47s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2352.649, mtv: 2357.580:   8%|███████████▌                                                                                                                                        | 50/641 [06:13<1:13:37,  7.48s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2321.391, mtv: 2319.175:  12%|█████████████████▎                                                                                                                                  | 75/641 [09:20<1:10:36,  7.48s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2209.935, mtv: 2228.188:  16%|██████████████████████▉                                                                                                                            | 100/641 [12:27<1:07:34,  7.49s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2091.857, mtv: 2117.020:  20%|████████████████████████████▋                                                                                                                      | 125/641 [15:35<1:04:28,  7.50s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2128.629, mtv: 2139.694:  23%|██████████████████████████████████▍                                                                                                                | 150/641 [18:42<1:01:17,  7.49s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2067.227, mtv: 2106.164:  27%|████████████████████████████████████████▋                                                                                                            | 175/641 [21:49<58:11,  7.49s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 2002.322, mtv: 2058.918:  31%|██████████████████████████████████████████████▍                                                                                                      | 200/641 [24:57<55:01,  7.49s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 1929.530, mtv: 1990.988:  35%|████████████████████████████████████████████████████▎                                                                                                | 225/641 [28:04<51:55,  7.49s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 1795.604, mtv: 1863.557:  39%|██████████████████████████████████████████████████████████                                                                                           | 250/641 [31:11<48:51,  7.50s/it]

Adjusting learning rate of group 0 to 5.0000e-05.


tv: 1737.285, mtv: 1811.008:  43%|███████████████████████████████████████████████████████████████▉                                                                                     | 275/641 [34:19<45:44,  7.50s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1690.752, mtv: 1771.220:  47%|█████████████████████████████████████████████████████████████████████▋                                                                               | 300/641 [37:26<42:36,  7.50s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1599.470, mtv: 1689.159:  51%|███████████████████████████████████████████████████████████████████████████▌                                                                         | 325/641 [40:33<39:30,  7.50s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1609.826, mtv: 1692.800:  55%|█████████████████████████████████████████████████████████████████████████████████▎                                                                   | 350/641 [43:41<36:22,  7.50s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1530.161, mtv: 1607.478:  59%|███████████████████████████████████████████████████████████████████████████████████████▏                                                             | 375/641 [46:48<33:12,  7.49s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1501.321, mtv: 1564.812:  62%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 400/641 [49:56<30:07,  7.50s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1499.167, mtv: 1557.039:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 425/641 [53:03<26:54,  7.47s/it]

Adjusting learning rate of group 0 to 4.9999e-05.


tv: 1451.239, mtv: 1520.650:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 450/641 [56:10<23:48,  7.48s/it]

Adjusting learning rate of group 0 to 4.9998e-05.


tv: 1439.644, mtv: 1501.781:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 475/641 [59:17<20:41,  7.48s/it]

Adjusting learning rate of group 0 to 4.9998e-05.


tv: 1355.519, mtv: 1425.451:  78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 500/641 [1:02:24<17:37,  7.50s/it]

Adjusting learning rate of group 0 to 4.9998e-05.


tv: 1372.677, mtv: 1430.969:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 525/641 [1:05:31<14:30,  7.50s/it]

Adjusting learning rate of group 0 to 4.9998e-05.


tv: 1371.474, mtv: 1436.525:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 550/641 [1:08:39<11:22,  7.50s/it]

Adjusting learning rate of group 0 to 4.9998e-05.


tv: 1348.574, mtv: 1405.878:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 575/641 [1:11:46<08:15,  7.51s/it]

Adjusting learning rate of group 0 to 4.9997e-05.


tv: 1342.950, mtv: 1399.440:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 600/641 [1:14:54<05:07,  7.49s/it]

Adjusting learning rate of group 0 to 4.9997e-05.


tv: 1388.473, mtv: 1427.563:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 625/641 [1:18:02<02:00,  7.51s/it]

Adjusting learning rate of group 0 to 4.9997e-05.


tv: 1335.551, mtv: 1379.721: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 641/641 [1:20:02<00:00,  7.49s/it]


In epoch 0, average traning loss is 1729.610626934843.


tv: 1409.355, mtv: 1460.160:   1%|██                                                                                                                                                   | 9/641 [01:07<1:19:00,  7.50s/it]

Adjusting learning rate of group 0 to 4.9997e-05.


tv: 1339.509, mtv: 1381.626:   5%|███████▊                                                                                                                                            | 34/641 [04:14<1:15:49,  7.49s/it]

Adjusting learning rate of group 0 to 4.9996e-05.


tv: 1300.292, mtv: 1343.679:   9%|█████████████▌                                                                                                                                      | 59/641 [07:22<1:12:45,  7.50s/it]

Adjusting learning rate of group 0 to 4.9996e-05.


tv: 1281.801, mtv: 1330.498:  13%|███████████████████▍                                                                                                                                | 84/641 [10:30<1:09:38,  7.50s/it]

Adjusting learning rate of group 0 to 4.9996e-05.


tv: 1316.460, mtv: 1365.705:  17%|████████████████████████▉                                                                                                                          | 109/641 [13:37<1:06:30,  7.50s/it]

Adjusting learning rate of group 0 to 4.9996e-05.


tv: 1321.532, mtv: 1372.397:  21%|██████████████████████████████▋                                                                                                                    | 134/641 [16:45<1:03:20,  7.50s/it]

Adjusting learning rate of group 0 to 4.9995e-05.


tv: 1283.136, mtv: 1332.661:  25%|████████████████████████████████████▍                                                                                                              | 159/641 [19:52<1:00:20,  7.51s/it]

Adjusting learning rate of group 0 to 4.9995e-05.


tv: 1283.887, mtv: 1329.986:  29%|██████████████████████████████████████████▊                                                                                                          | 184/641 [23:00<57:09,  7.51s/it]

Adjusting learning rate of group 0 to 4.9995e-05.


tv: 1305.545, mtv: 1358.564:  33%|████████████████████████████████████████████████▌                                                                                                    | 209/641 [26:07<53:57,  7.49s/it]

Adjusting learning rate of group 0 to 4.9994e-05.


tv: 1246.334, mtv: 1299.273:  37%|██████████████████████████████████████████████████████▍                                                                                              | 234/641 [29:15<50:50,  7.49s/it]

Adjusting learning rate of group 0 to 4.9994e-05.


tv: 1234.410, mtv: 1294.195:  40%|████████████████████████████████████████████████████████████▏                                                                                        | 259/641 [32:22<47:43,  7.50s/it]

Adjusting learning rate of group 0 to 4.9994e-05.


tv: 1271.652, mtv: 1324.150:  44%|██████████████████████████████████████████████████████████████████                                                                                   | 284/641 [35:30<44:36,  7.50s/it]

Adjusting learning rate of group 0 to 4.9993e-05.


tv: 1287.826, mtv: 1340.654:  48%|███████████████████████████████████████████████████████████████████████▊                                                                             | 309/641 [38:37<41:27,  7.49s/it]

Adjusting learning rate of group 0 to 4.9993e-05.


tv: 1316.253, mtv: 1364.869:  52%|█████████████████████████████████████████████████████████████████████████████▋                                                                       | 334/641 [41:44<38:19,  7.49s/it]

Adjusting learning rate of group 0 to 4.9992e-05.


tv: 1319.763, mtv: 1364.263:  56%|███████████████████████████████████████████████████████████████████████████████████▍                                                                 | 359/641 [44:51<35:12,  7.49s/it]

Adjusting learning rate of group 0 to 4.9992e-05.


tv: 1230.192, mtv: 1281.925:  60%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 384/641 [47:59<32:04,  7.49s/it]

Adjusting learning rate of group 0 to 4.9992e-05.


tv: 1263.446, mtv: 1311.589:  64%|███████████████████████████████████████████████████████████████████████████████████████████████                                                      | 409/641 [51:06<28:57,  7.49s/it]

Adjusting learning rate of group 0 to 4.9991e-05.


tv: 1368.918, mtv: 1415.381:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 434/641 [54:13<25:50,  7.49s/it]

Adjusting learning rate of group 0 to 4.9991e-05.


tv: 1299.676, mtv: 1348.347:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 459/641 [57:20<22:44,  7.50s/it]

Adjusting learning rate of group 0 to 4.9990e-05.


tv: 1292.256, mtv: 1341.767:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 484/641 [1:00:28<19:36,  7.49s/it]

Adjusting learning rate of group 0 to 4.9990e-05.


tv: 1281.329, mtv: 1327.241:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 509/641 [1:03:35<16:27,  7.48s/it]

Adjusting learning rate of group 0 to 4.9990e-05.


tv: 1313.996, mtv: 1360.059:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 534/641 [1:06:42<13:21,  7.49s/it]

Adjusting learning rate of group 0 to 4.9989e-05.


tv: 1255.935, mtv: 1304.557:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 559/641 [1:09:49<10:13,  7.48s/it]

Adjusting learning rate of group 0 to 4.9989e-05.


tv: 1322.157, mtv: 1369.274:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 584/641 [1:12:56<07:06,  7.49s/it]

Adjusting learning rate of group 0 to 4.9988e-05.


tv: 1273.395, mtv: 1324.294:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 609/641 [1:16:03<03:59,  7.49s/it]

Adjusting learning rate of group 0 to 4.9988e-05.


tv: 1250.413, mtv: 1305.980:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 634/641 [1:19:11<00:52,  7.49s/it]

Adjusting learning rate of group 0 to 4.9987e-05.


tv: 1263.740, mtv: 1312.596: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 641/641 [1:20:03<00:00,  7.49s/it]

In epoch 1, average traning loss is 1292.4689273447402.





In [None]:
step_count = 0
optim.zero_grad()
pert_task = 0
for e in range(10):
    model.train()
    losses = {(0, 0): [], (0, 1): [], (1, 0): [], (1, 1): []}
    for (bcontrol, bpert, bpert_index) in (pbar := tqdm(iter(dl))):
        for i in range(batch_size // minibatch_size):
            control = bcontrol[(i * minibatch_size):((i + 1) * minibatch_size)]
            pert = bpert[(i * minibatch_size):((i + 1) * minibatch_size)]
            pert_index = bpert_index[(i * minibatch_size):((i + 1) * minibatch_size)]
            active_weights = 10 * (control > 0).float().to(device) + 1
            control = control.float().to(device)
            pert = pert.float().to(device)
            step_count += 1
            mask_task = step_count % 2
            pert_task = (pert_task + mask_task) % 2
            if pert_task:
                pert_expr = pert[torch.arange(pert.size(0)), pert_index[:, 0], None]
                pert_recon, _, _ = model(control, pert_expr=pert_expr, pert_index=pert_index[:, 0], mask=mask_task)
                loss = torch.sum(active_weights * torch.abs(pert_recon - pert)) / minibatch_size
            else:
                control_recon, _, _ = model(control, mask=mask_task)
                loss = torch.sum(active_weights * torch.abs(control_recon - control)) / minibatch_size
            loss.backward()
            optim.step()
            optim.zero_grad()
            losses[(pert_task, mask_task)].append(loss.item())
            if step_count % 100 == 0:
                lr_scheduler.step()
            if pert_task == 0 and mask_task == 0:
                pbar.set_description(
                    f"tv: {np.array(losses[(0, 0)])[-100:].mean():.3f}, mtv: {np.array(losses[(0, 1)])[-100:].mean():.3f}, ptv: {np.array(losses[(1, 0)])[-100:].mean():.3f}, pmtv: {np.array(losses[(1, 1)])[-100:].mean():.3f}")
    
    avg_loss = sum(losses[(0, 0)]) / len(losses[(0, 0)])
    torch.save(model, f"transformer_v4.{e}")
    # writer.add_scalar('mae_loss', avg_loss, global_step=e)
    print(f'In epoch {e}, average traning loss is {avg_loss}.')

tv: 5.643, mtv: 8.000, ptv: 6.444, pmtv: 7.107:   4%|█████                                                                                                                            | 25/641 [03:14<1:19:56,  7.79s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.461, mtv: 7.930, ptv: 6.438, pmtv: 7.193:   8%|██████████                                                                                                                       | 50/641 [06:29<1:16:48,  7.80s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.242, mtv: 7.858, ptv: 6.420, pmtv: 7.264:  12%|███████████████                                                                                                                  | 75/641 [09:43<1:13:21,  7.78s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.175, mtv: 7.792, ptv: 6.381, pmtv: 7.190:  16%|███████████████████▉                                                                                                            | 100/641 [12:57<1:09:43,  7.73s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.094, mtv: 7.654, ptv: 6.326, pmtv: 7.077:  20%|████████████████████████▉                                                                                                       | 125/641 [16:10<1:06:26,  7.73s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.053, mtv: 7.703, ptv: 6.331, pmtv: 7.116:  23%|█████████████████████████████▉                                                                                                  | 150/641 [19:24<1:03:34,  7.77s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.167, mtv: 7.884, ptv: 6.383, pmtv: 7.194:  27%|██████████████████████████████████▉                                                                                             | 175/641 [22:38<1:00:29,  7.79s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 5.184, mtv: 7.879, ptv: 6.382, pmtv: 7.143:  31%|████████████████████████████████████████▌                                                                                         | 200/641 [25:53<57:08,  7.77s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 4.958, mtv: 7.741, ptv: 6.349, pmtv: 7.127:  35%|█████████████████████████████████████████████▋                                                                                    | 225/641 [29:07<53:50,  7.76s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 4.789, mtv: 7.669, ptv: 6.312, pmtv: 7.135:  39%|██████████████████████████████████████████████████▋                                                                               | 250/641 [32:21<50:29,  7.75s/it]

Adjusting learning rate of group 0 to 5.0000e-04.


tv: 4.755, mtv: 7.678, ptv: 6.292, pmtv: 7.135:  43%|███████████████████████████████████████████████████████▊                                                                          | 275/641 [35:35<47:13,  7.74s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.783, mtv: 7.743, ptv: 6.316, pmtv: 7.223:  47%|████████████████████████████████████████████████████████████▊                                                                     | 300/641 [38:48<43:54,  7.73s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.669, mtv: 7.653, ptv: 6.308, pmtv: 7.214:  51%|█████████████████████████████████████████████████████████████████▉                                                                | 325/641 [42:01<40:41,  7.72s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.715, mtv: 7.633, ptv: 6.294, pmtv: 7.111:  55%|██████████████████████████████████████████████████████████████████████▉                                                           | 350/641 [45:15<37:39,  7.76s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.773, mtv: 7.764, ptv: 6.282, pmtv: 7.187:  59%|████████████████████████████████████████████████████████████████████████████                                                      | 375/641 [48:29<34:29,  7.78s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.572, mtv: 7.654, ptv: 6.264, pmtv: 7.144:  62%|█████████████████████████████████████████████████████████████████████████████████                                                 | 400/641 [51:44<31:16,  7.79s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.388, mtv: 7.562, ptv: 6.224, pmtv: 7.058:  66%|██████████████████████████████████████████████████████████████████████████████████████▏                                           | 425/641 [54:59<28:03,  7.79s/it]

Adjusting learning rate of group 0 to 4.9999e-04.


tv: 4.353, mtv: 7.623, ptv: 6.193, pmtv: 7.132:  70%|███████████████████████████████████████████████████████████████████████████████████████████▎                                      | 450/641 [58:13<24:48,  7.79s/it]

Adjusting learning rate of group 0 to 4.9998e-04.


tv: 4.370, mtv: 7.516, ptv: 6.187, pmtv: 7.021:  74%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 475/641 [1:01:28<21:27,  7.76s/it]

Adjusting learning rate of group 0 to 4.9998e-04.


tv: 4.350, mtv: 7.490, ptv: 6.214, pmtv: 7.015:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 500/641 [1:04:41<18:12,  7.75s/it]

Adjusting learning rate of group 0 to 4.9998e-04.


tv: 4.288, mtv: 7.543, ptv: 6.219, pmtv: 7.069:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 525/641 [1:07:55<14:56,  7.73s/it]

Adjusting learning rate of group 0 to 4.9998e-04.


tv: 4.082, mtv: 7.383, ptv: 6.154, pmtv: 6.983:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 550/641 [1:11:08<11:44,  7.74s/it]

Adjusting learning rate of group 0 to 4.9998e-04.


tv: 4.029, mtv: 7.368, ptv: 6.167, pmtv: 7.029:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 575/641 [1:14:22<08:32,  7.76s/it]

Adjusting learning rate of group 0 to 4.9997e-04.


tv: 4.132, mtv: 7.489, ptv: 6.228, pmtv: 7.102:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 600/641 [1:17:36<05:19,  7.79s/it]

Adjusting learning rate of group 0 to 4.9997e-04.


tv: 4.181, mtv: 7.562, ptv: 6.232, pmtv: 7.101:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 625/641 [1:20:51<02:04,  7.79s/it]

Adjusting learning rate of group 0 to 4.9997e-04.


tv: 4.072, mtv: 7.492, ptv: 6.179, pmtv: 7.113: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 641/641 [1:22:56<00:00,  7.76s/it]


In epoch 0, average traning loss is 4.677812644360404.


tv: 4.157, mtv: 7.347, ptv: 6.175, pmtv: 6.793:   1%|█▊                                                                                                                                | 9/641 [01:09<1:21:51,  7.77s/it]

Adjusting learning rate of group 0 to 4.9997e-04.


tv: 3.863, mtv: 7.341, ptv: 6.137, pmtv: 6.958:   5%|██████▊                                                                                                                          | 34/641 [04:24<1:18:28,  7.76s/it]

Adjusting learning rate of group 0 to 4.9996e-04.


tv: 3.852, mtv: 7.397, ptv: 6.160, pmtv: 7.039:   9%|███████████▊                                                                                                                     | 59/641 [07:38<1:15:14,  7.76s/it]

Adjusting learning rate of group 0 to 4.9996e-04.


tv: 3.886, mtv: 7.469, ptv: 6.167, pmtv: 7.108:  13%|████████████████▉                                                                                                                | 84/641 [10:52<1:11:55,  7.75s/it]

Adjusting learning rate of group 0 to 4.9996e-04.


tv: 3.895, mtv: 7.524, ptv: 6.168, pmtv: 7.132:  17%|█████████████████████▊                                                                                                          | 109/641 [14:06<1:08:45,  7.75s/it]

Adjusting learning rate of group 0 to 4.9996e-04.


tv: 3.814, mtv: 7.422, ptv: 6.181, pmtv: 7.100:  21%|██████████████████████████▊                                                                                                     | 134/641 [17:21<1:05:25,  7.74s/it]

Adjusting learning rate of group 0 to 4.9995e-04.


tv: 3.658, mtv: 7.339, ptv: 6.134, pmtv: 7.121:  25%|███████████████████████████████▊                                                                                                | 159/641 [20:35<1:02:23,  7.77s/it]

Adjusting learning rate of group 0 to 4.9995e-04.


tv: 3.674, mtv: 7.397, ptv: 6.142, pmtv: 7.130:  29%|█████████████████████████████████████▎                                                                                            | 184/641 [23:49<59:15,  7.78s/it]

Adjusting learning rate of group 0 to 4.9995e-04.


tv: 3.857, mtv: 7.490, ptv: 6.202, pmtv: 7.089:  33%|██████████████████████████████████████████▍                                                                                       | 209/641 [27:05<57:36,  8.00s/it]

Adjusting learning rate of group 0 to 4.9994e-04.


tv: 3.804, mtv: 7.402, ptv: 6.180, pmtv: 6.995:  37%|███████████████████████████████████████████████▍                                                                                  | 234/641 [30:20<52:39,  7.76s/it]

Adjusting learning rate of group 0 to 4.9994e-04.


tv: 3.605, mtv: 7.307, ptv: 6.134, pmtv: 6.996:  40%|████████████████████████████████████████████████████▌                                                                             | 259/641 [33:37<50:30,  7.93s/it]

Adjusting learning rate of group 0 to 4.9994e-04.


tv: 3.592, mtv: 7.359, ptv: 6.107, pmtv: 7.095:  44%|█████████████████████████████████████████████████████████▌                                                                        | 284/641 [36:55<47:11,  7.93s/it]

Adjusting learning rate of group 0 to 4.9993e-04.


tv: 3.600, mtv: 7.358, ptv: 6.138, pmtv: 7.082:  48%|██████████████████████████████████████████████████████████████▋                                                                   | 309/641 [40:11<42:59,  7.77s/it]

Adjusting learning rate of group 0 to 4.9993e-04.


tv: 3.482, mtv: 7.197, ptv: 6.119, pmtv: 6.948:  52%|███████████████████████████████████████████████████████████████████▋                                                              | 334/641 [43:25<39:38,  7.75s/it]

Adjusting learning rate of group 0 to 4.9992e-04.


tv: 3.397, mtv: 7.173, ptv: 6.071, pmtv: 6.955:  56%|████████████████████████████████████████████████████████████████████████▊                                                         | 359/641 [46:39<36:30,  7.77s/it]

Adjusting learning rate of group 0 to 4.9992e-04.


tv: 3.478, mtv: 7.353, ptv: 6.115, pmtv: 7.087:  60%|█████████████████████████████████████████████████████████████████████████████▉                                                    | 384/641 [49:53<33:25,  7.80s/it]

Adjusting learning rate of group 0 to 4.9992e-04.


tv: 3.446, mtv: 7.303, ptv: 6.132, pmtv: 7.093:  64%|██████████████████████████████████████████████████████████████████████████████████▉                                               | 409/641 [53:09<30:10,  7.81s/it]

Adjusting learning rate of group 0 to 4.9991e-04.


tv: 3.377, mtv: 7.223, ptv: 6.113, pmtv: 7.053:  68%|████████████████████████████████████████████████████████████████████████████████████████                                          | 434/641 [56:24<26:53,  7.80s/it]

Adjusting learning rate of group 0 to 4.9991e-04.


tv: 3.302, mtv: 7.116, ptv: 6.075, pmtv: 6.925:  72%|█████████████████████████████████████████████████████████████████████████████████████████████                                     | 459/641 [59:38<23:33,  7.77s/it]

Adjusting learning rate of group 0 to 4.9990e-04.


tv: 3.378, mtv: 7.172, ptv: 6.116, pmtv: 6.956:  76%|████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 484/641 [1:02:53<20:24,  7.80s/it]

Adjusting learning rate of group 0 to 4.9990e-04.


tv: 3.388, mtv: 7.280, ptv: 6.132, pmtv: 7.127:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 509/641 [1:06:08<17:10,  7.81s/it]

Adjusting learning rate of group 0 to 4.9990e-04.


tv: 3.273, mtv: 7.218, ptv: 6.062, pmtv: 7.066:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 534/641 [1:09:26<14:05,  7.90s/it]

Adjusting learning rate of group 0 to 4.9989e-04.


tv: 3.359, mtv: 7.291, ptv: 6.087, pmtv: 7.046:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 559/641 [1:12:43<10:50,  7.93s/it]

Adjusting learning rate of group 0 to 4.9989e-04.


tv: 3.363, mtv: 7.225, ptv: 6.134, pmtv: 6.990:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 584/641 [1:16:02<07:30,  7.90s/it]

Adjusting learning rate of group 0 to 4.9988e-04.


tv: 3.246, mtv: 7.122, ptv: 6.125, pmtv: 6.902:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 609/641 [1:19:21<04:13,  7.94s/it]

Adjusting learning rate of group 0 to 4.9988e-04.


tv: 3.280, mtv: 7.288, ptv: 6.127, pmtv: 7.077:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 634/641 [1:22:39<00:55,  7.89s/it]

Adjusting learning rate of group 0 to 4.9987e-04.


tv: 3.244, mtv: 7.230, ptv: 6.107, pmtv: 7.028: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 641/641 [1:23:35<00:00,  7.82s/it]


In epoch 1, average traning loss is 3.546174607671181.


tv: 3.249, mtv: 6.629, ptv: 6.050, pmtv: 6.706:   0%|▏                                                                                                                                 | 1/641 [00:07<1:24:30,  7.92s/it]

In [99]:
step_count = 0
optim.zero_grad()
pert_task = 0
for e in range(10):
    model.train()
    losses = {(0, 0): [], (0, 1): [], (1, 0): [], (1, 1): []}
    for (control, pert, pert_index) in (pbar := tqdm(iter(dl))):
        active_weights = 1 # 10 * (control > 0).float().to(device) + 1
        control = control.float().to(device)
        pert = pert.float().to(device)
        step_count += 1
        mask_task = step_count % 2
        pert_task = (pert_task + mask_task) % 2
        if pert_task:
            pert_expr = pert[torch.arange(pert.size(0)), pert_index[:, 0], None]
            pert_recon, _, _ = model(control, pert_expr=pert_expr, pert_index=pert_index[:, 0], mask=mask_task)
            loss = torch.sum(active_weights * torch.abs(pert_recon - pert)) / batch_size
        else:
            control_recon, _, _ = model(control, mask=mask_task)
            loss = torch.sum(active_weights * torch.abs(control_recon - control)) / batch_size
        loss.backward()
        optim.step()
        optim.zero_grad()
        if step_count % 100 == 0:
            lr_scheduler.step()
        losses[(pert_task, mask_task)].append(loss.item())
        if pert_task == 0 and mask_task == 0:
            pbar.set_description(
                f"tv: {np.array(losses[(0, 0)])[-100:].mean():.3f}, mtv: {np.array(losses[(0, 1)])[-100:].mean():.3f}, ptv: {np.array(losses[(1, 0)])[-100:].mean():.3f}, pmtv: {np.array(losses[(1, 1)])[-100:].mean():.3f}")
    
    avg_loss = sum(losses[(0, 0)]) / len(losses[(0, 0)])
    torch.save(model, f"transformer_v5.{e}")
    # writer.add_scalar('mae_loss', avg_loss, global_step=e)
    print(f'In epoch {e}, average traning loss is {avg_loss}.')

  0%|                                                                                                                                                                                            | 0/641 [00:01<?, ?it/s]


OutOfMemoryError: CUDA out of memory. Tried to allocate 642.00 MiB. GPU 0 has a total capacty of 31.73 GiB of which 554.44 MiB is free. Including non-PyTorch memory, this process has 31.19 GiB memory in use. Of the allocated memory 30.39 GiB is allocated by PyTorch, and 431.95 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

In [None]:
cell_type_names = adata.obs[cell_col]
pert_type_names = adata.obs[pert_col]
# Save the predicted perturbation
for cell_type, pert_type in zip(holdout_cells, holdout_perts):
    control_eval = X[cell_type_names == cell_type]
    true_pert= X[(pert_type_names == pert_type) & (cell_type_names == cell_type)]
    # cheating right now, just trying to get a mvp together
    pert_expr = true_pert[torch.arange(true_pert.size(0)), pert_type, None]
    pred_pert, _, _ = model(
        control, pert_expr=pert_expr, pert_index=pert_type, mask=False
    )
    print(f"Saving {pert_type} predictions")
    np.savez(
        f"Satija_IFNB_HVG/llm/pred_{gene_unmap[pert_type]}_{cell_type}.npz", 
        pred_pert=pred_pert[:, hvg_idx].cpu().detach().numpy(), 
        true_pert=true_pert[:, hvg_idx], 
        control=control_eval[:, hvg_idx],
    )