## Import necessary packages

In [1]:
import warnings
warnings.filterwarnings("ignore")

import hdf5plugin
import numpy as np
import anndata as ad
from scipy.sparse import csr_matrix
from CellPLM.utils import set_seed
from CellPLM.utils.data import stratified_sample_genes_by_sparsity
from CellPLM.pipeline.imputation import ImputationPipeline, ImputationDefaultPipelineConfig, ImputationDefaultModelConfig

## Specify important parameters before getting started

In [2]:
DATASET = 'Liver' # 'Lung'
PRETRAIN_VERSION = '20231027_85M'
DEVICE = 'cuda:4'

## Load Downstream Dataset

The example datasets here are taken from `HumanLungCancerPatient2` from [Lung cancer 2](https://info.vizgen.com/ffpe-showcase?submissionGuid=88ba0a44-26e2-47a2-8ee4-9118b9811fbf), `GSE131907_Lung` from [GSE131907](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE131907), `HumanLiverCancerPatient2` from [Liver cancer 2](https://info.vizgen.com/ffpe-showcase?submissionGuid=88ba0a44-26e2-47a2-8ee4-9118b9811fbf) and `GSE151530_Liver` from [GSE151530](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE151530).

The data we released are already preprocessed, where we subset the SRT dataset by selecting the first 100 FOVs. For scRNA-seq datasets, we only preserve genes that are overlapped with the SRT dataset. This is to ensure that for all the genes involved in this example, we know the ground-truth gene expressions from the SRT dataset. Later, we will hold out part of the genes from the SRT dataset, and leverage information from the scRNA-seq dataset to impute them. Therefore, this gene filtering is only for the convenience of evaluation. In practice, we can leverage the scRNA-seq dataset to impute unmeasured genes in the SRT dataset.

After the preprocessing, the AnnData object must contain following information:

* `.obs['platform']` A string label for identification of SRT data. When platform is set to 'cosmx' or 'merfish', spatial positional information will be loaded.
* `.obs['x_FOV_px']` For SRT data, please store the float/int type X coordinate of each cell here.
* `.obs['y_FOV_px']` For SRT data, please store the float/int type Y coordinate of each cell here.
* `.obs['batch']` For SRT data, batch refers to an FOV. For scRNA-seq data, batch refers to a sample. Please store a string type batch identifier here.

In [3]:
set_seed(11)
if DATASET == 'Lung':
    query_dataset = 'HumanLungCancerPatient2_filtered_ensg.h5ad'
    ref_dataset = 'GSE131907_Lung_ensg.h5ad'
    query_data = ad.read_h5ad(f'../data/{query_dataset}')
    ref_data = ad.read_h5ad(f'../data/{ref_dataset}')

elif DATASET == 'Liver':
    query_dataset = 'HumanLiverCancerPatient2_filtered_ensg.h5ad'
    ref_dataset = 'GSE151530_Liver_ensg.h5ad'
    query_data = ad.read_h5ad(f'../data/{query_dataset}')
    ref_data = ad.read_h5ad(f'../data/{ref_dataset}')

target_genes = stratified_sample_genes_by_sparsity(query_data, seed=11) # This is for reproducing the hold-out gene lists in our paper
query_data.obsm['truth'] = query_data[:, target_genes].X.toarray()
query_data[:, target_genes].X = 0
train_data = query_data.concatenate(ref_data, join='outer', batch_key=None, index_unique=None)

train_data.obs['split'] = 'train'
train_data.obs['split'][train_data.obs['batch']==query_data.obs['batch'][-1]] = 'valid'
train_data.obs['split'][train_data.obs['batch']==ref_data.obs['batch'][-1]] = 'valid'

## Specify gene to impute
In the last step, we merge the query dataset (SRT) and the reference dataset (scRNA-seq). However, the query dataset does not measures all the genes. For fine-tuning the model, we need to specify which genes are measured in each dataset. Therefore, we create a dictionary for the imputation pipeline.

In [4]:
query_genes = [g for g in query_data.var.index if g not in target_genes]
query_batches = list(query_data.obs['batch'].unique())
ref_batches = list(ref_data.obs['batch'].unique())
batch_gene_list = dict(zip(list(query_batches) + list(ref_batches),
    [query_genes]*len(query_batches) + [ref_data.var.index.tolist()]*len(ref_batches)))

## Overwrite parts of the default config
These hyperparameters are recommended for general purpose. We did not tune it for individual datasets. You may update them if needed.

In [5]:
pipeline_config = ImputationDefaultPipelineConfig.copy()
model_config = ImputationDefaultModelConfig.copy()

pipeline_config, model_config

({'lr': 0.0005,
  'wd': 1e-06,
  'scheduler': 'plat',
  'epochs': 100,
  'max_eval_batch_size': 100000,
  'patience': 5,
  'workers': 0},
 {'objective': 'imputation',
  'mask_node_rate': 0.95,
  'mask_feature_rate': 0.25,
  'max_batch_size': 70000})

## Fine-tuning

Efficient data setup and fine-tuning can be seamlessly conducted using the CellPLM built-in `pipeline` module.

First, initialize a `ImputationPipeline`. This pipeline will automatically load a pretrained model.

In [6]:
pipeline = ImputationPipeline(pretrain_prefix=PRETRAIN_VERSION, # Specify the pretrain checkpoint to load
                                      overwrite_config=model_config,  # This is for overwriting part of the pretrain config
                                      pretrain_directory='../ckpt')
pipeline.model

OmicsFormer(
  (embedder): OmicsEmbeddingLayer(
    (act): ReLU()
    (norm0): GroupNorm(4, 1024, eps=1e-05, affine=True)
    (dropout): Dropout(p=0.2, inplace=False)
    (extra_linear): Sequential(
      (0): Linear(in_features=1024, out_features=1024, bias=True)
      (1): ReLU()
      (2): Dropout(p=0.2, inplace=False)
      (3): GroupNorm(4, 1024, eps=1e-05, affine=True)
    )
    (pe_enc): Sinusoidal2dPE(
      (pe_enc): Embedding(10000, 1024)
    )
    (feat_enc): OmicsEmbedder()
  )
  (mask_model): MaskBuilder()
  (encoder): TransformerEncoder(
    (layers): ModuleList(
      (0): FlowformerLayer(
        (self_attn): Flow_Attention(
          (query_projection): Linear(in_features=1024, out_features=1024, bias=True)
          (key_projection): Linear(in_features=1024, out_features=1024, bias=True)
          (value_projection): Linear(in_features=1024, out_features=1024, bias=True)
          (out_projection): Linear(in_features=1024, out_features=1024, bias=True)
          (drop

Next, employ the `fit` function to fine-tune the model on your downstream dataset. This dataset should be in the form of an AnnData object, where `.X` is a csr_matrix. See previous section for more details.

Typically, a dataset containing approximately 20,000 cells can be trained in under 10 minutes using a V100 GPU card, with an expected GPU memory consumption of around 8GB.

In [7]:
pipeline.fit(train_data, # An AnnData object
            pipeline_config, # The config dictionary we created previously, optional
            split_field = 'split', #  Specify a column in .obs that contains split information
            train_split = 'train',
            valid_split = 'valid',
            batch_gene_list = batch_gene_list, # Specify genes that are measured in each batch, see previous section for more details
            device = DEVICE,
            ) 

After filtering, 407 genes remain.


  1%|█▊                                                                                                                                                                               | 1/100 [00:05<09:28,  5.75s/it]

Epoch 0 | Train loss: 157.7344 | Valid loss: 174.7204


  2%|███▌                                                                                                                                                                             | 2/100 [00:10<08:45,  5.36s/it]

Epoch 1 | Train loss: 145.3576 | Valid loss: 170.1000


  3%|█████▎                                                                                                                                                                           | 3/100 [00:15<08:28,  5.24s/it]

Epoch 2 | Train loss: 144.5094 | Valid loss: 166.7639


  4%|███████                                                                                                                                                                          | 4/100 [00:21<08:16,  5.17s/it]

Epoch 3 | Train loss: 143.9563 | Valid loss: 165.2700


  5%|████████▊                                                                                                                                                                        | 5/100 [00:26<08:07,  5.14s/it]

Epoch 4 | Train loss: 143.3796 | Valid loss: 166.0831


  6%|██████████▌                                                                                                                                                                      | 6/100 [00:31<07:59,  5.10s/it]

Epoch 5 | Train loss: 143.4116 | Valid loss: 167.3844


  7%|████████████▍                                                                                                                                                                    | 7/100 [00:36<07:54,  5.10s/it]

Epoch 6 | Train loss: 142.9436 | Valid loss: 164.1280


  8%|██████████████▏                                                                                                                                                                  | 8/100 [00:41<07:51,  5.12s/it]

Epoch 7 | Train loss: 142.1181 | Valid loss: 163.6934


  9%|███████████████▉                                                                                                                                                                 | 9/100 [00:46<07:45,  5.11s/it]

Epoch 8 | Train loss: 142.2685 | Valid loss: 161.6306


 10%|█████████████████▌                                                                                                                                                              | 10/100 [00:51<07:38,  5.10s/it]

Epoch 9 | Train loss: 142.0820 | Valid loss: 162.8992


 11%|███████████████████▎                                                                                                                                                            | 11/100 [00:56<07:33,  5.10s/it]

Epoch 10 | Train loss: 141.7097 | Valid loss: 162.6857


 12%|█████████████████████                                                                                                                                                           | 12/100 [01:01<07:29,  5.11s/it]

Epoch 11 | Train loss: 142.1057 | Valid loss: 162.5203


 13%|██████████████████████▉                                                                                                                                                         | 13/100 [01:07<07:27,  5.15s/it]

Epoch 12 | Train loss: 142.2024 | Valid loss: 161.2402


 14%|████████████████████████▋                                                                                                                                                       | 14/100 [01:12<07:21,  5.14s/it]

Epoch 13 | Train loss: 142.6022 | Valid loss: 162.0056


 15%|██████████████████████████▍                                                                                                                                                     | 15/100 [01:17<07:17,  5.15s/it]

Epoch 14 | Train loss: 141.7570 | Valid loss: 165.1529


 16%|████████████████████████████▏                                                                                                                                                   | 16/100 [01:22<07:11,  5.13s/it]

Epoch 15 | Train loss: 141.4911 | Valid loss: 160.2200


 17%|█████████████████████████████▉                                                                                                                                                  | 17/100 [01:27<07:05,  5.12s/it]

Epoch 16 | Train loss: 141.6973 | Valid loss: 161.5786


 18%|███████████████████████████████▋                                                                                                                                                | 18/100 [01:32<06:59,  5.11s/it]

Epoch 17 | Train loss: 141.2333 | Valid loss: 159.8360


 19%|█████████████████████████████████▍                                                                                                                                              | 19/100 [01:37<06:54,  5.11s/it]

Epoch 18 | Train loss: 141.7273 | Valid loss: 160.5924


 20%|███████████████████████████████████▏                                                                                                                                            | 20/100 [01:42<06:47,  5.10s/it]

Epoch 19 | Train loss: 142.0551 | Valid loss: 161.1103


 21%|████████████████████████████████████▉                                                                                                                                           | 21/100 [01:47<06:41,  5.08s/it]

Epoch 20 | Train loss: 142.5518 | Valid loss: 160.8754


 22%|██████████████████████████████████████▋                                                                                                                                         | 22/100 [01:52<06:35,  5.08s/it]

Epoch 21 | Train loss: 141.6725 | Valid loss: 160.3568


 23%|████████████████████████████████████████▍                                                                                                                                       | 23/100 [01:58<06:35,  5.13s/it]

Epoch 22 | Train loss: 142.3613 | Valid loss: 160.3738


 24%|██████████████████████████████████████████▏                                                                                                                                     | 24/100 [02:03<06:28,  5.11s/it]

Epoch 23 | Train loss: 142.5606 | Valid loss: 159.7958


 25%|████████████████████████████████████████████                                                                                                                                    | 25/100 [02:08<06:21,  5.09s/it]

Epoch 24 | Train loss: 142.0856 | Valid loss: 160.0513


 26%|█████████████████████████████████████████████▊                                                                                                                                  | 26/100 [02:13<06:15,  5.07s/it]

Epoch 25 | Train loss: 142.5923 | Valid loss: 160.6237


 27%|███████████████████████████████████████████████▌                                                                                                                                | 27/100 [02:18<06:10,  5.08s/it]

Epoch 26 | Train loss: 142.9508 | Valid loss: 159.9759


 28%|█████████████████████████████████████████████████▎                                                                                                                              | 28/100 [02:23<06:06,  5.09s/it]

Epoch 27 | Train loss: 142.1886 | Valid loss: 159.4191


 29%|███████████████████████████████████████████████████                                                                                                                             | 29/100 [02:28<06:02,  5.10s/it]

Epoch 28 | Train loss: 142.1928 | Valid loss: 158.5910


 30%|████████████████████████████████████████████████████▊                                                                                                                           | 30/100 [02:33<05:56,  5.09s/it]

Epoch 29 | Train loss: 142.7644 | Valid loss: 158.6462


 31%|██████████████████████████████████████████████████████▌                                                                                                                         | 31/100 [02:38<05:50,  5.09s/it]

Epoch 30 | Train loss: 142.3672 | Valid loss: 161.1229


 32%|████████████████████████████████████████████████████████▎                                                                                                                       | 32/100 [02:43<05:44,  5.07s/it]

Epoch 31 | Train loss: 142.4489 | Valid loss: 158.8141


 33%|██████████████████████████████████████████████████████████                                                                                                                      | 33/100 [02:48<05:41,  5.09s/it]

Epoch 32 | Train loss: 142.6297 | Valid loss: 158.8698


 34%|███████████████████████████████████████████████████████████▊                                                                                                                    | 34/100 [02:54<05:39,  5.14s/it]

Epoch 33 | Train loss: 142.8429 | Valid loss: 159.7918


 35%|█████████████████████████████████████████████████████████████▌                                                                                                                  | 35/100 [02:59<05:32,  5.12s/it]

Epoch 34 | Train loss: 142.7418 | Valid loss: 160.2819


 36%|███████████████████████████████████████████████████████████████▎                                                                                                                | 36/100 [03:04<05:26,  5.11s/it]

Epoch 35 | Train loss: 142.8129 | Valid loss: 159.5548


 37%|█████████████████████████████████████████████████████████████████                                                                                                               | 37/100 [03:09<05:22,  5.13s/it]

Epoch 36 | Train loss: 143.2258 | Valid loss: 159.6350


 38%|██████████████████████████████████████████████████████████████████▉                                                                                                             | 38/100 [03:14<05:16,  5.11s/it]

Epoch 37 | Train loss: 142.6390 | Valid loss: 159.3224


 39%|████████████████████████████████████████████████████████████████████▋                                                                                                           | 39/100 [03:19<05:10,  5.09s/it]

Epoch 38 | Train loss: 143.1982 | Valid loss: 159.4347


 40%|██████████████████████████████████████████████████████████████████████▍                                                                                                         | 40/100 [03:24<05:05,  5.09s/it]

Epoch 39 | Train loss: 142.7022 | Valid loss: 160.8207


 41%|████████████████████████████████████████████████████████████████████████▏                                                                                                       | 41/100 [03:29<05:00,  5.09s/it]

Epoch 40 | Train loss: 143.4843 | Valid loss: 159.8649


 42%|█████████████████████████████████████████████████████████████████████████▉                                                                                                      | 42/100 [03:34<04:54,  5.08s/it]

Epoch 41 | Train loss: 143.8078 | Valid loss: 161.2753


 43%|███████████████████████████████████████████████████████████████████████████▋                                                                                                    | 43/100 [03:39<04:49,  5.08s/it]

Epoch 42 | Train loss: 143.2348 | Valid loss: 159.5489


 44%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 44/100 [03:44<04:44,  5.07s/it]

Epoch 43 | Train loss: 143.4205 | Valid loss: 160.7295


 45%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                | 45/100 [03:50<04:40,  5.10s/it]

Epoch 44 | Train loss: 144.0858 | Valid loss: 159.1271


 46%|████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 46/100 [03:55<04:35,  5.09s/it]

Epoch 45 | Train loss: 142.9930 | Valid loss: 159.9657


 47%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 47/100 [04:00<04:30,  5.11s/it]

Epoch 46 | Train loss: 143.5614 | Valid loss: 159.5806


 48%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 48/100 [04:05<04:25,  5.10s/it]

Epoch 47 | Train loss: 144.0006 | Valid loss: 160.0162


 49%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 49/100 [04:10<04:20,  5.11s/it]

Epoch 48 | Train loss: 144.3818 | Valid loss: 159.8873


 50%|████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 50/100 [04:15<04:15,  5.10s/it]

Epoch 49 | Train loss: 143.2788 | Valid loss: 160.1283


 51%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 51/100 [04:20<04:08,  5.08s/it]

Epoch 50 | Train loss: 144.3525 | Valid loss: 159.9925


 52%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 52/100 [04:25<04:02,  5.06s/it]

Epoch 51 | Train loss: 144.4950 | Valid loss: 159.8044


 53%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 53/100 [04:30<03:57,  5.06s/it]

Epoch 52 | Train loss: 144.6677 | Valid loss: 160.8843


 54%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 54/100 [04:35<03:55,  5.11s/it]

Epoch 53 | Train loss: 144.3643 | Valid loss: 160.1144


 55%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 55/100 [04:41<03:50,  5.12s/it]

Epoch 54 | Train loss: 144.2647 | Valid loss: 159.7583


 56%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 56/100 [04:47<03:56,  5.38s/it]

Epoch 55 | Train loss: 144.2222 | Valid loss: 160.0525


 57%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 57/100 [04:52<03:48,  5.32s/it]

Epoch 56 | Train loss: 144.5742 | Valid loss: 160.3149


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 58/100 [04:57<03:41,  5.29s/it]

Epoch 57 | Train loss: 144.1110 | Valid loss: 159.8854


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 59/100 [05:02<03:36,  5.28s/it]

Epoch 58 | Train loss: 144.6357 | Valid loss: 161.1275


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 60/100 [05:07<03:28,  5.20s/it]

Epoch 59 | Train loss: 144.9983 | Valid loss: 160.7439


 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 61/100 [05:12<03:21,  5.17s/it]

Epoch 60 | Train loss: 145.1771 | Valid loss: 160.4257


 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 62/100 [05:17<03:15,  5.15s/it]

Epoch 61 | Train loss: 145.3431 | Valid loss: 160.4005


 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 63/100 [05:23<03:09,  5.13s/it]

Epoch 62 | Train loss: 144.7192 | Valid loss: 161.4960


 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 64/100 [05:28<03:04,  5.12s/it]

Epoch 63 | Train loss: 145.2318 | Valid loss: 160.7701


 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 65/100 [05:33<02:59,  5.13s/it]

Epoch 64 | Train loss: 145.1411 | Valid loss: 161.9836


 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 66/100 [05:38<02:54,  5.14s/it]

Epoch 65 | Train loss: 145.2756 | Valid loss: 161.4737


 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 67/100 [05:43<02:49,  5.13s/it]

Epoch 66 | Train loss: 144.8083 | Valid loss: 160.7919


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 68/100 [05:48<02:44,  5.13s/it]

Epoch 67 | Train loss: 145.2346 | Valid loss: 160.5155


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 69/100 [05:53<02:38,  5.11s/it]

Epoch 68 | Train loss: 145.3808 | Valid loss: 161.9249


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 70/100 [05:58<02:33,  5.12s/it]

Epoch 69 | Train loss: 145.5224 | Valid loss: 161.6418


 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 71/100 [06:04<02:28,  5.11s/it]

Epoch 70 | Train loss: 145.6232 | Valid loss: 161.2039


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 72/100 [06:09<02:22,  5.10s/it]

Epoch 71 | Train loss: 145.9478 | Valid loss: 160.6672


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 73/100 [06:14<02:17,  5.10s/it]

Epoch 72 | Train loss: 145.4414 | Valid loss: 162.3252


 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 74/100 [06:19<02:13,  5.13s/it]

Epoch 73 | Train loss: 145.9536 | Valid loss: 161.3097


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 75/100 [06:24<02:09,  5.17s/it]

Epoch 74 | Train loss: 144.9751 | Valid loss: 161.5580


 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 76/100 [06:29<02:04,  5.19s/it]

Epoch 75 | Train loss: 145.5381 | Valid loss: 161.9345


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 77/100 [06:35<01:59,  5.22s/it]

Epoch 76 | Train loss: 145.7770 | Valid loss: 161.1823


 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 78/100 [06:40<01:54,  5.18s/it]

Epoch 77 | Train loss: 145.3284 | Valid loss: 161.5169


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 79/100 [06:45<01:49,  5.20s/it]

Epoch 78 | Train loss: 145.0973 | Valid loss: 161.9419


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 80/100 [06:50<01:44,  5.21s/it]

Epoch 79 | Train loss: 144.8888 | Valid loss: 161.4331


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 81/100 [06:55<01:38,  5.18s/it]

Epoch 80 | Train loss: 144.5610 | Valid loss: 161.9808


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 82/100 [07:01<01:34,  5.26s/it]

Epoch 81 | Train loss: 145.2062 | Valid loss: 161.2726


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 83/100 [07:06<01:28,  5.22s/it]

Epoch 82 | Train loss: 145.0208 | Valid loss: 161.7488


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 84/100 [07:11<01:23,  5.20s/it]

Epoch 83 | Train loss: 145.0227 | Valid loss: 161.6467


 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 85/100 [07:16<01:18,  5.20s/it]

Epoch 84 | Train loss: 145.0262 | Valid loss: 161.0713


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 86/100 [07:21<01:12,  5.19s/it]

Epoch 85 | Train loss: 145.2407 | Valid loss: 161.1036


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 87/100 [07:27<01:07,  5.16s/it]

Epoch 86 | Train loss: 145.1423 | Valid loss: 161.3951


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 88/100 [07:32<01:01,  5.14s/it]

Epoch 87 | Train loss: 144.8936 | Valid loss: 161.8806


 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 89/100 [07:37<00:56,  5.17s/it]

Epoch 88 | Train loss: 145.0948 | Valid loss: 161.3169


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 90/100 [07:42<00:52,  5.21s/it]

Epoch 89 | Train loss: 144.8964 | Valid loss: 161.5093


 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 91/100 [07:47<00:47,  5.23s/it]

Epoch 90 | Train loss: 144.7106 | Valid loss: 161.2936


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 92/100 [07:53<00:41,  5.21s/it]

Epoch 91 | Train loss: 144.8001 | Valid loss: 161.6001


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 93/100 [07:58<00:36,  5.19s/it]

Epoch 92 | Train loss: 144.7966 | Valid loss: 161.1460


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 94/100 [08:03<00:31,  5.22s/it]

Epoch 93 | Train loss: 144.7227 | Valid loss: 161.4651


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 95/100 [08:08<00:26,  5.24s/it]

Epoch 94 | Train loss: 145.1408 | Valid loss: 162.2888


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 96/100 [08:14<00:20,  5.24s/it]

Epoch 95 | Train loss: 145.2063 | Valid loss: 161.9220


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 97/100 [08:19<00:15,  5.22s/it]

Epoch 96 | Train loss: 144.9133 | Valid loss: 161.6269


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 98/100 [08:24<00:10,  5.23s/it]

Epoch 97 | Train loss: 144.1114 | Valid loss: 161.3138


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 99/100 [08:29<00:05,  5.22s/it]

Epoch 98 | Train loss: 144.3714 | Valid loss: 161.6357


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [08:34<00:00,  5.15s/it]

Epoch 99 | Train loss: 144.6638 | Valid loss: 161.6557





<CellPLM.pipeline.imputation.ImputationPipeline at 0x7f029c26e730>

## Inference and evaluation
Once the pipeline has been fitted to the downstream datasets, performing inference or evaluation on new datasets can be easily accomplished using the built-in `predict` and `score` functions.

In [8]:
pipeline.predict(
        query_data, # An AnnData object
        pipeline_config, # The config dictionary we created previously, optional
        device = DEVICE,
    )

After filtering, 407 genes remain.


tensor([[0.0133, 0.1704, 0.0087,  ..., 0.0121, 0.3661, 0.0197],
        [0.0077, 0.1250, 0.0058,  ..., 0.0061, 0.1732, 0.0113],
        [0.0225, 0.2656, 0.0097,  ..., 0.0316, 0.8135, 0.0431],
        ...,
        [0.0178, 0.1895, 0.0087,  ..., 0.0561, 0.8370, 0.0394],
        [0.0289, 0.3801, 0.0162,  ..., 0.0499, 1.1087, 0.0616],
        [0.0118, 0.1293, 0.0046,  ..., 0.0326, 0.4903, 0.0282]],
       device='cuda:4')

In [9]:
pipeline.score(
                query_data, # An AnnData object
                evaluation_config = {'target_genes': target_genes}, # The config dictionary we created previously, optional
                label_fields = ['truth'], # A field in .obsm that stores the ground-truth for evaluation
                device = DEVICE,
)  

After filtering, 407 genes remain.


{'mse': 0.1406844496028498,
 'rmse': 0.4078435111645868,
 'mae': 0.19152530061081052,
 'corr': 0.37668647251091897,
 'cos': 0.47539635181427004}