# scVI

- **Creator**: Sebastian Birk (<sebastian.birk@helmholtz-munich.de>).
- **Affiliation:** Helmholtz Munich, Institute of Computational Biology (ICB), Talavera-López Lab
- **Date of Creation:** 05.01.2023
- **Date of Last Modification:** 29.03.2023

- The scVI source code is available at https://github.com/scverse/scvi-tools.
- The corresponding publication is "Lopez, R., Regier, J., Cole, M. B., Jordan, M. I. & Yosef, N. Deep generative modeling for single-cell transcriptomics. Nat. Methods 15, 1053–1058 (2018)".
- The workflow of this notebook follows the tutorial from https://docs.scvi-tools.org/en/stable/tutorials/notebooks/harmonization.html.
- The authors use raw counts as input to scVI. Therefore, we also use raw counts (stored in adata.layers["counts"]).

## 1. Setup

### 1.1 Import Libraries

In [1]:
import os
import time
from datetime import datetime

import anndata as ad
import scvi
import scanpy as sc
import scipy.sparse as sp
import squidpy as sq
import matplotlib.pyplot as plt
import numpy as np

Global seed set to 0
  jax.tree_util.register_keypaths(


### 1.2 Define Parameters

In [2]:
model_name = "scvi"
latent_key = f"{model_name}_latent"
mapping_entity_key = "reference"
condition_key = "batch"
counts_key = "counts"
leiden_resolution = 0.5 # used for Leiden clustering of latent space
random_seed = 0 # used for Leiden clustering

### 1.3 Run Notebook Setup

In [3]:
sc.set_figure_params(figsize=(6, 6))

In [4]:
# Get time of notebook execution for timestamping saved artifacts
now = datetime.now()
current_timestamp = now.strftime("%d%m%Y_%H%M%S")

### 1.4 Configure Paths and Directories

In [5]:
srt_data_gold_folder_path = "../../datasets/srt_data/gold/"
figure_folder_path = f"../../figures"

## 2. scVI Model

### 2.1 Define Training Function

In [6]:
def train_scvi_models(dataset,
                      reference_batches,
                      cell_type_key,
                      adata_new=None,
                      n_start_run=1,
                      n_end_run=10,
                      n_neighbor_list=[4, 4, 8, 8, 12, 12, 16, 16, 20, 20],
                      plot_latent_umaps=False):
    # Configure figure folder path
    dataset_figure_folder_path = f"{figure_folder_path}/{dataset}/sample_integration_method_benchmarking/" \
                                 f"{model_name}/{current_timestamp}"
    os.makedirs(dataset_figure_folder_path, exist_ok=True)
    
    # Create new adata to store results from training runs in storage-efficient way
    if adata_new is None:  
        adata_batch_list = []
        if reference_batches is not None:
            for batch in reference_batches:
                adata_batch = ad.read_h5ad(
                    f"{srt_data_gold_folder_path}/{dataset}_{batch}.h5ad")
                adata_batch.obs[mapping_entity_key] = "reference"
                adata_batch_list.append(adata_batch)
            adata_original = ad.concat(adata_batch_list, join="inner")
        else:
            adata_original = ad.read_h5ad(f"{srt_data_gold_folder_path}/{dataset}.h5ad")

        adata_new = sc.AnnData(sp.csr_matrix(
            (adata_original.shape[0], adata_original.shape[1]),
            dtype=np.float32))
        adata_new.var_names = adata_original.var_names
        adata_new.obs_names = adata_original.obs_names
        adata_new.obs["cell_type"] = adata_original.obs[cell_type_key].values
        adata_new.obsm["spatial"] = adata_original.obsm["spatial"]
        adata_new.obs[condition_key] = adata_original.obs[condition_key]
        adata_new.obs[mapping_entity_key] = adata_original.obs[mapping_entity_key] 
        del(adata_original)
        
    model_seeds = list(range(10))
    for run_number, n_neighbors in zip(np.arange(n_start_run, n_end_run+1), n_neighbor_list):
        # n_neighbors is here only used for the latent neighbor graph construction used for
        # UMAP generation and clustering as scVI is not a spatial method
        
        # Load data
        adata_batch_list = []
        if reference_batches is not None:
            for batch in reference_batches:
                print(f"Processing batch {batch}...")
                print("Loading data...")
                adata_batch = ad.read_h5ad(
                    f"{srt_data_gold_folder_path}/{dataset}_{batch}.h5ad")
                adata_batch_list.append(adata_batch)
            adata = ad.concat(adata_batch_list, join="inner")
        else:
            adata = ad.read_h5ad(f"{srt_data_gold_folder_path}/{dataset}.h5ad")
        
        start_time = time.time()
        
        scvi.settings.seed = model_seeds[run_number-1]

        # Setup adata
        scvi.model.SCVI.setup_anndata(adata,
                                      layer=counts_key,
                                      batch_key=condition_key)

        # Initialize model
        # Use hyperparams that provenly work well on integration tasks
        model = scvi.model.SCVI(adata,
                                n_layers=2,
                                n_latent=30,
                                gene_likelihood="nb")

        # Train model
        model.train()

        # Store latent representation
        adata.obsm[latent_key] = model.get_latent_representation()
        
        # Measure time for model training
        end_time = time.time()
        elapsed_time = end_time - start_time
        hours, rem = divmod(elapsed_time, 3600)
        minutes, seconds = divmod(rem, 60)
        print(f"Duration of model training in run {run_number}: "
              f"{int(hours)} hours, {int(minutes)} minutes and {int(seconds)} seconds.")
        adata_new.uns[f"{model_name}_model_training_duration_run{run_number}"] = (
            elapsed_time)
        
        if plot_latent_umaps:
            # Use scVI latent space for UMAP generation
            sc.pp.neighbors(adata,
                            use_rep=latent_key,
                            n_neighbors=n_neighbors)
            sc.tl.umap(adata)
            fig = sc.pl.umap(adata,
                             color=[cell_type_key],
                             title="Latent Space with Cell Types: scVI",
                             return_fig=True)
            fig.savefig(f"{dataset_figure_folder_path}/latent_{model_name}"
                        f"_cell_types_run{run_number}.png",
                        bbox_inches="tight")

            # Compute latent Leiden clustering
            sc.tl.leiden(adata=adata,
                         resolution=leiden_resolution,
                         random_state=random_seed,
                         key_added=f"latent_{model_name}_leiden_{str(leiden_resolution)}")

            # Create subplot of latent Leiden cluster annotations in physical and latent space
            fig, axs = plt.subplots(nrows=2, ncols=1, figsize=(6, 12))
            title = fig.suptitle(t="Latent and Physical Space with Leiden Clusters: scVI")
            sc.pl.umap(adata=adata,
                       color=[f"latent_{model_name}_leiden_{str(leiden_resolution)}"],
                       title=f"Latent Space with Leiden Clusters",
                       ax=axs[0],
                       show=False)
            sq.pl.spatial_scatter(adata=adata,
                                  color=[f"latent_{model_name}_leiden_{str(leiden_resolution)}"],
                                  title=f"Physical Space with Leiden Clusters",
                                  shape=None,
                                  ax=axs[1])

            # Create and position shared legend
            handles, labels = axs[0].get_legend_handles_labels()
            lgd = fig.legend(handles, labels, bbox_to_anchor=(1.25, 0.9185))
            axs[0].get_legend().remove()
            axs[1].get_legend().remove()

            # Adjust, save and display plot
            plt.subplots_adjust(wspace=0, hspace=0.2)
            fig.savefig(f"{dataset_figure_folder_path}/latent_physical_comparison_"
                        f"{model_name}_run{run_number}.png",
                        bbox_extra_artists=(lgd, title),
                        bbox_inches="tight")
            plt.show()
        
        # Store latent representation
        adata_new.obsm[latent_key + f"_run{run_number}"] = adata.obsm[latent_key]
        
        # Use latent representation for UMAP generation
        sc.pp.neighbors(adata_new,
                        use_rep=f"{latent_key}_run{run_number}",
                        key_added=f"{latent_key}_run{run_number}")
        sc.tl.umap(adata_new,
                   neighbors_key=f"{latent_key}_run{run_number}")
        adata_new.obsm[f"{latent_key}_run{run_number}_X_umap"] = adata_new.obsm["X_umap"]
        del(adata_new.obsm["X_umap"])

        # Store intermediate adata to disk
        adata_new.write(f"{srt_data_gold_folder_path}/{dataset}_{model_name}_oneshot_integrated.h5ad")  

    # Store final adata to disk
    adata_new.write(f"{srt_data_gold_folder_path}/{dataset}_{model_name}_oneshot_integrated.h5ad") 

### 2.2 Train Models on Benchmarking Datasets

In [7]:
train_scvi_models(dataset="starmap_plus_mouse_cns",
                  reference_batches=[f"batch{i}" for i in range(1,21)],
                  cell_type_key="Main_molecular_cell_type",
                  adata_new=None,
                  n_start_run=1,
                  n_end_run=10,
                  n_neighbor_list=[4, 4, 8, 8, 12, 12, 16, 16, 20, 20])

Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading data...
Processing batch batch14...
Loading data...
Processing batch batch15...
Loading data...
Processing batch batch16...
Loading data...
Processing batch batch17...
Loading data...
Processing batch batch18...
Loading data...
Processing batch batch19...
Loading data...
Processing batch batch20...
Loading data...


Global seed set to 0
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:17<00:00, 61.97s/it, loss=288, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:17<00:00, 62.51s/it, loss=288, v_num=1]
Duration of model training in run 1: 0 hours, 7 minutes and 41 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 1
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:10<00:00, 61.62s/it, loss=285, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:10<00:00, 61.45s/it, loss=285, v_num=1]
Duration of model training in run 2: 0 hours, 7 minutes and 22 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 2
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:14<00:00, 62.03s/it, loss=282, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:14<00:00, 62.05s/it, loss=282, v_num=1]
Duration of model training in run 3: 0 hours, 7 minutes and 26 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 3
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:12<00:00, 61.98s/it, loss=277, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:12<00:00, 61.77s/it, loss=277, v_num=1]
Duration of model training in run 4: 0 hours, 7 minutes and 24 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 4
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.86s/it, loss=278, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.90s/it, loss=278, v_num=1]
Duration of model training in run 5: 0 hours, 7 minutes and 25 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 5
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.75s/it, loss=287, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.88s/it, loss=287, v_num=1]
Duration of model training in run 6: 0 hours, 7 minutes and 25 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 6
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:09<00:00, 61.23s/it, loss=284, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:09<00:00, 61.29s/it, loss=284, v_num=1]
Duration of model training in run 7: 0 hours, 7 minutes and 21 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 7
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:14<00:00, 61.87s/it, loss=290, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:14<00:00, 62.02s/it, loss=290, v_num=1]
Duration of model training in run 8: 0 hours, 7 minutes and 26 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 8
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.87s/it, loss=290, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:13<00:00, 61.92s/it, loss=290, v_num=1]
Duration of model training in run 9: 0 hours, 7 minutes and 25 seconds.
Processing batch batch1...
Loading data...
Processing batch batch2...
Loading data...
Processing batch batch3...
Loading data...
Processing batch batch4...
Loading data...
Processing batch batch5...
Loading data...
Processing batch batch6...
Loading data...
Processing batch batch7...
Loading data...
Processing batch batch8...
Loading data...
Processing batch batch9...
Loading data...
Processing batch batch10...
Loading data...
Processing batch batch11...
Loading data...
Processing batch batch12...
Loading data...
Processing batch batch13...
Loading

Global seed set to 9
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:11<00:00, 61.50s/it, loss=287, v_num=1]

`Trainer.fit` stopped: `max_epochs=7` reached.


Epoch 7/7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [07:11<00:00, 61.67s/it, loss=287, v_num=1]
Duration of model training in run 10: 0 hours, 7 minutes and 23 seconds.


In [9]:
adata = ad.read_h5ad(f"{srt_data_gold_folder_path}/starmap_plus_mouse_cns_scvi_oneshot_integrated.h5ad")

In [39]:
run_number = 4

In [40]:
# Use latent representation for UMAP generation
sc.pp.neighbors(adata,
                use_rep=f"{latent_key}_run{run_number}",
                key_added=f"{latent_key}_run{run_number}")
sc.tl.umap(adata,
           neighbors_key=f"{latent_key}_run{run_number}")
adata.obsm[f"{latent_key}_run{run_number}_X_umap"] = adata.obsm["X_umap"]
del(adata.obsm["X_umap"])

Exception ignored in: <function WeakValueDictionary.__init__.<locals>.remove at 0x7f0060bbd280>
Traceback (most recent call last):
  File "/home/mo/miniconda3/envs/autotalker/lib/python3.9/weakref.py", line 106, in remove
    def remove(wr, selfref=ref(self), _atomic_removal=_remove_dead_weakref):
KeyboardInterrupt: 


KeyboardInterrupt: 

In [37]:
adata.write(f"{srt_data_gold_folder_path}/starmap_plus_mouse_cns_scvi_oneshot_integrated.h5ad")

In [38]:
adata

AnnData object with n_obs × n_vars = 1091280 × 1022
    obs: 'cell_type', 'batch', 'reference'
    uns: 'scvi_model_training_duration_run1', 'scvi_model_training_duration_run10', 'scvi_model_training_duration_run2', 'scvi_model_training_duration_run3', 'scvi_model_training_duration_run4', 'scvi_model_training_duration_run5', 'scvi_model_training_duration_run6', 'scvi_model_training_duration_run7', 'scvi_model_training_duration_run8', 'scvi_model_training_duration_run9', 'scvi_latent_run1', 'umap', 'scvi_latent_run2', 'scvi_latent_run3'
    obsm: 'scvi_latent_run1', 'scvi_latent_run10', 'scvi_latent_run2', 'scvi_latent_run3', 'scvi_latent_run4', 'scvi_latent_run5', 'scvi_latent_run6', 'scvi_latent_run7', 'scvi_latent_run8', 'scvi_latent_run9', 'spatial', 'scvi_latent_run1_X_umap', 'scvi_latent_run2_X_umap', 'scvi_latent_run3_X_umap'
    obsp: 'scvi_latent_run1_distances', 'scvi_latent_run1_connectivities', 'scvi_latent_run2_distances', 'scvi_latent_run2_connectivities', 'scvi_latent_run

In [32]:
adata.obsm["scvi_latent_run2_X_umap"].shape

(1091280, 2)

In [None]:
# ~20% sample of the original dataset
train_scvi_models(dataset="starmap_plus_mouse_cns_sample",
                  cell_type_key="Main_molecular_cell_type",
                  adata_new=None,
                  n_start_run=1,
                  n_end_run=10,
                  n_neighbor_list=[4, 4, 8, 8, 12, 12, 16, 16, 20, 20])