In [None]:
import os
os.chdir('..')
os.chdir('..')
import scvelo as scv
import scanpy as sc
import cell2fate as c2f
import pickle as pickle
from eval_utils import cross_boundary_correctness
from datetime import datetime
import pandas as pd
import numpy as np
from os.path import exists
import matplotlib.pyplot as plt
import torch
import unitvelo as utv
method = 'Cell2fateDynamicalModelTmax150Gamma05Lambda1_Init-tdelta0_400epochs_10samples'
data_dir = '/nfs/team283/aa16/data/fate_benchmarking/benchmarking_datasets/'
save_dir = '/nfs/team283/aa16/data/fate_benchmarking/benchmarking_results/'
datasets = ['Pancreas_with_cc',  'DentateGyrus' , 'MouseBoneMarrow', 'MouseErythroid', 'HumanBoneMarrow']
n_genes_list = np.array((2000, 3000))
n_counts_list = np.array((10, 20))

for i in range(len(n_genes_list)):
    for j in range(len(n_counts_list)):
        for k in (3,0,1,2,4):
            print(i)
            print(j)
            print(k)
            dataset = datasets[k]
            n_genes = n_genes_list[i]
            min_counts = n_counts_list[j]
            model_index = str(i) + '-' + str(j) + '-' + str(k)
            save_name = method + '_'
            if exists(save_dir + save_name + '_CBDC_fullBenchmark.csv'):
                tab = pd.read_csv(save_dir + save_name + '_CBDC_fullBenchmark.csv', index_col = 0)
                if model_index in tab.index:
                    continue
            adata = sc.read_h5ad(data_dir + dataset + '/' + dataset + '_anndata.h5ad')
            adata = c2f.utils.get_training_data(adata, cells_per_cluster = 10**6, cluster_column = 'clusters',
                                            remove_clusters = [], min_shared_counts = min_counts, n_var_genes= n_genes)
            c2f.Cell2fate_DynamicalModel.setup_anndata(adata, spliced_label='spliced', unspliced_label='unspliced')    
            n_modules = c2f.utils.get_max_modules(adata)
            t_delta = torch.ones(n_modules) * 0.001
            t_delta[0] = 150 - 0.1
            mod = c2f.Cell2fate_DynamicalModel(adata,
                                               n_modules = n_modules,
                                               Tmax_prior={"mean": 150., "sd": 50.},
                                               activation_rate_hyp_prior={"mean_hyp_prior_mean": 1., "mean_hyp_prior_sd": 0.33,
                                               "sd_hyp_prior_mean": 0.33, "sd_hyp_prior_sd": 0.1},
                                               degredation_rate_hyp_prior={"mean": 0.5, "alpha": 5.0,
                                                                        "mean_hyp_alpha": 10.0, "alpha_hyp_alpha": 20.0},
                                              init_vals = {'t_delta': t_delta})   
            mod.train(max_epochs = 400)
            sample_kwarg = {"num_samples": 10, "batch_size" : adata.n_obs,
                 "use_gpu" : True, 'return_samples': False}
            adata = mod.export_posterior(adata, sample_kwargs = sample_kwarg)
            mod.compute_and_plot_total_velocity_scvelo(adata, save = False, delete = False)
            # Calculate performance metrics:
            file = open(data_dir + dataset + '/' + dataset + '_groundTruth.pickle' ,'rb')
            ground_truth = pickle.load(file)
            metrics = utv.evaluate(adata, ground_truth, 'clusters', 'velocity')
            cb_score = [np.mean(metrics['Cross-Boundary Direction Correctness (A->B)'][x])
                        for x in metrics['Cross-Boundary Direction Correctness (A->B)'].keys()]
            if exists(save_dir + save_name + '_CBDC_fullBenchmark.csv'):
                tab = pd.read_csv(save_dir + save_name + '_CBDC_fullBenchmark.csv', index_col = 0)
            else:
                c_names = ['CBDC']
                tab = pd.DataFrame(columns = c_names)
            tab.loc[model_index, 'CBDC'] = np.mean(cb_score)
            tab.to_csv(save_dir + save_name + '_CBDC_fullBenchmark.csv')
tab = pd.read_csv(save_dir + save_name + '_CBDC_fullBenchmark.csv', index_col = 0)
tab.loc['AVERAGE', 'CBDC'] = np.mean(tab['CBDC'])
tab.to_csv(save_dir + save_name + '_CBDC_fullBenchmark.csv')

Global seed set to 0


(Running UniTVelo 0.2.5)
2023-10-29 17:57:56
0
0
3
Keeping at most 1000000 cells per cluster
Filtered out 46616 genes that are detected 10 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...
Number of Leiden Clusters: 9
Maximal Number of Modules: 10


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [14:52<00:00,  2.23s/it, v_num=1, elbo_train=2.24e+7]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.77s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:05<00:00,  1.75it/s]
Computing total RNAvelocity ...


  0%|          | 0/9815 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('Blood progenitors 1', 'Blood progenitors 2'): -0.872104533127396, ('Blood progenitors 2', 'Erythroid1'): -0.7423582059352273, ('Erythroid1', 'Erythroid2'): -0.7882173254154334, ('Erythroid2', 'Erythroid3'): -0.7626047652574681}
Total Mean: -0.7913212074338812
# In-cluster Coherence
{'Blood progenitors 1': 0.99471647, 'Blood progenitors 2': 0.99930054, 'Erythroid1': 0.9971404, 'Erythroid2': 0.9894479, 'Erythroid3': 0.9651561}
Total Mean: 0.9891523122787476
0
0
0
Keeping at most 1000000 cells per cluster
Filtered out 19641 genes that are detected 10 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 13
Maximal Number of Modules: 14
Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [07:16<00:00,  1.09s/it, v_num=1, elbo_train=7.45e+6]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.60s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:02<00:00,  3.60it/s]
Computing total RNAvelocity ...


  0%|          | 0/3696 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('Ngn3 high EP', 'Pre-endocrine'): -0.6809259756894617, ('Pre-endocrine', 'Alpha'): -0.04501603655357061, ('Pre-endocrine', 'Beta'): 0.34410679155576535, ('Pre-endocrine', 'Delta'): 0.34735263085615886, ('Pre-endocrine', 'Epsilon'): 0.07497174744041928}
Total Mean: 0.008097831521862251
# In-cluster Coherence
{'Alpha': 0.9290159, 'Beta': 0.9296297, 'Delta': 0.95650387, 'Ductal': 0.8514484, 'Epsilon': 0.9591984, 'Ngn3 high EP': 0.9893193, 'Ngn3 low EP': 0.9007591, 'Pre-endocrine': 0.93718845}
Total Mean: 0.9316328763961792
0
0
1
Keeping at most 1000000 cells per cluster
Filtered out 9174 genes that are detected 10 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...
         Falling back to preprocessing with `sc.pp.pca` and default params.


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 13
Maximal Number of Modules: 14
Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [05:48<00:00,  1.15it/s, v_num=1, elbo_train=3.99e+6]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.06s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:02<00:00,  4.35it/s]
Computing total RNAvelocity ...


  0%|          | 0/2930 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('nIPC', 'Neuroblast'): -0.6545398955337948, ('Neuroblast', 'Granule immature'): -0.641305740280528, ('Granule immature', 'Granule mature'): -0.038098295412552594, ('Radial Glia-like', 'Astrocytes'): 0.6278580837736917, ('OPC', 'OL'): 0.795946950329532}
Total Mean: 0.017972220575269638
# In-cluster Coherence
{'Astrocytes': 0.8337758, 'Cajal Retzius': 0.82229996, 'Cck-Tox': 0.98466116, 'Endothelial': 0.8370828, 'GABA': 0.96199375, 'Granule immature': 0.9727063, 'Granule mature': 0.97887546, 'Microglia': 0.9699254, 'Mossy': 0.9844884, 'Neuroblast': 0.79786325, 'OL': 0.8291176, 'OPC': 0.8473577, 'Radial Glia-like': 0.83227867, 'nIPC': 0.9900859}
Total Mean: 0.9030365347862244
0
0
2
Keeping at most 1000000 cells per cluster
Filtered out 19601 genes that are detected 10 counts (shared).
Skip filtering by dispersion since number of variables are less than `n_top_genes`.
Leiden clustering ...


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 8
Maximal Number of Modules: 9
Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [05:48<00:00,  1.15it/s, v_num=1, elbo_train=3.86e+6]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.71s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:01<00:00,  4.58it/s]
Computing total RNAvelocity ...


  0%|          | 0/2600 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('dividing', 'progenitors'): -0.7919861589369428, ('progenitors', 'activating'): -0.7159297928273816}
Total Mean: -0.7539579758821622
# In-cluster Coherence
{'B cell lineage': 0.738271, 'activating': 0.9645244, 'dividing': 0.9758414, 'macrophages': 0.77581686, 'progenitors': 0.9849669}
Total Mean: 0.8878841400146484
0
0
4
Keeping at most 1000000 cells per cluster
Filtered out 6962 genes that are detected 10 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...
         Falling back to preprocessing with `sc.pp.pca` and default params.


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 10
Maximal Number of Modules: 11
Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [13:38<00:00,  2.05s/it, v_num=1, elbo_train=1.02e+7]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:06<00:00,  6.02s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:04<00:00,  2.09it/s]
Computing total RNAvelocity ...


  0%|          | 0/5780 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('HSC_1', 'Ery_1'): 0.3853847990433168, ('HSC_1', 'HSC_2'): 0.5455789058098197, ('Ery_1', 'Ery_2'): 0.25462694476467773}
Total Mean: 0.39519688320593804
# In-cluster Coherence
{'CLP': 0.8815691, 'DCs': 0.98905504, 'Ery_1': 0.9603467, 'Ery_2': 0.96201354, 'HSC_1': 0.9586452, 'HSC_2': 0.98690486, 'Mega': 0.96993667, 'Mono_1': 0.97679406, 'Mono_2': 0.98127955, 'Precursors': 0.98942715}
Total Mean: 0.9655972719192505
0
1
3
Keeping at most 1000000 cells per cluster
Filtered out 47456 genes that are detected 20 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 9
Maximal Number of Modules: 10
Epoch 400/400: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [16:19<00:00,  2.45s/it, v_num=1, elbo_train=2.4e+7]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.83s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:05<00:00,  1.75it/s]
Computing total RNAvelocity ...


  0%|          | 0/9815 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('Blood progenitors 1', 'Blood progenitors 2'): -0.8259619291365389, ('Blood progenitors 2', 'Erythroid1'): -0.7387377926351386, ('Erythroid1', 'Erythroid2'): -0.794907115799083, ('Erythroid2', 'Erythroid3'): -0.6551512881166569}
Total Mean: -0.7536895314218544
# In-cluster Coherence
{'Blood progenitors 1': 0.9955751, 'Blood progenitors 2': 0.9969709, 'Erythroid1': 0.99345857, 'Erythroid2': 0.98028433, 'Erythroid3': 0.9266693}
Total Mean: 0.9785916209220886
0
1
0
Keeping at most 1000000 cells per cluster
Filtered out 20801 genes that are detected 20 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 13
Maximal Number of Modules: 14
Epoch 400/400: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 400/400 [07:42<00:00,  1.16s/it, v_num=1, elbo_train=8.12e+6]
Sampling local variables, batch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.63s/it]
Sampling global variables, sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:02<00:00,  3.60it/s]
Computing total RNAvelocity ...


  0%|          | 0/3696 [00:00<?, ?cells/s]

# Cross-Boundary Direction Correctness (A->B)
{('Ngn3 high EP', 'Pre-endocrine'): -0.7180715831294715, ('Pre-endocrine', 'Alpha'): 0.2036540592398334, ('Pre-endocrine', 'Beta'): 0.3860576184379115, ('Pre-endocrine', 'Delta'): 0.14903527737695813, ('Pre-endocrine', 'Epsilon'): -0.4307328965246739}
Total Mean: -0.08201150491988848
# In-cluster Coherence
{'Alpha': 0.89533234, 'Beta': 0.90740997, 'Delta': 0.89884406, 'Ductal': 0.9948488, 'Epsilon': 0.920336, 'Ngn3 high EP': 0.99034524, 'Ngn3 low EP': 0.99548465, 'Pre-endocrine': 0.9084809}
Total Mean: 0.9388852119445801
0
1
1
Keeping at most 1000000 cells per cluster
Filtered out 10340 genes that are detected 20 counts (shared).
Extracted 2000 highly variable genes.
Leiden clustering ...
         Falling back to preprocessing with `sc.pp.pca` and default params.


GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Number of Leiden Clusters: 14
Maximal Number of Modules: 16
Epoch 259/400:  64%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 258/400 [03:53<02:07,  1.11it/s, v_num=1, elbo_train=4.78e+6]