In [1]:
import anndata as ad
import pickle as pkl

from src.evaluator.mean_evaluator import get_models_results
from src.notebooks.evaluation.utils import get_model_stats

In [2]:
def train_different_normalization(adata_path=None, run_name=None, res_savename=None, stats_savename=None):
    DRUG_ENCODING_NAME = "fmfp"
    DRUG_ENCODING_SIZE = 1024
    N_TRIALS = 20
    SCHEDULER_MODE = 'min'

    with open("./data/drug_splits/train_drugs_rand.pkl", 'rb') as f:
        drugs_train_rand = pkl.load(f)

    with open("./data/drug_splits/val_drugs_rand.pkl", 'rb') as f:
        drugs_val_rand = pkl.load(f)

    with open("./data/drug_splits/test_drugs_rand.pkl", 'rb') as f:
        drugs_test_rand = pkl.load(f)

    drug_splits = dict()
    drug_splits['train'] = drugs_train_rand
    drug_splits['valid'] = drugs_val_rand
    drug_splits['test'] = drugs_test_rand

    adata = ad.read_h5ad(adata_path)

    get_models_results(drug_splits=drug_splits,
                          adata=adata,
                          drug_rep_name=DRUG_ENCODING_NAME,
                          drug_emb_size=DRUG_ENCODING_SIZE,
                          save_path=res_savename
                      )

    with open(res_savename, 'rb') as f:
        res_raw = pkl.load(f)

    adata_control = adata[adata.obs.product_name == 'Vehicle'].copy()
    gene_names = list(adata_control.var_names)
    raw_stats = get_model_stats(res_raw, adata_control, gene_names, run_name)

    with open(stats_savename, 'wb') as f:
        pkl.dump(raw_stats, f)

In [3]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_raw_filt.h5ad",
        run_name="mean_rawcount_norm",
        res_savename="./results/mean_rawcount_norm_res.pkl",
        stats_savename="./results/mean_rawcount_norm_stats.pkl"
    )

Loading Datasets ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [04:09<00:00, 1611.86it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:15<00:00, 5331.81it/s]


Computing Mean Predictions ...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20189/20189 [00:09<00:00, 2030.20it/s]


Getting test set predictions and saving results ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:01<00:00, 2608.12it/s]
  utils.warn_names_duplicates("obs")


In [4]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_cpm_filt.h5ad",
        run_name="mean_cpm_norm",
        res_savename="./results/mean_cpm_norm_res.pkl",
        stats_savename="./results/mean_cpm_norm_stats.pkl"
    )

Loading Datasets ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [04:08<00:00, 1615.37it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:13<00:00, 5455.17it/s]


Computing Mean Predictions ...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20189/20189 [00:07<00:00, 2810.04it/s]


Getting test set predictions and saving results ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:01<00:00, 2718.73it/s]
  utils.warn_names_duplicates("obs")


In [5]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_shiftedlog_filt.h5ad",
        run_name="mean_shiftedlog_norm",
        res_savename="./results/mean_shiftedlog_norm_res.pkl",
        stats_savename="./results/mean_shiftedlog_norm_stats.pkl"
    )

Loading Datasets ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [04:09<00:00, 1613.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:14<00:00, 5397.58it/s]


Computing Mean Predictions ...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20189/20189 [00:07<00:00, 2797.56it/s]


Getting test set predictions and saving results ...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:02<00:00, 2164.41it/s]
  utils.warn_names_duplicates("obs")


In [3]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_analyticpearson_filt.h5ad",
        run_name="mean_analyticpearson_norm",
        res_savename="./results/mean_analyticpearson_norm_res.pkl",
        stats_savename="./results/mean_analyticpearson_norm_stats.pkl"
    )

Loading Datasets ...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [04:04<00:00, 1641.26it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:13<00:00, 5481.70it/s]


Computing Mean Predictions ...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20189/20189 [00:05<00:00, 3622.72it/s]


Getting test set predictions and saving results ...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:01<00:00, 4679.64it/s]
  utils.warn_names_duplicates("obs")
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats