In [1]:
import anndata as ad
import pickle as pkl

from src.evaluator.null_evaluator import get_models_results
from src.notebooks.evaluation.utils import get_model_stats

In [2]:
def train_different_normalization(adata_path=None, run_name=None, res_savename=None, stats_savename=None):
    DRUG_ENCODING_NAME = "fmfp"
    DRUG_ENCODING_SIZE = 1024
    N_TRIALS = 20
    SCHEDULER_MODE = 'min'

    with open("./data/drug_splits/train_drugs_rand.pkl", 'rb') as f:
        drugs_train_rand = pkl.load(f)

    with open("./data/drug_splits/val_drugs_rand.pkl", 'rb') as f:
        drugs_val_rand = pkl.load(f)

    with open("./data/drug_splits/test_drugs_rand.pkl", 'rb') as f:
        drugs_test_rand = pkl.load(f)

    drug_splits = dict()
    drug_splits['train'] = drugs_train_rand
    drug_splits['valid'] = drugs_val_rand
    drug_splits['test'] = drugs_test_rand

    adata = ad.read_h5ad(adata_path)

    get_models_results(drug_splits=drug_splits,
                          adata=adata,
                          drug_rep_name=DRUG_ENCODING_NAME,
                          drug_emb_size=DRUG_ENCODING_SIZE,
                          save_path=res_savename
                      )

    with open(res_savename, 'rb') as f:
        res_raw = pkl.load(f)

    adata_control = adata[adata.obs.product_name == 'Vehicle'].copy()
    gene_names = list(adata_control.var_names)
    raw_stats = get_model_stats(res_raw, adata_control, gene_names, run_name)

    with open(stats_savename, 'wb') as f:
        pkl.dump(raw_stats, f)

In [3]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_raw_filt.h5ad",
        run_name="null_rawcount_norm",
        res_savename="./results/null_rawcount_norm_res.pkl",
        stats_savename="./results/null_rawcount_norm_stats.pkl"
    )

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:14<00:00, 5373.81it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:02<00:00, 1995.80it/s]




  utils.warn_names_duplicates("obs")




In [4]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_cpm_filt.h5ad",
        run_name="null_cpm_norm",
        res_savename="./results/null_cpm_norm_res.pkl",
        stats_savename="./results/null_cpm_norm_stats.pkl"
    )

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:16<00:00, 5250.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:01<00:00, 2495.37it/s]
  utils.warn_names_duplicates("obs")


In [5]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_shiftedlog_filt.h5ad",
        run_name="null_shiftedlog_norm",
        res_savename="./results/null_shiftedlog_norm_res.pkl",
        stats_savename="./results/null_shiftedlog_norm_stats.pkl"
    )

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:16<00:00, 5278.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:02<00:00, 2418.42it/s]
  utils.warn_names_duplicates("obs")


In [3]:
train_different_normalization(
        adata_path="./data/normalization/sciplex_analyticpearson_filt.h5ad",
        run_name="null_analyticpearson_norm",
        res_savename="./results/null_analyticpearson_norm_res.pkl",
        stats_savename="./results/null_analyticpearson_norm_stats.pkl"
    )

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 401917/401917 [01:14<00:00, 5374.93it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4892/4892 [00:01<00:00, 2725.24it/s]
  utils.warn_names_duplicates("obs")
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfoldchanges"] = np.log2(
  self.stats[group_name, "logfold