## Aim of the notebook

In this notebook we **transform scRNAseq** from census, extracted in 6_1 to look like Xenium datasets. See methods section of the manuscript for further details

In [1]:
# import txsim as tx
import scanpy as sc
import os
import pandas as pd
from anndata import AnnData
import numpy as np
import xb.formatting as xf
import seaborn as sns
import random 
import matplotlib.pyplot as plt
import sklearn.metrics as sk
from tqdm import tqdm
import scanpy as sc
import random

from xb.calculating import entropy,compute_vi,compute_fmi
from xb.formatting import keep_nuclei_and_quality
from xb.simulating import missegmentation_simulation,noise_adder,subset_of_single_cell

# We specify the paths to downloaded data from Census

In [2]:
mainpath='../../data/scRNAseq_for_simulations/'
datasets=os.listdir(mainpath)
datasets=[d for d in datasets if d!='.ipynb_checkpoints']

## Next, we read, apply transfromation to scRNA-seq to make the data look like Xen and save

In [4]:
allsamples=[]
for d in range(0,len(datasets)):
    try:
        print('##################################### Dataset '+str(d))
        dataset_path=mainpath+datasets[d]
        #reread single cell data since we need the updated version LUNG DEV
        adata_sc_sub=sc.read(dataset_path+'/original_adata.h5ad')
        adata_sc_sub.X=adata_sc_sub.X.todense()
        markers=pd.read_csv(dataset_path+'/markers.csv',index_col=0)
        total_genes=250
        random_markers_perc=0
        reads_x_cell=None
        n_reads_x_gene=20
        percentage_of_noise=0.05
        misseg_percentage=0.05
        adata_sc=subset_of_single_cell(adata_sc_sub,markers,random_markers_percentage=random_markers_perc,
                                       reads_x_cell=reads_x_cell,number_of_markers=total_genes,
                                      n_reads_x_gene=n_reads_x_gene,percentage_of_noise=percentage_of_noise,
                                      ms_percentage=misseg_percentage)

        ###extract characteristics
        total_cells=adata_sc.shape[0]
        total_genes=adata_sc.shape[1]
        n_ct=len(np.unique(adata_sc.obs['cell_type']))
        ct_less_cells=np.min(adata_sc.obs.groupby('cell_type').count().iloc[:,0])/total_cells
        ct_more_cells=np.max(adata_sc.obs.groupby('cell_type').count().iloc[:,0])/total_cells
        mean_highestgen=np.mean(np.max(adata_sc.X,axis=1))
        mean_readsxcell=np.mean(np.sum(adata_sc.X,axis=1))
        headers=['total_cells','total_genes','n_ct','ct_less_cells','ct_more_cells','highest_expressed','readsxcell']
        sample_info=pd.DataFrame([total_cells,total_genes,n_ct,ct_less_cells,ct_more_cells,mean_highestgen,mean_readsxcell],
                    index=headers,columns=[datasets[d]]).transpose()
        allsamples.append(sample_info)
    except Exception as e:
        print(e)

##################################### Dataset 0


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1221.94it/s]


(9313, 212)
##################################### Dataset 1


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1182.83it/s]


(9634, 166)
##################################### Dataset 2


0it [00:00, ?it/s]


(417, 226)
##################################### Dataset 3


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1354.75it/s]


(7420, 220)
##################################### Dataset 4


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1293.14it/s]


(8839, 174)
##################################### Dataset 5
Population must be a sequence or set.  For dicts, use list(d).
##################################### Dataset 6


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1235.16it/s]


(8839, 173)
##################################### Dataset 7


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1090.17it/s]


(10453, 175)
##################################### Dataset 8


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 528.01it/s]


(30099, 233)
##################################### Dataset 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 803.27it/s]


(18219, 183)
##################################### Dataset 10


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1330.79it/s]


(8140, 149)
##################################### Dataset 11


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1279.04it/s]


(8448, 189)
##################################### Dataset 12


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1490.51it/s]


(3732, 216)
##################################### Dataset 13


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1090.11it/s]


(10746, 192)
##################################### Dataset 14


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 897.42it/s]


(15000, 192)
##################################### Dataset 15


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1497.25it/s]


(6282, 147)
##################################### Dataset 16


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1291.45it/s]


(8328, 213)
##################################### Dataset 17


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 827.82it/s]


(15939, 160)
##################################### Dataset 18


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 1043.66it/s]


(12582, 210)
##################################### Dataset 19


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1361.93it/s]


(7396, 192)
##################################### Dataset 20


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1340.57it/s]


(8028, 222)
##################################### Dataset 21


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1117.41it/s]


(10751, 142)
##################################### Dataset 22


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 869.22it/s]


(16185, 203)
##################################### Dataset 23


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1358.70it/s]


(7932, 167)
##################################### Dataset 24


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1178.75it/s]


(9327, 231)
##################################### Dataset 25


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 939.55it/s]


(14300, 149)
##################################### Dataset 26


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1540.89it/s]


(2941, 205)
##################################### Dataset 27


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1071.67it/s]


(10836, 175)
##################################### Dataset 28


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1064.17it/s]


(11756, 214)
##################################### Dataset 29


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 802.36it/s]


(18231, 148)
##################################### Dataset 30


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 954.26it/s]


(12758, 246)
##################################### Dataset 31


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1286.40it/s]


(8150, 181)
##################################### Dataset 32


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 884.98it/s]


(15684, 237)
##################################### Dataset 33


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1077.45it/s]


(11291, 237)
##################################### Dataset 34


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1147.16it/s]


(9833, 211)
##################################### Dataset 35


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 788.29it/s]


(18420, 219)
##################################### Dataset 36


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1445.81it/s]


(2518, 244)
##################################### Dataset 37


0it [00:00, ?it/s]


(1794, 214)
##################################### Dataset 38


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 946.69it/s]


(13563, 197)
##################################### Dataset 39


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1089.88it/s]


(11294, 198)
##################################### Dataset 40


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1186.31it/s]


(10071, 201)
##################################### Dataset 41


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1749.45it/s]


(4065, 230)
##################################### Dataset 42


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 894.80it/s]


(15021, 191)
##################################### Dataset 43


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 1320.94it/s]


(8024, 160)
##################################### Dataset 44


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 1040.04it/s]


(12182, 200)
##################################### Dataset 45


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1400.90it/s]


(7247, 162)
##################################### Dataset 46


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 944.12it/s]


(14639, 192)
##################################### Dataset 47


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 889.03it/s]


(15354, 196)
##################################### Dataset 48


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1701.54it/s]


(2662, 187)
##################################### Dataset 49


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 868.49it/s]


(15939, 160)
##################################### Dataset 50


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1053.53it/s]


(11757, 214)
##################################### Dataset 51


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1400.90it/s]


(3175, 197)
##################################### Dataset 52


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1078.56it/s]


(11715, 143)
##################################### Dataset 53


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1163.34it/s]


(10543, 226)
##################################### Dataset 54


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1552.30it/s]

(3117, 196)





Finally, we save the sample information of the simulated data in figures

In [5]:
sampleinfo=pd.concat(allsamples)
sampleinfo.to_csv('../../figures/7.spatial_architecture/simulated_sample_info.csv')