## Aim of the notebook

In this notebook we extract the characteristics of the scRNAseq transfromed to look like xenium datasets

In [3]:
import txsim as tx
import scanpy as sc
import os
import pandas as pd
from anndata import AnnData
import numpy as np
import xb.formatting as xf
import seaborn as sns
import random 
import matplotlib.pyplot as plt
import sklearn.metrics as sk
from tqdm import tqdm
import scanpy as sc
import random

from xb.calculating import entropy,compute_vi,compute_fmi
from xb.formatting import keep_nuclei_and_quality
from xb.simulating import missegmentation_simulation,noise_adder,subset_of_single_cell

# Functions

In [4]:
mainpath='../../data/scRNAseq_for_simulations/'
datasets=os.listdir(mainpath)
datasets=[d for d in datasets if d!='.ipynb_checkpoints']

In [54]:
allsamples=[]
for d in range(0,len(datasets)):
    try:
            print('##################################### Dataset '+str(d))
            dataset_path=mainpath+datasets[d]
            #reread single cell data since we need the updated version LUNG DEV
            adata_sc_sub=sc.read(dataset_path+'/original_adata.h5ad')
            adata_sc_sub.X=adata_sc_sub.X.todense()
            markers=pd.read_csv(dataset_path+'/markers.csv',index_col=0)
            total_genes=250
            random_markers_perc=0
            reads_x_cell=None
            n_reads_x_gene=20
            percentage_of_noise=0.05
            misseg_percentage=0.05
            adata_sc=subset_of_single_cell(adata_sc_sub,markers,random_markers_percentage=random_markers_perc,
                                           reads_x_cell=reads_x_cell,number_of_markers=total_genes,
                                          n_reads_x_gene=n_reads_x_gene,percentage_of_noise=percentage_of_noise,
                                          ms_percentage=misseg_percentage)

            ###extract characteristics
            total_cells=adata_sc.shape[0]
            total_genes=adata_sc.shape[1]
            n_ct=len(np.unique(adata_sc.obs['cell_type']))
            ct_less_cells=np.min(adata_sc.obs.groupby('cell_type').count().iloc[:,0])/total_cells
            ct_more_cells=np.max(adata_sc.obs.groupby('cell_type').count().iloc[:,0])/total_cells
            mean_highestgen=np.mean(np.max(adata_sc.X,axis=1))
            mean_readsxcell=np.mean(np.sum(adata_sc.X,axis=1))
            headers=['total_cells','total_genes','n_ct','ct_less_cells','ct_more_cells','highest_expressed','readsxcell']
            sample_info=pd.DataFrame([total_cells,total_genes,n_ct,ct_less_cells,ct_more_cells,mean_highestgen,mean_readsxcell],
                        index=headers,columns=[datasets[d]]).transpose()
            allsamples.append(sample_info)
    except:
            print('not possible')

##################################### Dataset 0


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 483.92it/s]


(11756, 214)
##################################### Dataset 1


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 419.49it/s]


(14639, 192)
##################################### Dataset 2


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 400.87it/s]


(16185, 203)
##################################### Dataset 3


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 418.93it/s]


(15021, 191)
##################################### Dataset 4


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 350.02it/s]


(18219, 183)
##################################### Dataset 5


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 576.02it/s]


(8448, 189)
##################################### Dataset 6


100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 443.37it/s]


(13563, 197)
##################################### Dataset 7
not possible
##################################### Dataset 8


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 360.39it/s]


(18231, 148)
##################################### Dataset 9


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 725.32it/s]


(6282, 147)
##################################### Dataset 10


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 610.02it/s]


(7247, 162)
##################################### Dataset 11


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 615.66it/s]


(8150, 181)
##################################### Dataset 12


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 424.99it/s]


(14300, 149)
##################################### Dataset 13


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.19it/s]


(3117, 196)
##################################### Dataset 14


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 542.50it/s]


(9634, 166)
##################################### Dataset 15


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 502.60it/s]


(11294, 198)
##################################### Dataset 16


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 602.00it/s]


(8328, 213)
##################################### Dataset 17


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 636.18it/s]


(2941, 205)
##################################### Dataset 18


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 515.57it/s]


(7396, 192)
##################################### Dataset 19


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 506.25it/s]


(10543, 226)
##################################### Dataset 20


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.24it/s]


(2518, 244)
##################################### Dataset 21


100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 474.39it/s]


(12182, 200)
##################################### Dataset 22


100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 459.84it/s]


(12582, 210)
##################################### Dataset 23


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 388.78it/s]


(15939, 160)
##################################### Dataset 24


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 611.41it/s]


(7932, 167)
##################################### Dataset 25


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 571.45it/s]


(9313, 212)
##################################### Dataset 26


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 352.82it/s]


(18420, 219)
##################################### Dataset 27


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 415.75it/s]


(15000, 192)
##################################### Dataset 28


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 562.90it/s]


(8024, 160)
##################################### Dataset 29


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 516.76it/s]


(10836, 175)
##################################### Dataset 30


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 435.84it/s]


(8028, 222)
##################################### Dataset 31


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 578.07it/s]


(8839, 174)
##################################### Dataset 32


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 479.01it/s]


(11715, 143)
##################################### Dataset 33


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 498.12it/s]


(10746, 192)
##################################### Dataset 34


100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 527.14it/s]


(9833, 211)
##################################### Dataset 35


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 484.81it/s]


(11757, 214)
##################################### Dataset 36


100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 841.22it/s]


(4065, 230)
##################################### Dataset 37


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 390.71it/s]


(15354, 196)
##################################### Dataset 38


0it [00:00, ?it/s]


(1794, 214)
##################################### Dataset 39


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 851.46it/s]


(2662, 187)
##################################### Dataset 40


100%|██████████████████████████████████████████████████████████████████████████████████| 15/15 [00:00<00:00, 240.68it/s]


(30099, 233)
##################################### Dataset 41


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 540.17it/s]


(10071, 201)
##################################### Dataset 42


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 639.51it/s]


(7420, 220)
##################################### Dataset 43


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 347.91it/s]


(15939, 160)
##################################### Dataset 44


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 508.41it/s]


(10751, 142)
##################################### Dataset 45


0it [00:00, ?it/s]


(417, 226)
##################################### Dataset 46


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 490.30it/s]


(11291, 237)
##################################### Dataset 47


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 785.89it/s]


(3732, 216)
##################################### Dataset 48


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.80it/s]

(3175, 197)





In [56]:
sampleinfo=pd.concat(allsamples)
sampleinfo.to_csv('../../figures/7.spatial_architecture/simulated_sample_info.csv')