# Purpose of the notebook

In this notebook we format the simulated datasets (AnnData), to csvs, which will be used as an input for Seurat's preprocessing

## Import packages

In [1]:
import numpy as np
import pandas as pd
import scanpy as sc
import seaborn as sns
import matplotlib.pyplot as plt
import xb.plotting as xp
import os
import random
from tqdm import tqdm

# Specify parameters

In [3]:
mainpath='../../data/scRNAseq_for_simulations/'
datasets=os.listdir(mainpath)
datasets=[d for d in datasets if d!='.ipynb_checkpoints']

## Main loop
In here, we format the simulated datasets into csv format, which will be later used as an input for Seurat preprocessing

In [5]:
for d in range(0,len(datasets)):
    try:
        print('##################################### Dataset '+str(d))
        dataset_path=mainpath+datasets[d]
        #reread single cell data since we need the updated version LUNG DEV
        adata_sc_sub=sc.read(dataset_path+'/original_adata.h5ad')
        adata_sc_sub.X=adata_sc_sub.X.todense()
        markers=pd.read_csv(dataset_path+'/markers.csv',index_col=0)
        total_genes=250
        random_markers_perc=0
        reads_x_cell=None
        n_reads_x_gene=20
        percentage_of_noise=0.01
        misseg_percentage=0.01
        adata_sc=subset_of_single_cell(adata_sc_sub,markers,random_markers_percentage=random_markers_perc,
                                       reads_x_cell=reads_x_cell,number_of_markers=total_genes,
                                      n_reads_x_gene=n_reads_x_gene,percentage_of_noise=percentage_of_noise,
                                      ms_percentage=misseg_percentage)
        adata_sc.layers['raw']=adata_sc.X.copy()
        sc.pp.filter_cells(adata_sc,min_counts=10)
        sc.pp.filter_cells(adata_sc,min_genes=3)
        tag=datasets[d]
        if not os.path.exists('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag)):
            os.mkdir('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag))
        adata_sc.obs.to_csv('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag)+'/obs.csv')
        adata_sc.var.to_csv('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag)+'/var.csv')
        adata_sc.to_df().to_csv('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag)+'/exp.csv')
        adata_sc.write('../../data/scRNAseq_for_simulations_Xenium_like/'+str(tag)+'/adata.h5ad')
    except:
        print('Not possible '+ str(d))

##################################### Dataset 0


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 357.97it/s]


(11756, 214)
##################################### Dataset 1


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 318.35it/s]


(14639, 192)
##################################### Dataset 2


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 297.53it/s]


(16185, 203)
##################################### Dataset 3


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 306.83it/s]


(15021, 191)
##################################### Dataset 4


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 274.71it/s]


(18219, 183)
##################################### Dataset 5


0it [00:00, ?it/s]


(8448, 189)
##################################### Dataset 6


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.75it/s]


(13563, 197)
##################################### Dataset 7
Not possible 7
##################################### Dataset 8


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 188.58it/s]


(18231, 148)
##################################### Dataset 9


0it [00:00, ?it/s]


(6282, 147)
##################################### Dataset 10


0it [00:00, ?it/s]


(7247, 162)
##################################### Dataset 11


0it [00:00, ?it/s]


(8150, 181)
##################################### Dataset 12


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 330.65it/s]


(14300, 149)
##################################### Dataset 13


0it [00:00, ?it/s]


(3117, 196)
##################################### Dataset 14


0it [00:00, ?it/s]


(9634, 166)
##################################### Dataset 15


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 386.71it/s]


(11294, 198)
##################################### Dataset 16


0it [00:00, ?it/s]


(8328, 213)
##################################### Dataset 17


0it [00:00, ?it/s]


(2941, 205)
##################################### Dataset 18


0it [00:00, ?it/s]


(7396, 192)
##################################### Dataset 19


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 403.34it/s]


(10543, 226)
##################################### Dataset 20


0it [00:00, ?it/s]


(2518, 244)
##################################### Dataset 21


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 323.91it/s]


(12182, 200)
##################################### Dataset 22


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 357.60it/s]


(12582, 210)
##################################### Dataset 23


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 285.91it/s]


(15939, 160)
##################################### Dataset 24


0it [00:00, ?it/s]


(7932, 167)
##################################### Dataset 25


0it [00:00, ?it/s]


(9313, 212)
##################################### Dataset 26


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 245.05it/s]


(18420, 219)
##################################### Dataset 27


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 322.96it/s]


(15000, 192)
##################################### Dataset 28


0it [00:00, ?it/s]


(8024, 160)
##################################### Dataset 29


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.29it/s]


(10836, 175)
##################################### Dataset 30


0it [00:00, ?it/s]


(8028, 222)
##################################### Dataset 31


0it [00:00, ?it/s]


(8839, 174)
##################################### Dataset 32


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 417.43it/s]


(11715, 143)
##################################### Dataset 33


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 393.24it/s]


(10746, 192)
##################################### Dataset 34


0it [00:00, ?it/s]


(9833, 211)
##################################### Dataset 35


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 385.22it/s]


(11757, 214)
##################################### Dataset 36


0it [00:00, ?it/s]


(4065, 230)
##################################### Dataset 37


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 313.05it/s]


(15354, 196)
##################################### Dataset 38


0it [00:00, ?it/s]


(1794, 214)
##################################### Dataset 39


0it [00:00, ?it/s]


(2662, 187)
##################################### Dataset 40


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 195.47it/s]


(30099, 233)
##################################### Dataset 41


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 430.23it/s]


(10071, 201)
##################################### Dataset 42


0it [00:00, ?it/s]


(7420, 220)
##################################### Dataset 43


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 286.32it/s]


(15939, 160)
##################################### Dataset 44


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 400.72it/s]


(10751, 142)
##################################### Dataset 45


0it [00:00, ?it/s]


(417, 226)
##################################### Dataset 46


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 386.86it/s]


(11291, 237)
##################################### Dataset 47


0it [00:00, ?it/s]


(3732, 216)
##################################### Dataset 48


0it [00:00, ?it/s]


(3175, 197)


In [21]:
for f in files[:]:
    print(f)
    adata=sc.read(output_dir+f)
    tag=f.split('.')[0]
    if not os.path.exists('../../data/formatted_for_R/unprocessed_adata_nuclei/'+str(tag)):
        os.mkdir('../../data/formatted_for_R/unprocessed_adata_nuclei/'+str(tag))
    adata.obs.to_csv('../../data/formatted_for_R/unprocessed_adata_nuclei/'+str(tag)+'/obs.csv')
    adata.var.to_csv('../../data/formatted_for_R/unprocessed_adata_nuclei/'+str(tag)+'/var.csv')
    adata.to_df().to_csv('../../data/formatted_for_R/unprocessed_adata_nuclei/'+str(tag)+'/exp.csv')

ms_brain_multisection1.h5ad
human_brain.h5ad
ms_brain_multisection2.h5ad
ms_brain_multisection3.h5ad
realmouse_1.h5ad
realmouse_2.h5ad
realmouse_3.h5ad
realmouse_4.h5ad
hbreast_ilc_addon_set2.h5ad
hbreast_ilc_addon_set4.h5ad
hbreast_ilc_entiresample_set3.h5ad
healthy_lung.h5ad
human_alzheimers.h5ad
human_gbm.h5ad
human_spinal_chord_active.h5ad
human_spinal_chord_inactive.h5ad
h_breast_1.h5ad
h_breast_2.h5ad
lung_cancer.h5ad
ms_brain_fullcoronal.h5ad
ms_brain_partialcoronal.h5ad
