## Step 2: Download Allen Brain Cell atlas data

To evaluate whether the epigenetic memory astrocyte signature shows signs of non-astrocyte contamination, we use the annotated single-cell RNA-seq data from the Allen Brain Cell atlas ([Yao et al 2023, PMID: 38092916](https://pubmed.ncbi.nlm.nih.gov/38092916/)) as a reference for typical gene expression across brain cell types.

Note: the downloads performed in this notebook will require approximately 300 GB of disk space and may take a long time (usually a few hours).

In [1]:
import os
from pathlib import Path
from abc_atlas_access.abc_atlas_cache.abc_project_cache import AbcProjectCache
os.chdir('..') # here we change the working directory so we're operating from the main 'EpiMemAstros' folder instead of the 'code' subdirectory. Change this as needed.

First, set up a download folder, project cache, and check the current release version.

In [2]:
download_base = Path('inputs/ABC_atlas/abc_atlas_downloads/')
abc_cache = AbcProjectCache.from_cache_dir(download_base)

abc_cache.current_manifest



'releases/20241130/manifest.json'

Next, download the whole mouse brain dataset metadata.

In [3]:
abc_cache.get_directory_metadata('WMB-10X')
abc_cache.get_directory_metadata('WMB-taxonomy')
abc_cache.get_directory_metadata('WMB-neighborhoods')

cell_metadata.csv: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.01G/1.01G [04:29<00:00, 3.73MMB/s]
cell_metadata_with_cluster_annotation.csv: 100%|████████████████████████████████████████████████████████████████████████████████| 1.39G/1.39G [06:35<00:00, 3.50MMB/s]
example_genes_all_cells_expression.csv: 100%|█████████████████████████████████████████████████████████████████████████████████████| 318M/318M [00:50<00:00, 6.25MMB/s]
gene.csv: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.30M/2.30M [00:00<00:00, 3.46MMB/s]
region_of_interest_metadata.csv: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1.40k/1.40k [00:00<00:00, 11.5kMB/s]
cluster.csv: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 131k/131k [00:00<00:00, 921kMB/s

[PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/views/10x_cell_metadata_with_group_membership.csv'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/UMAP20230830-HY-EA-Glut-GABA.csv'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/UMAP20230830-MB-HB-CB-GABA.csv'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/UMAP20230830-MB-HB-Glut-Sero-Dopa.csv'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/UMAP20230830-NN-IMN-GC.csv'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/metadata/WMB-neighborhoods/20231215/UMAP20230830-Pallium-Glut.

Lastly, download the h5 anndata objects from the whole mouse brain 10X data.

In [4]:
abc_cache.get_directory_data('WMB-10Xv3')
abc_cache.get_directory_data('WMB-10Xv2')
abc_cache.get_directory_data('WMB-10XMulti')


	Total directory size = 176.41 GB


WMB-10Xv3-CB-log2.h5ad: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 5.61G/5.61G [42:13<00:00, 2.21MMB/s]
WMB-10Xv3-CB-raw.h5ad: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 5.61G/5.61G [44:10<00:00, 2.12MMB/s]
WMB-10Xv3-CTXsp-log2.h5ad: 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3.28G/3.28G [16:57<00:00, 3.22MMB/s]
WMB-10Xv3-CTXsp-raw.h5ad: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 3.28G/3.28G [12:52<00:00, 4.25MMB/s]
WMB-10Xv3-HPF-log2.h5ad: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 7.41G/7.41G [36:57<00:00, 3.34MMB/s]
WMB-10Xv3-HPF-raw.h5ad: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████

[PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/expression_matrices/WMB-10XMulti/20230830/WMB-10XMulti-log2.h5ad'),
 PosixPath('/Users/liddelowlab/Desktop/Mike/EpiMemAstros/inputs/ABC_atlas/abc_atlas_downloads/expression_matrices/WMB-10XMulti/20230830/WMB-10XMulti-raw.h5ad')]