# SCENIC+ 分析流程：从 scRNA/scATAC 数据到增强子调控网络 (eGRN)

## 概述

本 Jupyter Notebook 是一个完整的操作指南，旨在演示如何运用 **SCENIC+**  工具包，从独立的单细胞 RNA 测序 (scRNA-seq) 和单细胞 ATAC 测序 (scATAC-seq) 数据出发，一步步构建并推断出**增强子驱动的基因调控网络 (enhancer-driven Gene Regulatory Network, eGRN)** 。

为了让这个复杂的多组学分析流程稳健、可复现且易于理解，我们在设计中融入了以下核心特性：

1. 模块化设计 (Modular Design)  
   我们将整个分析流程分解为多个逻辑清晰的模块（如：scRNA 数据预处理、scATAC 数据处理、GRN 推断、下游可视化等）。这种设计不仅让每一步的目标更明确，也方便你聚焦特定环节，轻松定位和解决问题。

2. 断点续跑机制 (Checkpointing)  
   对于耗时较长的计算步骤，我们都设置了断点续跑机制。代码在执行前会检查结果文件是否存在。如果存在，则直接加载结果并跳过计算，极大地节省了重复运行的时间。这一设计让你可以随时中断、调整参数或从错误中恢复，而无需从头来过。

3. Snakemake 集成指引 (Snakemake Integration)  
   本 Notebook 是 SCENIC+ Snakemake 核心流程的启动器和结果浏览器。你将在 Notebook 的引导下准备输入文件、生成配置文件，并获取在终端中启动 Snakemake 分析的指令。计算完成后，再回到 Notebook 中加载并探索最终的 eGRN 结果。

## 快速开始

### 第 1 步：准备环境

在开始之前，请确保你已成功构建并运行本项目提供的 Docker 镜像。该镜像包含了所有必需的软件依赖和环境配置。

### 第 2 步：选择你的分析路径并准备数据

本教程设计了三条进阶路径，你可以根据自己的计算资源和学习目标选择从哪里开始。

**路径一：探索和可视化**
>
> - **目标**: 跳过所有计算步骤，直接学习如何解读和可视化 eGRN 结果。
> - **适用人群**: 希望快速了解项目产出，或计算资源受限的用户。
> - **资源需求**: 任何配置的电脑，运行仅需 **2-5 分钟**。
> - **所需数据**:
>
>   - **[ucasbioinfo_scenic_output.tar.gz (2.4 GB)](https://tulab.genetics.ac.cn/~qtu/ucasbioinfo/ucasbioinfo_scenic_output.tar.gz)** : 双组学分析部分的输出结果。解压后置于 `output/` 目录。 
>   - **[ucasbioinfo_scenic_pipeline.tar.gz (2.4 GB)](https//tulab.genetics.ac.cn/~qtu/ucasbioinfo/ucasbioinfo_scenic_pipeline.tar.gz)** : SCENIC+ 分析流程的输出结果。解压后置于 `scplus_pipeline/` 目录。


**路径二：双组学数据分析**
>
> - **目标**: 完成 scRNA-seq 和 scATAC-seq 的质控、降维、聚类等初步分析。
> - **适用人群**: 适合初学者，或希望在个人电脑上完成大部分分析的用户。
> - **资源需求**: 普通个人电脑，运行需要 **30-60 分钟**。
> - **所需数据**:
>
>   - **[ucasbioinfo_scenic_input.tar.gz (1.8 GB)](https://tulab.genetics.ac.cn/~qtu/ucasbioinfo/ucasbioinfo_scenic_input.tar.gz)** : 下载并解压到项目根目录下的 `input/` 文件夹。

**路径三：完整的 eGRN 推断**
>
> - **目标**: 运行资源消耗巨大的 SCENIC+ Snakemake 流程，推断完整的 eGRN。
> - **适用人群**: 拥有服务器或高性能计算资源的用户。
> - **资源需求**: 高性能计算环境 (建议 **64 GB+ 内存**)，预计耗时 **5-10 小时**。
> - **所需数据**:
>
>   - 完成 **路径二** 的所有步骤和数据准备。
>   - **cisTarget 数据库**: 从 [Aertslab 官网](https://resources.aertslab.org/cistarget/databases/ "null") 下载人类 (hg38) 的数据库文件（[`...rankings.feather`](https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg38/screen/mc_v10_clust/region_based/hg38_screen_v10_clust.regions_vs_motifs.rankings.feather) (33G) 和 [`...scores.feather`](https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg38/screen/mc_v10_clust/region_based/hg38_screen_v10_clust.regions_vs_motifs.scores.feather) (13G)），同样放入 `input/` 目录。这是运行 Snakemake 流程必需的，文件体积巨大，计算密集。

### 第 3 步：运行 Notebook

1. **顺序执行单元格**：请从头开始，严格按照 Notebook 的单元格顺序执行代码，不要跳步。
2. **根据路径执行**：根据你在第 2 步选择的路径，你可以：

    - 完成 **路径一** 的步骤后停止。此时你将得到一个完整的双组学分析案例。
    - 在路径一的基础上，继续执行并启动 Snakemake 流程以完成 **路径二**。
    - 如果选择 **路径三**，则加载所有预计算结果，直接跳转到 Notebook 的后半部分进行探索。
3. **探索结果**：当计算（或加载）完成后，即可使用 Notebook 后续的单元格来分析和可视化最终结果。

## 参考资料

在学习过程中，如果对具体的分析工具或步骤有疑问，建议查阅以下官方文档：

- [Scanpy 官方教程](https://scanpy.readthedocs.io/en/stable/tutorials/index.html)
- [pycisTopic 官方教程](https://pycistopic.readthedocs.io/en/latest/tutorials.html)
- [SCENIC+ 官方教程](https://scenicplus.readthedocs.io/en/latest/tutorials.html)


---
## **0. 环境设置与包加载**
本单元格加载所有需要的Python库，并设置一些基础绘图参数。每次启动内核后，这是第一个需要运行的单元格。

In [None]:
# 忽略报警信息
import warnings
warnings.filterwarnings(
    'ignore',
    # message="pkg_resources is deprecated as an API",
    category=UserWarning
)
warnings.filterwarnings(
    'ignore',
    category=FutureWarning
)    

In [None]:
import os
import shutil
import glob
import pickle
import yaml

import numpy as np
import pandas as pd
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns

# Scanpy etc
import anndata
import scanpy as sc
import scrublet as scr

# pycisTopic and scenicplus
import scenicplus
import pycisTopic
import pyranges as pr

from pycisTopic.cistopic_class import create_cistopic_object_from_fragments
from pycisTopic.clust_vis import (find_clusters, run_umap, run_tsne, plot_metadata, plot_imputed_features, plot_topic, cell_topic_heatmap)
from pycisTopic.diff_features import impute_accessibility, find_diff_features
from pycisTopic.gene_activity import get_gene_activity
from pycisTopic.iterative_peak_calling import get_consensus_peaks
from pycisTopic.lda_models import run_cgs_models_mallet, evaluate_models
from pycisTopic.plotting.qc_plot import plot_sample_stats, plot_barcode_stats
from pycisTopic.pseudobulk_peak_calling import export_pseudobulk, peak_calling
from pycisTopic.qc import get_barcodes_passing_qc_for_sample
from pycisTopic.topic_binarization import binarize_topics
from pycisTopic.topic_qc import compute_topic_metrics, plot_topic_qc, topic_annotation
from pycisTopic.utils import region_names_to_coordinates

# 打印版本号以确保环境一致性
print(f"scanpy version: {sc.__version__}")
print(f"pycisTopic version: {pycisTopic.__version__}")
print(f"scenicplus version: {scenicplus.__version__}")

# 定义全局常量
# 使用 os.path.join 确保跨平台兼容性
WORK_DIR = os.getcwd()
OUT_DIR = os.path.join(WORK_DIR, "output")
IN_DIR = os.path.join(WORK_DIR, "input")
SCPLUS_DIR = os.path.join(WORK_DIR, "scplus_pipeline")
os.makedirs(OUT_DIR, exist_ok=True)
os.makedirs(IN_DIR, exist_ok=True)
os.makedirs(SCPLUS_DIR, exist_ok=True)

# 默认使用的CPU数量
N_CPU = 4

# 定义一个任务完成的提醒音
from IPython.display import Audio
def notify_chord(duration_per_note=0.15, freqs=[523.25, 659.25, 783.99]):
    """
    播放一个柔和的、上升的和弦音。
    freqs: 一个包含多个频率的列表，代表和弦的音符。
    """
    framerate = 44100
    
    # 为每个音符生成音频数据
    audio_segments = []
    for freq in freqs:
        t = np.linspace(0., duration_per_note, int(framerate * duration_per_note))
        # 使用一个衰减包络让声音更柔和
        envelope = np.exp(-np.linspace(0, 5, len(t)))
        audio_segment = 0.5 * np.sin(2. * np.pi * freq * t) * envelope
        audio_segments.append(audio_segment)
        # 音符间的短暂静音
        audio_segments.append(np.zeros(int(framerate * 0.05)))
        
    # 合并所有音频片段
    audio_data = np.concatenate(audio_segments)
    
    return Audio(audio_data, rate=framerate, autoplay=True)


---
## **第一部分：scRNA-seq 数据分析**

本部分处理scRNA-seq数据，从读取、质控到降维聚类，最终保存处理好的 AnnData 对象作为检查点。这部分速度很快。

### **1.1. 加载和处理 scRNA-seq 数据**

In [None]:
# 定义相关路径
adata_path = os.path.join(IN_DIR, 'filtered_feature_bc_matrix')
cell_metadata_path = os.path.join(IN_DIR, 'cell_data.tsv')
final_adata_path = os.path.join(OUT_DIR, 'scRNA.h5ad')

# 检查点：如果处理好的 AnnData 文件已存在，则直接加载
if os.path.exists(final_adata_path):
    print(f"INFO: Found processed scRNA-seq data at {final_adata_path}. Loading from file.")
    adata = sc.read_h5ad(final_adata_path)
else:
    print("INFO: Processed scRNA-seq data not found. Starting from raw data. This will take time.")
    
    # 1. 读取10x数据
    adata = sc.read_10x_mtx(adata_path, var_names="gene_symbols")
    adata.var_names_make_unique()

    # 2. 合并细胞注释信息
    cell_data = pd.read_table(cell_metadata_path, index_col=0)
    cell_data.index = [cb.rsplit("-", 1)[0] for cb in cell_data.index]
    
    # 寻找并保留共同的细胞
    common_cells = list(set(adata.obs_names) & set(cell_data.index))
    adata = adata[common_cells, :].copy()
    adata.obs = cell_data.loc[adata.obs_names, :]

    # 3. 标准化和筛选高变基因 (注意：QC计算移到下一个单元格)
    adata.raw = adata
    sc.pp.normalize_total(adata, target_sum=1e4)
    sc.pp.log1p(adata)
    sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
    # 注：我们暂时不进行 highly_variable gene 的筛选，以便在 QC 中看到所有基因的情况
    
    # 4. 保存处理好的对象
    print(f"INFO: Saving processed scRNA-seq data to {final_adata_path}")
    adata.write_h5ad(final_adata_path)

print(f"\nOK: `adata` object is loaded with {adata.n_obs} cells and {adata.n_vars} genes.")

**质量控制 (QC) 与可视化**

- 常见质控参数：
  - `min_genes=200`：该参数用于过滤细胞。它将过滤掉表达的基因总数少于200个的细胞。这些细胞通常被认为是低质量的、死的或空的液滴。
  - `min_cells=3`：该参数用于过滤基因。它将过滤掉在少于3个细胞中表达的基因。这些基因通常是稀有基因或噪音，对下游分析贡献不大。
  - 线粒体基因：此处使用 `MT-` 前缀来识别线粒体基因，这是人类数据的标准。对于小鼠数据，其前缀通常是小写的 `mt-`。
- 可以根据初步的QC图表决定具体参数，然后重新过滤并画图，确保过滤后的结果符合预期。

In [None]:
# 检查 QC 指标是否已计算
if 'n_genes_by_counts' not in adata.obs.columns:
    print("INFO: QC metrics not found. Calculating now...")
    adata.var["mt"] = adata.var_names.str.startswith("MT-")
    sc.pp.calculate_qc_metrics(adata, qc_vars=["mt"], percent_top=None, log1p=False, inplace=True)
    print("OK: QC metrics calculated.")
else:
    print("INFO: QC metrics already exist.")

# 打印关键 QC 指标的统计信息
print("\n--- QC Summary ---")
print(adata.obs[['n_genes_by_counts', 'total_counts', 'pct_counts_mt']].describe())

# --- 逐个绘制小提琴图 ---
print("\n--- QC Violin Plots ---")

qc_metrics = ['n_genes_by_counts', 'total_counts', 'pct_counts_mt']

fig, axes = plt.subplots(1, len(qc_metrics), figsize=(15, 5))
for i, metric in enumerate(qc_metrics):
    sc.pl.violin(
        adata,
        keys=[metric],
        jitter=0.4,
        ax=axes[i],
        show=False
    )
    axes[i].set_title(metric)
plt.tight_layout()
plt.show()

# (可选的) 细胞筛选步骤
# 基于上面的图和统计数据，你可以决定筛选阈值
# n_genes_min = 200
# n_genes_max = 2500
# pct_mt_max = 5
# print(f"\nINFO: Before filtering: {adata.n_obs} cells")
# sc.pp.filter_cells(adata, min_genes=n_genes_min)
# adata = adata[adata.obs.n_genes_by_counts < n_genes_max, :].copy()
# adata = adata[adata.obs.pct_counts_mt < pct_mt_max, :].copy()
# print(f"INFO: After filtering: {adata.n_obs} cells remain.")


**降维与 UMAP 可视化**

In [None]:
# 筛选高变基因 (在最终的细胞集上进行)
print("INFO: Finding highly variable genes...")
# 使用 'cell_ranger' 风格，它更稳健且不依赖于 log1p 的特定元数据
# sc.pp.highly_variable_genes(adata, flavor='cell_ranger', n_top_genes=4000)
# 或者尝试 'seurat_v3'，它通常也更推荐
sc.pp.highly_variable_genes(adata, flavor='seurat_v3', n_top_genes=4000)
adata_hvg = adata[:, adata.var.highly_variable].copy()
print(f"Found {adata_hvg.n_vars} highly variable genes for downstream analysis.")


# 标准化、降维和聚类
print("INFO: Scaling, running PCA, neighbors, and UMAP...")
sc.pp.scale(adata_hvg, max_value=10)
sc.tl.pca(adata_hvg)
sc.pp.neighbors(adata_hvg)
sc.tl.umap(adata_hvg)

# 可视化最终的 UMAP 结果
print("\n--- Final UMAP Visualization ---")
sc.pl.umap(adata_hvg, color="Seurat_cell_type", title="scRNA-seq UMAP")
plt.show()

---
## **第二部分：scATAC-seq 数据分析 (pycisTopic)**

这部分处理 scATAC-seq 数据，包括产生 peak calling, concensus peak, QC 等步骤。比较耗时（1-2小时），相应步骤都设计为可断点续跑，有示范数据的话可以直接加载进行可视化。

### **2.1. ATAC-seq 设置与文件路径定义**

In [None]:
# 定义输入文件路径
fragments_file = os.path.join(IN_DIR, "fragments.tsv.gz")
chromsizes_file = os.path.join(IN_DIR, "hg38.chrom.sizes")
blacklist_file = os.path.join(IN_DIR, "hg38-blacklist.v2.bed")

# 假设数据已下载
# !wget -O {fragments_file} https://cf.10xgenomics.com/samples/cell-arc/1.0.0/human_brain_3k/human_brain_3k_atac_fragments.tsv.gz
# !wget -O {fragments_file}.tbi https://cf.10xgenomics.com/samples/cell-arc/1.0.0/human_brain_3k/human_brain_3k_atac_fragments.tsv.gz.tbi

fragments_dict = {"10x_multiome_brain": fragments_file}

# 读取染色体长度
chromsizes = pd.read_table(chromsizes_file, header=None, names=["Chromosome", "End"])
chromsizes.insert(1, "Start", 0)

# 定义所有输出路径
consensus_peak_dir = os.path.join(OUT_DIR, "consensus_peak_calling")
bed_path = os.path.join(consensus_peak_dir, "pseudobulk_bed_files")
bigwig_path = os.path.join(consensus_peak_dir, "pseudobulk_bw_files")
macs_outdir = os.path.join(consensus_peak_dir, "MACS")
consensus_bed_path = os.path.join(consensus_peak_dir, "consensus_regions.bed")
qc_dir = os.path.join(OUT_DIR, "qc")
tss_bed_path = os.path.join(qc_dir, "tss.bed")

# 确保所有输出目录都存在
for path in [bed_path, bigwig_path, macs_outdir, qc_dir]:
    os.makedirs(path, exist_ok=True)

print("INFO: ATAC-seq paths defined.")

### **2.2. [耗时] 导出 Pseudobulk 文件**
此步骤为每个细胞类型生成聚合的BED和BigWig文件，用于后续的peak calling。

In [None]:
# 检查点：检查输出目录是否已经有文件
if os.path.exists(bed_path) and len(os.listdir(bed_path)) > 0:
    print("INFO: Pseudobulk files found. Skipping computation and reconstructing paths.")
    bed_files = glob.glob(os.path.join(bed_path, "*.bed.gz"))
    bed_paths = {os.path.basename(f).replace(".bed.gz", ""): f for f in bed_files}
    bw_files = glob.glob(os.path.join(bigwig_path, "*.bw"))
    bw_paths = {os.path.basename(f).replace(".bw", ""): f for f in bw_files}
    print(f"OK: Reconstructed {len(bed_paths)} BED and {len(bw_paths)} BigWig paths.")
else:
    print("INFO: Pseudobulk files not found. Running export_pseudobulk.")
    bw_paths, bed_paths = export_pseudobulk(
        input_data=adata.obs, # 使用adata.obs中的注释
        variable="VSN_cell_type",
        sample_id_col="VSN_sample_id",
        chromsizes=chromsizes,
        bed_path=bed_path,
        bigwig_path=bigwig_path,
        path_to_fragments=fragments_dict,
        n_cpu=N_CPU,
        normalize_bigwig=True,
        temp_dir="/tmp",
        split_pattern="-"
    )
    print("OK: export_pseudobulk finished.")
    notify_chord()

### **2.3. [耗时] 使用 MACS2 进行 Peak Calling**

In [None]:
macs_path = shutil.which('macs2')
if macs_path is None:
    raise FileNotFoundError("MACS2 not found in system PATH.")

# 检查点：检查是否已生成所有预期的narrowPeak文件
expected_peak_files_count = len(bed_paths)
existing_peak_files = glob.glob(os.path.join(macs_outdir, '*_peaks.narrowPeak'))

if len(existing_peak_files) >= expected_peak_files_count:
    print(f"INFO: Found {len(existing_peak_files)} MACS2 narrowPeak files. Skipping peak_calling.")
    narrow_peak_dict = {
        os.path.basename(f).replace('_peaks.narrowPeak', ''): f for f in existing_peak_files
    }
else:
    print(f"INFO: Expected {expected_peak_files_count} peak files, found {len(existing_peak_files)}. Running MACS2.")
    narrow_peak_dict = peak_calling(
        macs_path=macs_path,
        bed_paths=bed_paths,
        outdir=macs_outdir,
        genome_size='hs',
        n_cpu=N_CPU,
        input_format='BEDPE',
        keep_dup='all',
        q_value=0.05,
        _temp_dir='/tmp/scenic'
    )
print("OK: MACS2 peak calling complete.")

### **2.4. [耗时] 生成 Consensus Peak 集**

In [None]:
# 检查点：检查最终的共识peak bed文件是否存在
if os.path.exists(consensus_bed_path):
    print(f"INFO: Consensus peak file found at {consensus_bed_path}. Skipping.")
else:
    print("INFO: Consensus peak file not found. Generating...")
    consensus_peaks = get_consensus_peaks(
        narrow_peaks_dict=narrow_peak_dict,
        peak_half_width=250,
        chromsizes=chromsizes,
        path_to_blacklist=blacklist_file
    )
    consensus_peaks.to_bed(path=consensus_bed_path, keep=True, compression='infer', chain=False)
    print(f"OK: Consensus peak file saved to {consensus_bed_path}")

### **2.5. [耗时] 运行 pycisTopic 质量控制 (QC)**

获取TSS注释和运行核心QC流程。这里也给出了手动调整阈值的代码。

In [None]:
# 核心QC流程

# 定义QC流程的关键输入和输出文件路径
qc_output_prefix = os.path.join(qc_dir, "10x_multiome_brain")

# .fragments_stats_per_cb.parquet 文件是后续步骤的输入，是最佳选择。
qc_main_output_file = f"{qc_output_prefix}.fragments_stats_per_cb.parquet"

# --- 核心检查点：检查最终的QC结果是否存在 ---
if os.path.exists(qc_main_output_file):
    print(f"INFO: Main QC output file found at {qc_main_output_file}. Skipping the entire QC step.")
    # 我们仍然需要确保 tss.bed 文件存在，以备后续其他步骤可能使用
    if not os.path.exists(tss_bed_path):
        print(f"  - WARNING: Main QC output exists, but TSS annotation file is missing. Downloading it now...")
        cmd_tss = (
            f"pycistopic tss get_tss "
            f"--output {tss_bed_path} "
            f"--name hsapiens_gene_ensembl "
            f"--to-chrom-source ucsc "
            f"--ucsc hg38"
        )
        os.system(cmd_tss)
        print("  - OK: TSS annotation downloaded.")
else:
    # --- 如果QC结果不存在，则执行所有必要的准备和计算 ---
    print(f"INFO: Main QC output file not found. Preparing inputs and running pycistopic qc...")
    
    # 1. 准备TSS注释文件（现在是QC流程的一部分）
    if os.path.exists(tss_bed_path):
        print(f"  - TSS annotation file found at {tss_bed_path}. Skipping download.")
    else:
        print(f"  - TSS annotation not found. Downloading for hg38...")
        cmd_tss = (
            f"pycistopic tss get_tss "
            f"--output {tss_bed_path} "
            f"--name hsapiens_gene_ensembl "
            f"--to-chrom-source ucsc "
            f"--ucsc hg38"
        )
        os.system(cmd_tss)
        print("  - OK: TSS annotation downloaded.")

    # 2. 运行核心QC流程
    print("  - Running pycistopic qc...")
    cmd_qc = (
        f"pycistopic qc "
        f"--fragments {fragments_file} "
        f"--regions {consensus_bed_path} "
        f"--tss {tss_bed_path} "
        f"--output {qc_output_prefix}"
    )
    os.system(cmd_qc)
    
    print("\nOK: pycisTopic QC complete.")


In [None]:
# [debug]: 打印出 metrics_df 的所有列名
# Available columns in metrics DataFrame:
# ['barcode_rank', 'total_fragments_count', 'log10_total_fragments_count', 
# 'unique_fragments_count', 'log10_unique_fragments_count', 
# 'total_fragments_in_peaks_count', 'log10_total_fragments_in_peaks_count', 
# 'unique_fragments_in_peaks_count', 'log10_unique_fragments_in_peaks_count', 
# 'fraction_of_fragments_in_peaks', 'duplication_count', 'duplication_ratio', 
# 'nucleosome_signal', 'tss_enrichment', 'pdf_values_for_tss_enrichment', 
# 'pdf_values_for_fraction_of_fragments_in_peaks', 
# 'pdf_values_for_duplication_ratio']

# metrics_path = os.path.join(pycistopic_qc_output_dir, f'{sample_id}.fragments_stats_per_cb.parquet')
# if not os.path.exists(metrics_path):
#    raise FileNotFoundError(f"QC metrics file not found: {metrics_path}")
# metrics_df = pl.read_parquet(metrics_path).to_pandas().set_index("CB")
    
# print("\nAvailable columns in metrics DataFrame:")
# print(metrics_df.columns.tolist())
# print("\nFirst 5 rows of metrics DataFrame:")
# print(metrics_df.head())
# print("-" * 20)


**可视化QC结果与细胞筛选**

In [None]:
# --- 步骤 1: 定义路径和初始化变量 ---
pycistopic_qc_output_dir = os.path.join(OUT_DIR, "qc") 
os.makedirs(pycistopic_qc_output_dir, exist_ok=True)

# 初始化用于存储结果的字典
sample_id_to_barcodes_passing_filters = {}
sample_id_to_thresholds = {}

# --- 步骤 2: 定义筛选策略 ---
# 设置一个开关来决定使用哪种方法。
USE_MANUAL_THRESHOLDS = True

# 定义手动筛选的阈值
manual_thresholds = {
    'unique_fragments_threshold': 1000,
    'tss_enrichment_threshold': 5,
    'frip_threshold': 0
}

print(f"INFO: QC output is located in: {pycistopic_qc_output_dir}")
if USE_MANUAL_THRESHOLDS:
    print("INFO: Using MANUAL thresholds for cell filtering.")
else:
    print("INFO: Using AUTOMATIC thresholds for cell filtering.")


# --- 步骤 3: 循环处理每个样本 ---
for sample_id in fragments_dict:
    print(f"\n--- Processing sample: {sample_id} ---")
    
    # 3.1 绘制样本的整体 QC 统计图
    print("Step 3.1: Plotting overall sample QC stats...")
    fig_sample_stats = plot_sample_stats(
        sample_id=sample_id,
        pycistopic_qc_output_dir=pycistopic_qc_output_dir
    )
    plt.show(fig_sample_stats)
    plt.close(fig_sample_stats)

    # 3.2 根据开关【计算】筛选阈值
    if USE_MANUAL_THRESHOLDS:
        # 如果使用手动，我们直接用定义好的字典
        thresholds = manual_thresholds
        print("Step 3.2: Using pre-defined MANUAL thresholds...")
    else:
        # 如果使用自动，我们调用函数来获取自动计算的阈值
        print("Step 3.2: Calculating AUTOMATIC thresholds...")
        _, thresholds = get_barcodes_passing_qc_for_sample(
            sample_id=sample_id,
            pycistopic_qc_output_dir=pycistopic_qc_output_dir,
            use_automatic_thresholds=True
        )
    
    # 3.3 手动应用阈值进行筛选，以保留原始 barcode 格式
    # 原版本用 get_barcodes_passing_qc_for_sample 获得barcode，但是好像会自动处理去掉-1标签，导致后续问题
    # 现在尝试从原始文件中读取
    print("Step 3.3: Applying thresholds to filter cells while preserving original barcode format...")
    
    # 加载完整的 QC 指标数据
    metrics_path = os.path.join(pycistopic_qc_output_dir, f'{sample_id}.fragments_stats_per_cb.parquet')
    if not os.path.exists(metrics_path):
        raise FileNotFoundError(f"QC metrics file not found: {metrics_path}")
    metrics_df = pl.read_parquet(metrics_path).to_pandas().set_index("CB")
    
    # 从字典中获取阈值
    unique_fragments_thr = thresholds.get('unique_fragments_threshold', 0)
    tss_enrichment_thr = thresholds.get('tss_enrichment_threshold', 0)
    frip_thr = thresholds.get('frip_threshold', 0)
    
    # 进行筛选
    passing_mask = (
        (metrics_df['unique_fragments_count'] >= unique_fragments_thr) &
        (metrics_df['tss_enrichment'] >= tss_enrichment_thr) &
        (metrics_df['fraction_of_fragments_in_peaks'] >= frip_thr)
    )
    
    # 获取通过筛选的、格式完整的 barcodes
    barcodes = metrics_df[passing_mask].index.tolist()
    
    # 3.4 打印并存储结果
    n_cells_passing = len(barcodes)
    print(f"INFO: Found {n_cells_passing} cells passing QC for sample '{sample_id}'.")
    print(f"INFO: Applied thresholds: {thresholds}")
    
    # 打印一些样本 barcode，以供验证
    # print("Sample of filtered barcodes (format preserved):", barcodes[:5])
    
    sample_id_to_barcodes_passing_filters[sample_id] = barcodes
    sample_id_to_thresholds[sample_id] = thresholds

    # 3.5 绘制筛选后的 barcode 统计图
    print("Step 3.5: Plotting barcode-level stats with applied thresholds...")
    fig_barcode_stats = plot_barcode_stats(
        sample_id=sample_id,
        pycistopic_qc_output_dir=pycistopic_qc_output_dir,
        bc_passing_filters=barcodes, # 使用我们自己筛选的列表
        detailed_title=False,
        **thresholds
    )
    plt.show(fig_barcode_stats)
    plt.close(fig_barcode_stats)

print("\n--- QC and filtering complete for all samples. ---")


### **2.6. [耗时] 创建、筛选和保存 cisTopic 对象**

这是将所有ATAC数据整合到一个核心对象中的关键步骤。

这里需要额外关注一下barcode格式。在 10x Genomics 的单细胞测序技术中，一个细胞会被封装到一个凝胶珠（GEM, Gel Bead in Emulsion）中。-1 这个后缀代表的就是 GEM group 1。
- 单样本实验: 在一个标准的单样本实验中，所有细胞都来自同一个 GEM group，所以它们的 barcode 都会带上 -1 后缀。
- 多样本混合 (CellPlex/Hashing): 如果你将多个样本混合在一起进行测序，并使用了细胞哈希（cell hashing）等技术，那么不同样本的细胞可能会被分配到不同的 GEM group，你可能会看到 -1, -2, -3 等不同的后缀。
- 所以在单样本分析中，它不重要。而在多样本混合分析中，则非常重要。


In [None]:
# [debug] Barcode 格式与交集验证
# 
# 这是在进行数据合并前至关重要的一步。我们将验证 GEX (scRNA-seq) 和 ATAC (scATAC-seq) 两个数据集中，
# 高质量细胞的条形码 (barcodes) 是否存在交集，以及它们的格式是否一致。
# **预期格式**: 我们期望两边的 barcodes 都遵循标准的 10x Genomics 格式，即 `SEQUENCE-1`。


# --- 1. 检查 GEX (adata) 的 Barcodes ---
# 假设 adata.obs.index 已经是我们期望的 'SEQUENCE-1' 格式
gex_barcodes_set = set(adata.obs.index)

print(f"--- GEX (adata) Barcode Analysis ---")
print(f"Total GEX barcodes: {len(gex_barcodes_set)}")
print("Sample of GEX barcodes (expected format: 'SEQUENCE-1'):")
print(list(gex_barcodes_set)[:3])
print("-" * 40)


# --- 2. 检查通过 ATAC QC 的 Barcodes ---
sample_id = "10x_multiome_brain"
# 从上一步的 QC 结果中获取通过筛选的 barcodes
# 我们期望这里存储的是未经修改的、带有 '-1' 后缀的原始 barcodes
atac_barcodes_passing_qc = sample_id_to_barcodes_passing_filters.get(sample_id)

if atac_barcodes_passing_qc is None or len(atac_barcodes_passing_qc) == 0:
    print("WARNING: No barcodes passed ATAC QC from the previous step.")
    atac_barcodes_set = set() 
else:
    atac_barcodes_set = set(atac_barcodes_passing_qc)
    
    print(f"--- ATAC (pycisTopic QC) Barcode Analysis ---")
    print(f"Total ATAC barcodes passing QC: {len(atac_barcodes_set)}")
    print("Sample of ATAC barcodes (expected format: 'SEQUENCE-1'):")
    print(list(atac_barcodes_set)[:3])
    print("-" * 40)

# --- 3. 检查交集 ---
common_barcodes = gex_barcodes_set.intersection(atac_barcodes_set)

print("--- INTERSECTION ANALYSIS ---")
print(f"Number of common barcodes found: {len(common_barcodes)}")

if len(common_barcodes) > 0:
    print("✅ OK: Found common barcodes! The datasets can now be merged.")
    print("Sample of common barcodes:")
    print(list(common_barcodes)[:3])
else:
    print("❌ ERROR: No common barcodes found. There might be a fundamental mismatch between the datasets.")
    print("Please re-check the QC filtering step and the original data sources.")



In [None]:
# 定义这一步的输出文件路径
cistopic_obj_path = os.path.join(OUT_DIR, "cistopic_obj.pkl")

# 检查点：如果对象已存在，则直接加载
if os.path.exists(cistopic_obj_path):
    print(f"INFO: Found cistopic object at {cistopic_obj_path}. Loading from file.")
    with open(cistopic_obj_path, 'rb') as f:
        cistopic_obj = pickle.load(f)
else:
    print("INFO: cistopic object not found. Starting creation process from scratch.")
    
    # --- 步骤 1: 获取上一步筛选好的、格式正确的 ATAC barcodes ---
    sample_id = "10x_multiome_brain"
    barcodes_passing_atac_qc = sample_id_to_barcodes_passing_filters.get(sample_id)
    if barcodes_passing_atac_qc is None or len(barcodes_passing_atac_qc) == 0:
        raise ValueError(f"Filtered barcodes for sample '{sample_id}' not found. Please run the QC step (2.5) first.")
    
    # --- 步骤 2: 与 GEX 数据求交集，得到最终分析的细胞列表 ---
    gex_barcodes = set(adata.obs.index)
    common_barcodes = list(gex_barcodes.intersection(set(barcodes_passing_atac_qc)))

    print(f"INFO: Found {len(common_barcodes)} common high-quality cells to be used for object creation.")
    if len(common_barcodes) == 0:
        raise ValueError("FATAL: No common cells found between GEX and quality-filtered ATAC.")

    # --- 步骤 3: 创建只包含共同细胞的 cisTopic 对象 ---
    print(f"INFO: Creating CistopicObject using {len(common_barcodes)} final cells...")
    cistopic_obj = create_cistopic_object_from_fragments(
        path_to_fragments=fragments_dict[sample_id],
        path_to_regions=consensus_bed_path,
        path_to_blacklist=blacklist_file,
        valid_bc=common_barcodes,
        n_cpu=N_CPU
    )
    print("INFO: Initial CistopicObject created.")
    
    # --- 步骤 4: 强制校准 cistopic_obj 的 barcode 格式 ---
    print("INFO: Harmonizing cell barcodes by removing '___cisTopic' suffix...")
    cistopic_obj.cell_names = [bc.replace('___cisTopic', '') for bc in cistopic_obj.cell_names]
    cistopic_obj.cell_data.index = cistopic_obj.cell_names
    
    # --- 步骤 5: 对齐并添加细胞注释 ---
    print("INFO: Aligning with GEX data and adding metadata...")
    common_barcodes_after_creation = list(set(adata.obs.index) & set(cistopic_obj.cell_names))
    adata_subset = adata[common_barcodes_after_creation, :].copy()
    cistopic_obj = cistopic_obj.subset(common_barcodes_after_creation, copy=True)
    cistopic_obj.add_cell_data(adata_subset.obs)
    
    # --- 步骤 6: 保存这个对象 ---
    print(f"INFO: Saving cistopic object to {cistopic_obj_path}")
    with open(cistopic_obj_path, 'wb') as f:
        pickle.dump(cistopic_obj, f, protocol=pickle.HIGHEST_PROTOCOL)

    notify_chord()


# --- 验证对象 ---
print(cistopic_obj)

In [None]:
# Scrublet 总是崩溃退出，代码多年未更新，作者也不太回复问题；放弃这一步

# # 这是最终输出对象的路径
# final_cistopic_obj_path = os.path.join(OUT_DIR, "cistopic_obj.pkl")

# # 检查点：如果最终对象已存在，则直接加载
# if os.path.exists(final_cistopic_obj_path):
#     print(f"INFO: Found final cistopic object at {final_cistopic_obj_path}. Loading from file.")
#     with open(final_cistopic_obj_path, 'rb') as f:
#         cistopic_obj = pickle.load(f)
# else:
#     # 确保上一步的对象已加载到内存
#     if 'cistopic_obj' not in locals():
#          raise NameError("Variable 'cistopic_obj' from pre-scrublet step not found. Please run the previous cell first.")
    
#     print("INFO: Starting Scrublet for doublet detection (this may be slow and memory-intensive)...")
    
#     # --- 双胞检测 (Scrublet) ---
#     scrub = scr.Scrublet(cistopic_obj.fragment_matrix.T, expected_doublet_rate=0.1)
#     doublet_scores, predicted_doublets = scrub.scrub_doublets(verbose=False)
#     scrub.call_doublets(threshold=0.22)
    
#     scrublet_df = pd.DataFrame(
#         [scrub.doublet_scores_obs_, scrub.predicted_doublets_],
#         columns=cistopic_obj.cell_names,
#         index=['Doublet_scores_fragments', 'Predicted_doublets_fragments']
#     ).T
#     cistopic_obj.add_cell_data(scrublet_df)

#     # --- 移除双胞 ---
#     print("INFO: Removing predicted doublets...")
#     singlets = cistopic_obj.cell_data[cistopic_obj.cell_data.Predicted_doublets_fragments == False].index.tolist()
#     cistopic_obj = cistopic_obj.subset(singlets, copy=True)
    
#     # --- 保存最终对象 ---
#     print(f"INFO: Saving final, filtered cistopic object to {final_cistopic_obj_path}")
#     with open(final_cistopic_obj_path, 'wb') as f:
#         pickle.dump(cistopic_obj, f, protocol=pickle.HIGHEST_PROTOCOL)

# # --- 验证最终对象 ---
# n_cells = cistopic_obj.fragment_matrix.shape[0]
# n_regions = cistopic_obj.fragment_matrix.shape[1]
# print(f"\nOK: Final cisTopic object is ready with {n_cells} cells and {n_regions} regions.")


---

## **第三部分：Topic 建模与分析**

本部分使用LDA模型识别调控主题（topics），并进行后续的聚类和可视化。这部分很耗时（3-4小时），内存要求也高（20G+）。

### **3.1. [极耗时] 运行 LDA 主题模型 (Mallet)**

关于Topic数的选择：

`pycisTopic` 的核心是主题建模（Topic Modeling），其目的是将复杂的染色质开放状态矩阵分解为一组“主题”（Topics）。每个主题代表一个共有的调控模式（co-accessible regions），而每个细胞则可以由这些主题的权重组合来表示。主题数的选择是此步骤的关键，它直接影响下游分析的效果：
- 主题数过少：可能导致不同的生物学模式被混淆在同一主题中，无法有效区分细胞亚群。
- 主题数过多：可能引入噪音，或将一个连贯的生物学过程打散到多个不相关的主题中。

我们在此处选择一个较宽的范围（如 2 到 40）进行初步探索。后续步骤中，`pycisTopic` 提供了评估不同主题数模型的指标（如 `log-likelihood` 和 `topic coherence`），帮助我们选择一个最优或次优的主题数，用于最终的细胞和区域分析。

In [None]:
mallet_path = os.path.join(IN_DIR, "Mallet-202108/bin/mallet")
models_path = os.path.join(OUT_DIR, "models.pkl")
mallet_output_dir = os.path.join(OUT_DIR, "mallet_tutorial")
os.makedirs(mallet_output_dir, exist_ok=True)

# 检查点：检查模型列表是否已保存
if os.path.exists(models_path):
    print(f"INFO: Found saved models at {models_path}. Loading from file.")
    with open(models_path, 'rb') as f:
        models = pickle.load(f)
else:
    print("INFO: Saved models not found. Running LDA with Mallet (this is very time-consuming).")
    # 设置Mallet所需内存
    os.environ['MALLET_MEMORY'] = '40G' 
    models = run_cgs_models_mallet(
        cistopic_obj,
        n_topics=[2, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50],
        n_cpu=N_CPU,
        n_iter=500,
        random_state=555,
        alpha=50,
        alpha_by_topic=True,
        eta=0.1,
        tmp_path="/tmp",
        save_path=mallet_output_dir,
        mallet_path=mallet_path,
    )
    print(f"INFO: Saving models to {models_path}")
    with open(models_path, 'wb') as f:
        pickle.dump(models, f, protocol=pickle.HIGHEST_PROTOCOL)
    notify_chord()

print("OK: LDA modeling complete.")

### **3.2. 模型评估与下游分析**

使用 evaluate_models 函数计算并可视化模型的评估指标，这有助于我们选择一个最佳的主题数（n_topics）。plot_metrics=True 会自动生成四张图：
1. Arun (2010) - 寻找“肘部”或最小值
2. Cao et al. (2009) - 寻找最小值
3. Log-likelihood - 寻找“肘部”或平台期
4. Perplexity - 寻找“肘部”或平台期

In [None]:
# 评估并选择最佳模型
# `evaluate_models` 会生成一个图，这里我们直接选择一个模型
print("INFO: Evaluating LDA models and selecting the best one...")
model = evaluate_models(models, select_model=40, return_model=True, plot_metrics=True)
cistopic_obj.add_LDA_model(model)
print("\nModel Evaluation Metrics:")
print(model)

In [None]:
# 聚类与降维
print("INFO: Finding clusters and running UMAP...")
run_umap(cistopic_obj, target='cell', scale=True)
find_clusters(cistopic_obj, target='cell', k=15, res=[0.6, 1.2], prefix='pycisTopic_')


plot_metadata(
    cistopic_obj,
    reduction_name='UMAP',
    variables=['Seurat_cell_type', 'pycisTopic_leiden_15_0.6', 'pycisTopic_leiden_15_1.2'],
    target='cell', 
    num_columns=3,
    text_size=10,
    dot_size=5
)

### **3.3. [耗时] 可及性插补与差异分析 (DARs)**

In [None]:
imputed_acc_obj_path = os.path.join(OUT_DIR, 'imputed_accessibility.pkl')
markers_dict_path = os.path.join(OUT_DIR, 'DARs_markers.pkl')

# --- 步骤 1: 可及性插补 ---
# 检查点：检查插补后的可及性矩阵
if os.path.exists(imputed_acc_obj_path):
    print(f"INFO: Found imputed accessibility object at {imputed_acc_obj_path}. Loading.")
    with open(imputed_acc_obj_path, 'rb') as f:
        imputed_acc_obj = pickle.load(f)
else:
    print("INFO: Imputed accessibility object not found. Computing...")
    imputed_acc_obj = impute_accessibility(cistopic_obj, scale_factor=10**6)
    with open(imputed_acc_obj_path, 'wb') as f:
        pickle.dump(imputed_acc_obj, f, protocol=pickle.HIGHEST_PROTOCOL)
    print("OK: Imputation complete.")
    notify_chord()

# --- 步骤 2: 差异可及区域 (DARs) 分析 ---
# 检查点：检查差异可及区域的结果
if os.path.exists(markers_dict_path):
    print(f"\nINFO: Found DARs markers dict at {markers_dict_path}. Loading.")
    with open(markers_dict_path, 'rb') as f:
        markers_dict = pickle.load(f)
    # 加载后也检查一下是否为空
    if not markers_dict or all(df.empty for df in markers_dict.values()):
         print("WARNING: Loaded DARs markers dictionary is empty. This may indicate no significant results were found previously.")
else:
    print("\nINFO: DARs markers dict not found. Computing (this can be slow)...")
    markers_dict = find_diff_features(
        cistopic_obj,
        imputed_acc_obj,
        variable='Seurat_cell_type',
        adjpval_thr=0.05,
        log2fc_thr=np.log2(1.5),
        n_cpu=N_CPU,
        split_pattern='-'
    )
    
    # 在保存前检查结果是否为空
    if not markers_dict or all(df.empty for df in markers_dict.values()):
        # 如果 markers_dict 是一个空字典，或者字典里所有的 DataFrame 都是空的
        print("\nWARNING: find_diff_features did not return any significant DARs with the current thresholds.")
        print("An empty markers dictionary will be saved, but downstream analysis may fail.")
    else:
        print("\nINFO: Significant DARs found. Saving results...")

    # 保存结果（即使是空的），以避免下次重复计算
    with open(markers_dict_path, 'wb') as f:
        pickle.dump(markers_dict, f, protocol=pickle.HIGHEST_PROTOCOL)
    
    notify_chord()

print("\nOK: Imputation and DAR analysis complete.")

# --- 步骤 3: 打印结果摘要 ---
print("\n--- Summary of Differential Accessibility Analysis ---")
if 'markers_dict' in locals() and markers_dict:
    for cell_type, dar_df in markers_dict.items():
        print(f"  - Cell type '{cell_type}': Found {len(dar_df)} significant DARs.")
else:
    print("  - No significant DARs were found across all cell types.")

### **3.4. 差异可及性区域 (DARs) 可视化**

在计算出每个细胞类型的差异可及区域（DARs）后，我们可以通过多种方式对其进行可视化，以直观地理解结果。

**1. 火山图 (Volcano Plot)**

火山图可以直观地展示在特定细胞类型中，哪些区域是显著上调（或下调）的。x轴是 log2 Fold Change，y轴是 -log10(p-value_adj)。

你可以从 markers_dict.keys() 中查看所有可用的细胞类型。Available types: 
`'AST', 'BG', 'COP', 'ENDO', 'GC', 'GP', 'INH_SNCG', 'INH_SST', 'INH_VIP', 'MG', 'MGL', 'MOL', 'NFOL', 'OPC', 'PURK']`


In [None]:
# --- 1. 定义要可视化的细胞类型列表 ---
# 你可以在这里添加或删除任何你感兴趣的细胞类型
cell_types_to_plot = ['OPC', 'MOL'] 

# --- 2. 检查 markers_dict 是否存在且非空 ---
if 'markers_dict' in locals() and markers_dict:
    
    # --- 3. 循环遍历列表，为每个细胞类型绘图 ---
    for cell_type in cell_types_to_plot:
        
        # 检查当前细胞类型的结果是否存在
        if cell_type not in markers_dict or markers_dict[cell_type].empty:
            print(f"\nWARNING: No differential regions found for cell type '{cell_type}'. Skipping plot.")
            continue
            
        print(f"\n--- Generating Volcano Plot for: {cell_type} ---")
        
        # 获取该细胞类型的差异分析结果
        dar_df = markers_dict[cell_type].copy() # 使用 .copy() 避免后续操作修改原始字典
        
        # 确保我们使用正确的列名
        # 假设 p-value 列是 'Adjusted_pval', log2FC 列是 'Log2FC'
        pval_col = 'Adjusted_pval'
        logfc_col = 'Log2FC'
        
        if pval_col not in dar_df.columns or logfc_col not in dar_df.columns:
            print(f"ERROR: DataFrame for '{cell_type}' is missing required columns. Available: {list(dar_df.columns)}")
            continue

        # 创建一个新的列来标记显著的 DARs
        logfc_threshold = 0.5
        pval_threshold = 0.05
        dar_df['significant'] = (dar_df[pval_col] < pval_threshold) & (abs(dar_df[logfc_col]) > logfc_threshold)
        
        # 为了绘图，将 p值为0 的情况替换为一个非常小的数
        dar_df['-log10_pval'] = -np.log10(dar_df[pval_col].replace(0, np.finfo(float).tiny))

        # --- 开始绘图 ---
        plt.figure(figsize=(10, 7))
        
        plot = sns.scatterplot(
            data=dar_df,
            x=logfc_col,
            y='-log10_pval',
            hue='significant',
            palette={True: 'red', False: 'grey'},
            edgecolor=None,
            s=15,
            alpha=0.6,
            legend=False
        )
        
        # 添加阈值线
        plt.axhline(-np.log10(pval_threshold), color='blue', linestyle='--', linewidth=1)
        plt.axvline(logfc_threshold, color='blue', linestyle='--', linewidth=1)
        plt.axvline(-logfc_threshold, color='blue', linestyle='--', linewidth=1)
        
        # 添加标题和标签
        plt.title(f'Volcano Plot for DARs in {cell_type}', fontsize=16)
        plt.xlabel('Log2 Fold Change', fontsize=12)
        plt.ylabel('-log10 (Adjusted P-value)', fontsize=12)
        
        # 计算并标注显著上调和下调的区域数量
        n_up = dar_df[(dar_df['significant']) & (dar_df[logfc_col] > 0)].shape[0]
        n_down = dar_df[(dar_df['significant']) & (dar_df[logfc_col] < 0)].shape[0]
        
        plt.text(0.95, 0.95, f'Up: {n_up}', ha='right', va='top', transform=plot.transAxes, color='red', fontsize=12)
        plt.text(0.05, 0.95, f'Down: {n_down}', ha='left', va='top', transform=plot.transAxes, color='red', fontsize=12)
        
        plt.grid(False)
        sns.despine()
        
        # 显示图像
        plt.show()

else:
    print("WARNING: 'markers_dict' not found or is empty. Cannot generate volcano plots.")
    

**2. UMAP 特征图 (Feature Plot)**

我们可以选择每个细胞类型中最重要的一个或几个 DARs (通常是 Log2FC 最高且 adj_pval 最低的)，然后在 UMAP 空间上可视化这些区域的可及性，看看它们是否确实在该细胞类型中特异性地开放。

In [None]:
print("\nINFO: Plotting top DARs on UMAP...")

# 从每个我们感兴趣的细胞类型中，选择 Log2FC 最高的那个 DAR
features_to_plot = []
cell_types_of_interest = ['MOL', 'OPC'] # 选择几个代表性的细胞类型

for cell_type in cell_types_of_interest:
    if cell_type in markers_dict and not markers_dict[cell_type].empty:
        # 按 Log2FC 降序排序，并取第一个（即最上调的）DAR 的名字
        top_dar = markers_dict[cell_type].sort_values('Log2FC', ascending=False).index[0]
        features_to_plot.append(top_dar)

if features_to_plot:
    # 使用 pycisTopic 自带的绘图函数来可视化这些区域的“插补后可及性”
    plot_imputed_features(
        cistopic_obj,
        reduction_name='UMAP',
        imputed_data=imputed_acc_obj, # 使用之前计算的插补矩阵
        features=features_to_plot,
        scale=True, # 对数值进行缩放以便更好地可视化
        num_columns=4
    )
else:
    print("WARNING: Could not find top DARs for the specified cell types. Skipping UMAP plot.")


---

## **第四部分：SCENIC+ Snakemake 流程**

SCENIC+的核心分析是通过一个强大的工作流管理工具Snakemake来执行的。在Notebook中的主要任务是**准备输入文件**和**生成配置文件**，然后提供在终端中运行Snakemake的命令。

这部分很耗时（4-6小时），内存要求也极高（60G+）。个人电脑运行不现实，只能加载示范数据用于可视化，实际使用需要高配置服务器。

### **4.1. 准备SCENIC+输入**

In [None]:
# 1. 初始化SCENIC+工作目录
# 注意：因为环境的复杂性，这个命令最好手动在容器中运行，而不是直接在notebook中运行。

print("--- ACTION REQUIRED: Please run the following commands in your terminal ---")
print("\n# Set environment variable to suppress warnings and run initialization:")
print(f'export PYTHONWARNINGS="ignore:pkg_resources is deprecated as an API" && scenicplus init_snakemake --out_dir {SCPLUS_DIR}')
print("\n--------------------------------------------------------------------------")


In [None]:
# 准备 Region Sets**

# --- 1. 创建目录结构 ---
region_sets_base_dir = os.path.join(OUT_DIR, "region_sets")
topics_otsu_dir = os.path.join(region_sets_base_dir, "Topics_otsu")
dars_dir = os.path.join(region_sets_base_dir, "DARs_cell_type")

os.makedirs(topics_otsu_dir, exist_ok=True)
os.makedirs(dars_dir, exist_ok=True)

# --- 2. 从 Topics 生成 Region sets ---
print("INFO: Generating region sets from binarized topics (Otsu method)...")
region_bin_topics_otsu = binarize_topics(cistopic_obj, method='otsu')

for topic in region_bin_topics_otsu:
    # 检查是否有区域
    if region_bin_topics_otsu[topic].index.empty:
        print(f"  - WARNING: Topic {topic} has no regions after binarization. Skipping.")
        continue

    # 转换、排序、保存
    region_names_to_coordinates(
        region_bin_topics_otsu[topic].index
    ).sort_values(
        ["Chromosome", "Start", "End"]
    ).to_csv(
        os.path.join(topics_otsu_dir, f"{topic}.bed"),
        sep="\t",
        header=False, 
        index=False
    )

# --- 3. 从 DARs 生成 Region sets ---
print("\nINFO: Generating region sets from DARs...")
for cell_type in markers_dict:
    # 检查是否有区域
    if markers_dict[cell_type].index.empty:
        print(f"  - WARNING: No DARs found for '{cell_type}', skipping .bed file generation.")
        continue
    
    # 转换、排序、保存
    region_names_to_coordinates(
        markers_dict[cell_type].index
    ).sort_values(
        ["Chromosome", "Start", "End"]
    ).to_csv(
        os.path.join(dars_dir, f"{cell_type}.bed"),
        sep="\t",
        header=False, 
        index=False
    )

print(f"\nOK: Region sets for SCENIC+ saved in subdirectories under {region_sets_base_dir}")


### **4.2. 配置 `config.yaml` 文件**

SCENIC+ 的 Snakemake 工作流由 `config/config.yaml` 文件驱动。下面的代码将自动读取由 `scenicplus init_snakemake` 生成的模板，并填入正确的输入文件路径。

**重要前提：准备输入文件**

在运行下面的代码之前，请确保所有必需的输入文件都已准备就绪：

*   **在 `input/` 目录下 (预先提供或下载的文件):**
    *   从 [cistarget](https://resources.aertslab.org/cistarget/databases/) 数据库文件（两个feather文件），见 Notebook 第一节说明。

*   **在 `output/` 目录下 (由本 Notebook 前序步骤生成的文件):**
    *   `cistopic_obj.pkl`
    *   `scRNA.h5ad`
    *   `region_sets` 目录

所有由 Snakemake 生成的**新文件**，将会被输出到 `scplus_pipeline/` 目录中。


In [None]:
# [debug] 不读取整个文件的前提下检查 feather 文件。平常不用运行。
# ipc.open_file 可获得块数和列数；获取行数需要读一列后再获取

CHECK_FEATHER = False

if CHECK_FEATHER:

    import pyarrow
    import pyarrow.feather
    
    # infile = "mm10_screen_v10_clust.regions_vs_motifs.scores.feather"
    infile = "hg38_screen_v10_clust.regions_vs_motifs.scores.feather"
    
    file_path = os.path.join(IN_DIR, infile)
    reader = pyarrow.ipc.open_file(file_path)
    
    num_chunks = reader.num_record_batches
    print(f"块数: {num_chunks}")
    
    colnames = reader.schema.names
    num_cols = len(colnames)
    print(f"列数: {num_cols:,}")
    
    print(f"列名：{colnames[:3]} ...")
    
    # 查找非 chrXXX 的列 => 有一列 motifs
    # non_chr_columns = []
    # for col in colnames:
    #     if not col.startswith('chr'):
    #         non_chr_columns.append(col)
    # if non_chr_columns:
    #     print(f"Found {len(non_chr_columns)} column(s) that DO NOT start with 'chr'.")
    #     print("Sample of non-chr columns:", non_chr_columns[:min(10, len(non_chr_columns))])
    # else:
    #     print("✅ OK: All column names start with 'chr'.")
    
    table_slice = pyarrow.feather.read_table(file_path, columns=[colnames[0]])
    # table_slice = pyarrow.feather.read_table(file_path, columns=['motifs'])
    num_rows = table_slice.num_rows
    print(f"行数: {num_rows:,}")
    # print(table_slice[:3])


**检查所有文件，并生成 Snakemake 的配置文件**
1.  验证所有必需的输入文件是否都已正确生成。
2.  检查关键文件（如 `cistopic_obj.pkl`）的内容是否完整。
3.  如果所有检查通过，则自动生成一个路径正确、参数完整的 `config.yaml` 文件。

In [None]:
# --- 1. 定义所有路径 ---
config_yaml_path = os.path.join(SCPLUS_DIR, 'Snakemake', 'config', 'config.yaml')
cistopic_obj_fname = os.path.abspath(os.path.join(OUT_DIR, "cistopic_obj.pkl"))
gex_anndata_fname = os.path.abspath(os.path.join(OUT_DIR, "scRNA.h5ad"))
region_sets_base_dir = os.path.abspath(os.path.join(OUT_DIR, "region_sets"))
ctx_db_fname = os.path.abspath(os.path.join(IN_DIR, "hg38_screen_v10_clust.regions_vs_motifs.rankings.feather"))
dem_db_fname = os.path.abspath(os.path.join(IN_DIR, "hg38_screen_v10_clust.regions_vs_motifs.scores.feather"))
motif_annotations_fname = os.path.abspath(os.path.join(IN_DIR, "motifs-v10nr_clust-nr.hgnc-m0.001-o0.0.tbl"))

# --- 2. 执行输入文件的完整性检查 ---
print("--- Running Pre-Snakemake Sanity Checks ---")
all_checks_passed = True

# 2.1 检查基础文件和目录是否存在
print("[Check 2.1] Verifying file and directory existence...", end=' ')
errors = []
input_files_to_check = {
    "cisTopic Object": cistopic_obj_fname, "GEX AnnData": gex_anndata_fname,
    "Region Sets Base Folder": region_sets_base_dir, "cisTarget Rankings DB": ctx_db_fname,
    "cisTarget Scores DB": dem_db_fname, "Motif Annotations": motif_annotations_fname,
}
for name, path in input_files_to_check.items():
    if not os.path.exists(path):
        errors.append(f"'{name}' not found")
if errors:
    print(f"❌ ERROR: {', '.join(errors)}")
    all_checks_passed = False
else:
    print("✅")

# 2.2 检查 region_sets 子目录的内容
print("[Check 2.2] Validating 'region_sets' content and structure...", end=' ')
errors = []
if os.path.exists(region_sets_base_dir):
    topics_dir = os.path.join(region_sets_base_dir, "Topics_otsu")
    dars_dir = os.path.join(region_sets_base_dir, "DARs_cell_type")
    
    if not os.path.isdir(topics_dir): errors.append("'Topics_otsu' subdir missing")
    else:
        files = glob.glob(os.path.join(topics_dir, "*.bed"));
        if not files: errors.append("No .bed files in 'Topics_otsu'")
        elif os.path.getsize(files[0]) == 0: errors.append("First .bed in 'Topics_otsu' is empty")

    if not os.path.isdir(dars_dir): errors.append("'DARs_cell_type' subdir missing")
    else:
        files = glob.glob(os.path.join(dars_dir, "*.bed"));
        if not files and 'markers_dict' in locals() and any(not df.empty for df in markers_dict.values()):
            errors.append("No .bed files in 'DARs_cell_type' (but were expected)")
        elif files and os.path.getsize(files[0]) == 0: errors.append("First .bed in 'DARs_cell_type' is empty")
else:
    errors.append("'region_sets' base directory not found")
if errors:
    print(f"❌ ERROR: {', '.join(errors)}")
    all_checks_passed = False
else:
    print("✅")

# 2.3 检查 cisTopic 对象的内容（模型和染色体命名）
print("[Check 2.3] Validating 'cistopic_obj.pkl' content...", end=' ')
errors = []
if os.path.exists(cistopic_obj_fname):
    with open(cistopic_obj_fname, 'rb') as f: temp_cistopic_obj = pickle.load(f)
    if temp_cistopic_obj.selected_model is None:
        errors.append("No selected LDA model found")
    sample_regions = temp_cistopic_obj.region_names[:10]
    if sample_regions and not all(r.startswith('chr') for r in sample_regions):
        errors.append(f"Region names do not use 'chr' prefix (e.g., '{sample_regions[0]}')")
    del temp_cistopic_obj
else:
    errors.append("'cistopic_obj.pkl' not found")
if errors:
    print(f"❌ ERROR: {', '.join(errors)}")
    all_checks_passed = False
else:
    print("✅")

# 2.4 检查 Barcode 一致性
print("[Check 2.4] Verifying barcode consistency...", end=' ')
if 'adata' in locals() and 'cistopic_obj' in locals():
    gex_barcodes = set(adata.obs.index); atac_barcodes = set(cistopic_obj.cell_data.index)
    common_cells = len(gex_barcodes.intersection(atac_barcodes))
    if common_cells == 0:
        print(f"❌ ERROR: No common cells between GEX ({len(gex_barcodes)}) and ATAC ({len(atac_barcodes)}).")
        all_checks_passed = False
    else:
        print(f"Found {common_cells} common cells. ✅")
else:
    print("WARNING: 'adata' or 'cistopic_obj' not in memory, skipping.")

# --- 3. 如果检查失败，则停止；否则，生成配置文件 ---
if not all_checks_passed:
    raise ValueError("\n\nOne or more critical pre-flight checks failed. Please review the errors above and re-run the necessary notebook sections.")
else:
    print("\n✅ OK: All pre-flight checks passed! Proceeding to generate config.yaml.")
    with open(config_yaml_path, 'r') as f: config_dict = yaml.safe_load(f)
    input_data_to_update = {
        'cisTopic_obj_fname': cistopic_obj_fname, 'GEX_anndata_fname': gex_anndata_fname,
        'region_set_folder': region_sets_base_dir, 'ctx_db_fname': ctx_db_fname,
        'dem_db_fname': dem_db_fname, 'path_to_motif_annotations': motif_annotations_fname,
    }
    params_general_to_update = {'n_cpu': 16, 'temp_dir': "/tmp/scenicplus"}
    params_data_prep_to_update = {'species': "hsapiens", 'key_to_group_by': "Seurat_cell_type"}
    params_motif_enrichment_to_update = {'species': "homo_sapiens"}
    config_dict['input_data'].update(input_data_to_update)
    config_dict['params_general'].update(params_general_to_update)
    config_dict['params_data_preparation'].update(params_data_prep_to_update)
    config_dict['params_motif_enrichment'].update(params_motif_enrichment_to_update)
    with open(config_yaml_path, 'w') as f: yaml.dump(config_dict, f, default_flow_style=False, sort_keys=False)
    print("OK: `config.yaml` has been successfully updated and validated.")


### **4.3. [极耗时] 运行 SCENIC+**

配置好`config.yaml`后，在终端（Terminal）中进入`scplus_pipeline`目录并运行Snakemake。

不建议直接在Notebook中运行，因为日志输出和错误处理在终端中更清晰。

注意：这一步可能非常耗时（3-5小时）、耗内存（60G+），测试时最好用单线程并注意监视内存使用情况。

```bash
# 在你的终端中执行以下命令:

# 1. 激活 scenicplus 环境
conda activate scenicplus

# 2. 切换到工作目录
cd ~/project/scplus_pipeline/Snakemake

# 3. 运行Snakemake (推荐使用 --use-conda 来管理依赖)
# 例如，使用5个核心:
snakemake -c 5 --use-conda

# 如果有运行错误的话，应该放弃任务并行，这样容易排查问题
snakemake -c 1 --use-conda

# 另外，还可以提前抑制一些报警信息
export PYTHONWARNINGS="ignore:pkg_resources is deprecated as an API"
```


## **第五部分：结果探索**

在成功运行 SCENIC+ Snakemake 流程后，所有的核心结果都储存在 `scplus_pipeline/Snakemake/scplusmdata.h5mu` 文件中。本节将展示如何加载此文件，并进行下游的探索性分析和可视化。

### **5.1. 环境设置与加载结果**

首先，我们需要加载必要的库和 `scplusmdata.h5mu` 文件。这个 MuData 对象是后续所有分析的起点。


In [None]:
import mudata
from scenicplus.RSS import regulon_specificity_scores, plot_rss
from scenicplus.plotting.dotplot import heatmap_dotplot

mdata_path = os.path.join(SCPLUS_DIR, 'Snakemake', 'scplusmdata.h5mu')

# 检查文件是否存在
if not os.path.exists(mdata_path):
    raise FileNotFoundError(f"MuData result file not found at: {mdata_path}")

# 加载 MuData 对象
print("SCENIC+ MuData object loading:")
scplus_mdata = mudata.read(mdata_path)
print(scplus_mdata)


### **5.2. 探索 eRegulon 元数据**

eRegulon（增强的调控子）是 SCENIC+ 的核心概念，它包含了从转录因子（TF）到其调控的区域（Region）再到目标基因（Gene）的完整链接。这些信息储存在 `.uns` 属性中。


In [None]:
# 查看直接 eRegulon 的元数据
# "direct" 指的是 TF 的 motif 直接出现在目标区域的增强子上
e_regulons_meta = scplus_mdata.uns["direct_e_regulon_metadata"]

print("Direct eRegulons metadata (top 5 rows):")
display(e_regulons_meta.head())

# 我们可以基于此数据框进行查询
# 例如，查找转录因子 BCL11A 调控的最重要的几个目标基因（按 triplet_rank 排序）
print("\nTop 5 targets for TF 'BCL11A' based on triplet_rank:")
display(
    e_regulons_meta[e_regulons_meta['TF'] == 'BCL11A']
    .sort_values('triplet_rank')
    .head()
)


### **5.3. 基于 eRegulon 活性的 UMAP 可视化**

我们可以使用 eRegulon 的 AUC（Area Under the Curve）富集分数来计算细胞的降维表征。这可以揭示细胞是否根据其活跃的调控网络进行聚类。

In [None]:
# 合并 direct 和 extended eRegulons 的基因富集分数
eRegulon_auc = anndata.concat(
    [scplus_mdata["direct_gene_based_AUC"], scplus_mdata["extended_gene_based_AUC"]],
    axis=1,
    join='outer', # 使用 outer join 避免因 regulon 名称不完全匹配而出错
    fill_value=0  # 用0填充缺失值
)

# 将主对象的细胞注释信息传递给新的 AnnData 对象
eRegulon_auc.obs = scplus_mdata.obs.loc[eRegulon_auc.obs_names]

# 计算邻居图和 UMAP
sc.pp.neighbors(eRegulon_auc, use_rep="X")
sc.tl.umap(eRegulon_auc)

# 绘制 UMAP，并根据细胞类型进行着色
print("UMAP based on eRegulon activity scores:")
# print(f"\n可用于后续绘图的细胞注释信息 (e.g., in sc.pl.umap color): \n{list(eRegulon_auc.obs.columns)}")
sc.pl.umap(
    eRegulon_auc, 
    color="scRNA_counts:Seurat_cell_type",
    title="eRegulon Activity UMAP",
    frameon=False
)


### **5.4. 计算并可视化 eRegulon 特异性评分 (RSS)**

为了系统性地找出在每个细胞类型中特异性高活的 eRegulon，我们可以计算调控子特异性评分（Regulon Specificity Score, RSS）。


In [None]:
print("Calculating Regulon Specificity Scores (RSS)...")
rss = regulon_specificity_scores(
    scplus_mudata=scplus_mdata,
    variable="scRNA_counts:Seurat_cell_type",
    modalities=["direct_gene_based_AUC", "extended_gene_based_AUC"]
)

# 绘制 RSS 热图，展示每个细胞类型中特异性最高的 top 1 eRegulons
print("\nPlotting RSS for top 3 eRegulons per cell type:")
plot_rss(
    data_matrix=rss,
    top_n=3,
    num_columns=5  # 根据你的细胞类型数量调整布局
)


### **5.5. 在 UMAP 上可视化顶层 eRegulons**

根据 RSS 的结果，我们可以选择每个细胞类型中特异性最高的几个 eRegulon，并将其活性分数直接绘制在 UMAP 上，以直观地验证其细胞类型特异性。


In [None]:
# 从 RSS 结果中提取每个细胞类型 top 2 的 eRegulon 名称
top_regulons_to_plot = list(set(
    [item for sublist in [rss.loc[ct].sort_values(ascending=False).head(2).index.tolist() for ct in rss.index] for item in sublist]
))

print(f"Visualizing activity of top eRegulons on UMAP: {top_regulons_to_plot}")

# 在 UMAP 上绘制这些 eRegulon 的 AUC 分数
sc.pl.umap(
    eRegulon_auc, 
    color=top_regulons_to_plot,
    ncols=4,  # 调整布局列数
    frameon=False,
    cmap='viridis' # 使用 'viridis' 配色方案
)


### **5.6. 热图点图 (Heatmap Dotplot)**

这种图可以同时展示两种信息：点的颜色代表目标基因集的富集程度（`direct_gene_based_AUC`），而点的大小代表目标区域集（增强子）的可及性富集程度（`direct_region_based_AUC`）。


In [None]:
print("Generating heatmap dotplot...")
heatmap_dotplot(
    scplus_mudata=scplus_mdata,
    color_modality="direct_gene_based_AUC",
    size_modality="direct_region_based_AUC",
    group_variable="scRNA_counts:Seurat_cell_type",
    eRegulon_metadata_key="direct_e_regulon_metadata",
    color_feature_key="Gene_signature_name",
    size_feature_key="Region_signature_name",
    feature_name_key="eRegulon_name",
    sort_data_by="direct_gene_based_AUC",
    orientation="horizontal",
    figsize=(35, 20) # 根据你的细胞类型数量调整图形大小
)

<h1>终于跑完全部流程了，长舒一口气！Happy Coding！<h1>