In [1]:
# --- 安装必要的库 ---
# 请确保您已按照上述说明安装了 libvips 系统库
# pip install pyvips opencv-python scikit-image tqdm

import os
import cv2
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from skimage.color import rgb2hed
from skimage.filters import threshold_otsu
from IPython.display import display, Image as IPImage

# 导入 pyvips 库
try:
    import pyvips
except ImportError:
    print("错误: pyvips 库未找到。请按照单元格上方的说明进行安装。")
    # 在 Notebook 中，我们可以用 raise 来停止执行
    raise

# 使用 tqdm.notebook 可以在 Notebook 中显示更好看的进度条
from tqdm.auto import tqdm

os.chdir("/home1/jijh/diffusion_project/ADiffusion")
os.getcwd()


'/public/home/jijh/diffusion_project/ADiffusion'

In [None]:
import os
import scanpy as sc
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
from scipy.sparse import issparse

# 导入您自定义的库
from src.pipeline.hest_loading import HESTDataset

def load_sample_data(sample, batch_key: str = 'sample_id'):
    """Helper function to load a single sample's data"""
    try:
        sample.load_st_data(lazy=False)
        if sample.adata is not None:
            # 确保每个adata有唯一的obs_names以避免冲突
            sample.adata.obs_names = [f"{sample.sample_id}_{obs_name}" for obs_name in sample.adata.obs_names]
            # 添加批次信息
            sample.adata.obs[batch_key] = sample.sample_id
            return sample.adata.to_memory()
        return None
    except Exception as e:
        print(f"Error loading sample {sample.sample_id}: {e}")
        return None

# --- 函数定义 ---

def calculate_global_hvgs(
    samples_to_process: list, 
    n_top_genes: int = 3000, 
    batch_key: str = 'sample_id',
    sentence_output_basedir_hvg: str = "output/hvgs"
    
) -> pd.Index:
    """
    合并多个AnnData对象，进行批次校正，并计算全局高变基因。

    参数:
        samples_to_process (list): HESTSample对象列表。
        n_top_genes (int): 要识别的高变基因数量。
        batch_key (str): 用于批次校正的adata.obs中的列名。

    返回:
        pd.Index: 包含高变基因名称的索引。
    """
    print("开始合并所有样本以计算全局HVGs...")
    
    # Load data sequentially instead of using multiprocessing
    adatas = []
    
    for sample in tqdm(samples_to_process, desc="加载并合并AnnData"):
        adata = load_sample_data(sample, batch_key)
        if adata is not None:
            adatas.append(adata)

    if not adatas:
        raise ValueError("未能加载任何AnnData对象。")

    # 合并前检查并处理重复基因名
    processed_adatas = []
    for adata in adatas:
        if adata.var_names.duplicated().any():
            print(f"发现重复基因名，正在处理样本中的 {adata.var_names.duplicated().sum()} 个重复基因...")
            # 保留第一次出现的基因，删除后续重复的
            adata = adata[:, ~adata.var_names.duplicated()].copy()
        processed_adatas.append(adata)
    
    # 合并所有AnnData对象
    # uns_merge='unique' 避免合并时因 .uns 字典中的冲突而报错
    adata_merged = sc.concat(processed_adatas, join='outer', uns_merge='unique')
    print(f"所有样本已合并。总尺寸: {adata_merged.shape}")
    
    # 标准化流程
    sc.pp.normalize_total(adata_merged, target_sum=1e4)
    sc.pp.log1p(adata_merged)
    
    # 计算初始的HVGs（用于后续PCA和Harmony）
    sc.pp.highly_variable_genes(adata_merged, n_top_genes=n_top_genes, batch_key=batch_key)
    
    # 提取高变基因列表
    hvg_list = adata_merged.var.index[adata_merged.var['highly_variable']]
    # Write the HVG list to a file
    hvg_file_path = os.path.join(sentence_output_basedir_hvg, "global_hvgs.txt")
    print(f"成功识别出 {len(hvg_list)} 个全局高变基因。")
    
    return hvg_list


In [23]:
def anndata_to_sentence_files_hvg(
    sample,
    hvg_list: pd.Index,
    output_basedir: str,
    n_top_genes_in_sentence: int = 50
):
    """
    为单个HESTSample对象的所有spots生成独立的基因句子文件，但仅限于HVG。

    参数:
        sample (HESTSample): 要处理的样本对象。
        hvg_list (pd.Index): 全局高变基因列表。
        output_basedir (str): 保存所有句子文件夹的根目录。
        n_top_genes_in_sentence (int): 每个句子包含的基因数量。
    """
    # 为当前样本创建独立的输出目录
    sample_sentence_dir = os.path.join(output_basedir, f"{sample.sample_id}_sentences_hvg")
    os.makedirs(sample_sentence_dir, exist_ok=True)
    
    adata = sample.adata
    
    # 筛选AnnData，使其只包含高变基因，这样可以大大加速后续处理
    # .copy() 是为了避免修改原始adata对象
    adata_hvg = adata[:, adata.var_names.isin(hvg_list)].copy()
    
    if adata_hvg.n_vars == 0:
        print(f"警告: 样本 {sample.sample_id} 中没有找到任何全局HVGs，已跳过。")
        return

    obs_df = adata_hvg.obs.copy()
    gene_names_hvg = adata_hvg.var_names.to_numpy()
    
    # 检查并获取坐标
    if 'pxl_col_in_fullres' not in obs_df.columns or 'pxl_row_in_fullres' not in obs_df.columns:
        obs_df['pxl_col_in_fullres'] = adata_hvg.obsm['spatial'][:, 0]
        obs_df['pxl_row_in_fullres'] = adata_hvg.obsm['spatial'][:, 1]
        
    # 遍历每个spot并生成文件
    for i in tqdm(range(adata_hvg.n_obs), desc=f"处理 {sample.sample_id} (HVG)", leave=False):
        spot_info = obs_df.iloc[i]
        row_coord = int(round(spot_info['pxl_row_in_fullres']))
        col_coord = int(round(spot_info['pxl_col_in_fullres']))
        sentence_filename = os.path.join(sample_sentence_dir, f"{sample.sample_id}_{row_coord}_{col_coord}.txt")
        
        if os.path.exists(sentence_filename):
            continue

        # 获取当前spot在HVG子集上的表达向量
        expression_vector = adata_hvg.X[i].toarray().flatten() if issparse(adata_hvg.X) else np.array(adata_hvg.X[i]).flatten()
            
        # 在HVG子集内排序
        sorted_indices_hvg = np.argsort(expression_vector)[-1::-1]
        
        # 选择前 N 个基因（现在无需过滤管家基因，因为它们大概率不是HVG）
        top_genes = gene_names_hvg[sorted_indices_hvg[:n_top_genes_in_sentence]]
        
        # 写入文件
        with open(sentence_filename, 'w') as f:
            f.write(" ".join(top_genes))

In [42]:
# --- 1. 设置和数据加载 ---
data_dir = "/cwStorage/nodecw_group/jijh/hest_1k"
# 新的输出目录，以区分
sentence_output_basedir_hvg = "/cwStorage/nodecw_group/jijh/hest_sentences/"

print("初始化HEST数据集管理器...")
dataset = HESTDataset(data_dir=data_dir)
brain_samples = dataset.get_samples(organ="Brain", species='Mus musculus')
print(f"找到 {len(brain_samples)} 个Mus musculus大脑样本待处理。")
print("-" * 50)


初始化HEST数据集管理器...
找到 168 个Mus musculus大脑样本待处理。
--------------------------------------------------


In [25]:
from collections import Counter
import random

def report_varname_duplicates(samples):
    """
    对每个 HESTSample 中的 AnnData，检查 var_names 内部的重复项并打印出来。
    参数:
        samples (list): HESTSample 对象列表，要求每个 sample.adata 已经加载。
    """
    any_dup = False
    
    for sample in tqdm(samples, desc="检查基因名重复"):
        # 确保数据已加载
        if sample.adata is None:
            sample.load_st_data(lazy=True)
        adata = sample.adata
        if adata is None:
            print(f"[跳过] 样本 {sample.sample_id} 无法加载 AnnData。")
            continue

        names = list(adata.var_names)
        counts = Counter(names)
        # 找出在同一个 AnnData 里出现超过一次的基因名
        dups = [gene for gene, cnt in counts.items() if cnt > 1]
        
        if dups:
            any_dup = True
            print(f"\n⚠️ 样本 {sample.sample_id} 中共有 {len(dups)} 个重复基因名：")
            
            # 分析重复原因 - 随机选择几个重复基因进行详细分析
            sample_dups = random.sample(dups, min(3, len(dups)))
            
            for gene in sample_dups:
                duplicate_count = counts[gene]
                # 找到所有重复位置的索引
                duplicate_indices = [i for i, name in enumerate(names) if name == gene]
                
                print(f"  - 基因 '{gene}' 出现 {duplicate_count} 次，位置索引: {duplicate_indices}")
                
                # 检查这些重复位置的基因信息是否相同
                if hasattr(adata.var, 'gene_ids'):
                    gene_ids = [adata.var.iloc[idx]['gene_ids'] if 'gene_ids' in adata.var.columns else 'N/A' for idx in duplicate_indices]
                    print(f"    对应的基因ID: {gene_ids}")
                    if len(set(gene_ids)) > 1:
                        print(f"    ⚠️ 相同基因名对应不同的基因ID - 这可能是基因别名问题")
                    else:
                        print(f"    ✓ 相同基因名对应相同的基因ID - 这可能是数据处理过程中的重复")
            
            # 显示所有重复基因（如果列表太长，只显示前20个）
            print(f"  完整重复基因列表:")
            for g in dups[:20]:
                print(f"    - {g} (出现{counts[g]}次)")
            if len(dups) > 20:
                print(f"    ...（共 {len(dups)} 个重复基因，以上仅列出前 20 个）")

    if not any_dup:
        print("✅ 在所有样本内部均未发现重复的 var_names。")

# 执行检查
report_varname_duplicates(brain_samples)


检查基因名重复:   0%|          | 0/168 [00:00<?, ?it/s]

  utils.warn_names_duplicates("var")



⚠️ 样本 TENX131 中共有 6 个重复基因名：
  - 基因 'Arhgef4' 出现 2 次，位置索引: [95, 96]
  - 基因 'Aldoa' 出现 2 次，位置索引: [8355, 8357]
  - 基因 'Fam90a1b' 出现 2 次，位置索引: [18697, 18698]
  完整重复基因列表:
    - Arhgef4 (出现2次)
    - Pakap (出现2次)
    - Fam220a (出现2次)
    - Aldoa (出现2次)
    - Pcdha11 (出现2次)
    - Fam90a1b (出现2次)


In [None]:

# --- 2. 计算全局高变基因 (HVGs) ---
# 这一步可能需要较长时间和较大内存，因为它会合并所有数据
# 如果内存不足，可以考虑从每个样本中随机抽取一部分spots来构建合并的adata

global_hvg_list = calculate_global_hvgs(
    samples_to_process=brain_samples,
    n_top_genes=3000, # 选择3000个HVGs是一个常见的SOTA实践
    sentence_output_basedir_hvg=sentence_output_basedir_hvg
)
print("-" * 50)



开始合并所有样本以计算全局HVGs...


加载并合并AnnData:   0%|          | 0/168 [00:00<?, ?it/s]

  utils.warn_names_duplicates("var")


发现重复基因名，正在处理样本中的 6 个重复基因...


  warn(


所有样本已合并。总尺寸: (308159, 45646)


  return fn(*args_all, **kw)


成功识别出 3000 个全局高变基因。
--------------------------------------------------


In [None]:
'Apoe' in global_hvg_list

ad_mouse_genes = [
    "App",    # Amyloid precursor protein
    "Psen1",  # Presenilin 1
    "Psen2",  # Presenilin 2
    "Mapt",   # Microtubule-associated protein tau
    "Apoe",   # Apolipoprotein E
    "Trem2",  # Triggering receptor expressed on myeloid cells 2
    "Clu",    # Clusterin
    "Picalm", # Phosphatidylinositol binding clathrin assembly protein
    "Bin1",   # Bridging integrator 1
    "Cd33",   # Siglec-3
    "Abca7",  # ATP-binding cassette sub-family A member 7
    "Sorl1",  # Sortilin-related receptor 1
    "Hcar2",  # Hydroxycarboxylic acid receptor 2
    "Vps35",   # Vacuolar protein sorting 35
    "Csf1r", # Colony stimulating factor 1 receptor
    "Bace1",    # β-分泌酶 1，关键的 Aβ 生成酶:contentReference[oaicite:0]{index=0}
    "Ide",      # 胰岛素降解酶，可降解 Aβ:contentReference[oaicite:1]{index=1}
    "Mme",      # Neprilysin，同样参与 Aβ 清除:contentReference[oaicite:2]{index=2}
    "Cd2ap",    # 调控内吞与 Aβ 清除:contentReference[oaicite:3]{index=3}
    "Cr1",      # 补体受体 1，免疫相关:contentReference[oaicite:4]{index=4}
    "Adam10",   # α-分泌酶，非淀粉样途径关键酶:contentReference[oaicite:5]{index=5}
    "Plcg2",    # 液泡内吞与信号传导:contentReference[oaicite:6]{index=6}
    "Spi1",     # 转录因子，免疫调控筛选中被鉴定:contentReference[oaicite:7]{index=7}
    "Mef2c",    # 神经发育转录因子，功能筛选中被鉴定:contentReference[oaicite:8]{index=8}
    "Gab2",     # 信号转导分子，GWAS 关联:contentReference[oaicite:9]{index=9}
    "Abcc11",   # ATP 结合盒家族成员，筛选中发现:contentReference[oaicite:10]{index=10}
    "ATCG1",    # 筛选中发现的新的候选基因:contentReference[oaicite:11]{index=11}
    "Ank3",     # GWAS 关联基因:contentReference[oaicite:12]{index=12}
    "Ms4a6a",   # MS4A 家族，调控免疫与脂质代谢:contentReference[oaicite:13]{index=13}
    "Agfg2",    # 涉及细胞信号转导:contentReference[oaicite:14]{index=14}
    "Cyc1",     # 线粒体功能相关:contentReference[oaicite:15]{index=15}
    "Hla-dra",  # 抗原呈递分子:contentReference[oaicite:16]{index=16}
    "Meg3",     # 长链非编码 RNA，表达差异:contentReference[oaicite:17]{index=17}
    "Mt2a",     # 金属硫蛋白，抗氧化应激:contentReference[oaicite:18]{index=18}
    "Ncald",    # 钙调节蛋白家族:contentReference[oaicite:19]{index=19}
    "Neu1",     # 神经氨酸苷酶 1，细胞内吞作用:contentReference[oaicite:20]{index=20}
    "Psmc3",    # 泛素-蛋白酶体系统:contentReference[oaicite:21]{index=21}
    "Serpinb6", # 丝氨酸蛋白酶抑制剂:contentReference[oaicite:22]{index=22}
    "Sparc",     # 细胞外基质蛋白，病理重塑:contentReference[oaicite:23]{index=23}
]

# Test what ad_mouse_genes are in global_hvg_list
ad_mouse_genes_in_hvg = [gene for gene in ad_mouse_genes if gene in global_hvg_list]
print(f"在全局HVG列表中找到 {len(ad_mouse_genes_in_hvg)} 个小鼠AD相关基因：")
print(ad_mouse_genes_in_hvg)

在全局HVG列表中找到 11 个小鼠AD相关基因：
['Apoe', 'Trem2', 'Clu', 'Bin1', 'Cd33', 'Csf1r', 'Cd2ap', 'Spi1', 'Mef2c', 'Ncald', 'Sparc']


In [41]:
# Add the mouse AD genes to the global HVG list
global_hvg_list = global_hvg_list.union(ad_mouse_genes_in_hvg)

In [43]:
sentence_output_basedir_hvg

'/cwStorage/nodecw_group/jijh/hest_sentences/'

In [None]:
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
import threading

# --- 3. 基于HVG列表，为每个样本生成句子文件 ---

print("开始批量生成基于HVG的基因句子文件...")

def process_single_sample(sample):
    """处理单个样本的函数"""
    try:
        # 确保数据已加载
        if sample.adata is None:
            sample.load_st_data(lazy=False)
            sample.adata = sample.adata.to_memory()
        if sample.adata is None:
            print(f"跳过样本 {sample.sample_id}，因为无法加载AnnData。")
            return
            
        anndata_to_sentence_files_hvg(
            sample=sample,
            hvg_list=global_hvg_list,
            output_basedir=sentence_output_basedir_hvg,
            n_top_genes_in_sentence=50
        )
        print(f"完成处理样本 {sample.sample_id}")
    except Exception as e:
        print(f"处理样本 {sample.sample_id} 时发生严重错误: {e}")

# 使用线程池执行器进行并行处理
with ThreadPoolExecutor(max_workers=10) as executor:
    # 提交所有任务
    futures = [executor.submit(process_single_sample, sample) for sample in brain_samples]
    
    # 等待所有任务完成并处理结果
    for future in tqdm(futures, desc="处理所有样本"):
        try:
            future.result()  # 这会等待任务完成并获取结果（如果有异常会抛出）
        except Exception as e:
            print(f"线程执行时发生错误: {e}")

print("\n所有基于HVG的基因句子已生成并保存到硬盘！")


开始批量生成基于HVG的基因句子文件...


处理 TENX88 (HVG):   0%|          | 0/5303 [00:00<?, ?it/s]

完成处理样本 TENX88


处理 TENX79 (HVG):   0%|          | 0/8462 [00:00<?, ?it/s]

完成处理样本 TENX79


处理 TENX78 (HVG):   0%|          | 0/6963 [00:00<?, ?it/s]

完成处理样本 TENX78


处理 TENX77 (HVG):   0%|          | 0/5123 [00:00<?, ?it/s]

完成处理样本 TENX77


处理 TENX69 (HVG):   0%|          | 0/4298 [00:00<?, ?it/s]

完成处理样本 TENX69


处理 TENX67 (HVG):   0%|          | 0/2797 [00:00<?, ?it/s]

完成处理样本 TENX67


处理 TENX61 (HVG):   0%|          | 0/2235 [00:00<?, ?it/s]

完成处理样本 TENX61


处理 TENX60 (HVG):   0%|          | 0/2310 [00:00<?, ?it/s]

完成处理样本 TENX60


处理 TENX58 (HVG):   0%|          | 0/1185 [00:00<?, ?it/s]

完成处理样本 TENX58


处理 TENX55 (HVG):   0%|          | 0/2825 [00:00<?, ?it/s]

完成处理样本 TENX55


处理 TENX54 (HVG):   0%|          | 0/3293 [00:00<?, ?it/s]

完成处理样本 TENX54


处理 TENX52 (HVG):   0%|          | 0/2698 [00:00<?, ?it/s]

完成处理样本 TENX52


处理 TENX43 (HVG):   0%|          | 0/2264 [00:00<?, ?it/s]

完成处理样本 TENX43


处理 TENX19 (HVG):   0%|          | 0/3353 [00:00<?, ?it/s]

完成处理样本 TENX19


处理 TENX18 (HVG):   0%|          | 0/2696 [00:00<?, ?it/s]

完成处理样本 TENX18


处理 ZEN61 (HVG):   0%|          | 0/3476 [00:00<?, ?it/s]

完成处理样本 ZEN61


处理 ZEN60 (HVG):   0%|          | 0/3541 [00:00<?, ?it/s]

完成处理样本 ZEN60


处理 SPA15 (HVG):   0%|          | 0/267 [00:00<?, ?it/s]

完成处理样本 SPA15


处理 SPA14 (HVG):   0%|          | 0/280 [00:00<?, ?it/s]

完成处理样本 SPA14


处理 SPA13 (HVG):   0%|          | 0/269 [00:00<?, ?it/s]

完成处理样本 SPA13


处理 SPA12 (HVG):   0%|          | 0/264 [00:00<?, ?it/s]

完成处理样本 SPA12


处理 SPA11 (HVG):   0%|          | 0/267 [00:00<?, ?it/s]

完成处理样本 SPA11


处理 SPA10 (HVG):   0%|          | 0/242 [00:00<?, ?it/s]

完成处理样本 SPA10


处理 SPA9 (HVG):   0%|          | 0/231 [00:00<?, ?it/s]

完成处理样本 SPA9


处理 SPA8 (HVG):   0%|          | 0/234 [00:00<?, ?it/s]

完成处理样本 SPA8


处理 SPA7 (HVG):   0%|          | 0/237 [00:00<?, ?it/s]

完成处理样本 SPA7


处理 SPA6 (HVG):   0%|          | 0/281 [00:00<?, ?it/s]

完成处理样本 SPA6


处理 SPA5 (HVG):   0%|          | 0/262 [00:00<?, ?it/s]

完成处理样本 SPA5


处理 SPA4 (HVG):   0%|          | 0/282 [00:00<?, ?it/s]

完成处理样本 SPA4


处理 MEND131 (HVG):   0%|          | 0/1301 [00:00<?, ?it/s]

完成处理样本 MEND131


处理 MEND130 (HVG):   0%|          | 0/4557 [00:00<?, ?it/s]

完成处理样本 MEND130


处理 MEND129 (HVG):   0%|          | 0/4575 [00:00<?, ?it/s]

完成处理样本 MEND129


处理 MEND124 (HVG):   0%|          | 0/1448 [00:00<?, ?it/s]

完成处理样本 MEND124


处理 MEND123 (HVG):   0%|          | 0/1490 [00:00<?, ?it/s]

完成处理样本 MEND123


处理 MEND78 (HVG):   0%|          | 0/4426 [00:00<?, ?it/s]

完成处理样本 MEND78


处理 MEND77 (HVG):   0%|          | 0/4492 [00:00<?, ?it/s]

完成处理样本 MEND77


处理 MEND76 (HVG):   0%|          | 0/4159 [00:00<?, ?it/s]

完成处理样本 MEND76


处理 MEND75 (HVG):   0%|          | 0/4166 [00:00<?, ?it/s]

完成处理样本 MEND75


处理 MEND74 (HVG):   0%|          | 0/4514 [00:00<?, ?it/s]

完成处理样本 MEND74


处理 MEND73 (HVG):   0%|          | 0/4332 [00:00<?, ?it/s]

完成处理样本 MEND73


处理 MEND72 (HVG):   0%|          | 0/4394 [00:00<?, ?it/s]

完成处理样本 MEND72


处理 MEND71 (HVG):   0%|          | 0/4114 [00:00<?, ?it/s]

完成处理样本 MEND71


处理 MEND55 (HVG):   0%|          | 0/2536 [00:00<?, ?it/s]

完成处理样本 MEND55


处理 MEND53 (HVG):   0%|          | 0/3047 [00:00<?, ?it/s]

完成处理样本 MEND53


处理 MEND50 (HVG):   0%|          | 0/2399 [00:00<?, ?it/s]

完成处理样本 MEND50


处理 MEND46 (HVG):   0%|          | 0/2216 [00:00<?, ?it/s]

完成处理样本 MEND46


处理 MEND44 (HVG):   0%|          | 0/2554 [00:00<?, ?it/s]

完成处理样本 MEND44


处理 MEND43 (HVG):   0%|          | 0/2502 [00:00<?, ?it/s]

完成处理样本 MEND43


处理 MEND42 (HVG):   0%|          | 0/3105 [00:00<?, ?it/s]

完成处理样本 MEND42


处理 NCBI809 (HVG):   0%|          | 0/1554 [00:00<?, ?it/s]

完成处理样本 NCBI809


处理 NCBI808 (HVG):   0%|          | 0/2359 [00:00<?, ?it/s]

完成处理样本 NCBI808


处理 NCBI807 (HVG):   0%|          | 0/2320 [00:00<?, ?it/s]

完成处理样本 NCBI807


处理 NCBI806 (HVG):   0%|          | 0/1435 [00:00<?, ?it/s]

完成处理样本 NCBI806


处理 NCBI802 (HVG):   0%|          | 0/2743 [00:00<?, ?it/s]

完成处理样本 NCBI802


处理 NCBI801 (HVG):   0%|          | 0/2889 [00:00<?, ?it/s]

完成处理样本 NCBI801


处理 NCBI800 (HVG):   0%|          | 0/2784 [00:00<?, ?it/s]

完成处理样本 NCBI800


处理 NCBI799 (HVG):   0%|          | 0/2648 [00:00<?, ?it/s]

完成处理样本 NCBI799


处理 NCBI720 (HVG):   0%|          | 0/2573 [00:00<?, ?it/s]

完成处理样本 NCBI720


处理 NCBI719 (HVG):   0%|          | 0/2735 [00:00<?, ?it/s]

完成处理样本 NCBI719


处理 NCBI718 (HVG):   0%|          | 0/2973 [00:00<?, ?it/s]

完成处理样本 NCBI718


处理 NCBI717 (HVG):   0%|          | 0/2804 [00:00<?, ?it/s]

完成处理样本 NCBI717


处理 NCBI716 (HVG):   0%|          | 0/2801 [00:00<?, ?it/s]

完成处理样本 NCBI716


处理 NCBI715 (HVG):   0%|          | 0/2857 [00:00<?, ?it/s]

完成处理样本 NCBI715


处理 NCBI671 (HVG):   0%|          | 0/2856 [00:00<?, ?it/s]

完成处理样本 NCBI671


处理 NCBI670 (HVG):   0%|          | 0/3002 [00:00<?, ?it/s]

完成处理样本 NCBI670


处理 NCBI669 (HVG):   0%|          | 0/3163 [00:00<?, ?it/s]

完成处理样本 NCBI669


处理 NCBI668 (HVG):   0%|          | 0/2913 [00:00<?, ?it/s]

完成处理样本 NCBI668


处理 NCBI667 (HVG):   0%|          | 0/2675 [00:00<?, ?it/s]

完成处理样本 NCBI667


处理 NCBI666 (HVG):   0%|          | 0/3120 [00:00<?, ?it/s]

完成处理样本 NCBI666


处理 NCBI665 (HVG):   0%|          | 0/2918 [00:00<?, ?it/s]

完成处理样本 NCBI665


处理 NCBI664 (HVG):   0%|          | 0/3017 [00:00<?, ?it/s]

完成处理样本 NCBI664


处理 NCBI663 (HVG):   0%|          | 0/2964 [00:00<?, ?it/s]

完成处理样本 NCBI663


处理 NCBI662 (HVG):   0%|          | 0/3357 [00:00<?, ?it/s]

完成处理样本 NCBI662


处理 NCBI661 (HVG):   0%|          | 0/3601 [00:00<?, ?it/s]

完成处理样本 NCBI661


处理 NCBI660 (HVG):   0%|          | 0/3504 [00:00<?, ?it/s]

完成处理样本 NCBI660


处理 NCBI659 (HVG):   0%|          | 0/3617 [00:00<?, ?it/s]

完成处理样本 NCBI659


处理 NCBI658 (HVG):   0%|          | 0/3116 [00:00<?, ?it/s]

完成处理样本 NCBI658


处理 NCBI533 (HVG):   0%|          | 0/2536 [00:00<?, ?it/s]

完成处理样本 NCBI533


处理 NCBI532 (HVG):   0%|          | 0/2399 [00:00<?, ?it/s]

完成处理样本 NCBI532


处理 NCBI531 (HVG):   0%|          | 0/2554 [00:00<?, ?it/s]

完成处理样本 NCBI531


处理 NCBI530 (HVG):   0%|          | 0/2502 [00:00<?, ?it/s]

完成处理样本 NCBI530


处理 NCBI529 (HVG):   0%|          | 0/2216 [00:00<?, ?it/s]

完成处理样本 NCBI529


处理 NCBI528 (HVG):   0%|          | 0/3105 [00:00<?, ?it/s]

完成处理样本 NCBI528


处理 NCBI527 (HVG):   0%|          | 0/3047 [00:00<?, ?it/s]

完成处理样本 NCBI527


处理 NCBI410 (HVG):   0%|          | 0/152 [00:00<?, ?it/s]

完成处理样本 NCBI410


处理 NCBI409 (HVG):   0%|          | 0/197 [00:00<?, ?it/s]

完成处理样本 NCBI409


处理 NCBI408 (HVG):   0%|          | 0/240 [00:00<?, ?it/s]

完成处理样本 NCBI408


处理 NCBI407 (HVG):   0%|          | 0/218 [00:00<?, ?it/s]

完成处理样本 NCBI407


处理 NCBI406 (HVG):   0%|          | 0/269 [00:00<?, ?it/s]

完成处理样本 NCBI406


处理 NCBI405 (HVG):   0%|          | 0/274 [00:00<?, ?it/s]

完成处理样本 NCBI405


处理 NCBI404 (HVG):   0%|          | 0/287 [00:00<?, ?it/s]

完成处理样本 NCBI404


处理 NCBI403 (HVG):   0%|          | 0/326 [00:00<?, ?it/s]

完成处理样本 NCBI403


处理 NCBI402 (HVG):   0%|          | 0/361 [00:00<?, ?it/s]

完成处理样本 NCBI402


处理 NCBI401 (HVG):   0%|          | 0/357 [00:00<?, ?it/s]

完成处理样本 NCBI401


处理 NCBI400 (HVG):   0%|          | 0/393 [00:00<?, ?it/s]

完成处理样本 NCBI400


处理 NCBI399 (HVG):   0%|          | 0/403 [00:00<?, ?it/s]

完成处理样本 NCBI399


处理 NCBI398 (HVG):   0%|          | 0/488 [00:00<?, ?it/s]

完成处理样本 NCBI398


处理 NCBI397 (HVG):   0%|          | 0/461 [00:00<?, ?it/s]

完成处理样本 NCBI397


处理 NCBI396 (HVG):   0%|          | 0/381 [00:00<?, ?it/s]

完成处理样本 NCBI396


处理 NCBI395 (HVG):   0%|          | 0/470 [00:00<?, ?it/s]

完成处理样本 NCBI395


处理 NCBI394 (HVG):   0%|          | 0/491 [00:00<?, ?it/s]

完成处理样本 NCBI394


处理 NCBI393 (HVG):   0%|          | 0/512 [00:00<?, ?it/s]

完成处理样本 NCBI393


处理 NCBI392 (HVG):   0%|          | 0/487 [00:00<?, ?it/s]

完成处理样本 NCBI392


处理 NCBI391 (HVG):   0%|          | 0/522 [00:00<?, ?it/s]

完成处理样本 NCBI391


处理 NCBI390 (HVG):   0%|          | 0/494 [00:00<?, ?it/s]

完成处理样本 NCBI390


处理 NCBI389 (HVG):   0%|          | 0/506 [00:00<?, ?it/s]

完成处理样本 NCBI389


处理 NCBI388 (HVG):   0%|          | 0/546 [00:00<?, ?it/s]

完成处理样本 NCBI388


处理 NCBI387 (HVG):   0%|          | 0/433 [00:00<?, ?it/s]

完成处理样本 NCBI387


处理 NCBI386 (HVG):   0%|          | 0/509 [00:00<?, ?it/s]

完成处理样本 NCBI386


处理 NCBI385 (HVG):   0%|          | 0/580 [00:00<?, ?it/s]

完成处理样本 NCBI385


处理 NCBI384 (HVG):   0%|          | 0/589 [00:00<?, ?it/s]

完成处理样本 NCBI384


处理 NCBI383 (HVG):   0%|          | 0/556 [00:00<?, ?it/s]

完成处理样本 NCBI383


处理 NCBI382 (HVG):   0%|          | 0/546 [00:00<?, ?it/s]

完成处理样本 NCBI382


处理 NCBI381 (HVG):   0%|          | 0/560 [00:00<?, ?it/s]

完成处理样本 NCBI381


处理 NCBI380 (HVG):   0%|          | 0/519 [00:00<?, ?it/s]

完成处理样本 NCBI380


处理 NCBI379 (HVG):   0%|          | 0/581 [00:00<?, ?it/s]

完成处理样本 NCBI379


处理 NCBI378 (HVG):   0%|          | 0/603 [00:00<?, ?it/s]

完成处理样本 NCBI378


处理 NCBI377 (HVG):   0%|          | 0/577 [00:00<?, ?it/s]

完成处理样本 NCBI377


处理 NCBI376 (HVG):   0%|          | 0/571 [00:00<?, ?it/s]

完成处理样本 NCBI376


处理 NCBI375 (HVG):   0%|          | 0/591 [00:00<?, ?it/s]

完成处理样本 NCBI375


处理 NCBI374 (HVG):   0%|          | 0/604 [00:00<?, ?it/s]

完成处理样本 NCBI374


处理 NCBI373 (HVG):   0%|          | 0/556 [00:00<?, ?it/s]

完成处理样本 NCBI373


处理 NCBI372 (HVG):   0%|          | 0/536 [00:00<?, ?it/s]

完成处理样本 NCBI372


处理 NCBI371 (HVG):   0%|          | 0/620 [00:00<?, ?it/s]

完成处理样本 NCBI371


处理 NCBI370 (HVG):   0%|          | 0/576 [00:00<?, ?it/s]

完成处理样本 NCBI370


处理 NCBI369 (HVG):   0%|          | 0/589 [00:00<?, ?it/s]

完成处理样本 NCBI369


处理 NCBI368 (HVG):   0%|          | 0/604 [00:00<?, ?it/s]

完成处理样本 NCBI368


处理 NCBI367 (HVG):   0%|          | 0/574 [00:00<?, ?it/s]

完成处理样本 NCBI367


处理 NCBI366 (HVG):   0%|          | 0/639 [00:00<?, ?it/s]

完成处理样本 NCBI366


处理 NCBI365 (HVG):   0%|          | 0/617 [00:00<?, ?it/s]

完成处理样本 NCBI365


处理 NCBI364 (HVG):   0%|          | 0/606 [00:00<?, ?it/s]

完成处理样本 NCBI364


处理 NCBI363 (HVG):   0%|          | 0/508 [00:00<?, ?it/s]

完成处理样本 NCBI363


处理 NCBI362 (HVG):   0%|          | 0/549 [00:00<?, ?it/s]

完成处理样本 NCBI362


处理 NCBI361 (HVG):   0%|          | 0/534 [00:00<?, ?it/s]

完成处理样本 NCBI361


处理 NCBI360 (HVG):   0%|          | 0/508 [00:00<?, ?it/s]

完成处理样本 NCBI360


处理 NCBI359 (HVG):   0%|          | 0/494 [00:00<?, ?it/s]

完成处理样本 NCBI359


处理 NCBI358 (HVG):   0%|          | 0/460 [00:00<?, ?it/s]

完成处理样本 NCBI358


处理 NCBI357 (HVG):   0%|          | 0/469 [00:00<?, ?it/s]

完成处理样本 NCBI357


处理 NCBI356 (HVG):   0%|          | 0/462 [00:00<?, ?it/s]

完成处理样本 NCBI356


处理 NCBI355 (HVG):   0%|          | 0/450 [00:00<?, ?it/s]

完成处理样本 NCBI355


处理 NCBI354 (HVG):   0%|          | 0/527 [00:00<?, ?it/s]

完成处理样本 NCBI354


处理 NCBI353 (HVG):   0%|          | 0/548 [00:00<?, ?it/s]

完成处理样本 NCBI353


处理 NCBI352 (HVG):   0%|          | 0/524 [00:00<?, ?it/s]

完成处理样本 NCBI352


处理 NCBI351 (HVG):   0%|          | 0/484 [00:00<?, ?it/s]

完成处理样本 NCBI351


处理 NCBI350 (HVG):   0%|          | 0/490 [00:00<?, ?it/s]

完成处理样本 NCBI350


处理 NCBI349 (HVG):   0%|          | 0/478 [00:00<?, ?it/s]

完成处理样本 NCBI349


处理 NCBI348 (HVG):   0%|          | 0/479 [00:00<?, ?it/s]

完成处理样本 NCBI348


处理 NCBI347 (HVG):   0%|          | 0/428 [00:00<?, ?it/s]

完成处理样本 NCBI347


处理 NCBI346 (HVG):   0%|          | 0/419 [00:00<?, ?it/s]

完成处理样本 NCBI346


处理 NCBI345 (HVG):   0%|          | 0/386 [00:00<?, ?it/s]

完成处理样本 NCBI345


处理 NCBI344 (HVG):   0%|          | 0/406 [00:00<?, ?it/s]

完成处理样本 NCBI344


处理 NCBI343 (HVG):   0%|          | 0/237 [00:00<?, ?it/s]

完成处理样本 NCBI343


处理 NCBI342 (HVG):   0%|          | 0/250 [00:00<?, ?it/s]

完成处理样本 NCBI342


处理 NCBI341 (HVG):   0%|          | 0/279 [00:00<?, ?it/s]

完成处理样本 NCBI341


处理 NCBI340 (HVG):   0%|          | 0/276 [00:00<?, ?it/s]

完成处理样本 NCBI340


处理 NCBI339 (HVG):   0%|          | 0/245 [00:00<?, ?it/s]

完成处理样本 NCBI339


处理 NCBI338 (HVG):   0%|          | 0/240 [00:00<?, ?it/s]

完成处理样本 NCBI338


处理 NCBI337 (HVG):   0%|          | 0/188 [00:00<?, ?it/s]

完成处理样本 NCBI337


处理 NCBI336 (HVG):   0%|          | 0/214 [00:00<?, ?it/s]

完成处理样本 NCBI336


In [None]:


# --- 4. 验证结果 ---
# 随机选择一个样本目录进行检查
if brain_samples:
    first_sample_id = brain_samples[0].sample_id
    sample_sentence_dir = os.path.join(sentence_output_basedir_hvg, f"{first_sample_id}_sentences_hvg")
    
    if os.path.exists(sample_sentence_dir) and os.listdir(sample_sentence_dir):
        print(f"\n--- 验证样本 {first_sample_id} 的结果 ---")
        sentence_files = os.listdir(sample_sentence_dir)
        random_sentence_file = random.choice(sentence_files)
        
        with open(os.path.join(sample_sentence_dir, random_sentence_file), 'r') as f:
            content = f.read()
            genes_in_sentence = content.split()
            print(f"随机抽取的句子文件 ({random_sentence_file}):")
            print(content)
            print(f"句子中的基因数量: {len(genes_in_sentence)}")
            # 检查这些基因是否都在HVG列表中
            are_all_hvgs = all(gene in global_hvg_list for gene in genes_in_sentence)
            print(f"句子中的所有基因是否都在全局HVG列表中? {'是' if are_all_hvgs else '否'}")
    else:
        print("未能找到生成的句子文件进行验证。")