# pre-process xenium data

In [13]:
def preprocess_spatial_data(adata_path, output_dir, output_prefix, n_pcs, n_neighbors, leiden_res):
    # (이전 답변의 preprocess_spatial_data 함수 내용과 동일)
    print(f"--- Starting Spatial Data Preprocessing: {adata_path} ---")
    try:
        adata = sc.read_h5ad(adata_path)
        print(f"Loaded spatial data: {adata}")

        # QC, Filtering, Normalization, Log, HVG, Scale, PCA, Neighbors, Leiden, UMAP
        sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)
        min_genes = 20; min_counts = 50; min_cells = 5
        print(f"Cells before filtering: {adata.n_obs}")
        sc.pp.filter_cells(adata, min_genes=min_genes)
        sc.pp.filter_cells(adata, min_counts=min_counts)
        print(f"Genes before filtering: {adata.n_vars}")
        sc.pp.filter_genes(adata, min_cells=min_cells)
        print(f"Data shape after filtering: {adata.shape}")
        if adata.n_obs == 0 or adata.n_vars == 0:
             raise ValueError("Data is empty after filtering.")

        sc.pp.normalize_total(adata, target_sum=1e4)
        sc.pp.log1p(adata)
        sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5, flavor='seurat_v3')
        n_hvg = adata.var['highly_variable'].sum()
        print(f"Found {n_hvg} highly variable genes.")
        if n_hvg == 0:
            print("No highly variable genes found. Using all genes for PCA.")
            adata.var['highly_variable'] = True # Use all if none found

        sc.pp.scale(adata, max_value=10)
        sc.tl.pca(adata, svd_solver='arpack', use_highly_variable=True)
        # Ensure enough PCs were computed
        actual_n_pcs = min(n_pcs, adata.obsm['X_pca'].shape[1])
        if actual_n_pcs < n_pcs:
             print(f"Requested {n_pcs} PCs, but only {actual_n_pcs} could be computed.")
        if actual_n_pcs == 0:
             raise ValueError("PCA could not be computed.")

        sc.pp.neighbors(adata, n_neighbors=n_neighbors, n_pcs=actual_n_pcs)
        sc.tl.leiden(adata, resolution=leiden_res, key_added=f'leiden_res{leiden_res}')
        sc.tl.umap(adata)

        print("Spatial data preprocessing complete.")
        print(f"Final spatial AnnData object after preprocessing: {adata}")
        # Optional: Save UMAP plot
        # sc.pl.umap(adata, color=[f'leiden_res{leiden_res}'], save=f"_{output_prefix}_st_umap_leiden_{datetime.now.strftime("%y-%m-%d-%H-%M")}.png", show=False, title=f'Leiden Clusters (res={leiden_res})')
        return adata

    except Exception as e:
        print(f"Error during spatial data preprocessing: {e}")
        raise

# 약간 변경: dir를 받는 게 아니라 객체를 그대로 받도록

In [1]:
def preprocess_ann_data(adata, output_dir, output_prefix, n_pcs, n_neighbors, leiden_res):
    
    print(f"--- Starting Ann Data(read from sc.read_h5ad) Preprocessing ---")
    try:
        print(f"Loaded spatial data: {adata}")

        # QC, Filtering, Normalization, Log, HVG, Scale, PCA, Neighbors, Leiden, UMAP
        sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)
        min_genes = 20; min_counts = 50; min_cells = 5
        print(f"Cells before filtering: {adata.n_obs}")
        sc.pp.filter_cells(adata, min_genes=min_genes)
        sc.pp.filter_cells(adata, min_counts=min_counts)
        print(f"Genes before filtering: {adata.n_vars}")
        sc.pp.filter_genes(adata, min_cells=min_cells)
        print(f"Data shape after filtering: {adata.shape}")
        if adata.n_obs == 0 or adata.n_vars == 0:
             raise ValueError("Data is empty after filtering.")

        sc.pp.normalize_total(adata, target_sum=1e4)
        sc.pp.log1p(adata)
        sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5, flavor='seurat_v5')
        n_hvg = adata.var['highly_variable'].sum()
        print(f"Found {n_hvg} highly variable genes.")
        if n_hvg == 0:
            print("No highly variable genes found. Using all genes for PCA.")
            adata.var['highly_variable'] = True # Use all if none found

        sc.pp.scale(adata, max_value=10)
        sc.tl.pca(adata, svd_solver='arpack', use_highly_variable=True)
        # Ensure enough PCs were computed
        actual_n_pcs = min(n_pcs, adata.obsm['X_pca'].shape[1])
        if actual_n_pcs < n_pcs:
             print(f"Requested {n_pcs} PCs, but only {actual_n_pcs} could be computed.")
        if actual_n_pcs == 0:
             raise ValueError("PCA could not be computed.")

        sc.pp.neighbors(adata, n_neighbors=n_neighbors, n_pcs=actual_n_pcs)
        sc.tl.leiden(adata, resolution=leiden_res, key_added=f'leiden_res{leiden_res}')
        sc.tl.umap(adata)

        print("Spatial data preprocessing complete.")
        print(f"Final spatial AnnData object after preprocessing: {adata}")
        # Optional: Save UMAP plot
        # sc.pl.umap(adata, color=[f'leiden_res{leiden_res}'], save=f"_{output_prefix}_st_umap_leiden.png", show=False, title=f'Leiden Clusters (res={leiden_res})')
        return adata

    except Exception as e:
        print(f"Error during spatial data preprocessing: {e}", exc_info=True)
        raise

# 여러 파라미터도 받을 수 있도록

In [12]:
import scanpy as sc
import anndata as ad
from typing import Optional, Literal

def preprocess_ann_data_flexible(
    adata: ad.AnnData,
    output_dir: str, # 필요시 사용 (예: plot 저장)
    output_prefix: str, # 필요시 사용 (예: plot 저장)
    # QC Parameters
    min_genes: int = 20,
    min_counts: int = 50,
    min_cells: int = 5,
    # Normalization Parameters
    normalization_method: Optional[Literal['log_normalize']] = 'log_normalize', # 'log_normalize' 또는 None
    target_sum: Optional[float] = 1e4, # log_normalize 시 사용
    # HVG Parameters (기존 로직 유지, 필요시 추가 파라미터화 가능)
    hvg_min_mean: float = 0.0125,
    hvg_max_mean: float = 3,
    hvg_min_disp: float = 0.5,
    hvg_flavor: str = 'seurat_v5',
    # Dimensionality Reduction Parameters
    n_pcs: int = 50,
    # Neighbor Graph Parameters
    n_neighbors: int = 15,
    # Clustering Parameters
    clustering_method: Literal['leiden', 'louvain'] = 'leiden',
    cluster_resolution: float = 1.0,
    cluster_key_added: Optional[str] = None # None이면 자동으로 생성
) -> ad.AnnData:
    """
    AnnData 객체를 전처리하는 함수. QC, 필터링, 정규화, HVG선별, 스케일링,
    PCA, Neighbors 계산, 클러스터링(Leiden 또는 Louvain), UMAP 계산을 수행합니다.

    Args:
        adata: 입력 AnnData 객체.
        output_dir: 출력 디렉토리 경로 (현재 함수 내에서는 직접 사용되지 않음).
        output_prefix: 출력 파일 접두사 (현재 함수 내에서는 직접 사용되지 않음).
        min_genes: 세포 필터링 시 최소 유전자 수.
        min_counts: 세포 필터링 시 최소 count 수.
        min_cells: 유전자 필터링 시 최소 세포 수.
        normalization_method: 정규화 방법. 'log_normalize' 또는 None.
        target_sum: 'log_normalize' 시 사용할 target sum.
        hvg_min_mean, hvg_max_mean, hvg_min_disp, hvg_flavor: highly_variable_genes 파라미터.
        n_pcs: PCA 계산 시 사용할 주성분 개수.
        n_neighbors: Neighbors 계산 시 사용할 이웃 수.
        clustering_method: 사용할 클러스터링 알고리즘 ('leiden' 또는 'louvain').
        cluster_resolution: 클러스터링 해상도.
        cluster_key_added: 클러스터링 결과를 저장할 obs 키 이름. None이면 자동 생성.

    Returns:
        전처리된 AnnData 객체.

    Raises:
        ValueError: 필터링 후 데이터가 비어 있거나 PCA 계산이 불가능한 경우.
        Exception: 기타 전처리 오류 발생 시.
    """
    print(f"--- Starting AnnData Preprocessing ---")
    try:
        print(f"Input AnnData: {adata}")
        adata_processed = adata.copy() # 원본 보존을 위해 복사본 사용

        # 1. QC 및 필터링
        print("Calculating QC metrics...")
        sc.pp.calculate_qc_metrics(adata_processed, percent_top=None, log1p=False, inplace=True)

        print(f"Filtering cells (min_genes={min_genes}, min_counts={min_counts})...")
        print(f"Cells before filtering: {adata_processed.n_obs}")
        sc.pp.filter_cells(adata_processed, min_genes=min_genes)
        sc.pp.filter_cells(adata_processed, min_counts=min_counts)
        print(f"Cells after filtering: {adata_processed.n_obs}")

        print(f"Filtering genes (min_cells={min_cells})...")
        print(f"Genes before filtering: {adata_processed.n_vars}")
        sc.pp.filter_genes(adata_processed, min_cells=min_cells)
        print(f"Genes after filtering: {adata_processed.n_vars}")

        print(f"Data shape after filtering: {adata_processed.shape}")
        if adata_processed.n_obs == 0 or adata_processed.n_vars == 0:
            raise ValueError("Data is empty after filtering.")

        # 2. 정규화
        if normalization_method == 'log_normalize':
            print(f"Applying log-normalization (target_sum={target_sum})...")
            sc.pp.normalize_total(adata_processed, target_sum=target_sum)
            sc.pp.log1p(adata_processed)
        elif normalization_method is None:
            print("Skipping normalization.")
        else:
            print(f"Warning: Unknown normalization method '{normalization_method}'. Skipping.")

        # 3. Highly Variable Genes (HVG)
        print("Finding highly variable genes...")
        sc.pp.highly_variable_genes(
            adata_processed,
            min_mean=hvg_min_mean,
            max_mean=hvg_max_mean,
            min_disp=hvg_min_disp,
            flavor=hvg_flavor
        )
        n_hvg = adata_processed.var['highly_variable'].sum()
        print(f"Found {n_hvg} highly variable genes.")
        if n_hvg == 0:
            print("Warning: No highly variable genes found. Using all genes for downstream analysis.")
            # 모든 유전자를 사용하도록 설정 (PCA 등에서 use_highly_variable=False 사용 필요)
            use_hvg = False
        else:
            use_hvg = True # HVG를 사용하는 것이 기본

        # 4. 스케일링 (HVG 기반 또는 전체 유전자 기반)
        print("Scaling data...")
        # 스케일링은 보통 HVG에 대해서만 수행하거나, 모든 유전자에 대해 수행 후 HVG 정보는 유지합니다.
        # 여기서는 모든 유전자를 스케일링하고, PCA에서 HVG 사용 여부를 결정합니다.
        sc.pp.scale(adata_processed, max_value=10)

        # 5. PCA (차원 축소)
        print("Running PCA...")
        # 만약 HVG가 없다면 모든 유전자를 사용합니다.
        sc.tl.pca(adata_processed, svd_solver='arpack', use_highly_variable=use_hvg, n_comps=min(n_pcs * 2, adata_processed.n_vars - 1, adata_processed.n_obs - 1)) # 충분한 컴포넌트 계산

        # 실제 사용될 PC 개수 확인 및 조정
        if 'X_pca' not in adata_processed.obsm:
             raise ValueError("PCA could not be computed.")
        actual_n_pcs = min(n_pcs, adata_processed.obsm['X_pca'].shape[1])
        if actual_n_pcs < n_pcs:
            print(f"Requested {n_pcs} PCs, but only {actual_n_pcs} could be computed.")
        if actual_n_pcs == 0:
            raise ValueError("PCA resulted in 0 components.")
        # 사용하지 않을 PCA 컴포넌트 제거 (메모리 관리)
        if adata_processed.obsm['X_pca'].shape[1] > actual_n_pcs:
             adata_processed.obsm['X_pca'] = adata_processed.obsm['X_pca'][:, :actual_n_pcs]
             adata_processed.uns['pca']['variance'] = adata_processed.uns['pca']['variance'][:actual_n_pcs]
             adata_processed.uns['pca']['variance_ratio'] = adata_processed.uns['pca']['variance_ratio'][:actual_n_pcs]
             adata_processed.varm['PCs'] = adata_processed.varm['PCs'][:, :actual_n_pcs]


        # 6. Neighbors Graph
        print("Calculating neighbors graph...")
        sc.pp.neighbors(adata_processed, n_neighbors=n_neighbors, n_pcs=actual_n_pcs)

        # 7. 클러스터링
        print(f"Running {clustering_method} clustering (resolution={cluster_resolution})...")
        # 클러스터링 결과 저장 키 설정
        if cluster_key_added is None:
            cluster_key_added = f"{clustering_method}_res{cluster_resolution}"

        if clustering_method == 'leiden':
            sc.tl.leiden(adata_processed, resolution=cluster_resolution, key_added=cluster_key_added)
        elif clustering_method == 'louvain':
            sc.tl.louvain(adata_processed, resolution=cluster_resolution, key_added=cluster_key_added)
        else:
            print(f"Warning: Unknown clustering method '{clustering_method}'. Skipping clustering.")

        # 8. UMAP (시각화)
        print("Running UMAP...")
        sc.tl.umap(adata_processed)

        print("--- AnnData Preprocessing Complete ---")
        print(f"Final AnnData object after preprocessing: {adata_processed}")

        # 예시: UMAP 플롯 저장 (필요시 주석 해제)
        # if clustering_method in ['leiden', 'louvain']:
        #     fig_path = os.path.join(output_dir, f"{output_prefix}_umap_{cluster_key_added}.png")
        #     sc.pl.umap(adata_processed, color=[cluster_key_added], save=fig_path, show=False, title=f'{clustering_method.capitalize()} Clusters (res={cluster_resolution})')
        #     print(f"UMAP plot saved to {fig_path}")

        return adata_processed

    except Exception as e:
        print(f"Error during data preprocessing: {e}")
        import traceback
        traceback.print_exc() # 상세 에러 로그 출력
        raise # 에러를 다시 발생시켜 호출자가 알 수 있도록 함

# --- 예시 사용법 ---
# import scanpy as sc
# # 가상의 AnnData 객체 생성 또는 로드
# # adata = sc.read_h5ad("your_data.h5ad")
# adata = sc.datasets.pbmc3k_processed() # 예시 데이터셋 (이미 일부 전처리됨)
# adata = adata[:500, :1000].copy() # 작은 예시 데이터
# adata.X = adata.X.astype(float) # 타입 확인

# # 함수 호출
# processed_adata = preprocess_ann_data_flexible(
#     adata=adata,
#     output_dir='./results',
#     output_prefix='pbmc_processed',
#     min_genes=50,
#     min_counts=100,
#     min_cells=3,
#     normalization_method='log_normalize',
#     target_sum=1e4,
#     n_pcs=30,
#     n_neighbors=10,
#     clustering_method='louvain', # louvain 사용
#     cluster_resolution=0.5
# )
# print("\nProcessed AnnData info:")
# print(processed_adata)
# if 'louvain_res0.5' in processed_adata.obs.columns:
#     print("\nLouvain clusters:")
#     print(processed_adata.obs['louvain_res0.5'].value_counts())

# integration

## first

In [15]:
import scanpy as sc
import anndata as ad
from typing import List, Literal, Optional, Dict, Any
import os

# 필요한 외부 라이브러리 import 시도 (오류 발생 시 사용자에게 설치 안내)
try:
    import harmonypy
except ImportError:
    print("Warning: 'harmonypy' not found. Harmony integration will not be available. Install with 'pip install harmonypy'")
try:
    import scvi
    # scvi-tools 버전 호환성 확인 (예시)
    print(f"Using scvi-tools version: {scvi.__version__}")
except ImportError:
    print("Warning: 'scvi-tools' not found. scVI integration will not be available. Install with 'pip install scvi-tools'")
try:
    import scanorama
except ImportError:
    print("Warning: 'scanorama' not found. Scanorama integration will not be available. Install with 'pip install scanorama'")


def integrate_anndatas(
    adatas: List[ad.AnnData],
    batch_key: str = "batch", # 각 anndata의 출처를 구분할 키
    integration_method: Literal['harmony', 'scvi', 'scanorama'] = 'harmony',
    # HVG 관련 파라미터 (통합 전 공통 HVG 선별 시 사용)
    hvg_n_top_genes: Optional[int] = 2000, # None이면 HVG 선별 안 함 (각 메소드가 알아서 처리)
    hvg_flavor: str = 'seurat_v3', # HVG 선별 시 사용될 flavor
    # 각 메소드별 추가 파라미터 전달용
    integration_kwargs: Optional[Dict[str, Any]] = None,
    # scVI 특정 파라미터
    scvi_model_kwargs: Optional[Dict[str, Any]] = None,
    scvi_train_kwargs: Optional[Dict[str, Any]] = None,
    scvi_adata_setup_kwargs: Optional[Dict[str, Any]] = None,

) -> ad.AnnData:
    """
    여러 개의 전처리된 AnnData 객체 리스트를 받아서 지정된 방법으로 통합합니다.

    Args:
        adatas: 통합할 AnnData 객체들의 리스트. 각 객체는 이미 기본적인 QC,
                정규화 등이 수행되었다고 가정합니다. scVI는 raw count를 필요로 할 수 있습니다.
        batch_key: 통합된 AnnData 객체에서 각 데이터셋의 출처를 나타내는 obs 키 이름.
        integration_method: 사용할 통합 방법 ('harmony', 'scvi', 'scanorama').
        hvg_n_top_genes: 통합 전 공통 HVG를 선별할 개수. None이면 선별하지 않고,
                         각 통합 방법이 내부적으로 처리하도록 합니다 (scVI는 주로 내부 처리).
                         Harmony, Scanorama는 HVG 기반으로 동작하는 것이 일반적입니다.
        hvg_flavor: HVG 선별 시 사용할 flavor.
        integration_kwargs: 각 통합 함수(harmony_integrate, scanorama_integrate)에
                           전달할 추가 키워드 인자 딕셔너리.
        scvi_model_kwargs: scVI 모델 초기화 시 전달할 인자 딕셔너리.
        scvi_train_kwargs: scVI 모델 훈련 시 전달할 인자 딕셔너리.
        scvi_adata_setup_kwargs: scVI 모델의 setup_anndata 메소드에 전달할 인자 딕셔너리.

    Returns:
        통합된 AnnData 객체. 통합된 임베딩은 보통 .obsm 필드에 저장됩니다
        (e.g., 'X_pca_harmony', 'X_scVI', 'X_scanorama').

    Raises:
        ValueError: 입력 adatas 리스트가 비어 있거나, 필수 라이브러리가 설치되지 않은 경우.
        ModuleNotFoundError: 필요한 통합 라이브러리가 설치되지 않은 경우.
        Exception: 통합 과정 중 오류 발생 시.
    """
    print(f"--- Starting AnnData Integration ---")
    if not adatas:
        raise ValueError("Input AnnData list is empty.")
    if integration_kwargs is None:
        integration_kwargs = {}
    if scvi_model_kwargs is None:
        scvi_model_kwargs = {}
    if scvi_train_kwargs is None:
        scvi_train_kwargs = {'max_epochs': 100} # 기본값 예시
    if scvi_adata_setup_kwargs is None:
        scvi_adata_setup_kwargs = {}


    print(f"Received {len(adatas)} AnnData objects for integration using '{integration_method}'.")

    # 1. 데이터 통합 준비 (Concatenate)
    # 각 AnnData에 batch 정보 추가 (obs에 batch_key 컬럼 생성)
    batch_labels = []
    adatas_processed = []
    for i, ad_ in enumerate(adatas):
        ad_copy = ad_.copy() # 원본 유지를 위해 복사
        batch_label = f"batch_{i}"
        ad_copy.obs[batch_key] = batch_label
        batch_labels.append(batch_label)
        # 모든 anndata가 동일한 유전자(var_names)를 갖도록 확인/조정 필요
        # 간단하게는 첫 번째 anndata의 유전자를 기준으로 intersection 수행
        if i > 0:
             common_vars = adatas_processed[0].var_names.intersection(ad_copy.var_names)
             if len(common_vars) < ad_copy.n_vars or len(common_vars) < adatas_processed[0].n_vars:
                 print(f"Warning: AnnData objects have different genes. Taking intersection.")
                 adatas_processed[0] = adatas_processed[0][:, common_vars].copy()
                 ad_copy = ad_copy[:, common_vars].copy()
        adatas_processed.append(ad_copy)

    print(f"Assigning batch labels: {batch_labels}")

    # AnnData 객체들 합치기
    print("Concatenating AnnData objects...")
    try:
        # anndata 버전 0.8 이상에서는 join='outer'가 기본값, 여기서는 명시적으로 inner 사용 검토
        # 혹은 미리 유전자셋을 통일시키는 것이 더 안전함 (위에서 intersection 수행)
        adata_concat = ad.concat(adatas_processed, batch_key=batch_key, join='inner', index_unique=None) # index 중복 시 None으로 처리
        print(f"Concatenated AnnData shape: {adata_concat.shape}")
    except Exception as e:
         print(f"Error during concatenation: {e}")
         # 만약 index 중복 오류 등이 발생하면 index_unique='-' 등으로 시도해볼 수 있음
         raise

    # 2. (선택적) 공통 Highly Variable Genes (HVG) 선별
    # scVI는 보통 raw count를 사용하고 내부적으로 유전자를 다루므로 HVG 선별이 필수는 아님.
    # Harmony, Scanorama는 HVG 기반으로 수행하는 것이 일반적.
    use_hvg_subset = False
    if hvg_n_top_genes is not None and integration_method in ['harmony', 'scanorama']:
        print(f"Finding top {hvg_n_top_genes} common highly variable genes using batch_key='{batch_key}'...")
        try:
            # 배치 효과를 고려하여 HVG 선별
            sc.pp.highly_variable_genes(
                adata_concat,
                n_top_genes=hvg_n_top_genes,
                flavor=hvg_flavor,
                batch_key=batch_key,
                subset=False # subset=True 대신 아래에서 명시적으로 인덱싱
            )
            hvg_mask = adata_concat.var['highly_variable']
            n_hvg = hvg_mask.sum()
            if n_hvg > 0:
                print(f"Found {n_hvg} HVGs.")
                adata_hvg = adata_concat[:, hvg_mask].copy() # HVG 부분집합 생성
                use_hvg_subset = True
            else:
                print("Warning: No HVGs found with the specified criteria. Integration will use all genes.")
                adata_hvg = adata_concat.copy() # 전체 유전자 사용
        except Exception as e:
            print(f"Error finding HVGs: {e}. Integration will proceed with all genes.")
            adata_hvg = adata_concat.copy() # 오류 시 전체 유전자 사용
    else:
        print("Skipping explicit HVG selection for integration (using all genes or method's internal selection).")
        adata_hvg = adata_concat.copy() # HVG 선별 안 할 경우 전체 데이터 사용

    # 3. 선택된 방법으로 통합 수행
    try:
        if integration_method == 'harmony':
            print("Running Harmony integration...")
            if 'harmonypy' not in globals():
                 raise ModuleNotFoundError("Harmony requires 'harmonypy'. Please install it.")
            # Harmony는 PCA 임베딩에 대해 수행됨
            if 'X_pca' not in adata_hvg.obsm:
                print("PCA embedding not found. Running PCA on HVGs (or all genes if no HVGs)...")
                n_pcs_harmony = min(50, adata_hvg.n_vars - 1, adata_hvg.n_obs - 1) # 적절한 PC 개수 설정
                if n_pcs_harmony > 0:
                    sc.tl.pca(adata_hvg, n_comps=n_pcs_harmony)
                else:
                    raise ValueError("Cannot run PCA for Harmony (not enough features or observations).")

            # scanpy의 harmony_integrate 함수 사용
            sc.external.pp.harmony_integrate(
                adata_hvg,
                key=batch_key,
                basis='X_pca', # PCA 결과를 기반으로 Harmony 수행
                adjusted_basis='X_pca_harmony', # 결과를 저장할 obsm 키
                **integration_kwargs # 추가 인자 전달 (e.g., max_iter_harmony, theta)
            )
            print("Harmony integration complete. Integrated embedding saved in adata.obsm['X_pca_harmony']")
            # 통합된 결과를 원본 AnnData 객체에 저장 (adata_concat 사용)
            adata_concat.obsm['X_pca_harmony'] = adata_hvg.obsm['X_pca_harmony']
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_pca_harmony', n_neighbors=15)
            # sc.tl.umap(adata_concat)


        elif integration_method == 'scvi':
            print("Running scVI integration...")
            if 'scvi' not in globals():
                raise ModuleNotFoundError("scVI integration requires 'scvi-tools'. Please install it.")

            # scVI는 주로 raw count 데이터를 입력으로 사용함.
            # 입력 adatas에 raw count가 .X 또는 .layers['counts'] 등에 있는지 확인 필요.
            # 여기서는 adata_concat.X 가 raw count라고 가정. 만약 다른 layer에 있다면 설정 필요.
            # scVI 모델 설정 및 훈련
            # setup_anndata는 inplace=True가 기본값
            layer_key = scvi_adata_setup_kwargs.pop('layer', None) # layer 인자 추출
            scvi.model.SCVI.setup_anndata(
                adata_concat,
                batch_key=batch_key,
                layer=layer_key, # raw count가 있는 레이어 지정 (None이면 .X 사용)
                 **scvi_adata_setup_kwargs # 다른 setup 인자 (categorical_covariate_keys 등)
            )

            # 모델 생성
            # n_latent 등 주요 파라미터 설정 가능
            model = scvi.model.SCVI(adata_concat, **scvi_model_kwargs)

            # 모델 훈련
            print("Training scVI model...")
            model.train(**scvi_train_kwargs) # max_epochs, use_gpu 등 설정 가능
            print("scVI training complete.")

            # Latent representation 얻기
            adata_concat.obsm['X_scVI'] = model.get_latent_representation()
            print("scVI integration complete. Integrated embedding saved in adata.obsm['X_scVI']")
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_scVI', n_neighbors=15)
            # sc.tl.umap(adata_concat)


        elif integration_method == 'scanorama':
            print("Running Scanorama integration...")
            if 'scanorama' not in globals():
                raise ModuleNotFoundError("Scanorama requires 'scanorama'. Please install it.")

            # Scanorama는 일반적으로 log-normalized 데이터를 사용하고 HVG 기반으로 작동
            # scanpy의 scanorama_integrate 함수 사용
            # 입력으로 사용할 데이터 (adata_hvg 사용)
            sc.external.pp.scanorama_integrate(
                adata_hvg, # HVG 부분집합 또는 전체 데이터
                key=batch_key,
                basis='X_pca', # Scanorama는 내부적으로 PCA와 유사한 작업 수행 가능, 명시적 PCA 사용 가능
                adjusted_basis='X_scanorama', # 결과 저장 키
                 **integration_kwargs # 추가 인자 전달 (e.g., knn, approx)
            )
            print("Scanorama integration complete. Integrated embedding saved in adata.obsm['X_scanorama']")
            # 통합된 결과를 원본 AnnData 객체에 저장 (adata_concat 사용)
            adata_concat.obsm['X_scanorama'] = adata_hvg.obsm['X_scanorama']
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_scanorama', n_neighbors=15)
            # sc.tl.umap(adata_concat)

        else:
            print(f"Warning: Integration method '{integration_method}' is not supported by this function.")
            # 통합되지 않은 concatenated AnnData 반환
            return adata_concat

        print(f"--- AnnData Integration Complete ---")
        # 통합된 전체 AnnData 반환
        return adata_concat

    except Exception as e:
        print(f"Error during {integration_method} integration: {e}")
        import traceback
        traceback.print_exc()
        raise

# --- 예시 사용법 ---
# import scanpy as sc
# import anndata as ad
# import numpy as np

# # 가상의 데이터셋 생성 (2개 배치)
# def create_mock_adata(n_obs, n_vars, batch_label):
#     X = np.random.poisson(2, size=(n_obs, n_vars)).astype(float) # Raw count 형태
#     adata = ad.AnnData(X)
#     adata.obs_names = [f"{batch_label}_cell_{i}" for i in range(n_obs)]
#     adata.var_names = [f"gene_{j}" for j in range(n_vars)]
#     # 기본적인 전처리 (예시)
#     sc.pp.normalize_total(adata, target_sum=1e4)
#     sc.pp.log1p(adata)
#     sc.pp.highly_variable_genes(adata, n_top_genes=1000, flavor='seurat_v3')
#     # scVI를 사용하려면 raw count 저장 필요
#     adata.layers['counts'] = X.copy()
#     return adata

# adata1 = create_mock_adata(200, 2000, "batch1")
# adata2 = create_mock_adata(300, 2000, "batch2") # 동일한 유전자 목록 가정

# # 통합 실행 (Harmony 예시)
# try:
#     integrated_adata_harmony = integrate_anndatas(
#         adatas=[adata1, adata2],
#         batch_key="sample_batch",
#         integration_method='harmony',
#         hvg_n_top_genes=1500 # 공통 HVG 1500개 사용
#     )
#     print("\nHarmony Integrated AnnData info:")
#     print(integrated_adata_harmony)
#     if 'X_pca_harmony' in integrated_adata_harmony.obsm:
#         print(f"Harmony embedding shape: {integrated_adata_harmony.obsm['X_pca_harmony'].shape}")

# except Exception as e:
#      print(f"Harmony integration failed: {e}")


# # 통합 실행 (scVI 예시)
# try:
#     # scVI는 raw count 필요, layers['counts'] 사용하도록 지정
#     integrated_adata_scvi = integrate_anndatas(
#         adatas=[adata1, adata2],
#         batch_key="sample_batch",
#         integration_method='scvi',
#         hvg_n_top_genes=None, # scVI는 내부적으로 처리하므로 None 또는 생략
#         scvi_adata_setup_kwargs={'layer': 'counts'}, # raw count가 있는 레이어 지정
#         scvi_train_kwargs={'max_epochs': 5} # 예시로 작은 epoch 사용
#     )
#     print("\nscVI Integrated AnnData info:")
#     print(integrated_adata_scvi)
#     if 'X_scVI' in integrated_adata_scvi.obsm:
#         print(f"scVI embedding shape: {integrated_adata_scvi.obsm['X_scVI'].shape}")

# except Exception as e:
#      print(f"scVI integration failed: {e}")

Using scvi-tools version: 1.3.0


## batch_key changed

In [None]:
import scanpy as sc
import anndata as ad
from typing import List, Literal, Optional, Dict, Any
import os

# 필요한 외부 라이브러리 import 시도 (오류 발생 시 사용자에게 설치 안내)
try:
    import harmonypy
except ImportError:
    print("Warning: 'harmonypy' not found. Harmony integration will not be available. Install with 'pip install harmonypy'")
try:
    import scvi
    # scvi-tools 버전 호환성 확인 (예시)
    print(f"Using scvi-tools version: {scvi.__version__}")
except ImportError:
    print("Warning: 'scvi-tools' not found. scVI integration will not be available. Install with 'pip install scvi-tools'")
try:
    import scanorama
except ImportError:
    print("Warning: 'scanorama' not found. Scanorama integration will not be available. Install with 'pip install scanorama'")


def integrate_anndatas(
    adatas: List[ad.AnnData],
    batch_key: str = "batch", # 각 anndata의 출처를 구분할 키
    integration_method: Literal['harmony', 'scvi', 'scanorama'] = 'harmony',
    # HVG 관련 파라미터 (통합 전 공통 HVG 선별 시 사용)
    hvg_n_top_genes: Optional[int] = 2000, # None이면 HVG 선별 안 함 (각 메소드가 알아서 처리)
    hvg_flavor: str = 'seurat_v3', # HVG 선별 시 사용될 flavor
    # 각 메소드별 추가 파라미터 전달용
    integration_kwargs: Optional[Dict[str, Any]] = None,
    # scVI 특정 파라미터
    scvi_model_kwargs: Optional[Dict[str, Any]] = None,
    scvi_train_kwargs: Optional[Dict[str, Any]] = None,
    scvi_adata_setup_kwargs: Optional[Dict[str, Any]] = None,

) -> ad.AnnData:
    """
    여러 개의 전처리된 AnnData 객체 리스트를 받아서 지정된 방법으로 통합합니다.

    Args:
        adatas: 통합할 AnnData 객체들의 리스트. 각 객체는 이미 기본적인 QC,
                정규화 등이 수행되었다고 가정합니다. scVI는 raw count를 필요로 할 수 있습니다.
        batch_key: 통합된 AnnData 객체에서 각 데이터셋의 출처를 나타내는 obs 키 이름.
        integration_method: 사용할 통합 방법 ('harmony', 'scvi', 'scanorama').
        hvg_n_top_genes: 통합 전 공통 HVG를 선별할 개수. None이면 선별하지 않고,
                         각 통합 방법이 내부적으로 처리하도록 합니다 (scVI는 주로 내부 처리).
                         Harmony, Scanorama는 HVG 기반으로 동작하는 것이 일반적입니다.
        hvg_flavor: HVG 선별 시 사용할 flavor.
        integration_kwargs: 각 통합 함수(harmony_integrate, scanorama_integrate)에
                           전달할 추가 키워드 인자 딕셔너리.
        scvi_model_kwargs: scVI 모델 초기화 시 전달할 인자 딕셔너리.
        scvi_train_kwargs: scVI 모델 훈련 시 전달할 인자 딕셔너리.
        scvi_adata_setup_kwargs: scVI 모델의 setup_anndata 메소드에 전달할 인자 딕셔너리.

    Returns:
        통합된 AnnData 객체. 통합된 임베딩은 보통 .obsm 필드에 저장됩니다
        (e.g., 'X_pca_harmony', 'X_scVI', 'X_scanorama').

    Raises:
        ValueError: 입력 adatas 리스트가 비어 있거나, 필수 라이브러리가 설치되지 않은 경우.
        ModuleNotFoundError: 필요한 통합 라이브러리가 설치되지 않은 경우.
        Exception: 통합 과정 중 오류 발생 시.
    """
    print(f"--- Starting AnnData Integration ---")
    if not adatas:
        raise ValueError("Input AnnData list is empty.")
    if integration_kwargs is None:
        integration_kwargs = {}
    if scvi_model_kwargs is None:
        scvi_model_kwargs = {}
    if scvi_train_kwargs is None:
        scvi_train_kwargs = {'max_epochs': 100} # 기본값 예시
    if scvi_adata_setup_kwargs is None:
        scvi_adata_setup_kwargs = {}


    print(f"Received {len(adatas)} AnnData objects for integration using '{integration_method}'.")

    # 1. 데이터 통합 준비 (Concatenate)
    # 각 AnnData에 batch 정보 추가 (obs에 batch_key 컬럼 생성)
    batch_labels = []
    adatas_processed = []
    for i, ad_ in enumerate(adatas):
        ad_copy = ad_.copy() # 원본 유지를 위해 복사
        batch_label = f"batch_{i}"
        ad_copy.obs[batch_key] = batch_label
        batch_labels.append(batch_label)
        # 모든 anndata가 동일한 유전자(var_names)를 갖도록 확인/조정 필요
        # 간단하게는 첫 번째 anndata의 유전자를 기준으로 intersection 수행
        if i > 0:
             common_vars = adatas_processed[0].var_names.intersection(ad_copy.var_names)
             if len(common_vars) < ad_copy.n_vars or len(common_vars) < adatas_processed[0].n_vars:
                 print(f"Warning: AnnData objects have different genes. Taking intersection.")
                 adatas_processed[0] = adatas_processed[0][:, common_vars].copy()
                 ad_copy = ad_copy[:, common_vars].copy()
        adatas_processed.append(ad_copy)

    print(f"Assigning batch labels: {batch_labels}")

    # AnnData 객체들 합치기 (수정된 부분)
    print("Concatenating AnnData objects...")
    try:
        # anndata 버전 0.8 미만 호환성을 위해 batch_key 인자 제거
        # batch 정보는 이미 adatas_processed 안의 각 anndata 객체 .obs에 추가됨
        adata_concat = ad.concat(
            adatas_processed,
            join='inner',     # 유전자가 다를 경우 공통 유전자만 사용
            index_unique=None # 필요시 obs index 이름 중복 처리 (예: '-')
        )
        print(f"Concatenated AnnData shape: {adata_concat.shape}")
        # .obs에 batch_key가 제대로 들어갔는지 확인 (디버깅용)
        if batch_key in adata_concat.obs.columns:
             print(f"Batch key '{batch_key}' found in concatenated AnnData.obs.")
             print(adata_concat.obs[batch_key].value_counts())
        else:
             print(f"Warning: Batch key '{batch_key}' NOT found in concatenated AnnData.obs.")

    except Exception as e:
         print(f"Error during concatenation: {e}")
         # 만약 index 중복 오류 등이 발생하면 index_unique='-' 등으로 시도해볼 수 있음
         raise

    # 2. (선택적) 공통 Highly Variable Genes (HVG) 선별
    # scVI는 보통 raw count를 사용하고 내부적으로 유전자를 다루므로 HVG 선별이 필수는 아님.
    # Harmony, Scanorama는 HVG 기반으로 수행하는 것이 일반적.
    use_hvg_subset = False
    if hvg_n_top_genes is not None and integration_method in ['harmony', 'scanorama']:
        print(f"Finding top {hvg_n_top_genes} common highly variable genes using batch_key='{batch_key}'...")
        try:
            # 배치 효과를 고려하여 HVG 선별
            sc.pp.highly_variable_genes(
                adata_concat,
                n_top_genes=hvg_n_top_genes,
                flavor=hvg_flavor,
                batch_key=batch_key,
                subset=False # subset=True 대신 아래에서 명시적으로 인덱싱
            )
            hvg_mask = adata_concat.var['highly_variable']
            n_hvg = hvg_mask.sum()
            if n_hvg > 0:
                print(f"Found {n_hvg} HVGs.")
                adata_hvg = adata_concat[:, hvg_mask].copy() # HVG 부분집합 생성
                use_hvg_subset = True
            else:
                print("Warning: No HVGs found with the specified criteria. Integration will use all genes.")
                adata_hvg = adata_concat.copy() # 전체 유전자 사용
        except Exception as e:
            print(f"Error finding HVGs: {e}. Integration will proceed with all genes.")
            adata_hvg = adata_concat.copy() # 오류 시 전체 유전자 사용
    else:
        print("Skipping explicit HVG selection for integration (using all genes or method's internal selection).")
        adata_hvg = adata_concat.copy() # HVG 선별 안 할 경우 전체 데이터 사용

    # 3. 선택된 방법으로 통합 수행
    try:
        if integration_method == 'harmony':
            print("Running Harmony integration...")
            if 'harmonypy' not in globals():
                 raise ModuleNotFoundError("Harmony requires 'harmonypy'. Please install it.")
            # Harmony는 PCA 임베딩에 대해 수행됨
            if 'X_pca' not in adata_hvg.obsm:
                print("PCA embedding not found. Running PCA on HVGs (or all genes if no HVGs)...")
                n_pcs_harmony = min(50, adata_hvg.n_vars - 1, adata_hvg.n_obs - 1) # 적절한 PC 개수 설정
                if n_pcs_harmony > 0:
                    sc.tl.pca(adata_hvg, n_comps=n_pcs_harmony)
                else:
                    raise ValueError("Cannot run PCA for Harmony (not enough features or observations).")

            # scanpy의 harmony_integrate 함수 사용
            sc.external.pp.harmony_integrate(
                adata_hvg,
                key=batch_key,
                basis='X_pca', # PCA 결과를 기반으로 Harmony 수행
                adjusted_basis='X_pca_harmony', # 결과를 저장할 obsm 키
                **integration_kwargs # 추가 인자 전달 (e.g., max_iter_harmony, theta)
            )
            print("Harmony integration complete. Integrated embedding saved in adata.obsm['X_pca_harmony']")
            # 통합된 결과를 원본 AnnData 객체에 저장 (adata_concat 사용)
            adata_concat.obsm['X_pca_harmony'] = adata_hvg.obsm['X_pca_harmony']
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_pca_harmony', n_neighbors=15)
            # sc.tl.umap(adata_concat)


        elif integration_method == 'scvi':
            print("Running scVI integration...")
            if 'scvi' not in globals():
                raise ModuleNotFoundError("scVI integration requires 'scvi-tools'. Please install it.")

            # scVI는 주로 raw count 데이터를 입력으로 사용함.
            # 입력 adatas에 raw count가 .X 또는 .layers['counts'] 등에 있는지 확인 필요.
            # 여기서는 adata_concat.X 가 raw count라고 가정. 만약 다른 layer에 있다면 설정 필요.
            # scVI 모델 설정 및 훈련
            # setup_anndata는 inplace=True가 기본값
            layer_key = scvi_adata_setup_kwargs.pop('layer', None) # layer 인자 추출
            scvi.model.SCVI.setup_anndata(
                adata_concat,
                batch_key=batch_key,
                layer=layer_key, # raw count가 있는 레이어 지정 (None이면 .X 사용)
                 **scvi_adata_setup_kwargs # 다른 setup 인자 (categorical_covariate_keys 등)
            )

            # 모델 생성
            # n_latent 등 주요 파라미터 설정 가능
            model = scvi.model.SCVI(adata_concat, **scvi_model_kwargs)

            # 모델 훈련
            print("Training scVI model...")
            model.train(**scvi_train_kwargs) # max_epochs, use_gpu 등 설정 가능
            print("scVI training complete.")

            # Latent representation 얻기
            adata_concat.obsm['X_scVI'] = model.get_latent_representation()
            print("scVI integration complete. Integrated embedding saved in adata.obsm['X_scVI']")
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_scVI', n_neighbors=15)
            # sc.tl.umap(adata_concat)


        elif integration_method == 'scanorama':
            print("Running Scanorama integration...")
            if 'scanorama' not in globals():
                raise ModuleNotFoundError("Scanorama requires 'scanorama'. Please install it.")

            # Scanorama는 일반적으로 log-normalized 데이터를 사용하고 HVG 기반으로 작동
            # scanpy의 scanorama_integrate 함수 사용
            # 입력으로 사용할 데이터 (adata_hvg 사용)
            sc.external.pp.scanorama_integrate(
                adata_hvg, # HVG 부분집합 또는 전체 데이터
                key=batch_key,
                basis='X_pca', # Scanorama는 내부적으로 PCA와 유사한 작업 수행 가능, 명시적 PCA 사용 가능
                adjusted_basis='X_scanorama', # 결과 저장 키
                 **integration_kwargs # 추가 인자 전달 (e.g., knn, approx)
            )
            print("Scanorama integration complete. Integrated embedding saved in adata.obsm['X_scanorama']")
            # 통합된 결과를 원본 AnnData 객체에 저장 (adata_concat 사용)
            adata_concat.obsm['X_scanorama'] = adata_hvg.obsm['X_scanorama']
            # 필요하다면 UMAP 등 후속 분석 수행
            # sc.pp.neighbors(adata_concat, use_rep='X_scanorama', n_neighbors=15)
            # sc.tl.umap(adata_concat)

        else:
            print(f"Warning: Integration method '{integration_method}' is not supported by this function.")
            # 통합되지 않은 concatenated AnnData 반환
            return adata_concat

        print(f"--- AnnData Integration Complete ---")
        # 통합된 전체 AnnData 반환
        return adata_concat

    except Exception as e:
        print(f"Error during {integration_method} integration: {e}")
        import traceback
        traceback.print_exc()
        raise

# --- 예시 사용법 ---
# import scanpy as sc
# import anndata as ad
# import numpy as np

# # 가상의 데이터셋 생성 (2개 배치)
# def create_mock_adata(n_obs, n_vars, batch_label):
#     X = np.random.poisson(2, size=(n_obs, n_vars)).astype(float) # Raw count 형태
#     adata = ad.AnnData(X)
#     adata.obs_names = [f"{batch_label}_cell_{i}" for i in range(n_obs)]
#     adata.var_names = [f"gene_{j}" for j in range(n_vars)]
#     # 기본적인 전처리 (예시)
#     sc.pp.normalize_total(adata, target_sum=1e4)
#     sc.pp.log1p(adata)
#     sc.pp.highly_variable_genes(adata, n_top_genes=1000, flavor='seurat_v3')
#     # scVI를 사용하려면 raw count 저장 필요
#     adata.layers['counts'] = X.copy()
#     return adata

# adata1 = create_mock_adata(200, 2000, "batch1")
# adata2 = create_mock_adata(300, 2000, "batch2") # 동일한 유전자 목록 가정

# # 통합 실행 (Harmony 예시)
# try:
#     integrated_adata_harmony = integrate_anndatas(
#         adatas=[adata1, adata2],
#         batch_key="sample_batch",
#         integration_method='harmony',
#         hvg_n_top_genes=1500 # 공통 HVG 1500개 사용
#     )
#     print("\nHarmony Integrated AnnData info:")
#     print(integrated_adata_harmony)
#     if 'X_pca_harmony' in integrated_adata_harmony.obsm:
#         print(f"Harmony embedding shape: {integrated_adata_harmony.obsm['X_pca_harmony'].shape}")

# except Exception as e:
#      print(f"Harmony integration failed: {e}")


# # 통합 실행 (scVI 예시)
# try:
#     # scVI는 raw count 필요, layers['counts'] 사용하도록 지정
#     integrated_adata_scvi = integrate_anndatas(
#         adatas=[adata1, adata2],
#         batch_key="sample_batch",
#         integration_method='scvi',
#         hvg_n_top_genes=None, # scVI는 내부적으로 처리하므로 None 또는 생략
#         scvi_adata_setup_kwargs={'layer': 'counts'}, # raw count가 있는 레이어 지정
#         scvi_train_kwargs={'max_epochs': 5} # 예시로 작은 epoch 사용
#     )
#     print("\nscVI Integrated AnnData info:")
#     print(integrated_adata_scvi)
#     if 'X_scVI' in integrated_adata_scvi.obsm:
#         print(f"scVI embedding shape: {integrated_adata_scvi.obsm['X_scVI'].shape}")

# except Exception as e:
#      print(f"scVI integration failed: {e}")

# test

In [16]:
sc_processed = preprocess_ann_data_flexible(
    adata=sc_data,
    output_dir='./results',
    output_prefix='crc_100_processed',
    min_genes=50,
    min_counts=100,
    min_cells=3,
    normalization_method='log_normalize',
    target_sum=1e2,
    n_pcs=30,
    n_neighbors=10,
    clustering_method='louvain', # louvain 사용
    cluster_resolution=0.5,
    hvg_flavor="seurat")

--- Starting AnnData Preprocessing ---
Input AnnData: AnnData object with n_obs × n_vars = 42649 × 28476
    obs: 'dataset', 'medical_condition', 'cancer_type', 'sample_id', 'sample_type', 'tumor_source', 'replicate', 'sample_tissue', 'anatomic_region', 'anatomic_location', 'tumor_stage', 'tumor_stage_TNM', 'tumor_stage_TNM_T', 'tumor_stage_TNM_N', 'tumor_stage_TNM_M', 'tumor_size', 'tumor_dimensions', 'tumor_grade', 'histological_type', 'microsatellite_status', 'mismatch_repair_deficiency_status', 'MLH1_promoter_methylation_status', 'MLH1_status', 'KRAS_status', 'BRAF_status', 'APC_status', 'TP53_status', 'PIK3CA_status', 'SMAD4_status', 'NRAS_status', 'MSH6_status', 'FBXW7_status', 'NOTCH1_status', 'MSH2_status', 'PMS2_status', 'POLE_status', 'ERBB2_status', 'STK11_status', 'HER2_status', 'CTNNB1_status', 'BRAS_status', 'patient_id', 'sex', 'age', 'treatment_status_before_resection', 'treatment_drug', 'treatment_response', 'RECIST', 'platform', 'platform_fine', 'cellranger_version', 

In [19]:
try:
    # scVI는 raw count 필요, layers['counts'] 사용하도록 지정
    integrated_adata_scvi = integrate_anndatas(
        adatas=[sc_data, st_data],
        batch_key="sample_batch",
        integration_method='scvi',
        hvg_n_top_genes=None, # scVI는 내부적으로 처리하므로 None 또는 생략
        scvi_adata_setup_kwargs={'layer': 'counts'}, # raw count가 있는 레이어 지정
        scvi_train_kwargs={'max_epochs': 5} # 예시로 작은 epoch 사용
    )
    print("\nscVI Integrated AnnData info:")
    print(integrated_adata_scvi)
    if 'X_scVI' in integrated_adata_scvi.obsm:
        print(f"scVI embedding shape: {integrated_adata_scvi.obsm['X_scVI'].shape}")
except Exception as e:
     print(f"scVI integration failed: {e}")

--- Starting AnnData Integration ---
Received 2 AnnData objects for integration using 'scvi'.
Assigning batch labels: ['batch_0', 'batch_1']
Concatenating AnnData objects...
Error during concatenation: concat() got an unexpected keyword argument 'batch_key'
scVI integration failed: concat() got an unexpected keyword argument 'batch_key'
