In [5]:
#!/usr/bin/env python3
"""
檢查CSV檔案中的SVS檔案與指定路徑下的SVS檔案比對
Check which SVS files from CSV are present in the specified directory and which are missing
"""

import os
import pandas as pd
from pathlib import Path


def check_svs_files(csv_path, slides_directory):
    """
    檢查CSV檔案中的SVS檔案與目錄中的檔案比對
    """
    # 讀取CSV檔案
    df = pd.read_csv(csv_path)

    # 取得CSV中所有的SVS檔案名稱
    csv_svs_files = set(df['SVS Filename'].tolist())

    # 取得slides目錄下所有的.svs檔案
    slides_path = Path(slides_directory)
    actual_svs_files = set()

    if slides_path.exists():
        for file in slides_path.glob('*.svs'):
            actual_svs_files.add(file.name)
    else:
        print(f"錯誤：目錄 '{slides_directory}' 不存在！")
        return

    # 找出在CSV中且也在目錄中的檔案（匹配的檔案）
    matched_files = csv_svs_files.intersection(actual_svs_files)

    # 找出在CSV中但不在目錄中的檔案（缺少的檔案）
    missing_files = csv_svs_files - actual_svs_files

    # 找出在目錄中但不在CSV中的檔案（額外的檔案）
    extra_files = actual_svs_files - csv_svs_files

    # 輸出結果
    print("=" * 80)
    print(f"SVS檔案比對結果 - CSV: {csv_path}")
    print(f"檢查目錄: {slides_directory}")
    print("=" * 80)

    print(f"\n📊 統計摘要:")
    print(f"CSV中SVS檔案總數: {len(csv_svs_files)}")
    print(f"目錄中SVS檔案總數: {len(actual_svs_files)}")
    print(f"匹配的檔案數量: {len(matched_files)}")
    print(f"缺少的檔案數量: {len(missing_files)}")
    print(f"額外的檔案數量: {len(extra_files)}")

    if matched_files:
        print(f"\n✅ 在CSV中且存在於目錄中的檔案 ({len(matched_files)}個):")
        for i, file in enumerate(sorted(matched_files), 1):
            print(f"  {i:2d}. {file}")

    if missing_files:
        print(f"\n❌ 在CSV中但目錄中缺少的檔案 ({len(missing_files)}個):")
        for i, file in enumerate(sorted(missing_files), 1):
            print(f"  {i:2d}. {file}")

    if extra_files:
        print(f"\n📁 在目錄中但不在CSV中的檔案 ({len(extra_files)}個):")
        for i, file in enumerate(sorted(extra_files), 1):
            print(f"  {i:2d}. {file}")

    # 計算完整度百分比
    if csv_svs_files:
        completeness = (len(matched_files) / len(csv_svs_files)) * 100
        print(
            f"\n📈 目錄完整度: {completeness:.1f}% ({len(matched_files)}/{len(csv_svs_files)})")

    print("=" * 80)

    return {
        'csv_files': csv_svs_files,
        'actual_files': actual_svs_files,
        'matched_files': matched_files,
        'missing_files': missing_files,
        'extra_files': extra_files
    }


if __name__ == "__main__":
    # 設定檔案路徑
    csv_file = "./datasets_csv/tcga_blca_all_mapping.csv"
    slides_dir = "../TCGA-WSI/BRCA-non-TSX"

    # 執行檢查
    result = check_svs_files(csv_file, slides_dir)

    # 刪除 slides 資料夾中多餘的 SVS 檔案
    # 注意：執行前請確認 extra_files 內容，避免誤刪重要檔案！

    for file in result['extra_files']:
        file_path = os.path.join(slides_dir, file)
        try:
            os.remove(file_path)
            print(f"已刪除：{file_path}")
        except Exception as e:
            print(f"刪除失敗：{file_path}，原因：{e}")

    print("多餘檔案已刪除完畢。")

SVS檔案比對結果 - CSV: ./datasets_csv/tcga_blca_all_mapping.csv
檢查目錄: ../TCGA-WSI/BRCA-non-TSX

📊 統計摘要:
CSV中SVS檔案總數: 437
目錄中SVS檔案總數: 437
匹配的檔案數量: 437
缺少的檔案數量: 0
額外的檔案數量: 0

✅ 在CSV中且存在於目錄中的檔案 (437個):
   1. TCGA-2F-A9KO-01Z-00-DX1.195576CF-B739-4BD9-B15B-4A70AE287D3E.svs
   2. TCGA-2F-A9KP-01Z-00-DX1.3CDF534E-958F-4467-AA7E-FD3C5A86AAAA.svs
   3. TCGA-2F-A9KP-01Z-00-DX2.718C82A3-252B-498E-BFBE-F4E4EB431BF5.svs
   4. TCGA-2F-A9KQ-01Z-00-DX1.1C8CB2DD-5CC6-4E99-A0F9-32A0F598F5F9.svs
   5. TCGA-2F-A9KR-01Z-00-DX1.D6A4BD2D-18F3-4FA6-8272-60392DDAF7B5.svs
   6. TCGA-2F-A9KT-01Z-00-DX1.ADD6D87C-0CC2-4B1F-A75F-108C9EB3970F.svs
   7. TCGA-2F-A9KT-01Z-00-DX2.A06896B2-FC9A-430D-8F59-C89EEA002C8B.svs
   8. TCGA-2F-A9KW-01Z-00-DX1.CECFDA2E-2CE7-4115-B4E6-A3D75B130232.svs
   9. TCGA-2F-A9KW-01Z-00-DX2.10D33B2F-631F-4E3D-BF53-24D40A1088A3.svs
  10. TCGA-4Z-AA7M-01Z-00-DX1.05317C75-A8F3-4124-95D2-F039BEFFE63A.svs
  11. TCGA-4Z-AA7N-01Z-00-DX1.10AA3499-6678-4DB2-9466-9CB3EA25CBB6.svs
  12. TCGA-4Z-AA7O-01Z-00-