In [1]:
import pandas as pd
import os
from collections import Counter

# 파일 경로 리스트
file_paths = [
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\liver\clinical_data_liver.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\kidney\TCGA-KIRP_clinical_data.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\ovarian\TCGA-OV_clinical_data.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\stomach\TCGA-STAD_clinical_data.csv"
]

# 파일명 매핑 (출력용)
file_names = ['liver', 'kidney', 'ovarian', 'stomach']

def analyze_csv_columns():
    all_columns = []
    file_columns = {}
    
    print("=" * 60)
    print("CSV 파일 컬럼 분석 결과")
    print("=" * 60)
    
    # 각 파일의 컬럼 확인
    for i, file_path in enumerate(file_paths):
        try:
            if os.path.exists(file_path):
                df = pd.read_csv(file_path)
                columns = list(df.columns)
                file_columns[file_names[i]] = columns
                all_columns.extend(columns)
                
                print(f"\n📁 {file_names[i].upper()} 파일:")
                print(f"   - 파일명: {os.path.basename(file_path)}")
                print(f"   - 컬럼 개수: {len(columns)}")
                print(f"   - 컬럼명: {columns}")
                
            else:
                print(f"\n❌ {file_names[i].upper()} 파일을 찾을 수 없습니다:")
                print(f"   - 경로: {file_path}")
                
        except Exception as e:
            print(f"\n❌ {file_names[i].upper()} 파일 읽기 오류:")
            print(f"   - 오류: {str(e)}")
    
    if not all_columns:
        print("\n⚠️  읽을 수 있는 파일이 없습니다.")
        return
    
    # 컬럼 통계 분석
    column_counts = Counter(all_columns)
    unique_columns = [col for col, count in column_counts.items() if count == 1]
    duplicate_columns = [col for col, count in column_counts.items() if count > 1]
    
    print("\n" + "=" * 60)
    print("📊 컬럼 분석 결과")
    print("=" * 60)
    
    print(f"\n🔢 전체 통계:")
    print(f"   - 총 컬럼 개수 (중복 포함): {len(all_columns)}")
    print(f"   - 고유 컬럼 개수: {len(set(all_columns))}")
    print(f"   - 중복되는 컬럼 개수: {len(duplicate_columns)}")
    print(f"   - 고유한 컬럼 개수: {len(unique_columns)}")
    
    if duplicate_columns:
        print(f"\n🔄 중복되는 컬럼명 ({len(duplicate_columns)}개):")
        for col in sorted(duplicate_columns):
            files_with_col = [name for name, cols in file_columns.items() if col in cols]
            print(f"   - '{col}' : {files_with_col} ({column_counts[col]}개 파일)")
    
    if unique_columns:
        print(f"\n🔹 고유한 컬럼명 ({len(unique_columns)}개):")
        for col in sorted(unique_columns):
            file_with_col = [name for name, cols in file_columns.items() if col in cols][0]
            print(f"   - '{col}' : {file_with_col} 파일에만 존재")
    
    # 파일별 고유 컬럼 분석
    print(f"\n📋 파일별 고유 컬럼:")
    for file_name, columns in file_columns.items():
        unique_to_file = [col for col in columns if column_counts[col] == 1]
        if unique_to_file:
            print(f"   - {file_name}: {unique_to_file}")
        else:
            print(f"   - {file_name}: 고유 컬럼 없음")

# 실행
if __name__ == "__main__":
    analyze_csv_columns()


CSV 파일 컬럼 분석 결과

📁 LIVER 파일:
   - 파일명: clinical_data_liver.csv
   - 컬럼 개수: 87
   - 컬럼명: ['project', 'submitter_id', 'synchronous_malignancy', 'ajcc_pathologic_stage', 'ishak_fibrosis_score', 'days_to_diagnosis', 'created_datetime', 'last_known_disease_status', 'tissue_or_organ_of_origin', 'days_to_last_follow_up', 'age_at_diagnosis', 'primary_diagnosis', 'child_pugh_classification', 'updated_datetime', 'prior_malignancy', 'year_of_diagnosis', 'state', 'prior_treatment', 'diagnosis_is_primary_disease', 'days_to_last_known_disease_status', 'ajcc_staging_system_edition', 'ajcc_pathologic_t', 'days_to_recurrence', 'morphology', 'ajcc_pathologic_n', 'ajcc_pathologic_m', 'residual_disease', 'classification_of_tumor', 'diagnosis_id', 'icd_10_code', 'site_of_resection_or_biopsy', 'tumor_grade', 'progression_or_recurrence', 'tumor_of_origin', 'laterality', 'figo_staging_edition_year', 'race', 'gender', 'ethnicity', 'vital_status', 'age_at_index', 'days_to_birth', 'year_of_birth', 'demographic_i

In [2]:
import pandas as pd
import os

# 파일 경로 리스트
file_paths = [
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\liver\clinical_data_liver.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\kidney\TCGA-KIRP_clinical_data.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\ovarian\TCGA-OV_clinical_data.csv",
    r"G:\.shortcut-targets-by-id\1aXfYtUWSYS8foz14MAJMhDH7IHhG1wNZ\2조\데이터\clinical model\stomach\TCGA-STAD_clinical_data.csv"
]

# 파일명 매핑
file_names = ['LIVER (간암)', 'KIDNEY (신장암)', 'OVARIAN (난소암)', 'STOMACH (위암)']

def display_all_columns():
    print("=" * 80)
    print("📋 CSV 파일별 전체 컬럼 목록")
    print("=" * 80)
    
    for i, file_path in enumerate(file_paths):
        try:
            if os.path.exists(file_path):
                df = pd.read_csv(file_path)
                columns = list(df.columns)
                
                print(f"\n🗂️  {file_names[i]}")
                print(f"📁 파일명: {os.path.basename(file_path)}")
                print(f"📊 총 컬럼 개수: {len(columns)}")
                print(f"📏 데이터 행 개수: {len(df)}")
                print("-" * 60)
                
                # 컬럼을 번호와 함께 출력
                for idx, col in enumerate(columns, 1):
                    print(f"  {idx:2d}. {col}")
                
                print("-" * 60)
                
            else:
                print(f"\n❌ {file_names[i]}")
                print(f"📁 파일을 찾을 수 없습니다: {os.path.basename(file_path)}")
                print(f"🔍 경로: {file_path}")
                
        except Exception as e:
            print(f"\n❌ {file_names[i]}")
            print(f"📁 파일: {os.path.basename(file_path)}")
            print(f"🚫 오류: {str(e)}")

def display_columns_side_by_side():
    """컬럼들을 나란히 비교해서 보여주는 함수"""
    all_data = {}
    
    print("\n" + "=" * 100)
    print("📊 파일별 컬럼 비교표")
    print("=" * 100)
    
    # 각 파일의 컬럼 수집
    for i, file_path in enumerate(file_paths):
        try:
            if os.path.exists(file_path):
                df = pd.read_csv(file_path)
                all_data[file_names[i]] = list(df.columns)
            else:
                all_data[file_names[i]] = ["파일 없음"]
        except Exception as e:
            all_data[file_names[i]] = [f"오류: {str(e)}"]
    
    # 최대 컬럼 수 찾기
    max_cols = max(len(cols) for cols in all_data.values())
    
    # 헤더 출력
    print(f"{'순번':<4} {'LIVER':<25} {'KIDNEY':<25} {'OVARIAN':<25} {'STOMACH':<25}")
    print("-" * 104)
    
    # 컬럼별로 출력
    for i in range(max_cols):
        row = f"{i+1:<4} "
        for file_name in file_names:
            if i < len(all_data[file_name]):
                col_name = all_data[file_name][i]
                # 컬럼명이 너무 길면 자르기
                if len(col_name) > 23:
                    col_name = col_name[:20] + "..."
                row += f"{col_name:<25} "
            else:
                row += f"{'':25} "
        print(row)

def save_columns_to_file():
    """컬럼 정보를 텍스트 파일로 저장"""
    with open("column_analysis.txt", "w", encoding="utf-8") as f:
        f.write("CSV 파일별 컬럼 분석 결과\n")
        f.write("=" * 50 + "\n\n")
        
        for i, file_path in enumerate(file_paths):
            try:
                if os.path.exists(file_path):
                    df = pd.read_csv(file_path)
                    columns = list(df.columns)
                    
                    f.write(f"{file_names[i]}\n")
                    f.write(f"파일명: {os.path.basename(file_path)}\n")
                    f.write(f"컬럼 개수: {len(columns)}\n")
                    f.write("컬럼 목록:\n")
                    
                    for idx, col in enumerate(columns, 1):
                        f.write(f"  {idx:2d}. {col}\n")
                    
                    f.write("\n" + "-" * 50 + "\n\n")
                    
            except Exception as e:
                f.write(f"{file_names[i]} - 오류: {str(e)}\n\n")
    
    print("📄 결과가 'column_analysis.txt' 파일로 저장되었습니다.")

# 실행
if __name__ == "__main__":
    # 1. 각 파일별 상세 컬럼 출력
    display_all_columns()
    
    # 2. 컬럼 비교표 출력
    display_columns_side_by_side()
    
    # 3. 파일로 저장
    save_columns_to_file()
    
    print("\n✅ 모든 분석이 완료되었습니다!")


📋 CSV 파일별 전체 컬럼 목록

🗂️  LIVER (간암)
📁 파일명: clinical_data_liver.csv
📊 총 컬럼 개수: 87
📏 데이터 행 개수: 377
------------------------------------------------------------
   1. project
   2. submitter_id
   3. synchronous_malignancy
   4. ajcc_pathologic_stage
   5. ishak_fibrosis_score
   6. days_to_diagnosis
   7. created_datetime
   8. last_known_disease_status
   9. tissue_or_organ_of_origin
  10. days_to_last_follow_up
  11. age_at_diagnosis
  12. primary_diagnosis
  13. child_pugh_classification
  14. updated_datetime
  15. prior_malignancy
  16. year_of_diagnosis
  17. state
  18. prior_treatment
  19. diagnosis_is_primary_disease
  20. days_to_last_known_disease_status
  21. ajcc_staging_system_edition
  22. ajcc_pathologic_t
  23. days_to_recurrence
  24. morphology
  25. ajcc_pathologic_n
  26. ajcc_pathologic_m
  27. residual_disease
  28. classification_of_tumor
  29. diagnosis_id
  30. icd_10_code
  31. site_of_resection_or_biopsy
  32. tumor_grade
  33. progression_or_recurrence
  34. 