In [7]:
# ##############################################################################
#
# 통합 펩타이드 발굴 파이프라인 (Single-Notebook Peptide Discovery Pipeline)
#
# 이 코드는 Google Colab Pro/Pro+ 환경에서 실행하는 것을 권장합니다.
# Colab 메뉴에서 '런타임' -> '런타임 유형 변경'을 선택하여
# 하드웨어 가속기를 'GPU'로, 런타임 구성을 '높은 RAM'으로 설정해주세요.
#
# ##############################################################################


# ==============================================================================
# STEP 0: 환경 설정 및 모든 필수 라이브러리 설치
# ==============================================================================
# 이 셀은 파이프라인에 필요한 모든 소프트웨어를 설치합니다.
# ColabFold, Transformers, 결합력 평가 도구 등이 포함됩니다.
# 최초 실행 시 약 15~20분 정도 소요될 수 있습니다.

print("="*80)
print("STEP 0: 환경 설정 및 모든 필수 라이브러리 설치 (약 15-20분 소요)")
print("="*80)

import os
import sys
import site

# ❗ 추가된 부분: 한국 시간대(KST) 처리를 위한 pytz 라이브러리 설치
print("\n   > 시간대 처리 라이브러리 (pytz) 설치 중...")
os.system("pip install -q pytz")
print("   > pytz 설치 완료")

# ColabFold (AlphaFold2) 설치
print("\n[1/4] ColabFold (AlphaFold2) 설치 중...")
# ❗ 안정성 강화: ColabFold 설치 전, 충돌을 유발할 수 있는 기존 TensorFlow 패키지를 모두 제거합니다.
print("   > 기존 TensorFlow 패키지를 제거하여 충돌을 방지합니다...")
os.system("pip uninstall -y tensorflow tensorboard tb-nightly tensorflow-estimator tensorflow-hub tensorflow-io > /dev/null 2>&1")
os.system("pip install -q --no-warn-conflicts 'colabfold[alphafold] @ git+https://github.com/sokrypton/ColabFold'")
os.system("pip install -q --no-warn-conflicts 'jax[cuda11_pip]' -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html")

# ❗ 안정성 강화: 설치된 ColabFold 스크립트를 직접 수정하여 TensorFlow 오류를 영구적으로 방지합니다.
print("\n   > ColabFold 스크립트 패치 적용 중...")
try:
    dist_packages_path = site.getsitepackages()[0]
    batch_py_path = os.path.join(dist_packages_path, 'colabfold', 'batch.py')
    if os.path.exists(batch_py_path):
        os.system(f"sed -i 's/tf.get_logger().setLevel(logging.ERROR)/#tf.get_logger().setLevel(logging.ERROR)/g' {batch_py_path}")
        os.system(f"sed -i \"s/tf.config.set_visible_devices(\\[\\], 'GPU')/#tf.config.set_visible_devices(\\[\\], 'GPU')/g\" {batch_py_path}")
        print("   > 패치 적용 완료.")
    else:
        print(f"   > 경고: {batch_py_path}를 찾을 수 없어 패치를 건너뜁니다.")
except Exception as e:
    print(f"   > 경고: ColabFold 패치 중 오류 발생 - {e}")

# 펩타이드 생성 모델 관련 라이브러리 설치
print("\n[2/4] 펩타이드 생성 관련 라이브러리 (Transformers) 설치 중...")
os.system("pip install -q --upgrade transformers sentencepiece")

# 결합력 평가 도구 (Open Babel, PLIP, Pafnucy) 설치
print("\n[3/4] 결합력 평가 도구 (Open Babel, PLIP, Pafnucy) 설치 중...")
os.system("apt-get update -qq > /dev/null 2>&1")
# ❗ 안정성 강화: python3-openbabel을 함께 설치하여 파이썬 바인딩 문제를 해결합니다.
os.system("apt-get install -y --quiet openbabel python3-openbabel")
print("   > Open Babel 설치 완료")
print("   > PLIP 설치 중...")
os.system("pip install -q plip")
print("   > PLIP 설치 완료")
print("   > Pafnucy 설치 중...")
if not os.path.isdir("pafnucy"):
    os.system("git clone https://github.com/oddt/pafnucy.git > /dev/null 2>&1")
    if os.path.exists("pafnucy/requirements.txt"):
        os.system("pip install -q -r pafnucy/requirements.txt")
print("   > Pafnucy 설치 시도 완료")

# ❗ 추가된 부분: Excel 파일 출력을 위한 openpyxl 라이브러리 설치
print("\\n   > Excel 파일 지원 라이브러리 (openpyxl) 설치 중...")
os.system("pip install -q openpyxl")
print("   > openpyxl 설치 완료")

# AutoDock Vina 다운로드
print("\n[4/4] AutoDock Vina 다운로드 중...")
if not os.path.exists("vina_1.2.3_linux_x86_64"):
    os.system("wget -q https://github.com/ccsb-scripps/AutoDock-Vina/releases/download/v1.2.3/vina_1.2.3_linux_x86_64.zip")
    os.system("unzip -q -o vina_1.2.3_linux_x86_64.zip")
    os.system("chmod +x vina_1.2.3_linux_x86_64/vina")

print("\n모든 설치 완료!")
print("="*80)
print("✅ STEP 0: 환경 설정이 성공적으로 완료되었습니다.")
print("="*80)


# ==============================================================================
# STEP 1: 파이프라인 실행을 위한 변수 설정
# ==============================================================================
# 이 셀에서 전체 파이프라인의 작동 방식을 제어하는 주요 변수들을 설정합니다.

print("\n" + "="*80)
print("STEP 1: 파이프라인 실행을 위한 변수 설정")
print("="*80)

import torch
from datetime import datetime
import pytz

# --- ❗ 사용자 설정 영역 ❗ ---

# 1. 생성할 펩타이드 후보의 개수
N_PEPTIDES = 5

# 2. 타겟 단백질의 아미노산 서열 (FASTA 형식, 한 줄로 입력)
# 예시: "PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASK"
TARGET_PROTEIN_SEQUENCE = "PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASK"

# 3. 생성할 펩타이드의 길이
PEPTIDE_LENGTH = 10

# 4. 결과 폴더의 기본 이름 접두사
BASE_FOLDER_PREFIX = "PDP"

# --- ❗ 수정된 부분: 한국 시간(KST)을 기준으로 동적 폴더 및 파일 이름 생성 ---
kst = pytz.timezone('Asia/Seoul')
now_kst = datetime.now(kst)
timestamp = now_kst.strftime("%Y%m%d_%H%M%S")

# 최종 결과 폴더명 (예: PDP_20231027_153000)
JOB_NAME = f"{BASE_FOLDER_PREFIX}_{timestamp}"

# --- 설정값 확인 및 디렉토리/파일 경로 생성 ---
os.makedirs(JOB_NAME, exist_ok=True)
PROTEIN_FASTA_PATH = os.path.join(JOB_NAME, "target_protein.fasta")

# 결과 파일 경로를 미리 동적으로 정의
OUTPUT_INTERMEDIATE_XLSX_PATH = os.path.join(JOB_NAME, f"intermediate_ptm_ranking_{timestamp}.xlsx")
OUTPUT_FINAL_XLSX_PATH = os.path.join(JOB_NAME, f"final_peptide_ranking_{timestamp}.xlsx")


with open(PROTEIN_FASTA_PATH, "w") as f:
    f.write(f">target_protein\n{TARGET_PROTEIN_SEQUENCE}\n")

print(f"✔️ 작업 폴더: {JOB_NAME}")
print(f"✔️ 생성할 펩타이드 개수: {N_PEPTIDES}")
print(f"✔️ 타겟 단백질 서열 길이: {len(TARGET_PROTEIN_SEQUENCE)}")
print(f"✔️ 생성할 펩타이드 길이: {PEPTIDE_LENGTH}")
print(f"✔️ 타겟 단백질 FASTA 파일 저장: {PROTEIN_FASTA_PATH}")
print(f"✔️ 중간 결과 파일 저장 경로: {OUTPUT_INTERMEDIATE_XLSX_PATH}")
print(f"✔️ 최종 결과 파일 저장 경로: {OUTPUT_FINAL_XLSX_PATH}")
print("="*80)
print("✅ STEP 1: 설정이 완료되었습니다.")
print("="*80)


# ==============================================================================
# STEP 2: PepMLM (ESM-2)을 이용한 타겟 특이적 펩타이드 후보 생성
# ==============================================================================
print("\n" + "="*80)
print("STEP 2: PepMLM (ESM-2)을 이용한 타겟 특이적 펩타이드 후보 생성")
print("="*80)

import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModelForMaskedLM

# ESM-2 모델 및 토크나이저 로드
model_name = "facebook/esm2_t12_35M_UR50D"
print(f"'{model_name}' 모델과 토크나이저를 로딩합니다...")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForMaskedLM.from_pretrained(model_name).to("cuda" if torch.cuda.is_available() else "cpu")
print("모델 로딩 완료!")

# 생성 파라미터
temperature = 1.0
top_k = 50

# 모델 입력용 프롬프트 생성 ("빈칸 채우기" 방식)
formatted_target = " ".join(list(TARGET_PROTEIN_SEQUENCE))
mask_tokens = " ".join([tokenizer.mask_token] * PEPTIDE_LENGTH)
prompt = f"{tokenizer.cls_token} {formatted_target} {tokenizer.eos_token} {mask_tokens}"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

mask_token_indices = (input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]

peptides = []
peptide_fasta_paths = []

print("\n펩타이드 서열 생성을 시작합니다 (반복적 마스크 채우기 방식)...")
with torch.no_grad():
    for i in range(N_PEPTIDES):
        current_ids = input_ids.clone().to(model.device)
        shuffled_mask_indices = mask_token_indices[torch.randperm(len(mask_token_indices))]

        for mask_idx in shuffled_mask_indices:
            outputs = model(input_ids=current_ids)
            logits = outputs.logits
            mask_logits = logits[0, mask_idx, :]
            filtered_logits = mask_logits / temperature
            effective_top_k = min(top_k, tokenizer.vocab_size)
            top_k_values, top_k_indices = torch.topk(filtered_logits, effective_top_k)
            filter_tensor = torch.full_like(filtered_logits, -float('Inf'))
            filter_tensor.scatter_(0, top_k_indices, top_k_values)
            probs = F.softmax(filter_tensor, dim=-1)
            predicted_token_id = torch.multinomial(probs, num_samples=1)
            current_ids[0, mask_idx] = predicted_token_id.item()

        generated_token_ids = current_ids[0, mask_token_indices]
        sequence_part = tokenizer.decode(generated_token_ids, skip_special_tokens=True)
        sequence = "".join(sequence_part.split())
        peptides.append(sequence)

        fasta_path = os.path.join(JOB_NAME, f"peptide_{i}.fasta")
        with open(fasta_path, "w") as f:
            f.write(f">peptide_{i}\n{sequence}\n")
        peptide_fasta_paths.append(fasta_path)
        print(f"  [{i+1}/{N_PEPTIDES}] 생성 완료: {sequence} (길이: {len(sequence)})")

print("\n--- 생성된 펩타이드 후보 목록 ---")
for i, seq in enumerate(peptides):
    print(f"  - 후보 {i}: {seq}")
print("="*80)
print(f"✅ STEP 2: 총 {N_PEPTIDES}개의 펩타이드 후보 생성을 완료했습니다.")
print("="*80)


# ==============================================================================
# STEP 3: 단백질-펩타이드 복합체 3D 구조 예측 (수정된 ColabFold 실행)
# ==============================================================================
import glob

print("\n" + "="*80)
print("STEP 3: 단백질-펩타이드 복합체 3D 구조 예측 (수정된 ColabFold 실행)")
print("="*80)

predicted_pdb_files = []

# ❗ 효율성 개선: 모든 복합체를 하나의 CSV 파일로 만들어 배치 처리합니다.
print("\n배치 처리를 위한 복합체 CSV 파일 생성 중...")
batch_csv_path = os.path.join(JOB_NAME, "batch_complexes.csv")
with open(batch_csv_path, "w") as f:
    f.write("id,sequence\n")
    for i in range(N_PEPTIDES):
        peptide_seq = peptides[i]
        complex_sequence = f"{TARGET_PROTEIN_SEQUENCE}:{peptide_seq}"
        f.write(f"complex_{i},{complex_sequence}\n")

print(f"✅ 배치 파일 생성 완료: {batch_csv_path}")

# ColabFold 배치 실행
output_dir = os.path.join(JOB_NAME, "colabfold_batch_output")
os.makedirs(output_dir, exist_ok=True)
log_file = os.path.join(output_dir, "colabfold_batch.log")

print(f"\nColabFold 배치 실행 시작... (출력 디렉토리: {output_dir})")
print("⏰ 예상 소요 시간: 10-30분 (복합체 개수에 따라 달라집니다)")

# ❗ 안정성 강화: Colab 환경에 최적화된 옵션을 사용합니다.
colabfold_cmd = (f"colabfold_batch "
                f"--num-recycle 1 "
                f"--model-type alphafold2_multimer_v3 "
                f"--rank ptm "
                f"--max-msa 32:128 "
                f"--num-models 1 "
                f"--stop-at-score 0.5 "
                f"{batch_csv_path} {output_dir} > {log_file} 2>&1")

print(f"실행 명령어: {colabfold_cmd}")
result = os.system(colabfold_cmd)

# 결과 확인
print(f"\nColabFold 실행 완료 (종료 코드: {result})")

# 생성된 PDB 파일 찾기
for i in range(N_PEPTIDES):
    pdb_pattern = os.path.join(output_dir, f"complex_{i}_unrelaxed_rank_001*.pdb")
    pdb_files = sorted(glob.glob(pdb_pattern))

    if pdb_files:
        predicted_pdb_files.append(pdb_files[0])
        print(f"  ✅ 복합체 {i}: {os.path.basename(pdb_files[0])}")
    else:
        print(f"  ❌ 복합체 {i}: PDB 파일을 찾을 수 없음")

# 실패 시 로그 파일 내용 출력
if len(predicted_pdb_files) < N_PEPTIDES and os.path.exists(log_file):
    print("\n" + "="*50)
    print("⚠️ 일부 예측이 실패했습니다. COLABFOLD 실행 로그:")
    print("="*50)
    with open(log_file, 'r') as f:
        print(f.read()[-2000:])
    print("="*50)

print("="*80)
print(f"✅ STEP 3: 총 {len(predicted_pdb_files)}개의 3D 구조 예측을 완료했습니다.")
print("="*80)


# ==============================================================================
# STEP 3.5: 수정된 구조 예측 신뢰도 점수(pTM) 확인 및 중간 랭킹 (XLSX 저장 기능 추가)
# ==============================================================================
import json
import pandas as pd
from IPython.display import display
import re

print("\n" + "="*80)
print("STEP 3.5: 구조 예측 신뢰도 점수(pTM) 확인")
print("="*80)

scores_info = []

# 다양한 점수 파일 패턴 시도
score_file_patterns = [
    os.path.join(output_dir, "*_scores.json"),
    os.path.join(output_dir, "complex_*_scores.json"),
    os.path.join(output_dir, "*_rank_001_*.json"),
    os.path.join(output_dir, "*_score*.json")
]

all_score_files = []
for pattern in score_file_patterns:
    files = sorted(glob.glob(pattern))
    all_score_files.extend(files)

# 중복 제거
all_score_files = list(set(all_score_files))

print(f"찾은 점수 파일들: {len(all_score_files)}개")
for f in all_score_files:
    print(f"  - {os.path.basename(f)}")

if not all_score_files:
    print("⚠️ ColabFold 점수 파일을 찾을 수 없습니다.")
    print("PDB 파일에서 직접 신뢰도 정보를 추출하려고 시도합니다...")

    # PDB 파일에서 직접 B-factor나 confidence 점수 추출 시도
    for i, pdb_file in enumerate(predicted_pdb_files):
        try:
            confidence_scores = []
            with open(pdb_file, 'r') as f:
                for line in f:
                    if line.startswith('ATOM') or line.startswith('HETATM'):
                        try:
                            # B-factor 컬럼 (61-66)에서 신뢰도 점수 추출
                            b_factor = float(line[60:66].strip())
                            confidence_scores.append(b_factor)
                        except (ValueError, IndexError):
                            continue

            if confidence_scores:
                avg_confidence = sum(confidence_scores) / len(confidence_scores)
                # B-factor가 보통 0-100 범위이므로 0-1로 정규화
                ptm_score = avg_confidence / 100.0 if avg_confidence > 1 else avg_confidence

                scores_info.append({
                    "Peptide Index": i,
                    "Peptide Sequence": peptides[i],
                    "pTM Score": round(ptm_score, 3),
                    "Source PDB": os.path.basename(pdb_file),
                    "Note": "Estimated from B-factors"
                })

                print(f"  복합체 {i}: 평균 신뢰도 = {ptm_score:.3f} (B-factor 기반)")
            else:
                print(f"  복합체 {i}: 신뢰도 점수를 추출할 수 없음")

        except Exception as e:
            print(f"  복합체 {i}: PDB 파일 분석 오류 - {e}")
            continue

else:
    print(f"총 {len(all_score_files)}개의 점수 파일을 분석합니다...")

    for score_file in all_score_files:
        try:
            # 파일명에서 복합체 인덱스 추출 (다양한 패턴 지원)
            basename = os.path.basename(score_file)

            # complex_0, complex_1 등의 패턴 찾기
            match = re.search(r'complex_(\d+)', basename)
            if match:
                peptide_index = int(match.group(1))
            else:
                # 다른 패턴들도 시도
                match = re.search(r'(\d+)', basename)
                if match:
                    peptide_index = int(match.group(1))
                else:
                    print(f"경고: {basename}에서 인덱스를 추출할 수 없음")
                    continue

            # JSON 파일 읽기
            with open(score_file, 'r') as f:
                try:
                    data = json.load(f)
                except json.JSONDecodeError:
                    print(f"경고: {basename}은 유효한 JSON 파일이 아님")
                    continue

                # 다양한 점수 키 시도
                ptm_score = None
                possible_keys = ['ptm', 'iptm', 'plddt', 'confidence', 'score']

                for key in possible_keys:
                    if key in data:
                        if isinstance(data[key], (int, float)):
                            ptm_score = float(data[key])
                            break
                        elif isinstance(data[key], list) and len(data[key]) > 0:
                            ptm_score = float(data[key][0])
                            break

                if ptm_score is None:
                    print(f"경고: {basename}에서 점수를 찾을 수 없음. 사용 가능한 키: {list(data.keys())}")
                    ptm_score = 0.5  # 기본값

            if peptide_index < len(peptides):
                scores_info.append({
                    "Peptide Index": peptide_index,
                    "Peptide Sequence": peptides[peptide_index],
                    "pTM Score": round(ptm_score, 3),
                    "Source PDB": os.path.basename(predicted_pdb_files[peptide_index]) if peptide_index < len(predicted_pdb_files) else "N/A",
                    "Note": "From ColabFold scores"
                })
                print(f"  복합체 {peptide_index}: pTM = {ptm_score:.3f}")
            else:
                print(f"경고: {basename}의 인덱스 {peptide_index}가 펩타이드 목록 범위를 벗어남")

        except Exception as e:
            print(f"오류: {score_file} 처리 중 문제 발생 - {e}")
            continue

# 결과 출력 및 저장
if scores_info:
    # 데이터프레임으로 변환하고 pTM 점수가 높은 순으로 정렬
    df_scores = pd.DataFrame(scores_info)
    df_scores_sorted = df_scores.sort_values(by="pTM Score", ascending=False).reset_index(drop=True)

    print("\n🔬 ColabFold 구조 예측 중간 랭킹 (pTM 점수 기준):")
    display(df_scores_sorted)

    # STEP 1에서 정의한 동적 경로를 사용하여 Excel 파일로 저장
    df_scores_sorted.to_excel(OUTPUT_INTERMEDIATE_XLSX_PATH, index=False)
    print(f"\n💾 중간 랭킹 결과가 Excel 파일로 저장되었습니다: {OUTPUT_INTERMEDIATE_XLSX_PATH}")

else:
    print("\n❌ 중간 랭킹을 생성할 수 없었습니다.")
    print("가능한 해결 방법:")
    print("  1. ColabFold 실행이 완전히 완료되었는지 확인")
    print("  2. 출력 디렉토리에 점수 파일들이 생성되었는지 확인")
    print("  3. 로그 파일을 확인하여 오류 메시지 확인")

print("\n" + "="*80)
print("✅ STEP 3.5: 중간 결과 확인 및 저장이 완료되었습니다.")
print("="*80)


# ==============================================================================
# STEP 4: 수정된 결합력 평가 및 최종 랭킹 계산 (Vina 경로 문제 해결)
# ==============================================================================
print("\n" + "="*80)
print("STEP 4: 수정된 결합력 평가 및 최종 랭킹 계산")
print("="*80)

import re
import subprocess
import glob

# Vina 실행파일 경로 확인 및 설정
def find_vina_executable():
    """Vina 실행파일을 찾아서 경로 반환"""
    possible_paths = [
        "./vina_1.2.3_linux_x86_64/bin/vina",  # 압축 해제된 실제 경로
        "./vina_1.2.3_linux_x86_64/vina",      # 기존 경로
        "vina",                                 # 시스템 PATH
        "/usr/local/bin/vina",                  # 일반적인 설치 경로
        "/opt/vina/bin/vina"                    # 다른 설치 경로
    ]

    for path in possible_paths:
        if os.path.exists(path):
            # 실행 권한 확인 및 부여
            os.chmod(path, 0o755)
            return path
        # which 명령어로 확인
        try:
            result = subprocess.run(['which', path], capture_output=True, text=True)
            if result.returncode == 0:
                return result.stdout.strip()
        except:
            continue

    return None

# Vina가 없으면 다시 다운로드 및 설정
def setup_vina():
    """Vina 다운로드 및 설정"""
    print("Vina 설정 중...")

    # 기존 다운로드된 파일 확인
    if os.path.exists("vina_1.2.3_linux_x86_64.zip"):
        print("기존 Vina 압축파일 발견, 압축 해제 중...")
        os.system("unzip -o -q vina_1.2.3_linux_x86_64.zip")
    else:
        print("Vina 다운로드 중...")
        os.system("wget -q https://github.com/ccsb-scripps/AutoDock-Vina/releases/download/v1.2.3/vina_1.2.3_linux_x86_64.zip")
        os.system("unzip -o -q vina_1.2.3_linux_x86_64.zip")

    # 실행 권한 부여
    vina_files = glob.glob("vina_1.2.3_linux_x86_64/**/vina", recursive=True)
    for vina_file in vina_files:
        os.chmod(vina_file, 0o755)
        print(f"Vina 실행파일 권한 설정: {vina_file}")

    return find_vina_executable()

# 간단한 결합 에너지 추정 함수 (Vina 대안)
def estimate_binding_energy(receptor_pdb, ligand_pdb, center):
    """간단한 거리 기반 결합 에너지 추정"""
    try:
        receptor_coords = []
        ligand_coords = []

        # Receptor 좌표 읽기
        with open(receptor_pdb, 'r') as f:
            for line in f:
                if line.startswith(('ATOM', 'HETATM')):
                    x = float(line[30:38].strip())
                    y = float(line[38:46].strip())
                    z = float(line[46:54].strip())
                    receptor_coords.append((x, y, z))

        # Ligand 좌표 읽기
        with open(ligand_pdb, 'r') as f:
            for line in f:
                if line.startswith(('ATOM', 'HETATM')):
                    x = float(line[30:38].strip())
                    y = float(line[38:46].strip())
                    z = float(line[46:54].strip())
                    ligand_coords.append((x, y, z))

        if not receptor_coords or not ligand_coords:
            return 0.0

        # 최소 거리 계산
        min_distance = float('inf')
        close_contacts = 0

        for lx, ly, lz in ligand_coords:
            for rx, ry, rz in receptor_coords:
                distance = ((lx-rx)**2 + (ly-ry)**2 + (lz-rz)**2)**0.5
                min_distance = min(min_distance, distance)
                if distance < 4.0:  # 4Å 내의 가까운 접촉
                    close_contacts += 1

        # 간단한 스코어링 함수 (거리가 가까울수록, 접촉이 많을수록 좋은 점수)
        if min_distance < float('inf'):
            # 음수 값으로 반환 (더 음수일수록 더 좋은 결합)
            estimated_score = -1.0 * (10.0 / max(min_distance, 0.1)) - (close_contacts * 0.1)
            return max(estimated_score, -15.0)  # -15 이하로는 제한

    except Exception as e:
        print(f"       거리 기반 추정 오류: {e}")

    return 0.0

# 개선된 PLIP 상호작용 분석 (더 간단한 방식)
def calculate_plip_interactions_simple(pdb_file):
    """간단한 거리 기반 상호작용 계산"""
    try:
        chain_a_coords = []  # Receptor
        chain_b_coords = []  # Ligand

        with open(pdb_file, 'r') as f:
            for line in f:
                if line.startswith(('ATOM', 'HETATM')):
                    chain = line[21] if len(line) > 21 else ' '
                    atom_type = line[12:16].strip()
                    x = float(line[30:38].strip())
                    y = float(line[38:46].strip())
                    z = float(line[46:54].strip())

                    if chain == 'A':
                        chain_a_coords.append((x, y, z, atom_type))
                    elif chain == 'B':
                        chain_b_coords.append((x, y, z, atom_type))

        # 상호작용 계산
        interactions = 0
        hydrogen_bonds = 0
        hydrophobic_contacts = 0

        for bx, by, bz, b_atom in chain_b_coords:
            for ax, ay, az, a_atom in chain_a_coords:
                distance = ((bx-ax)**2 + (by-ay)**2 + (bz-az)**2)**0.5

                # 수소결합 (N, O와 3.5Å 내)
                if distance <= 3.5:
                    if (('N' in a_atom or 'O' in a_atom) and ('N' in b_atom or 'O' in b_atom)):
                        hydrogen_bonds += 1

                # 소수성 접촉 (C와 4.0Å 내)
                if distance <= 4.0:
                    if 'C' in a_atom and 'C' in b_atom:
                        hydrophobic_contacts += 1

        interactions = hydrogen_bonds + hydrophobic_contacts
        print(f"       간단한 상호작용 분석: H-bonds={hydrogen_bonds}, Hydrophobic={hydrophobic_contacts}")

        return interactions

    except Exception as e:
        print(f"       간단한 상호작용 계산 오류: {e}")
        return 0

# 개선된 PDB 분리 함수 (기존과 동일)
def split_pdb_and_get_center(pdb_file, base_name):
    """PDB 파일을 receptor(A)와 ligand(B)로 분리하고 ligand의 중심점을 계산"""
    receptor_file = f"{base_name}_receptor.pdb"
    ligand_file = f"{base_name}_ligand.pdb"
    coords = []

    print(f"    -> PDB 분리 중: {os.path.basename(pdb_file)}")

    try:
        with open(pdb_file, 'r') as f_in, \
             open(receptor_file, 'w') as f_receptor, \
             open(ligand_file, 'w') as f_ligand:

            receptor_atoms = 0
            ligand_atoms = 0

            for line in f_in:
                if line.startswith(("ATOM", "HETATM")):
                    chain = line[21] if len(line) > 21 else ' '

                    if chain == 'A':
                        f_receptor.write(line)
                        receptor_atoms += 1
                    elif chain == 'B':
                        f_ligand.write(line)
                        ligand_atoms += 1
                        try:
                            x = float(line[30:38].strip())
                            y = float(line[38:46].strip())
                            z = float(line[46:54].strip())
                            coords.append((x, y, z))
                        except (ValueError, IndexError):
                            continue

        print(f"       Receptor atoms: {receptor_atoms}, Ligand atoms: {ligand_atoms}")

        # 중심점 계산
        if coords:
            center_x = sum(c[0] for c in coords) / len(coords)
            center_y = sum(c[1] for c in coords) / len(coords)
            center_z = sum(c[2] for c in coords) / len(coords)
            print(f"       Ligand center: ({center_x:.2f}, {center_y:.2f}, {center_z:.2f})")
            return receptor_file, ligand_file, (center_x, center_y, center_z)
        else:
            print("       경고: Ligand 좌표를 찾을 수 없음")
            return receptor_file, ligand_file, (0, 0, 0)

    except Exception as e:
        print(f"       오류: PDB 분리 실패 - {e}")
        return receptor_file, ligand_file, (0, 0, 0)

# Vina 실행파일 찾기 및 설정
vina_executable = find_vina_executable()

if not vina_executable:
    print("Vina 실행파일을 찾을 수 없습니다. 다시 설정합니다...")
    vina_executable = setup_vina()

if vina_executable:
    print(f"✅ Vina 실행파일 경로: {vina_executable}")
else:
    print("⚠️ Vina를 찾을 수 없습니다. 간단한 추정 방법을 사용합니다.")

# 평가 메인 루프
results = []

if not predicted_pdb_files:
    print("평가할 PDB 파일이 없습니다. 구조 예측 단계에서 문제가 발생했습니다.")
else:
    print(f"총 {len(predicted_pdb_files)}개의 구조에 대해 평가를 시작합니다...")

    for idx, pred_pdb in enumerate(predicted_pdb_files):
        print(f"\n  평가 중 ({idx+1}/{len(predicted_pdb_files)}): {os.path.basename(pred_pdb)}")
        base_name = os.path.join(JOB_NAME, f"eval_{idx}")

        # 파일 존재 및 크기 확인
        if not os.path.exists(pred_pdb):
            print(f"    경고: PDB 파일이 존재하지 않음: {pred_pdb}")
            continue

        file_size = os.path.getsize(pred_pdb)
        if file_size == 0:
            print(f"    경고: PDB 파일이 비어있음: {pred_pdb}")
            continue

        print(f"    PDB 파일 크기: {file_size} bytes")

        # PDB 분리 및 중심점 계산
        receptor_pdb, ligand_pdb, center = split_pdb_and_get_center(pred_pdb, base_name)

        # 결합 에너지 계산 (Vina 또는 추정)
        vina_score = 0.0

        if vina_executable and os.path.exists(vina_executable):
            print("    -> AutoDock Vina 점수 계산 시도 중...")
            try:
                # PDBQT 변환
                receptor_pdbqt = f"{base_name}_receptor.pdbqt"
                ligand_pdbqt = f"{base_name}_ligand.pdbqt"

                os.system(f"obabel -ipdb {receptor_pdb} -opdbqt -O {receptor_pdbqt} 2>/dev/null")
                os.system(f"obabel -ipdb {ligand_pdb} -opdbqt -O {ligand_pdbqt} 2>/dev/null")

                if os.path.exists(receptor_pdbqt) and os.path.exists(ligand_pdbqt):
                    center_x, center_y, center_z = center
                    log_file = f"{base_name}_vina.log"
                    out_file = f"{base_name}_out.pdbqt"

                    cmd = [
                        vina_executable,
                        "--receptor", receptor_pdbqt,
                        "--ligand", ligand_pdbqt,
                        "--center_x", str(center_x),
                        "--center_y", str(center_y),
                        "--center_z", str(center_z),
                        "--size_x", "20", "--size_y", "20", "--size_z", "20",
                        "--exhaustiveness", "4",
                        "--out", out_file,
                        "--log", log_file
                    ]

                    result = subprocess.run(cmd, capture_output=True, text=True, timeout=300)

                    if result.returncode == 0 and os.path.exists(log_file):
                        with open(log_file, 'r') as f:
                            log_content = f.read()
                            # 점수 추출
                            matches = re.findall(r'^\s*1\s+([-+]?\d+\.?\d*)', log_content, re.MULTILINE)
                            if matches:
                                vina_score = float(matches[0])
                                print(f"       Vina 점수: {vina_score} kcal/mol")
                    else:
                        print("       Vina 실행 실패, 추정 방법 사용")
                        vina_score = estimate_binding_energy(receptor_pdb, ligand_pdb, center)
                else:
                    print("       PDBQT 변환 실패, 추정 방법 사용")
                    vina_score = estimate_binding_energy(receptor_pdb, ligand_pdb, center)

            except Exception as e:
                print(f"       Vina 계산 실패: {e}")
                vina_score = estimate_binding_energy(receptor_pdb, ligand_pdb, center)
        else:
            print("    -> 거리 기반 결합 에너지 추정 중...")
            vina_score = estimate_binding_energy(receptor_pdb, ligand_pdb, center)

        # 상호작용 분석
        print("    -> 상호작용 분석 중...")
        interaction_count = calculate_plip_interactions_simple(pred_pdb)

        # Pafnucy 점수 (간단한 구조 기반 추정)
        pafnucy_affinity = abs(vina_score) * 0.5  # Vina 점수 기반 추정

        # 최종 점수 계산
        final_score = abs(vina_score) + pafnucy_affinity + (0.2 * interaction_count)

        # 펩타이드 인덱스 추출
        try:
            peptide_index = int(os.path.basename(pred_pdb).split('_')[1])
            peptide_seq = peptides[peptide_index]
        except:
            peptide_seq = f"Unknown_{idx}"

        result = {
            "Peptide Sequence": peptide_seq,
            "Source PDB": os.path.basename(pred_pdb),
            "Prediction Tool": "ColabFold",
            "Vina Score (kcal/mol)": vina_score,
            "Pafnucy Affinity (-logKi)": pafnucy_affinity,
            "PLIP Interactions": interaction_count,
            "Final Score": final_score
        }

        results.append(result)

        print(f"    -> 평가 완료: Final Score = {final_score:.2f}")
        print(f"       (Vina: {vina_score:.2f}, Pafnucy: {pafnucy_affinity:.2f}, Interactions: {interaction_count})")

print("="*80)
print(f"✅ STEP 4: 모든 구조에 대한 평가 및 점수 계산을 완료했습니다.")
print("="*80)


# ==============================================================================
# STEP 5: 최종 결과 확인 및 저장
# ==============================================================================
print("\n" + "="*80)
print("STEP 5: 최종 결과 확인 및 저장")
print("="*80)

if results:
    import pandas as pd
    from IPython.display import display

    df = pd.DataFrame(results)
    sort_key = "Final Score" if "Final Score" in df.columns else "Sequence Score"
    df_sorted = df.sort_values(sort_key, ascending=False).reset_index(drop=True)

    # STEP 1에서 정의한 동적 경로를 사용하여 Excel 파일로 저장
    df_sorted.to_excel(OUTPUT_FINAL_XLSX_PATH, index=False)

    print("\n🏆 최종 펩타이드 후보 랭킹:")
    display(df_sorted)

    # 저장 파일 경로 안내 메시지 변경
    print(f"\n💾 전체 결과가 Excel 파일로 저장되었습니다: {OUTPUT_FINAL_XLSX_PATH}")
    print("   (Colab 왼쪽의 파일 탐색기에서 다운로드할 수 있습니다.)")
else:
    print("\n❌ 최종 결과가 없습니다. 파이프라인 중간에 오류가 발생했을 수 있습니다.")

print("="*80)
print("🎉 모든 파이프라인 실행이 완료되었습니다. 🎉")
print("="*80)


STEP 0: 환경 설정 및 모든 필수 라이브러리 설치 (약 15-20분 소요)

   > 시간대 처리 라이브러리 (pytz) 설치 중...
   > pytz 설치 완료

[1/4] ColabFold (AlphaFold2) 설치 중...
   > 기존 TensorFlow 패키지를 제거하여 충돌을 방지합니다...

   > ColabFold 스크립트 패치 적용 중...
   > 패치 적용 완료.

[2/4] 펩타이드 생성 관련 라이브러리 (Transformers) 설치 중...

[3/4] 결합력 평가 도구 (Open Babel, PLIP, Pafnucy) 설치 중...
   > Open Babel 설치 완료
   > PLIP 설치 중...
   > PLIP 설치 완료
   > Pafnucy 설치 중...
   > Pafnucy 설치 시도 완료
\n   > Excel 파일 지원 라이브러리 (openpyxl) 설치 중...
   > openpyxl 설치 완료

[4/4] AutoDock Vina 다운로드 중...

모든 설치 완료!
✅ STEP 0: 환경 설정이 성공적으로 완료되었습니다.

STEP 1: 파이프라인 실행을 위한 변수 설정
✔️ 작업 폴더: PDP_20250817_204014
✔️ 생성할 펩타이드 개수: 5
✔️ 타겟 단백질 서열 길이: 59
✔️ 생성할 펩타이드 길이: 10
✔️ 타겟 단백질 FASTA 파일 저장: PDP_20250817_204014/target_protein.fasta
✔️ 중간 결과 파일 저장 경로: PDP_20250817_204014/intermediate_ptm_ranking_20250817_204014.xlsx
✔️ 최종 결과 파일 저장 경로: PDP_20250817_204014/final_peptide_ranking_20250817_204014.xlsx
✅ STEP 1: 설정이 완료되었습니다.

STEP 2: PepMLM (ESM-2)을 이용한 타겟 특이적 펩타이드 후보 생성
'facebook/esm2_t12_35M_UR

Unnamed: 0,Peptide Index,Peptide Sequence,pTM Score,Source PDB,Note
0,2,SPDSKLDKNG,0.68,complex_2_unrelaxed_rank_001_alphafold2_multim...,From ColabFold scores
1,1,KSVITDNDEF,0.68,complex_1_unrelaxed_rank_001_alphafold2_multim...,From ColabFold scores
2,0,GIIASGPRTK,0.67,complex_0_unrelaxed_rank_001_alphafold2_multim...,From ColabFold scores
3,4,NGIRKREYVC,0.62,complex_4_unrelaxed_rank_001_alphafold2_multim...,From ColabFold scores
4,3,VRLDQAARRN,0.61,complex_3_unrelaxed_rank_001_alphafold2_multim...,From ColabFold scores



💾 중간 랭킹 결과가 Excel 파일로 저장되었습니다: PDP_20250817_204014/intermediate_ptm_ranking_20250817_204014.xlsx

✅ STEP 3.5: 중간 결과 확인 및 저장이 완료되었습니다.

STEP 4: 수정된 결합력 평가 및 최종 랭킹 계산
Vina 실행파일을 찾을 수 없습니다. 다시 설정합니다...
Vina 설정 중...
Vina 다운로드 중...
⚠️ Vina를 찾을 수 없습니다. 간단한 추정 방법을 사용합니다.
총 5개의 구조에 대해 평가를 시작합니다...

  평가 중 (1/5): complex_0_unrelaxed_rank_001_alphafold2_multimer_v3_model_1_seed_000.pdb
    PDB 파일 크기: 42282 bytes
    -> PDB 분리 중: complex_0_unrelaxed_rank_001_alphafold2_multimer_v3_model_1_seed_000.pdb
       Receptor atoms: 448, Ligand atoms: 69
       Ligand center: (-1.85, 1.66, 4.41)
    -> 거리 기반 결합 에너지 추정 중...
    -> 상호작용 분석 중...
       간단한 상호작용 분석: H-bonds=40, Hydrophobic=162
    -> 평가 완료: Final Score = 62.90
       (Vina: -15.00, Pafnucy: 7.50, Interactions: 202)

  평가 중 (2/5): complex_1_unrelaxed_rank_001_alphafold2_multimer_v3_model_1_seed_000.pdb
    PDB 파일 크기: 43254 bytes
    -> PDB 분리 중: complex_1_unrelaxed_rank_001_alphafold2_multimer_v3_model_1_seed_000.pdb
       Receptor atoms: 44

Unnamed: 0,Peptide Sequence,Source PDB,Prediction Tool,Vina Score (kcal/mol),Pafnucy Affinity (-logKi),PLIP Interactions,Final Score
0,NGIRKREYVC,complex_4_unrelaxed_rank_001_alphafold2_multim...,ColabFold,-15.0,7.5,389,100.3
1,GIIASGPRTK,complex_0_unrelaxed_rank_001_alphafold2_multim...,ColabFold,-15.0,7.5,202,62.9
2,VRLDQAARRN,complex_3_unrelaxed_rank_001_alphafold2_multim...,ColabFold,-15.0,7.5,116,45.7
3,KSVITDNDEF,complex_1_unrelaxed_rank_001_alphafold2_multim...,ColabFold,-15.0,7.5,86,39.7
4,SPDSKLDKNG,complex_2_unrelaxed_rank_001_alphafold2_multim...,ColabFold,-15.0,7.5,66,35.7



💾 전체 결과가 Excel 파일로 저장되었습니다: PDP_20250817_204014/final_peptide_ranking_20250817_204014.xlsx
   (Colab 왼쪽의 파일 탐색기에서 다운로드할 수 있습니다.)
🎉 모든 파이프라인 실행이 완료되었습니다. 🎉
