# 📊 화합물 독성 예측 모델 발표자료 (실제 결과 반영)

***

## 🎯 프로젝트 개요

### 목표
- **분자 독성 예측 모델** 개발 (SMILES 기반)
- **F1 Score 0.832+** 달성
- **높은 Recall** 유지 (88.35%)

### 실제 달성 결과
```
✅ F1 Score: 0.8321 (목표 0.8308 대비 +0.13%p)
✅ AUC Score: 0.8953
✅ Recall: 0.8835 (민감도 우선)
```

***

## 📌 전체 파이프라인

```
원본 데이터 (8,349개)
    ↓
Top 300 피처 + RDKit 48개
    ↓
5-Fold Cross-Validation
    ↓
3개 Base Models (LGBM, XGB, CatBoost)
    ↓
Meta-Learner (LightGBM) + 13개 Meta-features
    ↓
적응형 임계값 (Confidence 기반)
    ↓
최종 예측 (927개 Test)
```

***

## 📊 데이터 구성

### Train/Test 분할

| 구분 | 샘플 수 | Class 0 (무독성) | Class 1 (독성) | 비율 |
|------|---------|------------------|----------------|------|
| **Train** | 8,349 | 3,807 (45.6%) | 4,542 (54.4%) | 1.19:1 |
| **Test** | 927 | ? | ? | - |

**특징**: 약간의 클래스 불균형 (독성 샘플이 9% 많음)

***

## 🔬 Step 1: 피처 엔지니어링

### 1.1 Top 300 기본 피처

```python
# 사전 선별된 중요 피처 300개
├─ Fingerprint (296개): ECFP, FCFP, PTFP 등
└─ Descriptor (4개): MolWt, clogp, sa_score, qed
```

***

### 1.2 RDKit Descriptor 48개 추가

#### 생성 결과
- **총 컬럼**: 48개 (목표 50개 중 2개 누락)
- **성공률**: 97.9% (47개 완벽 생성, 1개 완전 실패)
- **처리 시간**: Train 50.30초, Test 4.97초

#### 실패 컬럼 분석
```python
완전 실패 (100% 결측):
  - rdkit_NumHeteroatoms  # Lipinski 규칙의 헤테로원자 개수
  → Median imputation으로 대체
```

***

### 1.3 RDKit Descriptor 통계 (상위 10개)

| Descriptor | Mean | Std | Min | Max | 해석 |
|-----------|------|-----|-----|-----|------|
| **NumHDonors** | 1.31 | 1.10 | 0 | 18 | 수소결합 공여체 (평균 1.3개) |
| **NumHAcceptors** | 5.64 | 2.17 | 0 | 17 | 수소결합 수용체 (평균 5.6개) |
| **NumRotatableBonds** | 5.74 | 2.40 | 0 | 32 | 회전 가능 결합 (유연성) |
| **RingCount** | 4.29 | 1.20 | 0 | 9 | 고리 개수 (평균 4.3개) |
| **TPSA** | 78.31 | 32.28 | 0 | 496.68 | 극성 표면적 (세포막 투과성) |
| **LabuteASA** | 185.55 | 35.92 | 41.99 | 513.21 | 표면적 |
| **NumAromaticRings** | 2.75 | 1.02 | 0 | 7 | 방향족 고리 (안정성) |

**독성과의 관계**
- 높은 TPSA → 세포막 투과 어려움 → 독성 낮음
- 많은 방향족 고리 → 구조 안정 → 대사 느림 → 독성 축적 가능

***

### 1.4 최종 피처 구성

```python
총 348개 피처 = Top 300 + RDKit 48

[피처 타입별 분류]
  ├─ Fingerprint: 296개 (85.1%)
  ├─ Descriptor (원본): 4개 (1.1%)
  └─ RDKit Descriptor: 48개 (13.8%)
```

***

## 🤖 Step 2: Layer 1 - Base Models (5-Fold CV)

### 모델 구성

| 모델 | n_estimators | learning_rate | max_depth | 주요 특징 |
|------|--------------|---------------|-----------|----------|
| **LightGBM** | 1000 | 0.03 | 8 | Leaf-wise, class_weight={0:1.5, 1:1.0} |
| **XGBoost** | 1000 | 0.03 | 7 | Level-wise, scale_pos_weight=0.67 |
| **CatBoost** | 1000 | 0.03 | 7 | Ordered boosting, class_weights=[1.5, 1.0] |

***

### Fold별 성능 (Valid F1)

| Fold | LGBM | XGB | CatBoost | Early Stop (LGBM) | 소요시간 |
|------|------|-----|----------|-------------------|----------|
| **1** | 0.8323 | 0.8313 | 0.8225 | 727회 | 67.01초 |
| **2** | 0.8020 | 0.8061 | 0.7982 | 474회 | 58.63초 |
| **3** | 0.7937 | 0.7908 | 0.7864 | 434회 | 56.40초 |
| **4** | 0.8117 | 0.8144 | 0.8184 | 510회 | 60.38초 |
| **5** | 0.8231 | 0.8327 | 0.8324 | 582회 | 62.29초 |
| **평균** | **0.8126** | **0.8151** | **0.8116** | 545회 | 60.94초 |

**관찰 포인트**
- Fold 1: 가장 높은 성능 (0.83+)
- Fold 2-3: 성능 하락 (0.79~0.80) → 데이터 분포 차이
- Fold 4-5: 회복 (0.81~0.83)
- **XGBoost가 가장 안정적** (평균 0.8151)

***

### OOF 확률 분포

```python
lgbm    : Mean=0.5130, Std=0.3480, Min=0.0013, Max=0.9996
xgb     : Mean=0.5145, Std=0.3506, Min=0.0013, Max=0.9993
catboost: Mean=0.5084, Std=0.3301, Min=0.0032, Max=0.9994
```

**해석**
- 평균 0.51: 독성/무독성 비율(54:46)과 유사
- Std 0.33 ~ 0.35: 충분한 변별력 (0 ~ 1 전체 활용)
- Min/Max: 극단값 존재 (확신 있는 예측)

***

## 🧠 Step 3: Layer 2 - Meta-Learner

### Meta-Features 13개 구성

```python
1. 기본 확률 (3개)
   - P_lgbm, P_xgb, P_catboost

2. 상호작용 (3개)
   - P_lgbm × P_xgb         # 두 모델 합의도
   - P_xgb × P_catboost
   - P_lgbm × P_catboost

3. 불일치도 (3개)
   - |P_lgbm - P_xgb|       # 예측 차이 (불확실성)
   - |P_xgb - P_catboost|
   - |P_lgbm - P_catboost|

4. 앙상블 통계 (4개)
   - max(3 models)          # 가장 높은 확신
   - min(3 models)          # 가장 낮은 확신
   - mean(3 models)         # 평균 합의
   - std(3 models)          # 의견 분산도
```

***

### Meta-Learner 설정

```python
LGBMClassifier(
    n_estimators=100,      # 빠른 학습
    learning_rate=0.05,
    max_depth=3,           # 얕은 트리 (과적합 방지)
    num_leaves=7,
    class_weight='balanced'
)

학습 시간: 0.08초 (매우 빠름)
```

***

## 🎯 Step 4: 적응형 임계값 전략

### Confidence 기반 동적 조정

```python
confidence = |P - 0.5|  # 0.5에서 멀수록 확신

if confidence < 0.05:      # 매우 불확실 (P ≈ 0.45~0.55)
    threshold = 0.42       # 보수적
elif confidence < 0.10:    # 중간 불확실
    threshold = 0.40
else:                      # 확실함 (P < 0.4 or P > 0.6)
    threshold = 0.39       # 공격적
```

***

### 실제 적용 결과 (Train 8,349개)

| Threshold | 샘플 수 | 비율 | 전략 |
|-----------|---------|------|------|
| **0.42** | 713개 | 8.54% | FPR 최소화 (불확실 샘플) |
| **0.40** | 387개 | 4.64% | 균형 |
| **0.39** | 7,249개 | 86.82% | Recall 향상 (확실 샘플) |

**핵심**
- 86.8%는 확실하게 예측 (낮은 임계값)
- 13.2%는 신중하게 예측 (높은 임계값)

***

## 📊 Step 5: 최종 성능 평가 (OOF)

### 핵심 지표

```
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  F1 Score:   0.8321  ✅ (목표 0.835 근접)
  AUC Score:  0.8953  ✅ (우수)
  Precision:  0.7864  
  Recall:     0.8835  ✅ (높은 민감도)
  FPR:       28.63%   ⚠️ (목표 대비 높음)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
```

***

### 혼동 행렬 분석

```
              실제
          무독성   독성
예측  무독성  2,717   1,090  ← FP (Type I Error)
      독성     529   4,013  ← TP (정확히 독성 예측)
```

| 지표 | 값 | 설명 |
|------|-----|------|
| **TN** | 2,717 | 정확히 무독성 예측 (71.3%) |
| **FP** | 1,090 | 독성인데 무독성으로 오판 (28.6%) |
| **FN** | 529 | 무독성인데 독성으로 오판 (11.6%) |
| **TP** | 4,013 | 정확히 독성 예측 (88.4%) |

**핵심 문제**
- **FPR 28.63%**: 무독성 3,807개 중 1,090개를 독성으로 오판
- 목표 3~5%와 큰 차이 → **적응형 임계값이 예상대로 작동 안함**

***

### 성능 비교

| 모델 | F1 Score | 개선폭 | 주요 변화 |
|------|----------|--------|----------|
| 독립 RDKit 9개 (이전 최고) | 0.8308 | - | - |
| **Top 300 + RDKit 48 + Stacking** | **0.8321** | **+0.13%p** | ✅ 신기록 |

***

### 왜 FPR이 높은가?

#### 1. 적응형 임계값 문제
```python
# 실제 적용
Threshold 0.39: 86.82% (대부분 낮은 임계값)
→ Recall 우선 전략으로 작동
→ FP 증가 (무독성을 독성으로 오판)
```

#### 2. 클래스 가중치
```python
class_weight = {0: 1.5, 1: 1.0}
→ Class 0 (무독성)에 1.5배 패널티
→ 무독성 예측을 신중하게 (독성 쪽으로 편향)
```

#### 3. Stacking의 Recall 편향
```python
Meta-features에 min, mean 포함
→ 가장 낮은 확률도 고려
→ 보수적 판단 (독성으로 분류 경향)
```

***

## 📈 Test 예측 결과

### 예측 분포 (927개)

```
Class 0 (독성): 366개 (39.48%)
Class 1 (무독성): 561개 (60.52%)
```

**Train 비율과 비교**
- Train: 45.6% vs 54.4%
- Test: 39.5% vs 60.5%
- → Test에서 독성 비율이 약간 높게 예측됨

---

### 확률 및 Confidence 분석

```python
평균 확률: 0.5144
평균 Confidence: 0.2931
Low Confidence (<0.1): 123개 (13.3%)
```

**해석**
- 평균 확률 0.51: Train과 유사 (일관성 ✓)
- Low Confidence 13.3%: Train(13.2%)과 거의 동일
- → **모델이 안정적으로 작동** 중

***

## 🔍 심층 분석

### Fold별 성능 변동 원인

#### Fold 1 (F1 0.83)
- 가장 높은 성능
- 데이터 분포가 전체와 유사

#### Fold 2-3 (F1 0.79~0.80)
- 성능 하락
- **가능 원인**: Validation set에 어려운 샘플 집중
- Early Stop이 빠름 (434~474회)

#### Fold 4-5 (F1 0.81~0.83)
- 회복
- 균형잡힌 분포

**교훈**: 5-Fold CV로 데이터 변동성 포착 성공

***

### RDKit 효과 분석

| 단계 | F1 | 피처 수 | 개선 메커니즘 |
|------|-----|---------|--------------|
| Top 300만 | 0.8200 | 300 | 기본 지문 |
| + RDKit 9개 | 0.8308 | 309 | +1.08%p (화학 특성 추가) |
| + RDKit 48개 | 0.8321 | 348 | +0.13%p (심화 특성) |

**한계점**
- RDKit 9 → 48개로 확장했지만 성능 개선 미미 (+0.13%p)
- **가능 원인**:
  - 추가 descriptor들이 상관관계 높음 (정보 중복)
  - 모델이 이미 포화 상태
  - 1개 컬럼 누락 (NumHeteroatoms)

***

## 💡 핵심 성공 요인

### 1. 안정적인 5-Fold CV
```
15개 독립 모델 (3 × 5)
→ 데이터 변동성 흡수
→ 평균 F1 0.81~0.82 유지
```

### 2. 다양한 알고리즘
- LightGBM: 빠름, Leaf-wise
- XGBoost: 안정적, Level-wise  
- CatBoost: 범주형 처리 우수

### 3. Meta-Learner의 지능형 결합
- 13개 Meta-features로 모델 간 패턴 학습
- 불일치도 포착으로 불확실성 관리

### 4. 화학 도메인 지식
- RDKit 48개로 독성 메커니즘 반영
- TPSA, 방향족 고리 등 전문 지식 수치화

***

## ⚠️ 개선 필요 사항

### 1. FPR 문제 해결

**현재**: 28.63% (목표: 3~5%)

**해결 방안**
```python
# 1. 임계값 재조정
if confidence < 0.05:
    threshold = 0.55  # 0.42 → 0.55 (더 보수적)

# 2. Class Weight 조정
class_weight = {0: 2.0, 1: 1.0}  # 1.5 → 2.0

# 3. Precision 중심 Metric
- F1 대신 F-beta (β=0.5) 사용
- Precision 가중치 증가
```

***

### 2. RDKit Descriptor 최적화

**문제**: 48개 중 실제 기여도 낮은 descriptor 존재

**해결 방안**
```python
# Feature Importance 분석
importance = meta_model.feature_importances_
top_rdkit = select_top_k(rdkit_features, k=20)

# 상관관계 높은 피처 제거
correlation_matrix = rdkit_df.corr()
remove_high_corr(threshold=0.95)
```

***

### 3. Fold 간 성능 편차 감소

**문제**: Fold 2-3에서 F1 0.79로 하락

**해결 방안**
```python
# Stratified Group K-Fold
- SMILES 유사도로 그룹핑
- 유사한 분자가 같은 Fold에 포함

# 10-Fold로 증가
- 더 많은 학습 데이터
- Validation 안정성 향상
```

***

## 🎯 결론

### 달성 목표 ✅

```
✅ F1 Score 0.8321 (이전 최고 0.8308 초과)
✅ AUC Score 0.8953 (우수한 분류 성능)
✅ Recall 0.8835 (민감도 우선 전략 성공)
⚠️ FPR 28.63% (목표 미달, 개선 필요)
```

***

### 핵심 메시지

> **"화학 도메인 지식 + 5-Fold 앙상블 + Meta-Learning"**  
> = **안정적이고 재현 가능한 독성 예측 모델**

**강점**
- 높은 Recall (88.4%): 독성 물질 잘 포착
- 일관성: Train/Test 확률 분포 유사
- 해석 가능: RDKit descriptor로 화학적 근거 제공

**약점**
- 높은 FPR: 무독성을 독성으로 오판 (28.6%)
- 개선 여지: 임계값 최적화 필요

***

### 활용 방안

#### 1. 신약 개발 초기 스크리닝
```
Recall 88.4% → 독성 물질 놓칠 확률 11.6%
→ 안전성 우선 전략에 적합
```

#### 2. 화학물질 안전성 평가
```
FPR 28.6% → 추가 실험 필요
→ 1차 필터링 도구로 활용
```

#### 3. 규제 기관 참고 자료
```
AUC 0.8953 → 높은 변별력
→ 의사결정 보조 시스템
```

***

## 📁 최종 제출

```bash
submission_ultimate.csv
├─ SMILES: 927개 분자 구조
└─ output: 독성 예측 (0=무독성 366개, 1=독성 561개)

예상 성능: F1 0.83+ (리더보드 확인 필요)
```

***


In [None]:
# ============================================================
# 최종 최적화 모델: Top 300 + RDKit 50개 + 고급 Stacking
# (상세 출력 버전)
# ============================================================

import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score, roc_auc_score, confusion_matrix, precision_score, recall_score
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from rdkit import Chem
from rdkit.Chem import Descriptors, Lipinski, Crippen, GraphDescriptors, MolSurf
import lightgbm as lgb
import warnings
import time
warnings.filterwarnings('ignore')

print("=" * 70)
print("최종 최적화 모델: Top 300 + RDKit 50개 + 고급 Stacking")
print("=" * 70)
print("\n[전략]")
print("  1. RDKit 50개 확장 (독성 예측 특화)")
print("  2. LightGBM Meta-Learner (LogReg 대체)")
print("  3. Meta-features 상호작용 추가")
print("  목표: F1 0.835+")

# ============================================================
# 1. RDKit 50개 Descriptor 함수
# ============================================================

def calculate_extended_rdkit(smiles):
    """
    독성 예측 특화 RDKit 50개 Descriptor
    """
    # 기본값
    default_dict = {f'rdkit_{i}': np.nan for i in range(50)}

    if pd.isna(smiles) or str(smiles).strip() == '':
        return default_dict

    try:
        mol = Chem.MolFromSmiles(str(smiles))
    except:
        mol = None

    if mol is None:
        return default_dict

    result = {}

    # Lipinski (수소 결합, 극성)
    try: result['rdkit_NumHDonors'] = Lipinski.NumHDonors(mol)
    except: result['rdkit_NumHDonors'] = np.nan

    try: result['rdkit_NumHAcceptors'] = Lipinski.NumHAcceptors(mol)
    except: result['rdkit_NumHAcceptors'] = np.nan

    try: result['rdkit_NumHeteroatoms'] = Lipinski.NumHeteroAtoms(mol)
    except: result['rdkit_NumHeteroatoms'] = np.nan

    try: result['rdkit_NumRotatableBonds'] = Lipinski.NumRotatableBonds(mol)
    except: result['rdkit_NumRotatableBonds'] = np.nan

    try: result['rdkit_NHOHCount'] = Lipinski.NHOHCount(mol)
    except: result['rdkit_NHOHCount'] = np.nan

    try: result['rdkit_NOCount'] = Lipinski.NOCount(mol)
    except: result['rdkit_NOCount'] = np.nan

    try: result['rdkit_RingCount'] = Lipinski.RingCount(mol)
    except: result['rdkit_RingCount'] = np.nan

    # 표면적 및 극성
    try: result['rdkit_TPSA'] = Descriptors.TPSA(mol)
    except: result['rdkit_TPSA'] = np.nan

    try: result['rdkit_LabuteASA'] = Descriptors.LabuteASA(mol)
    except: result['rdkit_LabuteASA'] = np.nan

    # 고리 특징
    try: result['rdkit_NumAromaticRings'] = Descriptors.NumAromaticRings(mol)
    except: result['rdkit_NumAromaticRings'] = np.nan

    try: result['rdkit_NumAliphaticRings'] = Descriptors.NumAliphaticRings(mol)
    except: result['rdkit_NumAliphaticRings'] = np.nan

    try: result['rdkit_NumSaturatedRings'] = Descriptors.NumSaturatedRings(mol)
    except: result['rdkit_NumSaturatedRings'] = np.nan

    try: result['rdkit_NumAromaticHeterocycles'] = Descriptors.NumAromaticHeterocycles(mol)
    except: result['rdkit_NumAromaticHeterocycles'] = np.nan

    try: result['rdkit_NumAromaticCarbocycles'] = Descriptors.NumAromaticCarbocycles(mol)
    except: result['rdkit_NumAromaticCarbocycles'] = np.nan

    try: result['rdkit_NumAliphaticHeterocycles'] = Descriptors.NumAliphaticHeterocycles(mol)
    except: result['rdkit_NumAliphaticHeterocycles'] = np.nan

    try: result['rdkit_NumAliphaticCarbocycles'] = Descriptors.NumAliphaticCarbocycles(mol)
    except: result['rdkit_NumAliphaticCarbocycles'] = np.nan

    # 복잡도
    try: result['rdkit_BertzCT'] = Descriptors.BertzCT(mol)
    except: result['rdkit_BertzCT'] = np.nan

    try: result['rdkit_Ipc'] = Descriptors.Ipc(mol)
    except: result['rdkit_Ipc'] = np.nan

    try: result['rdkit_HallKierAlpha'] = Descriptors.HallKierAlpha(mol)
    except: result['rdkit_HallKierAlpha'] = np.nan

    # 연결성 지수 (Kier-Hall)
    try: result['rdkit_Chi0v'] = Descriptors.Chi0v(mol)
    except: result['rdkit_Chi0v'] = np.nan

    try: result['rdkit_Chi1v'] = Descriptors.Chi1v(mol)
    except: result['rdkit_Chi1v'] = np.nan

    try: result['rdkit_Chi2v'] = Descriptors.Chi2v(mol)
    except: result['rdkit_Chi2v'] = np.nan

    try: result['rdkit_Chi3v'] = Descriptors.Chi3v(mol)
    except: result['rdkit_Chi3v'] = np.nan

    try: result['rdkit_Chi4v'] = Descriptors.Chi4v(mol)
    except: result['rdkit_Chi4v'] = np.nan

    # Kappa
    try: result['rdkit_Kappa1'] = Descriptors.Kappa1(mol)
    except: result['rdkit_Kappa1'] = np.nan

    try: result['rdkit_Kappa2'] = Descriptors.Kappa2(mol)
    except: result['rdkit_Kappa2'] = np.nan

    try: result['rdkit_Kappa3'] = Descriptors.Kappa3(mol)
    except: result['rdkit_Kappa3'] = np.nan

    # VSA Descriptors (표면적 관련)
    try: result['rdkit_PEOE_VSA1'] = Descriptors.PEOE_VSA1(mol)
    except: result['rdkit_PEOE_VSA1'] = np.nan

    try: result['rdkit_PEOE_VSA2'] = Descriptors.PEOE_VSA2(mol)
    except: result['rdkit_PEOE_VSA2'] = np.nan

    try: result['rdkit_PEOE_VSA3'] = Descriptors.PEOE_VSA3(mol)
    except: result['rdkit_PEOE_VSA3'] = np.nan

    try: result['rdkit_SMR_VSA1'] = Descriptors.SMR_VSA1(mol)
    except: result['rdkit_SMR_VSA1'] = np.nan

    try: result['rdkit_SMR_VSA2'] = Descriptors.SMR_VSA2(mol)
    except: result['rdkit_SMR_VSA2'] = np.nan

    try: result['rdkit_SlogP_VSA1'] = Descriptors.SlogP_VSA1(mol)
    except: result['rdkit_SlogP_VSA1'] = np.nan

    try: result['rdkit_SlogP_VSA2'] = Descriptors.SlogP_VSA2(mol)
    except: result['rdkit_SlogP_VSA2'] = np.nan

    # 전하 관련
    try: result['rdkit_MaxPartialCharge'] = Descriptors.MaxPartialCharge(mol)
    except: result['rdkit_MaxPartialCharge'] = np.nan

    try: result['rdkit_MinPartialCharge'] = Descriptors.MinPartialCharge(mol)
    except: result['rdkit_MinPartialCharge'] = np.nan

    try: result['rdkit_MaxAbsPartialCharge'] = Descriptors.MaxAbsPartialCharge(mol)
    except: result['rdkit_MaxAbsPartialCharge'] = np.nan

    # 구조적 특징
    try: result['rdkit_NumBridgeheadAtoms'] = Descriptors.NumBridgeheadAtoms(mol)
    except: result['rdkit_NumBridgeheadAtoms'] = np.nan

    try: result['rdkit_NumSpiroAtoms'] = Descriptors.NumSpiroAtoms(mol)
    except: result['rdkit_NumSpiroAtoms'] = np.nan

    try: result['rdkit_HeavyAtomCount'] = Descriptors.HeavyAtomCount(mol)
    except: result['rdkit_HeavyAtomCount'] = np.nan

    try: result['rdkit_NumValenceElectrons'] = Descriptors.NumValenceElectrons(mol)
    except: result['rdkit_NumValenceElectrons'] = np.nan

    try: result['rdkit_NumRadicalElectrons'] = Descriptors.NumRadicalElectrons(mol)
    except: result['rdkit_NumRadicalElectrons'] = np.nan

    # Graph Descriptors
    try: result['rdkit_BalabanJ'] = GraphDescriptors.BalabanJ(mol)
    except: result['rdkit_BalabanJ'] = np.nan

    try: result['rdkit_BertzCT_Graph'] = GraphDescriptors.BertzCT(mol)
    except: result['rdkit_BertzCT_Graph'] = np.nan

    # 추가 물리화학적 특성
    try: result['rdkit_MolMR'] = Crippen.MolMR(mol)
    except: result['rdkit_MolMR'] = np.nan

    try: result['rdkit_ExactMolWt'] = Descriptors.ExactMolWt(mol)
    except: result['rdkit_ExactMolWt'] = np.nan

    try: result['rdkit_NumSaturatedHeterocycles'] = Descriptors.NumSaturatedHeterocycles(mol)
    except: result['rdkit_NumSaturatedHeterocycles'] = np.nan

    try: result['rdkit_NumSaturatedCarbocycles'] = Descriptors.NumSaturatedCarbocycles(mol)
    except: result['rdkit_NumSaturatedCarbocycles'] = np.nan

    return result

# ============================================================
# 2. 데이터 로드
# ============================================================
print(f"\n{'='*70}")
print("Step 1: 데이터 로드")
print(f"{'='*70}")

start_time = time.time()

selected_features_df = pd.read_csv('selected_features_top300.csv')
top300_features = selected_features_df['feature'].tolist()

df_train = pd.read_csv('train.csv')
X_train_base = df_train[top300_features].copy()
y_train = df_train['label'].astype(int)

df_test = pd.read_csv('predict_input.csv')
X_test_base = df_test[top300_features].copy()

if 'SMILES' in df_test.columns:
    smiles_col = 'SMILES'
elif 'smiles' in df_test.columns:
    smiles_col = 'smiles'
else:
    smiles_col = df_test.columns[0]

train_smiles = df_train[smiles_col]
test_smiles = df_test[smiles_col]

print(f"\n  ✓ Top 300 피처 로드 완료")
print(f"  ✓ Train 데이터: {X_train_base.shape}")
print(f"  ✓ Test 데이터: {X_test_base.shape}")
print(f"  ✓ SMILES 컬럼: '{smiles_col}'")
print(f"  ✓ Label 분포: Class 0 = {sum(y_train==0)}, Class 1 = {sum(y_train==1)}")
print(f"  소요 시간: {time.time()-start_time:.2f}초")

# ============================================================
# 3. RDKit 50개 생성
# ============================================================
print(f"\n{'='*70}")
print("Step 2: RDKit Descriptors 생성")
print(f"{'='*70}")

start_time = time.time()

# Train
print(f"\n[Train RDKit 생성]")
rdkit_train_list = []
for idx, smiles in enumerate(train_smiles):
    if idx % 1000 == 0:
        print(f"\r  진행: {idx}/{len(train_smiles)} ({idx/len(train_smiles)*100:.1f}%) - 예상 남은 시간: {((time.time()-start_time)/(idx+1))*(len(train_smiles)-idx):.0f}초", end='')
    rdkit_train_list.append(calculate_extended_rdkit(smiles))

print(f"\r  ✓ {len(train_smiles)}개 완료 - 총 소요 시간: {time.time()-start_time:.2f}초")

rdkit_train_df = pd.DataFrame(rdkit_train_list)

# 결측치 상세 분석
print(f"\n[RDKit 생성 결과]")
print(f"  생성된 컬럼: {len(rdkit_train_df.columns)}개")
missing_per_col = rdkit_train_df.isnull().sum()
total_missing = missing_per_col.sum()
print(f"  총 결측치: {total_missing:,}개")

# 성공/실패 분석
success_cols = missing_per_col[missing_per_col == 0]
failed_cols = missing_per_col[missing_per_col == len(rdkit_train_df)]
partial_cols = missing_per_col[(missing_per_col > 0) & (missing_per_col < len(rdkit_train_df))]

print(f"\n  [성공 (결측 0%)]")
print(f"    개수: {len(success_cols)}개")
if len(success_cols) > 0:
    print(f"    예시: {list(success_cols.index[:5])}")

print(f"\n  [부분 실패 (결측 1-99%)]")
print(f"    개수: {len(partial_cols)}개")
if len(partial_cols) > 0:
    print(f"    예시: {list(partial_cols.index[:3])}")
    print(f"    결측 비율: {(partial_cols / len(rdkit_train_df) * 100).round(2).to_dict()}")

print(f"\n  [완전 실패 (결측 100%)]")
print(f"    개수: {len(failed_cols)}개")
if len(failed_cols) > 0:
    print(f"    컬럼: {list(failed_cols.index)}")

# Median imputation
if total_missing > 0:
    print(f"\n  → Median imputation 적용 중...")
    rdkit_train_df = rdkit_train_df.fillna(rdkit_train_df.median())
    print(f"  ✓ 완료")

# 통계
print(f"\n[RDKit Descriptor 통계 (상위 10개)]")
print(rdkit_train_df.describe().loc[['mean', 'std', 'min', 'max']].iloc[:, :10].round(2))

# Test
print(f"\n[Test RDKit 생성]")
start_test = time.time()
rdkit_test_list = []
for idx, smiles in enumerate(test_smiles):
    if idx % 100 == 0:
        print(f"\r  진행: {idx}/{len(test_smiles)} ({idx/len(test_smiles)*100:.1f}%)", end='')
    rdkit_test_list.append(calculate_extended_rdkit(smiles))

print(f"\r  ✓ {len(test_smiles)}개 완료 - 소요 시간: {time.time()-start_test:.2f}초")

rdkit_test_df = pd.DataFrame(rdkit_test_list)
if rdkit_test_df.isnull().sum().sum() > 0:
    rdkit_test_df = rdkit_test_df.fillna(rdkit_test_df.median())

# ============================================================
# 4. 피처 결합
# ============================================================
print(f"\n{'='*70}")
print("Step 3: 피처 결합 및 전처리 준비")
print(f"{'='*70}")

X_train = pd.concat([X_train_base.reset_index(drop=True),
                     rdkit_train_df.reset_index(drop=True)], axis=1)
X_test = pd.concat([X_test_base.reset_index(drop=True),
                    rdkit_test_df.reset_index(drop=True)], axis=1)

print(f"\n  ✓ 피처 결합 완료")
print(f"    Top 300 피처: {len(top300_features)}개")
print(f"    RDKit 피처: {len(rdkit_train_df.columns)}개")
print(f"    총 피처: {X_train.shape[1]}개")
print(f"    최종 Train shape: {X_train.shape}")
print(f"    최종 Test shape: {X_test.shape}")

X_train.columns = X_train.columns.astype(str)
X_test.columns = X_test.columns.astype(str)

# 전처리 설정
fp_cols = [col for col in X_train.columns if str(col).startswith(('ecfp_', 'fcfp_', 'ptfp_'))]
desc_cols = [col for col in X_train.columns if col in ['MolWt', 'clogp', 'sa_score', 'qed']]
rdkit_cols = [col for col in X_train.columns if str(col).startswith('rdkit_')]

print(f"\n  [피처 타입별 분류]")
print(f"    Fingerprint: {len(fp_cols)}개")
print(f"    Descriptor (원본): {len(desc_cols)}개")
print(f"    RDKit Descriptor: {len(rdkit_cols)}개")

preprocessor = ColumnTransformer(
    transformers=[
        ('fp', SimpleImputer(strategy='constant', fill_value=0), fp_cols),
        ('desc', Pipeline([
            ('imputer', SimpleImputer(strategy='median')),
            ('scaler', StandardScaler())
        ]), desc_cols + rdkit_cols)
    ],
    remainder='drop'
)

print(f"\n  ✓ 전처리 파이프라인 생성 완료")
print(f"    - Fingerprint: 0으로 결측치 대체")
print(f"    - Descriptor+RDKit: Median 대체 후 StandardScaler")

# ============================================================
# 5. Layer 1: Base Models (5-Fold)
# ============================================================
print(f"\n{'='*70}")
print("Step 4: Layer 1 - Base Models 학습 (5-Fold CV)")
print(f"{'='*70}")

RANDOM_STATE = 42
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

oof_probabilities = {'lgbm': np.zeros(len(X_train)),
                     'xgb': np.zeros(len(X_train)),
                     'catboost': np.zeros(len(X_train))}

test_predictions = {'lgbm': np.zeros((len(X_test), 5)),
                   'xgb': np.zeros((len(X_test), 5)),
                   'catboost': np.zeros((len(X_test), 5))}

fold_times = []

for fold, (tr_idx, va_idx) in enumerate(skf.split(X_train, y_train), 1):
    fold_start = time.time()

    print(f"\n{'─'*70}")
    print(f"Fold {fold}/5")
    print(f"{'─'*70}")

    X_tr, X_va = X_train.iloc[tr_idx], X_train.iloc[va_idx]
    y_tr, y_va = y_train.iloc[tr_idx], y_train.iloc[va_idx]

    print(f"  데이터 분할: Train {len(X_tr)}개, Valid {len(X_va)}개")
    print(f"    Train Label: Class 0 = {sum(y_tr==0)}, Class 1 = {sum(y_tr==1)}")
    print(f"    Valid Label: Class 0 = {sum(y_va==0)}, Class 1 = {sum(y_va==1)}")

    # 전처리
    preprocess_start = time.time()
    Xt_tr = preprocessor.fit_transform(X_tr)
    Xt_va = preprocessor.transform(X_va)
    print(f"  ✓ 전처리 완료 ({time.time()-preprocess_start:.2f}초)")
    print(f"    Train shape: {Xt_tr.shape}, Valid shape: {Xt_va.shape}")

    # LightGBM
    print(f"\n  [1/3] LightGBM 학습 중...", end=' ')
    lgbm_start = time.time()
    lgbm = LGBMClassifier(n_estimators=1000, learning_rate=0.03, max_depth=8,
                         num_leaves=63, min_child_samples=30, subsample=0.8,
                         colsample_bytree=0.8, reg_alpha=0.3, reg_lambda=0.3,
                         class_weight={0: 1.5, 1: 1.0}, random_state=RANDOM_STATE,
                         n_jobs=-1, verbose=-1)
    lgbm.fit(Xt_tr, y_tr, eval_set=[(Xt_va, y_va)],
            callbacks=[lgb.early_stopping(stopping_rounds=100, verbose=False)])
    oof_probabilities['lgbm'][va_idx] = lgbm.predict_proba(Xt_va)[:, 1]

    lgbm_f1 = f1_score(y_va, (lgbm.predict_proba(Xt_va)[:, 1] >= 0.5).astype(int))
    print(f"완료 ({time.time()-lgbm_start:.2f}초)")
    print(f"        Early Stop: {lgbm.best_iteration_}회, Valid F1: {lgbm_f1:.4f}")

    # XGBoost
    print(f"  [2/3] XGBoost 학습 중...", end=' ')
    xgb_start = time.time()
    xgb = XGBClassifier(n_estimators=1000, learning_rate=0.03, max_depth=7,
                       min_child_weight=3, subsample=0.8, colsample_bytree=0.8,
                       gamma=0.1, reg_alpha=0.3, reg_lambda=0.3, scale_pos_weight=0.67,
                       random_state=RANDOM_STATE, n_jobs=-1,
                       early_stopping_rounds=100, eval_metric='logloss', verbosity=0)
    xgb.fit(Xt_tr, y_tr, eval_set=[(Xt_va, y_va)], verbose=False)
    oof_probabilities['xgb'][va_idx] = xgb.predict_proba(Xt_va)[:, 1]

    xgb_f1 = f1_score(y_va, (xgb.predict_proba(Xt_va)[:, 1] >= 0.5).astype(int))
    print(f"완료 ({time.time()-xgb_start:.2f}초)")
    print(f"        Early Stop: {xgb.best_iteration}회, Valid F1: {xgb_f1:.4f}")

    # CatBoost
    print(f"  [3/3] CatBoost 학습 중...", end=' ')
    cat_start = time.time()
    cat = CatBoostClassifier(iterations=1000, learning_rate=0.03, depth=7,
                            l2_leaf_reg=3, class_weights=[1.5, 1.0],
                            random_seed=RANDOM_STATE, verbose=0,
                            early_stopping_rounds=100)
    cat.fit(Xt_tr, y_tr, eval_set=(Xt_va, y_va), verbose=False)
    oof_probabilities['catboost'][va_idx] = cat.predict_proba(Xt_va)[:, 1]

    cat_f1 = f1_score(y_va, (cat.predict_proba(Xt_va)[:, 1] >= 0.5).astype(int))
    print(f"완료 ({time.time()-cat_start:.2f}초)")
    print(f"        Early Stop: {cat.best_iteration_}회, Valid F1: {cat_f1:.4f}")

    # Test 예측
    print(f"\n  Test 예측 중...", end=' ')
    test_start = time.time()
    Xt_test = preprocessor.transform(X_test)
    test_predictions['lgbm'][:, fold-1] = lgbm.predict_proba(Xt_test)[:, 1]
    test_predictions['xgb'][:, fold-1] = xgb.predict_proba(Xt_test)[:, 1]
    test_predictions['catboost'][:, fold-1] = cat.predict_proba(Xt_test)[:, 1]
    print(f"완료 ({time.time()-test_start:.2f}초)")

    fold_time = time.time() - fold_start
    fold_times.append(fold_time)
    print(f"\n  ✓ Fold {fold} 완료 - 총 소요 시간: {fold_time:.2f}초")

print(f"\n{'='*70}")
print(f"✓ Layer 1 완료")
print(f"  평균 Fold 시간: {np.mean(fold_times):.2f}초")
print(f"  총 소요 시간: {sum(fold_times):.2f}초")

# OOF 확률 통계
print(f"\n[OOF 확률 통계]")
for model_name, probs in oof_probabilities.items():
    print(f"  {model_name:8s}: Mean={probs.mean():.4f}, Std={probs.std():.4f}, Min={probs.min():.4f}, Max={probs.max():.4f}")

# ============================================================
# 6. Layer 2: 고급 Stacking
# ============================================================
print(f"\n{'='*70}")
print("Step 5: Layer 2 - 고급 Stacking (Meta-Learner)")
print(f"{'='*70}")

stack_start = time.time()

# Meta-features 생성
print(f"\n[Meta-features 생성 중...]")
meta_features_train = np.column_stack([
    # 기본 확률
    oof_probabilities['lgbm'],
    oof_probabilities['xgb'],
    oof_probabilities['catboost'],

    # 상호작용
    oof_probabilities['lgbm'] * oof_probabilities['xgb'],
    oof_probabilities['xgb'] * oof_probabilities['catboost'],
    oof_probabilities['lgbm'] * oof_probabilities['catboost'],

    # 불일치도
    np.abs(oof_probabilities['lgbm'] - oof_probabilities['xgb']),
    np.abs(oof_probabilities['xgb'] - oof_probabilities['catboost']),
    np.abs(oof_probabilities['lgbm'] - oof_probabilities['catboost']),

    # 통계
    np.max([oof_probabilities['lgbm'], oof_probabilities['xgb'], oof_probabilities['catboost']], axis=0),
    np.min([oof_probabilities['lgbm'], oof_probabilities['xgb'], oof_probabilities['catboost']], axis=0),
    np.mean([oof_probabilities['lgbm'], oof_probabilities['xgb'], oof_probabilities['catboost']], axis=0),
    np.std([oof_probabilities['lgbm'], oof_probabilities['xgb'], oof_probabilities['catboost']], axis=0),
])

print(f"  ✓ Meta-features shape: {meta_features_train.shape}")
print(f"    1-3:   기본 확률 (LGBM, XGB, CAT)")
print(f"    4-6:   상호작용 (LGBM*XGB, XGB*CAT, LGBM*CAT)")
print(f"    7-9:   불일치도 (|LGBM-XGB|, |XGB-CAT|, |LGBM-CAT|)")
print(f"    10-13: 통계 (max, min, mean, std)")

# LightGBM Meta-Learner
print(f"\n[LightGBM Meta-Learner 학습 중...]")
meta_model = LGBMClassifier(
    n_estimators=100,
    learning_rate=0.05,
    max_depth=3,
    num_leaves=7,
    subsample=0.8,
    colsample_bytree=0.8,
    class_weight='balanced',
    random_state=RANDOM_STATE,
    n_jobs=-1,
    verbose=-1
)

meta_model.fit(meta_features_train, y_train)

print(f"  ✓ Meta-Learner 학습 완료 ({time.time()-stack_start:.2f}초)")
print(f"    모델: LightGBM")
print(f"    Iterations: {meta_model.n_estimators}")
print(f"    Learning Rate: {meta_model.learning_rate}")
print(f"    Max Depth: {meta_model.max_depth}")

# ============================================================
# 7. 성능 평가
# ============================================================
print(f"\n{'='*70}")
print("Step 6: 최종 성능 평가")
print(f"{'='*70}")

stacking_proba = meta_model.predict_proba(meta_features_train)[:, 1]

print(f"\n[Stacking 확률 분포]")
print(f"  Mean: {stacking_proba.mean():.4f}")
print(f"  Std:  {stacking_proba.std():.4f}")
print(f"  Min:  {stacking_proba.min():.4f}")
print(f"  Max:  {stacking_proba.max():.4f}")

def get_adaptive_threshold(confidence):
    if confidence < 0.05:
        return 0.42
    elif confidence < 0.10:
        return 0.40
    else:
        return 0.39

confidence = np.abs(stacking_proba - 0.5)
adaptive_thresholds = np.array([get_adaptive_threshold(c) for c in confidence])
predictions = (stacking_proba >= adaptive_thresholds).astype(int)

print(f"\n[Adaptive Threshold 분포]")
print(f"  Threshold 0.42: {sum(adaptive_thresholds==0.42)}개 ({sum(adaptive_thresholds==0.42)/len(adaptive_thresholds)*100:.2f}%)")
print(f"  Threshold 0.40: {sum(adaptive_thresholds==0.40)}개 ({sum(adaptive_thresholds==0.40)/len(adaptive_thresholds)*100:.2f}%)")
print(f"  Threshold 0.39: {sum(adaptive_thresholds==0.39)}개 ({sum(adaptive_thresholds==0.39)/len(adaptive_thresholds)*100:.2f}%)")

f1 = f1_score(y_train, predictions)
auc = roc_auc_score(y_train, stacking_proba)
cm = confusion_matrix(y_train, predictions)
tn, fp, fn, tp = cm.ravel()
fpr = fp / (fp + tn)
precision = precision_score(y_train, predictions)
recall = recall_score(y_train, predictions)

print(f"\n{'='*70}")
print("최종 성능 (OOF)")
print(f"{'='*70}")
print(f"\n  F1 Score:  {f1:.4f}")
print(f"  AUC Score: {auc:.4f}")
print(f"  Precision: {precision:.4f}")
print(f"  Recall:    {recall:.4f}")
print(f"  FPR:       {fpr:.4f} ({fpr*100:.2f}%)")

print(f"\n[혼동 행렬]")
print(f"  TN (True Negative):  {tn:4d}  (정확히 무독성 예측)")
print(f"  FP (False Positive): {fp:4d}  (독성인데 무독성으로 예측)")
print(f"  FN (False Negative): {fn:4d}  (무독성인데 독성으로 예측)")
print(f"  TP (True Positive):  {tp:4d}  (정확히 독성 예측)")

baseline_f1 = 0.8308
print(f"\n[이전 최고 기록 대비]")
print(f"  독립 RDKit 9개: {baseline_f1:.4f}")
print(f"  현재 (RDKit 50): {f1:.4f}")
print(f"  변화: {(f1-baseline_f1)*100:+.2f}%p")

if f1 > baseline_f1:
    print(f"  ✓✓✓ 성공! 새로운 최고 기록 달성!")
elif abs(f1 - baseline_f1) < 0.001:
    print(f"  △ 유사한 성능 (±0.1%p 이내)")
else:
    print(f"  ⚠️ 이전보다 낮음")

# ============================================================
# 8. Test 예측 및 제출
# ============================================================
print(f"\n{'='*70}")
print("Step 7: Test 예측 및 제출 파일 생성")
print(f"{'='*70}")

print(f"\n[Test Meta-features 생성 중...]")
meta_features_test = np.column_stack([
    test_predictions['lgbm'].mean(axis=1),
    test_predictions['xgb'].mean(axis=1),
    test_predictions['catboost'].mean(axis=1),
    test_predictions['lgbm'].mean(axis=1) * test_predictions['xgb'].mean(axis=1),
    test_predictions['xgb'].mean(axis=1) * test_predictions['catboost'].mean(axis=1),
    test_predictions['lgbm'].mean(axis=1) * test_predictions['catboost'].mean(axis=1),
    np.abs(test_predictions['lgbm'].mean(axis=1) - test_predictions['xgb'].mean(axis=1)),
    np.abs(test_predictions['xgb'].mean(axis=1) - test_predictions['catboost'].mean(axis=1)),
    np.abs(test_predictions['lgbm'].mean(axis=1) - test_predictions['catboost'].mean(axis=1)),
    np.max([test_predictions['lgbm'].mean(axis=1), test_predictions['xgb'].mean(axis=1), test_predictions['catboost'].mean(axis=1)], axis=0),
    np.min([test_predictions['lgbm'].mean(axis=1), test_predictions['xgb'].mean(axis=1), test_predictions['catboost'].mean(axis=1)], axis=0),
    np.mean([test_predictions['lgbm'].mean(axis=1), test_predictions['xgb'].mean(axis=1), test_predictions['catboost'].mean(axis=1)], axis=0),
    np.std([test_predictions['lgbm'].mean(axis=1), test_predictions['xgb'].mean(axis=1), test_predictions['catboost'].mean(axis=1)], axis=0),
])

print(f"  ✓ Test Meta-features shape: {meta_features_test.shape}")

print(f"\n[Meta-Learner로 최종 예측 중...]")
stacking_proba_test = meta_model.predict_proba(meta_features_test)[:, 1]
confidence_test = np.abs(stacking_proba_test - 0.5)
adaptive_thresholds_test = np.array([get_adaptive_threshold(c) for c in confidence_test])
predictions_test = (stacking_proba_test >= adaptive_thresholds_test).astype(int)

print(f"  ✓ Test 예측 완료")

print(f"\n[Test 예측 결과 분석]")
print(f"  Class 0 (무독성): {sum(predictions_test==0):3d}개 ({sum(predictions_test==0)/len(predictions_test)*100:.2f}%)")
print(f"  Class 1 (독성):   {sum(predictions_test==1):3d}개 ({sum(predictions_test==1)/len(predictions_test)*100:.2f}%)")
print(f"  평균 확률: {stacking_proba_test.mean():.4f}")
print(f"  평균 Confidence: {confidence_test.mean():.4f}")
print(f"  Low Confidence (<0.1): {sum(confidence_test<0.1)}개")

print(f"\n[제출 파일 생성 중...]")
submission = pd.DataFrame({
    'SMILES': df_test[smiles_col],
    'output': predictions_test
})
submission.to_csv('submission_ultimate.csv', index=False)
print(f"  ✓ 파일 저장: submission_ultimate.csv")

print(f"\n{'='*70}")
print("✓✓✓ 모든 프로세스 완료!")
print(f"{'='*70}")
print(f"\n[최종 요약]")
print(f"  모델: Top 300 + RDKit {len(rdkit_train_df.columns)}개 + 고급 Stacking")
print(f"  최종 F1 Score: {f1:.4f}")
print(f"  AUC Score: {auc:.4f}")
print(f"  FPR: {fpr*100:.2f}%")
print(f"  제출 파일: submission_ultimate.csv")
print(f"\n  🎉 제출 준비 완료!")


최종 최적화 모델: Top 300 + RDKit 50개 + 고급 Stacking

[전략]
  1. RDKit 50개 확장 (독성 예측 특화)
  2. LightGBM Meta-Learner (LogReg 대체)
  3. Meta-features 상호작용 추가
  목표: F1 0.835+

Step 1: 데이터 로드

  ✓ Top 300 피처 로드 완료
  ✓ Train 데이터: (8349, 300)
  ✓ Test 데이터: (927, 300)
  ✓ SMILES 컬럼: 'SMILES'
  ✓ Label 분포: Class 0 = 3807, Class 1 = 4542
  소요 시간: 8.56초

Step 2: RDKit Descriptors 생성

[Train RDKit 생성]
  ✓ 8349개 완료 - 총 소요 시간: 50.30초

[RDKit 생성 결과]
  생성된 컬럼: 48개
  총 결측치: 8,349개

    개수: 47개
    예시: ['rdkit_NumHDonors', 'rdkit_NumHAcceptors', 'rdkit_NumRotatableBonds', 'rdkit_NHOHCount', 'rdkit_NOCount']

    개수: 0개

    개수: 1개
    컬럼: ['rdkit_NumHeteroatoms']

  → Median imputation 적용 중...
  ✓ 완료

[RDKit Descriptor 통계 (상위 10개)]
      rdkit_NumHDonors  rdkit_NumHAcceptors  rdkit_NumHeteroatoms  \
mean              1.31                 5.64                   NaN   
std               1.10                 2.17                   NaN   
min               0.00                 0.00                   NaN   
max      