# 암환자 유전체 데이터 기반 암종 분류 AI 모델 개발


- '2024 생명연구자원 AI활용 경진대회'는 바이오 데이터를 기반으로 한 AI 기술의 문제 해결 능력을 탐구하는 것을 목표로 합니다. <br>이 대회는 바이오 분야에서 AI 활용의 저변을 확대하고, 복잡한 바이오 데이터를 효율적으로 분석 및 해석할 수 있는 AI 알고리즘 개발에 초점을 맞추고 있습니다. <br><br>
- 본 대회의 구체적인 과제는 암환자 유전체 데이터의 변이 정보를 활용하여 암종을 분류하는 AI 모델을 개발하는 것입니다. <br>참가자들은 제공된 학습 데이터셋(암환자 유전체 변이 정보)을 사용하여 특정 변이 정보를 바탕으로 암종을 정확하게 분류할 수 있는 AI 알고리즘을 개발해야 합니다. <br><br>
- 이 대회의 궁극적인 목적은 바이오 데이터의 활용도를 높이고, 바이오 분야에서 AI 기술의 적용 가능성을 극대화하며, 인공지능 기술이 실제 바이오 의료 문제 해결에 어떻게 기여할 수 있는지 탐구하는 것입니다.

# Import library

In [15]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
import xgboost as xgb
import lightgbm as lgb

# Load Data

In [16]:
train = pd.read_csv("./train.csv")
test = pd.read_csv("./test.csv")

# Data Preprocessing

In [17]:
# SUBCLASS 가 범주형이기 때문에 LabelEncoder 사용
le_subclass = LabelEncoder()
train['SUBCLASS'] = le_subclass.fit_transform(train['SUBCLASS'])

# 변환된 레이블 확인
for i, label in enumerate(le_subclass.classes_):
    print(f"원래 레이블: {label}, 변환된 숫자: {i}")

원래 레이블: ACC, 변환된 숫자: 0
원래 레이블: BLCA, 변환된 숫자: 1
원래 레이블: BRCA, 변환된 숫자: 2
원래 레이블: CESC, 변환된 숫자: 3
원래 레이블: COAD, 변환된 숫자: 4
원래 레이블: DLBC, 변환된 숫자: 5
원래 레이블: GBMLGG, 변환된 숫자: 6
원래 레이블: HNSC, 변환된 숫자: 7
원래 레이블: KIPAN, 변환된 숫자: 8
원래 레이블: KIRC, 변환된 숫자: 9
원래 레이블: LAML, 변환된 숫자: 10
원래 레이블: LGG, 변환된 숫자: 11
원래 레이블: LIHC, 변환된 숫자: 12
원래 레이블: LUAD, 변환된 숫자: 13
원래 레이블: LUSC, 변환된 숫자: 14
원래 레이블: OV, 변환된 숫자: 15
원래 레이블: PAAD, 변환된 숫자: 16
원래 레이블: PCPG, 변환된 숫자: 17
원래 레이블: PRAD, 변환된 숫자: 18
원래 레이블: SARC, 변환된 숫자: 19
원래 레이블: SKCM, 변환된 숫자: 20
원래 레이블: STES, 변환된 숫자: 21
원래 레이블: TGCT, 변환된 숫자: 22
원래 레이블: THCA, 변환된 숫자: 23
원래 레이블: THYM, 변환된 숫자: 24
원래 레이블: UCEC, 변환된 숫자: 25


In [18]:
from sklearn.model_selection import train_test_split
X_train, y_train = train.drop(columns="SUBCLASS"), train["SUBCLASS"]

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42, stratify=y_train)

In [19]:
train_all = pd.concat((X_train, y_train), axis=1)
val_all = pd.concat((X_val, y_val), axis=1)

In [20]:
## x 의 경우도 범주형으로 구성되어 있어, 알맞은 인코딩 필요
X = train_all.drop(columns=['SUBCLASS', 'ID'])
y_subclass = train_all['SUBCLASS']

categorical_columns = X.select_dtypes(include=['object', 'category']).columns
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
X_encoded = X.copy()
X_encoded[categorical_columns] = ordinal_encoder.fit_transform(X[categorical_columns])

In [21]:
test_X = test.drop(columns=['ID'])
test_X_encoded = test_X.copy()
test_X_encoded[categorical_columns] = ordinal_encoder.transform(test_X[categorical_columns])

In [22]:
X_val = val_all.drop(columns=['SUBCLASS', 'ID'])
val_y_encoded = val_all['SUBCLASS']


val_x_encoded = X_val.copy()
val_x_encoded[categorical_columns] = ordinal_encoder.transform(X_val[categorical_columns])

# Model Define and Train

In [23]:
file_path = ''

In [24]:
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import StratifiedKFold
import lightgbm as lgb
import numpy as np
import joblib
# 기본 설정
X_train = X_encoded
y_train = y_subclass
random_states = [0, 22, 42, 1215]  # 사용할 random_state 값들

# 결과 저장용 리스트
all_macro_f1_scores = []
all_class_f1_scores = []
all_feature_importances = []

# 테스트 데이터 예측 결과 저장용 배열 초기화
final_lgb_test_preds_proba = np.zeros((test_X_encoded.shape[0], len(np.unique(y_train))))

# 다양한 random_state로 반복
for r_state in random_states:
    print(f"## Random State: {r_state} ##\n")
    
    # Stratified K-Fold 설정
    folds = StratifiedKFold(n_splits=10, shuffle=True, random_state=r_state)

    # LightGBM 모델 파라미터 설정
    params = {
        'objective': 'multiclass',
        'num_class': len(np.unique(y_train)),
        'learning_rate': 0.01786236294491012,
        'random_state': 42,
        'metric': 'multi_logloss',
        'early_stopping_rounds': 100,
        'n_jobs': -1,
        'verbose': -1,
        'num_leaves': 31,
        'min_data_in_leaf': 27,
        'lambda_l1': 0.00046641762342032746,
        'lambda_l2': 8.228074508440626e-06,
        'min_split_gain': 0.0008507877755254931,
        'min_child_weight': 0.00044655605235435
    }

    # F1 스코어 및 중요도 저장용 리스트 초기화
    macro_f1_score_list = []
    feature_importance_list = []
    class_f1_scores = []

    # 각 클래스의 샘플 수 계산
    class_counts = np.bincount(y_train)
    total_samples = len(y_train)
    class_weights = total_samples / (len(class_counts) * class_counts)

    # 가중치 배열 생성
    weights = np.array([class_weights[label] for label in y_train])

    for idx, (train_idx, _) in enumerate(folds.split(X_train, y_train)):
        print('#' * 40, f'폴드 {idx+1} / {folds.n_splits}', "#" * 40)
        X_tr, y_tr = X_train.iloc[train_idx], y_train[train_idx]
        weights_tr = weights[train_idx]
        
        d_train = lgb.Dataset(X_tr, label=y_tr, weight=weights_tr)
        d_valid = lgb.Dataset(val_x_encoded, label=val_y_encoded, reference=d_train)
        
        lgb_model = lgb.train(params=params,
                              train_set=d_train,
                              num_boost_round=2000,
                              valid_sets=[d_train, d_valid])
        
        # 테스트 데이터 예측 (여러 random_state 결과를 평균)
        final_lgb_test_preds_proba += lgb_model.predict(test_X_encoded, num_iteration=lgb_model.best_iteration) / (len(random_states)*folds.n_splits)
        
        # 검증 데이터 예측
        val_preds_proba = lgb_model.predict(val_x_encoded, num_iteration=lgb_model.best_iteration)
        val_preds = np.argmax(val_preds_proba, axis=1)
        model_path = os.path.join(file_path + "./xgb_model_path", f"xgb_model_rs{r_state}_fold{idx+1}.joblib")
        joblib.dump(lgb_model, model_path)
        print(f"모델이 '{model_path}'에 저장되었습니다.\n")            
        
        # 다중 클래스 F1 스코어 계산 (클래스별 F1 스코어 포함)
        macro_f1 = f1_score(val_y_encoded, val_preds, average='macro')
        class_f1 = f1_score(val_y_encoded, val_preds, average=None)
        macro_f1_score_list.append(macro_f1)
        class_f1_scores.append(class_f1)
        
        print(f'폴드 {idx+1} Macro F1 score: {macro_f1}\n')
        print(f'폴드 {idx+1} 클래스별 F1 score:\n{classification_report(val_y_encoded, val_preds)}\n')
        
        feature_importance_list.append(lgb_model.feature_importance())

    # 각 random_state에 대한 결과 저장
    avg_macro_f1 = np.mean(macro_f1_score_list)
    all_macro_f1_scores.append(avg_macro_f1)
    all_class_f1_scores.append(class_f1_scores)
    all_feature_importances.append(feature_importance_list)

    print(f'Random State {r_state} 검증 평균 Macro F1 score: {avg_macro_f1}\n')

# 전체 결과 요약
for i, r_state in enumerate(random_states):
    print(f"## Random State {r_state} 결과 ##")
    print(f"검증 평균 Macro F1 score: {all_macro_f1_scores[i]}")
    print(f"클래스별 F1 score:\n{np.mean(all_class_f1_scores[i], axis=0)}\n")
    print("#" * 80)

## Random State: 0 ##

######################################## 폴드 1 / 10 ########################################


KeyError: '[5, 9, 16, 17, 18, 22, 31, 33, 35, 41, 44, 50, 54, 56, 68, 69, 86, 93, 102, 104, 108, 116, 122, 124, 136, 138, 140, 149, 154, 158, 164, 168, 169, 177, 179, 180, 182, 188, 191, 192, 196, 210, 211, 214, 216, 218, 219, 228, 231, 234, 239, 241, 245, 256, 263, 282, 296, 309, 320, 331, 332, 333, 339, 341, 342, 350, 359, 362, 363, 370, 373, 374, 376, 385, 388, 401, 425, 430, 436, 439, 446, 450, 454, 471, 473, 479, 484, 490, 496, 497, 503, 505, 511, 517, 532, 533, 536, 538, 545, 550, 552, 553, 554, 561, 564, 568, 580, 601, 605, 619, 629, 630, 644, 652, 653, 668, 686, 698, 700, 706, 713, 721, 732, 745, 755, 765, 769, 786, 804, 810, 835, 836, 838, 839, 841, 843, 849, 853, 854, 871, 877, 878, 893, 896, 897, 926, 927, 930, 935, 946, 952, 960, 964, 972, 977, 983, 989, 994, 998, 1007, 1011, 1028, 1030, 1032, 1034, 1041, 1045, 1055, 1066, 1075, 1076, 1079, 1082, 1094, 1104, 1108, 1122, 1140, 1141, 1154, 1155, 1160, 1161, 1163, 1164, 1166, 1169, 1176, 1178, 1179, 1181, 1189, 1217, 1218, 1222, 1229, 1233, 1236, 1240, 1244, 1245, 1246, 1260, 1273, 1277, 1279, 1280, 1284, 1285, 1286, 1287, 1288, 1297, 1298, 1301, 1319, 1334, 1345, 1348, 1374, 1376, 1384, 1385, 1388, 1396, 1397, 1403, 1405, 1408, 1410, 1411, 1415, 1417, 1423, 1429, 1433, 1437, 1439, 1447, 1448, 1455, 1461, 1463, 1464, 1479, 1487, 1488, 1489, 1491, 1492, 1493, 1512, 1530, 1532, 1535, 1547, 1559, 1560, 1561, 1565, 1569, 1575, 1576, 1579, 1588, 1589, 1597, 1621, 1623, 1624, 1634, 1636, 1637, 1644, 1646, 1647, 1648, 1651, 1653, 1665, 1670, 1671, 1674, 1680, 1691, 1694, 1695, 1718, 1731, 1735, 1736, 1738, 1742, 1759, 1760, 1771, 1772, 1773, 1776, 1786, 1794, 1799, 1808, 1825, 1829, 1834, 1836, 1841, 1843, 1847, 1852, 1872, 1876, 1877, 1881, 1887, 1891, 1900, 1907, 1908, 1913, 1921, 1929, 1932, 1942, 1947, 1948, 1950, 1954, 1961, 1971, 1972, 1975, 1976, 1977, 1978, 1999, 2001, 2003, 2008, 2010, 2014, 2032, 2041, 2046, 2047, 2049, 2050, 2062, 2069, 2074, 2080, 2084, 2091, 2096, 2097, 2098, 2100, 2108, 2112, 2117, 2130, 2141, 2159, 2163, 2166, 2169, 2176, 2179, 2187, 2188, 2197, 2202, 2218, 2219, 2228, 2236, 2237, 2245, 2246, 2254, 2262, 2277, 2279, 2282, 2288, 2291, 2297, 2298, 2305, 2306, 2310, 2325, 2330, 2343, 2356, 2361, 2366, 2372, 2379, 2397, 2399, 2402, 2405, 2407, 2408, 2421, 2425, 2434, 2438, 2442, 2445, 2451, 2487, 2491, 2497, 2500, 2505, 2508, 2512, 2522, 2529, 2531, 2536, 2542, 2543, 2544, 2548, 2549, 2567, 2579, 2592, 2596, 2599, 2605, 2607, 2620, 2625, 2630, 2633, 2639, 2659, 2660, 2662, 2665, 2667, 2671, 2679, 2683, 2689, 2697, 2702, 2722, 2725, 2726, 2742, 2745, 2748, 2754, 2764, 2765, 2768, 2776, 2780, 2783, 2788, 2791, 2800, 2812, 2826, 2832, 2836, 2839, 2844, 2851, 2866, 2876, 2877, 2878, 2882, 2885, 2889, 2898, 2902, 2903, 2904, 2905, 2914, 2930, 2932, 2936, 2938, 2945, 2948, 2951, 2952, 2953, 2955, 2968, 2985, 2989, 2996, 3001, 3002, 3017, 3018, 3021, 3022, 3047, 3051, 3058, 3061, 3062, 3065, 3067, 3069, 3071, 3086, 3093, 3096, 3099, 3110, 3116, 3121, 3122, 3129, 3131, 3134, 3138, 3140, 3142, 3144, 3146, 3147, 3163, 3168, 3189, 3194, 3197, 3207, 3211, 3215, 3216, 3220, 3224, 3230, 3233, 3238, 3249, 3253, 3257, 3262, 3267, 3268, 3277, 3282, 3283, 3288, 3298, 3300, 3301, 3314, 3323, 3325, 3343, 3345, 3346, 3355, 3366, 3369, 3370, 3376, 3377, 3378, 3385, 3393, 3400, 3402, 3403, 3405, 3419, 3436, 3437, 3442, 3443, 3453, 3457, 3468, 3474, 3485, 3498, 3499, 3501, 3508, 3511, 3517, 3519, 3523, 3528, 3532, 3536, 3547, 3548, 3550, 3551, 3552, 3554, 3568, 3580, 3583, 3593, 3596, 3608, 3614, 3617, 3630, 3633, 3646, 3648, 3649, 3652, 3655, 3656, 3658, 3660, 3662, 3675, 3676, 3678, 3681, 3689, 3693, 3696, 3701, 3703, 3708, 3715, 3725, 3730, 3756, 3757, 3766, 3778, 3781, 3786, 3791, 3792, 3799, 3807, 3813, 3814, 3815, 3825, 3828, 3834, 3846, 3850, 3857, 3860, 3862, 3865, 3877, 3878, 3882, 3884, 3888, 3892, 3901, 3902, 3906, 3907, 3908, 3918, 3920, 3922, 3923, 3933, 3950, 3955, 3959, 3961, 3963, 3964, 3966, 3968, 3975, 3977, 3984, 3986, 3990, 3995, 4001, 4008, 4015, 4025, 4029, 4038, 4039, 4045, 4055, 4056, 4057, 4064, 4068, 4070, 4074, 4076, 4081, 4082, 4086, 4087, 4089, 4093, 4107, 4112, 4113, 4114, 4119, 4124, 4130, 4160, 4161, 4171, 4173, 4183, 4185, 4189, 4190, 4196, 4202, 4204, 4208, 4213, 4217, 4231, 4235, 4242, 4250, 4257, 4261, 4263, 4265, 4272, 4280, 4295, 4300, 4307, 4313, 4322, 4326, 4337, 4338, 4341, 4344, 4346, 4348, 4356, 4358, 4359, 4363, 4367, 4371, 4373, 4374, 4391, 4394, 4397, 4402, 4404, 4409, 4424, 4426, 4431, 4432, 4440, 4443, 4444, 4445, 4446, 4456, 4462, 4463, 4464, 4466, 4467, 4470, 4473, 4474, 4485, 4486, 4490, 4491, 4494, 4496, 4505, 4518, 4523, 4524, 4536, 4537, 4538, 4547, 4550, 4554, 4560, 4561, 4573, 4575, 4578, 4583, 4589, 4592, 4595, 4630, 4634, 4635, 4636, 4637, 4642, 4648, 4649, 4652, 4655, 4657, 4661, 4665, 4667, 4675, 4678, 4683, 4695, 4696, 4697, 4703, 4714, 4722, 4744, 4745, 4748, 4749, 4750, 4757, 4758, 4762, 4768, 4780, 4783, 4787, 4789, 4796, 4798, 4800, 4811, 4816, 4821, 4825, 4841, 4842, 4843, 4845, 4846, 4848, 4854, 4860, 4866, 4867, 4880, 4894, 4916, 4919, 4920, 4922, 4924, 4928, 4931, 4932, 4938, 4943, 4946, 4957, 4958] not in index'

# Inference

In [15]:
test_X = test.drop(columns=['ID'])
test_X_encoded = test_X.copy()
test_X_encoded[categorical_columns] = ordinal_encoder.transform(test_X[categorical_columns])

In [None]:
predictions = model.predict(X_encoded)

In [None]:
original_labels = le_subclass.inverse_transform(predictions)

# Submisson

In [None]:
submisson = pd.read_csv("./sample_submission.csv")

In [None]:
submisson["SUBCLASS"] = original_labels

In [None]:
submisson.to_csv('./baseline_submission_lgb_OOF.csv', encoding='UTF-8-sig', index=False)

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
import xgboost as xgb
import lightgbm as lgb

train = pd.read_csv("./train.csv")
test = pd.read_csv("./test.csv")

# SUBCLASS 가 범주형이기 때문에 LabelEncoder 사용
le_subclass = LabelEncoder()
train['SUBCLASS'] = le_subclass.fit_transform(train['SUBCLASS'])

# 변환된 레이블 확인
for i, label in enumerate(le_subclass.classes_):
    print(f"원래 레이블: {label}, 변환된 숫자: {i}")



from sklearn.model_selection import train_test_split
X_train, y_train = train.drop(columns="SUBCLASS"), train["SUBCLASS"]

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42, stratify=y_train)


train_all = pd.concat((X_train, y_train), axis=1)
val_all = pd.concat((X_val, y_val), axis=1)

## x 의 경우도 범주형으로 구성되어 있어, 알맞은 인코딩 필요
X = train_all.drop(columns=['SUBCLASS', 'ID'])
y_subclass = train_all['SUBCLASS']

categorical_columns = X.select_dtypes(include=['object', 'category']).columns
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
X_encoded = X.copy()
X_encoded[categorical_columns] = ordinal_encoder.fit_transform(X[categorical_columns])


test_X = test.drop(columns=['ID'])
test_X_encoded = test_X.copy()
test_X_encoded[categorical_columns] = ordinal_encoder.transform(test_X[categorical_columns])

X_val = val_all.drop(columns=['SUBCLASS', 'ID'])
val_y_encoded = val_all['SUBCLASS']


val_x_encoded = X_val.copy()
val_x_encoded[categorical_columns] = ordinal_encoder.transform(X_val[categorical_columns])

file_path = ''
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import StratifiedKFold
import lightgbm as lgb
import numpy as np
import joblib
# 기본 설정
X_train = X_encoded
y_train = y_subclass
random_states = [0, 22, 42, 1215]  # 사용할 random_state 값들

# 결과 저장용 리스트
all_macro_f1_scores = []
all_class_f1_scores = []
all_feature_importances = []

# 테스트 데이터 예측 결과 저장용 배열 초기화
final_lgb_test_preds_proba = np.zeros((test_X_encoded.shape[0], len(np.unique(y_train))))

# 다양한 random_state로 반복
for r_state in random_states:
    print(f"## Random State: {r_state} ##\n")
    
    # Stratified K-Fold 설정
    folds = StratifiedKFold(n_splits=10, shuffle=True, random_state=r_state)

    # LightGBM 모델 파라미터 설정
    params = {
        'objective': 'multiclass',
        'num_class': len(np.unique(y_train)),
        'learning_rate': 0.01786236294491012,
        'random_state': 42,
        'metric': 'multi_logloss',
        'early_stopping_rounds': 100,
        'n_jobs': -1,
        'verbose': -1,
        'num_leaves': 31,
        'min_data_in_leaf': 27,
        'lambda_l1': 0.00046641762342032746,
        'lambda_l2': 8.228074508440626e-06,
        'min_split_gain': 0.0008507877755254931,
        'min_child_weight': 0.00044655605235435
    }

    # F1 스코어 및 중요도 저장용 리스트 초기화
    macro_f1_score_list = []
    feature_importance_list = []
    class_f1_scores = []

    # 각 클래스의 샘플 수 계산
    class_counts = np.bincount(y_train)
    total_samples = len(y_train)
    class_weights = total_samples / (len(class_counts) * class_counts)

    # 가중치 배열 생성
    weights = np.array([class_weights[label] for label in y_train])

    for idx, (train_idx, _) in enumerate(folds.split(X_train, y_train)):
        print('#' * 40, f'폴드 {idx+1} / {folds.n_splits}', "#" * 40)
        X_tr, y_tr = X_train.iloc[train_idx], y_train[train_idx]
        weights_tr = weights[train_idx]
        
        d_train = lgb.Dataset(X_tr, label=y_tr, weight=weights_tr)
        d_valid = lgb.Dataset(val_x_encoded, label=val_y_encoded, reference=d_train)
        
        lgb_model = lgb.train(params=params,
                              train_set=d_train,
                              num_boost_round=2000,
                              valid_sets=[d_train, d_valid])
        
        # 테스트 데이터 예측 (여러 random_state 결과를 평균)
        final_lgb_test_preds_proba += lgb_model.predict(test_X_encoded, num_iteration=lgb_model.best_iteration) / (len(random_states)*folds.n_splits)
        
        # 검증 데이터 예측
        val_preds_proba = lgb_model.predict(val_x_encoded, num_iteration=lgb_model.best_iteration)
        val_preds = np.argmax(val_preds_proba, axis=1)
        model_path = os.path.join(file_path + "./xgb_model_path", f"xgb_model_rs{r_state}_fold{idx+1}.joblib")
        joblib.dump(lgb_model, model_path)
        print(f"모델이 '{model_path}'에 저장되었습니다.\n")            
        
        # 다중 클래스 F1 스코어 계산 (클래스별 F1 스코어 포함)
        macro_f1 = f1_score(val_y_encoded, val_preds, average='macro')
        class_f1 = f1_score(val_y_encoded, val_preds, average=None)
        macro_f1_score_list.append(macro_f1)
        class_f1_scores.append(class_f1)
        
        print(f'폴드 {idx+1} Macro F1 score: {macro_f1}\n')
        print(f'폴드 {idx+1} 클래스별 F1 score:\n{classification_report(val_y_encoded, val_preds)}\n')
        
        feature_importance_list.append(lgb_model.feature_importance())

    # 각 random_state에 대한 결과 저장
    avg_macro_f1 = np.mean(macro_f1_score_list)
    all_macro_f1_scores.append(avg_macro_f1)
    all_class_f1_scores.append(class_f1_scores)
    all_feature_importances.append(feature_importance_list)

    print(f'Random State {r_state} 검증 평균 Macro F1 score: {avg_macro_f1}\n')

# 전체 결과 요약
for i, r_state in enumerate(random_states):
    print(f"## Random State {r_state} 결과 ##")
    print(f"검증 평균 Macro F1 score: {all_macro_f1_scores[i]}")
    print(f"클래스별 F1 score:\n{np.mean(all_class_f1_scores[i], axis=0)}\n")
    print("#" * 80)