In [25]:
# from modAL.models import ActiveLearner
# from modAL.uncertainty import uncertainty_sampling
# import pandas as pd
# import numpy as np
# from sklearn.ensemble import RandomForestRegressor
# from sklearn.metrics import mean_squared_error
# from sklearn.model_selection import train_test_split


# # CSV 파일 경로
# labeled_data_csv = "./origin_data/train.csv" # 레이블이 있는 데이터 파일
# unlabeled_data_csv = "./data/unlabeld_data.csv"  # 레이블이 없는 데이터 파일
# test_csv = "./origin_data/test.csv"

# # CSV 파일 읽기
# labeled_data = pd.read_csv(labeled_data_csv).drop(columns=["LogD", "Molecular_PolarSurfaceArea"])
# unlabeled_data = pd.read_csv(unlabeled_data_csv)
# test_data = pd.read_csv(test_csv).drop(columns=["LogD", "Molecular_PolarSurfaceArea"])

# # 레이블이 있는 데이터 추출
# X_labeled = labeled_data.drop(columns=['MLM', 'HLM'])
# Y_labeled = labeled_data[['MLM', 'HLM']]

# # 레이블이 없는 데이터 추출
# X_unlabeled = unlabeled_data

# # 초기 학습 데이터 선택 (랜덤으로 선택)
# initial_idx = np.random.choice(range(len(X_labeled)), size=10, replace=False)
# X_initial = X_labeled.iloc[initial_idx]
# Y_initial = Y_labeled.iloc[initial_idx]

# # 초기 모델 학습
# learner = ActiveLearner(
#     estimator=RandomForestRegressor(),
#     query_strategy=uncertainty_sampling,
#     X_training=X_initial,
#     y_training=Y_initial
# )

# # Active Learning 반복 과정
# n_queries = 20
# for i in range(n_queries):
#     query_idx, query_instance = learner.query(X_unlabeled)
#     learner.teach(X_unlabeled.iloc[query_idx], Y_unlabeled.iloc[query_idx])
    
#     # 쿼리된 데이터는 학습 데이터에서 제거
#     X_unlabeled = X_unlabeled.drop(X_unlabeled.index[query_idx])
#     Y_unlabeled = Y_unlabeled.drop(Y_unlabeled.index[query_idx])

# Y_test_pred = learner.predict(test_data)



In [2]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from tqdm import tqdm

# CSV 파일 경로
labeled_data_csv = "./origin_data/train.csv"  # 레이블이 있는 데이터 파일
unlabeled_data_csv = "./data/unlabeld_data2.csv"  # 레이블이 없는 데이터 파일


# CSV 파일 읽기
labeled_data = pd.read_csv(labeled_data_csv).drop(columns=["id", "SMILES"])
unlabeled_data = pd.read_csv(unlabeled_data_csv).drop(columns=["SMILES"])

labeled_data = labeled_data.fillna(0)
unlabeled_data = unlabeled_data.fillna(0)


# 레이블이 있는 데이터 추출
X_labeled = labeled_data.drop(columns=['MLM', 'HLM'])
Y_labeled = labeled_data[['MLM', 'HLM']]

###
# # 초기 학습 데이터 선택 (랜덤으로 선택)
# initial_idx = np.random.choice(range(len(X_labeled)), size=1000, replace=False)
# X_initial = X_labeled.iloc[initial_idx]
# Y_initial = Y_labeled.iloc[initial_idx]

# 초기 학습 데이터 선택 (80%)
test_size = 0.2  # 전체 데이터 중 테스트 데이터 비율 (예: 20%)
X_initial, X_test, Y_initial, Y_test = train_test_split(X_labeled, Y_labeled, test_size=test_size, random_state=42)
###

# 초기 모델 학습 (랜덤 포레스트 회귀 모델 사용)
initial_model = RandomForestRegressor()
initial_model.fit(X_initial, Y_initial)

# Active Learning 반복 과정
n_queries = 35
batch_size = 1000  # 각 반복에서 선택할 배치 크기

for i in tqdm(range(n_queries)):
    # 예측 오차를 계산하여 불확실성을 측정
    Y_pred = initial_model.predict(unlabeled_data)  # 레이블이 없는 데이터에 대한 예측
    #uncertainty = np.abs(Y_pred - np.mean(Y_pred, axis=0))
    uncertainty = 1 - np.max(Y_pred, axis=1)

    # 불확실성이 가장 큰 상위 배치 크기만큼 데이터 포인트 선택
    #query_indices = np.argsort(uncertainty.sum(axis=1))[-batch_size:]
    query_indices = np.argsort(uncertainty)[-batch_size:]

    for query_idx in query_indices:
        # 쿼리된 데이터는 학습 데이터에 추가
        X_query = unlabeled_data.iloc[query_idx:query_idx+1]
        Y_query = Y_pred[query_idx:query_idx+1]  # 모델 예측값을 사용

        X_labeled = pd.concat([X_labeled, X_query])
        Y_labeled = np.vstack([Y_labeled, Y_query])

    # 쿼리된 데이터는 레이블이 없는 데이터에서 제거 (선택된 데이터만큼 제거)
    unlabeled_data = unlabeled_data.drop(unlabeled_data.index[query_indices])

    # 새로운 모델을 학습하여 계속 진행
    initial_model = RandomForestRegressor()
    initial_model.fit(X_labeled, Y_labeled)


Y_pred = initial_model.predict(X_test)

rmse = np.sqrt(mean_squared_error(Y_test, Y_pred))
print("RMSE:", rmse)

100%|██████████| 35/35 [22:37<00:00, 38.79s/it]

RMSE: 12.239941547011838





In [None]:
#RMSE: 12.022497017761587

In [7]:
test_csv = "./origin_data/test.csv"
test_data = pd.read_csv(test_csv).drop(columns=["id", "SMILES"])
test_data = test_data.fillna(0)

Y_test_pred = initial_model.predict(test_data)
# predict
df_submission = pd.read_csv("./origin_data/sample_submission.csv")
df_submission["MLM"] = Y_test_pred[:,0]
df_submission["HLM"] = Y_test_pred[:,1]
df_submission.to_csv("./submission/submission_SS35k_LBW.csv", index = False, encoding = "utf-8-sig")

In [8]:
autog = pd.read_csv("./submission/autog.csv")
ss2 = pd.read_csv("./submission/submission_SS2_LBW.csv")
ss = pd.read_csv("./submission/submission_SS_LBW.csv")
ss35 = pd.read_csv("./submission/submission_SS35k_LBW.csv")