In [None]:
################################################
# 加载数据和特征工程
################################################

%run load_data.ipynb
%run build_features.ipynb

In [None]:
################################################
# 准备数据格式
################################################
import lightgbm as lgb

features = combined_data.iloc[:n_original, :-1]
targets = combined_data.iloc[:n_original, -1]

all_data = lgb.Dataset(features, label=targets)


In [None]:
################################################
# 加载最佳超参数
################################################
import json
import chardet

# Detect the file encoding
with open('../data/external_data/best_hyper_parameters.json', 'rb') as file:
    raw_data = file.read()
    result = chardet.detect(raw_data)
    encoding = result['encoding']

# Read the JSON content from the file using the detected encoding
with open('../data/external_data/best_hyper_parameters.json', 'r', encoding=encoding) as file:
    data = json.load(file)

# Extract the best_params and best_estimator
best_params = data["best_params"]
best_estimator = data["best_estimator"]

print(best_params)
print(best_estimator["n_estimators"])

In [None]:
################################################
# 训练模型
################################################

best_gbm = lgb.train(
    best_params,
    all_data,
    num_boost_round=best_estimator["n_estimators"]
)

In [None]:
################################################
# 保存模型
################################################

best_gbm.save_model('../models/lightgbm_model.txt')

In [None]:
################################################
# 加载模型
################################################

loaded_model = lgb.Booster(model_file='../models/lightgbm_model.txt')

In [None]:
################################################
# 预测结果
################################################

eval_data = combined_data.iloc[n_original:, :-1]
y_pred = loaded_model.predict(eval_data)
y_pred[y_pred > 100] = 100
y_pred[y_pred < 0] = 0

In [None]:
################################################
# 保存结果文件
################################################

from datetime import datetime

df_submit["mRNA_remaining_pct"] = y_pred

timestamp = datetime.now().strftime("%Y%m%d")
filename = f"../submit/submission_{timestamp}.csv"
print(f"File saved as {filename}")

df_submit.to_csv(filename, index=False)