In [1]:
import pandas as pd
import joblib
import os

# === 1) 用户自定义部分 ===
model_path = "xgb_model_top3_removed.pkl"      # 已训练模型文件
input_excel = "POS预测输入.xlsx"             # 要预测的新化合物数据表
output_excel = "predicted_logRF.xlsx"          # 输出结果文件

# === 2) 加载模型 ===
if not os.path.exists(model_path):
    raise FileNotFoundError(f"❌ 模型文件未找到: {model_path}")
print(f"✅ 已加载模型: {model_path}")
pipe = joblib.load(model_path)

# === 3) 读取要预测的数据 ===
df_new = pd.read_excel(input_excel)
df_new.columns = [str(c).strip() for c in df_new.columns]

print(f"📘 已加载 {len(df_new)} 条新样本，用于预测。")

# === 4) 预测 logRF ===
# 注意：Excel 中应包含与训练集相同的自变量列名与类型
y_pred = pipe.predict(df_new)

# === 5) 输出结果 ===
df_result = df_new.copy()
df_result["Predicted_logRF"] = y_pred

df_result.to_excel(output_excel, index=False)
print(f"✅ 预测完成，结果已保存到：{output_excel}")

# === 6) 预览前几行结果 ===
print(df_result.head())

✅ 已加载模型: xgb_model_top3_removed.pkl
📘 已加载 742 条新样本，用于预测。
✅ 预测完成，结果已保存到：predicted_logRF.xlsx
   LgRF  MolarRefractivity  MoleculeWeight  MoleculeVolume  H-Acceptors  \
0   NaN             63.337         250.270        0.694644            4   
1   NaN             72.801         242.318        0.619612            2   
2   NaN             46.522         150.221        0.580304            1   
3   NaN             68.168         228.291        0.629219            2   
4   NaN             70.114         220.356        0.555418            1   

   H-Donor  PolarSurfaceArea  LogP  LogD  Predicted_logRF  
0        2                83  1.83  1.80         5.739095  
1        2                40  3.96  3.92         6.205288  
2        1                20  3.17  3.36         5.173724  
3        2                40  3.43  3.63         6.399046  
4        1                20  6.19  6.13         6.438850  
