In [2]:
import xgboost as xgb

# 尝试创建一个使用 GPU 的 XGBoost 模型
try:
    model = xgb.XGBClassifier(tree_method='gpu_hist')
    print("已安装 XGBoost 的 GPU 版本。")
except ValueError as e:
    if "Unknown tree method" in str(e):
        print("安装的是 XGBoost 的 CPU 版本，不支持 GPU 加速。")
    else:
        print(f"出现其他错误: {e}")

已安装 XGBoost 的 GPU 版本。


In [3]:
import pickle


def explore_data(data, level=0, max_items=5):
    """
    递归探索数据结构并打印相关信息
    :param data: 要探索的数据
    :param level: 当前的层级
    :param max_items: 每个层级最多打印的元素数量
    """
    indent = "  " * level
    if isinstance(data, dict):
        print(f"{indent}字典长度: {len(data)}")
        item_count = 0
        for key, value in data.items():
            if item_count >= max_items:
                print(f"{indent}  ... 还有 {len(data) - item_count} 个键值对未展示 ...")
                break
            print(f"{indent}键: {key}")
            print(f"{indent}值类型: {type(value)}")
            explore_data(value, level + 1, max_items)
            item_count += 1
    elif isinstance(data, (list, tuple)):
        print(f"{indent}数据长度: {len(data)}")
        if len(data) > 0:
            print(f"{indent}第一个元素类型: {type(data[0])}")
            for i, item in enumerate(data[:max_items]):
                print(f"{indent}元素 {i}:")
                explore_data(item, level + 1, max_items)
            if len(data) > max_items:
                print(f"{indent}  ... 还有 {len(data) - max_items} 个元素未展示 ...")
    else:
        print(f"{indent}数据类型: {type(data)}")
        print(f"{indent}数据内容: {data}")


try:
    data = pickle.load(open('data/SF640_A_B_C_lbl.pkl', 'rb'))
    print(f"数据类型: {type(data)}")
    explore_data(data)

except FileNotFoundError:
    print("未找到指定的文件。")
except Exception as e:
    print(f"发生错误: {e}")
    

数据类型: <class 'dict'>
字典长度: 640
键: OCCCCC1=CC=CC=C1>C1CN=C2CCCCCN2C1.FS(=O)(=O)C1=CC=C(Cl)C=C1>FCCCCC1=CC=CC=C1
值类型: <class 'dict'>
  字典长度: 4
  键: smiles
  值类型: <class 'str'>
    数据类型: <class 'str'>
    数据内容: OCCCCC1=CC=CC=C1>C1CN=C2CCCCCN2C1.FS(=O)(=O)C1=CC=C(Cl)C=C1>FCCCCC1=CC=CC=C1
  键: label
  值类型: <class 'list'>
    数据长度: 1
    第一个元素类型: <class 'float'>
    元素 0:
      数据类型: <class 'float'>
      数据内容: 0.42
  键: encoding
  值类型: <class 'dict'>
    字典长度: 1
    键: DRFP
    值类型: <class 'torch.Tensor'>
      数据类型: <class 'torch.Tensor'>
      数据内容: tensor([0., 0., 0.,  ..., 0., 1., 0.])
  键: predict
  值类型: <class 'dict'>
    字典长度: 1
    键: DRFP
    值类型: <class 'dict'>
      字典长度: 2
      键: random
      值类型: <class 'numpy.float32'>
        数据类型: <class 'numpy.float32'>
        数据内容: 0.4271867871284485
      键: OOD
      值类型: <class 'NoneType'>
        数据类型: <class 'NoneType'>
        数据内容: None
键: OCCCCC1=CC=CC=C1>C1CN=C2CCCCCN2C1.FS(=O)(=O)C1=NC=CC=C1>FCCCCC1=CC=CC=C1
值类型: <class 'dict'

In [4]:
drfp_data = pickle.load(open('data/SF640_A_B_C_lbl-2048-3-true.pkl', 'rb'))
print(f"数据类型: {type(drfp_data)}")
explore_data(drfp_data)

数据类型: <class 'tuple'>
数据长度: 3
第一个元素类型: <class 'numpy.ndarray'>
元素 0:
  数据类型: <class 'numpy.ndarray'>
  数据内容: [[0 0 0 ... 0 1 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 ...
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 0 0]]
元素 1:
  数据类型: <class 'numpy.ndarray'>
  数据内容: [0.42 0.48 0.47 0.52 0.52 0.76 0.78 0.87 0.82 0.8  0.78 0.79 0.91 0.87
 0.84 0.87 0.88 0.96 0.83 0.94 0.4  0.57 0.52 0.54 0.39 0.54 0.59 0.69
 0.63 0.6  0.41 0.49 0.57 0.55 0.61 0.42 0.53 0.6  0.51 0.65 0.   0.04
 0.02 0.04 0.09 0.01 0.05 0.04 0.05 0.18 0.   0.   0.   0.01 0.17 0.
 0.   0.01 0.   0.22 0.53 0.63 0.63 0.65 0.6  0.88 0.84 0.98 0.89 0.82
 0.94 0.91 1.06 1.01 0.91 0.94 0.98 1.04 0.95 0.94 0.53 0.68 0.71 0.74
 0.54 0.52 0.68 0.72 0.66 0.53 0.49 0.69 0.8  0.82 0.76 0.48 0.67 0.78
 0.66 0.72 0.06 0.13 0.14 0.17 0.29 0.17 0.26 0.3  0.36 0.38 0.21 0.31
 0.34 0.4  0.49 0.32 0.38 0.45 0.49 0.47 0.43 0.54 0.54 0.58 0.52 0.72
 0.74 0.8  0.77 0.65 0.73 0.76 0.8  0.77 0.56 0.66 0.75 0.67 0.73 0.46
 0.06 0.07 0.08 0

In [5]:
import wandb

wandb.login()

[34m[1mwandb[0m: Currently logged in as: [33m2210307202[0m ([33m2210307202-peking-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

In [None]:
from scripts.encoding.preprocess_and_split import load_and_split_data


: 