In [119]:
# Импортируем нужные библиотеки
import numpy as np
import matplotlib.pyplot as plt

from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split # класс разбиения на данные для обучения и для проверки
from sklearn.preprocessing import MinMaxScaler
# импортируем функции
from functions import generate_random_array, plot_true_vs_predicted,  Functions, Generate_data

In [120]:
# Исходные данные
# создаем объект класса Functions 
main_function = Functions()


# определяем количетсво строк для обучения
main_function.n_samples = 27

# пределы варьирования признаков
main_function.limits = (-10, 10)

# определяем вид функции
main_function.set_function(main_function.trigonometric)

# признаки переопределим с помощью ПФЭ
data_generator = Generate_data(main_function.n_samples, main_function.n_features, main_function.limits[0], 
                               main_function.limits[1], seed = main_function.random_seed)
main_function.features = data_generator.generate_latin_hypercube()

main_function.target = main_function.function(*main_function.features.T)
main_function.n_samples = data_generator.n 

In [121]:
# Генерация пула кандидатов (случайные точки в допустимом диапазоне)
rng = np.random.default_rng(seed=12345)
X_pool = rng.uniform(low=main_function.limits[0], high=main_function.limits[1], size=(10000, main_function.n_features))

In [122]:
# Попробуем определить точку, которую желательно добавить в массив для обучения
# Обучаем ансамбль из N моделей
n_models = 10
predictions = []

for i in range(n_models):
    model = XGBRegressor(
                    n_estimators=1000,
                    max_depth=3,
                    learning_rate=0.1,
                    reg_alpha=0.5,
                    reg_lambda=0.5,
                    subsample=0.8,
                    random_state=1488+i,
                    verbosity=0
                    )
    model.fit(main_function.features, main_function.target)
    pred = model.predict(X_pool)
    predictions.append(pred)

# Считаем дисперсию предсказаний по ансамблю
predictions = np.array(predictions)  # (n_models, n_pool)
uncertainty = predictions.std(axis=0)  # (n_pool,)

# Выбираем точку с максимальной неопределённостью
best_idx = np.argmax(uncertainty)
features_to_add = X_pool[best_idx]
# Определяем значение целевой переменной при данных знаениях признаков
target_to_add = main_function.function(*features_to_add.T)


print(f'Следующая точка для замера - точка # {best_idx}')
print (f'Ее неопределенность равна: {uncertainty[best_idx]:.5f}')
print (f'Необходимо добавить в массив признаков следующие данные: {features_to_add}')
print (f'Значение целевой функции для данной точки будет: {target_to_add}')
print("Макс. неопределённость:", uncertainty.max())
print("Средняя неопределённость:", uncertainty.mean())
print("Медиана:", np.median(uncertainty))
print("Количество точек с uncertainty > 90%-квантиля:", np.sum(uncertainty > np.percentile(uncertainty, 90)))

Следующая точка для замера - точка # 8810
Ее неопределенность равна: 0.13243
Необходимо добавить в массив признаков следующие данные: [ 1.29270596 -2.39590138 -1.6491151 ]
Значение целевой функции для данной точки будет: 0.11425592671527185
Макс. неопределённость: 0.13242757
Средняя неопределённость: 0.0570385
Медиана: 0.056338288
Количество точек с uncertainty > 90%-квантиля: 998
