In [2]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from itertools import combinations
from sklearn.metrics import mean_squared_error

# Генерация случайных данных
np.random.seed(42)
n_samples = 100
X = np.random.rand(n_samples, 5)  # 5 входных переменных
Y = 3 * X[:, 0] + 2 * X[:, 1] - X[:, 2] + np.random.normal(0, 0.1, n_samples)  # Истинная зависимость

# Разделение данных на обучающую и экзаменационную выборки
train_size = int(0.7 * n_samples)
X_train, X_test = X[:train_size], X[train_size:]
Y_train, Y_test = Y[:train_size], Y[train_size:]

# Функция для перебора всех возможных моделей и выбора лучшей по критерию минимального смещения
def mgua_model_selection(X_train, Y_train, X_test, Y_test):
    best_model = None
    best_score = float('inf')
    best_features = None
    results = []
    
    num_features = X_train.shape[1]
    feature_indices = range(num_features)
    
    for r in range(1, num_features + 1):  # Перебираем модели с разным количеством переменных
        for feature_subset in combinations(feature_indices, r):
            X_train_subset = X_train[:, feature_subset]
            X_test_subset = X_test[:, feature_subset]
            
            model = LinearRegression()
            model.fit(X_train_subset, Y_train)
            
            Y_pred = model.predict(X_test_subset)
            error = mean_squared_error(Y_test, Y_pred)  # Критерий минимального смещения
            
            results.append({
                'Features': feature_subset,
                'MSE': error
            })
            
            if error < best_score:
                best_score = error
                best_model = model
                best_features = feature_subset
    
    return best_model, best_features, pd.DataFrame(results)

# Запуск алгоритма
best_model, best_features, results_df = mgua_model_selection(X_train, Y_train, X_test, Y_test)

# Вывод результатов в виде таблицы
results_df_sorted = results_df.sort_values(by='MSE')
print("Оптимальная модель использует признаки:", best_features)
print("Минимальная ошибка:", results_df_sorted.iloc[0]['MSE'])
print("\nРезультаты перебора моделей:")
print(results_df_sorted.to_string(index=False))


Оптимальная модель использует признаки: (0, 1, 2)
Минимальная ошибка: 0.014037366120632258

Результаты перебора моделей:
       Features      MSE
      (0, 1, 2) 0.014037
   (0, 1, 2, 3) 0.014274
   (0, 1, 2, 4) 0.014875
(0, 1, 2, 3, 4) 0.014951
         (0, 1) 0.110306
      (0, 1, 3) 0.111968
      (0, 1, 4) 0.112218
   (0, 1, 3, 4) 0.113043
         (0, 2) 0.437514
      (0, 2, 3) 0.439062
      (0, 2, 4) 0.450217
   (0, 2, 3, 4) 0.454779
         (0, 3) 0.522332
           (0,) 0.522711
      (0, 3, 4) 0.538820
         (0, 4) 0.539514
   (1, 2, 3, 4) 0.805815
      (2, 3, 4) 0.806700
      (1, 2, 4) 0.810921
         (2, 4) 0.812835
      (1, 2, 3) 0.821431
         (1, 2) 0.823421
      (1, 3, 4) 0.832667
         (2, 3) 0.839193
           (2,) 0.840389
         (1, 4) 0.845491
         (1, 3) 0.847614
           (1,) 0.854722
         (3, 4) 0.862737
           (4,) 0.889554
           (3,) 0.898741
