# Отбор признаков на основе моделей

В этом ноутбуке мы рассмотрим методы отбора признаков на основе моделей с использованием GPB библиотеки.

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification
from core.feature_selection import RandomForestFeatureSelector

## Подготовка тестовых данных

In [None]:
# Генерируем синтетические данные
X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=5,
    n_redundant=5,
    random_state=42
)

# Создаем DataFrame
feature_names = [f'feature_{i}' for i in range(X.shape[1])]
df = pd.DataFrame(X, columns=feature_names)
target = pd.Series(y, name='target')

print('Размерность данных:', df.shape)

## Отбор признаков с помощью Random Forest

In [None]:
# Создаем селектор для отбора по Random Forest
rf_selector = RandomForestFeatureSelector(
    threshold=0.01,
    blacklist=['target']
)

# Отбираем признаки
df_selected = rf_selector.fit_transform(df, target)

print('Отобранные признаки:', rf_selector.selected_features)
print('Размерность после отбора:', df_selected.shape)
print('Важности признаков:', rf_selector.importance_scores)

## Сохранение селектора

In [None]:
import joblib

# Сохраняем селектор
joblib.dump(rf_selector, 'models/model_based_selector.pkl')
print('Селектор сохранен в models/model_based_selector.pkl')