# Статистические методы отбора признаков

В этом ноутбуке мы рассмотрим статистические методы отбора признаков с помощью GPB библиотеки.

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification
from core.feature_selection import CorrelationFeatureSelector

## Подготовка тестовых данных

In [None]:
# Генерируем синтетические данные
X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=5,
    n_redundant=5,
    random_state=42
)

# Создаем DataFrame
feature_names = [f'feature_{i}' for i in range(X.shape[1])]
df = pd.DataFrame(X, columns=feature_names)
target = pd.Series(y, name='target')

print('Размерность данных:', df.shape)

## Отбор признаков по корреляции

In [None]:
# Создаем селектор для отбора по корреляции
correlation_selector = CorrelationFeatureSelector(
    correlation_threshold=0.3,
    blacklist=['target']
)

# Отбираем признаки
df_selected = correlation_selector.fit_transform(df, target)

print('Отобранные признаки:', correlation_selector.selected_features)
print('Размерность после отбора:', df_selected.shape)

## Сохранение селектора

In [None]:
import joblib

# Сохраняем селектор
joblib.dump(correlation_selector, 'models/statistical_selector.pkl')
print('Селектор сохранен в models/statistical_selector.pkl')