Метод RFE можно использовать как для выбора признаков, так и для оценки их важности. В следующем эксперименте объединим 10 случайно выбранных признаков из списка, предоставленного алгоритмом FRESH, с 10 случайно выбранными элементами из списка признаков, отклоненных алгоритмом FRESH.

In [1]:
# Установка seed для воспроизводимости результатов
set.seed(123)

# Пример чтения данных из файла donations.csv (для примера предположим, что в файле есть столбец id и ряд других столбцов)
donations <- read.csv("donations.csv")

# Создание случайного индекса
x_idx <- sample(1:nrow(donations), 2676, replace = FALSE)

# Выборка по индексу
selX <- donations[x_idx, ]

# Создание примера невыбранных признаков (для примера возьмем первые 10 признаков)
unselected_features <- names(donations)[1:10]

# Получение индексов невыбранных признаков
unsel_x_idx <- which(names(donations) %in% unselected_features)

# Выборка невыбранных признаков
unselX <- donations[, unsel_x_idx]

# Объединение выбранных и невыбранных признаков
mixed_X <- cbind(selX, unselX)

Применим метод RFE к этому набору из 20 признаков, чтобы получить представление об их ранжировании (важности) для набора данных и модели, используемой в методе RFE.

In [2]:
install.packages("caret")
install.packages("randomForest")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘future.apply’, ‘diagram’, ‘lava’, ‘prodlim’, ‘ipred’, ‘foreach’, ‘ModelMetrics’, ‘plyr’, ‘pROC’, ‘recipes’, ‘reshape2’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [4]:
# install.packages("caret")
library(caret)
library(e1071)
library(randomForest)

# Предварительно определите y как вектор-отклик
y <- donations$amount



In [5]:
# Создание контрольных параметров для RFE
control <- rfeControl(functions = rfFuncs, method = "cv", number = 10)

In [6]:
# Выполнение RFE
result <- rfe(x = mixed_X, y = y, sizes = c(1:10), rfeControl = control, method = 'svmLinear', preProc = c("center", "scale"))

# Вывод результатов
print(result)

# Оценка важности признаков
print(result$optVariables)

ERROR: ignored