Метод RFE можно использовать как для выбора признаков, так и для оценки их важности. В следующем эксперименте объединим 10 случайно выбранных признаков из списка, предоставленного алгоритмом FRESH, с 10 случайно выбранными элементами из списка признаков, отклоненных алгоритмом FRESH.

In [3]:
# Установка seed для воспроизводимости результатов
set.seed(123)

# Пример чтения данных из файла donations.csv (для примера предположим, что в файле есть столбец id и ряд других столбцов)

donations <- read.csv("https://drive.google.com/uc?id=1o_VbJENU2up5A7dIzzdriCmzsyzRv2HZ")
donations <- na.omit(donations)

# Создание случайного индекса
x_idx <- sample(1:nrow(donations), nrow(donations), replace = FALSE)

# Выборка по индексу
selX <- donations[x_idx, ]

# Создание примера невыбранных признаков (для примера возьмем первые 10 признаков)
unselected_features <- names(donations)[1:10]

# Получение индексов невыбранных признаков
unsel_x_idx <- which(names(donations) %in% unselected_features)

# Выборка невыбранных признаков
unselX <- donations[, unsel_x_idx]

# Объединение выбранных и невыбранных признаков
mixed_X <- cbind(selX, unselX)

Применим метод RFE к этому набору из 20 признаков, чтобы получить представление об их ранжировании (важности) для набора данных и модели, используемой в методе RFE.

In [16]:
suppressMessages(suppressWarnings({
   install.packages("caret")
   install.packages("randomForest")
}))




In [18]:
# install.packages("caret")
suppressMessages(suppressWarnings({
  library(caret)
  library(e1071)
  library(randomForest)
}))


In [19]:
# Предварительно определите y как вектор-отклик
y <- donations$amount

In [20]:
# Создание контрольных параметров для RFE
control <- rfeControl(functions = rfFuncs, method = "cv", number = 10)

In [21]:
colnames(mixed_X) <- c('v1','v2','v3', 'amount', 'v5', 'v6')

In [24]:
 length(y)

In [27]:
head(mixed_X)

Unnamed: 0_level_0,v1,v2,v3,amount,v5,v6
Unnamed: 0_level_1,<dbl>,<chr>,<dbl>,<dbl>,<chr>,<dbl>
2463,100,2016-04-03 22:56:21,907,25,2017-11-12 11:13:44,0
2511,50,2017-10-01 19:18:43,925,50,2015-08-25 19:01:45,0
2227,25,2018-02-01 11:47:33,813,25,2015-03-26 12:03:47,0
526,50,2017-01-18 17:50:30,174,50,2016-07-06 12:24:55,0
195,50,2017-08-10 17:58:13,71,50,2016-05-11 18:13:04,1
1842,1500,2017-12-19 15:20:13,653,75,2017-01-23 12:55:47,1


In [28]:
# Выполнение RFE
result <- rfe(x = mixed_X, y = y, sizes = c(1, 3, 4, 6), rfeControl = control, method = 'svmLinear', preProc = c("center", "scale"))

# Вывод результатов
print(result)

# Оценка важности признаков
print(result$optVariables)


Recursive feature selection

Outer resampling method: Cross-Validated (10 fold) 

Resampling performance over subset size:

 Variables      RMSE Rsquared       MAE    RMSESD RsquaredSD     MAESD Selected
         1 1.356e-12   1.0000 1.014e-12 4.887e-13   0.000000 3.764e-13        *
         3 3.731e+01   0.9919 1.485e+01 1.538e+01   0.004761 5.328e+00         
         4 6.288e+01   0.9826 3.222e+01 1.863e+01   0.004213 7.044e+00         
         6 3.827e+01   0.9911 2.049e+01 9.564e+00   0.002646 2.352e+00         

The top 1 variables (out of 1):
   amount

[1] "amount"
