# **Библиотека Feature-engine**

## О библиотеке

Feature-Engine - это пакет на языке Python с открытым исходным кодом для разработки и выбора функций. Пакет действует как трансформатор, аналогичный fit и transform в scikit-learn, с очень низкими затратами на обучение.

Функциональный движок transformer предназначен для работы с конвейером scikit-learn и взаимодействия с пакетом scikit-learn.

В пакете Feature-Engine есть много API, которые можно попробовать. Рассмотрим следующие
* ** MathFeatures **: Объединение объектов с математическими функциями.
* ** RelativeFeatures **: Комбинирование объектов с корреляционными характеристиками
* ** CyclicalFeatures **. Создает объекты, используя синус и косинус (подходит для циклических объектов).

## Рассмотрим пример

### Установка библиотеки

In [2]:
!pip install feature-engine



### Загрузка библиотек

In [3]:
# Библиотеки

from sklearn import datasets # библиотека для загрузки стандартных наборов данных
import pandas as pd # библиотека для обработки и анализа данных в Python
# Импорт класса MathFeatures из библиотеки feature-engine
from feature_engine.creation import MathFeatures
# Импорт класса RelativeFeatures из библиотеки feature_engine
from feature_engine.creation import RelativeFeatures

## Загрузка данных

In [4]:
# В данном примере используем набор данных Iris для демонстрации

# Загрузка набора данных Ирис
iris = datasets.load_iris()

# Создание DataFrame из данных Ирис
# - iris.data содержит числовые признаки
# - iris.feature_names - это названия этих признаков
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Добавление целевой переменной в DataFrame
# target - это номер класса (0, 1 или 2)
df['target'] = iris.target

# Преобразование номера класса в название вида
# lambda-функция применяется к каждому значению target
df['species'] = df['target'].apply(lambda x: iris.target_names[x])

In [5]:
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'species'],
      dtype='object')

## Функционал feature-engine

**Функция MathFeatures**

Математическая функция, используемая для разработки объектов. Чтобы реализовать ее, настроим преобразования с помощью *variables_to_combine* и math_operations.

In [6]:
MathFeatures?

In [7]:
# Создание экземпляра класса MathematicalCombination -> MathFeatures
# для генерации новых признаков путем математических операций
MF = MathFeatures(
    # Список признаков для комбинации
    variables=["sepal length (cm)", "sepal width (cm)"], # чашелистник ириса

    # Список математических операций для применения к выбранным признакам
    func=["sum", "min", "max", "std"]
)

In [8]:
# Подгонка модели к данным
MF.fit(df) # будет ошибка, если variables отсутствую в df

# Применение трансформации к данным
df_math = MF.transform(df)

In [9]:
df_math.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,species,sum_sepal length (cm)_sepal width (cm),min_sepal length (cm)_sepal width (cm),max_sepal length (cm)_sepal width (cm),std_sepal length (cm)_sepal width (cm)
0,5.1,3.5,1.4,0.2,0,setosa,8.6,3.5,5.1,1.131371
1,4.9,3.0,1.4,0.2,0,setosa,7.9,3.0,4.9,1.343503
2,4.7,3.2,1.3,0.2,0,setosa,7.9,3.2,4.7,1.06066
3,4.6,3.1,1.5,0.2,0,setosa,7.7,3.1,4.6,1.06066
4,5.0,3.6,1.4,0.2,0,setosa,8.6,3.6,5.0,0.989949


**Краткое описание:**

Как мы видели выше, появилось несколько новых столбцов.

Процесс создания новых столбцов

Мы использовали класс MathFeatures из библиотеки feature_engine.
Выбрали два исходных признака: длина чашелистика (sepal length (cm)) и ширина чашелистика (sepal width (cm)).

Применили четыре математические операции к этим признакам.

**Новые столбцы и их описание**

Новые столбцы будут иметь следующие названия и описания:
* SepalLengthCm_SepalWidthCm_sum: Сумма длины и ширины чашелистика.
* SepalLengthCm_SepalWidthCm_min: Минимальное значение между длиной и шириной чашелистика.
* SepalLengthCm_SepalWidthCm_max: Максимальное значение между длиной и шириной чашелистика.
* SepalLengthCm_SepalWidthCm_std: Стандартное отклонение длины и ширины чашелистика.

**Особенности названий столбцов**

Названия новых столбцов включают имена исходных признаков (sepal length (cm) и sepal width (cm)).

Они также содержат название примененной операции (sum, min, max, std).

Это делает названия информативными и легко интерпретируемыми.

In [10]:
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'species'],
      dtype='object')

In [11]:
# Создание экземпляра класса RelativeFeatures для генерации относительных признаков
RF = RelativeFeatures(
    variables=["petal length (cm)", "petal width (cm)"],  # Признаки для комбинации, лепестки
    reference=["petal width (cm)"],  # Эталонный признак для сравнения
    func=["sub", "div"]  # Операции для применения
)

# Подгонка модели к данным и одновременное применение трансформации
df_r = RF.fit_transform(df)

# Отображение первых нескольких строк результирующего DataFrame
df_r.head()


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,species,petal length (cm)_sub_petal width (cm),petal width (cm)_sub_petal width (cm),petal length (cm)_div_petal width (cm),petal width (cm)_div_petal width (cm)
0,5.1,3.5,1.4,0.2,0,setosa,1.2,0.0,7.0,1.0
1,4.9,3.0,1.4,0.2,0,setosa,1.2,0.0,7.0,1.0
2,4.7,3.2,1.3,0.2,0,setosa,1.1,0.0,6.5,1.0
3,4.6,3.1,1.5,0.2,0,setosa,1.3,0.0,7.5,1.0
4,5.0,3.6,1.4,0.2,0,setosa,1.2,0.0,7.0,1.0


In [12]:
df_r.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,petal length (cm)_sub_petal width (cm),petal width (cm)_sub_petal width (cm),petal length (cm)_div_petal width (cm),petal width (cm)_div_petal width (cm)
count,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0,2.558667,0.0,4.3105,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232,1.051696,0.0,2.489648,0.0
min,4.3,2.0,1.0,0.1,0.0,0.8,0.0,2.125,1.0
25%,5.1,2.8,1.6,0.3,0.0,1.3,0.0,2.802381,1.0
50%,5.8,3.0,4.35,1.3,1.0,2.9,0.0,3.3,1.0
75%,6.4,3.3,5.1,1.8,2.0,3.3,0.0,4.666667,1.0
max,7.9,4.4,6.9,2.5,2.0,4.7,0.0,15.0,1.0


# Decision tree feature

Если мы создаем объекты для регрессии, функция DecisionTreeFeatures() обучит регрессор DecisionTreeRegressor в scikit-learn, и объекты будут получены из метода прогнозирования этих регрессоров. Следовательно, объекты будут находиться в масштабе цели. Однако помните, что выходные данные регрессоров дерева принятия решений не являются непрерывными, это кусочная функция.

Если мы создадим объекты для классификации, функция DecisionTreeFeatures() будет обучать DecisionTreeClassifier в scikit-learn. Если целевой объект является двоичным, результирующие объекты являются результатом работы метода predict_proba модели, соответствующего предсказаниям класса 1. С другой стороны, если результат является мультиклассовым, объекты являются производными от метода predict и, следовательно, возвращают предсказанный класс.

Подробнее: https://feature-engine.trainindata.com/en/1.8.x/user_guide/creation/DecisionTreeFeatures.html

In [13]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from feature_engine.creation import DecisionTreeFeatures

X, y = fetch_california_housing(return_X_y=True, as_frame=True)
X.drop(labels=["Latitude", "Longitude"], axis=1, inplace=True)
print(X.head())

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467


In [14]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0)

In [15]:
DecisionTreeFeatures?

In [16]:
dtf = DecisionTreeFeatures(features_to_combine=2) # комбинироваться по 2 столбца
dtf.fit(X_train, y_train)

In [17]:
dtf.input_features_

['MedInc',
 'HouseAge',
 'AveRooms',
 'AveBedrms',
 'Population',
 'AveOccup',
 ['MedInc', 'HouseAge'],
 ['MedInc', 'AveRooms'],
 ['MedInc', 'AveBedrms'],
 ['MedInc', 'Population'],
 ['MedInc', 'AveOccup'],
 ['HouseAge', 'AveRooms'],
 ['HouseAge', 'AveBedrms'],
 ['HouseAge', 'Population'],
 ['HouseAge', 'AveOccup'],
 ['AveRooms', 'AveBedrms'],
 ['AveRooms', 'Population'],
 ['AveRooms', 'AveOccup'],
 ['AveBedrms', 'Population'],
 ['AveBedrms', 'AveOccup'],
 ['Population', 'AveOccup']]

In [18]:
train_t = dtf.transform(X_train)
test_t = dtf.transform(X_test)

test_t.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,tree(MedInc),tree(HouseAge),tree(AveRooms),tree(AveBedrms),...,"tree(['HouseAge', 'AveRooms'])","tree(['HouseAge', 'AveBedrms'])","tree(['HouseAge', 'Population'])","tree(['HouseAge', 'AveOccup'])","tree(['AveRooms', 'AveBedrms'])","tree(['AveRooms', 'Population'])","tree(['AveRooms', 'AveOccup'])","tree(['AveBedrms', 'Population'])","tree(['AveBedrms', 'AveOccup'])","tree(['Population', 'AveOccup'])"
14740,4.1518,22.0,5.663073,1.075472,1551.0,4.180593,2.204822,2.130618,2.00195,2.080254,...,1.885406,2.124812,2.004703,1.43744,2.099977,1.878989,1.719582,2.056003,1.400491,1.484939
10101,5.7796,32.0,6.107226,0.927739,1296.0,3.020979,2.975513,2.05198,2.00195,2.165554,...,1.885406,2.124812,2.004703,2.257968,2.438937,2.077321,2.156884,2.056003,2.15321,2.059187
20566,4.3487,29.0,5.930712,1.026217,1554.0,2.910112,2.204822,2.05198,2.00195,2.165554,...,1.885406,2.124812,2.004703,2.257968,2.099977,1.878989,2.156884,2.056003,2.15321,2.059187
2670,2.4511,37.0,4.992958,1.316901,390.0,2.746479,1.416771,2.05198,1.802158,1.882763,...,1.797902,1.836498,2.123579,2.257968,1.728401,1.843904,1.74799,1.882763,1.86102,2.235743
15709,5.0049,25.0,4.319261,1.039578,649.0,1.712401,2.420124,2.130618,1.802158,2.165554,...,1.797902,2.124812,2.123579,2.603372,1.821467,1.843904,2.78369,2.221092,2.72746,2.74739


In [19]:
dtf = DecisionTreeFeatures(
    variables=["AveRooms", "AveBedrms", "Population"],
    features_to_combine=[2,3])

dtf.fit(X_train, y_train)

In [20]:
dtf.input_features_

[['AveRooms', 'AveBedrms'],
 ['AveRooms', 'Population'],
 ['AveBedrms', 'Population'],
 ['AveRooms', 'AveBedrms', 'Population']]

In [21]:
train_t = dtf.transform(X_train)
test_t = dtf.transform(X_test)

test_t.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,"tree(['AveRooms', 'AveBedrms'])","tree(['AveRooms', 'Population'])","tree(['AveBedrms', 'Population'])","tree(['AveRooms', 'AveBedrms', 'Population'])"
14740,4.1518,22.0,5.663073,1.075472,1551.0,4.180593,2.099977,1.878989,2.056003,2.099977
10101,5.7796,32.0,6.107226,0.927739,1296.0,3.020979,2.438937,2.077321,2.056003,2.438937
20566,4.3487,29.0,5.930712,1.026217,1554.0,2.910112,2.099977,1.878989,2.056003,2.099977
2670,2.4511,37.0,4.992958,1.316901,390.0,2.746479,1.728401,1.843904,1.882763,1.843904
15709,5.0049,25.0,4.319261,1.039578,649.0,1.712401,1.821467,1.843904,2.221092,1.843904


In [22]:
features = (('Population'), ('Population', 'AveOccup'),
            ('Population', 'AveOccup', 'HouseAge'))

In [23]:
dtf = DecisionTreeFeatures(
    variables=None,
    features_to_combine=features,
    cv=5,
    scoring="neg_mean_squared_error"
)

dtf.fit(X_train, y_train)

In [24]:
dtf.input_features_

['Population',
 ['Population', 'AveOccup'],
 ['Population', 'AveOccup', 'HouseAge']]

In [25]:
train_t = dtf.transform(X_train)
test_t = dtf.transform(X_test)

In [26]:
tree_features = [var for var in test_t.columns if "tree" in var]
test_t[tree_features].head()

Unnamed: 0,tree(Population),"tree(['Population', 'AveOccup'])","tree(['Population', 'AveOccup', 'HouseAge'])"
14740,2.008283,1.484939,1.443097
10101,2.008283,2.059187,2.257968
20566,2.008283,2.059187,2.257968
2670,2.128961,2.235743,2.257968
15709,2.128961,2.74739,3.111251


In [27]:
DecisionTreeFeatures?

In [28]:
dtf = DecisionTreeFeatures(features_to_combine=2)
dtf.fit(X_train, y_train)

In [29]:
dtf.estimators_

[GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              scoring='neg_mean_squared_error'),
 GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              scoring='neg_mean_squared_error'),
 GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              scoring='neg_mean_squared_error'),
 GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              scoring='neg_mean_squared_error'),
 GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              scoring='neg_mean_squared_error'),
 GridSearchCV(cv=3, estimator=DecisionTreeRegressor(random_state=0),
              param_grid={'max_depth': [1, 2, 3, 4]},
              sco

In [30]:
tree = dtf.estimators_[4]
tree.best_params_

{'max_depth': 2}

In [31]:
tree.score(X_test[['Population']], y_test) # показатель качества

-1.3308515769033213

In [32]:
tree.best_estimator_.score(X_test[['Population']], y_test) # показатель качества

0.0017890442253447603

In [33]:
dtf = DecisionTreeFeatures(
    variables=["AveRooms", "AveBedrms", "Population"],
    features_to_combine=[2,3],
    drop_original=True,
    regression=True
)

dtf.fit(X_train, y_train)

train_t = dtf.transform(X_train)
test_t = dtf.transform(X_test)

test_t.head()

Unnamed: 0,MedInc,HouseAge,AveOccup,"tree(['AveRooms', 'AveBedrms'])","tree(['AveRooms', 'Population'])","tree(['AveBedrms', 'Population'])","tree(['AveRooms', 'AveBedrms', 'Population'])"
14740,4.1518,22.0,4.180593,2.099977,1.878989,2.056003,2.099977
10101,5.7796,32.0,3.020979,2.438937,2.077321,2.056003,2.438937
20566,4.3487,29.0,2.910112,2.099977,1.878989,2.056003,2.099977
2670,2.4511,37.0,2.746479,1.728401,1.843904,1.882763,1.843904
15709,5.0049,25.0,1.712401,1.821467,1.843904,2.221092,1.843904


Если мы создаем объекты для классификатора, а не для регрессора, процедура идентична. Нам просто нужно задать параметру regression значение False.

Обратите внимание, что если вы создаете объекты для бинарной классификации, добавленные объекты будут содержать вероятности класса 1. С другой стороны, если вы создаете объекты для многоклассовой классификации, то эти объекты будут содержать предсказание класса.

In [34]:
X_train

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup
1989,1.9750,52.0,2.800000,0.700000,193.0,4.825000
256,2.2604,43.0,3.671480,1.184116,836.0,3.018051
7887,6.2990,17.0,6.478022,1.087912,1387.0,3.810440
4581,1.7199,17.0,2.518000,1.196000,3051.0,3.051000
1993,2.2206,50.0,4.622754,1.161677,606.0,3.628743
...,...,...,...,...,...,...
13123,4.4125,20.0,6.000000,1.045662,712.0,3.251142
19648,2.9135,27.0,5.349282,0.933014,647.0,3.095694
9845,3.1977,31.0,3.641221,0.941476,704.0,1.791349
10799,5.6315,34.0,4.540598,1.064103,1052.0,2.247863


In [35]:
train_t

Unnamed: 0,MedInc,HouseAge,AveOccup,"tree(['AveRooms', 'AveBedrms'])","tree(['AveRooms', 'Population'])","tree(['AveBedrms', 'Population'])","tree(['AveRooms', 'AveBedrms', 'Population'])"
1989,1.9750,52.0,4.825000,1.652236,1.660658,2.221092,1.652236
256,2.2604,43.0,3.018051,1.728401,1.843904,1.882763,1.843904
7887,6.2990,17.0,3.810440,3.022693,2.579235,2.056003,3.022693
4581,1.7199,17.0,3.051000,2.253587,2.115721,1.882763,2.253587
1993,2.2206,50.0,3.628743,1.728401,1.843904,1.882763,1.843904
...,...,...,...,...,...,...,...
13123,4.4125,20.0,3.251142,2.099977,2.077321,2.221092,2.099977
19648,2.9135,27.0,3.095694,1.821467,1.843904,2.221092,1.843904
9845,3.1977,31.0,1.791349,1.821467,1.843904,2.221092,1.843904
10799,5.6315,34.0,2.247863,1.821467,1.843904,2.221092,1.843904


In [36]:
feat_importances = pd.DataFrame(tree.best_estimator_.feature_importances_, columns=["Importance"])
feat_importances.sort_values(by='Importance', ascending=False, inplace=True)
feat_importances[feat_importances['Importance']>0]

Unnamed: 0,Importance
0,1.0


# генерация признаков и отбор

In [37]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0)

In [38]:
# установка дополнительной библиотеки
!pip install tsfresh



In [39]:
# extract_features - извлечь все признаки, extract_relevant_features - извлечь релевантные признаки
# select_features рассчитывает важность текущего признака для предсказания класса
from tsfresh import extract_features, extract_relevant_features, select_features

# MinimalFCParameters рассчитает сумму, медиану, среднее, длину, стандартное отклонение, дисперсию, максимальное и минимальное значения каждого ряда
# EfficientFCParameters рассчитает коэффициенты skewness и kurtosis, повтор минимума и максимума, квантили, оконные статистики, автокорреляции и др
# ComprehensiveFCParameters самый большой и полный вариант, добавляются неэффективные в вычислительном плане признаки, но модель порой обучается лучше
from tsfresh.feature_extraction import MinimalFCParameters, EfficientFCParameters, ComprehensiveFCParameters


In [40]:
X

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467
...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209


In [41]:
X['id'] = X.index

In [42]:
X

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,id
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,0
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,1
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,2
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,3
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,4
...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,20635
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,20636
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,20637
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,20638


In [43]:
extracted_features = extract_relevant_features(X[['id','MedInc', 'HouseAge']], y, column_id='id', column_sort="MedInc") # извлечь признаки

Feature Extraction: 100%|██████████| 20640/20640 [27:51<00:00, 12.35it/s]


In [44]:
extracted_features

Unnamed: 0,HouseAge__benford_correlation,HouseAge__sum_values,HouseAge__median,HouseAge__abs_energy,HouseAge__root_mean_square,HouseAge__maximum,HouseAge__absolute_maximum,HouseAge__mean,HouseAge__minimum,HouseAge__quantile__q_0.1,...,HouseAge__quantile__q_0.6,HouseAge__quantile__q_0.7,HouseAge__quantile__q_0.8,HouseAge__quantile__q_0.9,"HouseAge__cwt_coefficients__coeff_0__w_2__widths_(2, 5, 10, 20)","HouseAge__cwt_coefficients__coeff_0__w_5__widths_(2, 5, 10, 20)","HouseAge__cwt_coefficients__coeff_0__w_10__widths_(2, 5, 10, 20)","HouseAge__cwt_coefficients__coeff_0__w_20__widths_(2, 5, 10, 20)","HouseAge__fft_coefficient__attr_""real""__coeff_0","HouseAge__fft_coefficient__attr_""abs""__coeff_0"
0,-0.064614,41.0,41.0,1681.0,41.0,41.0,41.0,41.0,41.0,41.0,...,41.0,41.0,41.0,41.0,22.207223,15.837061,10.506604,7.453866,41.0,41.0
1,0.295657,21.0,21.0,441.0,21.0,21.0,21.0,21.0,21.0,21.0,...,21.0,21.0,21.0,21.0,11.374431,8.111665,5.381431,3.817834,21.0,21.0
2,-0.145280,52.0,52.0,2704.0,52.0,52.0,52.0,52.0,52.0,52.0,...,52.0,52.0,52.0,52.0,28.165259,20.086029,13.325448,9.453683,52.0,52.0
3,-0.145280,52.0,52.0,2704.0,52.0,52.0,52.0,52.0,52.0,52.0,...,52.0,52.0,52.0,52.0,28.165259,20.086029,13.325448,9.453683,52.0,52.0
4,-0.145280,52.0,52.0,2704.0,52.0,52.0,52.0,52.0,52.0,52.0,...,52.0,52.0,52.0,52.0,28.165259,20.086029,13.325448,9.453683,52.0,52.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,0.295657,25.0,25.0,625.0,25.0,25.0,25.0,25.0,25.0,25.0,...,25.0,25.0,25.0,25.0,13.540990,9.656744,6.406466,4.545040,25.0,25.0
20636,0.864123,18.0,18.0,324.0,18.0,18.0,18.0,18.0,18.0,18.0,...,18.0,18.0,18.0,18.0,9.749513,6.952856,4.612655,3.272429,18.0,18.0
20637,0.864123,17.0,17.0,289.0,17.0,17.0,17.0,17.0,17.0,17.0,...,17.0,17.0,17.0,17.0,9.207873,6.566586,4.356397,3.090627,17.0,17.0
20638,0.864123,18.0,18.0,324.0,18.0,18.0,18.0,18.0,18.0,18.0,...,18.0,18.0,18.0,18.0,9.749513,6.952856,4.612655,3.272429,18.0,18.0


In [45]:
extracted_features.isna().sum()

Unnamed: 0,0
HouseAge__benford_correlation,0
HouseAge__sum_values,0
HouseAge__median,0
HouseAge__abs_energy,0
HouseAge__root_mean_square,0
HouseAge__maximum,0
HouseAge__absolute_maximum,0
HouseAge__mean,0
HouseAge__minimum,0
HouseAge__quantile__q_0.1,0


In [46]:
extracted_features.dropna(inplace=True)

In [47]:
extracted_features.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
HouseAge__benford_correlation,20640.0,0.247155,0.359619,-0.297356,-0.064614,0.062915,0.295657,0.864123
HouseAge__sum_values,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__median,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__abs_energy,20640.0,978.608769,750.695219,1.0,324.0,841.0,1369.0,2704.0
HouseAge__root_mean_square,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__maximum,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__absolute_maximum,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__mean,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__minimum,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
HouseAge__quantile__q_0.1,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0


In [None]:
# extracted_features.drop(columns=[], inplace=True)

## Отбор признаков с помощью Случайного леса

In [48]:
X_train_fe, X_test_fe, y_train_fe, y_test_fe = train_test_split(
    extracted_features, y, test_size=0.3, random_state=0)

In [49]:
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor()

rf.fit(X_train_fe, y_train_fe)

In [50]:
rf.feature_importances_

array([0.09918811, 0.03982273, 0.03153484, 0.04396077, 0.03482915,
       0.04439222, 0.03998289, 0.05145837, 0.06089537, 0.03635332,
       0.05035437, 0.00888242, 0.01864512, 0.03340047, 0.0304823 ,
       0.03521016, 0.05222576, 0.07757598, 0.04271307, 0.04447603,
       0.04568015, 0.02716585, 0.05077057])