# ML-6. Отбор и селекция признаков

## 9. Отбор признаков: классификация методов

### Задание 9.5. Модуль ML-6 (HW-03)

Обучите модель линейной регрессии на найденных двумя способами трёх важных признаках и сравните полученные результаты. Загрузите полученный ноутбук (в формате IPYNB) в форму ниже.

>КРИТЕРИИ ОЦЕНИВАНИЯ:

|Баллы |Описание|
|--|--|
|1 балл|	Верно выделены три столбца-признака для обучения, выбранные RFE.|
1 балл|	Верно выделены три столбца-признака для обучения, выбранные SelectKBest.
3 балла|	Обучена регрессия на первых трёх столбцах, оценено качество модели на тесте.
3 балла|	Обучена регрессия на вторых трёх столбцах, оценено качество модели на тесте.
2 балла|	Произведено сравнение выбранных метрик в форме комментария. Дан ответ на вопрос «Какой метод отбора признаков показал наилучший результат на тестовой выборке?» (в текстовой ячейке).

```Максимальное количество баллов за выполнение задания — 10.```

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import SelectKBest, f_regression, RFE
from sklearn.metrics import mean_absolute_error
import numpy as np

# Загрузка данных
data = pd.read_excel('data/data_ford_price.xlsx')

# Выбор нужных столбцов
data = data[['price', 'year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]

# Удаление пропущенных значений
data.dropna(inplace=True)

# Определение целевой переменной и признаков
y = data['price']
X = data.drop(columns='price')

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=30)

# Использование RFE для выбора 3-х важных признаков
estimator = LinearRegression()
selector_rfe = RFE(estimator, n_features_to_select=3, step=1)
selector_rfe = selector_rfe.fit(X_train, y_train)

# Получение имен выбранных признаков RFE
selected_features_rfe = X_train.columns[selector_rfe.support_]
print("Выбранные признаки (RFE):", selected_features_rfe)

# Преобразование данных для выбранных признаков RFE
X_train_selected_rfe = selector_rfe.transform(X_train)
X_test_selected_rfe = selector_rfe.transform(X_test)

# Обучение модели линейной регрессии на выбранных признаках RFE
model_selected_rfe = LinearRegression()
model_selected_rfe.fit(X_train_selected_rfe, y_train)
y_pred_selected_rfe = model_selected_rfe.predict(X_test_selected_rfe)

# Оценка модели на выбранных признаках RFE
mae_selected_rfe = mean_absolute_error(y_test, y_pred_selected_rfe)
print('MAE с выбранными признаками (RFE): %.2f' % mae_selected_rfe)

# Использование SelectKBest для выбора 3-х важных признаков
selector_kbest = SelectKBest(f_regression, k=3)
X_train_selected_kbest = selector_kbest.fit_transform(X_train, y_train)
X_test_selected_kbest = selector_kbest.transform(X_test)

# Получение имен выбранных признаков SelectKBest
selected_features_kbest = selector_kbest.get_feature_names_out(X.columns)
print("Выбранные признаки (SelectKBest):", selected_features_kbest)

# Обучение модели линейной регрессии на выбранных признаках SelectKBest
model_selected_kbest = LinearRegression()
model_selected_kbest.fit(X_train_selected_kbest, y_train)
y_pred_selected_kbest = model_selected_kbest.predict(X_test_selected_kbest)

# Оценка модели на выбранных признаках SelectKBest
mae_selected_kbest = mean_absolute_error(y_test, y_pred_selected_kbest)
print('MAE с выбранными признаками (SelectKBest): %.2f' % mae_selected_kbest)


Выбранные признаки (RFE): Index(['year', 'cylinders', 'lat'], dtype='object')
MAE с выбранными признаками (RFE): 5252.68
Выбранные признаки (SelectKBest): ['year' 'cylinders' 'odometer']
MAE с выбранными признаками (SelectKBest): 4910.27


### Вывод

Метод отбора признаков **SelectKBest** показал наилучший результат на тестовой выборке, так как его значение MAE (4910.27) ниже, чем у метода RFE (5252.68). Это означает, что модель, обученная на признаках, выбранных с помощью SelectKBest, имеет меньшую среднюю абсолютную ошибку прогнозирования на тестовой выборке по сравнению с моделью, обученной на признаках, выбранных с помощью RFE.
