# Задание 9.5. Модуль ML-6 (HW-03)

Обучите модель линейной регрессии на найденных двумя способами трёх важных признаках и сравните полученные результаты. Загрузите полученный ноутбук (в формате IPYNB) в форму ниже.

КРИТЕРИИ ОЦЕНИВАНИЯ:

*Верно выделены три столбца-признака для обучения, выбранные RFE.*

*Верно выделены три столбца-признака для обучения, выбранные SelectKBest.*

*Обучена регрессия на первых трёх столбцах, оценено качество модели на тесте.*

*Обучена регрессия на вторых трёх столбцах, оценено качество модели на тесте.*

*Произведено сравнение выбранных метрик в форме комментария. Дан ответ на вопрос «Какой метод отбора признаков показал наилучший результат на тестовой выборке?» (в текстовой ячейке).*

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# Загрузка данных

In [2]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [3]:
data = pd.read_excel('data/data_ford_price.xlsx') 

## Предобработка данных

In [None]:
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

#  Отбор признаков: классификация методов

## Метод рекурсивного исключения признаков

In [5]:
from sklearn.feature_selection import RFE

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

Выделим три наиболее значимых признака:

In [11]:
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

X_train = X_train[['year', 'cylinders', 'lat']]
X_test = X_test[['year', 'cylinders', 'lat']]
print(X_train.columns)
print(X_test.columns)


Index(['year', 'cylinders', 'lat'], dtype='object')
Index(['year', 'cylinders', 'lat'], dtype='object')


## Обучение модели

In [12]:
from sklearn import linear_model #линейные модели
from sklearn import metrics #метрики

In [13]:
#Создаём объект класса LinearRegression
lr_model_rfe = linear_model.LinearRegression()

#Обучаем модель по МНК
lr_model_rfe.fit(X_train, y_train)
 
#Делаем предсказание для тренировочной выборки
y_train_predict = lr_model_rfe.predict(X_train)
#Делаем предсказание для тестовой выборки
y_test_predict = lr_model_rfe.predict(X_test)
 
print("Train MAE score: {:.3f}".format(metrics.mean_absolute_error(y_train, y_train_predict)))
print("Test MAE score: {:.3f}".format(metrics.mean_absolute_error(y_test, y_test_predict)))

Train MAE score: 5283.260
Test MAE score: 5096.570


##  МЕТОДЫ ВЫБОРА ПРИЗНАКОВ НА ОСНОВЕ ФИЛЬТРОВ

In [15]:
from sklearn.feature_selection import SelectKBest, f_regression

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [17]:
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

X_train = X_train[['year', 'cylinders', 'odometer']]
X_test = X_test[['year', 'cylinders', 'odometer']]
print(X_train.columns)
print(X_test.columns)


Index(['year', 'cylinders', 'odometer'], dtype='object')
Index(['year', 'cylinders', 'odometer'], dtype='object')


## Обучение модели

In [18]:
#Создаём объект класса LinearRegression
lr_model_kbr = linear_model.LinearRegression()

#Обучаем модель по МНК
lr_model_kbr.fit(X_train, y_train)
 
#Делаем предсказание для тренировочной выборки
y_train_predict = lr_model_kbr.predict(X_train)
#Делаем предсказание для тестовой выборки
y_test_predict = lr_model_kbr.predict(X_test)
 
print("Train MAE score: {:.3f}".format(metrics.mean_absolute_error(y_train, y_train_predict)))
print("Test MAE score: {:.3f}".format(metrics.mean_absolute_error(y_test, y_test_predict)))

Train MAE score: 4896.205
Test MAE score: 4708.946


Сравнение методов отбора признаков RFE и SelectKBest

На основе представленных данных о метриках MAE (Mean Absolute Error) для двух подходов:

### Метод RFE (Recursive Feature Elimination)

- Выбранные признаки: year, cylinders, lat

- Train MAE: 5283.260

- Test MAE: 5096.570

### Метод SelectKBest

- Выбранные признаки: year, cylinders, odometer

- Train MAE: 4896.205

- Test MAE: 4708.946

---

Какой метод лучше?
Метод SelectKBest показал меньшие значения MAE (как на обучающей, так и на тестовой выборках). Меньший MAE говорит о том, что модель делает более точные предсказания. Это позволяет сделать вывод, что SelectKBest оказался более эффективным для данной задачи отбора признаков.

---

Вывод: Рекомендуется использовать метод SelectKBest, так как он улучшил качество модели, выбрав более релевантные признаки (в данном случае: year, cylinders, odometer).