### Обучение модели линейной регрессии на найденных двумя способами трёх важных признаках, сравнение полученных результатов

In [34]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

from sklearn.feature_selection import RFE
from sklearn.feature_selection import SelectKBest, f_regression

Загружаем данные

In [35]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [36]:
data = pd.read_excel('data_ford_price.xlsx') 

Проводим предобработку

In [37]:
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

Обучаем модель

In [38]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4682.957


Выбираем признаки методом RFE

In [39]:
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'lat'], dtype=object)

Готовим данные и делаем предсказание по трем выбранным признакам, оцениваем качество модели

In [40]:
data = pd.read_excel('data_ford_price.xlsx') 
data = data[['year', 'cylinders', 'lat', 'price']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)


In [41]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 5198.857


Выбираем признаки с помощью метода k лучших переменных SelectKBest

In [42]:
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'lat'], dtype=object)

Готовим данные и делаем предсказание по трем выбранным признакам, оцениваем качество модели

In [43]:
data = pd.read_excel('data_ford_price.xlsx') 
data = data[['year', 'cylinders', 'odometer', 'price']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)


In [44]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4867.451


*Вывод*: **исходная модуль** показала качество **MAE 4682.957**. При отборе признаков использовалось два метода: RFE и SelectKBest. В обоих методах выбирались 3 самых важных признака. При **RFE MAE 5198.857**, при **выборе признаков с помощью метода k лучших переменных MAE 4867.451**. Оба метода показали MAE хуже, чем исходная модуль. Можно сделать вывод, что из тех признаков, которыми мы пренебрегали при выборе топовых признаков, какой-то признак все же сильно влияет на качество предсказания модели. Возможно, стоит подбирать другой метод отбора признаков или расширять список лучших признаков.