In [142]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [143]:
# Загрузка данных
data = pd.read_excel('data_ford_price.xlsx') 

In [144]:
# Предобработка данных
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

## Метод рекурсивного исключения признаков RFE

In [145]:
from sklearn.feature_selection import RFE

In [146]:
# Отбор признаков по методу рекурсивного исключения признаков RFE
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
print('Признаки, отобранные RFE:',  selector.get_feature_names_out())

X_train_RFE = X_train[selector.get_feature_names_out()]
X_test_RFE = X_test[selector.get_feature_names_out()]

Признаки, отобранные RFE: ['year' 'cylinders' 'lat']


In [147]:
# Обучение модели
model = LinearRegression()
model.fit(X_train_RFE, y_train)
y_predicted_RFE = model.predict(X_test_RFE)
mae_RFE = mean_absolute_error(y_test, y_predicted_RFE)
print('MAE RFE: %.3f' % mae_RFE)

MAE RFE: 5096.570


##  Метод выбора k лучших переменных SelectKBest

In [148]:
from sklearn.feature_selection import SelectKBest, f_regression

In [149]:
# Отбор признаков по методу SelectKBest
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
print('Признаки, отобранные SelectKBest:',  selector.get_feature_names_out())

X_train_KBest = X_train[selector.get_feature_names_out()]
X_test_KBest = X_test[selector.get_feature_names_out()]

Признаки, отобранные SelectKBest: ['year' 'cylinders' 'odometer']


In [150]:
# Обучение модели
model = LinearRegression()
model.fit(X_train_KBest, y_train)
y_predicted_KBest = model.predict(X_test_KBest)
mae_KBest = mean_absolute_error(y_test, y_predicted_KBest)
print('MAE KBest: %.3f' % mae_KBest)

MAE KBest: 4708.946


# Сравнение двух методов отбора признаков

In [151]:
print('Сравнение MAE двух методов отбора признаков')
print('MAE RFE: %.3f' % mae_RFE)
print('MAE KBest: %.3f' % mae_KBest)

Сравнение MAE двух методов отбора признаков
MAE RFE: 5096.570
MAE KBest: 4708.946


На тестовой выборке наилучший результат показал метод отбора признаков KBest