Обучите модель линейной регрессии на найденных двумя способами (RFE и SelectKBest) трёх важных признаках и сравните полученные результаты.

# Загрузка данных

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [4]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [5]:
data = pd.read_excel('data\data_ford_price.xlsx') 

# Предобработка данных

In [8]:
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

# Определение трёх наиболее важных признаков по RFE

In [9]:
from sklearn.feature_selection import RFE

estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'lat'], dtype=object)

# Определение трёх наиболее важных признаков по SelectKBest

In [10]:
from sklearn.feature_selection import SelectKBest, f_regression

selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'odometer'], dtype=object)

# Модель на признаках RFE

In [25]:
X1 = data[['year', 'cylinders', 'lat']]
y1 = data['price']

X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.3, random_state=40)

model1 = LinearRegression()
model1.fit(X1_train, y1_train)
y1_predicted = model1.predict(X1_test)
 
mae1 = mean_absolute_error(y1_test, y1_predicted)
print('MAE: %.3f' % mae1)

MAE: 5096.570


# Модель на признаках SelectKBest

In [27]:
X2 = data[['year', 'cylinders', 'odometer']]
y2 = data['price']

X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.3, random_state=40)

model2 = LinearRegression()
model2.fit(X2_train, y2_train)
y_predicted2 = model2.predict(X2_test)
 
mae2 = mean_absolute_error(y2_test, y_predicted2)
print('MAE: %.3f' % mae2)

MAE: 4708.946


# Вывод:
Модель, обученная на признаках, выделенных с помощью SelectKBest, имеет лучшую предсказательную способность, чем модель, обученная на признаках, выделенных с помощью RFE.
