In [89]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# Загрузка данных

In [90]:
data = pd.read_excel('data/data_ford_price.xlsx') 

#  Отбор признаков: мотивация

## Предобработка данных

In [91]:
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

y = data['price']
x = data.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

## Обучение модели

In [92]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4682.957


#  Отбор признаков: классификация методов

## Метод рекурсивного исключения признаков

In [93]:
from sklearn.feature_selection import RFE

In [94]:
y = data['price']
x = data.drop(columns='price')

In [95]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [96]:
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'lat'], dtype=object)

In [97]:
X_train.columns

Index(['year', 'cylinders', 'odometer', 'lat', 'long', 'weather'], dtype='object')

In [98]:
selector.ranking_

array([1, 1, 4, 1, 3, 2])

##  МЕТОДЫ ВЫБОРА ПРИЗНАКОВ НА ОСНОВЕ ФИЛЬТРОВ

In [99]:
from sklearn.feature_selection import SelectKBest, f_regression

In [100]:
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'odometer'], dtype=object)

### Обучение модели линейной регрессии на отобранных признаках методом рекурсивного исключения признаков (RFE)

In [101]:
X = data[['year', 'cylinders', 'lat']]
y = data['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=40)

In [102]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 5096.570


### Обучение модели линейной регрессии на отобранных признаках методом фильтрации

In [103]:
X = data[['year', 'cylinders', 'odometer']]
y = data['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=40)

In [104]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4708.946


Вывод: в данных условиях лучше справилась модель, обученная на признаках, отобранных методом выбора k лучших переменных на основе коэффициента корреляции Пирсона, чем на RFE.

Однако модель, обученная на всех признаках по показателю целевой метрики справляется с предсказанием лучше, чем вышеупомянутые модели.