# Задание
Обучите модель линейной регрессии на найденных двумя способами трёх важных признаках и сравните полученные результаты. Загрузите полученный ноутбук (в формате IPYNB) в форму ниже.

In [30]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.feature_selection import RFE
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

In [15]:
data = pd.read_excel('../data/data_ford_price.xlsx')
data.head()

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.4715,-82.4834,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.11472,


In [16]:
# Отбор не категориальных признаков
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)

# Формирование тренировочного и набора данных
y = data['price']
X = data.drop('price', axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Пункт 1
Три столбца-признака для обучения, выбранные RFE.

In [27]:
model = LinearRegression()
selector_rfe = RFE(model, n_features_to_select=3, step=1)
selector_rfe.fit(X_train, y_train)

colums_rfe = list(selector_rfe.get_feature_names_out())
display(colums_rfe)

['year', 'cylinders', 'lat']

# Пункт 2
Три столбца-признака для обучения, выбранные SelectKBest.

In [34]:
selector_kbest = SelectKBest(f_regression, k=3)
selector_kbest.fit(X_train, y_train)
 
colums_kbest = list(selector_kbest.get_feature_names_out())
display(colums_kbest)

['year', 'cylinders', 'odometer']

# Пункт 3
Регрессия на первых трёх столбцах, оценено качество модели на тесте.

In [38]:
model.fit(X_train[colums_rfe], y_train)

y_test_pred_rfe = model.predict(X_test[colums_rfe])
mae_rfe = mean_absolute_error(y_test, y_test_pred_rfe)
r2_rfe = r2_score(y_test, y_test_pred_rfe)

print(f'Метрики при использовании RFE составили: MAE: {mae_rfe}, r2_score: {r2_rfe}')

Метрики при использовании RFE составили: MAE: 5488.2906864376055, r2_score: 0.5376812250579275


# Пункт 4
Регрессия на вторых трёх столбцах, оценено качество модели на тесте.

In [39]:
model.fit(X_train[colums_kbest], y_train)

y_test_pred_kbest = model.predict(X_test[colums_kbest])
mae_kbest = mean_absolute_error(y_test, y_test_pred_kbest)
r2_kbest = r2_score(y_test, y_test_pred_kbest)

print(f'Метрики при использовании kBest составили: MAE: {mae_kbest}, r2_score: {r2_kbest}')

Метрики при использовании kBest составили: MAE: 5098.0505914878195, r2_score: 0.5831519455323462


## Пункт 5
Cравнение выбранных метрик в форме комментария.

Наилучший результат для отбора признаков показал метод kBest. Сравнение проводилось по 2-м метрикам: коэффициет детерминации (r2_score) и средняя абсолютная ошибка (MAE). 