# Обучите модель линейной регрессии на найденных двумя способами трёх важных признаках и сравните полученные результаты. З

In [32]:
# загрузка модулей

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

###  Загрузка данных

In [33]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [34]:
data = pd.read_excel('data_ford_price.xlsx') 

In [35]:
df = data.copy()

In [36]:
# датафрейм для определения важных столбцов методом RFE

df = df[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
df.dropna(inplace = True)

y = df['price']
x = df.drop(columns='price')

# разделение выборки на тренировочную и тестовую

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [37]:
x.head()

Unnamed: 0,year,cylinders,odometer,lat,long,weather
0,2016,6,43500,36.4715,-82.4834,59.0
1,2009,8,98131,40.468826,-74.281734,52.0
2,2002,8,201803,42.477134,-82.949564,45.0
3,2000,8,170305,40.764373,-82.349503,49.0
5,2003,8,167662,45.518031,-122.578752,50.0


### Обучение на исходном датасете без выделения важных признаков

In [38]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4682.957


### Выделение трех столбцов методом RFE

In [39]:
from sklearn.feature_selection import RFE

In [40]:
# определение важных признаков

estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'lat'], dtype=object)

### Обучение модели регресии с выбранными признаками методом RFE

In [41]:
#создание датафрейма для обучения модели с учетом ранее выбранных признаков

df_rfe = data.copy()

df_rfe = df_rfe[['price', 'year', 'cylinders', 'lat']]
df_rfe.dropna(inplace = True)

y = df_rfe['price']
x = df_rfe.drop(columns='price')

In [42]:
# разделение выборки на тренировочную и тестовую

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [43]:
# обучение модели линейной регресси на выбранных важных переменных

model_rfe = LinearRegression()
model_rfe.fit(X_train, y_train)
y_predicted = model_rfe.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 5198.857


## Выделение трех столбцов методом SelectKBest.

In [44]:
# датафрейм для определения важных столбцов методом SelectKBest

df = df[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
df.dropna(inplace = True)

y = df['price']
x = df.drop(columns='price')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [45]:
from sklearn.feature_selection import SelectKBest, f_regression

selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'cylinders', 'odometer'], dtype=object)

### Обучение модели регресии с выбранными признаками методом SelectKBest.

In [46]:
#создание датафрейма для обучения модели с учетом ранее выбранных признаков

df_sb = data.copy()

df_sb = df_sb[['price', 'year', 'cylinders', 'odometer']]
df_sb.dropna(inplace = True)

y = df_sb['price']
x = df_sb.drop(columns='price')

In [47]:
# разделение выборки на тренировочную и тестовую

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [48]:
# обучение модели линейной регресси на выбранных важных переменных

model_sb = LinearRegression()
model_sb.fit(X_train, y_train)
y_predicted = model_sb.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4867.451


## Выводы: 
1) метод SelectKBest позволил получить используя 3 параметра значение МАЕ приближенное при использовании исходного датасета.
2) метод RFE ухудшил МАЕ при использовании 3-х параметров, при сравнении с исходным датасетом.
3) соответсвенно, SelectKBest по сравнению с RFE в данном случае показал более высокий результат, за счет выбора параметра, который обеспечивает лучшую обучаемость модели линейной регрессии.