# Подгрузка библиотек

In [19]:
import pandas as pd
from sklearn.feature_selection import RFE
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.metrics import mean_absolute_error

# Загрузка данных

In [11]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [36]:
data = pd.read_excel('/Users/dariashavronskaia/Desktop/data science/data/data_ford_price.xlsx') 

In [37]:
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data.dropna(inplace = True)
y = data['price']
x = data.drop(columns='price')

In [38]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

# Обучение модели без отбора признаков

In [39]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4682.957


# Отбор признаков

### Метод рекурсивного исключения признаков

In [40]:
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selected_features = selector.get_feature_names_out()

### Обучение модели после отбора

In [41]:
model = LinearRegression()
model.fit(X_train[selected_features], y_train)
y_predicted = model.predict(X_test[selected_features])
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 5096.570


### Метод выбора признаков на основе фильтров

In [42]:
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selected_features = selector.get_feature_names_out()

### Обучение модели после отбора

In [43]:
model = LinearRegression()
model.fit(X_train[selected_features], y_train)
y_predicted = model.predict(X_test[selected_features])
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 4708.946


##### Вывод
При отборе признаков на основе фильтров значение MAE ниже, чем при рекурсивном исключении признаков, что указывает на лучший результат при отборе. Однако MAE выше, чем без отбора признаков, что может быть связано c потерей информацией или переобучением
