
## Тестовое задание Модуль ML_4_6
## Обучите модель линейной регрессии на найденных двумя способами трёх важных признаках и сравните полученные результаты.

### Импорт необходимых библиотек

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

from sklearn.feature_selection import RFE, SelectKBest, f_regression, f_classif

### Загрузка данных

In [2]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [3]:
data = pd.read_excel('data_ford_price.xlsx')
data = data[['price','year', 'cylinders', 'odometer', 'lat', 'long', 'weather']]
data = data.dropna() # удалим пропуски

### Выделим матрицу наблюдений и целевой признак из датафрейма

In [4]:
X = data.drop(columns='price') # матрица наблюдений
y = data['price'] # целевой признак

In [5]:
# Разобъем выборку на тренировочную и тестовую
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 40)

### Сделаем BaseLine - обучим модель линейной регрессии на всех доступных признаках и оценим качество с помощью MAE

In [6]:
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
print('MAE BaseLine: %.3f' % mae)

MAE BaseLine: 4682.957


### Выберем 3 самых важных признака датафрейма с помощью метода рекурсивного исключения признаков (RFE)

In [7]:
model_rfe = LinearRegression()

selector = RFE(model_rfe, n_features_to_select = 3, step = 1)
selector = selector.fit(X_train, y_train)
 
rfe_features = selector.get_feature_names_out()
rfe_features

array(['year', 'cylinders', 'lat'], dtype=object)

### Оставим только эти признаки в наборе X и обучим на них модель Линейной регрессии

In [8]:
# Оставим в наборах train и test только отобранные признаки
X_train_rfe = X_train[['year', 'cylinders', 'lat']]
X_test_rfe = X_test[['year', 'cylinders', 'lat']]

# Создадим и обучим модель Линейной Регрессии
lr_rfe = LinearRegression()
lr_rfe.fit(X_train_rfe, y_train)

# Сделаем предсказания для тренировочной и тестовой выборок
y_train_pred_rfe = lr_rfe.predict(X_train_rfe)
y_test_pred_rfe = lr_rfe.predict(X_test_rfe)

# Посчитаем МАЕ для тренировочной и тестовой выборок
mae_train_rfe = mean_absolute_error(y_train, y_train_pred_rfe)
mae_test_rfe = mean_absolute_error(y_test, y_test_pred_rfe)
print('MAE train для метода RFE: %.3f' % mae_train_rfe)
print('MAE test для метода RFE: %.3f' % mae_test_rfe)

MAE train для метода RFE: 5283.260
MAE test для метода RFE: 5096.570


### Выберем 3 самых важных признака датафрейма с помощью метода выбора признаков на основе фильтров (корреляция Пирсона)

In [9]:
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
pirs_features = selector.get_feature_names_out()
pirs_features

array(['year', 'cylinders', 'odometer'], dtype=object)

### Выберем 3 самых важных признака датафрейма с помощью метода выбора признаков на основе фильтров (ANOVA F-measure)

In [14]:
selector = SelectKBest(f_classif, k=3)
selector.fit(X_train, y_train)
 
anova_features = selector.get_feature_names_out()
anova_features

array(['year', 'cylinders', 'odometer'], dtype=object)

### Оба варианта этого метода дали одинаковый набор признаков

### Оставим только эти признаки в наборе X и обучим на них модель Линейной регрессии

In [15]:
# Оставим в наборах train и test только отобранные признаки
X_train_pirs = X_train[['year', 'cylinders', 'odometer']]
X_test_pirs = X_test[['year', 'cylinders', 'odometer']]

# Создадим и обучим модель Линейной Регрессии
lr_pirs = LinearRegression()
lr_pirs.fit(X_train_pirs, y_train)

# Сделаем предсказания для тренировочной и тестовой выборок
y_train_pred_pirs = lr_pirs.predict(X_train_pirs)
y_test_pred_pirs = lr_pirs.predict(X_test_pirs)

# Посчитаем МАЕ для тренировочной и тестовой выборок
mae_train_pirs = mean_absolute_error(y_train, y_train_pred_pirs)
mae_test_pirs = mean_absolute_error(y_test, y_test_pred_pirs)
print('MAE train для корреляции Пирсона: %.3f' % mae_train_pirs)
print('MAE test для корреляции Пирсона: %.3f' % mae_test_pirs)

MAE train для корреляции Пирсона: 4896.205
MAE test для корреляции Пирсона: 4708.946


### Выведем таблицу полученных результатов MAE

In [16]:
mae_df = pd.DataFrame.from_dict({'baseline': round(mae,2), 
                                 'rfe': round(mae_test_rfe,2), 
                                 'pirs': round(mae_test_pirs,2)}, 
                                orient='index').reset_index()
mae_df.columns = ['model', 'mae']
mae_df

Unnamed: 0,model,mae
0,baseline,4682.96
1,rfe,5096.57
2,pirs,4708.95


### Посмотрим насколько большое или маленькое MAE мы получили при разных вариантах модели

In [17]:
# Чтобы хоть как-то оценить MAE на данном этапе - сравним ее со средней ценой автомобилей
mean_price = data.price.mean()
print(f'MAE для признаков BaseLine составило {round(mae/mean_price,2)*100} % от средней цены')
print(f'MAE для признаков RFE составило {round(mae_test_rfe/mean_price,2)*100} % от средней цены')
print(f'MAE для признаков Пирсона составило {round(mae_test_pirs/mean_price,2)*100} % от средней цены')

MAE для признаков BaseLine составило 32.0 % от средней цены
MAE для признаков RFE составило 35.0 % от средней цены
MAE для признаков Пирсона составило 32.0 % от средней цены


### Выводы
1. Сама по себе MAE (средняя сумма абсолютной разницы) не дает четкого понимания, хорошо работает модель или нет.

Но мы можем предположить, что отклонение в 32-35% это достаточно много для цены автомобиля.

2. Наилучшее значение MAE мы получили при построении базовой модели, которую обучили на всех признаках

3. На наших данных лучше сработал метод отбора важных признаков с помощью корреляции Пирсона. 

Корреляция Пирсона дала лучше MAE, чем метод RFE.

4. Скорее всего, при отборе признаков были потеряны какие-то зависимости, которые помогали модели лучше обучаться.

5. Метод отбора важных признаков лучше сработает при наличии большого количества признаков.