
# ЛАБОРАТОРНА РОБОТА  

## "Лінійні та нелінійні регресійні моделі МН"

__Метою__ лабораторної роботи є набуття практичних навичок використання модулів бібліотеки `Scikit-learn` для вирішення наступних задач:

- визначення суттєвих показчиків для регресійної моделі
- пошук та настроювання гіперпараметрів лінійних та нелінійних регресійних моделей

__Результатом__ виконання лабораторної роботи є серія моделей які прогнозують ціну кватрир на вторинному ринку житла

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv('apartment_transformed.csv')
data.shape

(376, 176)

In [2]:
# відокремити ціловий показчик 'price'
price = data['Price']

# зилишити в 'data' тільки незалежні показчики
data = data.drop(['Price'], axis=1)

data.shape, price.shape    # ((676, 301), (676,))

((376, 175), (376,))

## 1. Пошук значущих ознак

### Теоретичне введення

__Значущі (суттеві) ознаки__ це дані, які мають сильну кореляцію або вплив на результат або прогноз моделі.

Ці позазчики визначаються за допомогою процесу, який називається __відбором ознак__ ([Feature selection](https://en.wikipedia.org/wiki/Feature_selection)), який передбачає _оцінку_ та _ранжування важливості_ різних змінних у наборі даних. Це можна зробити за дпомогою статистичних тестів, кореляційного аналізу або алгоритмів машинного навчання.

Після визначення значущих ознак їх можна використовувати для навчання моделі машинного навчання.

Це може бути особливо важливим у моделях, де дані складні та містять багато змінних. Тому ідентифікація  суттєвих ознак може допомогти зменшити розмірність даних і покращити продуктивність моделі.

Класи в модулі [sklearn.feature_selection](https://scikit-learn.org/stable/modules/feature_selection.html) можна використовувати для вибору функцій/зменшення розмірності на вибіркових наборах або для покращення показників точності оцінювачів, або для підвищення їх продуктивності на масивах даних з дуже великою розмірністю.

### Завдання

Відібрати з вхідного набору `data` 7 найбільш суттєвих показчиків для регрісійної моделі машинного навчання.

In [3]:
# імпортувати з модуля 'feature_selection' селектор ознак 'SelectKBest' 
# та регрісійний тест 'f_regression'
from sklearn.feature_selection import SelectKBest, f_regression

In [4]:
# побудувати селектор 7 ознак на f-регресорі
kbest_selector = SelectKBest(f_regression, k=7)

# застосувати селектор для побудови списку ознак
data_selected = kbest_selector.fit_transform(data, price)

In [5]:
# зберегти імена визначених селектором найбільш суттєвих ознак
best_features = kbest_selector.get_feature_names_out()

In [7]:
# побудувати датафрейм на визначених ознаках
data = pd.DataFrame(data=data_selected, 
                    columns=best_features)
data.head()

Unnamed: 0,one_hot_encoder__street_Мічуріна,one_hot_encoder__street_Саксаганського,numeric_encoder__rooms,numeric_encoder__price_per_m2,numeric_encoder__area_total,numeric_encoder__area_living,numeric_encoder__area_comfort
0,0.0,0.0,0.0,0.002464,0.008,0.009677,0.033445
1,0.0,0.0,0.166667,0.003583,0.104,0.087097,0.043478
2,0.0,0.0,0.166667,0.008677,0.106667,0.048387,0.073579
3,0.0,0.0,0.166667,0.003532,0.109333,0.087097,0.036789
4,0.0,0.0,0.0,0.004748,0.042667,0.087097,0.0


### Висновки

_описати загальну статистичну характеристику отриманого датасети та зробити висновки щодо можливості його використання для подальшого аналізу_

Отримано датасет 7х5 (рядки від 0 до 4), який містить найбільш "суттєві" ознаки нашого датасету рієлтора. Використання поданого датасету значно знизить шанс перенавчання(overfitting) майбутньої моделі, порівняно з використанням усіх початкових даних. 

## 2. Множинна лінійна регресія

### Теоретичне введення

__Множинна лінійна регресія__ — це статистичний метод, який використовується для встановлення зв’язку між _залежною_ (цільвою) змінною $\textbf y$ та _кількома_ незалежними змінними $\textbf [X]$.  

__Метою__ множинної лінійної регресії є знаходження найкращого лінійного зв’язку між залежною змінною та незалежними змінними, який виражається у вигляді рівняння:
$$y = b_0 + b_1 x_1 + b_2 x_2 + ... + b_n x_n$$

Найкращій зв'язок забезпечується знаходженням таких коєфіцієнтів $[B]$, що додають мінімум обраній метриці (MSE, MAE, ...)

### Завдання


Порахувати показчики якості моделі [лінйной множинної регресії](https://uk.mcfairbanks.com/719-multiple-regression-formula) на визначениx п.1 значущих ознаках датасету застосувавши [кросс-валідацію з __10__ сплітами](https://scikit-learn.org/stable/modules/cross_validation.html).

In [38]:
# імпортувати та побудувати лінійний регресор з параметрами за замовчанням
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

In [39]:
# імпортувати крос-валідатор 'cross_validate' з модуля 'model_selection'
from sklearn.model_selection import cross_validate, KFold

In [40]:
# отримати результати крос-валідації по параметрам 'neg_mean_absolute_percentage_error' 
# та 'r2' на 10 сплітах передбачивши розрахунок на навчальному наборі 'return_train_score'
cv_results_mul = cross_validate(lr, data, price, scoring = ['neg_mean_absolute_percentage_error', 'r2'],
                                cv=KFold(n_splits=10, random_state=None, shuffle=True), 
                                return_train_score = True)

#### занести результати в датафрейм 'cv_results_mul ' наступного вигляду:

------------

|помилка тесту в %   |коєф. R2 тесту  | помилка навчання в %  | коєф. R2 навчання  |
| :------------:|:------------:|:------------:|:------------:|
|  xx.xx | xx.xx  | xx.xx  | xx.xx  |
|  xx.xx | xx.xx  | xx.xx  | xx.xx  |
|  ... | ...  | ...  | ...  |


In [41]:
cv_results_mul = pd.DataFrame({
    'помилка тесту в %': cv_results_mul['test_neg_mean_absolute_percentage_error'],
    'коеф. R2 тесту': cv_results_mul['test_r2'],
    'помилка навчання в %': cv_results_mul['train_neg_mean_absolute_percentage_error'],
    'коеф. R2 навчання': cv_results_mul['train_r2']
})
cv_results_mul.head()

Unnamed: 0,помилка тесту в %,коеф. R2 тесту,помилка навчання в %,коеф. R2 навчання
0,-0.557507,0.79866,-0.428617,0.986019
1,-0.689565,0.784836,-0.485619,0.986872
2,-0.307089,0.697912,-0.32673,0.994264
3,-0.4426,0.766153,-0.475135,0.986497
4,-0.492557,0.974004,-0.472988,0.871091


In [42]:
# продовжити наступні команди виводу:
print ("середня помилка навчання = ", np.mean(cv_results_mul['помилка навчання в %']))
print ("середня помилка тесту = ", np.mean(cv_results_mul['помилка тесту в %']))

середня помилка навчання =  -0.43808620517049823
середня помилка тесту =  -0.4521813317315665


### Висновки

_зпираючись на отримані метрики якості зробити висновок про придатність моделі, недонавчана чи перенавчана вона і т.п._

### ВІДПОВІДЬ:
Виходячи із отриманих метрик, можна зазначити наступне:
- Середні значення помилки, на мою думку - входить у норму для даної моделі: і тестувальної, і тренованої вибірки;
- Значення коефіцієнта детермінації (R) для тесту та навчання у багатьох вибірках наближен до 100%, що свідчить більше про якість побудованої моделі
- Виходячі з цих даних, справедливо зазначити - модель можна не "перенавченною", а "нормальною".

## 3. Гребнева (Ridge) регресія

### Теоретичне введення

__Гребнева регресія__ — це техніка регулярізації, яка використовується в машинному навчанні для запобігання перенавчанню лінійних регресійних моделей за рахунок додавання штрафу до функції втрат регресійної моделі, яка зменшує величину коефіцієнтів до нуля.

$$\min_w\sum_{i=1}^n(y_i - x_i^w)^2 + \lambda|w|_2^2$$

Розмір штрафу визначається [нормою L2](https://craftappmobile.com/l1-vs-l2-regularization/) вектора коефіцієнтів, помноженою на гіперпараметр $\large \lambda$.




### Завдання

Побудувати модель на основі `ridge-регресії` та за допомогою [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) знайти таке значення _L2-регулярізатора_, яке буде
мінізувати обрані метрики якості моделі.
Для побудови моделі скоистатися датасетом, що отримано в  __завданні 1__ лабораторної роботи


In [43]:
# імпортувати ridge-регресор з модуля `sklearn.linear_model`
from sklearn.linear_model import Ridge

# побудувати регресор
ridge = Ridge(random_state = 33, fit_intercept = False)

In [44]:
# імпортувати сітку пошуку `GridSearchCV` з модулю sklearn.model_selection
from sklearn.model_selection import GridSearchCV

# визначити параметр равномірного пошуку 100 значень параметеру `alpha` в диапазоні 0-100000 
grid_params = {'alpha': np.arange(0, 100000, 1000),
'max_iter': [1500, 3000]}

In [45]:
%%time

# побудувати та натренувати гребневу регресійну модель на сітці 'grid_params'
# в якості критерія оцінки якості взяти метрику `neg_mean_absolute_percentage_error`

# створюємо сітку пошуку та тренуємо на ній модель
grid_search_model = GridSearchCV(ridge, param_grid=grid_params, cv = 10,
scoring='neg_median_absolute_error')

grid_search_model.fit(data, price)

CPU times: total: 7.75 s
Wall time: 7.75 s


In [46]:
# вивести найкращій естіматор (best_estimator_), та найкраще значення обраної метрики (best_score_)
grid_search_model.best_estimator_, grid_search_model.best_score_

(Ridge(alpha=0, fit_intercept=False, max_iter=1500, random_state=33),
 -51426.263497800246)

### Висновки

_cпираючись на отримані метрики якості зробити висновок про придатність моделі, недонавчана чи перенавчана вона і т.п._

### Відповідь:
Оскільки при масштабуванні даних було використано масштабувач MinMaxScaler (?), тому ми можемо побачити, що при поточній перевірці наша модель недонавчилась.

## 3. Поліноміальна регресія

### Теоретичне введення

__Поліноміальна регресія__ — це тип нелінійної регресії, у якому зв’язок між незалежною змінною $\large x$ і залежною змінною $\large y$ моделюється як поліноміальна функція n-го ступеня:

$$ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon $$

__Метою__ поліноміальної регресії є знаходження значень коефіцієнтів $ β_i$, які найкраще відповідають даним.

### Завдання


Порахувати показчики якості моделі на [поліноміальній регресії](https://uk.wikipedia.org/wiki/Поліноміальна_регресія) на визначених в п.1 значущих ознаках датасету, попередньо розширивши датасет за допомогою трансформера [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)

In [47]:
# імпортувати модуль preprocessing.PolynomialFeatures
from sklearn.preprocessing import PolynomialFeatures

# побудувати трансформер ступеня 2 для побудови додаткових ознак в датасеті
poly = PolynomialFeatures(degree = 2)
poly_dd = poly.fit_transform(data, price)

In [48]:
# визначити імена відібраних показчиків
poly_features_names = poly.get_feature_names_out()

In [50]:
# побудувати датасет на визначеному поліномі `poly`
data_poly = pd.DataFrame(poly_dd)
data_poly.columns = poly_features_names
data_poly.shape

(376, 36)

In [52]:
# отримати результати крос-валідації на множинном регресорі `lr` по параметрам 'neg_mean_absolute_percentage_error' 
# та 'r2' на 10 сплітах передбачивши розрахунок на навчальному наборі 'return_train_score'
cv_results_poly = cross_validate(lr, data_poly, price, scoring = ['neg_mean_absolute_percentage_error', 'r2'],
                                cv=KFold(n_splits=10, random_state=None, shuffle=True), 
                                return_train_score = True)

In [53]:
# занести результати крос-валідації: помилка тесту, помилка навчання та відповідні коефіцієнти 
# детермінаційї в датафрейм `cv_results_poly`. 
cv_results_poly = pd.DataFrame({
    'помилка тесту в %': cv_results_poly['test_neg_mean_absolute_percentage_error'],
    'коеф. R2 тесту': cv_results_poly['test_r2'],
    'помилка навчання в %': cv_results_poly['train_neg_mean_absolute_percentage_error'],
    'коеф. R2 навчання': cv_results_poly['train_r2']
})

cv_results_poly.head()

Unnamed: 0,помилка тесту в %,коеф. R2 тесту,помилка навчання в %,коеф. R2 навчання
0,-0.09036648,0.9383639,-0.088513,0.997499
1,-6805020000.0,-7.860709e+21,-0.080241,0.997509
2,-7882205000.0,-4.099981e+19,-0.081748,0.97659
3,-0.1019955,0.9875577,-0.081438,0.997545
4,-15564320000.0,-4.22924e+21,-0.089911,0.997477


In [54]:
# за допомогою крос-валідатора 'cross_val_predict' побудувати прогноз 'price_pred' 
# на лінійному регресорі на 10 сплітах
from sklearn.model_selection import cross_val_predict

price_pred = cross_val_predict(lr, data_poly, price, cv=10)

In [55]:
# вивести порівняльну таблицю з двох колонок: ціна реальна, ціна прогнозна
pred = pd.DataFrame({'ціна реальна': price,
                     'ціна прогнозна': np.round(price_pred)})
pred.head(5)

Unnamed: 0,ціна реальна,ціна прогнозна
0,30970.0,26154.0
1,82000.0,85637.0
2,135000.0,145395.0
3,84000.0,88519.0
4,60000.0,57009.0


In [56]:
# натренувати регресор `lr` на поліноміальних ознаках `data_poly`
lr.fit(data_poly,price)

In [59]:
# сформувати таблицю коєфіцієнтів поліному
coef = pd.DataFrame({'Ознаки': poly_features_names,
                     'коеф.регресора': lr.coef_.astype('int')})

Unnamed: 0,Ознаки,коеф.регресора
0,1,0
1,one_hot_encoder__street_Мічуріна,-2147483648
2,one_hot_encoder__street_Саксаганського,-2147483648
3,numeric_encoder__rooms,92941
4,numeric_encoder__price_per_m2,5378132
5,numeric_encoder__area_total,332193
6,numeric_encoder__area_living,-177520
7,numeric_encoder__area_comfort,-191251
8,one_hot_encoder__street_Мічуріна^2,-2147483648
9,one_hot_encoder__street_Мічуріна one_hot_encod...,-2147483648


### Висновки

_Базуючись на значенях метрик абсолютної помилки та r2-оцінки, сформулювати вашу думку чи відповідає поліноміальна модель вимогам якості та дати характеристику декільком коефіцієнтам (3-4) на свій вибір._ 

На мою думку, поліномінальна модель не є найкращим варіантом, але значення помилки при навчанні та значення коєфіцієнту детермінаці (R) є вищими за ridge-регресію, що можна вважати за "вдале" навчання".
Хоча результати тестів навштовкують на потенційне "overfitting" моделі.

## 5. Зберігання побудованх моделей

In [58]:
# зберегти лінийну, гребневу та поліноміальну моделі у відпрвідних pickle-файлах:
# 'lin_model.pkl', 'ridge_model.pkl', 'poly_model.pkl'
import pickle as pkl

save_names = ['lin_model.pkl', 'ridge_model.pkl', 'poly_model.pkl']
save_mods = [lr, ridge, poly]

for i in range(len(save_names)):
    with open(save_names[i], 'wb') as file:
        pkl.dump(save_mods[i], file)