
# ЛАБОРАТОРНА РОБОТА  

## "Лінійні та нелінійні регресійні моделі МН"

__Метою__ лабораторної роботи є набуття практичних навичок використання модулів бібліотеки `Scikit-learn` для вирішення наступних задач:

- визначення суттєвих показчиків для регресійної моделі
- пошук та настроювання гіперпараметрів лінійних та нелінійних регресійних моделей

__Результатом__ виконання лабораторної роботи є серія моделей які прогнозують ціну кватрир на вторинному ринку житла

In [71]:
import pandas as pd
import numpy as np

data = pd.read_csv('apartments_transformed.csv')
data.shape
data['Price']

0       30970.0
1       30970.0
2       82000.0
3      135000.0
4       84000.0
         ...   
478     42900.0
479    115000.0
480     39000.0
481    115000.0
482     90005.0
Name: Price, Length: 483, dtype: float64

In [72]:
# відокремити ціловий показчик 'price'
price = data['Price']

# зилишити в 'data' тільки незалежні показчики
data = data.drop(columns=['Price'])

data.shape, price.shape    # ((676, 301), (676,))


((483, 198), (483,))

## 1. Пошук значущих ознак

### Теоретичне введення

__Значущі (суттеві) ознаки__ це дані, які мають сильну кореляцію або вплив на результат або прогноз моделі.

Ці позазчики визначаються за допомогою процесу, який називається __відбором ознак__ ([Feature selection](https://en.wikipedia.org/wiki/Feature_selection)), який передбачає _оцінку_ та _ранжування важливості_ різних змінних у наборі даних. Це можна зробити за дпомогою статистичних тестів, кореляційного аналізу або алгоритмів машинного навчання.

Після визначення значущих ознак їх можна використовувати для навчання моделі машинного навчання.

Це може бути особливо важливим у моделях, де дані складні та містять багато змінних. Тому ідентифікація  суттєвих ознак може допомогти зменшити розмірність даних і покращити продуктивність моделі.

Класи в модулі [sklearn.feature_selection](https://scikit-learn.org/stable/modules/feature_selection.html) можна використовувати для вибору функцій/зменшення розмірності на вибіркових наборах або для покращення показників точності оцінювачів, або для підвищення їх продуктивності на масивах даних з дуже великою розмірністю.

### Завдання

Відібрати з вхідного набору `data` 7 найбільш суттєвих показчиків для регрісійної моделі машинного навчання.

In [73]:
# імпортувати з модуля 'feature_selection' селектор ознак 'SelectKBest' 
# та регрісійний тест 'f_regression'
from sklearn.feature_selection import SelectKBest, f_regression

In [74]:
# побудувати селектор 7 ознак на f-регресорі
kbest_selector = SelectKBest(f_regression, k=7)

# застосувати селектор для побудови списку ознак
data_selected = kbest_selector.fit_transform(data, price)

In [75]:
# зберегти імена визначених селектором найбільш суттєвих ознак
best_features = kbest_selector.get_feature_names_out()

In [76]:
# побудувати датафрейм на визначених ознаках
data = pd.DataFrame(data=data_selected, columns=best_features)
data.head()

Unnamed: 0,numeric_scaler__rooms,numeric_scaler__price_per_m2,numeric_scaler__area_total,numeric_scaler__area_comfort,one-hot-encoder__street_Мічуріна,one-hot-encoder__street_Саксаганського,"one-hot-encoder__district_Голосіївський, Печерський, Шевченківський"
0,-1.103985,-0.15146,-0.98897,-0.348154,0.0,0.0,0.0
1,-1.103985,-0.15146,-0.98897,-0.348154,0.0,0.0,0.0
2,-0.151798,-0.126981,-0.287685,-0.266774,0.0,0.0,0.0
3,-0.151798,-0.015636,-0.268205,-0.022634,0.0,0.0,0.0
4,-0.151798,-0.1281,-0.248725,-0.321027,0.0,0.0,0.0


### Висновки

_описати загальну статистичну характеристику отриманого датасети та зробити висновки щодо можливості його використання для подальшого аналізу_

...

## 2. Множинна лінійна регресія

### Теоретичне введення

__Множинна лінійна регресія__ — це статистичний метод, який використовується для встановлення зв’язку між _залежною_ (цільвою) змінною $\textbf y$ та _кількома_ незалежними змінними $\textbf [X]$.  

__Метою__ множинної лінійної регресії є знаходження найкращого лінійного зв’язку між залежною змінною та незалежними змінними, який виражається у вигляді рівняння:
$$y = b_0 + b_1 x_1 + b_2 x_2 + ... + b_n x_n$$

Найкращій зв'язок забезпечується знаходженням таких коєфіцієнтів $[B]$, що додають мінімум обраній метриці (MSE, MAE, ...)

### Завдання


Порахувати показчики якості моделі [лінйной множинної регресії](https://uk.mcfairbanks.com/719-multiple-regression-formula) на визначениx п.1 значущих ознаках датасету застосувавши [кросс-валідацію з __10__ сплітами](https://scikit-learn.org/stable/modules/cross_validation.html).

In [77]:
# імпортувати та побудувати лінійний регресор з параметрами за замовчанням
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

In [78]:
# імпортувати крос-валідатор 'cross_validate' з модуля 'model_selection'
from sklearn.model_selection import cross_validate, train_test_split


In [79]:
# отримати результати крос-валідації по параметрам 'neg_mean_absolute_percentage_error' 
# та 'r2' на 10 сплітах передбачивши розрахунок на навчальному наборі 'return_train_score'
cv_results_mul = cross_validate(lr, data, price, cv=10, scoring=('r2', 'neg_mean_absolute_percentage_error'), return_train_score=True)

#### занести результати в датафрейм 'cv_results_mul ' наступного вигляду:

------------

|помилка тесту в %   |коєф. R2 тесту  | помилка навчання в %  | коєф. R2 навчання  |
| :------------:|:------------:|:------------:|:------------:|
|  xx.xx | xx.xx  | xx.xx  | xx.xx  |
|  xx.xx | xx.xx  | xx.xx  | xx.xx  |
|  ... | ...  | ...  | ...  |


In [80]:
cv_results_mul = pd.DataFrame(cv_results_mul)
cv_results_mul.head()

Unnamed: 0,fit_time,score_time,test_r2,train_r2,test_neg_mean_absolute_percentage_error,train_neg_mean_absolute_percentage_error
0,0.004024,0.002987,0.982706,0.939319,-0.492726,-0.443377
1,0.003993,0.001991,0.715014,0.986726,-0.375878,-0.427668
2,0.002995,0.002017,0.511103,0.986715,-0.396713,-0.42684
3,0.001997,0.001998,0.855992,0.987417,-0.459936,-0.397803
4,0.002002,0.002,0.82543,0.987066,-0.349717,-0.434398


In [133]:
# продовжити наступні команди виводу:
print ("середня помилка навчання = ", cv_results_mul['train_neg_mean_absolute_percentage_error'].mean()*(-1))
print ("середня помилка тесту = ", cv_results_mul['test_neg_mean_absolute_percentage_error'].mean()*(-1))

середня помилка навчання =  0.41648590002816493
середня помилка тесту =  0.43736613416377407


### Висновки

_зпираючись на отримані метрики якості зробити висновок про придатність моделі, недонавчана чи перенавчана вона і т.п._
На мою думку модель недонавчана адже середня помилка навчання як і тесту близька до половини

## 3. Гребнева (Ridge) регресія

### Теоретичне введення

__Гребнева регресія__ — це техніка регулярізації, яка використовується в машинному навчанні для запобігання перенавчанню лінійних регресійних моделей за рахунок додавання штрафу до функції втрат регресійної моделі, яка зменшує величину коефіцієнтів до нуля.

$$\min_w\sum_{i=1}^n(y_i - x_i^w)^2 + \lambda|w|_2^2$$

Розмір штрафу визначається [нормою L2](https://craftappmobile.com/l1-vs-l2-regularization/) вектора коефіцієнтів, помноженою на гіперпараметр $\large \lambda$.




### Завдання

Побудувати модель на основі `ridge-регресії` та за допомогою [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) знайти таке значення _L2-регулярізатора_, яке буде
мінізувати обрані метрики якості моделі.
Для побудови моделі скоистатися датасетом, що отримано в  __завданні 1__ лабораторної роботи


In [82]:
# імпортувати ridge-регресор з модуля `sklearn.linear_model`
from sklearn.linear_model import Ridge

# побудувати регресор
ridge = Ridge(alpha=1.0)

In [83]:
# імпортувати сітку пошуку `GridSearchCV` з модулю sklearn.model_selection
from sklearn.model_selection import GridSearchCV

# визначити параметр равномірного пошуку 100 значень параметеру `alpha` в диапазоні 0-100000 
grid_params = { 'alpha': [0, 100000]}

In [84]:
%%time

# побудувати та натренувати гребневу регресійну модель на сітці 'grid_params'
# в якості критерія оцінки якості взяти метрику `neg_mean_absolute_percentage_error`

# створюємо сітку пошуку та тренуємо на ній модель
grid_search_model = GridSearchCV(ridge,  param_grid=grid_params)

grid_search_model.fit(data, price)

CPU times: total: 46.9 ms
Wall time: 61 ms


In [85]:
# вивести найкращій естіматор (best_estimator_), та найкраще значення обраної метрики (best_score_)
grid_search_model.best_estimator_
grid_search_model.best_score_

0.8365833013375781

### Висновки

_cпираючись на отримані метрики якості зробити висновок про придатність моделі, недонавчана чи перенавчана вона і т.п._

## 3. Поліноміальна регресія

### Теоретичне введення

__Поліноміальна регресія__ — це тип нелінійної регресії, у якому зв’язок між незалежною змінною $\large x$ і залежною змінною $\large y$ моделюється як поліноміальна функція n-го ступеня:

$$ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon $$

__Метою__ поліноміальної регресії є знаходження значень коефіцієнтів $ β_i$, які найкраще відповідають даним.

### Завдання


Порахувати показчики якості моделі на [поліноміальній регресії](https://uk.wikipedia.org/wiki/Поліноміальна_регресія) на визначених в п.1 значущих ознаках датасету, попередньо розширивши датасет за допомогою трансформера [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)

In [100]:
# імпортувати модуль preprocessing.PolynomialFeatures
from sklearn.preprocessing import PolynomialFeatures

# побудувати трансформер ступеня 2 для побудови додаткових ознак в датасеті
poly = PolynomialFeatures(2)
poly

In [102]:
# визначити імена відібраних показчиків
poly_features_names = poly.fit(data).get_feature_names_out()
poly_features_names.shape

(36,)

In [105]:
# побудувати датасет на визначеному поліномі `poly`
data_poly = pd.DataFrame(poly.fit_transform(data), columns=poly_features_names)
data_poly.shape


(483, 36)

In [110]:
# отримати результати крос-валідації на множинном регресорі `lr` по параметрам 'neg_mean_absolute_percentage_error' 
# та 'r2' на 10 сплітах передбачивши розрахунок на навчальному наборі 'return_train_score'
cv_results_poly = cross_validate(lr, data_poly, price, scoring=('r2', 'neg_mean_absolute_percentage_error'), return_train_score=True)

In [111]:
# занести результати крос-валідації: помилка тесту, помилка навчання та відповідні коефіцієнти 
# детермінаційї в датафрейм `cv_results_poly`. 
cv_results_poly = pd.DataFrame(cv_results_poly)

cv_results_poly.head()

Unnamed: 0,fit_time,score_time,test_r2,train_r2,test_neg_mean_absolute_percentage_error,train_neg_mean_absolute_percentage_error
0,0.011994,0.002999,-4.736982,0.988814,-0.110155,-0.091991
1,0.004009,0.005006,0.984056,0.997664,-0.092443,-0.070854
2,0.00573,0.002011,0.934861,0.997899,-0.078008,-0.082772
3,0.005001,0.002004,0.98635,0.997615,-0.096012,-0.083349
4,0.003942,0.002013,0.989349,0.999247,-0.071887,-0.080967


In [113]:
# за допомогою крос-валідатора 'cross_val_predict' побудувати прогноз 'price_pred' 
# на лінійному регресорі на 10 сплітах
from sklearn.model_selection import cross_val_predict

price_pred = cross_val_predict(lr, data, price)

In [114]:
# вивести порівняльну таблицю з двох колонок: ціна реальна, ціна прогнозна
pred = pd.DataFrame({'ціна реальна': price,
                     'ціна прогнозна': price_pred})
pred.head(5)

Unnamed: 0,ціна реальна,ціна прогнозна
0,30970.0,-56887.344782
1,30970.0,-56887.344782
2,82000.0,62925.339979
3,135000.0,156083.731038
4,84000.0,68694.739982


In [120]:
# натренувати регресор `lr` на поліноміальних ознаках `data_poly`
lr.fit(data_poly, price)

In [135]:
# сформувати таблицю коєфіцієнтів поліному
coef = pd.DataFrame({'Ознаки': poly_features_names,
                     'коеф.регресора': lr.coef_.astype('int')})
coef

Unnamed: 0,Ознаки,коеф.регресора
0,1,0
1,numeric_scaler__rooms,11869
2,numeric_scaler__price_per_m2,597986
3,numeric_scaler__area_total,99535
4,numeric_scaler__area_comfort,-4764
5,one-hot-encoder__street_Мічуріна,-67
6,one-hot-encoder__street_Саксаганського,-1342
7,"one-hot-encoder__district_Голосіївський, Печер...",-1342
8,numeric_scaler__rooms^2,1108
9,numeric_scaler__rooms numeric_scaler__price_pe...,20703


### Висновки

_Базуючись на значенях метрик абсолютної помилки та r2-оцінки, сформулювати вашу думку чи відповідає поліноміальна модель вимогам якості та дати характеристику декільком коефіцієнтам (3-4) на свій вибір._ 

...

## 5. Зберігання побудованх моделей

In [137]:
# зберегти лінийну, гребневу та поліноміальну моделі у відпрвідних pickle-файлах:
# 'lin_model.pkl', 'ridge_model.pkl', 'poly_model.pkl'
import pickle
with open('lin_model.pkl', 'wb') as handle:
    pickle.dump(lr, handle, protocol=pickle.HIGHEST_PROTOCOL)
with open('ridge_model.pkl', 'wb') as handle:
    pickle.dump(ridge, handle, protocol=pickle.HIGHEST_PROTOCOL)
with open('poly_model.pkl', 'wb') as handle:
    pickle.dump(poly, handle, protocol=pickle.HIGHEST_PROTOCOL)