<center>
<img src="../../img/ods_stickers.jpg">
## Отворен курс по машинно обучение
Автор на материала: програмист-изследовател в Mail.ru Group, старши преподавател във Факултета по компютърни науки на Висшето училище по икономика Юрий Кашницки. Материалът се разпространява съгласно условията на лиценза [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можете да го използвате за всякакви цели (редактиране, коригиране и използване като основа), освен търговски, но със задължителното споменаване на автора на материала.

# <center> Тема 6. Проблем с възстановяване чрез регресия</center>
## <center>Регресия с ласо и хребет</center>

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
from cycler import cycler
from matplotlib import pyplot as plt
from sklearn.datasets import load_boston
from sklearn.linear_model import Lasso, LassoCV, Ridge, RidgeCV
from sklearn.model_selection import KFold, cross_val_score

**Ще работим с набор от данни за цените на жилищата в Бостън (UCI хранилище).**
**Зареждане на данни.**

In [None]:
boston = load_boston()
X, y = boston["data"], boston["target"]

**Прочетете описанието на набора от данни:**

In [None]:
print(boston.DESCR)

**Знаци:**
- CRIM - брой престъпления на глава от населението
- ZN - процент на жилищни парцели с площ над 25 хиляди квадратни метра. фута (~ 23 акра)
- INDUS - процент площи за търговия на едро
- ЧАС - тече ли реката?
- NOX - концентрация на азотни оксиди
- RM - среден брой помещения в сградата
- AGE - дял на сградите, построени преди 1940г
- DIS - претеглено разстояние до 5 бизнес центъра в Бостън
- RAD - индекс на достъпност на магистралата
- TAX - данъчно ниво
- PTRATIO - среден брой ученици на учител
- B - процент на афроамериканците
- LSTAT - процент на гражданите с нисък стандарт на живот
- MEDV (target) - средна стойност на къщите в района

In [None]:
boston.feature_names

**Нека да разгледаме първите 2 записа.**

In [None]:
X[:2]

## Lasso-регресия

Ласо регресията решава проблема с минимизирането на средната квадратична грешка с L1 регулация:
$$\Large error(X, y, w) = \frac{1}{2} \sum_{i=1}^\ell {(y_i - w^Tx_i)}^2 + \alpha \sum_{i=1}^d |w_i|$$

където $y = w^Tx$ е уравнението на хиперравнината в зависимост от параметрите на модела $w$, $\ell$ е броят на обектите в извадката $X$, $d$ е броят на характеристиките, $y$ е стойностите на целевата характеристика, $\ alpha$ – коефициент на регулация.

**Нека тренираме регресия на Ласо с малък коефициент $\alpha$ (слаба регуляризация). Нулира се само коефициентът за атрибута NOX (концентрация на азотни оксиди). Това означава, че е най-малко важно за прогнозиране на целевия атрибут - средната цена на къщите в района.**


In [None]:
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)
lasso.coef_

**Нека обучим регресия на Ласо с коефициент $\alpha=10$. Сега ненулевите коефициенти остават само за следните характеристики: ZN (процент на жилищни парцели с площ над 25 хиляди квадратни фута), TAX (данъчно ниво), B (процент на афро-американците) и LSTAT (процент на гражданите с нисък стандарт на живот).**


In [None]:
lasso = Lasso(alpha=10)
lasso.fit(X, y)
lasso.coef_

**По този начин регресията с ласо служи като метод за избор на характеристики.**

In [None]:
n_alphas = 200
alphas = np.linspace(0.1, 10, n_alphas)
model = Lasso()

coefs = []
for a in alphas:
    model.set_params(alpha=a)
    model.fit(X, y)
    coefs.append(model.coef_)

ax = plt.gca()
ax.set_prop_cycle(cycler("color", ["b", "r", "g", "c", "k", "y", "m"]))

ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])  # reverse axis
plt.xlabel("alpha")
plt.ylabel("weights")
plt.title("Lasso coefficients as a function of the regularization")
plt.axis("tight")
plt.show();

**Сега ще определим най-добрата $\alpha$ стойност чрез процеса на кръстосано валидиране.**

In [None]:
lasso_cv = LassoCV(alphas=alphas, cv=3, random_state=17)
lasso_cv.fit(X, y)

In [None]:
lasso_cv.coef_

In [None]:
lasso_cv.alpha_

**Методът `cross_val_score` максимизира показателя, така че вместо
минимизирайки MSE, ние ще максимизираме отрицателната MSE – `neg_mean_squared_error`.**

In [None]:
cross_val_score(Lasso(lasso_cv.alpha_), X, y, cv=3, scoring="neg_mean_squared_error")

**За да продължим да интерпретираме резултата по отношение на MSE, ще покажем модула на средната стойност на показателя `neg_mean_squared_error` за кръстосано валидиране.**

In [None]:
abs(
    np.mean(
        cross_val_score(
            Lasso(lasso_cv.alpha_), X, y, cv=3, scoring="neg_mean_squared_error"
        )
    )
)

In [None]:
abs(np.mean(cross_val_score(Lasso(9.95), X, y, cv=3, scoring="neg_mean_squared_error")))

**Друга двусмислена точка: LassoCV сортира стойностите на параметрите в низходящ ред - това улеснява оптимизирането. Това може да накара оптимизирането на параметъра $\alpha$ да изглежда неправилно**

In [None]:
lasso_cv.alphas[:10]  # значения параметров на входе

In [None]:
lasso_cv.alphas_[:10]  # преобразованные значения параметров

In [None]:
plt.plot(lasso_cv.alphas, lasso_cv.mse_path_.mean(1))  # неверно
plt.axvline(lasso_cv.alpha_, c="g");

In [None]:
plt.plot(lasso_cv.alphas_, lasso_cv.mse_path_.mean(1))  # верно
plt.axvline(lasso_cv.alpha_, c="g");

## Ridge-регресия

Ридж регресията (или ридж регресията) решава проблема с минимизирането на средната квадратична грешка с L2 регулация:
$$\Large error(X, y, w) = \frac{1}{2} \sum_{i=1}^\ell {(y_i - w^Tx_i)}^2 + \alpha \sum_{i= 1}^d w_i^2$$

където $y = w^Tx$ е уравнението на хиперравнината в зависимост от параметрите на модела $w$, $\ell$ е броят на обектите в извадката $X$, $d$ е броят на характеристиките, $y$ е стойностите на целевата характеристика, $\ alpha$ – коефициент на регулация.

Sklearn прилага специален клас [RidgeCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html#sklearn.linear_model.RidgeCV) за кръстосано валидиране с регресия на Ridge.

In [None]:
n_alphas = 200
ridge_alphas = np.logspace(-2, 6, n_alphas)

In [None]:
ridge_cv = RidgeCV(alphas=ridge_alphas, scoring="neg_mean_squared_error", cv=3)
ridge_cv.fit(X, y)

In [None]:
ridge_cv.alpha_

**В случай на регресия на Ридж, никакви параметри не са зададени на нула - те могат да бъдат много малки, но не и нула.**

In [None]:
ridge_cv.coef_

In [None]:
n_alphas = 200
ridge_alphas = np.logspace(-2, 6, n_alphas)
model = Ridge()

coefs = []
for a in alphas:
    model.set_params(alpha=a)
    model.fit(X, y)
    coefs.append(model.coef_)

ax = plt.gca()
ax.set_prop_cycle(cycler("color", ["b", "r", "g", "c", "k", "y", "m"]))

ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])  # reverse axis
plt.xlabel("alpha")
plt.ylabel("weights")
plt.title("Ridge coefficients as a function of the regularization")
plt.axis("tight")
plt.show()

## Връзки
- [Обобщени линейни модели (GLM) в Scikit-learn
- [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression), [Lasso](http://scikit-learn.org/ stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso), [LassoCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LassoCV.html#sklearn .linear_model.LassoCV), [Ridge](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) и [RidgeCV](http://scikit-learn.org/stable /modules/generated/sklearn.linear_model.RidgeCV.html#sklearn.linear_model.RidgeCV) в Scikit-learn
- [Статия](https://habrahabr.ru/post/264915/) „Методи за избор на функции“ на Habrahabr със споменаване на регресията с ласо