31.03.2020
### Работа с данными
## Семинар 4. Введение в машиное обучение

Навигация:
 - [Теория](#Шпаргалка-по-линейной-регрессии)
 - [Практика](#Практика.-Цены-на-недвижимость)
 - [Домашка](#)

### Шпаргалка по линейной регрессии

Обучающая выборка:
$$
D = \{(x_i, y_i) \}_{i=\overline{1,N}}
$$

Задача: восстановить функцию $h(x_i)$ в виде линейной комбинации признаков объекта (предикторов)
$$
\forall x_i: h(x_i) = w_0 + w_1x_i^1 + \ldots + + w_nx_i^n = \sum_{j=1}^{n}w_jx_i^j = \overline{x}_i^T\overline{w}
$$

Мера качества $L$ для задачи регрессии - квадрат разности между фактическим значением и прогнозом. 
$$
L(h(x_i, \theta), y_i) = \left(y_i - h(x_i, \theta)\right)^2 = \left(y_i -  \sum_{j=1}^{n}w_jx_i^j\right)^2
$$


Тогда эмпирический риск вычисляется по формуле:
$$
Q_{\text{emp}} = \frac{1}{2N}\sum_{i=1}^{N}(y_i - \hat{y_i})^2 = \frac{1}{2N}\sum_{i=1}^{N}(y_i - \overline{x}_i^T\overline{w})^2 = \frac{1}{2N}||\overline{Y}-\overline{X}^T\overline{w}||^2 = \frac{1}{2N}\left(\overline{Y}-\overline{X}^T\overline{w}\right)^T\left(\overline{Y}-\overline{X}^T\overline{w}\right)
$$

Такой вид функции потерь называется RSS - *resudal squares sum*, на русский переводится как *остаточная сумма квадратов*.

Где $\hat{y_i}$ - ответ нашего алгоритма машинного обучения $h(x, \theta)$ на примере $x_i$. Чем больше значение $L$ (т.е. чем ближе оно к нулю, т.к. берём со знаком минус) тем лучше наша модель повторяет опыт $X \in m \times n$ где m - количество примеров в обучающей выборке, а $m$ - размерность пространства признаков. $w$ - это вектор параметров модели, который хотим обучить.

Мимнимум эмпирического риска можно найти аналитически, он достигается в точке
$$
\overline{w} = \left(X^TX\right)^{-1}X^T\overline{y}
$$

Реализуем функцию для обучения линейной регрессии на python. Загружаем исходные данные - датасет с ценами на дома в Бостоне

### Практика. Цены на недвижимость

Реализуем функцию для обучения линейной регрессии на python. Исходные данные - датасет с ценами на дома в Бостоне.

In [1]:
from sklearn.datasets import load_boston

boston_dataset = load_boston()

features = boston_dataset.data
y = boston_dataset.target
print('Фичи')
print(features)
print('\nЦелевая переменная y')
print(y[:10])


# текстовое описание датасета
# print('\n',boston_dataset.DESCR)

Фичи
[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]

Целевая переменная y
[24.  21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9]


Визуализация выборки

In [None]:
from matplotlib import pyplot as plt

%matplotlib inline

fig, subplot = plt.subplots()
plt.scatter(
    np.arange(features.shape[0]),
    y
)
subplot.set_xlabel('Индекс объекта недвижимости')
subplot.set_ylabel('Цена')
fig.show()

In [None]:
from numpy.linalg import inv, norm
import numpy as np
from sklearn.linear_model import LinearRegression
from scipy.spatial import distance

# вычисляем к-ты линейной регрессии
w_analytic = np.zeros(features.shape[1])
#-------- ВАШ КОД ТУТ -------------------






#----------------------------------------

print(f'Аналитически определённые коэффициенты {w_analytic}')

In [None]:
# обучаем модель "из коробки"
reg = LinearRegression().fit(features, y)
print(f"Коэффициенты, вычисленные моделью sklearn {reg.coef_}")
print(f"Евклидово расстояние между наборами коэффициентов {norm(reg.coef_ - w_analytic)}\n")

In [None]:
from matplotlib import pyplot as plt

%matplotlib inline

fig, subplot = plt.subplots()
plt.scatter(
    np.arange(features.shape[0]),
    y, label='train'
)
plt.scatter(
    np.arange(features.shape[0]),
    reg.predict(features), label='predict'
)
subplot.legend()
subplot.set_xlabel('Индекс объекта недвижимости')
subplot.set_ylabel('Цена')
fig.show()

Визуализируйте в виде "столбиков" коэффициенты "из коробки" и полученные аналитически на одном графике. Для наглядности используйте различную "прозрачность" столбиков

In [None]:
y_pred = reg.predict(features)
y_true = y

In [None]:
fig, subplot = plt.subplots()

subplot.hist(y_pred - y_true)
subplot.set_title('Распределение ошибок')
subplot.set_xlabel('Величина ошибки')
subplot.set_ylabel('Количество таких ошибок')
fig.show()

In [None]:
from sklearn.metrics import mean_squared_error

rmse = mean_squared_error(y_true, y_pred)

print('RMSE = %s' % rmse)

In [None]:
from sklearn.metrics import r2_score

print("r2_score = %s" % r2_score(y_true, y_pred))

In [None]:
from sklearn.metrics import mean_absolute_error

print("MAE = %s" % mean_absolute_error(
    reg.predict(features), y)
)