# 2. Линейная регрессия

**Цель работы**: Изучить основные понятия машинного обучения, исследовать методы решения задачи регрессии, применить полученные знания для решения практических задач.

## Регрессия

### Обучающая выборка

Задача регрессии заключается в поиске зависимости некоторой переменной $y$ от другой переменной $x$. При этом переменная $x$ может быть векторной.

$$x=(x_1, x_2, \dots, x_n).$$

В этом случае говорят о *множественной регрессии*. В противном случае, если $x$ — скаляр, регрессию называют *парной*.

Компоненты $x_j$ называются *признаками*.

Набор данных, который используется для восстановления зависимости называется *обучающей выборкой*. Она представляет собой пару $(X, Y)$, где

$$X = 
\left(
\begin{array}%
x^{(1)}\\
x^{(2)}\\
\vdots\\
x^{(m)}\\
\end{array}
\right) = 
\left(
\begin{array}%
x^{(1)}_1&x^{(1)}_2&\dots&x^{(1)}_n\\
x^{(2)}_1&x^{(2)}_2&\dots&x^{(2)}_n\\
\vdots&\vdots&\ddots&\vdots\\\
x^{(m)}_1&x^{(m)}_2&\dots&x^{(m)}_n\\
\end{array}
\right),
Y = 
\left(
\begin{array}%
y^{(1)}\\
y^{(2)}\\
\vdots\\
y^{(m)}\\
\end{array}
\right).
$$

Пара $(x^{(i)}, y^{(i)})$ называется *прецедентом*.

### Линейная регрессия

Простейший случай регрессии — линейная регрессия. В ней искомая зависимость описывается линейной функцией.

$$h_{\theta}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n = \theta_0 + \sum_{j=1}^n\theta_jx_j.$$

Здесь $h_{\theta}(x)$ — обучаемая (в данном случае линейная) модель описывающая зависимость $y$ от $x$. Параметры $\theta_j$ — параметры модели, а $\theta$ — вектор параметров.

$$\theta = \left(
\begin{array}%
\theta_0\\
\theta_1\\
\theta_2\\
\vdots\\
\theta_n\\
\end{array}
\right).
$$

Для упрощения записи выражений можно ввести фиктивный признак 

$$x_0 \equiv 1.$$

Этот признак добавляется к исходным данным как столбец из 1 в матрице $X$.

Тогда модель записывается как скалярное произведение

$$h_{\theta}(x) = \sum_{j=1}^m x_j \theta_j = x \theta.$$

Значения, предсказанные моделью для каждого набора признаком из обучающей выборки можно вычислить аналогично.

$$h_{\theta}(X) = X \theta.$$

В этом случае получаем вектор-столбец со значениями $h_{\theta}(x^{(i)})$ для всех $i$.

### Функция потерь

Параметры $\theta$ выбираются таким образом, чтобы минимизировать ошибку между предсказанными ($h_{\theta}(X)$) и известными в обучающей выборке ($Y$) значениями.

Часто в качестве меры такой ошибки берут среднеквадратическое отклонение.

$$J(\theta) = \frac1{2m}\sum_{i=1}^{m}\left[h_{\theta}(x^{(i)})-y^{(i)}\right]^2$$

Функция $J(\theta)$ называется *функцией потерь*.

Тогда параметры модели находят как аргумент минимума функции потерь

$$\theta = \arg\min_{\theta}J(\theta).$$

## Методы оптимизации

В настоящей лабораторной работе требуется решить задачу поиска оптимального ветора $\theta$ с помощью следующих методов:

- нормальное уравнение,
- метод градиентного спуска,
- методы оптимизации из библиотеки SciPy.

## Подготовка библиотек

In [None]:
import numpy as np
import scipy.io as sio
import scipy.optimize as so
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib import rc
rc('font', family='Verdana')

## Задача 1. Зависимость роста от возраста

Требуется найти зависимость роста (в метрах) от возраста (в годах) детей.

Загрузим обучающую выборку.

In [None]:
data = sio.loadmat('heights.mat')
X = data['age']
Y = data['height']
m, n = X.shape
plt.plot(X, Y, 'xr')
plt.xlabel('Возраст, лет')
plt.ylabel('Рост, м')
plt.title('Зависимость роста от возраста')
plt.show()

Модель

In [None]:
def h(x, theta):
    pass

## Задача 2. Цены на дом

Требуется найти зависимость стоимости дома (в долларах США) от двух параметров: площади (в кв. футах) и количества спален.

Загрузим исходные данные.

In [None]:
data = sio.loadmat('prices.mat')
X = data['house']
Y = data['price']