## Многомерный статистический анализ
Раздел статистики, который посвящен исследованиям экспериментов с
многомерными наблюдениями
1. Зависимость между признаками и их влияние на некоторую переменную
2. Классификация объектов
3. Понижение размерности пространства 

## Модель регрессии
Модель зависимости количественной переменной y (объясняемой) от другой
или нескольких других переменных xi (факторов, предикторов)

$$y = f_b(x_1,...,x_m) + \varepsilon$$

fb(x) — некоторая функция, имеющая набор параметров b, а ε — случайная
ошибка. На ошибку накладывается условие, что её математическое ожидание
равно 0

$$M(\varepsilon) = 0$$

### Линейная регрессия
#### 1. Спецификация модели

$$y = f_\beta(x_1,...,x_m) + \varepsilon$$

функция fb(x) является линейной, модель имеет вид:
$y = \beta_0 + \beta_1x_1 + \cdot \cdot \cdot + \beta_mx_m + \varepsilon$

Парная регрессия (Частный случай): $y = \beta_0 + \beta_1x + \varepsilon$

##### Модель в матричном виде:
$$Y = X \cdot b + E,$$
<center>где Y – вектор зависимой переменной, Х – матрица,<br>Е – вектор ошибок, b –
вектор оцениваемых коэффициентов</center>

$$X = \begin{pmatrix} x_{10} & \cdots & x_{1k}\\x_{20} & \cdots & x_{2k}\\\vdots & \ddots & \vdots\\x_{m0} & \cdots & x_{mk}\end{pmatrix}$$

#### 2. Идентификация модели (оценка параметров)
$Y$ - реальные данные<br>
$\hat{Y} = X \hat{b}$ - оцененные данные<br>
$Y - \hat{Y} = \mathrm{e}$<br>
Метод наименьших квадратов (МНК)<br>
$$\hat{b} = \mathrm{min}(e^Te)$$
$$b = (X^TX)^{-1}X^TY$$

Для парной регрессии:
$$b_1 = \dfrac{\overline{yx} - \overline{y} \cdot \overline{x}}{\overline{x^2}-(\overline{x})^2}, b_0 = \overline{y} - b_1 \cdot \overline{x}$$

#### 3. Оценка качества модели
Коэффициент детерминации ($R^2$)
$$R^2 = 1 - \dfrac{D(\varepsilon)}{D(y)}$$

Коэффициент детерминации принимает значения из интервала [0, 1]. Близкие к 1
значения коэффициента детерминации свидетельствуют о высоком качестве
модели
$$R^2 = 1 - \dfrac{SS_{res}}{SS_y}$$
$SS_Y = \sum_{i=1}^{n}(y_i - \hat{Y})^2$ - сумма квадратов отклонений значений массива Y от среднего


### Корреляция и детерминация

Значение коэффициента детерминации ниже 1 не означает, что модель
построена плохо (и могла бы быть лучше).

Для линейной модели, построенной с помощью метода наименьших квадратов
верно равенство:
$$R^2 = r_{YZ}^2$$
где $r_{YZ}^2$ - коэффициент корреляции Пирсона между массивами

Коэффициент детерминации прямо зависит от уровня корреляции в данных и
не может достигнуть 1, если в данных нет линейной зависимости.

### Значимость уравнения регрессии
Используем F-тест Фишера, который проверяет нулевую гипотезу о незначимости
коэффициента детерминации (в данных нет зависимости):
$$F = \dfrac{R^2/m}{(1 - R^2) / (n - m - 1)}$$
$R^2$ — коэффициент детерминации, $n$ — число наблюдений, $m$ — число факторов

Эта статистика имеет распределение Фишера с параметрами $k1 = m, k2 = n − m − 1$

Распределение Фишера имеет один хвост, поэтому
рассматривается правосторонняя критическая область

Если статистика попадает в критическую область, то
гипотеза о равенстве нулю коэффициента детерминации
отвергается. Это означает, что построенная нами модель
значимо соответствует данным

![image.png](attachment:image.png)

### Доверительные интервалы для коэффициентов парной регрессии
Получили оценку коэффициента наклона b1, и пусть b1 — реальное значение
этого коэффициента. Рассмотрим статистику:
$$t = \dfrac{\hat{b}_1 - b_1}{S_{slope}}$$

$$S_{slope} = \sqrt{\dfrac{\dfrac{1}{n-2}\displaystyle\sum_{i=1}^{n}e_i^2}{\displaystyle\sum_{i=1}^{n}(x_i - \overline{X})^2}}$$

$S_{slope}$ - стандартная ошибка коэффициента наклона


Статистика t имеет распределение Стьюдента с параметром $df = n − 2$. 

Отсюда можно, имея доверительную вероятность $p$, построить доверительный интервал
для коэффициента наклона по формуле:

$$P(\hat{b}_1 + t_{\alpha/2,n-2}\cdot S_{slope} \leq b_1 \leq \hat{b}_1 + t_{1-\alpha/2,n-2}\cdot S_{slope}) = p$$

где $\alpha = 1 − p, t_\beta, n−2$ — квантиль порядка β для распределения Стьюдента

#### Доверительный интервал для коэффициента сдвига $b_0$

Стандартная ошибка коэффициента сдвига вычисляется по формуле:

$$S_{intercept} = S_{slope} \cdot \sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2}$$

$$t = \dfrac{\hat{b}_0 - b_0}{S_{intercept}}$$

Доверительный интервал для коэффициента наклона:
$$P(\hat{b}_0 + t_{\alpha/2,n-2}\cdot S_{intercept} \leq b_0 \leq \hat{b}_0 + t_{1-\alpha/2,n-2}\cdot S_{intercept}) = p$$