# Семинар 16
# Задача наименьших квадратов (Least Squares Problem)

## Постановка задачи

1. **Широкая:** пусть даны $m$ пар измерениий $(x_i, y_i)$, где $ x_i \in \mathbb{R}^n, \; y_i \in \mathbb{R}^p$. Найти такую функцию $f$ что 
$$
\frac{1}{2}\|f(x_i) - y_i \|^2_2 \to \min
$$

2. **Уже:** пусть даны $m$ пар измерениий $(x_i, y_i)$, где $ x_i \in \mathbb{R}^n, \; y_i \in \mathbb{R}^p$. Найти такую *параметрическую* функцию $f(x, w)$ что 
$$
\frac{1}{2}\|f(x_i, w) - y_i \|^2_2 \to \min_w
$$

3. **Ещё уже:** пусть даны $m$ пар измерениий $(x_i, y_i)$, где $ x_i \in \mathbb{R}^n, \; y_i \in \mathbb{R}$. Найти такую *параметрическую* функцию $f(x, w)$ что 
$$
\frac{1}{2} \sum_{i=1}^m(f(x_i, w) - y_i )^2 \to \min_w
$$

## Линейный случай

Рассмотрим случай линейной зависимости между измерениями $x_i \in \mathbb{R}^n$ и $y_i \in \mathbb{R}, \; i = 1,\ldots, m$.

Тогда
$$
f(x, w) = x^{\top}w
$$
или
$$
f(X, W) = XW
$$
Задача наименьших квадратов формулируется в виде
$$
L(w|X, y) = \frac{1}{2}\sum\limits_{i=1}^m (x^{\top}_i w - y_i)^2 = \frac{1}{2}\|Xw - y \|^2_2 \to \min_w
$$

**Замечание.** Везде далее $m \geq n$ и $\mathrm{rank}(X) = n$ кроме специально оговоренных случаев

### Нормальное уравнение

Из необходимого условия минимума первого порядка и выпуклости нормы следует, что 
$$
L'(w^* | X, y) = 0 \Rightarrow (X^{\top}X)w^* = X^{\top}y
$$

**Замечение:** убедитесь, что Вы можете вывести выражение для $w^*$!

**Вопрос:** к какой задаче сведена задача оптимизации?

### Прямые методы

#### Разложение Холецкого

**Определение.** Любая матрица $A \in \mathbb{S}^n_{++}$ имеет единственное разложение Холецкого:
$$
A = LL^{\top},
$$
где $L$ - нижнетреугольная матрица.

Алгоритм:
1. Вычислить $X^{\top}X$ и $X^{\top}y$
2. Вычислить разложение Холецкого матрицы $X^{\top}X$
3. Найти $w^*$ прямой и обратной подстановкой

**Проблема:** число обусловленности $X^{\top}X$ равно квадрату числа обусловленности $X$. Ошибка пропорциональна обусловленности.

#### QR разложение

**Определение.** Любую матрицу $A \in \mathbb{R}^{m \times n}$ можно представить в виде
$$
A = QR,
$$
где $Q \in \mathbb{R}^{m \times m}$ - унитарная матрица, а $R \in \mathbb{R}^{m \times n}$ - прямоугольная верхнетреугольная.

Алгоритм:
1. Вычислить QR разложение матрицы $X$: $X = QR$.
2. $Q = [Q_1, Q_2]$, $Q_1 \in \mathbb{R}^{m \times n}$,
$R = 
\begin{bmatrix}
R_1\\
0
\end{bmatrix}$,
$R_1 \in \mathbb{R}^{n \times n}$ - квадратная верхнетреугольная матрица
2. Задача примет вид: 
$$
\|R_1w - Q_1^{\top}y \|^2_2 \to \min_w
$$
и нормальное уравнение
$$
R_1w^* = Q_1^{\top}y
$$
Получили уравнение с квадратной верхнетреугольной матрицей, которое легко решается обратной подстановкой.

#### Сингулярное разложение (SVD)

**Определение.**

### Итерационные методы

### Эксперименты

## Нелинейный случай

### Метод Гаусса-Ньютона

### Метод Левенберга-Марквардта

### Эксперименты

## Некорректные задачи

**Определение** (Ж. Адамар и урматы). Задача называется *некорректной*, если не выполняется хотя бы одно условие корректности задачи:

1. Существование решения
2. Единственность решения
3. Непрерывная зависимость от внешних параметров

### Регуляризация

**Определение.** Регуляризацией называют процесс введения дополнительной информации в модель для решения некорректных задач.

Примеры:
- повысить устойчивость с помощью изменения целевой функции
- сделать решение единственным, наложив ограничения
- преобразовать целевую функцию, чтобы решение появилось или стало конечным

#### Тихоновская регуляризация (Ridge)

$$
\min_w \|Xw - y \|^2_2 + \frac{\alpha}{2}\|w\|^2_2, \quad \alpha > 0
$$

**Упражнение:** получите аналог нормального уравнения для такой задачи. Какая у модифицированного нормального уравнения интерпретация и почему такая регуляризация работает?

**Алгоритмы** аналогичны линейному случаю без регуляризации.

#### Lasso

$$
\min_w \|Xw - y \|^2_2 + \alpha\|w\|_1, \quad \alpha > 0
$$

Решение получают координатным спуском (буждет рассказан позднее)

Особенности:
- недифференцируемая, но выпуклая целевая функция
- релаксация $\ell_0$
- разреженное решение

#### Elastic Net

$$
\min_w \|Xw - y \|^2_2 + \alpha \rho\|w\|_1 + \alpha\frac{1-\rho}{2}\| w \|^2_2, \quad \rho \in [0, 1], \alpha > 0
$$

Особенности:
- комбинация Lasso и Ridge
- алгоритм - координатный спуск
- более устойчиво, чем Lasso

## Резюме

1. Задача наименьших квадратов
2. Алгоритмы для линейного случая
3. Алгоритмы для нелинейного случая
4. Некорректные задачи и способы их решения