# Решение задач многомерной линейной регрессии с помощью сингулярного разложения

### Многомерная линейна регрессия 

$f_1(x), ..., f_n(x)$ - числовые признаки   

Модель многомерной линейной регрессии: $f(x, \alpha)=\sum_{1 \leq j \leq n}\alpha_j f_j(x), \alpha \in \mathbb{R}^n$

Матричные обозначения: $F_{l*n}=\begin{pmatrix}f_1(x_1) & ... & f_n(x_1) \\ ... & ... & ... \\ f_1(x_) & ... & f_n(x_l)  \end{pmatrix}$ - матрица объекты-признаки, $y_{l*1}=\begin{pmatrix}y_1 \\ ... \\ y_l \end{pmatrix}$ - вектор ответов, $\alpha_{n*1}=\begin{pmatrix}\alpha_1 \\ ... \\ \alpha_n \end{pmatrix}$ - вектор коэффициентов

Функционал квадрата ошибки: $Q(\alpha, X^l)=\sum_{1 \leq i \leq l}(f(x_i, \alpha)-y_i)^2=||F\alpha-y||^2 \to min_{\alpha}$  


### Нормальная система уравнений
Необходимое условие минимума в матричном виде: $\frac{\partial Q}{\partial \alpha}=2F^T(F\alpha-y)=0$, отсюда следует нормальная система задачаи МНК: $F^TF\alpha=F^Ty$, $F^TF$ - матрица размерности n*n 

Решение системы: $\alpha^*=(F^TF)^{-1}FTy=F^+y$. Значение функционала: $Q(\alpha^*)=||P_Fy-y||^2$, $P_F=FF^+=F(F^TF)^{-1}F^T$ - проекционная матрица


### Сингулярное разложение
Произвольная l*n матрица представима в виде сингулярногоразложения: $F=VDU^T$, $V,\ U^T$ - ортогональные, D - диагональна

Основыне свойства:
- l*n матрица $V=(v_1,...,v_n)$ - ортогональна, $V^TV=I_n$, $v_j$ - собственные векторы матрицы $FF^T$
- n*n матрица $U=(u_1, ..., u_n)$ - ортогональна, $U^TU=I_n$, $u_j$ - собственные векторы матрицы $F^TF$
- n*n матрица D - диагональна, $D=diag(\sqrt{\lambda_1}, ..., \sqrt{\lambda_n})$, $\lambda_j\geq0$ - собственные значения матриц $F^TF$ и $FF^T$, $\sqrt{\lambda_j}$ - сингулярные числа матрицы F


### Решение МНК через сингулярное разложение
Псевдообратная матрица $F^+$, вектор МНК-решения $\alpha^*$, МНК-аппроксимация целевоого вектора $F\alpha^*$:

$F^+=(UDV^TVDU^T)^{-1}UDV^T=UD^{-1}V^T=\sum_{1 \leq j \leq n}\frac{1}{\sqrt{\lambda_j}}u_jv_j ^T$

$\alpha^*=F^+y=UD^{-1}V^Ty=\sum_{1 \leq j \leq n}\frac{1}{\sqrt{\lambda_j}}u_j(v_j ^Ty)$

$F\alpha^*=P_Fy=(VDU^T)UD^{-1}V^Ty=VV^Ty=\sum_{1 \leq j \leq n}v_j(v_j ^Ty)$

$||\alpha^*||^2=||D^{-1}V^Ty||^2=\sum_{1 \leq j \leq n}\frac{1}{\lambda_j}(v_j ^Ty)^2$

Появляется проблема мультиколлинеарности: $\lambda_j \to 0$


### Проблема мультиколлинеарности и переобучения
Если имеются сингулярные числа, близкие к 0, то:
- матрица $\sum=F^TF$ плохо обусловлена
- решение становится неустойчивым и неинтерпретируемым, слишком большие коэффициенты $||\alpha^*_j||$ разных знаков
- возникает переобучение: 
    - на обучении $Q(\alpha^*, X^l)=||F\alpha^*-y||^2$ мало, 
    - на контроле $Q(\alpha^*, X^l)=||F'\alpha^*-y'||^2$ велико

Стратегии устранения мультиколлинеарности и переобучения: 
- отбор признаков: $f_1, ..., f_n \to f_{j_1}, ..., f_{j_m}, m\ll n$
- регуляризация: $||\alpha||\to min$
- преобразование признаков: $f_1, ..., f_n \to g_1, ..., g_m, m\ll n$


# Гребневая регрессия

### Регуляризация (гребневая регрессия)
Штраф за увелчение нормы вектора весов $||\alpha||$: $Q_{\tau}(\alpha)=||F\alpha-y||^2+\frac{\tau}{2}||\alpha||^2$, $\tau$ - неотрицательный параметр регуляризации

Модифицированное МНК-решение ($\tau I_n$ - гребнь): $\alpha^* _{\tau}=(F^TF+\tau I_n)^{-1}F^Ty$

Преимущество сингулярного разложения: можно подбирать параметр $\tau$ вычислив SVD только один раз


### Регуляризованный МНК через сингулярное разложение
Вектор регуляризованного МНК-решения $\alpha^* _{\tau}$ МНК-фппроксимация целевого вектора $F\alpha^* _{\tau}$:    
$\alpha^* _{\tau}=U(D^2+\tau I_n)^{-1}DV^Ty=\sum_{1 \leq j \leq n}\frac{\sqrt{\lambda_j}}{\lambda_j+\tau}u_j(v_j^Ty)$

$F\alpha^* _{\tau}=VDU^T\alpha^* _{\tau}=V diag(\frac{\sqrt{\lambda_j}}{\lambda_j+\tau})V^Ty=\sum_{1 \leq j \leq n}\frac{\sqrt{\lambda_j}}{\lambda_j+\tau}v_j(v_j^Ty)$

$||\alpha^* _{\tau}||^2=||(D^2+\tau I_n)^{-1}DV^Ty||^2=\sum_{1 \leq j \leq n}\frac{\lambda_j}{(\lambda_j+\tau)^2} (v_j^Ty)^2$

$F\alpha_{\tau} ^*\neq F\alpha^*$, но из-за коэффициента становится устойчивым


### Выбор параметра регуляризации $\tau$
Контрольная выборка: $X^k=(x_i',y_i')_{i=1} ^k$, $F'_{n*n}=\begin{pmatrix} f_1(x_1') & ... & f_n(x_1') \\ ... & ... & ... \\ f_1(x_k') & ... & f_n(x_k')\end{pmatrix}$ - новая выборка для поиска коэффициента, $y'_{k*1}=\begin{pmatrix} y'_1 \\ ... \\ y'_k \end{pmatrix}$ - соответствующий столбец ответов

Вычисление функционала Q на контрольных данных T раз потребует $O(kn^2+knT)$ операций: $Q(\tau)=||F'\alpha^* _{\tau}-y'||^2=||F' U diag(\frac{\sqrt{\lambda_i}}{\lambda_i+\tau})V^Ty-y'||^2$

Зависимость $Q(\tau)$ обычно имееет характерный минимум


### Регуляризация сокращает "эффективную размерность"
Сжатие или сокращение весов: $||\alpha_{\tau} ^*||=\sum_{1 \leq j \leq n} \frac{\lambda_j}{(\lambda_j+\tau)^2}(v_j ^Ty)^2 < ||\alpha^*||^2=\sum_{1 \leq j \leq n}\frac{1}{\lambda_j(v_j ^Ty)^2}$

Роль размерности играет след проекционной матрицы: $trF(F^TF)^{-1}F^T=tr(F^TF)^{-1}F^TF=trI_n=n$

При использовании регуляризации: $trF(F^TF+\tau I_n)^{-1}F^T=tr (diag(\frac{\lambda_j}{(\lambda_j+\tau)^2}))=\sum_{1 \leq j \leq n}\frac{\lambda_j}{(\lambda_j+\tau)^2}<n$

# Метод LASSO

### LASSO приводит к отбору признаков в линейных моделях
Постановка задачи:
- $Q(\alpha)=||F\alpha-y||^2 \to min_{\alpha}, \sum_{1 \leq j \leq n}|\alpha_j|<\varkappa$
- $Q(\alpha)=||F\alpha-y||^2+\tau\sum_{1 \leq j \leq n}|\alpha_j| \to min_{\alpha}$

После замены переменных 
$\begin{cases}\alpha_j=\alpha_j ^+ - \alpha_j ^- \\ |\alpha_j|=\alpha_j^++\alpha_j^- \end{cases}$, $\alpha_j^+\geq0, \alpha_j^-\geq0$

ограничения принимают канонический вид: $\sum_{1 \leq j \leq n}\alpha_j^++\alpha_j^-\geq\varkappa,\ \alpha_j^+\geq0,\ \alpha_j^-\geq0$

Чем меньше $\varkappa$, тем больше j таких, что  $\alpha_j^+=\alpha_j^-=0$

# Метод главных компонент

### Метод главных компонент: постановка задачи
$f_1(x),...,f_n(x)$ - исходные числовые признаки    
$g_1(x),...,g_m(x)$ - новые числовые признаки $m \leq n$

Требование: старые признаки должны линейно восстанавливаться по новым: $\hat{f}_j(x)=\sum_{s=1}^mg_s(x)u_{js}, j=1,...,n\ \forall x \in X$

как можно точнее на обучающей выборке $x_1, ..., x_l$: $\sum_{i=1}^l\sum_{j=1}^n(\hat{f}_j(x_i)-f_j(x_i))^2 \to min_{\{g_s(x_i)\},\{u_{js}\}}$


### Матричные обозначения
Матрицы "объекты-признаки", старая и новая:   
$F_{l*n}=\begin{pmatrix} f_1(x_1) & ... & f_n(x_1)\\ ... & ... & ... \\ f_1(x_l) & ... & f_n(x_l) \end{pmatrix}$
$G_{l*m}=\begin{pmatrix} g_1(x_1) & ... & g_m(x_1)\\ ... & ... & ... \\ g_1(x_l) & ... & g_m(x_l) \end{pmatrix}$

Матрица лнейного преобразования новых признаков в старые: $U_{n*m}=\begin{pmatrix} u_{11} & ... & u_{1m}\\ ... & ... & ... \\ u_{n1} & ... & u_{nm} \end{pmatrix},\ \hat{F}=GU^T\simeq F$

Новые признаки G и преобразование U: $\sum_{i=1}^l\sum_{j=1}^n(\hat{f}_j(x_i)-f_j(x_i))^2=||GU^T-F||^2 \to min_{G,U}$


### Основная теорема метода главных компонент
Если $m\leq rang(F)$, то минимум $||GU^T-F||^2$ достигается, когда столбцы U - собственные вектора соответствующие собственым значениям $\lambda_1, ..., \lambda_m$, а матрица $G=FU$

- Матрица U ортонормированна: $U^TU=I_n$
- Матрица G ортогональна: $G^TG=\Lambda=diag(\lambda_1,...,\lambda_m)$
- $U\Lambda=F^TFU;\ G\Lambda=FF^TG$
- $||GU^T-F||^2=||F||^2-tr(\Lambda)=\sum_{j=m+1}^n\lambda_j$


### Связь с сингулярным разложением
Если взять m=n, то:
- $||GU^T-F||^2=0$
- представление $\hat{F}=GU^T=F$ точное и совпадает с сингулярным разложением при $G=V\sqrt{\Lambda}$: $F=GU^T=V\sqrt{\Lambda}U^T,\ U^TU=I_m,\ V^TV=I_m$
- линейное преобразование U работает в обе стороны: $F=GU^T,\ G=FU$

Новые признаки некоррелированы, преобразование U называется декоррелирующим


### Эффективная размерность выборки
Упорядочим собственные значения $F^TF$ по убыванию: $\lambda_1\geq...\geq\lambda_n\geq0$
Эффективная размерность выборки - это наименьшее целое m, при котором $E_m=\frac{||GU^T-F||^2}{||F||^2}=\frac{\lambda_{m+1}+...+\lambda_n}{\lambda_1+...+\lambda_n}\leq\epsilon$
Критерий крутого склона: находим m: $E_{m-1}\gg E_m$


### Решение задачи наименьщих квадратов для многомерной линейной регрессии
Задача ниаменьших квадратов для МЛР: $||F\alpha-y||^2 \to min_{\alpha}$    
Заменим $F_{l*n}$ на ее приближение $G_{l*m}U_{m*n}^T$, предполагая $m\leq n$: $||GU^T\alpha-y||^2=||G\beta-y||^2 \to min_{beta}$   
Связь нового и старого вектора коэффициентов: $\beta=U^T\alpha,\ \alpha=U\beta$   
    Решение задачи наименьших квадратов относительно $\beta$ (единственное отличие m слагаемых вместо n): $\beta^*=D^{-1}V^Ty,\ \alpha^*=UD^{-1}V^Ty=\sum_{j=1} ^m\frac{1}{\sqrt{\lambda_j}}u_j(v_j ^Ty),\ G\beta^*=VV^Ty=\sum_{j=1}^m v_j(v_j ^Ty)$




