# MATH&ML-2 Линейная алгебра в констекте линейных методов. Часть2
###  Содержание <a class="anchor" id=0></a>

- [2. Неоднородные СЛАУ](#2)
- [3. Линейная регрессия МНК](#3)
- [4. Стандартизация векторов и матрица корреляции](#4)
- [5. Практика. Лин.регрессия МНК](#5)
- [6. Полиноминальная регрессия](#6)
- [7. Регуляция](#7)
- [8. Практика. Полиноминальная регрессия и регуляция](#8)
- [9. Итоги](#9)

# 2. Неоднородные СЛАУ <a class="anchor" id=2></a>

[к содержанию](#0)


>Совокупность уравнений первой степени, в которых каждая переменная и коэффициенты в ней являются вещественными числами, называется **системой линейных алгебраических уравнений** (`СЛАУ`) и в общем случае записывается как:
>
>$\left\{ \begin{array}{c} a_{11}x_1+a_{12}x_2+\dots +a_{1m}x_m=b_1 \\ a_{21}x_1+a_{22}x_2+\dots +a_{2m}x_m=b_2 \\ \dots \\ a_{n1}x_1+a_{n2}x_2+\dots +a_{nm}x_m=b_n \end{array} \right.\ (1),$
>
>где
>
>* $n$— количество уравнений;
>
>* $m$ — количество переменных;
>
>* $x_i$ — неизвестные переменные системы;
>
>* $a_{ij}$ — коэффициенты системы;
>
>* $b_i$ — свободные члены системы.
>
>
>
>СЛАУ (1) называется **однородной**, если все свободные члены системы равны 0 $b_1=b_2=⋯=b_n=0$:
>
>$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}-\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \forall b_i=0$
>
>
>
>СЛАУ (1) называется **неоднородной**, если хотя бы один из свободных членов системы отличен от 0:
>
>$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}- \textrm{н}\textrm{е}\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \exists b_i\neq 0$
>
>
>
>**Решением** СЛАУ (1) называется такой набор значений неизвестных переменных $x_1,x_2,…,x_n$ при котором каждое уравнение системы превращается в равенство.
>
>
>
>СЛАУ (1) называется **определённой**, если она имеет только одно решение, и **неопределённой**, если возможно больше одного решения.

Вспомним, что СЛАУ можно записать в матричном виде:

$A\overrightarrow{x}=\overrightarrow{b}$

$\left( \begin{array}{cccc} a_{11} & a_{12} & \dots & a_{1m} \\ a_{21} & a_{22} & \dots & a_{2m} \\ \dots & \dots & \dots & \dots \\ a_{n1} & a_{n2} & \dots & a_{nm} \end{array} \right) \cdot \left( \begin{array}{c} x_1 \\ x_2 \\ \dots \\ x_m \end{array} \right)=\left( \begin{array}{c} b_1 \\ b_2 \\ \dots \\ b_n \end{array} \right)$

где $A$ — матрица системы, $\overrightarrow{x}$ — вектор неизвестных коэффициентов, а $b$ — вектор свободных коэффициентов. 

Давайте введём новое для нас определение.

>**Расширенной матрицей системы $(A|b)$ неоднородных СЛАУ** называется матрица, составленная из исходной матрицы и вектора свободных коэффициентов (записывается через вертикальную черту):
>
>$(A \mid \vec{b})=\left(\begin{array}{cccc|c} a_{11} & a_{12} & \ldots & a_{1 m} & b_{1} \\ a_{21} & a_{22} & \ldots & a_{2 m} & b_{2} \\ \ldots & \ldots & \ldots & \ldots & \ldots \\ a_{n 1} & a_{n 2} & \ldots & a_{n m} & b_{n} \end{array}\right)$

Расширенная матрица системы — это обычная матрица. Черта, отделяющая коэффициенты $a_{ij}$ от свободных членов $b_i$ — чисто символическая. 

Над расширенной матрицей неоднородной СЛАУ можно производить те же самые действия, что и над обычной, а именно:

* складывать/вычитать между собой строки/столбцы матрицы;
* умножать строки/столбцы на константу;
* менять строки/столбцы местами.



Приведём пример расширенной матрицы системы. Пусть исходная система будет следующей:

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right.$

Запишем её в матричном виде:

$\left(\begin{array}{cc} 1 & 1 \\ 1 & 2  \end{array} \right) \cdot \left(\begin{array}{c} w_1 \\ w_2  \end{array} \right) = \left(\begin{array}{c} 1 \\ 2  \end{array} \right)$

Тогда расширенная матрица системы будет иметь вид:

$(A \mid b)=\left(\begin{array}{cc|c} 1 & 2 & 1 \\ 1 & 2 & 2 \\ \end{array}\right)$

***

Существует три случая при решении неоднородных СЛАУ:

* **«Идеальная пара»**

Это так называемые определённые системы линейных уравнений, имеющие **единственные решения**.

* **«В активном поиске»**

Неопределённые системы, имеющие **бесконечно много решений**.

* **«Всё сложно»**

Это самый интересный для нас случай — переопределённые системы, которые **не имеют точных решений**.

>**Примечание**. В данной классификации неоднородных СЛАУ допущено упрощение в терминологии. На самом деле неопределённые системы — это те, в которых независимых уравнений меньше, чем неизвестных. Они могут иметь бесконечно много решений (быть совместными) или ни одного решения (быть несовместными, если уравнения противоречат друг другу).
>
>На практике, например в обучении регрессий, этот случай практически не встречается.
>
>Что касается переопределённых систем, то в них, помимо несовместности (отсутствия решений), количество независимых уравнений превышает количество неизвестных — это тот самый случай, что мы видим в регрессионном анализе.

## СЛУЧАЙ «ИДЕАЛЬНАЯ ПАРА»

>Самый простой случай решения неоднородной СЛАУ — когда система **имеет единственное решение**. Такие системы называются **совместными**.

На вопрос о том, когда СЛАУ является совместной, отвечает главная теорема СЛАУ — теорема **Кронекера — Капелли** (также её называют **критерием совместности системы**).

***

**Теорема Кронекера — Капелли:**

Неоднородная система линейный алгебраических уравнений $A\overrightarrow{w} = \overrightarrow{b}$ является совместной тогда и только тогда, когда ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|b)$ и равен количеству независимых переменных $m$:

$rk(A) = rk(A|\overrightarrow{b}) = m \leftrightarrow \exists ! \overrightarrow{w} = (w_{1}, w_{2}, \ldots w_m)^T$

Причём решение системы будет равно:

$\overrightarrow{w} = A^{-1} \overrightarrow{b}$

***



Пример №1

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right.$

где  $w_1$ и $w_2$ — неизвестные переменные.

При решении системы «в лоб» получим:

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right. \Rightarrow \left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{2}=2 \end{array}\right. \Rightarrow \left\{\begin{array}{c} w_{1}=0 \\ w_{2}=0 \end{array}\right.$

Интерпретация:

$\left( \begin{array}{c} 1 \\ 2 \end{array}\right) = 0 \cdot \left( \begin{array}{c} 1 \\ 1 \end{array}\right) + 1 \cdot \left( \begin{array}{c} 1 \\ 2 \end{array}\right)$

На языке линейной алгебры это означает что вектор $(1, 2)^T$ линейно выражается через векторы коэффициентов системы $(1, 1)^T$ и $(1, 2)^T$.

В матричном виде система запишется, как:

$A\overrightarrow{w}=\overrightarrow{b} \text{где}A = \left( \begin{array}{cc} 1 & 1 \\ 1 & 2 \end{array}\right), \overrightarrow{w}=\left( \begin{array}{c} w_1 \\ w_2 \end{array}\right), \overrightarrow{b}=\left( \begin{array}{c} b_1 \\ b_2 \end{array}\right) $ 

Преобразование уравнений будем таким же, как и при преобразовании расширенной матрицы системы $(A|b)$, вычитая сначала первую строку из второй, а затем — результат из первой, получим то же решение, что и решение «в лоб».

$(A|\overrightarrow{b})=\left(\begin{array}{cc|c} 1 & 1 & 1  \\ 1 & 2 & 2 \end{array} \right) \Rightarrow \left(\begin{array}{cc|c} 1 & 1 & 1  \\ 0 & 1 & 1 \end{array} \right) \Rightarrow \left(\begin{array}{cc|c} 1 & 0 & 0  \\ 0 & 1 & 1 \end{array} \right) \Rightarrow \left\{\begin{array}{c} w_1=0  \\ w_2=0 \end{array} \right.$

Других решений у системы нет. 

Посмотрим на ранги матрицы $А$ и расширенной матрицы $(A|b)$ (количество ступеней в ступенчатых матрицах):

$rk(A)=\left(\begin{array}{cc} 1 & 0 \\ 0 & 1\end{array}\right)=2$

$rk(A|b)=\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 1\end{array}\right)=2$

$rk(A)=rk(A|b)$

Они совпадают и равны количеству неизвестных, а это и гарантирует существование и **единственность решения**. То есть в общем случае, чтобы узнать, сколько решений существует у системы, её необязательно было бы решать — достаточно было бы найти ранги матриц $rk(A)$ и $rk(A|b)$ .

***
Тут возникает вопрос: «Можно ли найти решение одной формулой?»

Для удобства перепишем систему без стрелок:

$Aw=b$

Так как матрица квадратная и невырожденная, у неё обязательно есть обратная матрица.

Умножим на $A^{-1}$ слева обе части уравнения. Стоит напомнить, что произведение матриц **не перестановочно**, поэтому есть разница, с какой стороны умножать.

$A^{-1} \cdot Aw = A^{-1}\cdot b$

$w=A^{-1}\cdot b$

>**Важно**! Отсюда явно видны ограничения этого метода: его можно применять только **для квадратных невырожденных матриц** (тех, у которых определитель не равен 0).

Убедимся в правильности формулы. Найдём произведение матрицы $A^{-1}$ и вектора-столбца $b$:

$A^{-1}\cdot b=\left( \begin{array}{cc} 1 & 1 \\ 1 & 2 \end{array}\right)^{-1} \cdot \left(\begin{array}{c} 1 \\ 2 \end{array}\right)=\left( \begin{array}{cc} 2 & -1 \\ -1 & 1 \end{array}\right) \cdot \left(\begin{array}{c} 1 \\ 2 \end{array}\right) = \left(\begin{array}{c} 0 \\ 1 \end{array}\right)$ 

***

**Резюмируем ↓**

У нас есть квадратная система с $m$ неизвестных. Если ранг матрицы коэффициентов $A$ **равен** рангу расширенной матрицы $(A|b)$ и **равен** количеству переменных $(rk(A)=rk(\overrightarrow{b}))=m$, то в системе будет ровно столько независимых уравнений, сколько и неизвестных $m$, а значит будет **единственное** решение.

Вектор свободных коэффициентов $b$ при этом линейно независим со столбцами матрицы $A$, его разложение по столбцам $A$ **единственно**.

In [22]:
A = np.array([[4,7],[5,10]])
np.linalg.inv(A)

array([[ 2. , -1.4],
       [-1. ,  0.8]])

## СЛУЧАЙ «В АКТИВНОМ ПОИСКЕ»

?А что, если система **не удовлетворяет теореме Кронекера — Капелли**? То есть ранг матрицы системы равен расширенному рангу матрицы, но не равен количеству неизвестных. Неужели тогда система нерешаема?

На этот вопрос отвечает первое следствие из теоремы ↓

**Следствие №1** из теоремы Кронекера — Капелли:

Если ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|b)$, **но меньше**, чем количество неизвестных $m$, то система имеет бесконечное множество решений:

$rk(A) = rk(A | \vec{b}) < m  \leftrightarrow  \infty \ решений$

Решим систему уравнений:

$w_1+w_2+w_3=10$

Да, уравнение одно, но формально оно является неоднородной СЛАУ.

Итак, мы имеем одно уравнение на три неизвестных, значит две координаты из трёх вектора $w$ мы можем задать как угодно. Например, зададим вторую и третью как $\alpha$ и $\beta$. Тогда первая будет равна $10-\alpha-\beta$.

$w=\left( \begin{array}{c} {10-\alpha-\beta} \\ \alpha \\ \beta \end{array} \right)$ где $\alpha, \beta \in \mathbb{R}$

Вместо переменных $\alpha$ и $\beta$ мы можем подставлять любые числа и всегда будем получать равенство. 

Составим расширенную матрицу:

$(A|b)=(\begin{array}{} 1 & 1 & 1|10 \end{array})$

Её ранг, как и ранг $A$, равен 1, что меньше числа неизвестных $m=3$:

$rk(A) = rk(A | \vec{b}) = 1 < 3$

Такая ситуация, по следствию из теоремы Кронекера — Капелли, говорит о существовании и не единственности решения, то есть решений **бесконечно много**.

***

**Резюмируем ↓
**
Если ранги матриц $A$ и $(A|b)$ всё ещё совпадают, но уже меньше количества неизвестных $(rk(A) = rk(A | \vec{b}) < m)$, значит, уравнений не хватает для того, чтобы определить систему полностью, и решений будет бесконечно много.

На языке линейной алгебры это значит, что вектор $\overrightarrow{b}$ линейно зависим со столбцами матрицы $A$, но также и сами столбцы зависимы между собой, поэтому равнозначного разложения не получится, т. е. таких разложений может быть сколько угодно.

## СЛУЧАЙ «ВСЁ СЛОЖНО»

А теперь посмотрим на самый интересный для нас случай. Его формально регламентирует второе следствие из теоремы Кронекера — Капелли.

**Следствие №2 из теоремы Кронекера — Капелли**:

Если ранг матрицы системы $A$ меньше, чем ранг расширенной матрицы системы $(A|b)$, то система несовместна, то есть не имеет точных решений:

$rk(A)  < rk(A | \vec{b})  \leftrightarrow  \nexists \ решений$

Решим систему уравнений:

$\left\{\begin{array}{c} w_1+w_2=1 \\ w_1+2 w_2=2 \\ w_1+w_2=12 \end{array}\right.$

Посмотрим на первое и третье уравнение — очевидно, что такая система не имеет решений, так как данные уравнения противоречат друг другу.

Но давайте обоснуем это математически. Для этого запишем расширенную матрицу системы:

$(A|b)=\left(\begin{array}{cc|c} 1 & 1 & 1 \\ 1 & 2 & 2 \\ 1 & 1 & 12 \end{array}\right)$

Посчитаем ранги матриц $A$ и $(A|b)$:

$rk(A)=rk\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right) \Rightarrow I-III \Rightarrow rk\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \end{array}\right) \Rightarrow II-I \Rightarrow rk\left(\begin{array}{cc} 1 & 1  \\ 0 & 1 \end{array}\right)=2$

$rk(A|b)=rk\left(\begin{array}{ccc} 1 & 1 & 1 \\ 1 & 2 & 2 \\ 1 & 1 & 12 \end{array}\right) \Rightarrow III-I, II-I \Rightarrow rk\left(\begin{array}{cc} 1 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 12\end{array}\right)=3$

Итак, $rk(A)=2$, в то время как $rk(A|b)=3$. Это и есть критерий **переопределённости системы уравнений**: ранг матрицы системы меньше ранга расширенной матрицы системы.

Получается, что идеальное решение найти нельзя, но чуть позже мы увидим, что такие системы возникают в задачах регрессии практически всегда, а значит нам всё-таки хотелось бы каким-то образом её решать. Можно попробовать найти приблизительное решение — вопрос лишь в том, какое из всех этих решений лучшее.

Найдем наилучшее приближение для $w_1$, $w_2$, если:

$\left\{\begin{array}{c} w_1+w_2=1 \\ w_1+2 w_2=2 \\ w_1+w_2=12 \end{array}\right. \Rightarrow \left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right)\cdot \left(\begin{array}{c} w  \\ w \end{array}\right)=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)$

Обозначим приближённое решение как $\hat{w}$. Приближением для вектора $b$ будет $\hat{b}=A \hat{w}$. Также введём некоторый вектор ошибок $e=b-\hat{b}=b-A \hat{w}$.

>**Примечание**. Здесь мы снова опустили стрелки у векторов $b$, $\hat{b}$ и $\hat{w}$ для наглядности.

Например, если мы возьмём в качестве вектора $\hat{w}$ вектор $\hat{w_1}=(1,1)^T$, то получим:

$\hat{b}=A\hat{w_1}=\left(\begin{array}{cc} 1 & 1 \\ 1 & 2 \\ 1 & 1\end{array}\right)\cdot\left(\begin{array}{c} 1 \\ 1  \end{array}\right)=\left(\begin{array}{c} 2 \\ 3 \\ 2 \end{array}\right)$

$e_1=b-A\hat{w_1}=\left(\begin{array}{c} 1 \\ 2 \\ 12\end{array}\right) - \left(\begin{array}{c} 2 \\ 3 \\ 2\end{array}\right)=\left(\begin{array}{c} -1 \\ -1 \\ 10 \end{array}\right)$

Теперь возьмём в качестве вектора $\hat{w_2}=(4, -1)^T$, получим:

$\hat{b}=A\hat{w_2}=\left(\begin{array}{cc} 1 & 1 \\ 1 & 2 \\ 1 & 1\end{array}\right)\cdot\left(\begin{array}{c} 4 \\ -1  \end{array}\right)=\left(\begin{array}{c} 3 \\ 2 \\ 3 \end{array}\right)$

$e_2=b-A\hat{w_2}=\left(\begin{array}{c} 1 \\ 2 \\ 12\end{array}\right) - \left(\begin{array}{c} 3 \\ 2 \\ 3\end{array}\right)=\left(\begin{array}{c} -2 \\ -1 \\ 9 \end{array}\right)$

>Конечно, нам хотелось бы, чтобы ошибка была поменьше. Но какая из них поменьше? Векторы сами по себе сравнить нельзя, **но зато можно сравнить их длины**.

$\left\|e_1 \right\| = \sqrt{(-1)^2 + (-1)^2 + (10)^2} = \sqrt{102}$

$\left\|e_2 \right\| = \sqrt{(-2)^2 + 0^2 + 9^2} = \sqrt{85}$

>Видно, что вторая ошибка всё-таки меньше, соответственно, приближение лучше. Но в таком случае из всех приближений нам нужно выбрать то, у которого длина вектора ошибок минимальна, если, конечно, это возможно.
>
>$||e||\rightarrow min$
>

***

>**Примечание**. Проблема поиска оптимальных приближённых решений неоднородных переопределённых СЛАУ стояла у математиков вплоть до XIX века. До этого времени математики использовали частные решения, зависящие от вида уравнений и размерности. Впервые данную задачу для общего случая решил Гаусс, опубликовав метод решения этой задачи, который впоследствии будет назван методом наименьших квадратов (МНК). В дальнейшем Лаплас прибавил к данному методу теорию вероятности и доказал оптимальность МНК-оценок с точки зрения статистики.

Сейчас мы почувствуем себя настоящими математиками и попробуем решить эту задачу самостоятельно с помощью простой геометрии и знакомых нам операций над матрицами.

Вспомним, что на языке линейной алгебры неразрешимость системы

$\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right)\cdot \left(\begin{array}{c} w  \\ w \end{array}\right)=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)$

означает, что попытка выразить вектор $(1,2,12)^T$ через $(1,1,1)^T$ и $(1,2,1)^T$ не будет успешной, так как они **линейно независимы**.

Геометрически это означает, что вектор свободных коэффициентов $\textcolor{brown}{b}$ (коричневый) не лежит в одной плоскости со столбцами матрицы $\textcolor{blue}{A}$ (синие векторы).

<img src=m2_img1.png>

Идея состояла в том, что наилучшим приближением для коричневого вектора будет ортогональная проекция на синюю плоскость — $\textcolor{cyan}{голубой}$ вектор. Так происходит потому, что наименьший по длине вектор ошибок — $\textcolor{red}{красный}$ — должен быть перпендикулярен к синей плоскости:

$e=b-\hat{b}$

В прошлом модуле мы производили расчёты интуитивно, а теперь настала пора вывести формулу.

Давайте умножим наши уравнения слева на $A^T$:

$A^T\cdot\textcolor{cyan}{A\hat{w}}=A^T\cdot\textcolor{brown}{b}$

Идея заключается в следующем: справа мы найдём скалярное произведение столбцов матрицы $A$ на вектор $b$, а слева — произведение столбцов $A$ на приближённый вектор $\hat{b}$ (по сути, на голубую проекцию).

Упростим уравнение, перемножив всё, что содержит только числа. В левой части умножим $A^T$ на $A$, в правой — умножим $A^T$ на $b$. Тогда слева получим матрицу 2×2 — это не что иное, как матрица Грама столбцов $A$.

>Столбцы $A$ линейно независимы, а это значит, что, по свойству матрицы Грама, $A^T\cdot A$  — невырожденная квадратная матрица (её определитель не равен нулю, и для неё существует обратная матрица). Получившаяся система — один в один случай «идеальная пара» (ранг матрицы, как и ранг расширенной матрицы, равен 2, в чём несложно убедиться), а это значит, что теперь мы можем её решить.

$\left(\begin{array}{} 3 & 4 \\ 4 & 6 \end{array}\right)\cdot\left(\begin{array}{} \hat{w} \\ \hat{w} \end{array}\right) = \left(\begin{array}{} 15 \\ 17 \end{array}\right)$

$\left(\begin{array}{} 3 & 4 \\ 4 & 6 \end{array}\right)$ - матрица Грамма столбцов $A$

$A^T\cdot A=Gram(\left(\begin{array}{} 1 \\ 1 \\ 1 \end{array}\right),\left(\begin{array}{} 1 \\ 2 \\ 1 \end{array}\right))$

Но ведь мы не могли решить изначальную задачу, так как она была переопределена, а эту — можем. **Как так получилось**?

Мы потребовали, чтобы у приближения $\hat{b}$ были с векторами $(1,1,1)^T$ и $(1,2,1)^T$ такие же скалярные произведения, как у $b$. Это и означает что $\hat{b}$ — ортогональная проекция на нашу синюю плоскость, в которой лежат столбцы матрицы $A$, и в этой плоскости мы можем найти коэффициенты.

Мы с вами отлично умеем решать системы типа «Идеальная пара». Для этого нам нужно найти обратную матрицу $(A^T\cdot A)^{-1}$ и умножить на неё слева всё уравнение. Так мы и получим наше приближение:

$(A^TA)\cdot\hat{w}=A^Tb$

Находим определитель матрицы $(A^TA)$: 

$\mathbb{det}(A^TA) = 3\cdot6-4\cdot4=2$

Находим обратную матрицу $(A^TA)^{-1}$:

$(A^TA)^{-1}=\left(\begin{array}{cc} 3 & 4 \\ 4 & 6\end{array}\right)^{-1}=\frac{1}{2}\left(\begin{array}{cc} 6 & -4 \\ -4 & 3\end{array}\right)=\left(\begin{array}{cc} 3 & -2 \\ -2 & 1.5\end{array}\right)$

Умножаем всё уравнение на обратную матрицу слева:

$(A^TA)^{-1}\cdot(A^TA)\cdot\hat{w}=(A^TA)^{-1}\cdot A^T\cdot b$

$\hat{w}=(A^TA)^{-1}\cdot A^T\cdot b$

И, наконец, вот он — долгожданный приближённый вектор $\hat{w}$:

$\hat{w}=\left(\begin{array}{cc} 3 & -2 \\ -2 & 1.5\end{array}\right)\cdot\left(\begin{array}{} 15 \\ 17\end{array}\right)=\left(\begin{array}{} 11 \\ -4.5\end{array}\right)$

***

⭐ **Пришло время открытий!**

Только что мы геометрическим образом вывели формулу оценки решения методом наименьших квадратов (`МНК` или `OLS`, Ordinary Least Squares).

>**Примечание**. Стоит отметить, что полученная матричная формула не зависит от размерностей и конкретных значений, а значит применима не только в нашем локальном случае, но и в общем.

Нам осталось выполнить проверку полученных результатов, чтобы убедиться в верности решения.

Вычислим голубой вектор $\hat{b}$. Для этого возьмём линейную комбинацию столбцов матрицы $А$ с найденными нами коэффициентами $\hat{w_1}$ и $\hat{w_2}$

$\hat{b}=A\hat{w}=\hat{w_1}\cdot\left(\begin{array}{} 1\\1\\1\end{array}\right)+\hat{w_2}\cdot\left(\begin{array}{} 1\\2\\1\end{array}\right)=11\cdot\left(\begin{array}{} 1\\1\\1\end{array}\right)-4.5\cdot\left(\begin{array}{} 1\\2\\1\end{array}\right)=\left(\begin{array}{} 6.5\\2\\6.5\end{array}\right)$

Вычислим вектор ошибок $e$:

$e=b-\hat{b}=b-A\hat{w}=\left(\begin{array}{} 1\\2\\12\end{array}\right)-\left(\begin{array}{} 6.5\\2\\6.5\end{array}\right)=\left(\begin{array}{} -5.5\\0\\5.5\end{array}\right)$

Убедимся, что данный вектор действительно ортогонален столбцам матрицы $А$. Для этого найдём их скалярные произведения:

$(e,A_1)=e^T\cdot A_1=(-5.5, 0, 5.5) \cdot \left(\begin{array}{} 1\\1\\1\end{array}\right) = 0$

$(e,A_2)=e^T\cdot A_2=(-5.5, 0, 5.5) \cdot \left(\begin{array}{} 1\\2\\1\end{array}\right) = 0$

Скалярные произведения равны 0, а это означает, что вектор ошибок $\textcolor{red}e$ действительно ортогонален всей синей плоскости, а голубой вектор $\textcolor{cyan}{\hat{b}}$ приближённого значения является ортогональной проекцией коричневого вектора $\textcolor{brown}b$.

>**Примечание**. Прежде чем перейти к выводам, стоит отметить, что обычно `OLS`-оценку выводят немного иначе, а именно минимизируя в явном виде длину вектора ошибок по коэффициентам $\hat{w}$, вернее, даже квадрат длины для удобства вычисления производных.
>
>$||\overrightarrow{e}||\rightarrow min$
>
>$||\overrightarrow{e}||^2\rightarrow min$
>
>$||\overrightarrow{b}-A\overrightarrow{w}||^2\rightarrow min$
>
>Формула получится точно такой же, какая есть у нас, просто способ вычислений будет не геометрический, а аналитический. Мы вернёмся к этому способу, когда будем обсуждать оптимизацию функции многих переменных в разделе по математическому анализу.

Наконец, мы может подвести итоги для случая «Всё сложно».

***

**Резюмируем ↓**

Если ранг матрицы $A$ меньше ранга расширенной системы $(A|b)$, то независимых уравнений больше, чем переменных $(rkA<(A|b)<m)$, а значит некоторые из них будут противоречить друг другу, то есть решений у системы нет.

Говоря на языке линейной алгебры, вектор $b$ линейно независим со столбцами матрицы $A$, а значит его нельзя выразить в качестве их линейной комбинации.

Однако можно получить приближённые решения по методу наименьших квадратов (`OLS` - оценка - $\hat{b}=(A^TA)^{-1}\cdot A^Tb$), идеей которого является ортогональная проекция вектора $b$ на столбцы матрицы $A$.

# 3. Линейная регрессия МНК <a class="anchor" id=2></a>

[к содержанию](#0)

# 4. Стандартизация векторов и матрица корреляции <a class="anchor" id=2></a>

[к содержанию](#0)

# 5. Практика. Лин.регрессия МНК <a class="anchor" id=2></a>

[к содержанию](#0)

# 6. Полиноминальная регрессия <a class="anchor" id=2></a>

[к содержанию](#0)

# 7. Регуляция <a class="anchor" id=2></a>

[к содержанию](#0)

# 8. Практика. Полиноминальная регрессия и регуляция <a class="anchor" id=2></a>

[к содержанию](#0)

# 9. Итоги <a class="anchor" id=2></a>

[к содержанию](#0)