# **Неоднородные СЛАУ**

Мы начнём с алгоритма **классической линейной регрессии по методу наименьших квадратов (OLS, Ordinary Least Squares)**. Данный алгоритм является базовым, но, тем не менее, весьма непрост для восприятия, поэтому данная сложносочинённая задача будет разделена на две части:

* В этом юните мы обсудим случаи и алгоритм решения неоднородных СЛАУ.
* В следующем юните подведём под эту задачу контекст задачи регрессии.

Что такое неоднородные СЛАУ.

Примечание. Совокупность уравнений первой степени, в которых каждая переменная и коэффициенты в ней являются вещественными числами, называется **системой линейных алгебраических уравнений (СЛАУ)** и в общем случае записывается как:

![](data/1.PNG)

СЛАУ (1) называется **однородной**, если все свободные члены системы равны 0.

СЛАУ (1) называется **неоднородной**, если хотя бы один из свободных членов системы отличен от 0.

Вспомним, что СЛАУ можно записать в матричном виде:

![](https://lms.skillfactory.ru/assets/courseware/v1/35808bc9ca767f3c996106d8887c1108/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_3.png)

где A — матрица системы, w — вектор неизвестных коэффициентов, а b — вектор свободных коэффициентов. 

Давайте введём новое для нас определение.
***
* ***Расширенной матрицей*** системы (A|b) неоднородных СЛАУ называется матрица, составленная из исходной матрицы и вектора свободных коэффициентов:

![](data/2.PNG)

***

Расширенная матрица системы — это обычная матрица. Черта, отделяющая коэффициенты ***a*** от свободных членов ***b*** — чисто символическая. 

Над расширенной матрицей неоднородной СЛАУ можно производить те же самые действия, что и над обычной, а именно:

* складывать/вычитать между собой строки/столбцы матрицы;
* умножать строки/столбцы на константу;
* менять строки/столбцы местами.

Приведём пример расширенной матрицы системы. Пусть исходная система будет следующей:

![](data/3.PNG)

Теперь, когда мы вспомнили все определения и познакомились с термином расширенной матрицы, мы можем переходить к решению неоднородных СЛАУ.
***
***

Существует три случая при решении неоднородных СЛАУ:

1. «Идеальная пара»

    Это так называемые **определённые системы линейных уравнений**, имеющие единственные решения.

2. «В активном поиске»

    **Неопределённые системы**, имеющие бесконечно много решений.

3. «Всё сложно»

    Это самый интересный для нас случай — **переопределённые системы**, которые не имеют точных решений.

***
*Примечание. В данной классификации неоднородных СЛАУ допущено упрощение в терминологии. На самом деле неопределённые системы — это те, в которых независимых уравнений меньше, чем неизвестных. Они могут иметь бесконечно много решений (быть совместными) или ни одного решения (быть несовместными, если уравнения противоречат друг другу).*

*На практике, например в обучении регрессий, этот случай практически не встречается.*

*Что касается переопределённых систем, то в них, помимо несовместности (отсутствия решений), количество независимых уравнений превышает количество неизвестных — это тот самый случай, что мы видим в регрессионном анализе.*
***

## **СЛУЧАЙ «ИДЕАЛЬНАЯ ПАРА»**

Самый простой случай решения неоднородной СЛАУ — когда система имеет единственное решение. Такие системы называются **совместными**.

На вопрос о том, когда СЛАУ является совместной, отвечает главная теорема СЛАУ — **теорема Кронекера — Капелли** (также её называют **критерием совместности системы**).

![](data/4.PNG)

*Примечание. Здесь значок **∃!** переводится как «существует и причём единственное».*

![](data/5.PNG)

## **СЛУЧАЙ «В АКТИВНОМ ПОИСКЕ»**

А что, если система не удовлетворяет теореме Кронекера — Капелли? То есть ранг матрицы системы равен расширенному рангу матрицы, но не равен количеству неизвестных. Неужели тогда система нерешаема?

На этот вопрос отвечает первое следствие из теоремы

**Следствие №1 из теоремы Кронекера — Капелли:**

**Если ранг матрицы системы A равен рангу расширенной матрицы системы (A|b), но меньше, чем количество неизвестных m, то система имеет бесконечное множество решений:**

![](data/6.PNG)

Вновь рассмотрим пример.

Решим систему уравнений:

w1 + w2 + w3 = 10

Да, уравнение одно, но формально оно является неоднородной СЛАУ.

![](data/7.PNG)

![](data/8.PNG)

## **СЛУЧАЙ «ВСЁ СЛОЖНО»**

А теперь посмотрим на самый интересный для нас случай. Его формально регламентирует второе следствие из теоремы Кронекера — Капелли.

Следствие №2 из теоремы Кронекера — Капелли:

![](data/9.PNG)

![](data/10.PNG)

![](data/11.PNG)

Получается, что идеальное решение найти нельзя, но чуть позже мы увидим, что такие системы возникают в задачах регрессии практически всегда, а значит нам всё-таки хотелось бы каким-то образом её решать. Можно попробовать найти приблизительное решение — вопрос лишь в том, какое из всех этих решений лучшее.

![](data/12.PNG)

![](data/13.PNG)

![](data/14.PNG)

***

Вернёмся к задаче поиска оптимальных приближений вектора w.

Примечание. Проблема поиска оптимальных приближённых решений неоднородных переопределённых СЛАУ стояла у математиков вплоть до XIX века. До этого времени математики использовали частные решения, зависящие от вида уравнений и размерности. Впервые данную задачу для общего случая решил Гаусс, опубликовав метод решения этой задачи, который впоследствии будет назван **методом наименьших квадратов (МНК)**. В дальнейшем Лаплас прибавил к данному методу теорию вероятности и доказал оптимальность МНК-оценок с точки зрения статистики.

Сейчас мы почувствуем себя настоящими математиками и попробуем решить эту задачу самостоятельно с помощью простой геометрии и знакомых нам операций над матрицами.

Вспомним, что на языке линейной алгебры неразрешимость системы

![](https://lms.skillfactory.ru/assets/courseware/v1/02f4b4ff440bbe548de99fd21d758ef2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_48.png)

означает, что попытка выразить вектор (1,2,12) через (1,1,1) и (1,2,1) не будет успешной, так как они линейно независимы.

Геометрически это означает, что вектор свободных коэффициентов b (коричневый) не лежит в одной плоскости со столбцами матрицы A (синие векторы).

![](https://lms.skillfactory.ru/assets/courseware/v1/2448deb8bce151ef64ddb640a1fa57db/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_49.png)

Напомним, что подобную задачу мы решали в предыдущем модуле по линейной алгебре, в юните «Практика: векторы».

Идея состояла в том, что наилучшим приближением для коричневого вектора будет ортогональная проекция на синюю плоскость — голубой вектор. Так происходит потому, что наименьший по длине вектор ошибок — красный — должен быть перпендикулярен к синей плоскости:

                                                e = b-b^

В прошлом модуле мы производили расчёты интуитивно, а теперь настала пора вывести формулу.

Давайте умножим наши уравнения слева на A.T:

![](https://lms.skillfactory.ru/assets/courseware/v1/f6cba5210f0383927c24de2da993db79/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_50.png)

Идея заключается в следующем: справа мы найдём скалярное произведение столбцов матрицы A на вектор b, а слева — произведение столбцов A на приближённый вектор b^ (по сути, на голубую проекцию).

![](https://lms.skillfactory.ru/assets/courseware/v1/04f3d1836f3f2e04db6db6dad688862a/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_71.png)

Упростим уравнение, перемножив всё, что содержит только числа. В левой части умножим A.T на A, в правой — умножим A.T на b. Тогда слева получим матрицу 2×2 — это не что иное, как матрица Грама столбцов A.

Столбцы A линейно независимы, а это значит, что, по свойству матрицы Грама, A.T * A  — **невырожденная** квадратная матрица (её определитель не равен нулю, и для неё существует обратная матрица). Получившаяся система — один в один случай «идеальная пара», а это значит, что теперь мы можем её решить.

![](https://lms.skillfactory.ru/assets/courseware/v1/227fe95c6711c25be991e9c81e9c0d93/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_51.png)

***
Но ведь мы не могли решить изначальную задачу, так как она была переопределена, а эту — можем. Как так получилось?

![](data/15.PNG)

![](data/16.PNG)

Только что мы геометрическим образом вывели формулу оценки решения **методом наименьших квадратов (МНК или OLS, Ordinary Least Squares).**

*Примечание. Стоит отметить, что полученная матричная формула не зависит от размерностей и конкретных значений, а значит применима не только в нашем локальном случае, но и в общем.*

Нам осталось выполнить проверку полученных результатов, чтобы убедиться в верности решения.

![](data/19.PNG)  
![](data/20.PNG)

***
*Примечание. Прежде чем перейти к выводам, стоит отметить, что обычно OLS-оценку выводят немного иначе, а именно минимизируя в явном виде длину вектора ошибок по коэффициентам w, вернее, даже квадрат длины для удобства вычисления производных.*

![](data/17.PNG)

*Формула получится точно такой же, какая есть у нас, просто способ вычислений будет не геометрический, а аналитический. Мы вернёмся к этому способу, когда будем обсуждать оптимизацию функции многих переменных в разделе по математическому анализу.*
***
![](data/18.PNG)

### **ЗАДАЧА**

Найдите OLS-оценку для коэффициентов w1, w2 СЛАУ:

![](https://lms.skillfactory.ru/assets/courseware/v1/aabe72a5dc4493bf7f00fce4be816414/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_2_63.png)

1. Вычислите матрицу Грама столбцов A: A.T * A
2. Вычислите матрицу (A.T * A)^-1.
3. Вычислите A.T * b.
4. Вычислите вектор оценок коэффициентов w.

In [5]:
import numpy as np

A=np.array([[1,2],[-3,1],[1,2],[1,-1]])
b=np.array([1,4,5,0]).T
b

array([1, 4, 5, 0])

In [11]:
G = A.T@A
G

array([[12,  0],
       [ 0, 10]])

In [12]:
G_inv=np.linalg.inv(G)
G_inv

array([[0.08333333, 0.        ],
       [0.        , 0.1       ]])

In [13]:
A.T@b

array([-6, 16])

In [15]:
w = G_inv@(A.T@b)
w

array([-0.5,  1.6])