# <center>Линейная алгебра в контексте линейных методов. Часть II
## <center>Неоднородные СЛАУ
>**Расширенной матрицей системы** $(A|b)$ неоднородных СЛАУ называется матрица, составленная из исходной матрицы и вектора свободных коэффициентов (записывается через вертикальную черту):  
>![image.png](attachment:image.png)

Расширенная матрица системы — это обычная матрица. Черта, отделяющая коэффициенты $a_{ij}$ от свободных членов $b_i$ — чисто символическая. 

Над расширенной матрицей неоднородной СЛАУ можно производить те же самые действия, что и над обычной, а именно:
* складывать/вычитать между собой строки/столбцы матрицы;
* умножать строки/столбцы на константу;
* менять строки/столбцы местами.

Существует три случая при решении неоднородных СЛАУ:
* **«Идеальная пара»**

    Это так называемые определённые системы линейных уравнений, имеющие единственные решения.
* **«В активном поиске»**

    Неопределённые системы, имеющие бесконечно много решений.

* **«Всё сложно»**

    Это самый интересный для нас случай — переопределённые системы, которые не имеют точных решений.

### <center>Случай «ИДЕАЛЬНАЯ ПАРА»

>Самый простой случай решения неоднородной СЛАУ — когда система имеет единственное решение. Такие системы называются **совместными**.

На вопрос о том, когда СЛАУ является совместной, отвечает главная теорема СЛАУ — **теорема Кронекера — Капелли** (также её называют **критерием совместности системы**).

#### **Теорема Кронекера — Капелли:**

Неоднородная система линейный алгебраических уравнений $A\vec{\omega}=\vec{b}$ является совместной тогда и только тогда, когда ранг матрицы системы $A$ **равен** рангу расширенной матрицы системы $(A|\vec{b})$ и **равен** количеству независимых переменных $m$:
$$ rk(A)=rk(A|\vec{b}) = m \leftrightarrow \exists!\vec{\omega} = (\omega_1, \omega_2, \dots, \omega_m)^T $$
Причём решение системы будет равно:
$$ \vec{\omega} = A^{-1}\vec{b} $$

\* $\exists!$ <font size=2> — «существует и причём единственное».</font>

![image-2.png](attachment:image-2.png)

### <center>Случай «В АКТИВНОМ ПОИСКЕ»
#### **Следствие №1 из теоремы Кронекера — Капелли:**

Если ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|\vec{b})$, **но меньше**, чем количество неизвестных $m$, то система имеет бесконечное множество решений:
$$ rk(A) = rk(A|\vec{b}) < m \leftrightarrow \infty \space решений $$
![image-3.png](attachment:image-3.png)

### <center>Случай «ВСЁ СЛОЖНО»
#### **Следствие №2 из теоремы Кронекера — Капелли:**
Если ранг матрицы системы $A$ меньше, чем ранг расширенной матрицы системы $(A|\vec{b})$, то система несовместна, то есть не имеет точных решений:
$$ rk(A) < rk(A|\vec{b}) \leftrightarrow \nexists \space решений $$
Получается, что идеальное решение найти нельзя, такие системы возникают в задачах регрессии практически всегда. Можно попробовать найти приблизительное решение — вопрос лишь в том, какое из всех этих решений лучшее.

Обозначим приближённое решение как $\widehat{\vec{\omega}}$. Приближением для вектора $\vec{b}$ будет $\widehat{\vec{b}}=A\widehat{\omega}$. Также введём некоторый вектор ошибок $e=\vec{b}-\widehat{\vec{b}}=\vec{b}-A\widehat{\vec{\omega}}$.  
Векторы ошибок сами по себе сравнить нельзя, но зато можно сравнить их длины.

#### **Метод наименьших квадратов / Ordinary Least Squares**
$$ \widehat{\omega} = (A^TA)^{-1} \cdot A^Tb $$
![image-5.png](attachment:image-5.png)

## <center>Линейная регрессия по методу наименьших квадратов
В задаче регрессии обычно есть **целевая переменная**, которую мы хотим предсказать. Её, как правило, обозначают буквой $y$. Помимо целевой переменной, есть **признаки** (их также называют **факторами** или **регрессорами**). Пусть их будет $k$ штук:

$y$ — целевая переменная

$x_1, x_2, \dots, x_k$ — признаки/факторы/регрессоры

Поставить задачу — значит ответить на два вопроса:
* Что у нас есть?
* Что мы хотим получить?

В задаче регрессии есть $N$ (как правило, их действительно много) наблюдений. Это наша обучающая выборка или датасет, представленный в виде таблицы. В столбцах таблицы располагаются векторы признаков $\vec{x_i}$.
![image.png](attachment:image.png)

То есть и целевая переменная, и признаки представлены векторами из векторного пространства $\mathbb{R}^N$ — каждого вектора $N$ координат.

В качестве регрессионной модели мы будем использовать **модель линейной регрессии**. Мы предполагаем, что связь между целевой переменной и признаками линейная. Это означает, что:
$$ y = \omega_0 + \omega_1x_1 + \omega_2x_2 + \dots + \omega_kx_k $$
<center>или</center>

$$ y = (\vec{\omega}, \vec{x}) $$
Здесь $\vec{\omega}=(\omega_0, \omega_1, \dots, \omega_k)^T$ обозначают веса (коэффициенты уравнения линейной регрессии), а $\vec{x}=(1, x_1, x_2, \dots, x_k)^T$.

Наличие коэффициента $\omega_0$ говорит о том, что мы строим регрессию с константой, или, как ещё иногда говорят, с **интерсептом**.

Говоря на языке машинного обучения, мы хотим обучить такую модель, которая описывала бы зависимость целевой переменной от факторов на обучающей выборке.
## <center>Проблемы в классической МНК-модели
Как и у любого метода, у классической OLS-регрессии есть свои **ограничения**. Если матрица $A^TA$ вырождена или близка к вырожденной, то хорошего решения у классической модели не получится. Такие данные называют **плохо обусловленными**.

Борьба с вырожденностью матрицы $A^TA$ часто сводится к устранению «плохих» (зависимых) признаков. Для этого анализируют корреляционную матрицу признаков или матрицу их значений. Но иногда проблема может заключаться, например, в том, что один признак измерен в тысячных долях, а другой — в тысячах единиц. Тогда коэффициенты при них могут отличаться в миллион раз, что потенциально может привести к вырожденности матрицы $A^TA$.

В устранении этой проблемы может помочь знакомая нам **нормализация/стандартизация данных**.

![image-2.png](attachment:image-2.png)

## <center>Стандартизация векторов и матрица корреляций
* **Нормализация** — это процесс приведения признаков к единому масштабу, например от 0 до 1. Пример — *min-max*-нормализация:
$$ x_{scaled}=\frac{x-x_{min}}{x_{max}-x_{min}} $$
* **Стандартизация** — это процесс приведения признаков к единому масштабу характеристик распределения — нулевому среднему и единичному стандартному отклонению:
$$ x_{scaled}=\frac{x-x_{mean}}{x_{std}} $$

В линейной алгебре под стандартизацией вектора $\vec{x} \in \mathbb{R}^n$ понимается несколько другая операция, которая проходит в два этапа:

1. **Центрирование вектора** — это операция приведения среднего к 0:
    $$ \vec{x}_{cent} = \vec{x} - \vec{x}_{mean} $$
2. **Нормирование вектора** — это операция приведения диапазона вектора к масштабу от -1 до 1 путём деления центрированного вектора на его длину:
    $$ \vec{x}_{st} = \frac{\vec{x}_{cent}}{||\vec{x}_{cent}||} $$

где $\vec{x}_{mean}$ — вектор, составленный из среднего значения вектора $\vec{x}$, а $||\vec{x}_{cent}||$ — длина вектора $\vec{x}_{cent}$.

В результате стандартизации вектора всегда получается новый вектор, длина которого равна 1:
$$ ||\vec{x}_{st}|| = 1 $$

>Матрицу корреляций ($G(A) = A_{st}^T \cdot A_{st}$) можно получить только в том случае, если производить стандартизацию признаков как векторы (делить на длину центрированного вектора $\vec{x}_{st}$). Другие способы стандартизации/нормализации признаков не превращают матрицу Грама в матрицу корреляций.

![image.png](attachment:image.png)


## <center>Корреляционная матрица
>**Корреляционная матрица** $C$ — это матрица выборочных корреляций между факторами регрессий.
$$ C = corr(X) $$
В этом модуле мы будем говорить именно о **корреляции Пирсона**. Она измеряет тесноту линейных связей между непрерывными числовыми факторами и может принимать значения от -1 до +1.
$$ c_{ij} = corr(\vec{x}_i, \vec{x}_j) $$
Как и любая статистическая величина, корреляция бывает **генеральной** и **выборочной**.

>**Генеральная (истинная) корреляция** — это теоретическая величина, которая отражает общую линейную зависимость между случайными величинами $X_i$ и $X_j$. Забегая вперёд скажем, что данная характеристика является абстрактной и вычисляется для **генеральных совокупностей** — всех возможных реализаций $X_i$ и $X_j$. В природе такой величины не существует, она есть только в теории вероятностей.

>**Выборочная корреляция** — это корреляция, вычисленная на ограниченной выборке. Выборочная корреляция отражает линейную взаимосвязь между факторами $\vec{x}_i$ и $\vec{x}_j$, реализации которых представлены в выборке.

Выборочная корреляция между факторами высчитывается по формуле:
![image.png](attachment:image.png)
Из вычисленных $c_{ij}$ как раз и составляется матрица корреляций $C$. Если факторов $k$ штук, то матрица $C$ будет квадратной размера $\dim C = (k,k)$:
![image-2.png](attachment:image-2.png)
$$ C = G(\vec{x}_{1_{st}}, \vec{x}_{2_{st}}) $$
Геометрическая интерпретация корреляции - это косинус угла между центрированными векторами $\vec{x}_{i_{cent}}$ и $\vec{x}_{j_{cent}}$. По свойству скалярного произведения:
![image-3.png](attachment:image-3.png)

На практике корреляция с точки зрения линейной алгебры означает следующее:
* Если корреляция $c_{ij}=1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ пропорциональны и сонаправлены.
* Если корреляция $c_{ij}=-1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$  пропорциональны и противонаправлены.
* Если корреляция $c_{ij}=0$, значит векторы $\vec{x}_i$ и $\vec{x}_j$  ортогональны друг другу и, таким образом, являются линейно независимыми.

Во всех остальных случаях между факторами  и  существует какая-то линейная взаимосвязь, причём чем ближе модуль коэффициента корреляции к 1, тем сильнее эта взаимосвязь.

![image-5.png](attachment:image-5.png)
**Промежуточный вывод ↓**

Таким образом, матрица корреляций — это матрица Грама, составленная для стандартизированных столбцов исходной матрицы наблюдений $A$. Она всегда (в теории) симметричная. На главной диагонали этой матрицы стоят 1, а на местах всех остальных элементов — коэффициенты корреляции между факторами $\vec{x}_i$ и $\vec{x}_j$.

Если коэффициент корреляции больше 0, то взаимосвязь между факторами прямая (растёт один — растёт второй), в противном случае — обратная (растёт один — падает второй).

Есть много способов борьбы с мультиколлинеарностью:
* удаление взаимных факторов «на глаз». Увы, это получается не всегда.
* метод главных компонент для корреляционной матрицы;
* сингулярное разложение матрицы факторов;
* регуляризация.


