# Векторы

### Задача 1 для разминки

Агентство «Рай в Шалаше» недавно сдало в аренду четыре квартиры в одном доме.

Общая площадь: 33, 42, 33 и 65 кв. м.
Жилая площадь: 24, 32, 20 и 48 кв. м.
Арендная плата: 39, 50, 38 и 77 тысяч рублей соответственно.
В том же доме появилась новая квартира общей площадью 50 кв. м, из которых жилая — 40 кв. м.

На основе имеющихся данных выберите оптимальную арендную плату для новой квартиры

### Решение 

Запишем данные в векторном виде.

Вектор общих площадей, в квадратных метрах:

\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}



Вектор жилых площадей, в квадратных метрах:

\begin{pmatrix}
24 \\
32 \\
20 \\
48
\end{pmatrix}


Стоимость аренды, в тыс. рублей:

\begin{pmatrix}
39 \\
50 \\
38 \\
77
\end{pmatrix}


Нам нужно порекомендовать оптимальную арендную плату для новой квартиры, исходя из опыта аренды предыдущих четырёх квартир

Ключом к решению является линейная зависимость векторов: можно заметить, что вектор $\vec{p}$ является линейной комбинацией векторов $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$ с коэффициентами $\omega_1 = 1$ и $\omega_2 = \frac{1}{4}$:


$$
\vec{p} = \omega_1 \vec{s}_{\text{общ}} + \omega_2 \vec{s}_{\text{жил}} =
\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}
+
\frac{1}{4}
\begin{pmatrix}
24 \\
32 \\
20 \\
48
\end{pmatrix}
=
\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}
+
\begin{pmatrix}
6 \\
8 \\
5 \\
12
\end{pmatrix}
=
\begin{pmatrix}
39 \\
50 \\
38 \\
77
\end{pmatrix}
$$

Так как новая квартира расположена в том же доме, что и первые четыре, она находится в тех же условиях, то оптимальную стоимость найти несложно.

Если вектор $\vec{p}$ является линейной комбинацией векторов $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$, то для того, чтобы определить оптимальную цену нового жилья, нам нужно просто сложить общую и жилую площади с коэффициентами $\omega_1 = 1$ и $\omega_2 = \frac{1}{4}$. 

В таком случае цена аренды новой квартиры будет полностью соответствовать остальным квартирам.

Составим вектор из коэффициентов $\omega$ линейной комбинации

$$
\vec{\omega} =
\begin{pmatrix}
\omega_1 \\
\omega_2
\end{pmatrix}
=
\begin{pmatrix}
1 \\
\frac{1}{4}
\end{pmatrix}
$$

и скалярно умножим его на вектор новой квартиры $\vec{x}$:

$$
\vec{x} =
\begin{pmatrix}
50 \\
40
\end{pmatrix}.
$$

Рассчитаем стоимость:

$$
p = (\vec{\omega}, \vec{x}) = 50 + \frac{1}{4} \cdot 40 = 60 \, [\text{тыс. руб}].
$$

Не кажется ли вам, что случай, когда вектор $\vec{p}$ так просто выражается через векторы $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$, слишком прост для реальности? Давайте попробуем решить более приближённую к реальным данным задачу.


### Задача 2 - чуть сложнее

Пусть во второй квартире обнаружились бытовые проблемы, и её пришлось сдать дешевле (за $48  460$  рублей), а в первой и третьей квартирах был застеклённый балкон, и их удалось сдать дороже (за $40 000$ и за $ 39 000 $ рублей соответственно).

На основе имеющихся данных выберите оптимальную арендную плату для новой квартиры.

### Решение

Вектор общих площадей:

$$
\vec{s}_{\text{общ}} =
\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}
\quad [\text{кв. м}]
$$

Вектор жилых площадей:

$$
\vec{s}_{\text{жил}} =
\begin{pmatrix}
24 \\
32 \\
20 \\
48
\end{pmatrix}
\quad [\text{кв. м}]
$$

Стоимость аренды:

$$
\vec{p}_{\text{реал}} =
\begin{pmatrix}
40 \\
48.46 \\
38 \\
77
\end{pmatrix}
\quad [\text{тыс. руб}]
$$

Теперь вектор арендной платы не выражается линейно через векторы площадей.


Изобразим данные геометрически. Так как векторы четырёхмерные, мы не сможем получить корректное геометрическое решение. Однако можно получить условное графическое представление, достаточное для решения задачи.

Векторы общей и жилой площади лежат в некоторой плоскости, обозначенной синим цветом. Вектор $\vec p$ из первого условия задачи линейно выражается через них, а значит, лежит в той же плоскости. 

Вектор $\vec p_{\text{ реал}}$ выразить через векторы площадей уже нельзя. Значит, вектор не лежит в синей плоскости

![image.png](attachment:image.png)

Красный вектор $\vec{n}$ как разница между $\vec{p}_{\text{реал}}$ и $\vec{p}$ символизирует влияние других, внешних, факторов на стоимость аренды. Вычислим его координаты и найдём скалярное произведение с вектором $\vec{p}$:

$$
\vec{n} = \vec{p}_{\text{реал}} - \vec{p} =
\begin{pmatrix}
40 \\
48.46 \\
38 \\
77
\end{pmatrix}
-
\begin{pmatrix}
39 \\
50 \\
38 \\
77
\end{pmatrix}
=
\begin{pmatrix}
1 \\
-1.54 \\
0 \\
0
\end{pmatrix}.
$$

Скалярное произведение:

$$
(\vec{p}, \vec{n}) = 1 \cdot 39 + (-1.54) \cdot 50 + 0 \cdot 38 + 0 \cdot 77 = 0.
$$

Скалярное произведение равно нулю. Это значит, что угол между векторами $\vec{p}$ и $\vec{n}$ равен 90 градусов, то есть $\vec{p} \perp \vec{n}$. 

Говорят: вектор $\vec{p}$ является ортогональной проекцией вектора $\vec{p}_{\text{реал}}$ на плоскость.


#### Что это значит для нас? 

Это значит, что среди всех возможных линейных комбинаций векторов общей и жилой площади наше изначальное $\vec{p}_{\text{реал}}$ — наилучший прогноз арендной платы. 

Потому что ортогональная проекция по определению является вектором с ближайшим расстоянием к вектору, который проецируется.

Другими словами, если другой информации нет, то 60 тысяч рублей, которые мы получили в первом условии задачи, — и есть наш лучший прогноз стоимости аренды новой квартиры.


Теперь кульминация задачи, которую мы только что решили.

На самом деле, решая данную задачу, мы с вами только что построили простейшую **модель линейной регрессии в векторном виде**. Давайте посмотрим на задачу под другим углом.

У нас было:
- два вектора $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$ — признаки (факторы), которые описывают объекты в данных;
- вектор $\vec{p}_{\text{реал}}$ — целевой признак, который мы пытаемся предсказать.

Мы построили такую линейную комбинацию $\vec{p}$ из векторов $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$, при которой ошибка между вектором и линейной комбинацией 

$$
\vec{e} = \vec{p}_{\text{реал}} - \vec{p}
$$

была бы минимальной.

Коэффициенты линейной комбинации $\omega_1$ и $\omega_2$ — это коэффициенты линейной регрессии (правда, в классической линейной регрессии есть ещё коэффициент добавочного смещения $\omega_0$, но эту задачу мы решили без его участия).


❓ У вас мог возникнуть вопрос: как ищутся коэффициенты линейной комбинации $\omega_1$ и $\omega_2$? Не искать же их полным перебором.

На этот вопрос в своё время ответил Гаусс и создал **метод наименьших квадратов (МНК)**. Мы познакомимся с МНК поближе после рассмотрения **матриц и матричных преобразований**.


### Задача 3 - добавляем условие

Пусть появилась дополнительная информация — нежилая площадь.

Позволит ли она улучшить прогноз по аренде новой квартиры?

### Решение

Вектор общих площадей:

$$
\vec{s}_{\text{общ}} =
\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}
\quad [\text{кв. м}]
$$

Вектор жилых площадей:

$$
\vec{s}_{\text{жил}} =
\begin{pmatrix}
24 \\
32 \\
20 \\
48
\end{pmatrix}
\quad [\text{кв. м}]
$$

Вектор нежилых площадей:

$$
\vec{s}_{\text{неж}} =
\begin{pmatrix}
9 \\
10 \\
13 \\
17
\end{pmatrix}
\quad [\text{кв. м}]
$$

Стоимость аренды:

$$
\vec{p}_{\text{реал}} =
\begin{pmatrix}
40 \\
48.46 \\
38 \\
77
\end{pmatrix}
\quad [\text{тыс. руб}]
$$


Нежилая площадь является разностью общей и жилой, а значит, лежит в той же плоскости. То есть вектор $\vec{s}_{\text{неж}}$ линейно выражается через векторы $\vec{s}_{\text{общ}}$ и $\vec{s}_{\text{жил}}$.

$$
\vec{s}_{\text{неж}} =
\begin{pmatrix}
9 \\
10 \\
13 \\
17
\end{pmatrix}
=
\vec{s}_{\text{общ}} - \vec{s}_{\text{жил}} =
\begin{pmatrix}
33 \\
42 \\
33 \\
65
\end{pmatrix}
-
\begin{pmatrix}
24 \\
32 \\
20 \\
48
\end{pmatrix}.
$$

А это значит, что проекция $\vec{p}_{\text{реал}}$ на эту плоскость не поменяется, то есть и наилучший прогноз останется без изменений.


![image.png](attachment:image.png)

❗️ Линейные комбинации факторов не добавляют точности прогнозу и, как мы увидим позже, сильно портят вычисления при построении линейных регрессий. Именно поэтому вопрос о линейной зависимости векторов имеет крайне важное значение при построении регрессий.

