# Сессионное задание. Линейная алгебра

In [1]:
import pandas as pd
import numpy as np

apartments_DF = pd.DataFrame({
    '1.Комнаты': [3, 1, 2, 3, 1],
    '2.Площадь': [51, 30, 45, 55, 45],
    '3.Этаж': [3, 1, 2, 1, 3],
    '4.Центр': [0, 0, 0, 0, 1],
    '5.Спальный 1': [1, 1, 1, 1, 0],
    '6.Спальный 2': [0, 0, 0, 0, 0],
    '7. Цена': [2200, 1600, 1900, 2000, 4500]
})
print(apartments_DF)

   1.Комнаты  2.Площадь  3.Этаж  4.Центр  5.Спальный 1  6.Спальный 2  7. Цена
0          3         51       3        0             1             0     2200
1          1         30       1        0             1             0     1600
2          2         45       2        0             1             0     1900
3          3         55       1        0             1             0     2000
4          1         45       3        1             0             0     4500


## Задание 1. Ассоциативность умножения матриц
Прежде чем строить модель для предсказания цен, посмотрите, как устроены данные. Мы уже представили их в виде таблицы, но для дальнейшей работы их нужно перевести в матричную форму.
- Пусть $X$ - это матрица признаков. Её размерность: 3x3. Возьмем 3 первые квартиры и 3 признака: «Комнаты», «Площадь» и «Этаж».
- Пусть $Y$ — это вектор-столбец цен для этих трех квартир. Его размерность: 3x1.

В регрессии вы будете часто встречаться с выражением вида:
$$(X^T X)^{-1}X^TY$$
Оно включает несколько последовательных умножений матриц и векторов. Но порядок группировки этих операций может влиять на вычислительную эффективность.

Задача:
1. Вычислите результат умножения $X^T (X Y)$.
2. Выполните вычисления двумя способами и сравните количество скалярных операций (умножений и сложений):
    - Способ 1 (скобки справа): сначала вычислите $u = X Y$, затем вычислите $X^T u$. ($u$ - для промежуточных вычислений)
    - Способ 2 (скобки слева): сначала вычислите $M = X^T X$, затем вычислите $M Y$. ($M$ - для промежуточных вычислений)
3. Сравните количество скалярных операций в каждом способе.
4. Сделайте вывод: почему в задачах анализа данных важно выбирать порядок вычислений, если матрицы могут быть очень большими?

In [2]:
rooms = apartments_DF.values.T[0][:3]
area = apartments_DF.values.T[1][:3]
floors = apartments_DF.values.T[2][:3]
cost = apartments_DF.values.T[6][:3]
X = np.array([rooms, area, floors]).T
Y = np.array(cost)

### Первый способ
$$
X =
\begin{bmatrix}
3 & 51 & 3 \\
1 & 30 & 1 \\
2 & 45 & 2
\end{bmatrix},
Y =
\begin{bmatrix}
2200 \\
1600 \\
1900
\end{bmatrix}
$$

$$
u = XY = \begin{bmatrix} 3 & 51 & 3 \\ 1 & 30 & 1 \\ 2 & 45 & 2 \end{bmatrix} \begin{bmatrix} 2200 \\ 1600 \\ 1900 \end{bmatrix} = \begin{bmatrix} 3 * 2200 + 51 * 1600 + 3 * 1900 \\ 1 * 2200 + 30 * 1600 + 1 * 1900 \\ 2 * 2200 + 45 * 1600 + 2 * 1900 \end{bmatrix} = \begin{bmatrix} 6600 + 81600 + 5700 \\ 2200 + 48000 + 1900 \\ 4400 + 72000 + 3800 \end{bmatrix} = \begin{bmatrix} 93900 \\ 52100 \\ 80200 \end{bmatrix}
$$

$$
X^Tu = X^T(XY) =
\begin{bmatrix}
3 & 1 & 2 \\
51 & 30 & 45 \\
3 & 1 & 2
\end{bmatrix}
\begin{bmatrix}
93900 \\
52100 \\
80200
\end{bmatrix} =
\begin{bmatrix}
3 * 93900 + 1 * 52100 + 2 * 80200 \\
51 * 93900 + 30 * 52100 + 45 * 80200 \\
3 * 93900 + 1 * 52100 + 2 * 80200
\end{bmatrix} =
\begin{bmatrix}
281700 + 52100 + 160400 \\
4788900 + 1563000 + 3609000 \\
281700 + 52100 + 160400
\end{bmatrix} =
\begin{bmatrix}
494200 \\
9960900 \\
494200
\end{bmatrix}
$$

In [3]:
u = X@Y
print(X.T@u)

[ 494200 9960900  494200]


#### Количество скалярных операций
$\dim(X) = (3,3)$

$\dim(Y) = (3,1)$

$\dim(u) = (3,1)$ # по правилу произведения матриц ($X_n\text{строк} * Y_m\text{столбцов}$)

Число умножений:
$3 * 3 * 1 = 9$ # $p * q * r$

Число сложений:
$3 * 1 * (3 - 1) = 6$ # $p * r * (q - 1)$,

где $p$ - кол-во строк $u$,
    $q$ - кол-во столбцов $X$ и строк $Y$,
    $r$ - кол-во столбцов $u$

### Второй способ
$$
X =
\begin{bmatrix}
3 & 51 & 3 \\
1 & 30 & 1 \\
2 & 45 & 2
\end{bmatrix},
Y =
\begin{bmatrix}
2200 \\
1600 \\
1900
\end{bmatrix}
$$

$$
M = X^TX =
\begin{bmatrix}
3  & 1  & 2 \\
51 & 30 & 45 \\
3  & 1  & 2
\end{bmatrix}
\begin{bmatrix}
3  & 51  & 3 \\
1  & 30  & 1 \\
2  & 45  & 2
\end{bmatrix} =
\begin{bmatrix}
3  * 3 + 1  * 1 + 2  * 2 & 3  * 51 + 1  * 30 + 2  * 45 & 3  * 3 + 1  * 1 + 2  * 2 \\
51 * 3 + 30 * 1 + 45 * 2 & 51 * 51 + 30 * 30 + 45 * 45 & 51 * 3 + 30 * 1 + 45 * 2 \\
3  * 3 + 1  * 1 + 2  * 2 & 3  * 51 + 1  * 30 + 2  * 45 & 3  * 3 + 1  * 1 + 2  * 2
\end{bmatrix} =
\begin{bmatrix}
9 + 1 + 4 & 153 + 30 + 90 & 9 + 1 + 4 \\
153 + 30 + 90 & 2601 + 900 + 2025 & 153 + 30 + 90 \\
9 + 1 + 4 & 153 + 30 + 90 & 9 + 1 + 4
\end{bmatrix} =
\begin{bmatrix}
14 & 273 & 14 \\
273 & 5526 & 273 \\
14 & 273 & 14
\end{bmatrix}
$$

$$
MY = (X^TX)Y =
\begin{bmatrix}
14 & 273 & 14 \\
273 & 5526 & 273 \\
14 & 273 & 14
\end{bmatrix}
\begin{bmatrix}
2200 \\
1600 \\
1900
\end{bmatrix} =
\begin{bmatrix}
14  * 2200 + 273  * 1600 + 14  * 1900 \\
273 * 2200 + 5526 * 1600 + 273 * 1900 \\
14  * 2200 + 273  * 1600 + 14  * 1900
\end{bmatrix} =
\begin{bmatrix}
30800  + 436800  + 26600 \\
600600 + 8841600 + 518700 \\
30800  + 436800  + 26600
\end{bmatrix} =
\begin{bmatrix}
494200 \\
9960900 \\
494200
\end{bmatrix}
$$

In [4]:
M = X.T@X
print(M@Y)

[ 494200 9960900  494200]


#### Количество скалярных операций
$\dim(X) = (3,3)$

$\dim(X^T) = (3,3)$

$\dim(M) = (3,3)$ # по правилу произведения матриц ($X_n\text{строк} * X^T_m\text{столбцов}$)

Число умножений:
$3 * 3 * 3 = 27$ # $p * q * r$

Число сложений:
$3 * 3 * (3 - 1) = 18$ # $p * r * (q - 1)$,

где $p$ - кол-во строк $M$,
    $q$ - кол-во столбцов $X$ и строк $X^T$,
    $r$ - кол-во столбцов $M$

### Вывод
В реальных задачах анализа данных $n$ (количество наблюдений/количество строк $X$) может быть огромным (миллионы строк), $d$ (количество признаков/количество столбцов $X$) — десятки или сотни, а $m$ (количество столбцов $Y$) — может быть также большим. В такой ситуации Способ 2 окажется во много раз быстрее, так как он избегает операции со сложностью $O(n*d*m)$.

## Задание 2. Связь признаков с ценой
В реальной жизни дата-сайентист всегда спрашивает: «Какие факторы сильнее всего влияют на результат?» Для вас результат — это цена квартиры, а признаки — её характеристики (площадь, этаж, район и так далее).

Для числовых признаков (как «Площадь», «Комнаты», «Этаж») корреляция Пирсона измеряет силу линейной зависимости с ценой.
Для бинарных признаков (как «Центр», «Спальный 1», «Спальный 2») коэффициент корреляции Пирсона вычисляется точно по той же формуле, но в статистике такой случай имеет специальное название — точечно-бисериальная корреляция. Она показывает, насколько наличие характеристики (значение 1) связано с изменением среднего значения цены по сравнению с её отсутствием (значение 0).

Важно: Поскольку вычисления проводятся по одинаковой формуле, вы можете использовать одну и ту же функцию для расчета корреляции всех признаков с ценой.

Чтобы ответить на этот вопрос, примените корреляцию. Она покажет, насколько признак связан с ценой:
- сильная положительная корреляция → рост признака увеличивает цену;
- слабая или нулевая → признак почти не влияет;
- отрицательная → признак растёт, а цена падает.

**Задача:**
1. Составьте матрицу признаков $X$ и вектор цен $Y$.
2. Для каждого признака вычислите коэффициент корреляции с ценой.
3. Определите признак с наибольшей и наименьшей связью.
4. Объясните, почему выделение таких признаков важно для предсказательной модели.
5. Для бинарных признаков дайте содержательную интерпретацию: что означает положительный или отрицательный знак корреляции?

**Дополнительное задание***
Для одного из бинарных признаков проверьте свой вывод: сравните среднюю цену для квартир, где признак равен 1, и для квартир, где признак равен 0.

In [5]:
print(apartments_DF)

   1.Комнаты  2.Площадь  3.Этаж  4.Центр  5.Спальный 1  6.Спальный 2  7. Цена
0          3         51       3        0             1             0     2200
1          1         30       1        0             1             0     1600
2          2         45       2        0             1             0     1900
3          3         55       1        0             1             0     2000
4          1         45       3        1             0             0     4500


In [6]:
X = apartments_DF.values.T[0:6].T
Y = apartments_DF.values.T[6]

rooms = X.T[0]
area = X.T[1]
floors = X.T[2]
downtown = X.T[3]
neighborhood_1 = X.T[4]
neighborhood_2 = X.T[5]

def standartization(vector):
    if np.all(vector == 0):
        return f'Вектор {vector} является нулевым'

    vector_cent = vector - np.mean(vector)
    module_vector = np.linalg.norm(vector_cent)
    return (f'Mean равно: {np.mean(vector)} \n'
            f'Cent равен: {vector_cent} \n'
            f'Модуль вектора равен: {module_vector} \n'
            f'Стандартизированный вектор равен: {vector_cent / module_vector}')

### 2.1 Матрица признаков и вектор цен
$$
X =
\begin{bmatrix}
3 & 51 & 3 & 0 & 1 & 0 \\
1 & 30 & 1 & 0 & 1 & 0 \\
2 & 45 & 2 & 0 & 1 & 0 \\
3 & 55 & 1 & 0 & 1 & 0 \\
1 & 45 & 3 & 1 & 0 & 0
\end{bmatrix},
Y =
\begin{bmatrix}
2200 \\
1600 \\
1900 \\
2000 \\
4500
\end{bmatrix}
$$

### 2.2 Вычисление коэффициента корреляции для каждого признака с ценой
#### Стандартизация векторов
Центрирование вектора:
$\vec{x}_{cent} = \vec{x} - \vec{x}_{mean}$

Нормирование вектора:
$\vec{x}_{st} =  \frac{\vec{x}_{cent}}{ \| \vec{x}_{cent} \| }$

---
#### Корреляция Пирсона
$c_{i j}= \operatorname{corr}\left(\vec{x}_i, \vec{x}_j\right)= \frac{\sum_{l=1}^n\left(x_{i l}-x_{i_{\text {mean }}}\right)\left(x_{j l}-x_{j_{\text {mean }}}\right)}{\sqrt{\sum_{l=1}^n\left(x_{i l}-x_{i_{\text {mean }}}\right)^2 \cdot \sum_{l=1}^n\left(x_{j l}-x_{j_{\text {mean }}}\right)^2}}$

#### Признак "Комнаты"
$\vec{X}_\text{rooms}^T = \begin{bmatrix} 3 & 1 & 2 & 3 & 1 \end{bmatrix}$:

$\vec{X}_\text{rooms mean} = \dfrac{3+1+2+3+1}{5} = \dfrac{10}{5} = 2$

$\vec{X}_\text{rooms cent} = \vec{X}_\text{rooms} - \vec{X}_\text{rooms mean} = \begin{bmatrix} 3 \\ 1 \\ 2 \\ 3 \\ 1 \end{bmatrix} - \begin{bmatrix} 2 \\ 2 \\ 2 \\ 2 \\ 2 \end{bmatrix} = \begin{bmatrix} 1 \\ -1 \\ 0 \\ 1 \\ -1 \end{bmatrix}$

$\| \vec{X}_\text{rooms cent} \| = \sqrt{1^2 + (-1)^2 + 0^2 + 1^2 + (-1)^2} = \sqrt{4} = 2$

$\vec{X}_\text{rooms st} = \dfrac{\vec{X}_\text{rooms cent}}{\| \vec{X}_\text{rooms cent} \|} = \dfrac{1}{\| \vec{X}_\text{rooms cent} \|} \vec{X}_\text{rooms cent} = \dfrac{1}{2} \begin{bmatrix} 1 \\ -1 \\ 0 \\ 1 \\ -1 \end{bmatrix} = \begin{bmatrix} 0.5 \\ -0.5 \\ 0 \\ 0.5 \\ -0.5
 \end{bmatrix}$

$C_\text{rooms\_Y} = \dfrac{(\vec{X}_\text{rooms cent}, \vec{Y}_\text{cent})}{\| \vec{X}_\text{rooms cent} \| \| \vec{Y}_\text{cent} \|} = \dfrac{\begin{bmatrix} 1 \\ -1 \\ 0 \\ 1 \\ -1 \end{bmatrix} \begin{bmatrix}-240 \\ -840 \\ -540 \\ -440 \\ 2060\end{bmatrix}}{2 * 2343.502} = \dfrac{1*(-240)+(-1)*(-840)+0*(-540)+1*(-440)+(-1)*2060}{2 * 2343.502} = \dfrac{-950\cancel{-1900}}{\cancel{2} * 2343.502} \approx{-0.405} = \begin{bmatrix} 1 & -0.405 \\ -0.405 & 1 \end{bmatrix}$

#### Признак "Площадь"
$X_\text{area}^T = \begin{bmatrix} 51 & 30 & 45 & 55 & 45 \end{bmatrix}$

$\vec{X}_\text{area mean} = 45.2$

$\vec{X}_\text{area cent} = \begin{bmatrix}5.8 \\ -15.2 \\ -0.2 \\  9.8 \\ -0.2\end{bmatrix}$

$\| \vec{X}_\text{area cent} \| = 18.995$

$\vec{X}_\text{area st} = \begin{bmatrix}0.305 \\ -0.800 \\ -0.011 \\ 0.516 \\ -0.011\end{bmatrix}$

$C_\text{area\_Y} \approx{0.152} = \begin{bmatrix} 1 & 0.152 \\ 0.152 & 1 \end{bmatrix}$

#### Признак "Этаж"
$X_\text{floors}^T = \begin{bmatrix} 3 & 1 & 2 & 1 & 3 \end{bmatrix}$

$\vec{X}_\text{floors mean} = 2$

$\vec{X}_\text{floors cent} = \begin{bmatrix}1 \\ -1 \\ 0 \\  -1 \\ 1\end{bmatrix}$

$\| \vec{X}_\text{floors cent} \| = 2$

$\vec{X}_\text{floors st} = \begin{bmatrix}0.5 \\ -0.5 \\ 0 \\ -0.5 \\ 0.5\end{bmatrix}$

$C_\text{floors\_Y} \approx{0.661} = \begin{bmatrix} 1 & 0.661 \\ 0.661 & 1 \end{bmatrix}$

#### Признак "Центр"
$X_\text{downtown}^T = \begin{bmatrix} 0 & 0 & 0 & 0 & 1 \end{bmatrix}$

$\vec{X}_\text{downtown mean} = 0.2$

$\vec{X}_\text{downtown cent} = \begin{bmatrix}-0.2 \\ -0.2 \\ -0.2 \\  -0.2 \\ 0.8\end{bmatrix}$

$\| \vec{X}_\text{downtown cent} \| = 0.894$

$\vec{X}_\text{downtown st} = \begin{bmatrix}-0.224 \\ -0.224 \\ -0.224 \\ -0.224 \\ 0.894\end{bmatrix}$

$C_\text{downtown\_Y} \approx{0.983} = \begin{bmatrix} 1 & 0.983 \\ 0.983 & 1 \end{bmatrix}$

#### Признак "Спальный 1"
$X_\text{neighborhood 1}^T = \begin{bmatrix} 1 & 1 & 1 & 1 & 0 \end{bmatrix}$

$\vec{X}_\text{neighborhood 1 mean} = 0.8$

$\vec{X}_\text{neighborhood 1 cent} = \begin{bmatrix}0.2 \\ 0.2 \\ 0.2 \\ 0.2 \\ -0.8\end{bmatrix}$

$\| \vec{X}_\text{neighborhood 1 cent} \| = 0.894$

$\vec{X}_\text{neighborhood 1 st} = \begin{bmatrix}0.224 \\ 0.224 \\ 0.224 \\ 0.224 \\ -0.894\end{bmatrix}$

$C_\text{neighborhood 1\_Y} \approx{-0.983} = \begin{bmatrix} 1 & -0.983 \\ -0.983 & 1 \end{bmatrix}$

#### Признак "Спальный 2"
$X_\text{neighborhood 2}^T = \begin{bmatrix} 0 & 0 & 0 & 0 & 0 \end{bmatrix}$

$\vec{X}_\text{neighborhood 2 mean} = 0$

$\vec{X}_\text{neighborhood 2 cent} = \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\end{bmatrix}$

$\| \vec{X}_\text{neighborhood 2 cent} \| = 0$

$\vec{X}_\text{neighborhood 2 st} = 0$

$C_\text{neighborhood 2\_Y} = 0$

#### Целевой признак "Цена"
$Y^T = \begin{bmatrix} 2200 & 1600 & 1900 & 2000 & 4500 \end{bmatrix}$

$\vec{Y}_\text{mean} = 2440$

$\vec{Y}_\text{cent} = \begin{bmatrix}-240 \\ -840 \\ -540 \\ -440 \\ 2060\end{bmatrix}$

$\| \vec{Y}_\text{cent} \| = 2343.502$

$\vec{Y}_\text{st} = \begin{bmatrix}-0.102 \\ -0.358 \\ -0.230 \\ -0.188 \\ 0.879\end{bmatrix}$

### 2.3 Определите признак с наибольшей и наименьшей связью

$C_\text{neighborhood 1\_Y} \approx{-0.983} = \begin{bmatrix} 1 & -0.983 \\ -0.983 & 1 \end{bmatrix}$ - Этот признак имеет наибольшую обратную связь с целевым параметром

$C_\text{downtown\_Y} \approx{0.983} = \begin{bmatrix} 1 & 0.983 \\ 0.983 & 1 \end{bmatrix}$ - Этот признак имеет наибольшую прямую связь с целевым параметром

$C_\text{area\_Y} \approx{0.152} = \begin{bmatrix} 1 & 0.152 \\ 0.152 & 1 \end{bmatrix}$ - Этот признак имеет наименьшую связь с целевым параметром

\* Признак "Спальный 2" не имеет вообще никакой связи с целевым параметром


### 2.4 - 2.5 Объясните, почему выделение таких признаков важно для предсказательной модели; Для бинарных признаков дайте содержательную интерпретацию: что означает положительный или отрицательный знак корреляции?
Выделение этих признаков важно т.к., часть из них, которые имеют наибольшую связь с целевым параметром, интересны для нас в качестве выбора для построения модели. Например, интерпретация признака "Центр" предельно ясна: если квартира в центре, то она дороже, у признака "Спальный 1" обратный смысл, но сравнение корреляционных матриц этих двух признаков подсказывает нам также и о том, какой признак выбрать/отбросить и самое главное - использовать их в одной и той же модели нельзя! Эти два признака являются линейно зависимыми и представляют собой одну и ту же переменную. Модель оказывается в ситуации, когда существует бесконечное количество комбинаций коэффициентов w1 и w2, которые дадут одинаковый прогноз.
 Признак "Площадь" можно просто отбросить или оставить - ожидая, что на "боевых" данных скорее всего покажет себя лучше.

### Дополнительное задание со *
Пусть бинарным признаком, который мы выбрали, будет признак "Центр". Составим матрицу $Z$ из признаков "Центр" и "Цена". Тогда средняя цена квартир имеющих значение 0 по нему будет равно:


In [7]:
Z = apartments_DF.values.T[3::3]
Z_average_price = np.sum(Z[1][:-1]) // len(Z[1][:-1])
Z.T

array([[   0, 2200],
       [   0, 1600],
       [   0, 1900],
       [   0, 2000],
       [   1, 4500]])

In [8]:
f'Среднаяя цена квартир со значением 0 по признаку "Центр": {Z_average_price}'

'Среднаяя цена квартир со значением 0 по признаку "Центр": 1925'

Квартира имеющая значение 1 по признаку "Центр" всего одна и ее цена равна 4500

## Задание 3. Зависимость признаков
Следующий шаг — понять, а не дублируют ли признаки друг друга.

Например, площадь и количество комнат обычно связаны. Если вы включите оба признака, модель может быть перегружена лишней информацией и станет хуже работать (это называется мультиколлинеарность).

Линейная алгебра помогает проверить это с помощью ранга корреляционной матрицы.

Задача:

1. Постройте корреляционную матрицу признаков.
2. Используйте только числовые признаки: Комнаты, Площадь, Этаж.
3. Найдите её ранг.
4. Объясните: если ранг меньше числа признаков, значит, некоторые из них линейно зависимы — какие риски это создаёт при построении модели?

### 3.1 - 3.2 Построение корреляционноой матрицы признаков используя только числовые признаки: Комнаты, Площадь, Этаж.
$C_\text{12,21} = 0.816$

$C_\text{13,31} = 0$

$C_\text{23,32} = 0.286$

$C = \begin{bmatrix}
1 & 0.816 & 0 \\
0.816 & 1 & 0.286 \\
0 & 0.286 & 1
\end{bmatrix}
$

In [9]:
data = np.column_stack([rooms, area, floors])
corr_matrix = np.corrcoef(data, rowvar=False)
rank = np.linalg.matrix_rank(corr_matrix)
det = np.linalg.det(corr_matrix)
data

array([[ 3, 51,  3],
       [ 1, 30,  1],
       [ 2, 45,  2],
       [ 3, 55,  1],
       [ 1, 45,  3]])

In [10]:
corr_matrix

array([[1.        , 0.81601555, 0.        ],
       [0.81601555, 1.        , 0.2895539 ],
       [0.        , 0.2895539 , 1.        ]])

In [11]:
rank

np.int64(3)

In [12]:
det

np.float64(0.2502771618625277)

### 3.3 - 3.4 Найти ранг корреляционной матрицы. Объяснить: если ранг меньше числа признаков, значит, некоторые из них линейно зависимы — какие риски это создаёт при построении модели?
$rk(C) = 3$

Если ранг меньше числа признаков, то это создает риск неусточивости при которой коэффициенты сильно колеблются, это может привести к проблемам с обучением, а модель будет хуже работать на новых данных.

В данно случае ранг матрицы равен 3, но для улучшения интерпретируемости стоит рассмотреть удаление одного из двух признаков: "Площадь" или "Комнаты", т.к. коэффициент корреляции $C > 0.8$

## Задание 4. Обратная матрица
Чтобы аналитически найти коэффициенты регрессии, нужно вычислить формулу:
$$\hat{\beta}=(X^T X)^{-1} X^T Y$$

Здесь ключевым элементом является **обратная матрица**. Но обратная матрица существует не всегда. Если её нет, значит, матрица признаков содержит лишние или дублирующиеся факторы.

Задача:

1. Сформируйте небольшую матрицу признаков $X$ размером 3x2 (3 квартиры, 2 признака, например, «Комнаты» и «Площадь»).
2. Вычислите матрицу $A=X^T X$. Это квадратная матрица размером 2x2.
3. Вычислите определитель матрицы $A$.
4. Если $det(A) = 0$: объясните, что это означает для признаков в матрице $X$ и почему в этом случае нельзя найти коэффициенты регрессии с помощью формулы $\hat{\beta} = (X^T X)^{-1} X^T Y$.
5. Если $det(A) != 0$: найдите обратную матрицу $A^{-1}$ вручную, используя формулу для матрицы 2x2.

$X = \begin{bmatrix}
3 & 51 \\
1 & 30 \\
2 & 45 \\
\end{bmatrix}
$

$A = X^TX = \begin{bmatrix} 3 & 1 & 2 \\ 51 & 30 & 45 \end{bmatrix} \begin{bmatrix} 3 & 51 \\ 1 & 30 \\ 2 & 45 \end{bmatrix} = \begin{bmatrix} 3 * 3 + 1 * 1 + 2 * 2 & 51 * 3 + 30 * 1 + 45 * 2 \\ 3 * 51 + 1 * 30 + 2 * 45 & 51 * 51 + 30 * 30 + 45 *45 \end{bmatrix} = \begin{bmatrix} 14 & 273 \\ 273 & 5526 \end{bmatrix}$

$det(A) = 14 * 5526 - 273 * 273 = 77364 - 74529 = 2835$

$X^\text{-1} = \dfrac{1}{2835} \begin{bmatrix} 5526 & -273 \\ -273 & 14 \end{bmatrix} = \begin{bmatrix} 1.949 & -0.096 \\ -0.096 & 0.005 \end{bmatrix}$

In [13]:
X = np.column_stack([apartments_DF.T.values[0][:3], apartments_DF.T.values[1][:3]])
A = X.T@X
X

array([[ 3, 51],
       [ 1, 30],
       [ 2, 45]])

In [14]:
A

array([[  14,  273],
       [ 273, 5526]])

In [15]:
np.linalg.det(A)

np.float64(2834.999999999992)

In [16]:
np.linalg.inv(A)

array([[ 1.94920635, -0.0962963 ],
       [-0.0962963 ,  0.00493827]])

### 4.4
Если определитель матрицы равен нулю, то это будет означать, что матрица вырожденна - строки и столбцы являются линейно зависимыми/выражающимися друг через друга и, соответственно, обратной матрицы для нее не существует. Это может привести к большим вычислительным ошибкам, которые будут незаметны.

## Задание 5. Построение модели методом OLS
Теперь можно собрать всё воедино. Цель дата-сайентиста — построить модель, которая предсказывает цену. Для этого используйте метод наименьших квадратов (OLS):

$$\hat{\beta} = (X^T X)^{-1} X^T Y$$

**Задача:**

1. Сформируйте матрицу признаков $X$ и вектор цен $Y$.
    - Возьмите все 5 квартир из таблицы.
    - Используйте два признака: Площадь и Центр.
    - Обязательно добавьте к матрице $X$ первый столбец, состоящий из единиц, для расчета свободного члена модели $(\beta_0)$.
2. Вычислите матрицу $A = X^T X$.
3. Убедитесь, что матрица $A$ обратима (вычислите её определитель).
4. Найдите обратную матрицу $A^{-1}$.
5. Вычислите вектор коэффициентов $\hat{\beta}$ по формуле:
$$\hat{\beta} = (X^T X)^{-1} X^T Y$$
6. Интерпретируйте полученные коэффициенты:

    $\beta_0$ (свободный член):
    - Какую цену модель предсказывает для квартиры с нулевой площадью не в центре?
    - Объясните, насколько эта интерпретация осмыслена.

    $\beta_1$ (коэффициент при 'Площадь'):
    - На сколько условных единиц в среднем увеличивается цена при увеличении площади на 1 кв.м.?

    $\beta_2$ (коэффициент при 'Центр'):
    - На сколько условных единиц в среднем отличается цена квартиры в центре от аналогичной квартиры не в центре при одинаковой площади?

### 5.1 Формирование матрицы признаков $X$ и вектора цен $Y$
$$X = \begin{bmatrix} 1 & 51 & 0 \\ 1 & 30 & 0 \\ 1 & 45 & 0 \\ 1 & 55 & 0 \\ 1 & 45 & 1 \end{bmatrix}, \ \  Y = \begin{bmatrix} 2200 \\ 1600 \\ 1900 \\ 2000 \\ 4500 \end{bmatrix}$$

In [30]:
X = np.column_stack([np.ones(len(apartments_DF.T.values[1])), apartments_DF.T.values[1], apartments_DF.T.values[3]])
Y = apartments_DF.T.values[6]
apartments_DF.values

array([[   3,   51,    3,    0,    1,    0, 2200],
       [   1,   30,    1,    0,    1,    0, 1600],
       [   2,   45,    2,    0,    1,    0, 1900],
       [   3,   55,    1,    0,    1,    0, 2000],
       [   1,   45,    3,    1,    0,    0, 4500]])

In [31]:
X

array([[ 1., 51.,  0.],
       [ 1., 30.,  0.],
       [ 1., 45.,  0.],
       [ 1., 55.,  0.],
       [ 1., 45.,  1.]])

In [32]:
Y

array([2200, 1600, 1900, 2000, 4500])

### 5.2 Вычисление матрицы $A = X^T X$

$A = X^TX = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 \\ 51 & 30 & 45 & 55 & 45 \\ 0 & 0 & 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 51 & 0 \\ 1 & 30 & 0 \\ 1 & 45 & 0 \\ 1 & 55 & 0 \\ 1 & 45 & 1 \end{bmatrix} = \begin{bmatrix} 5 & 226 & 1 \\ 226 & 10576 & 45 \\ 1 & 45 & 1 \end{bmatrix}$

In [33]:
A = X.T@X
A

array([[5.0000e+00, 2.2600e+02, 1.0000e+00],
       [2.2600e+02, 1.0576e+04, 4.5000e+01],
       [1.0000e+00, 4.5000e+01, 1.0000e+00]])

### 5.3 Вычисление $det(A)$

$det(A) = det(\begin{bmatrix} 5 & 226 & 1 \\ 226 & 10576 & 45 \\ 1 & 45 & 1 \end{bmatrix}) = 5 \begin{bmatrix} 10576 & 45 \\ 45 & 1 \end{bmatrix} - 226 \begin{bmatrix} 226 & 45 \\ 1 & 1 \end{bmatrix} + 1 \begin{bmatrix} 226 & 10576 \\ 1 & 45 \end{bmatrix} = 5(10576 - 2025) - 226(226 - 45) + 1(10170 - 10576) = 42755 - 40906 - 406 = 1443$

In [34]:
np.linalg.det(A)

np.float64(1442.999999999999)

### 5.4 Найти обратную матрицу $A^{-1}$
* Позволю себе опустить расчет матрицы миноров $M$ (но считал я все сам, честное слово)

$M = \begin{bmatrix} 8551 & \mathbin{\color{red}181} & -406 \\ \mathbin{\color{red}181} & 4 & \mathbin{\color{red}-1} \\ -406 & \mathbin{\color{red}-1} & 1804 \end{bmatrix}$ - Для нахождения матрицы алгебраических дополнений меняем знак у выделенных миноров

$A_. = \begin{bmatrix} 8551 & -181 & -406 \\ -181 & 4 & 1 \\ -406 & 1 & 1804 \end{bmatrix}$

$A^\text{-1} = \dfrac{1}{1443} \begin{bmatrix} 8551 & -181 & -406 \\ -181 & 4 & 1 \\ -406 & 1 & 1804 \end{bmatrix} = \begin{bmatrix} \dfrac{8551}{1443} & \dfrac{-181}{1443} & \dfrac{-406}{1443} \\ \dfrac{-181}{1443} & \dfrac{4}{1443} & \dfrac{1}{1443} \\ \dfrac{-406}{1443} & \dfrac{1}{1443} & \dfrac{1804}{1443} \end{bmatrix}$

In [37]:
np.linalg.inv(A)

array([[ 5.92584893e+00, -1.25433125e-01, -2.81358281e-01],
       [-1.25433125e-01,  2.77200277e-03,  6.93000693e-04],
       [-2.81358281e-01,  6.93000693e-04,  1.25017325e+00]])

### 5.5 Вычисление вектора коэффициентов $\hat{\beta}$ по формуле: $\hat{\beta} = (X^T X)^{-1} X^T Y$

$X^TY = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 \\ 51 & 30 & 45 & 55 & 45 \\ 0 & 0 & 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 2200 \\ 1600 \\ 1900 \\ 2000 \\ 4500 \end{bmatrix} = \begin{bmatrix} 12200 \\ 558200 \\ 4500 \end{bmatrix}$

$\hat{\beta} = \begin{bmatrix} \dfrac{8551}{1443} & \dfrac{-181}{1443} & \dfrac{-406}{1443} \\ \dfrac{-181}{1443} & \dfrac{4}{1443} & \dfrac{1}{1443} \\ \dfrac{-406}{1443} & \dfrac{1}{1443} & \dfrac{1804}{1443} \end{bmatrix} \begin{bmatrix} 12200 \\ 558200 \\ 4500 \end{bmatrix} = \begin{bmatrix} 1012.474 \\ 20.166 \\ 2580.042 \end{bmatrix}$

In [44]:
X.T@Y

array([ 12200., 558200.,   4500.])

In [50]:
np.linalg.inv(A)@X.T@Y

array([1012.47401247,   20.16632017, 2580.04158004])

### 5.6 Интерпретация полученных коэффициентов:
1. При $\beta_0$ модель предсказывает цену в размере $1012.474$ для квартиры с нулевой площадью и расположенной не в центре. Физически это неосмысленно, но свободный член обеспечивает "базовый уровень" цены - это можно интерпертировать как минимальную стоимость без учета площади и расположения;
2. При $\beta_1$ цена квартиры увеличивается в среднем на $20.166$/кв.м. Это происходит при прочих равных условиях (при одинаковом расположении относительно центра);
3. При $\beta_2 = 1$ квартира в центре будет стоить в среднем на $2580.042$ дороже, чем аналогичная квартира не в центре. Это различие сохраняется при одинаковой площади.