<a href="https://colab.research.google.com/github/AI-KPI/DLBookNotes/blob/main/2.2 Multiplying Matrices and Vectors/2.2 Multiplying Matrices and Vectors.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np

In [2]:
# Уникайте неточних плаваючих значень (наприклад, для зворотних матриць у крапковому добутку)
# Дивись https://stackoverflow.com/questions/24537791/numpy-matrix-inversion-rounding-errors
np.set_printoptions(suppress=True)

In [3]:
%%html
<style>
.pquote {
  text-align: left;
  margin: 40px 0 40px auto;
  width: 70%;
  font-size: 1.5em;
  font-style: italic;
  display: block;
  line-height: 1.3em;
  color: #5a75a7;
  font-weight: 600;
  border-left: 5px solid rgba(90, 117, 167, .1);
  padding-left: 6px;
}
.notes {
  font-style: italic;
  display: block;
  margin: 40px 10%;
}
img + em {
  text-align: center;
  display: block;
  color: gray;
  font-size: 0.9em;
  font-weight: 600;
}
</style>

$$
\newcommand\bs[1]{\boldsymbol{#1}}
$$

<span class='notes'>
    Цей матеріал є частиною курсу, що йде після глави 2 про лінійну алгебру з [Deep Learning Book] (http://www.deeplearningbook.org/) Гудфеллоу, І., Бенджо, Ю. та Курвіля, А. ( 2016). Він спрямований на підготовку чуття/малюнків/коду на мові python з математичних теорій і побудований так, як я розумію ці поняття. Ви можете подивитися на навчальний план у [вступній публікації] (https://hadrienj.github.io/posts/Deep-Learning-Book-Series-Introduction/).
</span>

# Вступ

Скалярний добуток є основним поняттям лінійної алгебри, а отже, машинного навчання та науки про дані. Ми розглянемо деякі властивості цієї операції. Після чого ми помітимо деякий зв'язок між матрицями та системами лінійних рівнянь.

# 2.2 Множення матриць і векторів

Стандартний спосіб множення матриць - це не множення кожного елемента однієї матриці з кожним елементом іншої (що називається * елементний продукт *), а обчислення суми добутків між рядками та стовпцями. Матричний добуток, який також називають ** скалярним добутком **, обчислюється таким чином:

<img src="images/dot-product.png" width="400" alt="Приклад обчислення скалярного добутоку між матрицею та вектором" title="Скалярний добуток між матрицею та вектором">
<em>Скалярний добуток матриці та вектора</em>

Кількість стовпців першої матриці має бути рівною кількості рядків другої матриці. Якщо розміри першої матриці ($ m \ times n $), друга матриця повинна мати форму ($ n \ times x $). Отримана матриця матиме форму ($ m \ times x $).

### Приклад 1.

Почнемо з множення матриці та вектор.

$$\bs{A} \bs{b} = \bs{C}$$

З $
\bs{A}=
\begin{bmatrix}
    1 & 2\\\\
    3 & 4\\\\
    5 & 6
\end{bmatrix}
$ та $\bs{b}=\begin{bmatrix}
    2\\\\
    4
\end{bmatrix}$.

Ми бачимо, що формула така:

$$
\begin{align*}
&\begin{bmatrix}
    A_{1,1} & A_{1,2} \\\\
    A_{2,1} & A_{2,2} \\\\
    A_{3,1} & A_{3,2}
\end{bmatrix}\times
\begin{bmatrix}
    B_{1,1} \\\\
    B_{2,1}
\end{bmatrix}=\\\\
&\begin{bmatrix}
    A_{1,1}B_{1,1} + A_{1,2}B_{2,1} \\\\
    A_{2,1}B_{1,1} + A_{2,2}B_{2,1} \\\\
    A_{3,1}B_{1,1} + A_{3,2}B_{2,1}
\end{bmatrix}
\end{align*}
$$

Ми отримаємо:

$$
\begin{align*}
&\begin{bmatrix}
    1 & 2 \\\\
    3 & 4 \\\\
    5 & 6
\end{bmatrix}
\begin{bmatrix}
    2 \\\\
    4
\end{bmatrix}=\\\\
&\begin{bmatrix}
    1 \times 2 + 2 \times 4 \\\\
    3 \times 2 + 4 \times 4 \\\\
    5 \times 2 + 6 \times 4
\end{bmatrix}=
\begin{bmatrix}
    10 \\\\
    22 \\\\
    34
\end{bmatrix}
\end{align*}
$$

Гарною звичкою є перевіряти розміри матриці, щоб побачити, що відбувається. У цьому прикладі ми бачимо, що форма $ \ bs {A} $ ($ 3 \times 2 $), а форма $ \ bs {b} $ - ($ 2 \times 1 $). Отже, розміри $ \ bs {C} $ є ($ 3 \times 1 $).

### З Numpy

Функція Numpy dot () може бути використана для обчислення матричного добутку (або скалярного добутку). Спробуємо відтворити останній приклад:

In [4]:
A = np.array([[1, 2], [3, 4], [5, 6]])
A

array([[1, 2],
       [3, 4],
       [5, 6]])

In [5]:
B = np.array([[2], [4]])
B

array([[2],
       [4]])

In [6]:
C = np.dot(A, B)
C

array([[10],
       [22],
       [34]])

Еквівалентно використанню методу `dot ()` масивів Numpy:

In [7]:
C = A.dot(B)
C

array([[10],
       [22],
       [34]])

### Приклад 2.

Множення двох матриць.

$$\bs{A} \times \bs{B} = \bs{C}$$

З:

$$\bs{A}=\begin{bmatrix}
    1 & 2 & 3 \\\\
    4 & 5 & 6 \\\\
    7 & 8 & 9 \\\\
    10 & 11 & 12
\end{bmatrix}
$$

та:

$$\bs{B}=\begin{bmatrix}
    2 & 7 \\\\
    1 & 2 \\\\
    3 & 6
\end{bmatrix}
$$

Отже, ми маємо:

$$
\begin{align*}
&\begin{bmatrix}
    1 & 2 & 3 \\\\
    4 & 5 & 6 \\\\
    7 & 8 & 9 \\\\
    10 & 11 & 12
\end{bmatrix}
\begin{bmatrix}
    2 & 7 \\\\
    1 & 2 \\\\
    3 & 6
\end{bmatrix}=\\\\
&\begin{bmatrix}
    2 \times 1 + 1 \times 2 + 3 \times 3 & 7 \times 1 + 2 \times 2 + 6 \times 3 \\\\
    2 \times 4 + 1 \times 5 + 3 \times 6 & 7 \times 4 + 2 \times 5 + 6 \times 6 \\\\
    2 \times 7 + 1 \times 8 + 3 \times 9 & 7 \times 7 + 2 \times 8 + 6 \times 9 \\\\
    2 \times 10 + 1 \times 11 + 3 \times 12 & 7 \times 10 + 2 \times 11 + 6 \times 12 \\\\
\end{bmatrix}\\\\
&=
\begin{bmatrix}
    13 & 29 \\\\
    31 & 74 \\\\
    49 & 119 \\\\
    67 & 164
\end{bmatrix}
\end{align*}
$$

Давайте перевіримо результат за допомогою Numpy:

In [8]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
A

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [9]:
B = np.array([[2, 7], [1, 2], [3, 6]])
B

array([[2, 7],
       [1, 2],
       [3, 6]])

In [10]:
C = A.dot(B)
C

array([[ 13,  29],
       [ 31,  74],
       [ 49, 119],
       [ 67, 164]])

Це працює!

# Формалізація скалярного добутку

Скалярний добуток може бути формалізований за допомогою наступного рівняння:

$$
C_{i,j} = A_{i,k}B_{k,j} = \sum_{k}A_{i,k}B_{k,j}
$$

Ви можете знайти більше прикладів для скалярного добутку [тут](https://www.mathsisfun.com/algebra/matrix-multiplying.html).

# Властивості скалярного добутку

Зараз ми бачимо деякі цікаві властивості скалярного продукту. Використовуючи прості приклади для кожної властивості, ми звикнемо до функцій Numpy.

## Множення матриць є розподільним

$$\bs{A}(\bs{B}+\bs{C}) = \bs{AB}+\bs{AC}$$

### Приклад 3.

$$
\bs{A}=\begin{bmatrix}
    2 & 3 \\\\
    1 & 4 \\\\
    7 & 6
\end{bmatrix}, 
\bs{B}=\begin{bmatrix}
    5 \\\\
    2
\end{bmatrix}, 
\bs{C}=\begin{bmatrix}
    4 \\\\
    3
\end{bmatrix}
$$


$$
\begin{align*}
\bs{A}(\bs{B}+\bs{C})&=\begin{bmatrix}
    2 & 3 \\\\
    1 & 4 \\\\
    7 & 6
\end{bmatrix}\times
\left(\begin{bmatrix}
    5 \\\\
    2
\end{bmatrix}+
\begin{bmatrix}
    4 \\\\
    3
\end{bmatrix}\right)=
\begin{bmatrix}
    2 & 3 \\\\
    1 & 4 \\\\
    7 & 6
\end{bmatrix}\times
\begin{bmatrix}
    9 \\\\
    5
\end{bmatrix}\\\\
&=
\begin{bmatrix}
    2 \times 9 + 3 \times 5 \\\\
    1 \times 9 + 4 \times 5 \\\\
    7 \times 9 + 6 \times 5
\end{bmatrix}=
\begin{bmatrix}
    33 \\\\
    29 \\\\
    93
\end{bmatrix}
\end{align*}
$$

еквівалентно до

$$
\begin{align*}
\bs{A}\bs{B}+\bs{A}\bs{C} &= \begin{bmatrix}
    2 & 3 \\\\
    1 & 4 \\\\
    7 & 6
\end{bmatrix}\times
\begin{bmatrix}
    5 \\\\
    2
\end{bmatrix}+
\begin{bmatrix}
    2 & 3 \\\\
    1 & 4 \\\\
    7 & 6
\end{bmatrix}\times
\begin{bmatrix}
    4 \\\\
    3
\end{bmatrix}\\\\
&=
\begin{bmatrix}
    2 \times 5 + 3 \times 2 \\\\
    1 \times 5 + 4 \times 2 \\\\
    7 \times 5 + 6 \times 2
\end{bmatrix}+
\begin{bmatrix}
    2 \times 4 + 3 \times 3 \\\\
    1 \times 4 + 4 \times 3 \\\\
    7 \times 4 + 6 \times 3
\end{bmatrix}\\\\
&=
\begin{bmatrix}
    16 \\\\
    13 \\\\
    47
\end{bmatrix}+
\begin{bmatrix}
    17 \\\\
    16 \\\\
    46
\end{bmatrix}=
\begin{bmatrix}
    33 \\\\
    29 \\\\
    93
\end{bmatrix}
\end{align*}
$$

In [11]:
A = np.array([[2, 3], [1, 4], [7, 6]])
A

array([[2, 3],
       [1, 4],
       [7, 6]])

In [12]:
B = np.array([[5], [2]])
B

array([[5],
       [2]])

In [13]:
C = np.array([[4], [3]])
C

array([[4],
       [3]])

$\bs{A}(\bs{B}+\bs{C})$:

In [14]:
D = A.dot(B+C)
D

array([[33],
       [29],
       [93]])

is equivalent to $\bs{AB}+\bs{AC}$:

In [15]:
D = A.dot(B) + A.dot(C)
D

array([[33],
       [29],
       [93]])

## Множення матриць є асоціативним

$$\bs{A}(\bs{BC}) = (\bs{AB})\bs{C}$$


In [16]:
A = np.array([[2, 3], [1, 4], [7, 6]])
A

array([[2, 3],
       [1, 4],
       [7, 6]])

In [17]:
B = np.array([[5, 3], [2, 2]])
B

array([[5, 3],
       [2, 2]])

$\bs{A}(\bs{BC})$:


In [18]:
D = A.dot(B.dot(C))
D

array([[100],
       [ 85],
       [287]])

еквівалонтно до $(\bs{AB})\bs{C}$:

In [19]:
D = (A.dot(B)).dot(C)
D

array([[100],
       [ 85],
       [287]])

## Множення матриць не є комутативним

$$\bs{AB} \neq \bs{BA}$$

In [20]:
A = np.array([[2, 3], [6, 5]])
A

array([[2, 3],
       [6, 5]])

In [21]:
B = np.array([[5, 3], [2, 2]])
B

array([[5, 3],
       [2, 2]])

$\bs{AB}$:

In [22]:
AB = np.dot(A, B)
AB

array([[16, 12],
       [40, 28]])

відрізняється від $\bs{BA}$:

In [23]:
BA = np.dot(B, A)
BA

array([[28, 30],
       [16, 16]])

## Однак векторне множення є комутативним

$$\bs{x^{ \text{T}}y} = \bs{y^{\text{T}}x} $$

In [24]:
x = np.array([[2], [6]])
x

array([[2],
       [6]])

In [25]:
y = np.array([[5], [2]])
y

array([[5],
       [2]])

$\bs{x^\text{T}y}$:

In [26]:
x_ty = x.T.dot(y)
x_ty

array([[22]])

еквівалентно до $\bs{y^\text{T}x}$:

In [27]:
y_tx = y.T.dot(x)
y_tx

array([[22]])

## Спрощення матричного добутку

$$(\bs{AB})^{\text{T}} = \bs{B}^\text{T}\bs{A}^\text{T}$$

In [28]:
A = np.array([[2, 3], [1, 4], [7, 6]])
A

array([[2, 3],
       [1, 4],
       [7, 6]])

In [29]:
B = np.array([[5, 3], [2, 2]])
B

array([[5, 3],
       [2, 2]])

$(\bs{AB})^{\text{T}}$:

In [30]:
AB_t = A.dot(B).T
AB_t

array([[16, 13, 47],
       [12, 11, 33]])

Еквівалентно до $\bs{B}^\text{T}\bs{A}^\text{T}$:

In [31]:
B_tA = B.T.dot(A.T)
B_tA

array([[16, 13, 47],
       [12, 11, 33]])

# Система лінійних рівнянь

Це важлива частина того, чому лінійна алгебра може бути дуже корисною для вирішення великого розмаїття задач. Тут ми побачимо, що її можна використовувати для представлення систем рівнянь.

Система рівнянь - це сукупність кратних рівнянь (принаймні 1). Наприклад:

<div>
$
\begin{cases}
y = 2x + 1 \\\
y = \frac{7}{2}x +3
\end{cases}
$
</div>

Вона визначається кількістю рівнянь та кількістю невідомих. У цьому прикладі є 2 рівняння (перший і другий рядок) і 2 невідомих ($ x $ і $ y $). Крім того, ми називаємо це системою ** лінійних ** рівнянь, оскільки кожне рівняння є лінійним. Ми можемо представити це у двох вимірах: у нас є одна пряма лінія на рівняння, її розміри відповідають невідомим. Ось графік першого рівняння:

<img src="images/plot-linear-equation.png" width="300" alt="Представлення прямої з рівняння" title="Ділянка лінійного рівняння">
<em>Представлення лінійного рівняння</em>

<span class='pquote'>
    У нашій системі рівнянь невідомі є розмірами, а кількість рівнянь - кількість прямих (у 2D) або $ n $ -вимірних площинах.
</span>

## Використання матриць для опису системи

Матриці можна використовувати для опису системи лінійних рівнянь виду $\bs{Ax}=\bs{b}$. Ось така система:

$$
A_{1,1}x_1 + A_{1,2}x_2 + A_{1,n}x_n = b_1 \\\\
A_{2,1}x_1 + A_{2,2}x_2 + A_{2,n}x_n = b_2 \\\\
\cdots \\\\
A_{m,1}x_1 + A_{m,2}x_2 + A_{m,n}x_n = b_n
$$

Невідомими (що ми хочемо знайти для вирішення системи) є змінні $x_1$ і $x_2$. Це точно така ж форма, як і в останньому прикладі, але з усіма змінними на одній стороні. $y = 2x + 1$ стає $-2x + y = 1$, причому $x$ відповідає $x_1$, а $y$ відповідає $x_2$. Ми матимемо $n$ невідомих та $m$ рівнянь.

Змінні називаються $x_1, x_2, \cdots, x_n$ за домовленістю, оскільки ми побачимо, що їх можна узагальнити у векторі $\bs{x}$.

### Ліва сторона

Лівий бік можна розглядати як добуток матриці $\bs{A}$, що містить ваги для кожної змінної ($n$ стовпців) і кожного рівняння ($m$ рядка):

<div>
$
\bs{A}=
\begin{bmatrix}
    A_{1,1} & A_{1,2} & \cdots & A_{1,n} \\\
    A_{2,1} & A_{2,2} & \cdots & A_{2,n} \\\
    \cdots & \cdots & \cdots & \cdots \\\
    A_{m,1} & A_{m,2} & \cdots & A_{m,n}
\end{bmatrix}
$
</div>

з вектором $\bs{x}$, що містить $n$ невідомих

<div>
$
\bs{x}=
\begin{bmatrix}
    x_1 \\\
    x_2 \\\
    \cdots \\\
    x_n
\end{bmatrix}
$
</div>

Скалярний добуток $\bs{A}$ і $\bs{x}$ дає набір рівнянь. Ось простий приклад:

<img src="images/system-linear-equations-matrix-form.png" width="400" alt="Матрична форма системи лінійних рівнянь" title="Матрична форма системи лінійних рівнянь">
<em>Матрична форма системи лінійних рівнянь</em>

У нас є набір з двох рівнянь з двома невідомими. Отже, кількість рядків $\bs{A}$ дає кількість рівнянь, а кількість стовпців - кількість невідомих.

### Обидві сторони

Систему рівнянь можна написати так:

$$
\begin{bmatrix}
    A_{1,1} & A_{1,2} & \cdots & A_{1,n} \\\\
    A_{2,1} & A_{2,2} & \cdots & A_{2,n} \\\\
    \cdots & \cdots & \cdots & \cdots \\\\
    A_{m,1} & A_{m,2} & \cdots & A_{m,n}
\end{bmatrix}
\begin{bmatrix}
    x_1 \\\\
    x_2 \\\\
    \cdots \\\\
    x_n
\end{bmatrix}
=
\begin{bmatrix}
    b_1 \\\\
    b_2 \\\\
    \cdots \\\\
    b_m
\end{bmatrix}
$$

Або простіше:

$$\bs{Ax}=\bs{b}$$

### Приклад 4.

Ми спробуємо перетворити загальну форму лінійного рівняння $y = ax + b$ у матричну форму. Якщо ми хочемо зберегти попередню нотацію, то замість цього матимемо:

<div>
$x_2=ax_1+b$
</div>

Не плутайте змінні $x_1$ і $x_2$ з вектором $\bs{x}$. Цей вектор містить усі змінні наших рівнянь:

<div>
$
\bs{x} =
\begin{bmatrix}
    x_1 \\\
    x_2
\end{bmatrix}
$
</div>

У цьому прикладі ми використаємо таке рівняння:

<div>
$
\begin{aligned}
&x_2=2x_1+1 \\\
\Leftrightarrow& 2x_1-x_2=-1
\end{aligned}
$
</div>

Для того, щоб закінчити цю систему, коли ми множимо $\bs{A}$ і $\bs{x}$, нам потрібно, щоб $\bs{A}$ містилп ваги кожної змінної. Вага $x_1$ становить $2$, а вага $x_2$ становить $-1$:

<div>
$
\bs{A}=
\begin{bmatrix}
    2 & -1
\end{bmatrix}
$
</div>

Отже, маємо

<div>
$
\begin{bmatrix}
    2 & -1
\end{bmatrix}
\begin{bmatrix}
    x_1 \\\
    x_2
\end{bmatrix}
=
\begin{bmatrix}
2x_1-1x_2
\end{bmatrix}
$
</div>

Для завершення рівняння ми маємо

<div>
$
\bs{b}=
\begin{bmatrix}
    -1
\end{bmatrix}
$
</div>

що дає

<div>
$
\begin{bmatrix}
    2 & -1
\end{bmatrix}
\begin{bmatrix}
    x_1 \\\
    x_2
\end{bmatrix}
=
\begin{bmatrix}
    -1
\end{bmatrix}
$
</div>

Таким чином, ця система рівнянь дуже проста і містить лише 1 рівняння ($\bs{A}$ має 1 рядок) та 2 змінні ($\bs{A}$ має 2 стовпці).

Підводячи підсумок, $\bs{A}$ буде матрицею вимірів $m\times n$, що містить скаляри, що множать ці змінні (тут $x_1$ множиться на 2 та $x_2$ на -1). Вектор $\bs{x}$ містить змінні $x_1$ і $x_2$. А справа - це константа $\bs{b}$:

<div>
$
\bs{A}=
\begin{bmatrix}
    2 & -1
\end{bmatrix}
$
</div>

<div>
$
\bs{x}=
\begin{bmatrix}
    x_1 \\\
    x_2
\end{bmatrix}
$
</div>

<div>
$
\bs{b}=
\begin{bmatrix}
    -1
\end{bmatrix}
$
</div>

Ми можемо написати цю систему

<div>
$
\bs{Ax}=\bs{b}
$
</div>

Ми побачимо в кінці [наступного розділу](https://hadrienj.github.io/posts/Deep-Learning-Book-Series-2.3-Identity-and-Inverse-Matrices/) що цей компактний спосіб написання наборів лінійних рівнянь може бути дуже корисним. Він дозволяє вирішити рівняння.

<span class='notes'>
    Не соромтеся писати мені електронний лист чи коментар. Програму цієї серії можна знайти [у вступній статті](https://hadrienj.github.io/posts/Deep-Learning-Book-Series-Introduction/). Всі блокноти можна знайти на [Github](https://github.com/hadrienj/deepLearningBook-Notes).
</span>

# Список літератури

- [Math is fun - Multiplying matrices](https://www.mathsisfun.com/algebra/matrix-multiplying.html)- [Multiplying Matrices and Vectors](https://github.com/hadrienj/deepLearningBook-Notes/blob/master/2.2%20Multiplying%20Matrices%20and%20Vectors/2.2%20Multiplying%20Matrices%20and%20Vectors.ipynb)

Переклад: Шапран Андрій, студент ІО-01мн, 2020 рік