(target-dot-product)=
# _Dot_ product
Misschien wel de belangrijkste operatie in machine learning is het **_dot_** of _inner_ product tussen 2 vectoren uit dezelfde ruimte (dus met een gelijk aantal elementen).
De eerste vector is daarbij een rij-vector $\pmb{a}^T$ en de tweede een kolom-vector $\pmb{b}$.
$$
\begin{aligned}
\pmb{a}^T\pmb{b} = \pmb{a}'\pmb{b} &= \pmb{a}.\pmb{b} \\
&= \sum_{i=1}^{n}a_ib_i \\
&= \begin{bmatrix}
a_1 & a_2 \ldots & a_n
\end{bmatrix}\begin{bmatrix}
b_1 \cr
b_2 \cr
\vdots  \cr
b_n
\end{bmatrix} \\
&= a_1b_1 + a_2b_2 + \ldots + a_nb_n
\end{aligned}
$$

**Het dot product tussen 2 vectoren uit een gegeven ruimte, is dus de som van de elementgewijze producten. Het resultaat is altijd een scalaire waarde.**

In [11]:
import numpy as np

In [12]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(f"Dot product result: {np.dot(a, b)}")

Dot product result: 32


In [13]:
a[0] * b[0] + a[1] * b[1] + a[2] * b[2]

np.int64(32)

In [14]:
# alternative notation for np.dot
a @ b

np.int64(32)

Merk op dat:

$$
\pmb{a}^T\pmb{b} = \pmb{b}^T\pmb{a}
$$

  Het principe van het _dot_ product kan uitgebreid worden naar het geval een matrix en een vector uit dezelfde ruimte: $\pmb{A}\pmb{b}$.
Geometrisch moet de matrix $\pmb{A}$ hier gezien worden als een verzameling van punten in dezelfde ruimte als waar $\pmb{b}$ uit afkomstig is.
$\pmb{A}$ heeft dus evenveel _kolommen_ als er elementen in $\pmb{b}$ zijn.
$$
\begin{aligned}
\pmb{A}\pmb{b} &= \begin{bmatrix}
\sum_{i=1}^{n}A_{1,i}b_i \cr
\sum_{i=1}^{n}A_{2,i}b_i \cr
\vdots  \cr
\sum_{i=1}^{n}A_{m,i}b_i
\end{bmatrix} \\
&= \begin{bmatrix}
A_{1,1} & A_{1,2} & \ldots & A_{1,n} \cr
A_{2,1} & A_{2,2} & \ldots & A_{2,n} \cr
\vdots & \vdots & \ldots & \vdots \cr
A_{m,1} & A_{m,2} & \ldots & A_{m,n}
\end{bmatrix}\begin{bmatrix}
b_1 \cr
b_2 \cr
\vdots  \cr
b_n
\end{bmatrix} \\
&= \begin{bmatrix}
A_{1,1}b_1 + A_{1,2}b_2 + \ldots + A_{1,n}b_n \cr
A_{2,1}b_1 + A_{2,2}b_2 + \ldots + A_{2,n}b_n \cr
\vdots \cr
A_{m,1}b_1 + A_{m,2}b_2 + \ldots + A_{m,n}b_n
\end{bmatrix}
\end{aligned}
$$

**Bij het dot product tussen een matrix en een vector, is resultaat altijd een vector met evenveel elementen als er _rijen_ zijn in de matrix.**

In [15]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(f"Matrix A shape: {A.shape}")
nrow, ncol = A.shape
print(f"Matrix A has {nrow} rows and {ncol} columns.")
print(f"Dot product result:\n{np.dot(A, b)}")

Matrix A shape: (2, 3)
Matrix A has 2 rows and 3 columns.
Dot product result:
[32 77]


In [16]:
np.array(
    [
        A[0, 0] * b[0] + A[0, 1] * b[1] + A[0, 2] * b[2],
        A[1, 0] * b[0] + A[1, 1] * b[1] + A[1, 2] * b[2],
    ]
)

array([32, 77])

In [17]:
# alternative notation for np.dot
A @ b

array([32, 77])

:::{warning}
$$
\pmb{A}\pmb{b} \neq \pmb{b}\pmb{A}
$$
:::

Tenslotte bespreken we ook nog het geval van de uitbreiding naar 2 matrices; het _inner product_ $\pmb{A}\pmb{B}^T$.
Geometrisch kunnen we beide matrices zien als verzamelingen van punten in dezelfde $n$-dimensionele ruimte. Ze hebben hetzelfde aantal kolommen, maar niet per se hetzelfde aantal rijen.
Meestal wordt $\pmb{B}$ direct gezien als een matrix met $n$ rijen en een bepaald aantal kolommen $p$. Dan wordt de notatie simpelweg $\pmb{A}\pmb{B}$.
$$
\begin{aligned}
\pmb{A}\pmb{B} &= \begin{bmatrix}
A_{1,1} & A_{1,2} & \ldots & A_{1,n} \cr
A_{2,1} & A_{2,2} & \ldots & A_{2,n} \cr
\vdots & \vdots & \ldots & \vdots \cr
A_{m,1} & A_{m,2} & \ldots & A_{m,n}
\end{bmatrix}\begin{bmatrix}
B_{1,1} & B_{1,2} \ldots & B_{1,p} \cr
B_{2,1} & B_{2,2} \ldots & B_{2,p} \cr
\vdots & \vdots \ldots & \vdots \cr
B_{n,1} & B_{n,2} \ldots & B_{n,p}
\end{bmatrix} \\
&= \begin{bmatrix}
A_{1,1}B_{1,1} + A_{1,2}B_{2,1} + \ldots + A_{1,n}B_{n,1} & A_{1,1}B_{1,2} + A_{1,2}B_{2,2} + \ldots + A_{1,n}B_{n,2} & \ldots & A_{1,1}B_{1,p} + A_{1,2}B_{2,p} + \ldots + A_{1,n}B_{n,p} \cr
A_{2,1}B_{1,1} + A_{2,2}B_{2,1} + \ldots + A_{2,n}B_{n,1} & A_{2,1}B_{1,2} + A_{2,2}B_{2,2} + \ldots + A_{2,n}B_{n,2} & \ldots & A_{2,1}B_{1,p} + A_{2,2}B_{2,p} + \ldots + A_{2,n}B_{n,p} \cr
\vdots & \vdots & \vdots & \vdots \cr
A_{m,1}B_{1,1} + A_{m,2}B_{2,1} + \ldots + A_{m,n}B_{n,1} & A_{m,1}B_{1,2} + A_{m,2}B_{2,2} + \ldots + A_{m,n}B_{n,2} & \ldots & A_{m,1}B_{1,p} + A_{m,2}B_{2,p} + \ldots + A_{m,n}B_{n,p}
\end{bmatrix}
\end{aligned}
$$

**Bij het dot product van 2 matrices $\pmb{A}$ en $\pmb{B}$, is resultaat altijd een matrix met evenveel rijen als er _rijen_ zijn in $\pmb{A}$ en evenveel kolommen als er kolommen zijn in $\pmb{B}$.**

In [18]:
B = np.array([[7, 8, 9, 10], [11, 12, 13, 14], [15, 16, 17, 18]])
print(f"Matrix B shape: {B.shape}")
print(f"Dot product result:\n{np.dot(A, B)}")  # Result is 2x4 matrix

Matrix B shape: (3, 4)
Dot product result:
[[ 74  80  86  92]
 [173 188 203 218]]


In [19]:
np.array(
    [
        [
            A[0, 0] * B[0, 0] + A[0, 1] * B[1, 0] + A[0, 2] * B[2, 0],
            A[0, 0] * B[0, 1] + A[0, 1] * B[1, 1] + A[0, 2] * B[2, 1],
            A[0, 0] * B[0, 2] + A[0, 1] * B[1, 2] + A[0, 2] * B[2, 2],
            A[0, 0] * B[0, 3] + A[0, 1] * B[1, 3] + A[0, 2] * B[2, 3],
        ],
        [
            A[1, 0] * B[0, 0] + A[1, 1] * B[1, 0] + A[1, 2] * B[2, 0],
            A[1, 0] * B[0, 1] + A[1, 1] * B[1, 1] + A[1, 2] * B[2, 1],
            A[1, 0] * B[0, 2] + A[1, 1] * B[1, 2] + A[1, 2] * B[2, 2],
            A[1, 0] * B[0, 3] + A[1, 1] * B[1, 3] + A[1, 2] * B[2, 3],
        ],
    ]
)

array([[ 74,  80,  86,  92],
       [173, 188, 203, 218]])

In [20]:
# alternative notation for np.dot
A @ B

array([[ 74,  80,  86,  92],
       [173, 188, 203, 218]])

:::{warning}
$$
\pmb{A}\pmb{B} \neq \pmb{B}\pmb{A}
$$
:::

### Toepassingen
#### Lineaire gewichten
Zowel bij lineaire regressie als bij simpele neurale netwerken zoals _{ref}`perceptrons <target-perceptron>`_ [](https://doi.org/10.1037%2Fh0042519), worden input features vertaald naar model outputs door gewogen sommen te nemen.
Deze operatie komt neer op het dot product tussen de input vector $\pmb{x}$ en een vector van gewichten $\pmb{w}$: $\pmb{w}^T\pmb{x}$.

:::{note} Perceptron
Een perceptron is een vroeg model van een artificieel neuron, beschreven en gesimuleerd door [](https://doi.org/10.1037%2Fh0042519) die met dit werk verder bouwde op het werk van [](https://doi.org/10.1007%2FBF02478259). Inputs worden via een lineaire combinatie met gewichten en een _activatiefunctie_ vertaald naar een output.
$$
\pmb{y} = f(\pmb{x}) = h(\pmb{w}^T\pmb{x} + b)
$$
De model kon getraind worden om inputs _binair_ te classificeren (dus in te delen in 2 categorieën) op voorwaarde dat de categorieën overeen komen met een _lineair onderscheidbaar patroon_ in de inputs. De gewichten vector beschrijft een $n$-dimensionele _hyper plane_ om inputs binair op te delen. De term $b$ heet de _bias_ en geeft de translatie aan van de hyper plane aan ten opzichte van de oorsprong. 
In de originele vorm is de activatiefunctie $h$ een stapfunctie met output $1$ bij $\pmb{w}^T\pmb{x} + b > 0$ en $0$ bij $\pmb{w}^T\pmb{x} + b <= 0$ (de zogenaamde _Heaviside_ stapfunctie).
```
           x₁             x₂     ...     xₙ            1.0  
           |              |              |              |
           |              |              |              |
           |              |              |              |
           w₁             w₂     ...     wₙ             b
            \             |             /              /
             \            |            /              /
              \           |           /              /
               \          |          /              /
                \         |         /              /
                 \        |        /              /
                  \       |       /              /
                   \      |      /              /
                    \     |     /              /
                     \    |    /              /
                      \   |   /              /
                       \  |  /              /
                        \ | /              /
                         \|/              /
                          v              v
                        Dot product + bias
                 z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
                                |
                                v
                        Activation function
                              h(z)
                                |
                                v
                             Output y
```
:::

#### Gewogen gemiddeldes
Ieder _arithmetisch_ gemiddelde van een reeks datapunten van een bepaald type, kan uitgedrukt worden aan de hand van een dot product tussen een vector van _gewichten_ en de data-vector $\pmb{y}.\pmb{w}$,
waarbij de som van de elementen van $\pmb{w}$ exact $1$ is.  
  
Voor het algemene on-/gewogen gemiddelde krijgen we:
$$
\begin{aligned}
\pmb{y}^T\pmb{w} = \sum_{i=1}^{n}y_iw_i = \begin{bmatrix}
y_1 & y_2 \ldots & y_n
\end{bmatrix}\begin{bmatrix}
w_1 \cr
w_2 \cr
\vdots  \cr
w_n
\end{bmatrix} &= y_1w_1 + y_2w_2 + \ldots + y_nw_n \\
w_1+w_2+\ldots+w_n &= 1
\end{aligned}
$$

Voor een ongewogen gemiddelde krijgen we dan:
$$
\pmb{y}^T\pmb{w} = \sum_{i=1}^{n}y_i\frac{1}{n} = \begin{bmatrix}
y_1 & y_2 \ldots & y_n
\end{bmatrix}\begin{bmatrix}
\frac{1}{n} \cr
\frac{1}{n} \cr
\vdots  \cr
\frac{1}{n}
\end{bmatrix} = \frac{y_1}{n} + \frac{y_2}{n} + \ldots + \frac{y_n}{n}
$$

#### Euclidische norm
Vectoren hebben een grootte en een richting, zoals bijvoorbeeld de versnelling van een object in de ruimte $\pmb{a} = [a_x a_y a_z]^T$.
Vaak willen we de grootte uitdrukken in een scalaire waarde. Dat doen we aan de hand van een **norm-functie $L^p$** die gedefiniëerd is als:

$$
||\pmb{x}||_p = \begin{pmatrix}\sum_{i}|x_i|^p\end{pmatrix}^{\frac{1}{p}}
$$

(target-norm)=
**De norm van een vector in een bepaalde ruimte drukt de afstand uit tussen de oorsprong en het punt waar de vector betrekking op heeft**.
(target-euclidean-norm)=
In een **_Euclidische_ ruimte wordt die afstand gegeven door de $L^2$ norm. De $L^2$ norm van een vector bekomt men door het dot product te nemen van de vector met zichzelf**:  

\begin{align}
||\pmb{x}||_2 &= \sqrt{\sum_{i}x_i^2} \\
&= \sqrt{\sum_{i}x_ix_i} \\
&= \sqrt{\pmb{x}^T\pmb{x}}
\end{align}

#### _Cosine similarity_
Vaak willen we ook de afstand _tussen_ 2 vectoren uitdrukken in een scalaire waarde, bijvoobeeld in de context van _similarity search_. In Euclidische ruimtes wordt dan vaak gekeken naar de cosinus van de hoek tussen 2 vectoren $cos({\theta})$. Dit heet dan de _cosine similarity_ en wordt bekomen door het dot product te nemen en het te delen door de respectievelijke Euclidische normen:
$$
cos(\theta) = \frac{\pmb{a}^T\pmb{b}}{||\pmb{a}||_2||\pmb{b}||_2}
$$
Om dit te begrijpen hebben we de geometrische interpretatie van het dot-product nodig.  
De _scalaire projectie_ van vector $\pmb{a}$ op $\pmb{b}$ in de Euclidische ruimte is gegeven als:

$$
a_b = ||\pmb{a}||cos(\theta)
$$

[![](../../../img/dot_product.jpg)](https://en.wikipedia.org/wiki/Dot_product)

waarbij $\theta$ de hoek is tussen beide vectoren. We kunnen deze geometrische definitie herschrijven als

$$
a_b = \pmb{a}^T\hat{\pmb{b}}
$$

met $\hat{\pmb{b}}$ de unit vector (dwz. vector met lengte $1$) in de richting van $\pmb{b}$:

$$
\hat{\pmb{b}} = \frac{\pmb{b}}{||\pmb{b}||}
$$

Als we definities (10) en (11) aan elkaar gelijk stellen krijgen we:

$$
\begin{align}
\pmb{a}^T\frac{\pmb{b}}{||\pmb{b}||} &= ||\pmb{a}||cos(\theta) \cr
\pmb{a}^T\pmb{b} &= ||\pmb{a}||||\pmb{b}||cos(\theta)
\end{align}
$$

Het dot product van $\pmb{a}$ en $\pmb{b}$ is dus het product van (i) de grootte van de scalare projectie van $\pmb{a}$ op $\pmb{b}$ en (ii) de grootte van $\pmb{b}$.
De uitkomst zal groter worden naargelang:
- $\pmb{a}$ groter is
- $\pmb{b}$ groter is
- $\theta$ _kleiner_ is  
  
Als we terugkomen op de _cosine similarity_ kunnen we direct zien waar de formulering vandaan komt:

$$
\begin{align}
\pmb{a}^T\pmb{b} &= ||\pmb{a}||||\pmb{b}||cos(\theta) \cr
cos(\theta) &= \frac{\pmb{a}^T\pmb{b}}{||\pmb{a}||||\pmb{b}||}
\end{align}
$$