# Введение в математику для МЛ

In [2]:
import numpy as np
import scipy as sc

### Вектор

Вектор $\mathbf{v}$ (или $\vec{v}$) - это элемент векторного пространства $\mathrm{V}$.  
Для него определены операции сложения друг с другом и умножения на число (скаляр). Эти операции подчинены аксиомам, которые мы скоро увидим.  
О векторе можно крайне упрощенно думать как о массиве из чисел $x_{\textit{i}}$.

$$\mathbf{v} = \vec{v} = 
\begin{pmatrix}
x_{\textit{1}} \\
x_{\textit{2}} \\
\dots \\
x_{\textit{n}}
\end{pmatrix}
$$

Пример:

$$\mathbf{v} =  
\begin{pmatrix}
12 \\
3 \\
1 \\
17
\end{pmatrix}, 
\mathbf{v}_{2} = 3
$$


#### Транспонирование

Обычно вектор представляют в виде столбца.  
Можно представить вектор в виде строки с помощью операции транспонирования $\mathbf{v}^{\top}$:

$$
\begin{pmatrix}
x_{\textit{1}} \\
x_{\textit{2}} \\
\dots \\
x_{\textit{n}}
\end{pmatrix}^{\top}
=
\begin{pmatrix}
x_{\textit{1}} , x_{\textit{2}} , \dots , x_{\textit{n}}
\end{pmatrix}
$$

Если вам по какой-то причине захочется превратить вектор-строку обратно в вектор-столбец, вы можете воспользоваться операцией транспонирования снова, ведь $(\mathbf{v}^{\top})^{\top} = \mathbf{v}$.

In [4]:
v = np.array([[12],
              [3],
              [1],
              [17]])
print(v)
print(v.T)

[[12]
 [ 3]
 [ 1]
 [17]]
[[12  3  1 17]]


---
### Линейные пространства
__Определение.__ Линейное (векторное) пространство $\mathrm{V}(\mathbb{F})$ над полем $\mathbb{F}$ — упорядоченная четверка $(\mathrm{V}, \mathbb{F}, +, •)$, где:

1) $\mathrm{V}$ — непустое множество векторов (произвольной природы),

2) $\mathbb{F}$ — поле скаляров

3) $+: \mathrm{V} \times \mathrm{V} \rightarrow \mathrm{V}$ — операция сложения двух векторов,

4) $•: \mathbb{F} \times \mathrm{V} \rightarrow \mathrm{V}$ — операция умножения скаляра на вектор.

Для линейных пространств задаются следующие аксиомы:

1) $\forall x, y \in \mathrm{V}: x + y = y + x$ *(Коммутативность сложения)*

2) $\forall x, y, z \in \mathrm{V}: (x + y) + z = x + (y + z)$ *(Ассоциативность сложения)*

3) $\exists \mathbb{0} \in \mathrm{V}\ \forall x \in \mathrm{V}: x + \mathbb{0} = x$ *(Существование нейтрального элемента по сложению)*

4) $\forall x \in \mathrm{V}\ \exists (-x) \in \mathrm{V}: x + (-x) = \mathbb{0}$ *(Существования противоположного элемента по сложению)*

5) $\forall \alpha, \beta \in \mathbb{F}\ \forall x \in \mathrm{V}: \alpha(\beta x) = (\alpha \beta) x$ *(Ассоциативность умножения скаляров на вектор)*

6) $\forall x \in \mathrm{V}: \mathbb{1} • x = x $ *(Нейтральный элемент по умножению из поля является нейтральным элементов для операции умножения на вектор)*

7) $\forall \alpha, \beta \in \mathbb{F}\ \forall x \in \mathrm{V}: (\alpha + \beta) x = \alpha x + \beta x$ *(Дистрибутивность сложения скаляров относительно умножения скаляра на вектор)*

8) $\forall \alpha \in \mathbb{F}\ \forall x, y \in \mathrm{V}: \alpha (x + y) = \alpha x + \alpha y$ *(Дистрибутивность сложения векторов относительно умножения на скаляр)*

__Примеры__: 

* $\mathbb{R}^n$ — линейное пространство векторов-столбцов из $\mathbb{R}$ высоты $n$.
* $\mathrm{C}[a, b]$ — пространство непрерывных функций действительной переменной на отрезке $[a,b]$.

__Определение__. Пусть $x_1, ..., x_n \in \mathrm{V}, \alpha_1, ..., \alpha_n \in \mathbb{F}$.

Линейной комбинацией векторов $x_1, ..., x_n$ с коэффициентами $\alpha_1, ..., \alpha_n$ называется следующая сумма:

$$ \alpha_1 x_1 + \alpha_2 x_2 + ... + \alpha_n x_n = \sum_{i=1}^{n} \alpha_i x_i$$

---
### Операции в линейных пространствах

Следующие определения для удобства рассмотрены над $\mathbb{R}^n$. Их можно обобщить для произвольных линейных пространств.

__Определение__. Пусть $a, x \in \mathbb{R}_n$. $a = \begin{pmatrix} a_1 \\ ... \\ a_n \end{pmatrix}$ — вектор параметров, $x = \begin{pmatrix} x_1 \\ ... \\ x_n \end{pmatrix}$ — вектор-аргумент.

(Однородной) линейной функцией называется следующая функция $f: \mathbb{R}^n \rightarrow \mathbb {R}$:

$$ f(x) = \langle a, x \rangle = \sum_{i=1}^n a_i x_i $$

*Упражнение 1.* Докажите следующее тождество (линейность по аргументу):

$$ \forall x, y \in \mathbb{R}^n, \forall \alpha, \beta \in \mathbb{R}: \langle a, \alpha x + \beta y \rangle = \alpha \langle a, x \rangle + \beta \langle a, y \rangle $$

__Определение__. Линейная функция называется $f: \mathrm{V} \rightarrow \mathbb{F}$ однородной, если $\forall x_i \in \mathrm{V}$ и $\forall \alpha_i \in \mathbb{F}$  выполняется равенство:  
$$
f(\sum_{i=1}^n \alpha_i \cdot x_i) = \sum_{i=1}^n \alpha_i\cdot f(x_i)
$$

__Определение.__ Пусть $x, y \in \mathrm{R}^n$. Скалярным произведением векторов $x$ и $y$ называется следующая сумма:

$$ \langle x, y \rangle = \sum_{i=1}^n x^i y^i$$

*Упражнение 2*. Показать коммутативность скалярного произведения и его линейность по первому аргументу.

__Определение.__ Пусть $x \in \mathbb{R}^n$. Евклидовой нормой вектора $x$ называется следующее выражение:

$$ ||x||_2 = \sqrt{\langle x, x \rangle} = \sqrt{\sum_{i=1}^n x^i x^i}$$

Различные нормы являются обобщением длины для произвольных векторных пространств. Помимо этого, при помощи любой нормы $||\cdot||$ можно определить метрику следующим образом: $\rho(x, y) = ||x - y||$.

---
### Матрица

Матрица $\pmb{M}$ размера $m \times n$- это таблица из элементов $x_{\textit{ij}}$ над полем $\mathbb{F}$.  

$$
\pmb{M} = 
\begin{bmatrix}
    x_{1,1} & x_{1,2} & x_{1,3} & \dots  & x_{1,n} \\
    x_{2,1} & x_{2,2} & x_{2,3} & \dots  & x_{2,n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m,1} & x_{m,2} & x_{m,3} & \dots  & x_{m,n}
\end{bmatrix}
$$

Матрица состоит из строк и столбцов.  
Размер матрицы выше - $m \times n$. Это значит, что в ней $m$ строк и $n$ столбцов.  
Возьмем элемент $x_{\textit{i,j}}$.  
*i* - номер строки, в которой находится данный элемент.  
*j* - номер столбца, в котором находится данный элемент.  
Нумерация начинается с 1. Не путайте с `numpy`, где нумерация начинается с 0.  
Возьмем элемент из третьей строки и первого столбца:

Пример:  
$$
\begin{bmatrix}
7 & 2 \\
3 & 999 \\
-2 & 0
\end{bmatrix}_{\textit{ 3,1}} = -2
$$

Матрицу можно представить как вектор-строку из векторов-столбцов $x_i \in \mathbb{F}^n$:

$$ \pmb{M} = \begin{pmatrix}
    x_1 & \cdots & x_n \\
\end{pmatrix}
$$

#### Транспонирование

$$
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}^{\top}
=
\begin{bmatrix}
1 & 4 \\
2 & 5 \\
3 & 6
\end{bmatrix}
$$

Можно сказать, что после выполнения транспонирования строки становятся столбцами, а столбцы - строками.

#### Главная диагональ и Единичная матрица

Главная диагональ - это элементы матрицы $x_{\textit{i,j}}$ при $\textit{i = j}$.  
Проще говоря, это значения матрицы, которые лежат на диагонали, идущей от левого верхнего угла матрицы до ее правого нижнего угла.

$$
\pmb{I} = 
\begin{bmatrix}
    1 & 0 & 0 & 0 \\
    0 & 1 & 0 & 0 \\
    0 & 0 & 1 & 0 \\
    0 & 0 & 0 & 1
\end{bmatrix}
$$

Например, на матрице выше значения на главной диагонали равны $1$, а вне главной диагонали - $0$.  
Кстати, такая матрица (независимо от размера) называется единичной и обозначается $\pmb{I}$.

#### Перемножение

В Machine Learning иногда используется перемножение матриц с матрицами и матриц с векторами.  
Поэтому, важно понимать, как оно происходит.

##### Матрица на вектор

$$
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}
\cdot
\begin{bmatrix}
a \\
b \\
c 
\end{bmatrix}
=
\begin{bmatrix}
1a + 2b + 3c \\
4a + 5b + 6c 
\end{bmatrix}
$$

##### Матрица на матрицу

$$
\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}
\cdot
\begin{bmatrix}
a & x \\
b & y \\
c & z
\end{bmatrix}
=
\begin{bmatrix}
1a + 2b + 3c & 1x + 2y + 3z \\
4a + 5b + 6c & 4x + 5y + 6z 
\end{bmatrix}
$$

Правило, при котором матрицы можно перемножать: вторая компонента размерности левой матрицы должна быть равна первой компоненте размерности правой матрицы.  
Если у нас есть матрица $\pmb{A}$ размерностью $m \times n$ и матрица $\pmb{B}$ размерностью $n \times k$, то мы можем их перемножить.  
При произведении $\pmb{AB}$ мы получим матрицу $\pmb{C}$ размерностью $m \times k$.  
Заметим, что $\pmb{BA}$ мы сделать в общем случае уже не можем - размерности не подходят.  
Но можем, если матрица квадратная, то есть, она имеет размерность $n \times n$.

----

## Тензоры

<img src = "https://www.cc.gatech.edu/~san37/img/dl/tensor.png" width=500>


In [6]:
from IPython.display import YouTubeVideo
YouTubeVideo('QDpeRUIrb6U', width=640, height=360)

## Собственные вектора

In [5]:
from IPython.display import YouTubeVideo
YouTubeVideo('PFDu9oVAE-g', width=640, height=360)

In [4]:
from IPython.display import YouTubeVideo
YouTubeVideo('Bzntk_tQmzQ', width=640, height=360)

## Векторное дифференцирование

Иногда, при взятии производных по вектору или от вектор-функций, удобно оперировать матричными операциями. Это сокращает запись и упрощает вывод формул.

Договоримся о некоторых обозначениях:
- При отображении вектора в число
$$f(x): \mathbb{R}^n \rightarrow \mathbb{R}$$

$$\frac{\partial f}{\partial x} = \bigg[\frac{\partial f}{\partial x_1}, \ldots, \frac{\partial f}{\partial x_n}\bigg]^T$$

- При отображении матрицы в число
$$f(x): \mathbb{R}^{n\times m} \rightarrow \mathbb{R}$$

$$\frac{\partial f}{\partial x} = \bigg(\frac{\partial f}{\partial x_{ij}}\bigg)_{i,j=1}^{n,m}$$

- При отображении вектора в вектор
$$f(x): \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$$

$$\frac{\partial f}{\partial x} = \bigg(\frac{\partial f_i}{\partial x_{j}}\bigg)_{i,j=1}^{m,n}$$

Теперь выведем некоторые формулы.

1. Пусть $a \in \mathbb{R}^n$ - вектор параметров, а $x \in \mathbb{R}^n$ - вектор переменных.

    $$\frac{\partial}{\partial x} a^Tx = ?$$

    $$\frac{\partial}{\partial x_i} a^Tx = \frac{\partial}{\partial x_i}\sum_j a_jx_j = a_i$$

    $$\frac{\partial}{\partial x} a^Tx = a$$

    Заметим, что $a^Tx$ — это число, поэтому $a^Tx = x^Ta$, следовательно,

    $$\frac{\partial}{\partial x} x^Ta = a.$$

1. Пусть теперь $A \in \mathbb{R}^{n\times n}$. Выведем ещё одну формулу

    $$\frac{\partial}{\partial x} x^TAx = ?$$
    
    $$\frac{\partial}{\partial x_i} x^TAx = \frac{\partial}{\partial x_i}\sum_j x_j (Ax)_j \; ,$$
    
    Здесь $(Ax)_j$ означает $j$-ый элемент вектора $Ax$.
    
    $$\frac{\partial}{\partial x_i} x^TAx = \frac{\partial}{\partial x_i}\sum_j x_j (Ax)_j = \frac{\partial}{\partial x_i}\sum_j x_j \bigg(\sum_k a_{jk}x_k\bigg) = $$
    
    $$ = \frac{\partial}{\partial x_i}\sum_j x_j \bigg(\sum_k a_{jk}x_k\bigg) = \frac{\partial}{\partial x_i}\sum_{j,k} a_{jk} x_j x_k =$$
    
    $$ = \sum_{j \neq i} a_{ji} x_j + \sum_{k \neq i} a_{ik} x_k + 2a_{ii}x_i = \sum_{j} a_{ji} x_j + \sum_{k} a_{ik} x_k = \sum_{j} (a_{ji} + a_{ij}) x_j$$
    
    $$\frac{\partial}{\partial x} x^TAx = (A + A^T)x$$
    
1. Теперь выведем формулу для определителя матрицы.

    $$\frac{\partial}{\partial A} \det A = ?$$
    
    $$\frac{\partial}{\partial A_{ij}} \det A = \frac{\partial}{\partial A_{ij}}\bigg[\sum_k (-1)^{i+k}A_{ik}M_{ik}\bigg] = (-1)^{i+j}M_{ij} \; ,$$
    
    где $M_{ik}$ - дополнительный минор матрицы $A$. Вспомним также формулу обратной матрицы
    
    $$(A^{-1})_{ij} = \frac{1}{\det A}(-1)^{i+j}M_{ji}.$$
    
    Получаем ответ
    
    $$\frac{\partial}{\partial A} \det A = (\det A) A^{-T} $$

1. И ещё одна полезная формула. Пусть $x \in \mathbb{R}^n, \, A \in \mathbb{R}^{n \times m}, \, y \in \mathbb{R}^m.$ Тогда

    $$\frac{\partial}{\partial A} x^TAy = ?$$
    
    $$\frac{\partial}{\partial A} x^TAy = \frac{\partial}{\partial A} \text{tr}(x^TAy) = \frac{\partial}{\partial A} \text{tr}(Ayx^T)$$
    
    Выведем вспомогательную формулу.
    
    $$\frac{\partial}{\partial A} \text{tr}(AB) = ?$$
    
    $$\frac{\partial}{\partial A_{ij}} \text{tr}(AB) = \frac{\partial}{\partial A_{ij}} \sum_k (AB)_{kk} = \frac{\partial}{\partial A_{ij}} \sum_{k,l} A_{kl}B_{lk} = B_{ji}$$
    
    $$\frac{\partial}{\partial A} \text{tr}(AB) = B^T$$
    
    Отсюда
    
    $$\frac{\partial}{\partial A} x^TAy = \frac{\partial}{\partial A} \text{tr}(Ayx^T) = xy^T$$

__Задание 5*.__

Нарисуйте виньетку на изображении с лемуром (`img`), используя [функцию плотности двумерного нормального распредения](https://en.wikipedia.org/wiki/Gaussian_function#Two-dimensional_Gaussian_function). В других источниках эта функция называется гауссианой или ядром Гаусса.

Подсказки:
* Напишите функцию, которая вычисляет ядро Гаусса заданного размера `shape`:

```python
def gaussian(shape, mean_x, mean_y, sigma_x, sigma_y):
    '''
    @param: shape: 2d size of output kernel
    '''
    gauss_kernel = np.empty(shape)
    # ...
    pass
    
# gaussian(x, y, ...).shape == (n, m)
```

* Сгенерируйте ядро Гаусса с помощью указанной функции со средними значениями $mean_x=0$ и $mean_y=0$, затем нормируйте полученную матрицу, чтобы значения получились в диапазоне $[0, 1]$.
* Умножьте полученную матрицу на исходное изображение.
* Варьируйте значения $mean_x$ и $mean_y$ для получения наилучшего результата. Как сигмы можно взять следующие значения:  
$\sigma_x$ = `img.shape[0] // 2`, $\sigma_y$ = `img.shape[1] // 2`.

Ожидаемый результат должен выглядеть следующим образом:

![Лемур виньетка](data/lemur_vignette.png)

In [None]:
# Ваш код здесь