*Credits: materials from this notebook belong to YSDA [Practical DL](https://github.com/yandexdataschool/Practical_DL) course. Special thanks for making them available online.*

# Lab assignment №1, part 1

This lab assignment consists of several parts. You are supposed to make some transformations, train some models, estimate the quality of the models and explain your results.

Several comments:
* Don't hesitate to ask questions, it's a good practice.
* No private/public sharing, please. The copied assignments will be graded with 0 points.
* Blocks of this lab will be graded separately.

## 1. Matrix differentiation

Since it easy to google every task please please please try to undestand what's going on. The "just answer" thing will be not counted, make sure to present derivation of your solution. It is absolutely OK if you found an answer on web then just exercise in $\LaTeX$ copying it into here.

Useful links:
[1](http://www.machinelearning.ru/wiki/images/2/2a/Matrix-Gauss.pdf)
[2](http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf)

## ex. 1

$$  
y = x^Tx,  \quad x \in \mathbb{R}^N
$$


$$
\frac{dy}{dx} = 2x^T
$$

In [12]:
import numpy as np

def ex1_derivative(x):

    x = np.array(x).flatten()
    return 2 * x.T

def print_solution():

    print("y = xᵀx, x ∈ ℝᴺ")
    print("dy/dx = 2xᵀ")

if __name__ == "__main__":
    print_solution()

y = xᵀx, x ∈ ℝᴺ
dy/dx = 2xᵀ


## ex. 2

$$ y = tr(AB) \quad A,B \in \mathbb{R}^{N \times N} $$

$$
\frac{dy}{dA} = B^T
$$


In [17]:
import numpy as np

def ex2_derivative(A, B):

    A = np.array(A)
    B = np.array(B)
    return B.T

def print_solution():

    print("y = tr(AB), A,B ∈ ℝᴺˣᴺ")
    print("dy/dA = Bᵀ")

if __name__ == "__main__":
    print_solution()

y = tr(AB), A,B ∈ ℝᴺˣᴺ
dy/dA = Bᵀ


## ex. 3

$$  
y = x^TAc , \quad A\in \mathbb{R}^{N \times N}, x\in \mathbb{R}^{N}, c\in \mathbb{R}^{N}
$$

$$
\frac{dy}{dx} = c^T A^T
$$

$$
\frac{dy}{dA} = x c^T
$$

Hint for the latter (one of the ways): use *ex. 2* result and the fact
$$
tr(ABC) = tr (CAB)
$$

In [19]:
import numpy as np

def ex3_derivatives(x, A, c):

    x = np.array(x).flatten()
    A = np.array(A)
    c = np.array(c).flatten()

    # dy/dx = c^T A^T
    dy_dx = c.T @ A.T

    # dy/dA = x c^T
    dy_dA = np.outer(x, c)

    return dy_dx, dy_dA

def print_solution():

    print("y = x^T A c, A ∈ ℝᴺˣᴺ, x ∈ ℝᴺ, c ∈ ℝᴺ")
    print("dy/dx = c^T A^T")
    print("dy/dA = x c^T")

if __name__ == "__main__":
    print_solution()

y = x^T A c, A ∈ ℝᴺˣᴺ, x ∈ ℝᴺ, c ∈ ℝᴺ
dy/dx = c^T A^T
dy/dA = x c^T


## ex. 4

Classic matrix factorization example. Given matrix $X$ you need to find $A$, $S$ to approximate $X$. This can be done by simple gradient descent iteratively alternating $A$ and $S$ updates.
$$
J = || X - AS ||_F^2  , \quad A\in \mathbb{R}^{N \times R} , \quad S\in \mathbb{R}^{R \times M}
$$
$$
\frac{dJ}{dS} = -2A^T(X - AS)
$$

You may use one of the following approaches:

#### First approach
Using ex.2 and the fact:
$$
|| X ||_F^2 = tr(XX^T)
$$
it is easy to derive gradients (you can find it in one of the refs).

#### Second approach
You can use *slightly different techniques* if they suits you. Take a look at this derivation:
<img src="grad.png">
(excerpt from [Handbook of blind source separation, Jutten, page 517](https://books.google.ru/books?id=PTbj03bYH6kC&printsec=frontcover&dq=Handbook+of+Blind+Source+Separation&hl=en&sa=X&ved=0ahUKEwi-q_apiJDLAhULvXIKHVXJDWcQ6AEIHDAA#v=onepage&q=Handbook%20of%20Blind%20Source%20Separation&f=false), open for better picture).

#### Third approach
And finally we can use chain rule!
let $ F = AS $

**Find**
$$
\frac{dJ}{dF} =  -2(X - F)
$$
and
$$
\frac{dF}{dS} =  \frac{dJ}{dF} \cdot \frac{dF}{dS} = A^T \frac{dJ}{dF}
$$
(the shape should be $ NM \times RM )$.

Now it is easy do get desired gradients:
$$
\frac{dJ}{dS} =  -2A^T(X - AS)
$$

In [8]:
import numpy as np

def matrix_factorization_all_approaches():

    print("MATRIX FACTORIZATION GRADIENTS \n")

    # First approach:
    print("FIRST APPROACH: Using trace properties")
    print("J = ||X - AS||_F^2 = tr((X - AS)(X - AS)^T)")
    print("dJ/dS = -2A^T(X - AS)\n")

    # Second approach:
    print("SECOND APPROACH: Direct computation")
    print("Using element-wise differentiation")
    print("dJ/dS = -2A^T(X - AS)\n")

    # Third approach:
    print("THIRD APPROACH: Chain rule")
    print("Let F = AS")
    print("dJ/dF = -2(X - F)")
    print("dF/dS shape: (N×M) × (R×M) - tensor derivative")
    print("In practice: dJ/dS = A^T @ dJ/dF")
    print("dJ/dS = -2A^T(X - AS)")

if __name__ == "__main__":
    matrix_factorization_all_approaches()

MATRIX FACTORIZATION GRADIENTS 

FIRST APPROACH: Using trace properties
J = ||X - AS||_F^2 = tr((X - AS)(X - AS)^T)
dJ/dS = -2A^T(X - AS)

SECOND APPROACH: Direct computation
Using element-wise differentiation
dJ/dS = -2A^T(X - AS)

THIRD APPROACH: Chain rule
Let F = AS
dJ/dF = -2(X - F)
dF/dS shape: (N×M) × (R×M) - tensor derivative
In practice: dJ/dS = A^T @ dJ/dF
dJ/dS = -2A^T(X - AS)


## 2. kNN questions
Here come the questions from the assignment0_01. Please, refer to the assignment0_01 to get the context of the questions.

### Question 1

Notice the structured patterns in the distance matrix, where some rows or columns are visible brighter. (Note that with the default color scheme black indicates low distances while white indicates high distances.)

- What in the data is the cause behind the distinctly bright rows?
- What causes the columns?

*Your Answer:* Яркие строки соответствуют тестовым выборкам, которые  отличаются от всех
обучающих выборок. Яркие столбцы соответствуют обучающим выборкам, которые
отличаются от всех тестовых выборок




### Question 2

We can also use other distance metrics such as L1 distance.
For pixel values $p_{ij}^{(k)}$ at location $(i,j)$ of some image $I_k$,

the mean $\mu$ across all pixels over all images is $$\mu=\frac{1}{nhw}\sum_{k=1}^n\sum_{i=1}^{h}\sum_{j=1}^{w}p_{ij}^{(k)}$$
And the pixel-wise mean $\mu_{ij}$ across all images is
$$\mu_{ij}=\frac{1}{n}\sum_{k=1}^np_{ij}^{(k)}.$$
The general standard deviation $\sigma$ and pixel-wise standard deviation $\sigma_{ij}$ is defined similarly.

Which of the following preprocessing steps will not change the performance of a Nearest Neighbor classifier that uses L1 distance? Select all that apply.
1. Subtracting the mean $\mu$ ($\tilde{p}_{ij}^{(k)}=p_{ij}^{(k)}-\mu$.)
2. Subtracting the per pixel mean $\mu_{ij}$  ($\tilde{p}_{ij}^{(k)}=p_{ij}^{(k)}-\mu_{ij}$.)
3. Subtracting the mean $\mu$ and dividing by the standard deviation $\sigma$.
4. Subtracting the pixel-wise mean $\mu_{ij}$ and dividing by the pixel-wise standard deviation $\sigma_{ij}$.
5. Rotating the coordinate axes of the data.

*Your Answer:* 1, 2, 3.


*Your Explanation:* Расстояние L1 инвариантно к операциям сдвига (варианты 1 и 2)
и глобальному масштабированию (вариант 3), поскольку эти операции сохраняют
относительные расстояния между точками данных. Однако расстояние L1 не инвариантно
к покомпонентному масштабированию (вариант 4) или вращению (вариант 5), которые
изменяют относительную важность различных признаков при вычислении расстояния



## Question 3

Which of the following statements about $k$-Nearest Neighbor ($k$-NN) are true in a classification setting, and for all $k$? Select all that apply.
1. The decision boundary (hyperplane between classes in feature space) of the k-NN classifier is linear.
2. The training error of a 1-NN will always be lower than that of 5-NN.
3. The test error of a 1-NN will always be lower than that of a 5-NN.
4. The time needed to classify a test example with the k-NN classifier grows with the size of the training set.
5. None of the above.

*Your Answer:* 2, 4.


*Your Explanation:* Утверждение 2 верно: 1-NN классификатор всегда достигает нулевой или минимально
возможной ошибки на обучающей выборке, поскольку каждый обучающий образец
является своим собственным ближайшим соседом и всегда классифицируется
правильно (при отсутствии дубликатов с разными метками). В то же время,
5-NN может допускать ошибки на обучении из-за механизма голосования
большинства - если среди 5 ближайших соседей есть образцы с разными
метками, может быть выбрана неверная метка.

Утверждение 4 верно: Временная сложность классификации в k-NN составляет
O(nd), где n - размер обучающей выборки, d - размерность данных. Это
обусловлено тем, что для каждого тестового образца необходимо вычислить
расстояния до всех n обучающих образцов. Следовательно, время классификации
линейно растет с увеличением размера обучающей выборки.

Остальные утверждения неверны:
- Утверждение 1: Граница решений k-NN нелинейна и представляет собой
  сложную кусочно-линейную поверхность (мозаику Вороного)
- Утверждение 3: На тестовой выборке 5-NN часто показывает лучшие
  результаты благодаря устойчивости к шуму и снижению переобучения
- Утверждение 5: Неверно, поскольку утверждения 2 и 4 являются верными


