# 1 практическое задание. Обучение полносвязной нейронной сети.

**ФИО**: Кожемяк Виталий Васильевич

**Дедлайн**: 29 сентября 2020

In [1]:
import numpy as np

# Реализация нейронной сети (15 баллов)
В этом задании вы обучите полносвязную нейронную сеть распознавать рукописные цифры, [почти] самостоятельно реализовав все составляющие алгоритма обучения и предсказания.

Для начала нам понадобится реализовать прямой и обратный проход через слои. Наши слои будут соответствовать следующему интерфейсу (на примере "тождественного" слоя):

In [2]:
class IdentityLayer:
    """
    A building block. Each layer is capable of performing two things:
    
    - Process input to get output:           
    output = layer.forward(input)
    
    - Propagate gradients through itself:    
    grad_input = layer.backward(input, grad_output)
    
    Some layers also have learnable parameters.
    
    Modified code from cs.hse DL course *
    """
    def __init__(self):
        """Here you can initialize layer parameters (if any) 
        and auxiliary stuff. You should enumerate all parameters
        in self.params"""
        # An identity layer does nothing
        self.params = []
        pass
    
    def forward(self, input):
        """
        Takes input data of shape [batch, input_units], 
        returns output data [batch, output_units]
        """
        # An identity layer just returns whatever it gets as input.
        self.input = input
        return input

    def backward(self, grad_output): 
        """
        Performs a backpropagation step through the layer, 
        with respect to the given input.
        
        To compute loss gradients w.r.t input, 
        you need to apply chain rule (backprop):
        
        d loss / d input  = (d loss / d layer) *  (d layer / d input)
        
        Luckily, you already receive d loss / d layer as input, 
        so you only need to multiply it by d layer / d x.
        
        The method returns:
        * gradient w.r.t input (will be passed to 
          previous layer's backward method)
        * flattened gradient w.r.t. parameters (with .ravel() 
          applied to each gradient). 
          If there are no params, return []
        """
        # The gradient of an identity layer is precisely grad_output
        input_dim = self.input.shape[1]
        
        d_layer_d_input = np.eye(input_dim)
        
        return np.dot(grad_output, d_layer_d_input), [] # chain rule


# Слой нелинейности ReLU
Для начала реализуем слой нелинейности $ReLU(x) = max(x, 0)$. Параметров у слоя нет. Метод forward должен вернуть результат поэлементного применения ReLU к входному массиву, метод backward - градиент функции потерь по входу слоя. В нуле будем считать производную равной 0. Обратите внимание, что при обратном проходе могут понадобиться величины, посчитанные во время прямого прохода, поэтому их стоит сохранить как атрибут класса.

Denote 
$$
ReLU(\vec{x}) = ReLU(x_1, \ldots, x_n) = (\max(0, x_1), \ldots, \max(0, x_n)),
$$ where $n$ - number of inputs.
Thus,
$$ 
\dfrac{\partial ReLU(\vec{x})}{\partial \vec{x}} = 
\begin{bmatrix}
\dfrac{\partial \max(0, x_1)}{\partial x_1} & 0 & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots & \\
0 & 0 & \ldots & \dfrac{\partial \max(0, x_n)}{\partial x_n}
\end{bmatrix}
$$
with 
$$
\dfrac{\partial\max(0, x_i)}{\partial x_i} = 
\begin{cases}
1, & x_i > 0,\\
0, & x_i \leqslant 0,
\end{cases}
$$
where $i = {1, \ldots, n}$

In [3]:
class ReLU:
    """
    Modified code from cs.hse DL course *
    """
    def __init__(self):
        """ReLU layer simply applies elementwise rectified linear unit to all inputs"""
        self.params = [] # ReLU has no parameters
        self.input = None
    
    def forward(self, input):
        """Apply elementwise ReLU to [batch, num_units] matrix"""
        self.input = input
        return np.maximum(input,  0)
        
    
    def backward(self, grad_output):
        """Compute gradient of loss w.r.t. ReLU input
        grad_output shape: [batch, num_units]
        output 1 shape: [batch, num_units]
        output 2: []
        """
        output = np.zeros(grad_output.shape)
        mask = ~(self.input <= 0)
        d_layer_d_input = 1 * mask
        output = grad_output * d_layer_d_input
        
        return output, []

# Полносвязный слой
Далее реализуем полносвязный слой без нелинейности. У слоя два параметра: матрица весов и вектор сдвига.

Обратите внимание на второй аргумент: в нем надо возвращать градиент по всем параметрам в одномерном виде. Для этого надо сначала применить .ravel() ко всем градиентам, а затем воспользоваться np.r_:

In [4]:
class Dense:
    """
    Modified code from cs.hse DL course *
    """
    def __init__(self, input_units, output_units):
        """
        A dense layer is a layer which performs a learned affine transformation:
        f(x) = W x + b
        """
        # initialize weights with small random numbers from normal distribution
        self.weights = np.random.randn(input_units, output_units)*0.01
        self.biases = np.zeros(output_units)
        self.params = [self.weights, self.biases]
        self.input = None
        
    def forward(self, input):
        """
        Perform an affine transformation:
        f(x) = W x + b
        
        input shape: [batch, input_units]
        output shape: [batch, output units]
        """
        self.input = input
        output = np.dot(input, self.weights) + self.biases
        return output
        
    
    def backward(self, grad_output):
        """
        compute gradients
        grad_output shape: [batch, output_units]
        output shapes: [batch, input_units], [num_params]
        
        hint: use function np.r_
        np.r_[np.arange(3), np.arange(3)] = [0, 1, 2, 0, 1, 2]
        """
        self.grad_b = np.ones(self.biases.shape[0])
        self.grad_W = np.dot(self.input.T, grad_output)
        return np.dot(grad_output, self.weights.T), list(np.ravel(self.grad_W)) + list(np.ravel(self.grad_b))

# Проверка градиента
Проверим правильность реализации с помощью функции численной проверки градиента. Функция берет на вход callable объект (функцию от одного аргумента-матрицы) и аргумент и вычисляет приближенный градиент функции в этой точке.

In [5]:
def eval_numerical_gradient(f, x, h=0.00001):
    """Evaluates gradient df/dx via finite differences:
    df/dx ~ (f(x+h) - f(x-h)) / 2h
    x has dimension[batch_size, input_size]
    """
    fx = f(x) # evaluate function value at original point
    grad = np.zeros_like(x)
    # iterate over all indexes in x

    for i in range(x.shape[1]):
        # evaluate function at x+h
        oldval = x[:, i].copy()
        x[:, i] = oldval + h # increment by h
        fxph = f(x) # evalute f(x + h)
        x[:, i] = oldval - h
        fxmh = f(x) # evaluate f(x - h)
        x[:, i] = oldval # restore

        # compute the partial derivative with centered formula
        grad[:, i] = (fxph - fxmh) / (2 * h) # the slope

    return grad

Вычислите аналитический и численный градиенты по входу слоя ReLU от функции$$ f(y) = \sum_i y_i, \quad y = ReLU(x) $$

Следующая ячейка после заполнения должна не выдавать ошибку :)

In [6]:
x = np.linspace(-1, 1, 10*12).reshape([10, 12])

grads = (~(x <= 0)) * 1
f = lambda x: np.sum(np.maximum(x,  0), axis=1)
numeric_grads = eval_numerical_gradient(f, x, h=0.00001)


assert np.allclose(grads, numeric_grads, rtol=1e-3, atol=0)

Вычислите аналитический и численный градиенты по входу полносвязного слоя от функции$$ f(y) = \sum_i y_i, \quad y = W x + b $$

In [7]:
x = np.linspace(-1, 1, 10*12).reshape([10, 12])
l = Dense(12, 32)

f = lambda x: np.sum(x @ l.weights + l.biases, axis=1)
grads = np.ones(x.shape) * l.weights.T.sum(axis=0)
numeric_grads = eval_numerical_gradient(f, x, h=0.00001)


assert np.allclose(grads, numeric_grads, rtol=1e-3, atol=0)

# Softmax

Реализация softmax-слоя и функции потерь
Для решения задачи многоклассовой классификации обычно используют softmax в качестве нелинейности на последнем слое, чтобы получить вероятности классов для каждого объекта:$$\hat y = softmax(x)  = \bigl \{\frac {exp(x_i)}{\sum_j exp(x_j)} \bigr \}_{i=1}^K, \quad K - \text{число классов}$$В этом случае удобно оптимизировать логарифм правдоподобия:$$L(y, \hat y) = -\sum_{i=1}^K y_i \log \hat y_i \rightarrow \min,$$где $y_i=1$, если объект принадлежит $i$-му классу, и 0 иначе. Записанная в таком виде, эта функция потерь совпадает с выражением для кросс-энтропии. Очевидно, что ее также можно переписать через индексацию, если через $y_i$ обозначить класс данного объекта:$$L(y, \hat y) = - \log \hat y_{y_i} \rightarrow \min$$В таком виде ее удобно реализовывать.

Реализуйте слой Softmax (без параметров). Метод forward должен вычислять логарифм от softmax, а метод backward - пропускать градиенты. В общем случае в промежуточных вычислениях backward получится трехмерный тензор, однако для нашей конкретной функции потерь все вычисления можно реализовать в матричном виде. Поэтому мы будем предполагать, что аргумент grad_output - это матрица, у которой в каждой строке только одно ненулевое значение (не обязательно единица).

In [8]:
from scipy.special import logsumexp
# use this function instead of np.log(np.sum(np.exp(...))) !
# because it is more stable

In [9]:
class Softmax:
    def __init__(self):
        self.params = []
        self.input = None
        
    def forward(self, input):
        """
        Applies softmax to each row and then applies component-wise log
        Input shape: [batch, num_units]
        Output shape: [batch, num_units]
        """
        self.input = input
        output = (
            input
            - np.max(input, axis=1, keepdims=True) 
            - logsumexp(input - np.max(input, axis=1, keepdims=True), axis=1).reshape(-1, 1)
        )
        return output
        
    
    def backward(self, grad_output):
        """
        Propagartes gradients.
        Assumes that each row of grad_output contains only 1 
        non-zero element
        Input shape: [batch, num_units]
        Output shape: [batch, num_units]
        Do not forget to return [] as second value (grad w.r.t. params)
        """
        softmax = np.exp(
            self.input
            - np.max(self.input, axis=1, keepdims=True) 
            - logsumexp(self.input - np.max(self.input, axis=1, keepdims=True), axis=1, keepdims=True)
        )
        output = grad_output - (softmax * grad_output.sum(axis=1, keepdims=True))
        return output, []

# Dropout
Реализуйте слой Dropout. Сравните обучение сети из большого числа слоёв при использовании Dropout и без его использования (предварительно подберите адекватный параметр p). Сделайте выводы. Используя метод оптимизации из первого бонусного пункта.

In [10]:
class Dropout:
    def __init__(self, p):
        self.params = []
        self.p = p
        
    def forward(self, input):
        """
        Randomly  drops connections between nurons.
        Input shape: [batch, num_units]
        Output shape: [batch, num_units]
        """
        ### your code here
        
    
    def backward(self, grad_output):
        """
        Propagartes gradients.
        Assumes that each row of grad_output contains only 1 
        non-zero element
        Input shape: [batch, num_units]
        Output shape: [batch, num_units]
        Do not forget to return [] as second value (grad w.r.t. params)
        """
        ### your code here

Реализуйте функцию потерь и градиенты функции потерь.

In [11]:
def crossentropy(activations, target):
    """
    returns negative log-likelihood of target under model represented by
    activations (log probabilities of classes)
    each arg has shape [batch, num_classes]
    output shape: 1 (scalar)
    """
    return (np.where(target == 1, -activations, 0)).sum()
    

def grad_crossentropy(activations, target):
    """
    returns gradient of negative log-likelihood w.r.t. activations
    each arg has shape [batch, num_classes]
    output shape: [batch, num-classes]
    
    hint: this is just one-hot encoding of target vector
          multiplied by -1
    """
    return np.where(target == 1, -1 / np.exp(activations), 0)

Наконец, выполните проверку softmax-слоя, используя функцию потерь и ее градиент.

# Загрузка данных
Мы реализаовали все архитектурные составляющие нашей нейронной сети. Осталось загрузить данные и обучить модель. Мы будем работать с датасетом digits, каждый объект в котором - это 8x8 изображение рукописной цифры.

In [12]:
import matplotlib.pyplot as plt
%matplotlib inline

In [13]:
from sklearn.datasets import load_digits

In [14]:
X, y = load_digits(return_X_y=True)

In [15]:
def encode(label):
    batch_size = len(label)
    res = np.zeros((batch_size, 10))
    res[np.arange(batch_size), label - 1] = 1
    return res

y = encode(y)

In [16]:
X.shape, y.shape

((1797, 64), (1797, 10))

Разделим данные на обучение и контроль:

In [17]:
from sklearn.model_selection import train_test_split

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [19]:
X_train.shape, X_test.shape

((1347, 64), (450, 64))

# Сборка и обучение нейронной сети (5 балла)

В нашей реализации нейросеть - это список слоев. Например:

In [20]:
def create_network():
    network = []
    hidden_layers_size = 32
    network.append(Dense(X_train.shape[1], hidden_layers_size))
    network.append(ReLU())
    network.append(Dense(hidden_layers_size, hidden_layers_size))
    network.append(ReLU())
    network.append(Dense(hidden_layers_size, 10))
    network.append(Softmax())
    return network

network = create_network()

Для проверки, хорошо ли сеть обучилась, нам понадобится вычислять точность (accuracy) на данной выборке. Для этого реализуйте функцию, которая делает предсказания на каждом объекте:

In [21]:
def predict(network, X):
    """
    returns predictions for each object in X
    network: list of layers
    X: raw data
    X shape: [batch, features_num]
    output: array of classes, each from 0 to 9
    output shape: [batch]
    """
    output = X.copy()
    for layer in network:
        output = layer.forward(output)
    
    return output

Мы будем обучать параметры нейросети с помощью готовой функции оптимизации из модуля scipy:

In [22]:
from scipy.optimize import minimize


Эта функция имеет стандартный интерфейс: нужно передать callable объект, который вычисляет значение и градиент целевой функции, а также точку старта оптимизации - начальное приближение (одномерный numpy-массив). Поэтому нам понадобятся функции для сбора и задания всех весов нашей нейросети (именно для них мы всегда записывали параметры слоя в список layer.params)

In [23]:
def get_weights(network):
    weights = []
    for layer in network:
        for param in layer.params:
            weights += param.ravel().tolist()
    return np.array(weights)

def set_weights(weights, network):
    i = 0
    for layer in network:
        for param in layer.params:
            l = param.size
            param[:] = weights[i:i+l].\
                             reshape(param.shape)
            i += l

Вам нужно реализовать ту самую функцию, которую мы будем передавать в minimize. Эта функция должна брать на вход текущую точку (вектор всех параметров), а также список дополнительных параметров (мы будем передавать через них нашу сеть и обучающие данные) и возвращать значение критерия качества (кросс-энтропия) и его градиент по параметрам модели.

In [24]:
def compute_loss_grad(weights, args):
    """
    takes current weights and computes cross-entropy and gradients
    weights shape: [num_parameters]
    output 1: loss (scalar)
    output 2: gradint w.r.t. weights, shape: [num_parameters]
    
    hint: firstly perform forward pass through the whole network
    then compute loss and its gradients
    then perform backward pass, transmitting first baskward output
    to the previos layer and saving second baskward output in a list
    finally flatten all the gradients in this list
    (in the order from the first to the last layer)
    
    Do not forget to set weights of the network!
    """
    network, X, y = args
    set_weights(weights, network)
    
    output = X.copy()
    for layer in network:
        output = layer.forward(output)
        
    loss = crossentropy(output, y)
    grad = grad_crossentropy(output, y)
    
    final_grad = []
    for i in range(len(network) - 1, -1, -1):
        grad, g = network[i].backward(grad)
        final_grad += g
        
    return loss, final_grad

Теперь мы готовы обучать нашу нейросеть.

In [25]:
network = create_network()
weights = get_weights(network)

In [26]:
res = minimize(compute_loss_grad, weights,  # fun and start point
               args=[network, X_train, y_train], # args passed to fun
               method="L-BFGS-B", # optimization method
               jac=True) # says that gradient are computed in fun

In [27]:

res["nit"] # number of iterations (should be >> 10)

0

In [28]:
res["success"] # should be True

False

In [29]:
res["x"] # leraned weights

array([-0.02131534,  0.00059992, -0.01097774, ...,  0.        ,
        0.        ,  0.        ])

Выведите качество на обучении (X_train, y_train) и на контроле (X_test, y_test. Не забудьте установить веса!

In [30]:
set_weights(res["x"], network)

In [31]:
crossentropy(predict(network, X_train), y_train)

3101.635865041483

In [32]:
crossentropy(predict(network, X_test), y_test)

1036.1547012147862

У minimize есть также аргумент callback - в нее можно передать функцию, которая будет вызываться после каждой итерации оптимизации. Такую функцию удобно оформить в виде метода класса, который будет сохранять качество на обучении контроле после каждой итерации. Реализуйте этот метод в классе Callback:

In [33]:
from sklearn.metrics import accuracy_score

class Callback:
    def __init__(self, network, X_train, y_train, X_test, y_test, print=False):
        self.network = network
        self.X_train = X_train
        self.X_test = X_test
        self.y_train = y_train
        self.y_test = y_test
        self.print = print
        self.train_acc = []
        self.test_acc = []
        
    def call(self, weights):
        """
        computes quality on train and test set with given weights
        and saves to self.train_acc and self.test_acc
        if self.print is True, also prints these 2 values
        """
        set_weights(weights, network)
        
        
        output = self.X_train
        for layer in network:
            output = layer.forward(output)
            
        y_pred = np.argmax(np.exp(output), axis=1) + 1
        self.train_acc.append(accuracy_score(y_pred, self.y_train))
        
        output = self.X_test
        for layer in network:
            output = layer.forward(output)
            
        y_pred = np.argmax(np.exp(output), axis=1) + 1
        self.train_acc.append(accuracy_score(y_pred, self.y_test))
        
        
        self.test_acc.append(accuracy_score(y_pred))
        if print:
            print(
                "train_acc = {}, test_acc = {}".format(
                self.train_acc[-1],
                self.test_acc[-1]
                )
            )

In [34]:
cb = Callback(network, X_train, y_train, X_test, y_test, print=True)
res = minimize(compute_loss_grad, weights,  
               args=[network, X_train, y_train], 
               method="L-BFGS-B",
               jac=True,
               callback=cb.call)

Изобразите на графике кривую качества на обучени ии контроле по итерациям:

In [None]:
plt.plot(cb.train_acc, label="train acc")
plt.plot(cb.test_acc, label="test acc")
plt.xlabel("Iteration")
plt.ylabel("Accuracy")
plt.legend()

Эксперименты с числом слоев (2 балла)

Ясно, что из-за случайного начального приближения с каждым запуском обучения мы будем получать различное качество. Попробуем обучать нашу нейросеть с разным числом слоев несколько раз.

Заполните матрицы accs_train и accs_test. В позиции [i, j] должна стоять величина точности сети с $i+1$ полносвязными слоями при $j$-м запуске (все запуски идентичны).

In [None]:
accs_test = np.zeros((5, 5))
accs_train = np.zeros((5, 5))

In [None]:
### your code here

Построим боксплоты полученного качества (горизонтальная линия в каждом столбце - среднее, прямоугольник показывает разброс).

In [None]:
plt.boxplot(accs_test.T, showfliers=False)
plt.xlabel("Num layers")
plt.ylabel("Test accuracy")
plt.title("Test quality in 5 runs")

Ответьте на вопросы (кратко в этой же ячейке):

Как изменяются качество на обучении и контроле и устойчивость процесса обучения при увеличении числа слоев?
Можно ли сказать, что логистическая регрессия (линейная модель) дает качество хуже, чем нелинейная модель?
* Несколько фрагментов кода в задании написаны на основе материалов курса по глубинному обучению на ФКН НИУ ВШЭ

# Бонусная часть.

## Реализация метода оптимизации (2 балла).
Реализуйте сами метод оптимизации (аналог функции minimize) для рассмотренной выше архитектуры. В качестве метода оптимизации используйте SGD + momentum. Продемонстрируйте правильную работу метода оптимизации, сравните его работы с LBFGS-B. Сделайте выводы.

# 1D Сверточный слой (2 балла).

Сверткой сигнала $\mathbf{x}$ ядром  $\mathbf{k}$ называется переобразование:
$$
 y_i = (\mathbf{x} \circ \mathbf{k})_i = \sum \limits_{j=i-t}^{i+t} x_j \cdot k_{j-i+t}, \; |\mathbf{k}| = 2t + 1
$$

Найти явные формулы для:

$$
\frac{\partial \mathbf y}{\partial \mathbf x}, \; \frac{\partial \mathbf y}{\partial \mathbf k}
$$

Почему использование сверточных слоев может быть вычислительно выгодно в контексте глубинного обучения?

**Замечание**: Требуется привести аналитическое решение (можно не программировать)!


Define 
$$
\vec{x} = (x_0, \ldots, x_{m-1}), \\
\vec{w} = (w_{-p}, \ldots, w_0, \ldots, x_p), \\
\vec{y} = (y_0, \ldots, y_{m-1}).
$$
Rewrite given equation as follows
$$
y_j = \sum \limits_{k=-p}^p x_{j - k} w_k. 
$$ 

___1 case___
Note that
$$
\dfrac{\partial y_{j + p}}{\partial x_j} = w_p, ~ \dfrac{\partial y_{j + p - 1}}{\partial x_j} = w_{p - 1}, \ldots \dfrac{\partial y_{j - p + 1}}{\partial x_j} = w_{-p+1}, ~ \dfrac{\partial y_{j - p}}{\partial x_j} = w_{-p}
$$
and there is no dependence on index $j.$

Thus, 
$$
\dfrac{\partial y_{j + k}}{x_j} = w_k,\\
\dfrac{\partial \mathcal{L}}{\partial x_j} = \sum \limits_{k=-p}^p \dfrac{\partial \mathcal{L}}{\partial y_{j + k}} \dfrac{\partial y_{j + k}}{\partial x_j} = \sum \limits_{k=-p}^p \dfrac{\partial \mathcal{L}}{\partial y_{j + k}} w_k.
$$
___2 case___
Note that
$$
\dfrac{\partial y_{j}}{\partial w_p} = x_{j-p}, ~ \dfrac{\partial y_{j}}{\partial x_{p-1}} = w_{j-p+1}, \ldots \dfrac{\partial y_{j}}{\partial w_{-p + 1}} = x_{j+p-1}, ~ \dfrac{\partial y_{j}}{\partial w_{-p}} = x_{j+p}.
$$

Thus, 
$$
\dfrac{\partial y_{j}}{w_k} = x_{j-k},\\
\dfrac{\partial \mathcal{L}}{\partial w_k} = \sum \limits_{j=0}^{m-1} \dfrac{\partial \mathcal{L}}{\partial y_{j}} \dfrac{\partial y_{j}}{\partial w_k} = \sum \limits_{j=0}^{m-1} \dfrac{\partial \mathcal{L}}{\partial y_{j}} w_{j-k}.
$$

# Квадратичная форма (4 балла).

Пусть имеется функция:
$$
Q = Q(\vec{x}) = \vec{x}^\top W^\top W \vec{x}
$$

Вычислить производные, предложить алгоритм для backpropagation через данное преобразование:
$$
\frac{\partial Q}{\partial \vec{x}}, \; \frac{\partial Q}{\partial W}
$$

**Замечание**: Требуется привести аналитическое решение (можно не программировать)!

Let's $W \in \mathbb{R}^{m \times n}$ be a matrix and $\vec{x} \in \mathbb{R}^n$ be a column-vector. Consider the map $Q: \mathbb{R}^n \rightarrow \mathbb{R}.$

___1 case___
$$
\dfrac{\partial Q(\vec{x})}{\partial \vec{x}} = \left(\dfrac{\partial Q}{\partial x_1}, \ldots, \dfrac{\partial Q}{\partial x_n} \right)^T.
$$
Rewrite the next equation $Q(\vec{x}) = \vec{x}^T W^T W^T \vec{x} = \langle \vec{x}, W^T W \vec{x} \rangle.$ Now we can differentiate the dot product:
$$
\dfrac{\partial Q(\vec{x})}{\partial \vec{x}} = 2 W^T W \vec{x}.
$$

___2 case___
$$
\dfrac{\partial Q(\vec{x})}{\partial W} = 
\begin{bmatrix}
\dfrac{\partial Q}{\partial w_{11}} & \ldots & \dfrac{\partial Q}{\partial w_{1n}} \\
\vdots & \ddots & \vdots \\
\dfrac{\partial Q}{\partial w_{m1}} & \ldots & \dfrac{\partial Q}{\partial w_{mn}}
\end{bmatrix}.
$$

Rewrite the next equation $Q(\vec{x}) = \vec{x}^T W^T W^T \vec{x} = \langle W \vec{x}, W \vec{x} \rangle = \sum \limits_{i = 1}^m [W \vec{x}]_i^2 = \sum \limits_{i=1}^m \left(\sum \limits_{j=1}^n w_{ij} x_j \right)^2.$ Now we can differentiate this sum as follows:
$$
\dfrac{\partial Q(\vec{x})}{\partial w_{ij}} = 2 x_j (w_{i1}x_1 + \ldots + w_{in}x_n).
$$
Thus, 
$$
\dfrac{\partial Q(\vec{x})}{\partial W} = 2 W \vec{x} \cdot \vec{x}^T.
$$

__Idea!__ 
* 1 Remember $\vec{x}$ while running forward propagation like $\dfrac{\partial Q(\vec{x})}{\partial \vec{x}}.$ 
* 2 Calculate loss function + gradient w.r.t. W.
* 3 Substitute $\vec{x}$ from the forward propagation in $\dfrac{\partial Q(\vec{x})}{\partial W}$  while running backward propagation.