In the tasks presented below derive the analytic expression of the requested objects. Do not
forget to transform result in the vector form, i.e. the answer in the form “the k-th element of the
gradient is ...” is not Ok. Please, derive the closed forms for the gradients.

1. (1.5 pts) Compute the gradients with respect to $ U \in \mathbb{R}^{n \times k} $ and $ V \in \mathbb{R}^{k \times n} $, $ k < n $, of the function
$$
J(U, V) =  \| UV - Y \|_F^2 + \frac{\lambda}{2} (\| U \|_F^2 + \| V \|_F^2),
$$
where $ \lambda > 0 $ is a given number. Also, $ \| A \|_F = \sqrt{\sum_{i,j} a_{ij}^2} $ denotes the Frobenius norm of the matrix $ A = [a_{ij}] $.


##### Solving
Gradient with respect to $ U $:
Using the chain rule and properties of matrix derivatives, we have:
$$
\nabla_U \| UV - Y \|_F^2 = 2 (UV - Y) V^T.
$$
For the regularization term:
$$
\nabla_U \left( \frac{\lambda}{2} \| U \|_F^2 \right) = \lambda U.
$$
Combining these results:
$$
\nabla_U J(U, V) = 2 (UV - Y) V^T + \lambda U.
$$

Gradient with respect to $ V $:
Similarly, we can find the gradient with respect to $ V $:
$$
\nabla_V \| UV - Y \|_F^2 = 2 U^T (UV - Y).
$$
And for the regularization term:
$$
\nabla_V \left( \frac{\lambda}{2} \| V \|_F^2 \right) = \lambda V.
$$
Combining these results:
$$
\nabla_V J(U, V) = 2 U^T (UV - Y) + \lambda V.
$$

Final Results for Problem 1:
The gradients are:
$$
\boxed{\nabla_U J(U, V) = 2 (UV - Y) V^T + \lambda U},
$$
$$
\boxed{\nabla_V J(U, V) = 2 U^T (UV - Y) + \lambda V}.
$$


______________________________________________________________________________________________________________________________________________

#### 2. (1 pt) Compute the gradient of the following function
$$
f(w) = \sum_{i=1}^{m} \left( \log(1 + e^{-y_i w^T x_i}) \right) + \frac{1}{2} \| w \|_2^2,
$$
where $ x_i \in \mathbb{R}^n $, $ y_i \in \mathbb{R} $.


_______________________________________________________________________________________________________________________________________________

##### Solving
Gradient of the first term:
Using the chain rule and properties of derivatives, we can find:
$$
\frac{\partial}{\partial w} \log\left(1 + e^{-y_i w^T x_i}\right) = -y_i \frac{e^{-y_i w^T x_i}}{1 + e^{-y_i w^T x_i}} x_i.
$$
This term represents the derivative of the logistic loss function. Summing over all $$ m $$:
$$
\nabla_w \sum_{i=1}^{m} \log\left(1 + e^{-y_i w^T x_i}\right) = -\sum_{i=1}^{m} y_i \frac{e^{-y_i w^T x_i}}{1 + e^{-y_i w^T x_i}} x_i.
$$
This can be expressed in terms of the sigmoid function:
$$
\sigma(z) = \frac{1}{1 + e^{-z}}.
$$
Therefore, the gradient becomes:
$$
-\sum_{i=1}^{m} y_i \sigma(-y_i w^T x_i) x_i.
$$

Gradient of the regularization term:
The gradient of the regularization term is:
$$
\nabla_w \left(\frac{1}{2} \|w\|_2^2\right) = w.
$$

Step 2: Combine Results
Putting both parts together gives:
$$
\nabla f(w) = -\sum_{i=1}^{m} y_i \sigma(-y_i w^T x_i) x_i + w.
$$

Final Result:
The gradient is:
$$
\boxed{\nabla f(w) = -\sum_{i=1}^{m} y_i \frac{e^{-y_i w^T x_i}}{1 + e^{-y_i w^T x_i}} x_i + w}.
$$

_______________________________________________________________________________________________________________________________________________

#### Аннотация
Норма Фробениуса — это обобщение евклидовой нормы на матрицы, и она определяется как квадратный корень из суммы квадратов всех элементов матрицы. Для матрицы $ A $ размером $ m \times n $ норма Фробениуса может быть записана следующим образом:

$$
\| A \|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2}
$$

где $ a_{ij} $ — элементы матрицы $ A $.

Когда мы рассматриваем задачи оптимизации, в которых участвуют матрицы, например, в методах машинного обучения или в методах низкоранговой матричной факторизации, норма Фробениуса часто используется в качестве функции потерь. Например, если мы хотим минимизировать разницу между некоторой матрицей $ A $ и ее приближением $ \hat{A} $ (например, через произведение матриц $ U $ и $ V $), мы можем использовать следующую функцию потерь:

$$
L(U, V) = \| A - UV \|_F^2
$$

Раскрывая квадрат нормы Фробениуса, мы получаем:

$$
L(U, V) = \sum_{i,j} |a_{ij} - (UV)_{ij}|^2
$$

Производные функции потерь по параметрам $ U $ и $ V $ становятся более простыми благодаря свойствам нормы Фробениуса.

### Вычисление градиентов

Для нахождения градиентов по $ U $ и $ V $ мы применяем правила дифференцирования. Например, чтобы найти градиент по $ U $:

1. Выражаем $ \hat{A} = UV $ и находим производную:

$$
\frac{\partial L}{\partial U} = -2 (A - UV) V^T
$$

2. Аналогично, для градиента по $ V $:

$$
\frac{\partial L}{\partial V} = -2 U^T (A - UV)
$$

Эти выражения являются очень удобными для вычисления, так как они легко обрабатываются с помощью матричных операций. Кроме того, использование нормы Фробениуса позволяет избежать сложных выражений, которые могут возникнуть при использовании других норм или метрик.

### Преимущества использования нормы Фробениуса

1. **Простота**: Градиенты, полученные с использованием нормы Фробениуса, имеют простую и понятную форму, что облегчает реализацию алгоритмов оптимизации.

2. **Эффективность**: Вычисление градиентов с использованием матричных операций часто оказывается более эффективным, особенно при работе с большими матрицами.

3. **Сходимость**: Алгоритмы, использующие норму Фробениуса, часто демонстрируют хорошую сходимость и ведут к более стабильным результатам.

Таким образом, использование нормы Фробениуса в задачах, связанных с матрицами, значительно упрощает процесс вычисления градиентов и, как следствие, оптимизации.

#### Problem 2

1. (1 pts) Compute the Jacobi matrix of the following function $ f : \mathbb{R}^n \to \mathbb{R}^n $, defined as 
$
f(w)_j = \sum_{k=1}^{n} w_k e^{w_k}.
$

Also, consider how to compute this function in a stable manner if one of the elements in $ w $ is large. In this task, elementwise answer is Ok.

2. (0.5 pts) Compute the gradient of the following functions with respect to matrix $ X $:

    a) $ f(X) = \sum_{i=1}^{n} \lambda_i(X) $
    
    b) $ f(X) = \prod_{i=1}^{n} \lambda_i(X) $,
    
where $ \lambda_i(X) $ is the $ i $-th eigenvalue of matrix $ X $.


##### Part 1: Jacobi Matrix of Function $ f : \mathbb{R}^n \to \mathbb{R}^n $

The function $ f(w) $ is defined elementwise as:

$$
f(w)_j = \sum_{k=1}^{n} w_k e^{w_k}.
$$

#### Jacobi Matrix

The Jacobi matrix $ J_f(w) $ of a vector-valued function $ f: \mathbb{R}^n \to \mathbb{R}^n $ is an $ n \times n $ matrix where the entry at the $ j $-th row and $ k $-th column is given by the partial derivative $ \frac{\partial f_j}{\partial w_k} $.

For the given function, the partial derivatives are:

- If $ j = k $:
  $$
  \frac{\partial f(w)_j}{\partial w_k} = e^{w_k} + w_k e^{w_k}.
  $$

- If $ j \neq k $:
  $$
  \frac{\partial f(w)_j}{\partial w_k} = e^{w_k}.
  $$

Thus, the Jacobi matrix $ J_f(w) $ is:

$$
J_f(w) = 
\begin{bmatrix}
e^{w_1} + w_1 e^{w_1} & e^{w_2} & \cdots & e^{w_n} \\
e^{w_1} & e^{w_2} + w_2 e^{w_2} & \cdots & e^{w_n} \\
\vdots & \vdots & \ddots & \vdots \\
e^{w_1} & e^{w_2} & \cdots & e^{w_n} + w_n e^{w_n}
\end{bmatrix}.
$$

#### Stability Consideration

If any component $ w_k $ is large, the expression $ w_k e^{w_k} $ can result in overflow. To compute $ w_k e^{w_k} $ more stably, consider using log transformations:

$$
w_k e^{w_k} = \exp(\log(w_k) + w_k)
$$

This transformation may help alleviate numerical instability with large $ w_k $.

#### Part 2: Gradient with respect to Matrix $ X $

##### Part 2a: $ f(X) = \sum_{i=1}^{n} \lambda_i(X) $

For a symmetric matrix $ X $, the sum of its eigenvalues is equal to its trace:

$$
f(X) = \sum_{i=1}^{n} \lambda_i(X) = \text{tr}(X).
$$

The gradient of the trace function with respect to $ X $ is simply the identity matrix:

$$
\nabla_X f(X) = I.
$$

##### Part 2b: $ f(X) = \prod_{i=1}^{n} \lambda_i(X) $

The product of eigenvalues of a matrix is its determinant:

$$
f(X) = \det(X).
$$

The gradient of the determinant with respect to $ X $ is given by the cofactor matrix:

$$
\nabla_X f(X) = \det(X) \cdot X^{-T}.
$$

For the gradient to exist and be well-defined, $ X $ should be invertible (i.e., full rank).

These results rely on the properties of symmetric matrices and their eigenvalues. For non-symmetric matrices, one would have to consider more advanced techniques such as differentiating through the eigendecomposition.