# Automatic differentiation and jax (part 2)

## №1
#### Работаем с функцией $f(x,y) = e^{-(sin(x)-cos(y))^2}$. Нарисуем вычислительный граф для этой функции, содержащий только примитивные операции.

In [1]:
import jax
from jax import numpy, grad


# задаём функцию двух перменнных
def func(xy):
    return numpy.exp(-(numpy.sin(xy[0])-numpy.cos(xy[1]))**2)


# берём её градиент, пользуясь функцией из jax
def dexp(xy):
    return grad(func)(xy)

# создаём XLA представление функции dexp на входном массиве из 2 единиц
z=jax.xla_computation(dexp)(numpy.ones(2))


# создаём текстовый файл с HLO
with open("t.txt", "w") as f:
    f.write(z.as_hlo_text())

# создаём дамп в виде точеченого графика
with open("t.dot", "w") as f:
    f.write(z.as_hlo_dot_graph())

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)


In [2]:
# запускаем dot
!"C:\Program Files\Graphviz\bin\dot.exe" t.dot  -Tpng > t.png

#### Вот сам граф:

![](t.png)

#### При решении задачи использовался источник, прикреплённый в качестве примера в условии задачи.

## №2

#### Найдём градиент функции $f(A) = tr(e^{A})$. Используем подход автоматического дифференцирования, библиотеку jax.

In [63]:
import jax.numpy as jnp
from jax import grad
from jax.scipy.linalg import expm


# функция вычисления матричной экспоненты
def expm(A: jnp.ndarray, n=50) -> jnp.ndarray:
    dim = jnp.shape(A)[0]  # размерность квадратной матрицы
    eA, temp = jnp.eye(dim), jnp.eye(dim)  # инициализация результата и промежуточной переменной единичной матрицей
    
    for i in range(1, n+1):
        # вычисление текущего члена ряда
        temp = jnp.dot(temp, A) / i
         # добавление текущего члена к результату
        eA += temp
        
    return eA


def trace_expm(A):
    exp_A = expm(A)
    return jnp.trace(exp_A)


# матрица для примера
A = jnp.array([[1.0, 2.0, 2.0],
               [3.0, 4.0, 1.0],
               [7.0, 8.0, 1.0]])

grad_trace_expm = grad(trace_expm)
print('Градиент f(A) с использванием JAX:\n', grad_trace_expm(A), sep='')

Градиент f(A) с использванием JAX:
[[1008.53906 1272.6573  2379.633  ]
 [1349.854   1706.0433  3187.2878 ]
 [ 465.00275  586.44183 1097.0242 ]]


#### Теперь надо данный результат сравнить с тем, что был получен аналитически в первой части задания. Аналитика показала, что градиент такой функции - это просто транспонированная экспонента матрицы. Убедимся в этом и тут:

In [64]:
# печатаем на экран градиент, полученный JAX-ом
print('Градиент f(A) с использванием JAX:')
print(grad_trace_expm(A), '\n', sep='')

# печатаем на экран градиент, полученный аналитически, то есть (e^A)^T
print('Градиент f(A) согласно аналитическому выражению:')
print(jnp.transpose(expm(A)))

Градиент f(A) с использванием JAX:
[[1008.53906 1272.6573  2379.633  ]
 [1349.854   1706.0433  3187.2878 ]
 [ 465.00275  586.44183 1097.0242 ]]

Градиент f(A) согласно аналитическому выражению:
[[1008.539   1272.657   2379.6326 ]
 [1349.8539  1706.0433  3187.2878 ]
 [ 465.00275  586.4419  1097.0242 ]]


#### Как видно, с высокой степенью точности градиент, полученный с помощью JAX совпадает с градиентом, полученным в первой части задания аналитически.

## №5

#### Определим градиент функции $f(x)=x^{T}xx^{T}x$.

In [65]:
import jax.numpy as jnp
from jax import grad


# определяем функцию f(x)
def dot_square(x: jnp.ndarray) -> jnp.float64:
    return jnp.dot(x, x) * jnp.dot(x, x)


# находим градиент написанной функции на примере произвольного вектора ex
ex = jnp.array([1, 2, 3.2])

grad_dot_square = grad(dot_square)
print("Градиент функции f(x), вычисленный с помощью JAX:", grad_dot_square(ex))

Градиент функции f(x), вычисленный с помощью JAX: [ 60.960003 121.920006 195.072   ]


#### Посчитаем теперь градиент функции вручную:
#### $df=d(\textlangle x, x\rangle  \textlangle x, x\rangle)=2\textlangle x, x\rangle d(\textlangle x, x\rangle)=2\textlangle x, x\rangle\textlangle 2x, dx\rangle=\textlangle 4x^{T}x*x, dx\rangle\Rightarrow\boxed{\nabla f(x)=4x^{T}x*x}$
#### Сравним теперь полученный аналитически гражиент с тем, что был получен выше при помощи JAX:

In [66]:
# задаём функцю аналитически полученного градиента
def analytaical_grad(x: jnp.ndarray) -> jnp.ndarray:
    return 4 * jnp.dot(x, x) * x

print("Градиент функции f(x), вычисленный с помощью JAX:", grad_dot_square(ex))
print("Градиент функции f(x), вычисленный аналитически:", analytaical_grad(ex))

Градиент функции f(x), вычисленный с помощью JAX: [ 60.960003 121.920006 195.072   ]
Градиент функции f(x), вычисленный аналитически: [ 60.960003 121.920006 195.072   ]


#### Как видим, аналитический градиент и градиент, вычисленный с помощью JAX идентичны.
#### Теперь найдём гессиан с помощью JAX. Для этого воспользуемся встроенной в бибиотеку функцией hessian():

In [67]:
from jax import hessian

hessian_dot_square = hessian(dot_square)
jax_hessian = hessian_dot_square(ex)
print("Гессиан функции f(x), вычисленный с помощью JAX:\n", jax_hessian, sep='')

Гессиан функции f(x), вычисленный с помощью JAX:
[[ 68.96001  16.       25.6    ]
 [ 16.       92.96001  51.2    ]
 [ 25.6      51.2     142.88   ]]


#### Найдём теперь гессиаан аналитически. Для этого нужно вычислить второй дифференциал, приняв в первом $dx\equiv dx_1=const$.
#### $d^{2}f=d(df)=d(\langle 4x^{T}xx, dx_1\rangle)=4\langle d(x^{T}xx), dx_1\rangle+0$
#### $d(x^{T}xx)=2x^{T}dxx+x^{T}xdx$
#### $\Rightarrow d^{2}f=4\langle 2x^{T}dxx+x^{T}xdx, dx_1\rangle=8\langle x^{T}dxx, dx_1\rangle+4\langle x^{T}xdx,dx_1\rangle=8\langle xx^{T}dx_1, dx\rangle+4\langle x^{T}xdx, dx_1\rangle=8\langle xx^{T}dx_1, dx\rangle+4\langle Ix^{T}xdx_1, dx\rangle=$
#### $=4\langle (8xx^{T}+4I)dx_1, dx\rangle\Rightarrow\boxed{H_f=8xx^{T}+4I}$
#### Теперь надо сравнить то, что было получено в этой ячейке, с тем, что было получено при помощи JAX:

In [68]:
# создаём функцию вычисления гессиана по формуле из аналитического решения
def analytucal_hessian_dot_square(x: jnp.ndarray) -> jnp.ndarray:
    return 8*jnp.outer(x, x) + 4*jnp.dot(x, x)*jnp.eye(jnp.shape(x)[0])
    

# сравниваем
analytical_hessian = analytucal_hessian_dot_square(ex)
print("Гессиан функции f(x), вычисленный с помощью JAX:\n", jax_hessian, '\n', sep='')
print("Гессиан функции f(x), вычисленный аналитически:\n", analytical_hessian, sep='')

Гессиан функции f(x), вычисленный с помощью JAX:
[[ 68.96001  16.       25.6    ]
 [ 16.       92.96001  51.2    ]
 [ 25.6      51.2     142.88   ]]

Гессиан функции f(x), вычисленный аналитически:
[[ 68.96001  16.       25.6    ]
 [ 16.       92.96001  51.2    ]
 [ 25.6      51.2     142.88   ]]


#### Как видно, выход один и тот же.

## №4

#### Найдём градиент функции $f(X)=-ln(det(X))$ с помощью JAX:

In [70]:
import jax.numpy as jnp
from jax import grad


# задаём функцию f(x)
def lndet(X:jnp.ndarray) -> jnp.ndarray:
    detX = jnp.linalg.det(X)
    return -jnp.log(detX)

# находим градиент написанной функции на примере произвольной квадратной матрицы EX
EX = jnp.array([[1., 2., 4.],
                [4., 0., 1.],
                [9., 8., 3.]])

jax_lndet_grad = grad(lndet)
print("Градиент функции f(x), полученный с помощью JAX:\n", jax_lndet_grad(EX), sep='')

Градиент функции f(x), полученный с помощью JAX:
[[ 0.07017544  0.02631579 -0.28070176]
 [-0.22807017  0.28947368 -0.0877193 ]
 [-0.01754386 -0.13157895  0.07017544]]


#### Теперь вычислим градиаент $f(X)=-ln(det(X))$ аналитически:

#### $d=-d(ln(det(X)))=-\frac{det(X\langle X^{-T}, dX\rangle}{det(X)}=-\langle X^{-T}, dx\rangle\Rightarrow\boxed{\nabla f=-X^{-T}}$
#### Теперь сравним на примере матрицы EX:

In [73]:
# задаём функцию аналитически найденной формулы для градиента
def analytical_grad_lndet(X:jnp.ndarray) -> jnp.ndarray:
    return -jnp.linalg.inv(X).T

# сравниваем JAX и аналитику на примере матрцы EX
print("Градиент функции f(x), полученный с помощью JAX:\n", jax_lndet_grad(EX), '\n', sep='')
print("Градиент функции f(x), полученный аналитически:\n", analytical_grad_lndet(EX), sep='')

Градиент функции f(x), полученный с помощью JAX:
[[ 0.07017544  0.02631579 -0.28070176]
 [-0.22807017  0.28947368 -0.0877193 ]
 [-0.01754386 -0.13157895  0.07017544]]

Градиент функции f(x), полученный аналитически:
[[ 0.07017544  0.02631579 -0.28070176]
 [-0.22807018  0.28947368 -0.0877193 ]
 [-0.01754386 -0.13157895  0.07017544]]


#### Как видно из выхода ячейки выше, градиенты совпадают.

## №3

#### Условие длинное, поэтому перейдём сразу к решению. Напишем сначала функцию градиентного спуска для функции $f(x)$. 
#### В нашем случае $f(x) = \frac{1}{2}\|x\|^{2}$.

In [10]:
import jax
from jax import grad, random
import jax.numpy as np



# Определяем функцию, которую будем оптимизировать
def f(x):
    return 0.5 * np.linalg.norm(x)**2


# Определяем метод градиентного спуска
def gradient_descent(f, x0, alpha, num_steps):
    x = x0 # начальное приближение
    grad_f = grad(f) # вычисляем градиент функции
    for i in range(num_steps): # выполняем шаги градиентного спуска
        x = x - alpha[i] * grad_f(x) # делаем шаг в направлении антиградиента
    return x


# инициализируем параметры
key = jax.random.PRNGKey(1701) # seed
x0 = random.uniform(key, (1000, ))
alpha0 = random.uniform(key, (10, ), maxval=0.1)


print("Функция в начальной точке:")
print(f"f(x0) = {f(x0):.3f}")
print("Функция после десяти шагов градиентного спуска:")
print(f"f(x10) = {f(gradient_descent(f, x0, alpha0, num_steps=10)):.3f}")

Функция в начальной точке:
f(x0) = 176.581
Функция после десяти шагов градиентного спуска:
f(x10) = 56.808


#### А теперь нам нужно оптимизировать нашу функцию по набору параметров $\alpha$.

In [19]:
# целевая функция f(x10)
def L(alpha):
    return f(gradient_descent(f, x0, alpha, 10))


# Определяем функцию для оптимизации шага градиентного спуска
def optimize_alpha(alpha0, betta, num_steps):
    alpha = alpha0 # начальное значение шага
    grad_L = grad(L) # градиент функции потерь
    for i in range(num_steps): # шаги градиентного спуска для оптимизации шага
        alpha = alpha - betta * grad_L(alpha) # обновляем значение шага
    return alpha # возвращаем оптимизированное значение шага


betta = 0.005
new_alpha = optimize_alpha(alpha0, betta, num_steps=10)

#### Выше мы получили новый оптимизированный набор параметров $\alpha$ и сохранили его в переменную new_alpha. Теперь посчитаем градиентный спуск на тех же 10-ти шагах для функции $f(x) = \frac{1}{2}\|x\|^{2}$, но уже с новым оптимизированным набором параметров $\alpha$. Сравним полученное значение со значением градиентного спуска, использующего старые параметры. Чтобы понять, что полученный набор new_alpha стал лучше, можно сравнивать значение функции $L=f(x_{10})$. Если значение функции уменьшится, значит набор $\alpha$ стал лучше. Численно проверить оптимальность в данной задаче можно следующим образом: посчитать градиент L в точке, соответствующей текущему набору $\alpha$. Если градиент близок к нулю (в пределах заданной точности), то можно считать, что найден локальный минимум. Но в данном случае и так очевидно, что у функции есть глобальный минимум равный нулю в точке $x^{*}=(0, 0, ..., 0)^{T}\in\mathbb{B}^{1000}$.

In [20]:
print("Функция в начальной точке:")
print(f"f(x0) = {f(x0):.3f}")
print("Функция после десяти шагов градиентного спуска со старыми парааметрами:")
print(f"f(x10) = {f(gradient_descent(f, x0, alpha0, num_steps=10)):.3f}")
print("Функция после десяти шагов градиентного спуска с новыми парааметрами:")
print(f"f(x10) = {f(gradient_descent(f, x0, new_alpha, num_steps=10))}")

Функция в начальной точке:
f(x0) = 176.581
Функция после десяти шагов градиентного спуска со старыми парааметрами:
f(x10) = 56.808
Функция после десяти шагов градиентного спуска с новыми парааметрами:
f(x10) = 7.869951446082268e-08


#### Видим, что с использованием новых оптимизированный параметров $\alpha$ за те же 10 шагов градиентный спуск привёл нас к оптимуму намного ближе, чем раньше, что говорит о том, что новый набор параметров $\alpha$ стал значительно лучше.