In [6]:
import numpy as np

np.random.seed(42)

def check_grad(fn, gr, X):
    X_flat = X.reshape(-1) # chuyển ma trận X về mảng 1 chiều
    shape_X = X.shape # lưu lại shape của X
    num_grad = np.zeros_like(X) # tạo ma trận numerical grad có shape giống X
    grad_flat = np.zeros_like(X_flat) # tạo mảng 1 chiều grad_flat có shape giống X_flat
    eps = 1e-6 # giá trị epsilon
    numElems = X_flat.shape[0] # số phần tử của X_flat
    # tính toán numerical gradient
    for i in range(numElems): # duyệt qua tất cả phần tử của X
        Xp_flat = X_flat.copy() 
        Xn_flat = X_flat.copy()
        Xp_flat[i] += eps
        Xn_flat[i] -= eps
        Xp = Xp_flat.reshape(shape_X)
        Xn = Xn_flat.reshape(shape_X)
        grad_flat[i] = (fn(Xp) - fn(Xn)) / (2 * eps)
    num_grad = grad_flat.reshape(shape_X)
    diff = np.linalg.norm(num_grad-gr(X)) # tính toán độ lệch giữa numerical gradient và gradient thực
    print('Difference between two methods should be small:', diff)

# Hàm số cần tính gradient: grad(trace(A*X)) == A^T

m, n = 10, 20
A = np.random.randn(m, n)
X = np.random.randn(n, m)

def fn1(X):
    return np.trace(A.dot(X))

def gr1(X):
    return A.T

check_grad(fn1, gr1, X)

# Hàm số cần tính gradient: grad(x^T*A*x) == (A + A^T)*x

A = np.random.randn(m, m)
x = np.random.rand(m, 1)

def fn2(x):
    return x.T.dot(A).dot(x)

def gr2(x):
    return (A + A.T).dot(x)

check_grad(fn2, gr2, x)



Difference between two methods should be small: 6.050396565706963e-09
Difference between two methods should be small: 6.369535889123952e-10


  grad_flat[i] = (fn(Xp) - fn(Xn)) / (2 * eps)
