<a href="https://colab.research.google.com/github/GithubofRuZhang/Algorithm-Robust-Quadratic-Programming-for-Price-Optimization/blob/main/Robust_Quadratic_Programming_for_Price_Optimization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

$ \begin{array}{l}\qquad g(x, \gamma):=v(x)^{\top}\left(\hat{Q}+\lambda \frac{\gamma M_{1}+M_{2} / \gamma}{2}\right) v(x) . \\ \text { where } \\ \qquad M_{1}:=L_{1}^{\top} L_{1}, \quad M_{2}:=L_{2}^{\top} L_{2} .\end{array} $

Define a function $ h:(0, \infty) \rightarrow \mathbf{R} $ by
$$
h(\gamma):=\min _{x \in \mathcal{X}} g(x, \gamma)
$$

Algorithm 1 Golden Section Search

Require: $ \hat{Q}, L_{1}, L_{2}, \lambda, \alpha, \beta, \delta $

Initialize $ a=\alpha, b=\beta, r=(\sqrt{5}-1) / 2 $

while $ |a-b| \geq \delta $ do

$ c \leftarrow b-r *(b-a), d \leftarrow a+r *(b-a) $

$ b \leftarrow d $ if $ h(c)<h(d) $, and $ a \leftarrow c $ otherwise.
end while

Output $ \tilde{x}:= oracle(x, \tilde{\gamma})=\arg \min _{x \in \mathcal{X}} g(x, \tilde{\gamma}) $ where $ \tilde{\gamma}=(a+b) / 2 $.

In [None]:
import numpy as np

# 假设参数和函数
# 这里仅为示例，具体实现需要根据问题的实际参数和约束来定义

# 示例参数
M = 3  # 假设有3个产品，可以根据需要调整
Q_hat = np.random.rand(M, M)# 假设的 Q_hat
L1 = np.random.rand(M, M) # 假设的 L1
L2 = np.random.rand(M, M)  # 假设的 L2
lambda_ = 1  # 假设的 lambda
alpha = 0.1  # 初始搜索区间下限
beta = 2  # 初始搜索区间上限
delta = 0.001  # 精度要求

# 定义 g(x, gamma) 函数
def g(x, gamma):
    M1 = L1.T @ L1
    M2 = L2.T @ L2
    term = Q_hat + lambda_ * (gamma * M1 + M2 / gamma) / 2
    return x.T @ term @ x

# 定义 h(gamma) 函数，这里简化为使用固定的 x 值
def h(gamma):
    x = np.array([1] * M)  # 假设的 x 值，实际情况中应该是优化问题的解
    return g(x, gamma)

# 黄金分割搜索算法
def golden_section_search(alpha, beta, delta):
    r = (np.sqrt(5) - 1) / 2
    a, b = alpha, beta

    while abs(b - a) >= delta:
        c = b - r * (b - a)
        d = a + r * (b - a)
        if h(c) < h(d):
            b = d
        else:
            a = c

    return (a + b) / 2

# 执行算法
gamma_tilde = golden_section_search(alpha, beta, delta)
gamma_tilde


0.6407877624044351

In [None]:
# 更新算法以支持任意维度的x
# 假设参数和函数更新
M = 3  # 假设有3个产品，可以根据需要调整
Q_hat = np.random.rand(M, M)# 假设的 Q_hat
L1 = np.random.rand(M, M) # 假设的 L1
L2 = np.random.rand(M, M)  # 假设的 L2
lambda_ = 1  # 假设的 lambda
alpha = 0.1  # 初始搜索区间下限
beta = 2  # 初始搜索区间上限
delta = 0.001  # 精度要求
x_options = np.array([0.6, 0.7, 0.8, 0.9, 1.0])  # 简化的 x 选择

x_options = np.array([0.6, 0.7, 0.8, 0.9, 1.0])  # 简化的 x 选择

# 更新 Oracle 算法以支持 M 维 x
def oracle(gamma, M, x_options):
    min_val = np.inf
    x_opt = None

    # 生成所有可能的x组合
    X = np.array(np.meshgrid(*[x_options for _ in range(M)])).T.reshape(-1, M)

    # 遍历所有x组合
    for x in X:
        val = g(x, gamma)
        if val < min_val:
            min_val = val
            x_opt = x

    return x_opt

# 使用更新的 Oracle 算法执行黄金分割搜索
gamma_tilde = golden_section_search(alpha, beta, delta)
x_tilde = oracle(gamma_tilde, M, x_options)

gamma_tilde, x_tilde


(0.7817463680623973, array([0.6, 0.6, 0.6]))

In [None]:
import numpy as np

# 更新的参数定义
# 定义假设的参数
M = 3  # 维度
Q_hat = np.random.rand(M, M)# 假设的 Q_hat
L1 = np.random.rand(M, M) # 假设的 L1
L2 = np.random.rand(M, M)  # 假设的 L2
lambda_ = 1  # 假设的 lambda
lambda_ = 1
alpha = 0.1
beta = 2
delta = 0.001


# 重新定义g(x, gamma)以匹配更新的参数
def g(x, gamma):
    M1 = L1.T @ L1
    M2 = L2.T @ L2
    term = Q_hat + lambda_ * (gamma * M1 + M2 / gamma) / 2
    # print(M1)
    # print(M2)
    # print(term)
    # print(x)
    return x.T @ term @ x

# 其他函数保持不变

# 执行黄金分割搜索并使用Oracle算法
gamma_tilde = golden_section_search(alpha, beta, delta)
x_tilde = oracle(gamma_tilde, M, x_options)

gamma_tilde, x_tilde


(1.5760360673325113, array([0.6, 0.6, 0.6]))

要解决给定的 $ g(x, \gamma) $ 函数在连续区间上的优化问题 $ \tilde{x}:=\arg \min _{x \in \mathcal{X}} g(x, \tilde{\gamma}) $ ，我们可以使用数值优化方法。对于这个问题，一个简单但有效的方法是使用梯度下降法，尽管需要计算 $ g(x, \gamma) $ 关于 $ x $ 的梯度。

假设 $ x $ 是一个 $ M $ 维向量，并且 $ g(x, \gamma) $ 对每个元素 $ x_{i} $ 的梯度可以计算。在实际情况中，如果 $ g(x, \gamma) $ 是一个光滑函数，我们可以通过求导来获得这些梯度。

简化的梯度下降法
梯度下降法是一种迭代算法，通过在每一步中沿着目标函数的负梯度方向更新变量来寻找最小值。对于 $ g(x, \gamma) $ ，更新公式可以写为:
$$
x^{(k+1)}=x^{(k)}-\alpha \nabla_{x} g\left(x^{(k)}, \gamma\right)
$$

其中， $ x^{(k)} $ 是第 $ k $ 步的 $ x $ 值， $ \alpha $ 是学习率，一个小的正数， $ \nabla_{x} g\left(x^{(k)}, \gamma\right) $ 是 $ g(x, \gamma) $在 $ x^{(k)} $ 处对 $ x $ 的梯度。

算法步骤
1. 初始化: 选择一个初始点 $ x^{(0)} $ ，设置学习率 $ \alpha $ 和容忍度 $ \epsilon $ 。
2. 迭代更新:
- 计算梯度: $ \nabla_{x} g\left(x^{(k)}, \tilde{\gamma}\right) $ 。
- 更新 $ x: x^{(k+1)}=x^{(k)}-\alpha \nabla_{x} g\left(x^{(k)}, \tilde{\gamma}\right) $ 。
3. 终止条件: 当 $ \left\|x^{(k+1)}-x^{(k)}\right\|<\epsilon $ 时停止迭代。

示例实现
下面是一个简化的示例，展示如何实现这一过程。请注意，我们需要根据 $ g(x, \gamma) $ 的具体形式来计算梯度。

In [None]:
def gradient_g(x, gamma):
    # 这里需要根据g(x, gamma)的具体形式来计算梯度
    # 示例梯度计算，仅供参考
    grad = 2 * (Q_hat + lambda_ * (gamma * L1.T @ L1 + (L2.T @ L2) / gamma) / 2) @ x
    return grad

def gradient_descent(x_init, gamma, alpha, epsilon, max_iter=1000):
    x = x_init
    for i in range(max_iter):
        grad = gradient_g(x, gamma)
        x_new = x - alpha * grad
        if np.linalg.norm(x_new - x) < epsilon:
            break
        x = x_new
    return x

# 使用示例

# 生成在指定范围内的随机数，例如在[0.6, 1.0]区间内
x_init = np.random.rand(M) * 0.2 + 0.8
gamma = gamma_tilde  # 之前计算得到的gamma_tilde
alpha = 0.0000001  # 学习率
epsilon = 1e-3  # 容忍度

x_opt = gradient_descent(x_init, gamma, alpha, epsilon)
x_opt


array([0.92965874, 0.99867665, 0.98175512])

In [None]:
# 定义梯度计算函数
def gradient_g(x, gamma):
    # 根据g(x, gamma)的实际表达式计算梯度
    # 这里使用示例中的假设参数进行计算
    M1 = L1.T @ L1
    M2 = L2.T @ L2
    term = Q_hat + lambda_ * (gamma * M1 + M2 / gamma) / 2
    grad = 2 * (term.T+term) @ x
    return grad

# 定义梯度下降法
def gradient_descent(x_init, gamma, alpha, epsilon, max_iter=1000):
    x = x_init
    for i in range(max_iter):
        grad = gradient_g(x, gamma)
        x_new = x - alpha * grad
        if np.linalg.norm(x_new - x) < epsilon:
            break
        x = x_new
    return x

# 初始化参数
x_init = np.random.rand(M)*60+100  # 随机初始化x
print(x_init)
gamma = 0.9997  # 使用之前计算得到的gamma_tilde
alpha = 0.0000001  # 学习率
epsilon = 1e-6  # 容忍度

# 执行梯度下降算法找到最优x
x_opt = gradient_descent(x_init, gamma, alpha, epsilon)

x_opt


[120.5522323  133.76145453 115.88353019]


array([120.36190874, 133.60610404, 115.71042473])

要将梯度下降算法改造为使用自适应学习率，我们可以采用一些流行的优化算法中的技术，如 Adam（Adaptive Moment Estimation）或 RMSprop（Root Mean Square Propagation）。这些算法通过调整每个参数的学习率来改善收敛速度和稳定性，特别是在复杂的优化问题中。

这里，我将展示如何将原先的梯度下降算法修改为使用一个简化版本的 Adam 算法。Adam 算法结合了动量（Momentum）和自适应学习率的概念，对于每个参数独立地调整学习率。

这个 'adam_gradient_descent' 函数接收相同的参数：初始 ' $ x $ '、'gamma 、学习率 'alpha'、容忍度 'epsilon “以及最大迭代次数 'max_iter'。它使用 Adam 算法的核心概念，但省略了一些复杂性以保持示例的清晰性。
- $ m^{\prime} $ 和 $ v^{\prime} $ 分别存储关于梯度的一阶 (平均) 和二阶 (未中心化的方差) 矩估计。
- 'beta1 '和 'beta2'控制这些矩估计的指数衰减率, 这是 Adam 算法特有的超参数。
- ' $ m_{-} $hat' 和 ' $ v $ _ hat' 是对 ' $ m $ ' 和 ' $ v $ ' 的偏差校正，用于在算法的早期阶段调整这些估计。

In [None]:
import numpy as np

# 定义假设的参数
M = 10  # 维度，表示问题的规模或变量的数量
Q_hat = np.random.rand(M, M)  # 随机生成假设的 Q_hat，模拟真实情况下未知的参数矩阵
L1 = np.random.rand(M, M)  # 随机生成假设的 L1，代表某种线性变换或约束
L2 = np.random.rand(M, M)  # 随机生成假设的 L2，同样代表某种线性变换或约束
lambda_ = 1  # 假设的 lambda，用于调节正则化项的强度

# 定义 g(x, gamma) 函数的梯度
def gradient_g(x, gamma):
    M1 = L1.T @ L1  # 计算L1的自相关矩阵
    M2 = L2.T @ L2  # 计算L2的自相关矩阵
    term = Q_hat + lambda_ * (gamma * M1 + M2 / gamma) / 2  # 综合所有项，形成目标函数的系数矩阵
    grad = 2 * (term.T + term) @ x  # 计算目标函数关于x的梯度
    return grad

# 定义 Adam 梯度下降算法
def adam_gradient_descent(x_init, gamma, alpha, epsilon, max_iter=1000):
    x = x_init  # 初始化x
    m = np.zeros(x.shape)  # 初始化一阶动量估计为0
    v = np.zeros(x.shape)  # 初始化二阶动量估计为0
    beta1 = 0.9  # 动量衰减率，用于一阶估计
    beta2 = 0.999  # 动量衰减率，用于二阶估计
    eta = alpha  # 学习率
    delta = 1e-8  # 用于避免除以零的小常数

    for i in range(1, max_iter + 1):
        grad = gradient_g(x, gamma)  # 计算当前x的梯度

        # 更新一阶和二阶动量估计
        m = beta1 * m + (1 - beta1) * grad
        v = beta2 * v + (1 - beta2) * (grad ** 2)

        # 对动量估计进行偏差校正
        m_hat = m / (1 - beta1 ** i)
        v_hat = v / (1 - beta2 ** i)

        # 更新参数x
        x_new = x - eta * m_hat / (np.sqrt(v_hat) + delta)

        # 检查是否满足停止准则
        if np.linalg.norm(x_new - x) < epsilon:
            break
        x = x_new

    return x

# 初始化参数并执行算法
x_init = np.random.rand(M) * 0.4 + 0.6  # 随机初始化x，确保其初始值在[0.6, 1.0]之间
gamma = 0.9997  # 给定的gamma值
alpha = 0.0001  # 学习率，较小值以确保稳定收敛
epsilon = 1e-6  # 收敛阈值，当连续两次迭代的差距小于此值时停止迭代
max_iter = 1000  # 最大迭代次数

# 使用Adam算法优化x
x_opt_adam = adam_gradient_descent(x_init, gamma, alpha, epsilon, max_iter)

x_opt_adam


array([0.54606265, 0.78306905, 0.70148065, 0.66228437, 0.68859742,
       0.59015949, 0.53485485, 0.71166606, 0.89515562, 0.86688419])