# 标准 LQR 问题的详细推导
在标准 LQR 问题中，我们的目标是最小化以下性能指标：
$$
J(u) = \int_{t_0}^{t_f} \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt + x(t_f)^T Q_f x(t_f),
$$
其中：
- $x(t)$ 是状态变量；
- $u(t)$ 是控制变量；
- $Q \succeq 0$ 和 $R \succ 0$ 是权重矩阵；
- $Q_f \succeq 0$ 是终端状态的权重矩阵。
动态约束为：
$$
\dot{x}(t) = A x(t) + B u(t), \quad x(t_0) = x_0.
$$
## 构造增广泛函
引入拉格朗日乘子（协态变量）$\lambda(t)$，构造增广泛函：
$$
\mathcal{J}(u, \lambda) = \int_{t_0}^{t_f} \left( x^T Q x + u^T R u + \lambda^T (\dot{x} - A x - B u) \right) dt + x(t_f)^T Q_f x(t_f).
$$
## 对 $x(t)$ 求变分
对状态变量 $x(t)$ 求变分，记 $\delta x(t)$ 为 $x(t)$ 的变分，得到：
$$
\delta \mathcal{J} = \int_{t_0}^{t_f} \left( 2 Q x - \dot{\lambda} - A^T \lambda \right)^T \delta x \, dt + \left[ \lambda^T \delta x \right]_{t_0}^{t_f} + \delta \left( x(t_f)^T Q_f x(t_f) \right).
$$
### 分部积分
对 $\int_{t_0}^{t_f} \lambda^T \delta \dot{x} \, dt$ 使用分部积分：
$$
\int_{t_0}^{t_f} \lambda^T \delta \dot{x} \, dt = \left[ \lambda^T \delta x \right]_{t_0}^{t_f} - \int_{t_0}^{t_f} \dot{\lambda}^T \delta x \, dt.
$$

### 初值项与终端项的处理
在变分推导中，初值项和终端项的处理方式不同，具体原因如下：
#### 1. 初值项
在 LQR 问题中，状态变量 $x(t)$ 的初值 $x(t_0)$ 是固定的，即：
$$
x(t_0) = x_0,
$$
其中 $x_0$ 是已知的初始状态。
由于 $x(t_0)$ 是固定的，因此它的变分为零：
$$
\delta x(t_0) = 0.
$$
因此，在分部积分过程中，边界项中的初值项 $\lambda(t_0)^T \delta x(t_0)$ 消失。
#### 2. 终端项
终端状态 $x(t_f)$ 虽然在性能指标中出现，但它是由优化变量（控制变量 $u(t)$）间接决定的，因此 $x(t_f)$ 是自由的，其变分不为零：
$$
\delta x(t_f) \neq 0.
$$
这意味着在分部积分过程中，边界项中的终端项 $\lambda(t_f)^T \delta x(t_f)$ 保留。
#### 3. 数学表达
- 初值项 $\lambda(t_0)^T \delta x(t_0)$ 消失，因为 $\delta x(t_0) = 0$；
- 终端项 $\lambda(t_f)^T \delta x(t_f)$ 保留，因为 $\delta x(t_f) \neq 0$。

将其代入变分表达式，并结合终端项 $x(t_f)^T Q_f x(t_f)$ 的变分：
$$
\delta \left( x(t_f)^T Q_f x(t_f) \right) = 2 x(t_f)^T Q_f \delta x(t_f).
$$
最终得到：
$$
\delta \mathcal{J} = \int_{t_0}^{t_f} \left( 2 Q x - \dot{\lambda} - A^T \lambda \right)^T \delta x \, dt + \left( \lambda(t_f) + 2 Q_f x(t_f) \right)^T \delta x(t_f).
$$
为了使 $\delta \mathcal{J} = 0$ 对任意 $\delta x(t)$ 成立，需要满足：
1. **协态方程**：
   $$
   \dot{\lambda}(t) = -2 Q x(t) - A^T \lambda(t),
   $$
2. **终端条件**：
   $$
   \lambda(t_f) = 2 Q_f x(t_f).
   $$
## 对 $u(t)$ 求变分
对控制变量 $u(t)$ 求变分，记 $\delta u(t)$ 为 $u(t)$ 的变分，得到：
$$
\delta \mathcal{J} = \int_{t_0}^{t_f} \left( 2 R u + B^T \lambda \right)^T \delta u \, dt.
$$
为了使 $\delta \mathcal{J} = 0$ 对任意 $\delta u(t)$ 成立，需要满足：
1. **控制方程**：
   $$
   2 R u(t) + B^T \lambda(t) = 0,
   $$
   即：
   $$
   u(t) = -R^{-1} B^T \lambda(t).
   $$
## 对 $\lambda(t)$ 求变分
对拉格朗日乘子 $\lambda(t)$ 求变分，记 $\delta \lambda(t)$ 为 $\lambda(t)$ 的变分，得到：
$$
\delta \mathcal{J} = \int_{t_0}^{t_f} \delta \lambda^T \left( \dot{x} - A x - B u \right) \, dt.
$$
为了使 $\delta \mathcal{J} = 0$ 对任意 $\delta \lambda(t)$ 成立，需要满足：
1. **状态方程**：
   $$
   \dot{x}(t) = A x(t) + B u(t),
   $$
   初值条件：
   $$
   x(t_0) = x_0.
   $$
## 极值条件总结
通过以上推导，标准 LQR 问题的极值条件为：
1. **状态方程**：
   $$
   \dot{x}(t) = A x(t) + B u(t),
   $$
   初值条件：$x(t_0) = x_0$。
2. **协态方程**：
   $$
   \dot{\lambda}(t) = -2 Q x(t) - A^T \lambda(t),
   $$
   终端条件：$\lambda(t_f) = 2 Q_f x(t_f)$。
3. **控制方程**：
   $$
   u(t) = -R^{-1} B^T \lambda(t).
   $$
这些方程共同描述了标准 LQR 问题的最优解条件。

## 最优解的求解步骤
在推导出极值条件后，求解最优解的步骤如下：
### 1. 确定初值和终端条件
- 初值条件：$x(t_0) = x_0$ 是已知的。
- 终端条件：$\lambda(t_f) = 2 Q_f x(t_f)$。

### 2. 联立微分方程
极值条件给出了以下三个方程：
1. **状态方程**：
   $$
   \dot{x}(t) = A x(t) + B u(t),
   $$
2. **协态方程**：
   $$
   \dot{\lambda}(t) = -2 Q x(t) - A^T \lambda(t),
   $$
3. **控制方程**：
   $$
   u(t) = -R^{-1} B^T \lambda(t).
   $$

将控制方程代入状态方程，得到：
$$
\dot{x}(t) = A x(t) - B R^{-1} B^T \lambda(t).
$$

### 3. 求解二阶微分方程
将 $\lambda(t)$ 的表达式代入状态方程和协态方程，形成一个耦合的二阶微分方程组：
$$
\begin{bmatrix}
\dot{x}(t) \\
\dot{\lambda}(t)
\end{bmatrix}
=
\begin{bmatrix}
A & -B R^{-1} B^T \\
-2 Q & -A^T
\end{bmatrix}
\begin{bmatrix}
x(t) \\
\lambda(t)
\end{bmatrix}.
$$

### 4. 矩阵黎卡提方程
通过引入黎卡提方程，可以避免直接求解协态变量 $\lambda(t)$：
1. 假设 $\lambda(t) = P(t) x(t)$，其中 $P(t)$ 是对称矩阵。
2. 将 $\lambda(t)$ 的假设代入协态方程和状态方程，得到 $P(t)$ 的黎卡提微分方程：
   $$
   \dot{P}(t) = -P(t) A - A^T P(t) + P(t) B R^{-1} B^T P(t) - 2 Q,
   $$
   终端条件：
   $$
   P(t_f) = Q_f.
   $$

### 5. 求解黎卡提方程
使用数值方法（如 Runge-Kutta 方法）从 $t_f$ 向 $t_0$ 反向积分黎卡提方程，得到 $P(t)$。

### 6. 计算最优控制和状态
- 最优控制：
  $$
  u(t) = -R^{-1} B^T P(t) x(t).
  $$
- 最优状态：
  使用状态方程正向积分：
  $$
  \dot{x}(t) = \left( A - B R^{-1} B^T P(t) \right) x(t),
  $$
  初值条件：$x(t_0) = x_0$。

通过以上步骤，可以得到最优状态 $x(t)$ 和最优控制 $u(t)$。

### 从二阶微分方程推导黎卡提方程
在得到二阶微分方程后，我们可以通过以下步骤推导出黎卡提方程：
#### 1. 二阶微分方程的形式
二阶微分方程组为：
$$
\begin{bmatrix}
\dot{x}(t) \\
\dot{\lambda}(t)
\end{bmatrix}
=
\begin{bmatrix}
A & -B R^{-1} B^T \\
-2 Q & -A^T
\end{bmatrix}
\begin{bmatrix}
x(t) \\
\lambda(t)
\end{bmatrix}.
$$
#### 2. 假设形式
这里的动机是最优控制量$u^*(t)=-R^{-1} B^T \lambda(t)$，  
但是希望能够进行反馈控制，那么需要让$\lambda(t)$与$x(t)$之间存在关系，   
所以就假设能够通过变换矩阵P(t)来进行映射  
假设协态变量 $\lambda(t)$ 与状态变量 $x(t)$ 存在关系：  
$$
\lambda(t) = P(t) x(t),
$$
其中 $P(t)$ 是一个随时间变化的对称矩阵。
#### 3. 代入协态方程
协态方程为：
$$
\dot{\lambda}(t) = -2 Q x(t) - A^T \lambda(t).
$$
将 $\lambda(t) = P(t) x(t)$ 代入，得到：
$$
\dot{P}(t) x(t) + P(t) \dot{x}(t) = -2 Q x(t) - A^T P(t) x(t).
$$
#### 4. 替换状态方程
状态方程为：
$$
\dot{x}(t) = A x(t) + B u(t).
$$
将控制方程 $u(t) = -R^{-1} B^T \lambda(t)$ 代入，得到：
$$
\dot{x}(t) = \left( A - B R^{-1} B^T P(t) \right) x(t).
$$
将其代入协态方程，得到：
$$
\dot{P}(t) x(t) + P(t) \left( A - B R^{-1} B^T P(t) \right) x(t) = -2 Q x(t) - A^T P(t) x(t).
$$
#### 5. 提取 $x(t)$
由于上述方程对任意 $x(t)$ 都成立，可以提取 $x(t)$，得到：
$$
\dot{P}(t) + P(t) A + A^T P(t) - P(t) B R^{-1} B^T P(t) + 2 Q = 0.
$$
这就是黎卡提微分方程。
#### 6. 终端条件
黎卡提方程的终端条件由协态变量的终端条件给出：
$$
P(t_f) = Q_f.
$$
通过数值方法（如反向积分），可以求解出 $P(t)$。

### 带不等式约束的连续时间非线性LQR问题推导
在实际问题中，控制变量和状态变量通常受到不等式约束的限制。以下是带有不等式约束的连续时间非线性LQR问题的详细推导。
#### 问题描述
我们考虑以下形式的优化问题：
$$
\min \quad J = \int_{t_0}^{t_f} \left[ L(x(t), u(t), t) \right] dt + \Phi(x(t_f))
$$
其中，$x(t)$ 是状态变量，$u(t)$ 是控制变量，$L(x, u, t)$ 是运行成本，$\Phi(x(t_f))$ 是终端成本。
约束条件包括：
1. 动态约束：
$$
\dot{x}(t) = f(x(t), u(t), t),
$$
2. 不等式约束：
$$
g(x(t), u(t), t) \leq 0.
$$
#### Hamiltonian 构造
为了处理不等式约束，我们引入拉格朗日乘子 $\lambda(t)$ 和 $\mu(t)$，构造增广 Hamiltonian：
$$
H(x, u, \lambda, \mu, t) = L(x, u, t) + \lambda^T f(x, u, t) + \mu^T g(x, u, t),
$$
其中 $\mu(t) \geq 0$ 是与不等式约束相关的乘子。
#### 最优性条件
通过变分法和最优控制理论，我们可以得到以下必要条件：
1. **状态方程**：
$$
\dot{x}(t) = \frac{\partial H}{\partial \lambda} = f(x, u, t),
$$
2. **协态方程**：
$$
\dot{\lambda}(t) = -\frac{\partial H}{\partial x} = -\frac{\partial L}{\partial x} - \lambda^T \frac{\partial f}{\partial x} - \mu^T \frac{\partial g}{\partial x},
$$
3. **控制最优性条件**：
$$
\frac{\partial H}{\partial u} = \frac{\partial L}{\partial u} + \lambda^T \frac{\partial f}{\partial u} + \mu^T \frac{\partial g}{\partial u} = 0,
$$
4. **互补条件**：
$$
\mu^T g(x, u, t) = 0, \quad \mu \geq 0, \quad g(x, u, t) \leq 0.
$$
#### 边界条件
1. 初始状态：
$$
x(t_0) = x_0,
$$
2. 终端条件：
$$
\lambda(t_f) = \frac{\partial \Phi}{\partial x(t_f)}.
$$
#### 数值解法
对于带有不等式约束的连续时间非线性LQR问题，通常采用以下数值方法：
1. **直接法**：将问题离散化为有限维优化问题，使用非线性规划（NLP）求解。
2. **间接法**：基于必要条件，使用迭代算法（如梯度下降法或牛顿法）求解状态方程和协态方程。
3. **罚函数法**：将不等式约束转化为罚函数，加入到目标函数中，逐步逼近最优解。
#### 总结
带不等式约束的连续时间非线性LQR问题的求解需要结合最优控制理论和数值优化方法。上述推导为问题的理论基础提供了详细的说明，同时为实际应用中的数值求解提供了指导。