### 凸共役 ###

$\Omega$ を行動から実数を出力する強い凸関数とします。

強凸関数は以下を満たす関数です。

$f(y) \geq f(x)+\nabla f(x)^{\top}(y-x)+\frac{1}{2} \alpha\|y-x\|^2$

In [3]:
def quadratic_function(x):
    return x**2

def gradient_of_quadratic(x):
    return 2 * x

def is_strongly_convex(function, gradient, m):
    # Check the strong convexity condition for all x and y
    for x in range(-10, 11):
        for y in range(-10, 11):
            if function(x) - function(y) - gradient(y) * (x - y) - 0.5 * m * (x - y)**2 < 0:
                return False
    return True

m_parameter = 2

result = is_strongly_convex(quadratic_function, gradient_of_quadratic, m_parameter)

if result:
    print("強凸です。")
else:
    print("強凸ではありません。")

強凸です。


$\Omega$に対して、$\Omega^*: \mathbb{R}^{\mathcal{A}} \rightarrow \mathbb{R}$　を定義します。これはすべての$q_s$(各状態ごとにA次元のベクトルを持つ)をルジャンドルフェンシフル変換することで、

$\Omega^*\left(q_s\right)=\max _{\pi_s \in \Delta_{\mathcal{A}}}\left\langle\pi_s, q_s\right\rangle-\Omega\left(\pi_s\right)$

に変換することができます。

$\max _{\pi_s \in \Delta_{\mathcal{A}}}\left\langle\pi_s, q_s\right\rangle = T_* v ?$



$\Omega$を強凸とすると、次のような性質を持つことができる

一意な最大化引数：$\nabla \Omega^*$ がリプシッツ連続であり、$\nabla \Omega^*\left(q_s\right)=\operatorname{argmax}_{\pi_s \in \Delta_{\mathcal{A}}}\left\langle\pi_s, q_s\right\rangle-\Omega\left(\pi_s\right)$ を満たす。

リプシッツ連続ー＞縮小写像などの議論が可能？

有界性：もし定数 $L_{\Omega}$ と $U_{\Omega}$ が存在して、任意の $\pi_s \in \Delta_{\mathcal{A}}$ に対して $L_{\Omega} \leq \Omega\left(\pi_s\right) \leq U_{\Omega}$ が成り立つ場合、$\max _{a \in \mathcal{A}} q_s(a)-U_{\Omega} \leq \Omega^*\left(q_s\right) \leq \max _{a \in \mathcal{A}} q_s(a)-L_{\Omega}$ が成り立つ。

？

分配性：任意の $c \in \mathbb{R}$ およびベクトル 1 の場合に、$\Omega^*\left(q_s+c \mathbf{1}\right)=\Omega^*\left(q_s\right)+c$ が成り立つ。

収束性の証明などで使えそうな補題

単調性：$q_{s, 1} \leq q_{s, 2} \Rightarrow \Omega^*\left(q_{s, 1}\right) \leq \Omega^*\left(q_{s, 2}\right)$。

ルジャンドルフェンシフル変換を施してもその大小関係は変わらない



以下に、論文で紹介されているような関数を実装してみます。

$\Omega\left(\pi_s\right)=$ $\sum_a \pi_s(a) \ln \pi_s(a)$.

$\Omega^*\left(q_s\right)=\ln \sum_a \exp q_s(a)$

In [None]:
import numpy as np

def omega(pi_s):

    omega_value = np.sum(pi_s * np.log(pi_s))
    return omega_value

def omega_star(q_s):
    omega_star_value = np.log(np.sum(np.exp(q_s)))
    return omega_star_value

In [None]:
import sympy as sp

# 変数の定義
x = sp.Symbol('x')

# 与えられた凸関数を定義
original_function = x**2

# 凸共役関数の定義
conjugate_function = sp.LambertW(original_function)

# 結果の表示
print("Original Function:", original_function)
print("Conjugate Function:", conjugate_function)