### 凸関数とその性質



グラフ、エピグラフ、定義域を以下のように定義します。

$$
\text { graph } f=\left\{(\boldsymbol{x}, \beta)^{\top} \in \mathbb{R}^{n+1} \mid \beta=f(\boldsymbol{x})\right\}
$$
$$
\text { epi } f=\left\{(\boldsymbol{x}, \beta)^{\top} \in \mathbb{R}^{n+1} \mid \beta \geqq f(\boldsymbol{x})\right\}
$$
$$
\operatorname{dom} f=\left\{x \in \mathbb{R}^n \mid f(x)<+\infty\right\}
$$

エピグラフが凸集合になる$f: \mathbb{R}^n \rightarrow[-\infty,+\infty]$を**凸関数**といいます。$f: \mathbb{R}^n \rightarrow(-\infty,+\infty]$ かつ $\operatorname{dom} f \neq \emptyset$ であるとき，**真凸関数**と言います。
* 真凸関数について、$f$のマイナス方面の定義域が開なのは、最小値が発散しないために必要な条件です。多分。
#### イェンセンの不等式と凸関数になるための必要十分条件
* 凸関数が成立⇔イェンセンの不等式が成立
関数 $f: \mathbb{R}^n \rightarrow(-\infty,+\infty]$ が凸関数であるための必要十分条件 は，任意の自然数 $m$ と任意の $x^1, \ldots, x^m \in \mathbb{R}^n$ および $\sum_{i=1}^m \alpha_i=1$ を満たす任意の $\alpha_i \geqq 0(i=1, \ldots, m)$ に対して次式が成立することでです。

$$

f\left(\sum_{i=1}^m \alpha_i x^i\right) \leqq \sum_{i=1}^m \alpha_i f\left(x^i\right)

$$
* この不等式をイェンセンの不等式という。証明でよく使います。

#### 狭義凸関数
* $f((1-\alpha) x+\alpha \boldsymbol{y})<(1-\alpha) f(\boldsymbol{x})+\alpha f(\boldsymbol{y})$が$\boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$ と $\alpha \in(0,1)$に対して成り立つとき、狭義凸関数といいます。
* これだけだと良く分からないので、可視化してみましょう。これは、任意の端点同士の直線よりもグラフが常に下にあるということを示しています。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# x values
x = np.linspace(-2, 2, 400)

# Define a strictly convex function
f = lambda x: np.exp(x)

# Pick two distinct points x1 and x2
x1, x2 = -1.0, 1.0
y1, y2 = f(x1), f(x2)

# Convex combination
alpha = 0.5
x_alpha = (1 - alpha) * x1 + alpha * x2
y_alpha = f(x_alpha)
y_line = (1 - alpha) * y1 + alpha * y2  # linear interpolation

# Plot the function
plt.figure(figsize=(8, 6))
plt.plot(x, f(x), label=r"$f(x) = e^x$", linewidth=2)
plt.plot([x1, x2], [y1, y2], 'k--', label="Secant line", linewidth=1.5)
plt.scatter([x1, x2], [y1, y2], color='black')
plt.scatter([x_alpha], [y_alpha], color='red', label=r"$f((1-\alpha)x_1 + \alpha x_2)$")
plt.scatter([x_alpha], [y_line], color='blue', label=r"$(1-\alpha)f(x_1) + \alpha f(x_2)$")

# Annotation
plt.annotate("function value", (x_alpha, y_alpha), textcoords="offset points", xytext=(-60,10), ha='center', color='red')
plt.annotate("line", (x_alpha, y_line), textcoords="offset points", xytext=(0,-15), ha='center', color='blue')

plt.title("Strict Convexity Visualization", fontsize=14)
plt.xlabel("x")
plt.ylabel("f(x)")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


#### 強凸関数(一様凸関数)
* $f((1-\alpha) \boldsymbol{x}+\alpha \boldsymbol{y}) \leqq(1-\alpha) f(\boldsymbol{x})+\alpha f(\boldsymbol{y})-\frac{1}{2} \sigma \alpha(1-\alpha)\|\boldsymbol{x}-\boldsymbol{y}\|^2$がすべての$\boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$ と $\alpha \in[0,1]$に対して成立するとそれは強凸関数
* なぜ？
	* $\frac{1}{2} \sigma \alpha(1-\alpha)\|\boldsymbol{x}-\boldsymbol{y}\|^2$　が意味するものとは何？
	* 可視化して考えてみましょう。
	*  $\frac{1}{2} \sigma \alpha(1-\alpha)\|\boldsymbol{x}-\boldsymbol{y}\|^2$は、**任意の線形補間(グラフを横切る線分)からグラフの底までの距離**と考えればよく、強凸関数は必ずこの距離が0以上(超過？)で存在しています。
* 強凸関数は狭義凸関数でです。
* 適切であるかはわからないが、強凸関数$\subset$狭義凸関数$\subset$凸関数かな？

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact, FloatSlider

def strongly_convex_f(x, sigma=1.0):
    return (1 + 0.5 * sigma) * x**2

def linear_upper_bound(x, x0, x1, f0, f1):
    return ((x - x0) * f1 + (x1 - x) * f0) / (x1 - x0)

def plot_strong_convexity_fixed_axes(sigma):
    x0, x1 = -1.5, 1.5
    alpha = 0.5
    x = np.linspace(-2, 2, 400)
    x_mid = (1 - alpha) * x0 + alpha * x1

    f = strongly_convex_f(x, sigma)
    f0 = strongly_convex_f(x0, sigma)
    f1 = strongly_convex_f(x1, sigma)
    f_mid = strongly_convex_f(x_mid, sigma)
    interp = linear_upper_bound(x_mid, x0, x1, f0, f1)

    fig, ax = plt.subplots(figsize=(8, 6))
    ax.plot(x, f, label=rf'strongly convex ($\sigma={sigma}$)', color='red')
    ax.plot([x0, x1], [f0, f1], 'r--', label='linear interpolation')
    ax.plot(x_mid, f_mid, 'ro', label='f(midpoint)')
    ax.plot(x_mid, interp, 'r^', label='interpolated value')
    ax.vlines(x_mid, f_mid, interp, color='purple', linestyles='dotted', label='gap')
    ax.text(x_mid + 0.1, (f_mid + interp) / 2, r'$\frac{1}{2}\sigma\alpha(1-\alpha)\|x - y\|^2$', fontsize=12, color='purple')

    ax.set_title('Strong convexity with adjustable σ')
    ax.set_xlabel('x')
    ax.set_ylabel('f(x)')
    ax.set_xlim(-2.2, 2.2)
    ax.set_ylim(-0.5, 7.5)
    ax.grid(True)
    ax.legend()
    plt.show()

interact(plot_strong_convexity_fixed_axes,
         sigma=FloatSlider(value=1.0, min=0.0, max=5.0, step=0.1, description='σ'));


#### 凸関数と超平面
* 凸集合の任意の内点に対しては、支持超平面が存在したはずなので、凸関数のエピグラフに対しても支持超平面が存在しています。

$f: \mathbb{R}^n \rightarrow(-\infty,+\infty]$ を定義域 $\operatorname{dom} f$ が開凸集合であるよ うな関数とします。 $f$ が $\operatorname{dom} f$ において微分可能であるとき，$f$ が（狭義）凸関数であるための必要十分条件は，$x \neq y$ であるような任意の $\boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$ に対してつぎの不等式が成り立つことです．

$$
f(y)-f(x) \geqq(>)\langle\nabla f(x), y-x\rangle
$$
#### 凸性とヘッセ行列
* 関数の定義域内の各点で、それを入力とする関数の二次勾配、つまりヘッセ行列が半正定値なら、関数は凸関数です。


