# 函数の凸性とその応用

黒木玄

2018-06-11

* Copyright 2018 Gen Kuroki
* License: MIT https://opensource.org/licenses/MIT

このファイルは次の場所できれいに閲覧できる:

* http://nbviewer.jupyter.org/github/genkuroki/Calculus/blob/master/06%20convexity.ipynb

このファイルは <a href="https://juliabox.com">Julia Box</a> で利用できる.

自分のパソコンに<a href="https://julialang.org/">Julia言語</a>をインストールしたい場合には

* <a href="http://nbviewer.jupyter.org/gist/genkuroki/81de23edcae631a995e19a2ecf946a4f">WindowsへのJulia言語のインストール</a>

を参照せよ.

論理的に完璧な説明をするつもりはない. 細部のいい加減な部分は自分で訂正・修正せよ.

$
\newcommand\eps{\varepsilon}
\newcommand\ds{\displaystyle}
\newcommand\Z{{\mathbb Z}}
\newcommand\R{{\mathbb R}}
\newcommand\C{{\mathbb C}}
\newcommand\QED{\text{□}}
\newcommand\root{\sqrt}
$

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#凸函数の定義" data-toc-modified-id="凸函数の定義-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>凸函数の定義</a></span></li><li><span><a href="#2階の導函数の非負ならば下に凸であること" data-toc-modified-id="2階の導函数の非負ならば下に凸であること-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>2階の導函数の非負ならば下に凸であること</a></span></li><li><span><a href="#Jensenの不等式" data-toc-modified-id="Jensenの不等式-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Jensenの不等式</a></span><ul class="toc-item"><li><span><a href="#期待値汎函数" data-toc-modified-id="期待値汎函数-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>期待値汎函数</a></span></li><li><span><a href="#Jensenの不等式とその証明" data-toc-modified-id="Jensenの不等式とその証明-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Jensenの不等式とその証明</a></span></li><li><span><a href="#相加相乗平均の不等式" data-toc-modified-id="相加相乗平均の不等式-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>相加相乗平均の不等式</a></span></li></ul></li></ul></div>

## 凸函数の定義

**定義:** 区間 $I$ 上の実数値函数 $f$ が**下に凸**な函数であるとは, 任意の $a,b\in I$ と実数 $t$ について, 

$$
0\leqq t\leqq 1 \implies f((1-t)a+tb) \leqq (1-t)f(a)+t f(b) 
$$

を満たしていることである. 逆向きの不等式で上に凸な函数を定義する. すなわち, 区間 $I$ 上の実数値函数 $f$ が**上に凸**な函数であるとは, 任意の $a,b\in I$ と実数 $t$ について, 

$$
0\leqq t\leqq 1 \implies f((1-t)a+tb) \geqq (1-t)f(a)+t f(b) 
$$

を満たしていることである. 

## 2階の導函数の非負ならば下に凸であること

**定理:** 区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\geqq 0$ ならば $f$ は下に凸である. 同様に区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\leqq 0$ ならば $f$ は上に凸である.

**証明:** 前者のみを証明する. 区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\geqq 0$ であると仮定する. $a,b\in I$ と仮定し, $c=(1-t)a+tb$ とおく. $0\leqq t\leqq 1$ であると仮定する. $(1-t)f(a)+tf(b)\geqq f(c)$ を示せばよい. $f$ は $C^2$ 級なので Taylor の公式より,

$$
\begin{aligned}
&
f(a) = f(c) + f'(c)(a-c) + R, \quad R = \int_a^c dx_1\int_c^{x_1}dx_2\;f''(x_2),
\\ &
f(b) = f(c) + f'(c)(b-c) + S, \quad S = \int_b^c dx_1\int_c^{x_1}dx_2\;f''(x_2).
\end{aligned}
$$

ゆえに $f''\geqq 0$ という仮定より, $R\geqq 0$, $S\geqq 0$ なので, 

$$
\begin{aligned}
&
f(a) \geqq f(c) + f'(c)(a-c) + R, 
\\ &
f(b) \geqq f(c) + f'(c)(b-c) + S.
\end{aligned}
$$

1つ目の不等式の両辺に $(1-t)$ をかけ, 2つめの不等式の両辺に $t$ をかけると

$$
\begin{aligned}
(1-t)f(a) &\geqq (1-t)f(c) + f'(c)((1-t)a-(1-t)c),
\\ 
tf(b)     &\geqq tf(c) + f'(c)(tb-tc).
\end{aligned}
$$

これらをたすと, $c = (1-t)a+tb$ とおいたことより, 

$$
\begin{aligned}
(1-t)f(a)+tf(b) &\geqq f(c) + f'(c)((1-t)a+tb-c) = f(c).
\end{aligned}
$$

これで $f$ が下に凸であることが示された. $\QED$

**注意:** 上の証明の本質はTaylorの公式の剰余項 $R$, $S$ が0以上になることである. $f$ が $C^2$ 級であるという仮定を2回微分可能であるという仮定にゆるめても, $c$ と $a$ のあいだのある実数 $\xi$ が存在して, 

$$
f(a) = f(c) + f'(c)(a-c) + R, \quad R = \frac{1}{2}f''(\xi)(c-a)
$$

となるという形でTaylorの定理が成立している. $f''\geqq 0$ ならば $R\geqq 0$ となる.  このことを使えば上の定理で $C^2$ 級の仮定を2回微分可能であるという仮定に弱めることができる. $\QED$

**問題:** 上と同様にして $f''\leqq 0$ ならば $f$ が上に凸であることの証明を書き下せ.  さらに上の定理における $C^2$ 級の仮定を2回微分可能性に弱めた場合の証明も書き下せ. $\QED$

**例:** $f(x)=e^{ax}$ とおくと $f'(x)=ae^{ax}$, $f''(x)=a^2 e^{ax}\geqq 0$ を満たしているので, $f$ は下に凸な函数である. $\QED$

**例:** $x>0$ に対して $f(x)=\log x$ とおくと $f'(x)=1/x$, $f''(x)=-1/x^2<0$ なので, $f$ は上に凸な函数である. $\QED$

**例題:** $a$ は実数であるとし, $x>0$ に対して $f(x)=x^a$ とおく. $f(x)$ は凸性について調べよ.

**解答例:** $x>0$ であるとする. $f'(x)=ax^{a-1}$, $f''(x)=a(a-1)x^{a-2}$ であり, $x^{a-2}>0$ である. ゆえに, $a(a-1)\geqq 0$ のとき, すなわち $a\leqq 0$ または $1\leqq a$ のとき, $f$ は下に凸になり, $a(a-1)\leqq 0$ のとき, すなわち $0\leqq a\leqq 1$ のとき, $f$ は上に凸になる. $\QED$

## Jensenの不等式

### 期待値汎函数

函数を数に対応させる函数を**汎函数** (functional)と呼ぶことがある.

**定義:** 函数 $f$ を数 $E[f]$ に対応させる函数 $E[\ ]$ (汎函数)が以下の条件を満たしているとき, $E[\ ]$ は**期待値汎函数** (expextation functional)であると言うことにする:

(1) 函数 $f,g$ と数 $\alpha,\beta$ に対して, $E[\alpha f+\beta g]=\alpha E[f]+\beta E[g]$ (線形性).

(2) 函数 $f, g$ のあいだで常に $f\leqq g$ が成立しているならば $E[f]\leqq E[g]$ (単調性).

(3) 至るところ $1$ に値を持つ定数函数を単に $1$ と書くと, $E[1]=1$ (規格化条件). $\QED$

**例:** 区間 $I$ 上の函数を数 $E[f]$ に対応させる函数 $E[\ ]$ を以下のように定めると, $E[\ ]$ は期待値汎函数になる. まず $a_1,\ldots,a_n\in I$ を任意に取る. $w_1,\ldots,w_n$ は0以上の実数でかつ $w_1+\cdots+w_n=1$ を満たしていると仮定する. そして区間 $I$ 上の函数 $f$ に対して

$$
E[f] = \sum_{i=1}^n w_i f(a_i) = w_1 f(a_1)+\cdots+w_n f(a_n)
$$

と定める. このようにして定められた $E[\ ]$ が実際に期待値汎函数の性質を満たしていることは以下のようにして確認できる.

(1) 区間 $I$ 上の函数 $f,g$ と数 $\alpha,\beta$ について

$$
\begin{aligned}
E[\alpha f+\beta g] &= \sum_{i=1}^n w_i(\alpha f(a_i)+\beta g(a_i)) =
\sum_{i=1}^n (\alpha w_i f(a_i)+\beta w_i g(a_i))
\\ &=
\alpha\sum_{i=1}^n w_i f(a_i) + \beta\sum_{i=1}^n w_i g(a_i) = \alpha E[f]+\beta E[g].
\end{aligned}
$$

(2) 区間 $I$ 上で $f\leqq g$ が成立していると仮定すると, $w_i f(a_i)\leqq w_i g(a_i)$ が成立するので

$$
E[f] = \sum_{i=1}^n w_i f(a_i) \leqq \sum_{i=1}^n w_i g(a_i) = E[g].
$$

(3) 定数函数 $1$ について $1(a_i)=1$ が成立しているので, $w_1+\cdots+w_n=1$ という仮定より, 

$$
E[1] = \sum_{i=1}^n w_i = 1.
$$

これで示すべきことがすべて示された. 

特に $w_i=1/n$ であるとき

$$
E[f] = \frac{f(a_1)+\cdots+f(a_n)}{n}
$$

と, $E[f]$ は $f(a_i)$ たちの加法平均になる. $\QED$

抽象的な期待値汎函数の概念が難しいと感じる人は, 一般的な期待値汎函数の定義を忘れてこの例の $E[f]$ またはさらにその特別な場合である加法平均の場合のみを考えれば十分である. 

**問題:** $a<b$ であるとする. 閉区間 $I=[a,b]$ 上の連続函数 $f$ を

$$
E[f] = \frac{1}{b-a}\int_a^b f(x)\,dx
$$

に対応させる函数 $E[\ ]$ は期待値汎函数であることを示せ. $\QED$

**問題:** $\R$ 上の函数 $p(x)$ は $p\geqq 0$ かつ $\int_{-\infty}^\infty p(x)\,dx = 1$ を満たしていると仮定する. (このような $p(x)$ は**確率密度函数**と呼ばれる.) このとき, $\R$ 上の(適当によい条件を仮定した)函数 $f$ を

$$
E[f] = \int_{-\infty}^\infty f(x)p(x)\,dx
$$

に対応させる函数 $E[\ ]$ が期待値汎函数であることを示せ. ($E[f]$ は確率密度函数 $p(x)$ が定める確率分布に関する**確率変数** $f$ の期待値と呼ばれる.) $\QED$

### Jensenの不等式とその証明

**Jensenの不等式:** $E[\ ]$ は区間 $I$ 上の函数の期待値汎函数であるとし, $f$ は区間 $I$ 上の上に凸(もしくは下に凸)な函数であるとする. このとき

$$
E[f(x)] \leqq f(E[x]) \qquad (\text{もしくは}\ E[f(x)]\geqq f(E[x])).
$$

例えば

$$
E[f(x)] = \sum_{i=1}^n w_i f(a_i), \quad w_i\geqq 0, \quad \sum_{i=1}^n w_i = 1
$$

のとき, 

$$
\begin{aligned}
&
w_1 f(a_1) + \cdots + w_n f(a_n) \leqq f(w_1 a_1 + \cdots + w_n a_n)
\\ &
(\text{もしくは}\ w_1 f(a_1) + \cdots + w_n f(a_n) \geqq f(w_1 a_1 + \cdots + w_n a_n)).
\end{aligned}
$$

特に $n=2$ の場合には $f$ が上に凸(もしくは下に凸)であることの定義とこれらは同値であることに注意せよ. 

**証明:** 簡単のため $f$ は $C^1$ 級であると仮定する. ($C^1$ 級でない場合にも同様の方法で証明できるが, 「接線」の存在を別に証明する必要が生じる.)

$f$ は上に凸であると仮定する. 

$\mu = E[x]$ とおく. $E[f(x)]\leqq f(\mu)$ を示せばよい. $x=\mu$ における $y=f(x)$ の接線を $y=\alpha(x-\mu)+f(\mu)$ と書く. $f$ は上に凸であると仮定したので

$$
f(x)\leqq \alpha(x-\mu)+f(\mu)
$$

が成立している(図を描いてみよ). ゆえに $E[\ ]$ の性質より

$$
E[f(x)]\leqq E[\alpha(x-\mu)+f(\mu)] = \alpha(E[x]-\mu E[1]) + f(\mu)E[1] = f(\mu).
$$

不等号は期待値汎函数の単調性より, 1つ目の等号は線形性より($x$ の函数として $\mu=\mu 1$, $f(\mu)=f(\mu)1$ ($1$ は定数函数)となることを使った), 2つ目の等号は規格化条件より. これで示すべきことがすべて示された. $\QED$

### 相加相乗平均の不等式

**例:** $a_i>0$ であるとし, 

$$
E[f(x)] = \frac{f(a_1)+\cdots+f(a_n)}{n}
$$

とおく. $x>0$ に対して $f(x)=\log x$ とおく. このとき, $f(x)=\log x$ は下に凸なので, Jensenの不等式より $E[f(x)] \leqq f(E[x])$. そして, 

$$
E[f(x)] = \frac{\log a_1+\cdots+\log a_n}{n} = \log(a_1\cdots a_n)^{1/n}, \quad
f(E[x]) = \log\frac{a_1+\cdots+a_n}{n}
$$

なので, $\log$ の単調増加性より, 

$$
(a_1\cdots a_n)^{1/n} \leqq \frac{a_1+\cdots+a_n}{n}.
$$

これでJensenの不等式が相加相乗平均の不等式を含んでいることがわかった. $\QED$