## Gambler

### MDPの定義

In [None]:
import math, sys
import numpy as np
import matplotlib.pyplot as plt
from general import MDP

class MDP_Gambler(MDP):

    def __init__(self, ph, goal):
        self.ph = ph
        self.goal = goal
        states = list(range(self.goal + 1))
        actions = list(range(1, self.goal))
        super().__init__(states, actions, 1.0)

    def dyn(self, s, a):
        if s == 0: return []
        if s == self.goal: return []
        if a > s: return []
        if s + a > self.goal: return []
        return [(self.ph, s + a, 1 if s + a == self.goal else 0),
                (1 - self.ph, s - a, 0)]
    
    def opt_pol_cov(self, vfn, thr=0.01):
        def act_val(s):
            acts = list(range(1, min(s, self.goal - s) + 1))
            vs = [self.ph * (1 if s + a == self.goal else vfn[s + a]) + (1 - self.ph) * vfn[s - a] 
                  for a in acts]
            vMax = max(vs)
            aList = [a for a in acts if vs[a-1] > vMax - thr]
            prob = 1 / len(aList)
            return [(prob, a) for a in aList]
        return {s : act_val(s) for s in range(1, self.goal)}
    
    def show_pol_cov(self, pol):
        xs = []
        ys = []
        for s in range(1, self.goal):
            for (_, a) in pol[s]:
                xs.append(s)
                ys.append(a)
        plt.scatter(np.array(xs), np.array(ys))

### 実験

In [None]:
def experiment(ph, goal, thr):
    # インスタンス作成
    gambler = MDP_Gambler(ph, goal)
    # 最適価値関数の計算
    (_, vfn, _) = gambler.value_iter(thr=thr)
    # ライブラリとして用意した value_iter() が返すポリシーは，最適アクションのうち任意の
    # 1つを選択する．ここでは，opt_pol_cov() なるメソッドを用意した．これは，最適
    # アクションのすべてを等確率で選択する．
    pol = gambler.opt_pol_cov(vfn, thr=10*thr)
    # 選択されたアクションを表示する．
    gambler.show_pol_cov(pol)

In [None]:
experiment(0.4, 100, 1e-6)

なんだ，これは? もう少し横軸の量を減らして goal = 16 とすると，

In [None]:
experiment(0.4, 16, 1e-6)

ふーん?  goal = 4 にしてみると?

In [None]:
experiment(0.4, 4, 1e-6)

x = 1, 3 は，他には選択肢はない．x = 2 のときは，1賭けるより2賭けた方が見込みがある．2賭ければ 0.4 で成功確定だが，
1賭けると，その0.4で勝った後，もう一回 0.4 の幸運を得ないといけない．もちろん，賭け額を1に押さえておけば，負けたときにももう一度チャンスがある．
しかし，各回の確率は0.4で半分以下なのだから，長くゲームを続ければ総合的にじり貧なので，一気に賭けた方が良い，と思えば良いだろうか?

この戦略では，成功確率は， 
$p_2 = p_h(=0.4)$, $p_1 = p_h p_2 = {p_h}^2$,  $p_3 = p_h + (1-p_h)p_2 = 2p_h + {p_h}^2$ である．

もう一つ増やして goal = 8 とすると，

In [None]:
experiment(0.4, 8, 1e-6)

これは不思議な結果である．n = 2, 4，6 は良いとして，なぜ n = 3, 5 は，候補が2つあるのだろうか?

goal = 4 の結果から，$p_2 = {p_h}^2$, $p_4 = p_h$, $p_6 = 2p_h - {p_h}^2$ であるから，n = 3 のときに，3賭けるとすると，成功確率は，
$p_hp_6 = 2{p_h}^2 - {p_h}^3$，1賭けるとすると，
$p_hp_4 + (1-p_h)p_2 = {p_h}^2 + (1-p_h){p_h}^2 = 2{p_h}^2 - {p_h}^3$ で，完全に一致する，というわけである．

計算は確かにこうなのだけれど，直観的な説明はつかないのだろうか? 「じり貧」理論は成り立たないということか．

$p_h > 0.5$ の時には，じり貧理論の逆側を考えると，できるだけ安全に小さく賭ける，つまり，毎回1ずつ賭けるのが良いように思われる．

In [None]:
experiment(0.6, 100, 1e-6)

またまた予想が外れたように見えるが，これは，そういうわけではないようである．次の結果を参照．

In [None]:
experiment(0.6, 100, 1e-10)

山が小さくなった．もっと threshold を小さくしてみたいところであるが，あまり小さくするとゼロ割エラーになってしまう．
いずれ誤差の話であるようだ．nを小さくして実験してみよう．

In [None]:
experiment(0.6, 32, 1e-4)

In [None]:
experiment(0.6, 32, 1e-8)

というわけで，こちらは直観と一致した結果となっているようだ．