# ベルマン方程式

## 状態価値関数とベルマン方程式

In [None]:

def r_revenue(state, action, next_state):
    return 1 # TODO

def next_state_function(state, action):
    next_state = state # TODO
    return 1, next_state

def expected_sum(policy, state, **revenue_or_return):
    # E[X+Y] = E[X] + E[Y] (期待値の線形性による）
    result = 0
    for func in revenue_or_return:
        result += expected(policy, state, revenue_or_return=func)
    return result

def expected(policy, state, revenue_or_return):
    # E[X] = ∑ x P(X=x) x
    result = 0
    for prob_action, action in policy(state):
        for prob_next_state, next_state in next_state_function(state, action):
            result += prob_action * prob_next_state * revenue_or_return(state, action, next_state)
    return result

# 状態価値関数 = 状態sにいることの価値
# vπ(s) = E[Gt|St = s, π]
def state_value_function(policy, state, gamma=1.0):
    # Eπ[Gt+1|St = s] = Eπ[Rt|St = s] + γEπ[Gt+1|St = s]
    # = ∑ a,s′ π(a|s) p(s′|s, a) {r(s, a, s′) + γvπ(s′)}
    # このように再帰的に計算できる。別の言い方をすれば、漸化式で表せる。これが状態価値関数におけるBellman方程式である。
    return expected_sum(policy, state, r_revenue, lambda _state, _action, next_state: gamma * state_value_function(policy, next_state))


## 行動価値関数とベルマン方程式

In [None]:
# 行動価値関数 = 状態sにいて行動aを取ったことの価値。なお、それ以降の行動は方策πに従う。
# qπ(s, a) = Eπ[Gt|St = s, At = a]
def action_value_function(policy, state, action, gamma=1.0):
    pass # 状態価値関数とほとんど同じなので省略。

## ベルマン最適方程式・最適方策

復習となるが、方策とは状態を入力すると行動の確率分布を返す関数である。

最適な方策とは、決定論的な方策である（行動の候補が複数ある中で、最も収益が高いものを常に100%選ぶ）。

したがって、ベルマン方程式のシグマの部分、確率分布と収益の積和は不要であり、単に状態から考えうる最も良い収益を選べば良い。よってmax演算子が使える。

（個人的には、ここまで方策には四則演算の関数のような印象だったが、maxのような操作ができるなら、自律的なロボットのように捉えたほうが誤解がなさそうだ）

また、最適方策は次の通り。

$\mu_*(s) = \underset{a}{\arg\max} q_*(s, a) = \underset{a}{\arg\max} \underset{s`}\sum p(s′|s, a) \{r(s, a, s′) + γv∗(s′)\}$


In [None]:
# 最適方策をPythonで読み下す

type State = int
type Action = dict[int, float] # {action: probability}

# μ∗(s) = argmax a q∗(s, a)
def mu_star_policy(state: State) -> Action:
    action_candidates = get_action_candidates(state)
    return max(action_candidates, key=lambda action: optimal_action_value_function(state, action))

def get_action_candidates(state: State) -> Action:
    pass # TODO

def optimal_action_value_function(state: State, action: Action, gamma=1.0):
    pass # TODO