In [2]:
import numpy as np
import numpy.random as npr

In [3]:
def generate_one_episode(center, p_r=0.5):
    left = 0
    right = 2*center
    current = center
    episode = [current]
    while (current>left) and (current<right):
        current = current+1 if npr.uniform()<=p_r else current-1
        episode.append(current)
    return episode

In [4]:
def monte_carlo_first_visit_prediction(n_episode, center, gamma=1, p_r=0.5):
    returns = np.zeros(center*2+1)
    returns[0] = 0
    returns[-1] = 1
    counts = np.zeros(center*2+1)
    counts[0] = 1
    counts[-1] = 1
    for _ in range(n_episode):
        episode = generate_one_episode(center, p_r)[::-1]
        G = 0 if episode[0]==0 else 1
        episode = episode[1:]
        for i, s in enumerate(episode):
            G = gamma*G
            if s not in episode[i+1:]:
                returns[s] += G
                counts[s] += 1
    value = returns/counts
    
    return value

In [5]:
def temporal_difference_prediction(n_episode, center, gamma=1, alpha=0.1, p_r=0.5):
    value = np.zeros(center*2+1)
    value[0] = 0
    value[-1] = 1
    for _ in range(n_episode):
        episode = generate_one_episode(center, p_r)
        for i in range(len(episode)-1):
            value[episode[i]] += alpha*(gamma*value[episode[i+1]]-value[episode[i]])
    return value

In [6]:
def constant_alpha_monte_carlo_first_visit_prediction(n_episode, center, alpha=0.1, gamma=1, p_r=0.5):
    value = np.zeros(center*2+1)
    value[0] = 0
    value[-1] = 1
    for _ in range(n_episode):
        episode = generate_one_episode(center, p_r)[::-1]
        G = 0 if episode[0]==0 else 1
        episode = episode[1:]
        for i, s in enumerate(episode):
            G = gamma*G
            if s not in episode[i+1:]:
                value[s] = value[s]+alpha*(G-value[s])
    
    return value

In [7]:
value = monte_carlo_first_visit_prediction(10000, 3)

for i in range(len(value)):
    print(i, value[i], i/(len(value)-1))

0 0.0 0.0
1 0.16694242223692918 0.16666666666666666
2 0.3320509418944017 0.3333333333333333
3 0.4965 0.5
4 0.665817352822851 0.6666666666666666
5 0.8338931810547531 0.8333333333333334
6 1.0 1.0


In [12]:
value = temporal_difference_prediction(10000, 3, alpha=0.1)

for i in range(len(value)):
    print(i, value[i], i/(len(value)-1))

0 0.0 0.0
1 0.13375324969552915 0.16666666666666666
2 0.3076547211926426 0.3333333333333333
3 0.4909808796317162 0.5
4 0.757896108560048 0.6666666666666666
5 0.8928348472863182 0.8333333333333334
6 1.0 1.0


In [13]:
value = constant_alpha_monte_carlo_first_visit_prediction(10000, 3, alpha=0.1)

for i in range(len(value)):
    print(i, value[i], i/(len(value)-1))

0 0.0 0.0
1 0.11798433856992142 0.16666666666666666
2 0.17851463175929094 0.3333333333333333
3 0.44023338075828733 0.5
4 0.5705126696555782 0.6666666666666666
5 0.7232702504457377 0.8333333333333334
6 1.0 1.0
