### <$V_\pi$를 추정하기 위한 n단계 TD> 

입력 : 정책 $\pi$ 

알고리즘 파라미터 : 시간 간격 $\alpha \in (0,1] $, 양의 정수 $\alpha$  

모든 $s \in S$ 에 대해 V(s)를 임의의 값으로 초기화 

($S_t$와 $R_t$에 대한) 모든 저장과 접근은 n+1로 인텍스를 설정하여 행해질 수 있음. 

각 에피소드에 대한 루프 : 
- $S_0$를 초기화하고 저장(단, $S_0 \neq$ 종단) 
- $ T <- $ 무한대
- t= 0,1,2, ... 에 대한 루프 : 

> t < T 이면 : 
 > -  $\pi(.|S_t)$에 따라 행동을 취함
 > - 다음 보상을 $R_{t+1}$, 다음 상태를 $S_{t+1}$로 측정하고 저장함 
 > - $S_{t+1}$ 이 종단이면, T <- t+1 
 
> r <- t-n+1(r은 상태의 추정값이 갱신되는 시각) 

> R>=0 이면 : 
> - G <- $\sum^{min(r+n,T)}_{i = r+1} \gamma^{i-r-1} R_i$ 
> - r+n < T 이면, G <- $G+ \gamma^n V(S_{r+n})$
> - $V(S_r)$ <- $V(S_r) + \alpha [G-V(S_r]$ 

- r = T-1 이면 종료


**<구현해야 하는 것>**
- V(S) : 상태 s에 대한 가치 함수 계산. 챕터 4의 코드 참고 
- pi(s) : 상태 s에 따른 행동들의 확률 값들을 list로 반환 
- return(s', a, s) : R 값 반환 

- next_S(s,a) : 상태 s와 행동 a를 했을 때의 s'. 
- make_episode : 챕터 4의 코드 참고

**<필요한 것>** 
- $\alpha$ : class 제작시 입력 값으로 부여 
- n : 몇단계 TD를 할 것인가? 


**<함수 / 데이터 형식>** 
- class evaluate_v_n_TD : a# alpha 값 추가 
> def __init__(self, S, A, n, pi, alpha, reward_func, epsilon = 0.001, gamma = 0.9, num_episode = 10, len_episode = 20) : 


**<외부함수>** 
- $\pi(s,a) $ : 상태 s 하에서 선택할 a. 확률론적으로 구현할 것  
- R(s',a,s) : 보상함수


**<고민점>** 
- "($S_t$와 $R_t$에 대한) 모든 저장과 접근은 n+1로 인텍스를 설정하여 행해질 수 있음." 을 어떻게 구현할 것인가? 
> t=0 부터 n까지의 사례를 다루겠다는 것으로 보여짐. make_episode의 구조와 까지 dic의 value 값들을 list로 설정한 것으로 해결가능할 듯.

- r과 n의 값이 의미하는 것은 무엇인가? 
> r 이 양수이면 갱신가능 의미. n은 n단계 TD의 n을 의미함 . 

- r <- 't-n+1' 인 이유는? 그리고 r >=0 일때만 값들을 갱신하는 이유는 무엇인가? 
> 갱신 가능 여부를 확인하는 것. n단계 TD에서 적어도 +n 단계의 정보가 필요함. 

- $S_{t+1}$ 이 종단이다는 어떻게 표현할 것인가? 
> make_episode 함수를 통해서 길이를 미리 정해줌. 이를 통해서 확인 가능할 것 


In [4]:
# 테스트 용 임시 데이터 
S = list(range(100)) 
A = list(range(-5,5))

In [6]:
from collections import defaultdict
import random
import numpy as np

In [7]:
# 외부용 함수 reward_func 간략 구현 (이전 예시 활용)
def reward_func(next_s, a, s) : 
    # next_s 와 s의 차이가 짝수이면 +1, 홀수면 -1 
    # 단, a의 크기에 반비례함. 
    if abs(next_s - s) %2 == 0 : reward = 1 
    else : reward = -1
    
    if a == 0 : 
        return 0 
    else : 
        return reward / a # 즉, a가 양수이며 짝수이며, 가능한 작을 때 (=2) 일 때 최대의 보상이 주어지도록 설정 
    
    
def pi(s,a) : #s 상황에서 a를 선택할 확률. 전체 합은 1이여야 한다. 
    # 확률은 모두 동일하게 설정 
    
    return 1/10

In [20]:
# 시간차 학습 - 가치 상태 추정 TD(0) 코드 참고 

class evaluate_n_TD :  
    def __init__(self, S, A, n, pi, reward_func, alpha=0.1,  epsilon = 0.001, gamma = 0.9, num_episode = 10, len_episode = 20) : 
        self.S = S 
        self.A = A 
        self.n = n 
        self.pi = pi 
        self.reward_func = reward_func
        self.alpha = alpha
        self.epsilon = epsilon 
        self.gamma = gamma 
        self.num_episode = num_episode
        self.T = len_episode

#        self.b, self.C = self.initiate_b()
#        self.Q, self.return_lst, self.s_prob = self.initiate() 
        self.V = self.initiate_V() 
    
    def initiate_V(self) : # V 값을 초기화 
        return [0]*len(self.S)
    

    def choice_action(self, s, policy) : #수정 - 일반화. 정책 기반으로 상황 s에 있을 때 선택할 행동 a 산출 
        policy_a_list = [] 
        for _ in self.A :
            policy_a_list.append(policy(s,_)) 

        a= random.choices(self.A, weights = policy_a_list)
        a = a[0]
        return a
    
    def next_s(self, s,a) : # 상태 s에서 a 행동을 했을 때 다음 상태 s'. 정책, S,A 에 따라 달라짐. 
        return min(max(s+a, 0), max(self.S)) 


    def make_episode(self, start_s, T) :
        s = start_s
        episode = {"S" : [], "A" : [], "R" : []} # R은 0~T 까지,  총 T+1 경우가 있음. 
        episode["R"].append(0) # R_0 값 부여
        episode["S"].append(start_s) # 추가.S_0 값 부여. 이로 인해서 추가 코드 수정 필요. 
        for _ in range(T) : 
            episode["S"].append(s)
            a = self.choice_action(s, self.pi) 
            next_s = self.next_s(s, a)
            r = self.reward_func(next_s, a, s)
            episode["A"].append(a)
            episode["R"].append(r)
            s = next_s
        return episode 
 
    def update_returns(self) : # TD(0) 형식에 맞춰 대거 수정 
        
        for _ in range(self.num_episode) : 
            start_s = random.choice(self.S) 
            T = self.T # 어차피 T는 self.T로 갱신되기 때문에 앞에서 설정함. 
            episode = self.make_episode(start_s, self.T) 
            S,R,A = episode['S'],episode['R'], episode['A'] 
            
            for t in range(self.T + self.n +1) : # t는 아무리 커도 self.T + n 보다 커질 수 없기 때문 
                # make_episode 에서 이미 a,r를 계산해 두었기 때문에 V(s)만 갱신하겠음. 
                
                # r 또한 현재 t와 인덱스로 사용되는 n이 중복되기 때문에, t값이 T 값일 때 순환문을 종료하는 것으로 
                
                r = t - self.n +1 
                if r >= 0 : 
                    G = sum([self.gamma **(i-r-1) * R[i] for i in range(r+1, min(r+self.n, self.T)+1)])
                    if r+self.n < self.T : G = G + self.gamma**self.n * self.V[S[r+self.n]]
                    self.V[S[r]] = self.V[S[r]] + self.alpha * (G - self.V[S[r]])
                if r == self.T -1 : break                  
                    
        

In [22]:
test = evaluate_n_TD(S,A, 10, pi, reward_func)
test.update_returns() 
print(test.V)

for _ in range(10) : test.update_returns()  
print(test.V)


[-0.29540680525, -0.4121530145643473, 0, -0.3303780521045176, -0.23634118278961452, -0.06992652500000002, -0.30675673369693623, 0, -0.07060400857000002, 0.030412589499999997, -0.052805000000000005, -0.04903995912216452, 0, -0.1, 0, -0.022833824450000005, 0, -0.065, -0.15045486800000002, -0.27487150000000005, 0, 0, 0.00802846533333333, 0, -0.09137150000000002, -0.19117161145250006, -0.252500439922, -0.22372346746225003, -0.05178167473000002, 0, -0.16123646505500003, -0.08112533492254051, 0.006981999999999994, 0.012654197666535952, -0.10822244313333335, -0.00581590077570001, -0.142, 0, -0.12190991738666668, -0.09547202482000001, 0.05755720928, 0.3098353276293522, 0.015766697475000015, 0.0795843284876667, 0.06763117703744413, -0.07545959741733133, 0.10658997995808334, -0.01107707166977872, 0.014796881507919801, 0, 0.21353937424959973, 0.023261219335833305, 0, 0.011131174906467525, -0.14853563397347005, 0.04316359272500001, 0, -0.0892641571370802, 0.14547370424489037, 0, 0, 0, -0.015206550