## <b>■ 복습</b>
    1장. 강화학습
        강화 + 머신러닝
        보상을 통해서 학습
    2장. 강화학습을 구현하기위해 알아야할 용어들
        순차적 문제를 풀기 위해 풀어야할 문제를 수학적 요소 5가지로 정의
            MDP (환경, 보상, 행동, 상태전이확률, 감가율)
    3장. 다이나믹 프로그래밍
        풀어야 할 문제를 MDP를 이용해서 다이나믹 프로그래밍
            1. 계산 --> O (Agent가 가야할 길을 일일이 다 계산해줌)
                - 정책반복
                - 가치반복
            다이나믹 프로그래밍 한계
                1. 바둑과 같이 환경이 크면 계산이 너무 오래 걸려 못품
                2. 차원의 저주
            2. 학습 --> X (Agent가 가야할 길을 스스로 학습해서 알아내게끔)
                - SARSA : 벨만 기대방정식 --> On policy
                - QLearning : 벨만 최적방정식 --> Off policy
    4장. 강화학습
        1. SARSA
        2. QLearning

#### <b> SARSA 클래스에 있는 메소드</b>
    1. init
    2. 학습하는 함수(learn)
    3. 학습한대로 행동하는 함수 (get_action)
    
#### <b> 실행 코드</b>
    1. SARSA 에이전트를 객체화
    2. SARSA 클래스의 메소드로 2개를 실행
        - learn
        - get_action

In [None]:
import numpy as np
import random
from collections import defaultdict
from environment import Env

class SARSAgent:
    def __init__(self, actions):
        self.actions = actions # 대리인이 해야할 행동을 지정
        self.step_size = 0.01 # Q함수값을 천천히 갱신하기 위한 사이즈. 너무 커도 안좋음
        self.discount_factor = 0.9 # 감가율
        self.epsilon = 0.1 # 학습할 때는 10번에 한 번씩 랜덤 행동
        # 0을 초기값으로 가지는 큐함수 테이블 생성
        self.q_table = defaultdict(lambda: [0.0, 0.0, 0.0, 0.0])

    # <s, a, r, s', a'>의 샘플로부터 큐함수를 업데이트
    def learn(self, state, action, reward, next_state, next_action):
        state, next_state = str(state), str(next_state) # 현재 상태, 다음 상태 (좌표들)
        
        current_q = self.q_table[state][action] # 현재 상태의 Q값
        next_state_q = self.q_table[next_state][next_action] # 다음 상태의 Q값 
        
        td = reward + self.discount_factor * next_state_q - current_q
        new_q = current_q + self.step_size * td
        self.q_table[state][action] = new_q

    # 입실론 탐욕 정책에 따라서 행동을 반환
    # e-greedy 정책(epsilon greedy)
    def get_action(self, state):
        if np.random.rand() < self.epsilon:
            # 무작위 행동 반환
            action = np.random.choice(self.actions)
        else:
            # 큐함수에 따른 행동 반환
            state = str(state)
            q_list = self.q_table[state] # 경험한 걸로 가져온다
            action = arg_max(q_list)
        return action


# 큐함수의 값에 따라 최적의 행동을 반환
def arg_max(q_list):
    max_idx_list = np.argwhere(q_list == np.amax(q_list))
    max_idx_list = max_idx_list.flatten().tolist()
    return random.choice(max_idx_list)


if __name__ == "__main__":
    env = Env()
    agent = SARSAgent(actions=list(range(env.n_actions)))

    for episode in range(1000):
        # 게임 환경과 상태를 초기화
        state = env.reset()
        # 현재 상태에 대한 행동을 선택
        action = agent.get_action(state)

        while True: # 1epi당 얼음판위를 에이전트가 움직이게 하는 부분
            env.render() # 화면을 0.03초마다 업데이트

            # 행동을 위한 후 다음상태 보상 에피소드의 종료 여부를 받아옴
            next_state, reward, done = env.step(action) # 다음상태, 보상, 종료여부
            # 다음 상태에서의 다음 행동 선택
            next_action = agent.get_action(next_state)
            # <s,a,r,s',a'>로 큐함수를 업데이트
            agent.learn(state, action, reward, next_state, next_action)

            state = next_state
            action = next_action

            # 모든 큐함수를 화면에 표시
            env.print_value_all(agent.q_table)

            if done:
                break

### <b>[쉬움주의] 4장. 살사 얼음판 코드를 이해하기 위한 문법 문제들</b>

#### 문제1.  defaultdict 이란 어떤 기능인가 ?
    default값을 가지는 dict 자료형

In [1]:
# 일반 dict 실습
n_dict = dict()
n_dict["a"]

KeyError: 'a'

In [2]:
from collections import defaultdict
d_dict = defaultdict(int)
d_dict["a"]
print(d_dict)

defaultdict(<class 'int'>, {'a': 0})


In [3]:
d_dict["b"] = 20
print(d_dict)

defaultdict(<class 'int'>, {'a': 0, 'b': 20})


#### 문제2. defautdict 에 lamda 를 씌운 아래의 코드를 돌려보고 ? 자리에 어떤 코드를 추가해야 아래의 결과가 출력될까?
    {0: [1, 3, 5, 7], 1: [1, 3, 5, 7], 2: [1, 3, 5, 7], 3: [1, 3, 5, 7]})

In [4]:
from collections import defaultdict
q_table = defaultdict(lambda: [1, 3, 5, 7])

for i, j in zip(range(4), range(4)):
    q_table[i]
    
print(q_table)


defaultdict(<function <lambda> at 0x000001F4117C9AF0>, {0: [1, 3, 5, 7], 1: [1, 3, 5, 7], 2: [1, 3, 5, 7], 3: [1, 3, 5, 7]})


In [6]:
from collections import defaultdict
q_table = defaultdict(lambda: [0.0, 0.0, 0.0, 0.0])
state = (1,0)
action = 1

q_table[state][action] = 3.45

print(q_table)
print(q_table[state][action])


defaultdict(<function <lambda> at 0x000001F4117C91F0>, {(1, 0): [0.0, 3.45, 0.0, 0.0]})
3.45


#### 문제3. Sarsa 클래스의 학습 하는 함수의 수학식이 원래 살사 수학식과 동일한지 확인하시오 !
![f](http://cfile290.uf.daum.net/image/9962F7465F67CBD30A425D)

In [7]:
def learn(self, state, action, reward, next_state, next_action):
    state, next_state = str(state), str(next_state)
    current_q = self.q_table[state][action]
    next_state_q = self.q_table[next_state][next_action]

    td = reward + self.discount_factor * next_state_q - current_q

    new_q = current_q + self.step_size * td

    self.q_table[state][action] = new_q    

![f](http://cfile279.uf.daum.net/image/995F2E485F67CC9D0B8876)

#### 문제4. 아래와 같이 각 좌표별로 학습한 결과인 q_table 을  출력하세요 !
    결과:

    {'[0, 0]': [0.0, 0.0, 0.0, -8.019000000000002e-05], 
     '[0, 1]': [0.0, 0.0, 0.0, 0.0], 
     '[1, 0]': [0.0, -0.008910000000000001, 0.0, 0.0], 
     '[1, 1]': [0.0, -1.99, 0.0, -1.0],
     '[0, 2]': [0.0, 0.0, 0.0, -1.0],
     '[0, 3]': [0.0, 0.0, 0.0, 0.0], 
     '[1, 3]': [-1.0, 0.0, 0.0, 0.009000000000000001], 
     '[1, 2]': [0.0, 0.0, 0.0, 0.0], 
     '[1, 4]': [0.0, 0.0, 0.0, 0.0], 
     '[0, 4]': [0.0, 0.0, 0.0, 0.0],
     '[2, 1]': [0.0, 0.0, 0.0, 0.0], 
     '[2, 0]': [0.0, -1.0, 0.0, 0.0], 
     '[3, 0]': [0.0, 8.100000000000002e-05, 0.0, 0.0], 
     '[4, 0]': [0.0, 0.0, 0.0, 0.0], 
     '[4, 1]': [0.0, 0.0, 0.0, 0.0],
     '[3, 1]': [0.0, 0.0356409, -1.0, 0.0],
     '[3, 2]': [0.0, 0.0, 3.940399, 0.0], 
     '[2, 3]': [1.99, 0.0, 0.0, 0.0],
     '[2, 4]': [0.0, 0.0, 0.0, 0.0], 
     '[3, 4]': [0.0, 0.0, 0.0, 0.0], 
     '[3, 3]': [0.01791, 0.0, 0.0, 0.0], 
     '[2, 2]': [0.0, 0.0, 0.0, 0.0], 
     '[4, 4]': [0.0, 0.0, 0.0, 0.0]})
     
     답:
     
     learn 함수에 
     print(q_table) 추가

#### 문제5.  랜덤의 횟수를 10번중에 1번이 아닌 10번중에 5번으로 변경해서 수행하면 어떤 결과가 되는지 테스트 하시오 !
    답:
    
    self.epsilon = 0.5

#### 문제6. 다음과 같이 성공횟수 실패횟수가 누적되어서 출력되게 하시오!
    결과"
    성공횟수: 2    실패횟수: 5
    성공횟수: 2    실패횟수: 5
    성공횟수: 2    실패횟수: 5
    성공횟수: 2    실패횟수: 5
    성공횟수: 2    실패횟수: 5
    
    힌트:

     while True:
            env.render()
            # 행동을 위한 후 다음상태 보상 에피소드의 종료 여부를 받아옴
            next_state, reward, done = env.step(action)
            print(reward)

            # 다음 상태에서의 다음 행동 선택
            next_action = agent.get_action(next_state)

            # <s,a,r,s',a'>로 큐함수를 업데이트
            agent.learn(state, action, reward, next_state, next_action)

            state = next_state
            action = next_action

            # 모든 큐함수를 화면에 표시
            env.print_value_all(agent.q_table)

            if done:
                break

#### 문제7.  얼음판의 크기를 7X7 으로 늘려보고 수행하세요. 
    environment.py 
        np.random.seed(1)
        PhotoImage = ImageTk.PhotoImage
        UNIT = 100  # 필셀 수
        HEIGHT = 7  # 그리드 월드 가로
        WIDTH = 7  # 그리드 월드 세로


#### 문제8. 이번에는 에피소드도 아래와 같이 출력되게 하시오
```python
    if done:
        if reward == 100:
            cnt_s += 1
        if reward == -100:
            cnt_f += 1
        print(f"에피소드: {episode+1} | 성공횟수: {cnt_s} | 실패횟수: {cnt_f}")
        break
```

#### 문제9. 얼음판은 크게 관계없지만 바둑이나 틱택토의 경우 한 번의 악수로 게임을 질 수도 있으니 어느정도 학습했으면 랜덤수가 없어져야 한다. 그래서 얼음판에서 10번에 1번씩 랜덤 행동을 하는 에이전트가 점점 랜덤행동이 줄어들고 나중에는 greedy에 의해서만 수행되겠금 코드를 수정하시오

In [None]:
if __name__ == "__main__":
    env = Env()
    agent = SARSAgent(actions=list(range(env.n_actions)))

    cnt_s = 0
    cnt_f = 0

    loop = 1000

    for episode in range(loop):
        # 게임 환경과 상태를 초기화
        state = env.reset()
        # 현재 상태에 대한 행동을 선택
        action = agent.get_action(state)

        while True:
            env.render()

            # 행동을 위한 후 다음상태 보상 에피소드의 종료 여부를 받아옴
            next_state, reward, done = env.step(action)
            # 다음 상태에서의 다음 행동 선택
            next_action = agent.get_action(next_state)
            # <s,a,r,s',a'>로 큐함수를 업데이트
            agent.learn(state, action, reward, next_state, next_action)

            state = next_state
            action = next_action

            # 모든 큐함수를 화면에 표시
            env.print_value_all(agent.q_table)

            if done:
                if reward == 100:
                    cnt_s += 1
                if reward == -100:
                    cnt_f += 1

                print(f"epsilon: {agent.epsilon} | 에피소드: {episode+1} | 성공횟수: {cnt_s} | 실패횟수: {cnt_f}")
                break

        if not (cnt_s + cnt_f) % 10:
            agent.epsilon = agent.epsilon - (episode / loop)
            if agent.epsilon < 0:
                agent.epsilon = 1e+08
            print(episode, agent.epsilon)