# Reinforcement Learning
* 이 노트북의 학습 내용은 [모두를 위한 머신러닝/딥러닝 | 시즌RL](http://hunkim.github.io/ml/)을 기반으로 작성되었습니다. 


## Lec1. introduction 

* 강화학습의 개념은 머신러닝 뿐 아니라 일상생활 속의 다양한 분야에서 언급되어 왔다.(특히, 강아지를 훈련시킬 때 적절한 보상과 질책을 주며 긍정적인 방향으로 훈련시키는것을 강화학습이라고도 한다.) 
* 강화학습은 사실 최근에 대두된 개념이 아닌 1997년 Tom Mitchell의 Machine Learning 책에서도 나왔을 정도로 오래된 개념이다. 
* 강화학습은 행동의 주체(actor)가 어떠한 환경(Enviroment)에서 행위를 하고, 행위의 결과로써 도출되는 결론을 통해 학습을 진행하는 과정이다. 
![exam.png](https://t1.daumcdn.net/cfile/tistory/991B02425B46E80A2A)

## Lec2. Playing OpenAI GYM Games 
* cf) 강화학습은 actor가 특정 env.에서 action을 진행함으로써 학습을 이어나가는 기법이다. 
    - 이때, actor의 action은 프로그래밍을 통해 설계할 수 있지만, enviroment를 직접 설계하는건 매우 까다롭다. 
    - OpenAI GYM이라는 프레임워크를 사용하면 손쉽게 구현이 가능하다. 

### Frozen Lake Game 
* 간단한 게임을 통해 실습을 진행합니다. 
![frozenLake.png](https://blog.kakaocdn.net/dn/AZDeY/btrpHF5QCic/Suucna3mjkK0GKcTMfbdcK/img.png)

##### Gym의 사용 예시 
```python
import gym 

# gym의 make 메소드를 이용해 환경을 생성합니다. 
env = gym.make("Taxi-v1") # 이때, 인자값은 주어진 옵션중 선택합니다. 
observation = env.reset() # 환경을 초기화합니다.

# 반복 수행하며 상태를 업데이트 합니다. 
for _ in range(1000):
    env.render() # 화면에 현재의 상태를 출력합니다. 
    action = env.action_space.sample() # 해당 부분에 미리 설계한 에이전트를 입력합니다. 
    observation, reward, done, info = env.step(action) # 각 행동이 종료될때 마다 그 결과 상태를 업데이트합니다. 
```

In [1]:
import gym

In [2]:
env = gym.make("FrozenLake-v1")
observation = env.reset()
for _ in range(1000):
    env.render()
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Down)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Down)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG
  (Up)
SFFF
FHFH
F[41mF[0mFH
HFFG
  (Right)
SFFF
FHFH
FF[41mF[0mH
HFFG
  (Left)
SFFF
FHFH
FFFH
HF[41mF[0mG
  (Right)
SFFF
FHFH
FF[41mF[0mH
HFFG
  (Right)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Left)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Down)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Right)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Left)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Right)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Left)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Left)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Right)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Down)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Up)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Right)
SFFF
FHFH
FFF[41mH[0m
HFFG
  (Right)
SFFF
FHFH
FFF[4

* 에이전트를 생성하기 전에, 직접 키를 입력하며 게임을 진행해봅니다. 
* 아래의 코드는 키 입력을 받아주는 소스코드입니다. 

In [3]:
'''
import gym 
from gym.envs.registration import register
import sys, tty, termios 

class _Getch():
    def __call__(self):
        fd = sys.stdin.fileno()
        old_settings = termios.tcgetattr(fd)
        try: 
            tty.setraw(sys.stdin.fileno())
            ch = sys.stdin.read(3)
        finally:
            termios.tcsetattr(fd, termios.TCSADRAIN, old_settings)
'''
# 해당 class는 윈도우에서 사용시 error가 발생합니다. 
# 이유는 윈도우에서는 termios의 사용이 제한되기 때문입니다. 따라서 아래의 코드로 대체합니다. 
import msvcrt
class _Getch():
    def __call__(self):
        return msvcrt.getch()


# 위의 클레스를 이용해 키를 받고, 이를 gym에서 사용하는 키값과 맵핑시켜줍니다. 
# 키 입력을 받습니다. 
inkey = _Getch()
# gym에서 사용하는 키의 인덱스 값입니다. 
LEFT = 0 
DOWN = 1 
RIGHT =2
UP = 3 
# key mapping # 실제 화살표 입력시 나타나는 키 값입니다. 
arrow_keys = {
    '\x1b[A': UP,
    '\x1b[B': DOWN, 
    '\x1b[C': RIGHT,
    '\x1b[D': LEFT
}

* 실제 gym을 통해 환경을 구성하고 게임을 진행합니다. 
* 게임을 단순화하기 위해 register를 편집해 게임 환경을 변화시켜줍니다. 

In [None]:
# from gym.envs.registration import register

# # 레지스터를 생성합니다. 
#     # 게임의 크기를 4 by 4로 줄이고 
#     # is_sliply 옵션을 false로 지정합니다. 
# register(
#     id="FrozenLake-v3",
#     entry_point='gym.envs.toy_text:FrozenLakeEnv',
#     kwargs={'map_name': '4x4', 'is_slippery':False}
# )

# # 환경을 생성합니다. 
# # 생성한 레지스트리의 이름을 입력값으로 주어 환경을 적용합니다. 
# env = gym.make('FrozenLake-v3')
# env.render() # 초기화된 최초 환경을 출력합니다. 

# # 게임을 진행합니다. 
# while True:
#     # 키를 선택(입력)합니다. 
#     key = inkey()
#     if key not in arrow_keys.keys():
#         print("Game aborted!")
#         break 
#     # 입력받은 키를 맵핑시켜 문자열 반환(변수명) --> 이를 변수를 사용해 숫자로 변환 후 넘겨줌 
#     action = arrow_keys[key]
#     state, reward, done, info = env.step(action)
#     # 행동의 결과를 출력합니다. 
#     env.render()
#     print("State: ",state, "Action: ",action, "Rewards: ",reward, "Info: ", info)
    
#     # 게임이 목적을 달성했으면 종료 
#     if done:
#         print("Finished with reward", reward)
#         break
    

* 별도의 실행 파일에서 테스트하는것을 권장합니다. 