## The CartPole session
### 환경
#### - "classic control" 환경 
#### - 목표 
- 막대기가 부착 된 카트를 제어하는 것
- 왼쪽, 오른쪼긍로 움직여서 균형을 잡아 막대기를 떨어트리지 않는 것
    
#### - 관찰 (4개)
- 스틱의 질량 중심 x 좌표(스틱의 각도)
- 스틱의 속도 
- 카트의 위치 
- 카트의 속도

#### - 보상 
- 매 단계마다 제공
- 에피소드는 스틱이 떨어질 때까지 진행 
- 누적 된 보상을 얻으려면 스틱이 떨어지지 않도록 플랫폼의 균형을 유지 필요 

In [2]:
import gym
e = gym.make('CartPole-v0')

[2019-01-20 00:04:28,067] Making new env: CartPole-v0


In [4]:
obs = e.reset() 
obs #(스틱 각도, 스틱 속도, 카트 위치, 카트 속도)

array([ 0.00980206, -0.0118    , -0.02252819,  0.00181933])

In [6]:
e.action_space  #0, 1: 왼쪽, 오른쪽

Discrete(2)

In [10]:
e.observation_space #[-inf, inf] 범위의 크기가 4인 벡터 

Box(4,)

- 액션 0 실행
    - 반환: (새로운 관찰, 보상, 에피소드 종료 여부, 추가 정보)

In [11]:
e.step(0)

(array([ 0.00543422, -0.40138584, -0.01674561,  0.57281528]), 1.0, False, {})

In [12]:
e.action_space.sample() #액션 무작위 샘플링 

0

In [13]:
e.observation_space.sample() #관찰 무작위 샘플링

array([8.91308335e-01, 2.34295114e+38, 2.99871819e-01, 2.36327273e+38])

#### - The random Cartpole agent 

In [19]:
import gym

if __name__ == "__main__":
    env = gym.make("CartPole-v0")

    total_reward = 0.0
    total_steps = 0
    
    obs = env.reset() #환경 초기화 
    #우리의 에이전트는 확률적이기 때문에 사용되지 않을 것? (하나의 에피소드만 수행?) 
  
    while True:
        action = env.action_space.sample()
        
        obs, reward, done, _ = env.step(action) #액션 수행 
        
        total_reward += reward
        total_steps += 1
        
        if done:
            break
    
    print("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

[2019-01-20 00:11:08,191] Making new env: CartPole-v0


Episode done in 19 steps, total reward 19.00


#### -  대부분의 Gym환경에는 보상경계 존재 
- 보상 경계 : 100회 연속 에피소드 중 에이전트가 얻게 되는 평균 보상 
- CartPole: 195 (평균적으로 에이전트가 195번의 timestep동안 막대 균형을 유지해야 함을 의미)

## The extra Gym functionality – wrappers and monitors

#### : 알고리즘을 더 쉽게하고 코드를 더 깨끗하게 만드는 함수들

### Wrappers
#### - 환경 기능을 확장할 때, 
- 예)
    - 환경의 관찰을 일부 버퍼에 누적하고 에이전트에 N 개의 마지막 관찰을 제공하려는 경우 
    - 동적 컴퓨터 게임에서, 게임 상태에 대한 전체 정보가 하나의 프레임만으로는 충분하지 않은 경우 

    - 에이전트가 더 잘 이해할 수 있도록 이미지 픽셀을 자르거나 전처리하는 경우 
    - 보상 점수를 정규화하려는 경우
    
#### -기존 환경을 "감싸고(wrap)"추가 작업을 추가하고 싶을 때, 

////
#### -Wrapper 클래스는 Env클래스를 상속받음 
- 생성자는 "wrapped"할 환경의 인스턴스를 유일한 인자로 받음 
- 추가 기능을 추가하려면 step () 또는 reset ()과 같이 확장할 메소드 재정의 필요 
    -  superclass의 원래 메소드를 호출
    
#### - Wrapper 클래스의 하위 클래스 
- 구체적인 요구 사항을 처리하기 위해 특정 정보 부분만 필터링 
- ObservationWrapper 
    - 부모클래스의 관찰(obs) 메소드를 재정의 필요 
    - obs 인수는 wrapped된 환경에서의 관찰
    - 에이전트에 제공될 관찰 반환 
    
    
- RewardWrapper 
    - 에이전트에게 주어진 보상을 수정할 수 있는 보상(rew)메서드 표현 
    
    
- ActionWrapper 
    - wrapped된 환경으로 전달된 액션을 에이전트에 맞게 조정할 수있는 action(act) 메소드를 override 필요 
    -  "exploration(탐험)/exploitation(탐색) 문제" 해결 시 사용 가능 
        - 가끔 무작위로 액션 수행 
        - ActionWrapper 클래스를 통해 간단하고 실용적이게 구현 가능 


In [1]:
import gym
import random

In [10]:
class RandomActionWrapper(gym.ActionWrapper):
    def __init__(self, env, epsilon=0.1):
        super(RandomActionWrapper, self).__init__(env)
        #부모의 __init__ 메소드를 호출
        
        self.epsilon = epsilon #엡실론 10%       
        
    
    def action(self, action):
        if random.random() < self.epsilon:
            print("Random!")
            
            return self.env.action_space.sample()
        
        return action

- 부모class에서 오버라이드하여 에이전트의 행동을 조정하는 방법 

In [11]:
if __name__ == "__main__":
    env = RandomActionWrapper(gym.make("CartPole-v0"))
    
    #원래의 CartPole 대신 일반 Env 인스턴스로 wrapper 사용
    #Wrapper 클래스는 Env 클래스를 상속, 동일한 인터페이스를 
    #포함하므로 원하는 조합으로 래퍼를 중첩 가능 
    
    obs = env.reset()
    total_reward = 0.0

    while True:
        obs, reward, done, _ = env.step(0)
        total_reward += reward
        if done:
            break

    print("Reward got: %.2f" % total_reward)


[2019-01-20 00:39:31,568] Making new env: CartPole-v0


Reward got: 9.00


### Monitor

- Wrapper와 같이 구현됨 
- 에이전트의 성능에 대한 정보를 파일로 기록 
- Monitor 클래스의 결과를 https://gym.openai.com 웹 사이트에 업로드하고 다른 사람들의 결과와 비교하여 에이전트의 위치 확인 가능 
- 그러나 , 2017 년 8 월 말, OpenAI는 업로드 기능을 종료, 모든 결과를 동결하기로 결정. 
- 환경 내에서 에이전트의 움직임 확인용으로 사용됨 


- CartPole환경에 Monitor 추가 

In [13]:
import gym


if __name__ == "__main__":
    env = gym.make("CartPole-v0")
    env = gym.wrappers.Monitor(env, "recording", force=True)
    #gym.wrappers.Monitor(환경, 결과 기록 디렉토리)
    #존재하지 않는 디렉토리 사용 필요 
    #존재하는 디렉토리를 사용하려면 force=True 인자 사용 
    
    total_reward = 0.0
    total_steps = 0
    obs = env.reset()

    while True:
        action = env.action_space.sample()
        
        obs, reward, done, _ = env.step(action)
        
        total_reward += reward
        total_steps += 1
        
        if done:
            break

    print("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))
    env.close()
    env.env.close()

[2019-01-20 00:42:20,604] Making new env: CartPole-v0
[2019-01-20 00:42:20,621] Clearing 7 monitor files from previous run (because force=True was provided)
[2019-01-20 00:42:20,627] Starting new video recorder writing to /home/sohee/semina/Deep Reinforcement/chapter2. OpernAIGym/recording/openaigym.video.0.5654.video000000.mp4
[2019-01-20 00:42:22,867] Finished writing results. You can upload them to the scoreboard via gym.upload('/home/sohee/semina/Deep Reinforcement/chapter2. OpernAIGym/recording')


Episode done in 11 steps, total reward 11.00


- 과정을 비디오로 기록하기 위해 요구되는 조건 책에 저술 
    - 현재 환경(virtual box-ubuntu)에서는 sudo-apt get install ffmpeg 