# Reinforcement and Imitation Learning for Diverse Visuomotor Skills

## 요약

* 로보틱스 분야에서 기존 RL은 한계가 있었다. 
* 모방 학습이 GAN의 형태로 제시되었다.
* RL 과 모방학습을 합쳐보니 기존 RL의 한계를 뛰어넘더라 
* 기타 아이디어
  * 시뮬레이션 환경에서의 모방 동작의 센서값으로 RL에게 Good Start 지점 
  * Auxiliary Task 풀기
  * 도메인 특화된 정보. 예로 물체 위치 
  * 시뮬레이션 to real 환경으로의 정책 transfer
  
 

## 로보틱스 분야에서 기존 RL의 한계

* 기존 비디오 게임이나 바둑에서 RL의 활약 
* 로보틱스 분야에서는 아직까지는 저차원 행동에만 적용
* model-based 를 많이 하나 실환경은 아래처럼 severe challenge들이 많은 상황이라서 모델링 자체가 어렵다 
  * High DOF
  * long horizon
  * multi-modal and partial obs from noisy sensors
  * contact-dynamtics
  * varity of objects - visual appearance, shapes, positions
* model-free, end-to-end 시도할 때면 high sample complexity 문제에 직면
* 실 환경에서의 추가적 어려운 점
  * safty consideration
  * hard to explore due to high dim, ambigous of designing reward ft
* 우리의 대안 
  * 인간의 데모(demonstration) 제공 => exploration 향상
  * 테스트 특화된 정보 제공 => exploitation 향상 
  * 다양한 오브젝트 실험 => generalization

## Model 

![](./images/rlil/01.png)

### Hybrid of RL/IL reward

#### Generative adversarial imitation learning

* 기존 모방학습 접근
  * behavior cloning
  * 일종의 supervised learning
  * data collection이 너무 많이 필요
* GAN 접근
  * discriminator는 expert policy에서 생성한 진짜(real)와 가짜(fake)를 잘 구별하도록 학습
  * policy generator는 discriminator를 잘 속일 정도로 진짜 expert policy와 똑같아지도록 학습
 
 ![](./images/rlil/02.png)
 
 ![](./images/rlil/03.png)
 
* RL reward와의 혼종 
  * 기존 RL reward는 very sparse, 그래서 IL reward가 도움이 되는 것
  * lambda 가 0이면 standard RL
  * lambda 가 1이면 standard IL
 ![](./images/rlil/04.png)

### 가상 환경에서의 state 정보의 적극 활용 

* 가상에서는 실환경과는 다르게 생각보다는 일부 state 정보를 정확히 구할 수 있다.
  * ex) robot arm의 위치/속도
* 원래는 반칙이지만 가상에서 정책 잘배워서 실환경으로 transfer 하자
* 4가지 아이디어
  * 데모 행동에서 좋은(?) state를 뽑아놔서 RL의 initial episode start point로 활용
    * clusters of states for each task 를 구성하는 식으로..
  * policy update 시에 사용하는 adavantage를 위한 value function의 학습에 사용
    * robot arm 정보와 물체 정보 등을 통해 구성
  * Object-centric discriminator
    * 물체 정보를 제공받는다. 
    * Inspired by information hiding strategies used in locomotion domains
    * 다만 도메인 특화된 정보 디자인이 요구
  * State prediction auxiliary tasks
    * 본래의 task 외에 연관/쉬운 별도 테스크 문제 풀기
    

### Sim2Real

* 실황경과 동일하게 가상 환경도 구축
* 동영상 시청
  * https://www.youtube.com/watch?v=EDl8SQUNjj0&feature=youtu.be

## 실험 

 ![](./images/rlil/05.png)
 
* Full 모델은 모든 테스트에 잘된다. 
* standard RL 단독(red)로는 잘 안풀린다.

 ![](./images/rlil/06.png)