## 강화학습

### 1. 기계학습의 종류
- 지도학습(Supervised learning)
- 비지도학습(Unsupervised learning)
- 강화학습(Reinforcement learning)

### 2. 강화학습
- 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

- 시간의 변화에 따른 시스템 제어 규칙 구성, 게임의 전략 구성 등에 사용되는 기법

- 사례1 - 로봇의 보행 제어 시스템(넘어지지 않고 걸어간 거리를 보상, 여러번 시행착오를 반복하면서 점점 더 먼 거리를 걸어갈 수 있게 됨)

- 사례2 - 자전거를 타면서 여러번 넘어지는 시행착오를 겪으며 자전거 타는 법을 배우게 되듯이 시행착오를 반복하면서 최적의 제어 방법을 익히는 학습기법

- 강화학습의 학습 데이터는 정답 역할을 할 레이블은 부여되지 않지만 길잡이가 될 정보가 있음

- 로봇의 보행제어를 지도학습으로 학습시킨다면? - 시시각각 변하는 각도, 방향 등 모든 경우에 대해 이럴 때는 이렇게 하라는 식의 정답을 미리 만들어 두어야 하므로 대단히 비효율적인 학습 방법이 된다.


### 3. 강화학습의 발전
#### 3.1. 스키너 상자
- 1930년 스키너가 발표한 이론
- 버튼을 누르면 먹이(보상)가 나온다.
- 처음에는 버튼과 먹이의 관계를 이해하지 못하지만 경험을 반복하는 과정에서 버튼과 먹이의 관계를 학습하고 버튼을 누르는 동작을 반복하게 된다. 이러한 매커니즘을 조작적 조건형성(강화)이라고 명명함.

#### 3.2. 1990년대 후반 슐츠의 뇌 과학 실험
- 원숭이의 뇌를 대상으로 실험한 결과 조작적 조건형성이 실제로 뇌의 학습 메커니즘과 유사하다는 것을 발견함. 그러나 실제 현상을 요약된 상태로 표현하는 것의 난제로 인해 한동안 정체 상태에 있었음.

#### 3.3. 심층강화학습: 강화학습에 딥러닝을 접목
- 강화학습에 딥러닝을 접목하게 되면서 다시 주목을 받게 됨
- 알파고: 대량의 기보 학습 데이터를 학습시킨 지도학습시스템과 지도학습 시스템끼리의 대전을 통해 얻은 심층강화학습시스템을 결합해서 다음 수를 결정함
- 알파고 제로:  지도학습을 전혀 사용하지 않고 강화학습으로만 구현된 시스템


### 용어

- 환경(environment) : 문제를 구성하는 모든 규칙

- 에이전트(agent) : 주어진 문제 상황에서 행동하는 주체

- 정책(policy) : 에이전트가 판단하는 방식

- 상태(state) : 현재 시점에서 상황이 어떤지 나타내는 값의 집합

- 행동(action) : 현재 상황에서 취할지 있는 동작

- 보상(reward) : 에어전트가 어떤 행동을 했을 때 따라오는 이득

- 에피소드(episode) : 초기 상태부터 종료 상태까지 에어전트가 거친 행동의 과정(epoch과 같음)

In [1]:
# OpenAI Gym 라이브러리(게임을 통해 AI를 학습할 수 있는 환경을 제공하는 도구)
import gymnasium as gym
from gym.wrappers.record_video import RecordVideo
from IPython.display import Video

# 환경 생성하기(미로 탐색 게임)
env = gym.make("FrozenLake-v1", render_mode='rgb_array')    # numpy 배열로. video일 경우
env = RecordVideo(env, "video", name_prefix="lake")   # env: 개발환경, # 'video': 디렉토리   # name_prefix: 파일명의 접두사
# env = RecordVideo(env, "video", name_prefix="lake", disable_logger = True, episode_trigger=lambda x:x%2 == 0)  
# # disable_logger : 로그 표시하지 않음 옵션    episode_trigger : 에피소드 녹화 주기(?)


  logger.warn(
  logger.warn(


In [8]:
# 게임 시작
# 게임 20회, 게임 1회당 100턴 수행해서 얻은 평균 보상값이 0.78 이상이 되면 게임이 종료됨
for i_episode in range(20):
    # print(env.reset())
    state = env.reset()[0]
    for t in range(100):
        # 필드 그리기
        #env.render()
        
        # 무작위로 행동을 선택(상하좌우)
        action = env.action_space.sample()   # action을 랜덤 선택 
        # 1턴 진행
        # print(action)
        # print(env.step(action))
        observation, reward, terminated, truncated, info = env.step(action)    # step: 이 때 한걸음 선택   
        # observation : 이동 후의 위치
        # reward : 보상(함정에 빠지면 -1점, 목표지점에 도달하면 1점)
        # terminated : 게임 종료 여부
        # truncated : 시간 제한
        # info : 디버깅 등에 필요한 정보
        
        # 종료
        if terminated:
            if i_episode==19:
                print('observation:',observation)
                print('reward:',reward)
                print('terminated:',terminated)
                print('truncated:',truncated)
                print('action:', action)
            print("Episode finished after {} timesteps".format(t+1))
            break
env.close()       

Episode finished after 5 timesteps
Episode finished after 4 timesteps
Episode finished after 4 timesteps
Episode finished after 14 timesteps
Episode finished after 6 timesteps
Episode finished after 9 timesteps
Episode finished after 19 timesteps
Episode finished after 6 timesteps
Episode finished after 4 timesteps
Episode finished after 6 timesteps
Episode finished after 9 timesteps
Episode finished after 5 timesteps
Episode finished after 6 timesteps
Episode finished after 5 timesteps
Episode finished after 4 timesteps
Episode finished after 4 timesteps
Episode finished after 4 timesteps
Episode finished after 24 timesteps
Episode finished after 17 timesteps
observation: 12
reward: 0.0
terminated: True
truncated: False
action: 0
Episode finished after 4 timesteps


→ 'video'폴더에 가면 비디오의 mp4, json 파일이 저장되어 있음 (랜덤으로 몇 개만)

In [3]:
Video("video/lake-episode-0.mp4", embed=True)


In [4]:
Video("video/lake-episode-1.mp4", embed=True)

In [5]:
Video("video/lake-episode-8.mp4", embed=True)

In [6]:
# 환경변수 값의 경우의 수
print(env.observation_space.n)
# 행동변수 값의 경우의 수
print(env.action_space.n)


16
4
