# Import : by GitHub

You can try this code in Colab by this method.  

In [1]:
!git clone https://github.com/KanghwaSisters/24_2_mainSession.git

Cloning into '24_2_mainSession'...
remote: Enumerating objects: 225, done.[K
remote: Counting objects: 100% (77/77), done.[K
remote: Compressing objects: 100% (43/43), done.[K
remote: Total 225 (delta 50), reused 50 (delta 34), pack-reused 148 (from 1)[K
Receiving objects: 100% (225/225), 1.17 MiB | 5.41 MiB/s, done.
Resolving deltas: 100% (92/92), done.


In [2]:
import os
os.chdir('/content/24_2_mainSession/4주차/env')

In [3]:
! python GridWorldEnvironment.py

In [4]:
from GridWorldEnvironment import GridWorldEnvironment

In [5]:
env = GridWorldEnvironment(start_point=(0,0),
                           end_point=(4,4),
                           gridworld_size=(5,5))

# SARSA Class

In [6]:
import numpy as np
import random

class SarsaAgent:
    def __init__(self, env, alpha=0.1, gamma=0.99, epsilon=0.1):
        self.env = env
        self.alpha = alpha  # 학습률
        self.gamma = gamma  # 할인률
        self.epsilon = epsilon  # 탐험률

        # Q테이블
        self.q_table = np.zeros((env.height, env.width, env.num_actions))

    #주어진 상태에서 어떤 행동을 선택할지 결정하는 함수, 탐험(Explore): 새로운 행동을 랜덤하게 시도하여, 미지의 정보를 찾는 과정 / 이용(Exploit): 이전에 학습한 정보(Q-값)를 기반으로, 최적의 행동을 선택하는 과정.
    def choose_action(self, state):
        if random.uniform(0, 1) < self.epsilon: # epsilon이 0.1이라면, 에이전트가 10% 확률로 탐험, 90% 확률로 이용
            return random.randint(0, self.env.num_actions - 1)  # Explore : 탐험 / 무작위로 행동을 선택하는 과정
        else:
            row_diff, col_diff, _ = state
            return np.argmax(self.q_table[row_diff, col_diff])  # Exploit : 아는 값 활용 / 주어진 배열에서 가장 큰 값의 인덱스를 반환하여 현재 상태에서 가장 높은 Q-값을 가진 행동을 선택하는 과정.

    #SARSA 알고리즘의 핵심인 Q-값을 업데이트하는 함수
    def update_q_table(self, state, action, reward, next_state, next_action):
        row_diff, col_diff, _ = state
        next_row_diff, next_col_diff, _ = next_state  #state와 next_state는 각각 현재와 다음 상태의 정보,그리드월드에서 에이전트가 목표지점과 얼마나 떨어져 있는지를 나타냄

        # SARSA 업데이트 규칙
        self.q_table[row_diff, col_diff, action] += self.alpha * ( #aplha(학습률):새로운 정보가 기존 정보에 얼마나 반영될지를 조정하는 매개변수
            reward + self.gamma * self.q_table[next_row_diff, next_col_diff, next_action] #gamma(할인율): 미래 보상에 대한 현재 가치 평가를 나타냄
            - self.q_table[row_diff, col_diff, action] #현재 Q값
        )

    def train(self, num_episodes=1000): #에이전트를 환경에서 훈련시키는 함수
        for episode in range(num_episodes):
            state = self.env.reset()  #초기화
            action = self.choose_action(state)  # 탐욕정책에 따라 행동

            done = False
            while not done:  # 에이전트가 목표점에 도달했거나, 종료 조건을 만족하면 done = True가 되어 while 루프가 종료
                next_state, reward, done = self.env.step(action)  # 에이전트가 현재 선택한 행동(action)을 환경에 적용,다음 상태(next_state), 보상(reward), 그리고 종료 여부(done)를 반환
                next_action = self.choose_action(next_state)  # 탐욕정책으로 다음 행동 결정

                # Q테이블 업데이트
                self.update_q_table(state, action, reward, next_state, next_action) #값 업데이트

                state = next_state #값 업데이트
                action = next_action #값 업데이트

            print(f"Episode {episode + 1}/{num_episodes} finished.")

# 실행
env = GridWorldEnvironment(start_point=(0, 0), end_point=(4, 4), gridworld_size=(5, 5))
agent = SarsaAgent(env)
agent.train(num_episodes=500)


Episode 1/500 finished.
Episode 2/500 finished.
Episode 3/500 finished.
Episode 4/500 finished.
Episode 5/500 finished.
Episode 6/500 finished.
Episode 7/500 finished.
Episode 8/500 finished.
Episode 9/500 finished.
Episode 10/500 finished.
Episode 11/500 finished.
Episode 12/500 finished.
Episode 13/500 finished.
Episode 14/500 finished.
Episode 15/500 finished.
Episode 16/500 finished.
Episode 17/500 finished.
Episode 18/500 finished.
Episode 19/500 finished.
Episode 20/500 finished.
Episode 21/500 finished.
Episode 22/500 finished.
Episode 23/500 finished.
Episode 24/500 finished.
Episode 25/500 finished.
Episode 26/500 finished.
Episode 27/500 finished.
Episode 28/500 finished.
Episode 29/500 finished.
Episode 30/500 finished.
Episode 31/500 finished.
Episode 32/500 finished.
Episode 33/500 finished.
Episode 34/500 finished.
Episode 35/500 finished.
Episode 36/500 finished.
Episode 37/500 finished.
Episode 38/500 finished.
Episode 39/500 finished.
Episode 40/500 finished.
Episode 4

# Main

- **SARSA**를 이용해 그리드 월드 학습시키기  
- 학습 지표 시각화

In [7]:
env.render()

S X X X X 
. . . . X 
. . . . X 
. . . . X 
. . . . A 



In [8]:
def visualize_optimal_path(env, agent): #학습이 끝난 후, 에이전트가 학습한 최적 경로를 시각화하는 함수
    state = env.reset()
    done = False
    env.render()  #처음 상태 출력

    while not done:
        action = np.argmax(agent.q_table[state[0], state[1]])  # 최적의 행동 찾기
        next_state, _, done = env.step(action)

        env.render()  # 각 스텝마다의 현 상태 출력
        state = next_state

# 실행
visualize_optimal_path(env, agent)


A . . . . 
. . . . . 
. . . . . 
. . . . . 
. . . . G 

S A . . . 
. . . . . 
. . . . . 
. . . . . 
. . . . G 

S X A . . 
. . . . . 
. . . . . 
. . . . . 
. . . . G 

S X X A . 
. . . . . 
. . . . . 
. . . . . 
. . . . G 

S X X X A 
. . . . . 
. . . . . 
. . . . . 
. . . . G 

S X X X X 
. . . . A 
. . . . . 
. . . . . 
. . . . G 

S X X X X 
. . . . X 
. . . . A 
. . . . . 
. . . . G 

S X X X X 
. . . . X 
. . . . X 
. . . . A 
. . . . G 

S X X X X 
. . . . X 
. . . . X 
. . . . X 
. . . . A 





SARSA 알고리즘의 흐름 요약



1.   환경 초기화 및 첫 행동 선택: 각 에피소드의 시작에서 에이전트는 환경을 초기화하고 탐욕 정책으로 첫 행동 선택

2.   상태 전이: 에이전트는 현재 행동을 수행하고, 그 결과로 다음 상태, 보상, 에피소드 종료 여부를 얻음

3. 다음 행동 선택: 에이전트는 다음 상태에서 탐욕정책으로 다음 행동을 선택

4. Q-테이블 업데이트: SARSA 업데이트 규칙에 따라 현재 상태-행동 쌍의 Q-값을 갱신

5. 상태 및 행동 업데이트: 에이전트는 다음 상태와 행동으로 전이하여, 에피소드가 끝날 때까지 과정을 반복

6. 에피소드 종료 후 출력: 에피소드가 끝나면 완료 메시지를 출력하고, 다음 에피소드로 넘어감


이 과정을 통해 SARSA 알고리즘은 매 에피소드마다 환경을 학습하고, 에이전트는 목표 지점에 도달할 확률이 점점 높아지도록 Q-값을 업데이트함






