In [1]:
import numpy as np
import matplotlib.pyplot as plt
import copy
import math
from tqdm import tqdm

### Tic Tac Toe 환경 정의

In [2]:
class Environment:

    def __init__(self):
        # 보드는 0으로 초기화된 9개의 배열로 준비
        # 게임종료 : done = True
        self.board_a = np.zeros(16)
        self.done = False
        self.reward = 0
        self.winner = 0
        self.print = False

    def move(self, p1, p2, player):
        # 각 플레이어가 선택한 행동을 표시 하고 게임 상태(진행 또는 종료)를 판단
        # p1 = 1, p2 = -1로 정의
        # 각 플레이어는 행동을 선택하는 select_action 메서드를 가짐
        if player == 1:
            pos = p1.select_action(env, player)
        else:
            pos = p2.select_action(env, player)

        # 보드에 플레이어의 선택을 표시
        self.board_a[pos] = player
        if self.print:
            print(player)
            self.print_board()
        # 게임이 종료상태인지 아닌지를 판단
        self.end_check(player)

        return self.reward, self.done

    # 현재 보드 상태에서 가능한 행동(둘 수 있는 장소)을 탐색하고 리스트로 반환
    def get_action(self):
        observation = []
        for i in range(16):
            if self.board_a[i] == 0:
                observation.append(i)
        return observation

    # 게임이 종료(승패 또는 비김)됐는지 판단
    def end_check(self, player):
        # 0 1 2
        # 3 4 5
        # 6 7 8
        # 승패 조건은 가로, 세로, 대각선 이 -1 이나 1 로 동일할 때
        end_condition = (
            (0, 1, 2, 3),
            (4, 5, 6, 7),
            (8, 9, 10, 11),
            (12, 13, 14, 15),
            (0, 4, 8, 12),
            (1, 5, 9, 13),
            (2, 6, 10, 14),
            (3, 7, 11, 15),
            (0, 5, 10, 15),
            (3, 6, 9, 12),
        )
        for line in end_condition:
            if (
                self.board_a[line[0]] == self.board_a[line[1]]
                and self.board_a[line[1]] == self.board_a[line[2]]
                and self.board_a[line[2]] == self.board_a[line[3]]
                and self.board_a[line[0]] != 0
            ):
                # 종료됐다면 누가 이겼는지 표시
                self.done = True
                self.reward = player
                return
        # 비긴 상태는 더는 보드에 빈 공간이 없을때
        observation = self.get_action()
        if (len(observation)) == 0:
            self.done = True
            self.reward = 0
        return

    # 현재 보드의 상태를 표시 p1 = O, p2 = X
    def print_board(self):
        print("+----+----+----+----+")
        for i in range(4):
            for j in range(4):
                if self.board_a[4 * i + j] == 1:
                    print("|  O", end=" ")
                elif self.board_a[4 * i + j] == -1:
                    print("|  X", end=" ")
                else:
                    print("|   ", end=" ")
            print("|")
            print("+----+----+----+----+")

### Human player

In [3]:
class Human_player:

    def __init__(self):
        self.name = "Human player"

    def select_action(self, env, player):
        while True:
            # 가능한 행동을 조사한 후 표시
            available_action = env.get_action()
            print("possible actions = {}".format(available_action))

            # 상태 번호 표시
            print("+----+----+----+----+")
            print("+  0 +  1 +  2 +  3 +")
            print("+----+----+----+----+")
            print("+  4 +  5 +  6 +  7 +")
            print("+----+----+----+----+")
            print("+  8 +  9 + 10 + 11 +")
            print("+----+----+----+----+")
            print("+ 12 + 13 + 14 + 15 +")
            print("+----+----+----+----+")

            # 키보드로 가능한 행동을 입력 받음
            action = input("Select action(human) : ")
            action = int(action)

            # 입력받은 행동이 가능한 행동이면 반복문을 탈출
            if action in available_action:
                return action
            # 아니면 행동 입력을 반복
            else:
                print("You selected wrong action")
        return

### 랜덤 플레이어

In [4]:
class Random_player:

    def __init__(self):
        self.name = "Random player"
        self.print = False

    def select_action(self, env, player):
        # 가능한 행동 조사
        available_action = env.get_action()
        # 가능한 행동 중 하나를 무작위로 선택
        action = np.random.randint(len(available_action))
        #         print("Select action(random) = {}".format(available_action[action]))
        return available_action[action]

### Actor-Critic 플레이어

In [5]:
class Actor_Critic_player:

    def __init__(self):
        self.name = "Actor_Critic player"
        # 상태별 정책(확률 분포)을 저장하는 딕셔너리
        self.policy = {}  # 각 상태에서 가능한 행동들의 확률 분포
        self.value = {}  # 각 상태의 가치 함수
        # 학습률 정의
        self.actor_lr = 0.005
        self.critic_lr = 0.05
        self.gamma = 0.99
        self.print = False

    # 상태에 맞는 행동을 선택 (액터 부분)
    def select_action(self, env, player):
        # 정책에 따라 행동을 선택
        action = self.policy_action(env)
        if self.print:
            print("{} : select action".format(action))
        return action

    def policy_action(self, env):
        if self.print:
            print("-----------   policy_action start -------------")

        # 현재 상태를 키로 변환
        state_key = tuple(env.board_a)

        # 가능한 행동 목록 조회
        available_action = env.get_action()

        if self.print:
            print("{} : available_action".format(available_action))

        # 현재 상태에 대한 행동 확률 분포 초기화 (또는 조회)
        if state_key not in self.policy:
            # 처음 본 상태라면 균등 확률로 초기화
            self.policy[state_key] = {}
            for act in available_action:
                self.policy[state_key][act] = 1.0 / len(available_action)

        if self.print:
            print("Current state policy: {}".format(self.policy[state_key]))

        # 현재 가능한 행동에 대한 확률만 추출
        probs = np.zeros(len(available_action))
        for i, act in enumerate(available_action):
            if act in self.policy[state_key]:
                probs[i] = self.policy[state_key][act]
            else:
                # 새로운 행동이 추가된 경우 (보드 상태가 변했을 때)
                self.policy[state_key][act] = 0.01  # 작은 확률로 초기화
                probs[i] = 0.01

        # 확률 정규화 (합이 1이 되도록)
        probs = probs / np.sum(probs)

        if self.print:
            print("Normalized action probabilities: {}".format(np.round(probs, 3)))

        # 계산된 확률에 따라 행동 선택
        action_idx = np.random.choice(range(len(available_action)), p=probs)

        if self.print:
            print("Selected action index: {}".format(action_idx))
            print("Selected action: {}".format(available_action[action_idx]))
            print("-----------   policy_action end -------------")

        return available_action[action_idx]

    # 액터-크리틱 알고리즘으로 학습
    def learn(self, state_backup, action_backup, reward, env):
        if self.print:
            print("-----------   learn start -------------")
            print(
                "state_backup = {}, action_backup = {}, reward = {}".format(
                    state_backup, action_backup, reward
                )
            )

        # 상태 키 변환
        state_key = tuple(state_backup)

        # 현재 상태의 가치를 조회 또는 초기화
        if state_key not in self.value:
            self.value[state_key] = 0.0

        if self.print:
            print(
                "Current state value (before update): {}".format(self.value[state_key])
            )

        # TD 타깃과 TD 에러 계산
        if env.done == True:
            # 게임이 끝났을 때의 타깃은 보상 그대로
            td_target = reward
            if self.print:
                print("Game ended, TD target = reward: {}".format(reward))
        else:
            # 게임이 진행 중일 때는 다음 상태의 가치를 고려
            next_state_key = tuple(env.board_a)

            # 다음 상태의 가치가 없으면 초기화
            if next_state_key not in self.value:
                self.value[next_state_key] = 0.0

            if self.print:
                print("Next state value: {}".format(self.value[next_state_key]))

            td_target = reward + self.gamma * self.value[next_state_key]
            if self.print:
                print(
                    "TD target = reward + gamma * next_state_value: {} + {} * {} = {}".format(
                        reward, self.gamma, self.value[next_state_key], td_target
                    )
                )

        # TD 에러 계산
        td_error = td_target - self.value[state_key]
        if self.print:
            print(
                "TD error = TD target - current_state_value: {} - {} = {}".format(
                    td_target, self.value[state_key], td_error
                )
            )

        # 크리틱(가치 함수) 업데이트
        old_value = self.value[state_key]
        self.value[state_key] += self.critic_lr * td_error
        if self.print:
            print(
                "Value function update: {} -> {}".format(
                    old_value, self.value[state_key]
                )
            )

        # 액터(정책) 업데이트
        if state_key not in self.policy:
            self.policy[state_key] = {}

        if action_backup not in self.policy[state_key]:
            self.policy[state_key][action_backup] = 0.01  # 작은 확률로 초기화

        if self.print:
            print(
                "Current action policy probability (before update): {}".format(
                    self.policy[state_key][action_backup]
                )
            )

        # TD 에러를 이용한 정책 업데이트
        old_prob = self.policy[state_key][action_backup]
        self.policy[state_key][action_backup] += self.actor_lr * td_error

        if self.print:
            print(
                "Policy probability update: {} -> {}".format(
                    old_prob, self.policy[state_key][action_backup]
                )
            )

        # 확률에 음수가 있을 경우 모두 양수가 되도록 보정
        min_prob = min(self.policy[state_key].values())
        if min_prob < 0:
            if self.print:
                print(
                    "Negative probability detected: adding {} to all probabilities".format(
                        -min_prob
                    )
                )
            for act in self.policy[state_key]:
                self.policy[state_key][act] -= min_prob

        # 확률 합이 1이 되도록 정규화
        prob_sum = sum(self.policy[state_key].values())
        if self.print:
            print("Pre-normalization probability sum: {}".format(prob_sum))

        for act in self.policy[state_key]:
            self.policy[state_key][act] /= prob_sum

        if self.print:
            print(
                "Normalized policy: {}".format(
                    {a: round(p, 3) for a, p in self.policy[state_key].items()}
                )
            )
            print("-----------   learn end -------------")

### Actor-Critic 플레이어 훈련

In [6]:
p1_ACplayer = Actor_Critic_player()
p2_ACplayer = Actor_Critic_player()

p1_score = 0
p2_score = 0
draw_score = 0

# printer = True
print()
max_learn = 1

for j in tqdm(range(max_learn)):
    np.random.seed(j)
    env = Environment()

    for i in range(20):

        # p1 행동 선택
        player = 1
        pos = p1_ACplayer.select_action(env, player)
        # 현재 상태 s, 행동 a를 저장
        p1_board_backup = tuple(env.board_a)
        p1_action_backup = pos
        env.board_a[pos] = player
        env.end_check(player)

        # 게임이 종료상태라면 각 플레이어 학습
        if env.done == True:
            # 비겼으면 보수 0
            if env.reward == 0:
                p1_ACplayer.learn(p1_board_backup, p1_action_backup, 0, env)
                if i > 0:  # p2가 한 번이라도 두었을 경우
                    p2_ACplayer.learn(p2_board_backup, p2_action_backup, 0, env)
                draw_score += 1
                break
            # p1이 이겼으므로 보상 +1
            # p2이 졌으므로 보상 -1
            else:  # p1 승리
                p1_ACplayer.learn(p1_board_backup, p1_action_backup, 1, env)
                if i > 0:  # p2가 한 번이라도 두었을 경우
                    p2_ACplayer.learn(p2_board_backup, p2_action_backup, -1, env)
                p1_score += 1
                break

        # 게임이 끝나지 않았다면 p2의 이전 행동에 대해 학습 (게임 시작직후에는 p2는 학습할 수 없음)
        if i > 0:
            p2_ACplayer.learn(p2_board_backup, p2_action_backup, 0, env)

        # p2 행동 선택
        player = -1
        pos = p2_ACplayer.select_action(env, player)
        p2_board_backup = tuple(env.board_a)
        p2_action_backup = pos
        env.board_a[pos] = player
        env.end_check(player)

        if env.done == True:
            # 비겼으면 보수 0
            if env.reward == 0:
                p1_ACplayer.learn(p1_board_backup, p1_action_backup, 0, env)
                p2_ACplayer.learn(p2_board_backup, p2_action_backup, 0, env)
                draw_score += 1
                break
            # p2이 이겼으므로 보상 +1
            # p1이 졌으므로 보상 -1
            else:
                p1_ACplayer.learn(p1_board_backup, p1_action_backup, -1, env)
                p2_ACplayer.learn(p2_board_backup, p2_action_backup, 1, env)
                p2_score += 1
                break

        # 게임이 끝나지 않았다면 p1의 행동에 대해 학습
        p1_ACplayer.learn(p1_board_backup, p1_action_backup, 0, env)

    # # 1000 게임마다 게임 결과 표시
    # if j % 1000 == 0:
    #     print(
    #         "j = {} p1 = {} p2 = {} draw = {}".format(j, p1_score, p2_score, draw_score)
    #     )

print("p1 = {} p2 = {} draw = {}".format(p1_score, p2_score, draw_score))
print("학습 완료")




100%|████████████████████████████████████████████| 1/1 [00:00<00:00, 762.18it/s]

p1 = 0 p2 = 1 draw = 0
학습 완료





### 게임 진행 함수

In [None]:
np.random.seed(0)

# p1 = Human_player()
p2 = Human_player()

# p1 = Random_player()
# p2 = Random_player()

# p1 = Monte_Carlo_player()
# p1.num_playout = 100
# p2 = Monte_Carlo_player()
# p2.num_playout = 1000

# p1 = p1_Qplayer
# p1.epsilon = 0

# p2 = p2_Qplayer
# p2.epsilon = 0

p1 = Actor_Critic_player()
# p2 = Actor_Critic_player()

# p1 = p1_DQN
# p1.epsilon = 0

# 지정된 게임 수를 자동으로 두게 할 것인지 한게임씩 두게 할 것인지 결정
# auto = True : 지정된 판수(games)를 자동으로 진행
# auto = False : 한판씩 진행

auto = False

# auto 모드의 게임수
games = 100

print("pl player : {}".format(p1.name))
print("p2 player : {}".format(p2.name))

# 각 플레이어의 승리 횟수를 저장
p1_score = 0
p2_score = 0
draw_score = 0

if auto:
    # 자동 모드 실행
    for j in tqdm(range(games)):

        np.random.seed(j)
        env = Environment()

        for i in range(10000):
            # p1 과 p2가 번갈아 가면서 게임을 진행
            # p1(1) -> p2(-1) -> p1(1) -> p2(-1) ...
            reward, done = env.move(p1, p2, (-1) ** i)
            # 게임 종료 체크
            if done == True:
                if reward == 1:
                    p1_score += 1
                elif reward == -1:
                    p2_score += 1
                else:
                    draw_score += 1
                break

else:
    # 한 게임씩 진행하는 수동 모드
    np.random.seed(1)
    while True:

        env = Environment()
        env.print = False
        for i in range(10000):
            reward, done = env.move(p1, p2, (-1) ** i)
            env.print_board()
            if done == True:
                if reward == 1:
                    print("winner is p1({})".format(p1.name))
                    p1_score += 1
                elif reward == -1:
                    print("winner is p2({})".format(p2.name))
                    p2_score += 1
                else:
                    print("draw")
                    draw_score += 1
                break

        # 최종 결과 출력
        print("final result")
        env.print_board()

        # 한게임 더?최종 결과 출력
        answer = input("More Game? (y/n)")

        if answer == "n":
            break

print(
    "p1({}) = {} p2({}) = {} draw = {}".format(
        p1.name, p1_score, p2.name, p2_score, draw_score
    )
)

pl player : Human player
p2 player : Actor_Critic player
possible actions = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
+----+----+----+----+
+  0 +  1 +  2 +  3 +
+----+----+----+----+
+  4 +  5 +  6 +  7 +
+----+----+----+----+
+  8 +  9 + 10 + 11 +
+----+----+----+----+
+ 12 + 13 + 14 + 15 +
+----+----+----+----+
