In [1]:
import numpy as np
import matplotlib.pyplot as plt
import copy
import math
from tqdm import tqdm

### Tic Tac Toe 환경 정의

In [2]:
class Environment():
    
    def __init__(self):
    # 보드는 0으로 초기화된 9개의 배열로 준비
    # 게임종료 : done = True
        self.board_a = np.zeros(16)
        self.done = False
        self.reward = 0
        self.winner = 0
        self.print = False

    def move(self, p1, p2, player):
    # 각 플레이어가 선택한 행동을 표시 하고 게임 상태(진행 또는 종료)를 판단
    # p1 = 1, p2 = -1로 정의
    # 각 플레이어는 행동을 선택하는 select_action 메서드를### Tic Tac Toe 환경 정의 가짐
        if player == 1:
            pos = p1.select_action(env, player)
        else:
            pos = p2.select_action(env, player)
        
        # 보드에 플레이어의 선택을 표시
        self.board_a[pos] = player
        if self.print:
            print(player)
            self.print_board()
        # 게임이 종료상태인지 아닌지를 판단
        self.end_check(player)
        
        return  self.reward, self.done
 
    # 현재 보드 상태에서 가능한 행동(둘 수 있는 장소)을 탐색하고 리스트로 반환
    def get_action(self):
        observation = []
        for i in range(16):
            if self.board_a[i] == 0:
                observation.append(i)
        return observation
    
    # 게임이 종료(승패 또는 비김)됐는지 판단
    def end_check(self,player):
        # 0 1 2
        # 3 4 5
        # 6 7 8
        # 승패 조건은 가로, 세로, 대각선 이 -1 이나 1 로 동일할 때 
        end_condition = ((0,1,2,3),(4,5,6,7),(8,9,10,11),(12,13,14,15),(0,5,10,15),(3,6,9,12),(0,4,8,12),(1,5,9,13),(2,6,10,14),(3,7,11,15))
        for line in end_condition:
            if self.board_a[line[0]] == self.board_a[line[1]] \
                and self.board_a[line[1]] == self.board_a[line[2]] \
                    and self.board_a[line[2]] == self.board_a[line[3]] \
                    and self.board_a[line[0]] != 0:
                    # 종료됐다면 누가 이겼는지 표시
                    self.done = True
                    self.reward = player
                    return
        # 비긴 상태는 더는 보드에 빈 공간이 없을때
        observation = self.get_action()
        if (len(observation)) == 0:
            self.done = True
            self.reward = 0            
        return
        
    # 현재 보드의 상태를 표시 p1 = O, p2 = X    
    def print_board(self):
        print("+----+----+----+----+")
        for i in range(4):
            for j in range(4):
                if self.board_a[4*i+j] == 1:
                    print("|  O",end=" ")
                elif self.board_a[4*i+j] == -1:
                    print("|  X",end=" ")
                else:
                    print("|   ",end=" ")
            print("|")
            print("+----+----+----+----+")

### Human player

In [3]:
class Human_player():
    
    def __init__(self):
        self.name = "Human player"
        
    def select_action(self, env, player):
        while True:
            # 가능한 행동을 조사한 후 표시
            available_action = env.get_action()
            print("possible actions = {}".format(available_action))

            # 상태 번호 표시
            print("+----+----+----+----+")
            print("+  0 +  1 +  2 +  3 +")
            print("+----+----+----+----+")
            print("+  4 +  5 +  6 +  7 +")
            print("+----+----+----+----+")
            print("+  8 +  9 + 10 + 11 +")
            print("+----+----+----+----+")
            print("+ 12 + 13 + 14 + 15 +")
            print("+----+----+----+----+")
                        
            # 키보드로 가능한 행동을 입력 받음
            action = input("Select action(human) : ")
            action = int(action)
            
            # 입력받은 행동이 가능한 행동이면 반복문을 탈출
            if action in available_action:
                return action
            # 아니면 행동 입력을 반복
            else:
                print("You selected wrong action")
        return### Human player

### 랜덤 플레이어

In [4]:
class Random_player():
    
    def __init__(self):
        self.name = "Random player"
        self.print = False
        
    def select_action(self, env, player):
        # 가능한 행동 조사
        available_action = env.get_action()
        # 가능한 행동 중 하나를 무작위로 선택
        action = np.random.randint(len(available_action))
#         print("Select action(random) = {}".format(available_action[action]))
        return available_action[action]

### 몬테카를로 플레이어

In [5]:
class Monte_Carlo_player():
    
    def __init__(self):
        self.name = "MC player"
        self.num_playout = 1000
        
    def select_action(self, env, player):
        # 가능한 행동 조사
        available_action = env.get_action()
        V = np.zeros(len(available_action))
        
        for i in range(len(available_action)):
            # 플레이아웃을 100번 반복
            for j in range(self.num_playout):
                # 지금 상태를 복사해서 플레이 아웃에 사용
                temp_env = copy.deepcopy(env)
                # 플레이아웃의 결과는 승리 플레이어의 값으로 반환
                # p1 이 이기면 1, p2 가 이기면 -1
                self.playout(temp_env, available_action[i], player)
                if player == temp_env.reward:
                    V[i] += 1
   
        return available_action[np.argmax(V)]    

    # 플레이아웃 재귀함수
    # 게임이 종료상태 (승 또는 패 또는 비김) 가 될때까지 행동을 임의로 선택하는 것을 반복
    # 플레이어는 계속 바뀌기 때문에 (-)를 곱해서 -1, 1, -1 이 되게함    
    def playout(self, temp_env, action, player):
        
        temp_env.board_a[action] = player
        temp_env.end_check(player)
        # 게임 종료 체크
        if temp_env.done == True:
            return 
        else:
            # 플레이어 교체
            player = -player
            # 가능한 행동 조사
            available_action = temp_env.get_action()
            # 무작위로 행동을 선택
            action = np.random.randint(len(available_action))
            self.playout(temp_env, available_action[action], player)


### 액터크리틱 플레이어

In [6]:
class ActorCriticPlayer:
    def __init__(self, critic_lr=0.1, actor_lr=0.1, gamma=0.9, temperature=1.0):
        # 식별용 이름
        self.name = "AC_player"
        # Critic 학습률 α, Actor 학습률 β
        self.critic_lr = critic_lr  # α for V(s)
        self.actor_lr  = actor_lr   # β for h(s,a)
        # 감가율 γ
        self.gamma     = gamma
        # 소프트맥스 탐색 온도 파라미터
        self.temperature = temperature
        # 상태가치 V(s) 테이블 및 정책 선호도 h(s,a) 테이블
        self.V = {}
        self.h = {}

    def _get_state(self, env):
        # 보드를 튜플로 변환하여 해시 가능
        return tuple(env.board_a)

    def policy(self, state, actions):
        # 상태-행동 선호도 배열 생성
        prefs = np.array([self.h.get((state, a), 0.0) for a in actions])
        # 수치 안정성 위해 최대값 제거
        m = prefs.max()
        # softmax 계산 (클리핑 포함)
        z = np.clip((prefs - m) / self.temperature, -50, 50)
        exp_z = np.exp(z)
        return exp_z / exp_z.sum()

    def select_action(self, env, player=None):
        """env와 player 인자를 받지만 player는 학습에 사용하지 않음"""
        state = self._get_state(env)
        actions = env.get_action()
        probs = self.policy(state, actions)
        idx = np.random.choice(len(actions), p=probs)
        return actions[idx]

    def learn(self, state, action, reward, next_state, done):
        # Critic: TD 오차 계산
        v = self.V.get(state, 0.0)
        v_next = 0.0 if done else self.V.get(next_state, 0.0)
        delta = reward + self.gamma * v_next - v
        # Critic 업데이트: V(s) ← V(s) + α·δ
        self.V[state] = v + self.critic_lr * delta
        # Actor 업데이트: h(s,a) ← h(s,a) + β·δ
        key = (state, action)
        self.h[key] = self.h.get(key, 0.0) + self.actor_lr * delta


### 액터크리틱 플레이어 훈련

In [7]:
p1 = ActorCriticPlayer()
p2 = ActorCriticPlayer()

# 결과 기록용
p1_score = 0
p2_score = 0
draw_score = 0

max_games = 100000
max_steps_per_game = 16   # 4x4 보드니까 이보다 크면 무한루프 방지

for episode in tqdm(range(1, max_games+1)):
    env = Environment()
    state = tuple(env.board_a)   # 초기 상태
    done = False
    current, other = p1, p2      # 첫 수는 p1

    for step in range(max_steps_per_game):
        # 1) 행동 선택
        action = current.select_action(env)

        # 2) 한 수 두기
        env.board_a[action] = 1 if current is p1 else -1
        env.end_check(1 if current is p1 else -1)

        # 3) 다음 상태, 보상, 종료 여부
        next_state = tuple(env.board_a)
        reward = env.reward
        done = env.done

        # 4) 학습
        current.learn(state, action, reward, next_state, done)

        state = next_state
        if done:
            # 결과 집계
            if   reward ==  1:
                p1_score += 1
            elif reward == -1:
                p2_score += 1
            else:  # reward == 0
                draw_score += 1
            break

        # 5) 플레이어 교대
        current, other = other, current

#     # (선택) 탐색 강도 줄이기
#     p1.temperature *= 0.9
#     p2.temperature *= 0.9

# 최종 결과 출력
print("p1 = {} p2 = {} draw = {}".format(p1_score,p2_score,draw_score))
print("end train")

100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [00:49<00:00, 2023.22it/s]

p1 = 31471 p2 = 26890 draw = 41639
end train





In [None]:
np.random.seed(0)


#p1= Human_player()
# p2 = Human_player()

p1 = Random_player()
# p2 = Random_player()

# p1 = Monte_Carlo_player()
# p1.num_playout = 100
# p2 = Monte_Carlo_player()
# p2.num_playout = 1000

#p1 = p1_Qplayer
#3p1.epsilon = 0

#p2 = p2_Qplayer
#p2.epsilon = 0

# p1 = p1_DQN
# p1.epsilon = 0

#p1 = AC_Player
p2 = ActorCriticPlayer()
# 지정된 게임 수를 자동으로 두게 할 것인지 한게임씩 두게 할 것인지 결정
# auto = True : 지정된 판수(games)를 자동으로 진행 
# auto = False : 한판씩 진행

auto = False

# auto 모드의 게임수
games = 100

print("pl player : {}".format(p1.name))
print("p2 player : {}".format(p2.name))

# 각 플레이어의 승리 횟수를 저장
p1_score = 0
p2_score = 0
draw_score = 0


if auto: 
    # 자동 모드 실행
    for j in tqdm(range(games)):
        
        np.random.seed(j)
        env = Environment()
        
        for i in range(10000):
            # p1 과 p2가 번갈아 가면서 게임을 진행
            # p1(1) -> p2(-1) -> p1(1) -> p2(-1) ...
            reward, done = env.move(p1,p2,(-1)**i)
            # 게임 종료 체크
            if done == True:
                if reward == 1:
                    p1_score += 1
                elif reward == -1:
                    p2_score += 1
                else:
                    draw_score += 1
                break

else:                
    # 한 게임씩 진행하는 수동 모드
    np.random.seed(1)
    while True:
        
        env = Environment()
        env.print = False
        for i in range(10000):
            reward, done = env.move(p1,p2,(-1)**i)
            env.print_board()
            if done == True:
                if reward == 1:
                    print("winner is p1({})".format(p1.name))
                    p1_score += 1
                elif reward == -1:
                    print("winner is p2({})".format(p2.name))
                    p2_score += 1
                else:
                    print("draw")
                    draw_score += 1
                break
        
        # 최종 결과 출력        
        print("final result")
        env.print_board()

        # 한게임 더?최종 결과 출력 
        answer = input("More Game? (y/n)")

        if answer == 'n':
            break           

print("p1({}) = {} p2({}) = {} draw = {}".format(p1.name, p1_score,p2.name, p2_score,draw_score))

pl player : Random player
p2 player : AC_player
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
|    |    |    |  X |
+----+----+----+----+
+----+----+----+----+
|    |    |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |    |    |  X |
+----+----+----+----+
+----+----+----+----+
|  X |    |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |    |    |  X |
+----+----+----+----+
+----+----+----+----+
|  X |    |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |  O |    |    |
+----+----+----+----+
|    |