# 악마와 동전 게임

어느 날 악마가 내게 [바이올린 콘테스트](https://en.wikipedia.org/wiki/The_Devil_Went_Down_to_Georgia)를 제안한다면, 그 제안을 받아들일 것이다. 하지만, 나한테는 바이올린 콘테스트보다는 아래와 같은 콘테스트가 이길 가능성이 더 높을 것이다:

> *당신은 악마와 영혼을 걸고 게임을 하는 중이다. 원형 테이블에 4개의 동전이 다이아몬드 형태(즉, 12시, 3시, 6시, 9시 방향)로 놓여 있다. 당신의 눈은 가려져 있고, 앞에 있는 동전이나 테이블을 전혀 볼 수 없다.* 

> *목표는 모든 4개의 동전이 앞면(Head)이 보이도록 뒤집는 것이다. 당신은 악마에게 특정 동전(혹은 여러 동전)을 뒤집어 달라고 얘기할 수 있다. 악마는 충실히 요청받은 대로 동전을 뒤집을 것이지만, 뒤집기 전에 테이블을 몰래 돌려 동전이 다른 위치에 있도록 할 수 있다. (악마는 테이블을 90도씩 아무 방향으로 횟수와 상관없이 돌릴 수 있다). 모든 동전이 앞면이 나올 때까지 당신은 뒤집을 동전을 선택하고, 악마는 테이블을 돌리거나 동전을 뒤집는 것을 반복한다.*

> *예시: 악마에게 12시와 6시 방향 동전을 뒤집으라고 지시한다. 악마는 시계 방향으로 90도 테이블을 돌린다. 그러고 나서 12시와 6시 방향에 위치한 동전을 뒤집는다 (테이블을 돌렸으니, 각각 9시와 3시 방향에 있던 동전일 것이다). 이는 예시로서, 악마는 다른 방향으로 여러 번 테이블을 돌렸을 수도 있다.* 

> *이때 초기 동전의 앞뒤 여부와 상관없이 악마가 테이블을 어떻게 돌리든지 승리가 **확정**된 가장 작은 수의 행동은 무엇일까?*

## 분석

- 목표는 "가장 작은 수"의 행동을 찾는 것이다. 이는 이전에도 많이 해본 [최단 경로 탐색 문제](https://en.wikipedia.Oraorg/Wikiwiki/Shortest_path_problem)에 해당한다. 
- 악마도 특정 행동을 할 수 있기 때문에 [미니 맥스 문제](https://en.wikipedia.Oraorg/Wikiwiki/Minimax)라고 생각할지도 모른다. 왜냐하면 악마가 최상의 상태에서 더 멀어지도록 테이블을 돌릴 수 있는 것을 고려해서 탐색을 해야 하기 때문이다. 
- 하지만, 미니 맥스는 상대방의 움직임을 알 수 있는 경우에만 사용할 수 있다: 즉, *"상대방이 그걸 했네, 그럼 나는 이걸 해야지"* 같은 경우에만 적용할 수 있다. 이 문제에서는 플레이어의 눈이 가려진 상태이다. 따라서, [부분 관측 문제(Partially Observable Problem)](https://en.wikipedia.Oraorg/Wikiwiki/Partially_observable_system)에 해당한다(이 경우에는 눈가리개를 했기 때문에 **전혀** 관측할 수 없지만 그래도 "부분 관측"이라고 말한다).
- 이러한 문제에서, 어떠한 행동을 하기 전이나 이후에나 실제 상태(true state)가 어떠한지 확신할 수 없다. 따라서, 현재 *알고 있는 사전 지식*을 표현하는 방법을 찾아야 한다. 이를 *신뢰 상태(belief state)*이라고 하고 가능하다고 생각되는 모든 상태의 집합으로 나타낼 것이다. 게임을 시작할 당시, 각 동전은 앞면(H) 혹은 뒷면(T)을 가질 수 있기 때문에, 2<sup>4</sup> = 16가지 경우의 수가 존재한다. 이때 신뢰 상태를 표현하면 다음과 같다.
       {HHHH, HHHT, HHTH, HHTT, HTHH, HTHT, HTTH, HTTT, 
        THHH, THHT, THTH, THTT, TTHH, TTHT, TTTH, TTTT}
- 따라서, 이는 단일 에이전트의 신뢰 상태(belief state) 공간(동전의 물리적인 상태 공간이 아니라)상에서 최단 경로 탐색문제에 해당한다. 즉 초기 신뢰 상태(initial belief state)에서 `{HHHH}`라는 목표 상태에 도달하는 최단 경로를 찾아야 한다.
- 신뢰 상태를 변경하는 행동은 다음과 같다: 현재 신뢰 상태에 있는 각각의 동전 순서에서 모든 회전 방향을 고려한 후 동전을 뒤집는다. 이 결과를 다 모아서 새로운 신뢰 상태를 만든다. 탐색 공간은 $2^{16}$ 경우의 수로 작은 편이기 때문에 실행 속도는 빠를 것이다. 
- 문제를 단순화하기 위해서 지금은 회전 대칭(rotational symmetry)에 대해서는 고려하지 않는다 (나중에 언급할 예정이다).


## 기본 자료 구조 및 함수

어떤 자료 구조를 사용해야 하는가? 

- `Coins`: *동전 순서*(테이블 위에 놓인 4개의 동전)는 4개의 `str` 타입으로 나타낸다. 예를 들면, `'HTTT'`처럼 말이다. 
- `Belief`: *신뢰 상태(belief state)* 는 `Coins`의 `frozenset`을 통해 표현한다 (해시를 위해 `frozenset`을 사용한다). 예를 들면, `{'HHHT', 'TTTH'}` 식이다. 
- `Position`: 동전 순서의 정수 인덱스를 의미한다. `0`은 `'HTTT'`가 주어졌을 때 가장 앞글자인 `H`를 나타내며, 이는 12시 방향에 위치한 동전을 의미한다. `1`은 3시 방향, `2`는 6시 방향, 그리고 `3`은 9시 방향에 위치한 동전을 나타낸다. 
- `Move`: 뒤집을 동전의 위치를 `set`으로 나타낸다. 예를 들면, 첫번째와 세번째 동전을 뒤집는 행동은 `{0, 2}`로 나타낸다.
- `Strategy`: 각 `Move`를 담고 있는 순서가 있는 `list` 형으로 나타낸다. 플레이어는 앞을 볼 수 없으므로 이 자료 구조는 단순히 행동의 순서(즉, 전략)를 기록하는 용도로 사용한다.

In [1]:
from collections import deque
from itertools   import product, combinations, chain
import random

Coins     = ''.join   # `str`형의 동전 순서:'HHHT'.
Belief    = frozenset # 가능한 모든 동전 순서: {'HHHT', 'TTTH'}.
Position  = int       # 동전 순서에서 각 동전의 위치를 나타낼 인덱스
Move      = set       # 뒤집을 동전의 위치: {0, 2}
Strategy  = list      # `Move`를 저장할 list: [{0, 1, 2, 3}, {0, 2}, ...]

위 자료 구조를 사용하기 위해서 어떤 함수들이 필요로 할까? 

- `all_moves()`: 플레이어가 할 수 있는 모든 행동이 담긴 `list`를 반환한다. 
- `all_coins()`: 모든 16가지의 경우의 수를 포함한 신뢰 상태를 반환한다: `{'HHHH', 'HHHT', ...}`. 
- `rotations(coins)`: 주어진 동전 순서에서 가능한 모든 회전을 고려한 신뢰 상태를 반환한다. 
- `flip(coins, move)`: 동전 순서에서 특정 인덱스의 위치한 동전을 뒤집는다(`'HHHH'`일 경우는 게임이 종료되므로 제외). 
- `update(belief, move)`: 신뢰 상태를 업데이트한다: 모든 회전을 고려한 후, `move`에 따라 동전을 뒤집은 결과를 반환한다.

In [2]:
def all_moves() -> [Move]: 
    "가능한 모든 행동을 반환한다."
    return [set(m) for m in powerset(range(4))]

def all_coins() -> Belief:
    "모든 동전 순서 경우의 수를 가진 신뢰 상태를 반환한다."
    return Belief(map(Coins, product('HT', repeat=4)))

def rotations(coins) -> {Coins}: 
    "하나의 동전 순서가 주어졌을 때 모든 회전을 적용한 `set`을 반환한다."
    return {coins[r:] + coins[:r] for r in range(4)}

def flip(coins, move) -> Coins:
    "`move`에 주어진 위치에 있는 동전을 뒤집는다('HHHH'일 경우 그대로 둔다)."
    if 'T' not in coins: return coins # 'HHHH' 임으로 그대로 둠
    coins = list(coins) # 값을 변경할 수 있도록 `list` 형으로 변경
    for i in move:
        coins[i] = ('H' if coins[i] == 'T' else 'T')
    return Coins(coins)

def update(belief, move) -> Belief:
    "신뢰 상태를 업데이트 한다: 모든 회전을 고려한 후 뒤집는다."
    return Belief(flip(c, move)
                  for coins in belief
                  for c in rotations(coins))

flatten = chain.from_iterable

def powerset(iterable): 
    """거듭제곱 집합을 반환한다.
    
    Example:
        >>> powerset([1,2,3])
        [(), (1,), (2,), (3,), (1,2), (1,3), (2,3), (1,2,3)]
    """
    # https://docs.python.org/3/library/itertools.html#itertools-recipes
    s = list(iterable)
    return flatten(combinations(s, r) for r in range(len(s) + 1))

위 함수의 결과를 살펴보자:

In [3]:
all_moves()

[set(),
 {0},
 {1},
 {2},
 {3},
 {0, 1},
 {0, 2},
 {0, 3},
 {1, 2},
 {1, 3},
 {2, 3},
 {0, 1, 2},
 {0, 1, 3},
 {0, 2, 3},
 {1, 2, 3},
 {0, 1, 2, 3}]

In [4]:
all_coins()

frozenset({'HHHH',
           'HHHT',
           'HHTH',
           'HHTT',
           'HTHH',
           'HTHT',
           'HTTH',
           'HTTT',
           'THHH',
           'THHT',
           'THTH',
           'THTT',
           'TTHH',
           'TTHT',
           'TTTH',
           'TTTT'})

In [5]:
rotations('HHHT')

{'HHHT', 'HHTH', 'HTHH', 'THHH'}

In [6]:
flip('HHHT', {0, 2})

'THTT'

`all_coins`은 모든 경우의 수인 $2^4 = 16$ 경우의 수를 가진 신뢰 상태를 반환한다. 동전 순서에서 모든 동전 4개를 뒤집어서 신뢰 상태를 업데이트하면(즉, 0, 1, 2, 3에 위치한 동전을 뒤집으면), `TTTT`의 경우의 수가 없어져 15가지의 동전 순서가 남게 된다:

In [7]:
update(all_coins(), {0, 1, 2, 3})

frozenset({'HHHH',
           'HHHT',
           'HHTH',
           'HHTT',
           'HTHH',
           'HTHT',
           'HTTH',
           'HTTT',
           'THHH',
           'THHT',
           'THTH',
           'THTT',
           'TTHH',
           'TTHT',
           'TTTH'})

In [8]:
list(powerset([1, 2, 3]))

[(), (1,), (2,), (3,), (1, 2), (1, 3), (2, 3), (1, 2, 3)]

전부 제대로 작동하는 것 같으니 다음으로 넘어가자.

## 필승을 위한 전략 탐색 

아래 `search` 함수는 `start` 상태에서 `goal` 상태까지 도달하는 법을 찾기 위해 너비 우선 탐색(BFS)을 사용한다. 플레이어의 순서가 돌아올때 가능한 `actions`를 고려하여 각 행동의 `result`를 계산한다 (`result`는 `result(state, action)` 함수로 현재 상태에서 특정 행동을 한 결과인 새로운 상태를 반환한다). 

`search`는 탐색 되지 않은(unexplored) 경우의 수를 담을 `queue` 자료구조를 이용한다. `queue`의 원소는 *전략* (행동 순서)과 그로 인한 결과 *상태* 를 가진 `tuple` 자료 구조이다. 

또한, 이미 `explored` 된 상태를 다시 방문하지 않도록 저장한다. 이런 비슷한 함수를 이전에 다른 탐색 문제를 위해 여러 번 구현했었던 적이 있다.

In [9]:
def search(start, goal, actions, result) -> Strategy:
    """`start` 상태에서 `goal` 상태까지 도달하는 경로를 탐색하는 BFS.    
    `goal`에 도달하면 `Strategy`를 반환한다."""
    explored = set()
    queue = deque([(Strategy(), start)])
    while queue:
        (strategy, state) = queue.popleft()
        if state == goal:
            return strategy
        for action in actions:
            state2 = result(state, action)
            if state2 not in explored:
                queue.append((strategy + [action], state2))
                explored.add(state2)

`search`는 신뢰 상태와 직접적으로 관련 없다는 점에 주목하자 &mdash; 단순히 물리적인 상태(예, 동전 순서)에 대해서만 알고 있다. 하지만, 놀랍게도 신뢰 상태(Belief state) 공간에서 탐색하는 것도 가능하다. 초기 상태, 목표 상태, 그리고 상태가 변화하는 행동을 잘 정의하기만 한다면 신뢰 상태 탐색도 잘 작동할 것이다. 

아래 `coin_search` 함수는 `search`를 사용해 신뢰 상태를 탐색하는 것을 보여준다.

In [10]:
def coin_search() -> Strategy: 
    "`search`를 사용하여 동전 뒤집기 문제를 해결한다."
    return search(start=all_coins(), goal={'HHHH'}, actions=all_moves(), result=update)

coin_search()

[{0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3}]


15번의 행동으로 필승 전략을 찾았다. **단순히 답만 원한다면 여기서 멈춰도 된다.** 

---- 

계속 진행하자면 ... 

## 필승 전략을 검증해보자 

수학적 증명은 없지만 위 전략이 작동한다는 단서는 몇 가지 얻을 수 있다.: 
- 종이와 연필로 탐색해보니 제대로 작동하는 것 같다. 
- 동료도 문제를 풀었더니 같은 답이 나왔다. 
- 혹은 **아래 `winning` 테스트를 통과한다**. 

`winning(strategy, k)` 함수는 `strategy`를 실제 테이블을 무작위로 돌리는 악마에 대항하여 `k`번 시뮬레이션 해본다. 이는 신뢰 상태(Belief state)가 아닌 실제 `HTHH`같은 개별 상태가 주어지면 `strategy` 대로 실행한 후 승패 여부를 반환하는 함수이다.

만약 `winning`이 `False`를 반환한다면, *당연히* 이 전략에는 문제가 있다. `True`를 반환한다면 *아마도* 괜찮을 것이다 &mdash; *k* 번 연속으로 승리했기 때문에 &mdash; 하지만 여전히 항상 이길 수 있는지는 증명할 수 없다. 또한, `winning`이 가장 *적은* 행동으로 승리했는지도 알지 못한다.

In [11]:
def winning(strategy, k=100000) -> bool:
    "승리 전략인가? 확률론적 알고리즘으로 확인해보자."
    return all(play(strategy) == 'HHHH'
               for _ in range(k))

def play(strategy, starting_coins=list(all_coins())) -> Coins:
    "게임을 한차례 시뮬레이션 한 후 최종 결과를 반환한다."
    coins = random.choice(starting_coins)
    for move in strategy:
        if 'T' not in coins: return coins
        coins = random.choice(list(rotations(coins)))
        coins = flip(coins, move)
    return coins

winning(strategy=coin_search())

True

## 동전 순서의 표준화 (canonical) 

다음과 같은 동전 순서를 살펴보자: `{'HHHT', 'HHTH', 'HTHH', 'THHH'}`. 잘 살펴보면, 똑같은 상태를 나타낸다. 테이블이 다른 각도로 돌려져 있을 뿐, 결국 같은 상태를 의미하기 때문이다. 악마는 테이블을 원하는 만큼 돌릴 수 있기 때문에, 위 상태를 전부 하나의 같은 상태(표준값)로 나타내는 것이 더 효율적이다. 따라서, `Coins`를 `"".join`이 아닌 `str`를 반환하는 함수로 다시 정의할 것이다. `str`은 사용하는 이유는 여전히 `'H'`/`'T'`로 구성된 `iterable`형 이기 때문이다. 

이번 `Coins` 함수는 위 가능한 경우의 수를 살펴본 후 문자열 순서대로 가장 앞에 있는 결과를 반환한다 (예를 들면, 위에서 언급된 동전 순서는 `'HHHT'`를 반환한다).

In [12]:
def Coins(coins) -> str:
    """표준화된 동전 순서를 반환한다.
    
    Example:
        >>> Coins("THHH")
        HHHT
    """
    return min(rotations(''.join(coins)))

In [13]:
assert Coins('HHHT') == Coins('HHTH') == Coins('HTHH') == Coins('THHH') == 'HHHT'

`Coins`을 재정의했으니 `all_coins()`의 결과도 달라진다:

In [14]:
all_coins()

frozenset({'HHHH', 'HHHT', 'HHTT', 'HTHT', 'HTTT', 'TTTT'})

초기 신뢰 상태가 16에서 6으로 줄어든 것을 알 수 있다. 각각 
- 4개의 앞면 (`'HHHH'`)
- 3개의 앞면 (`'HHHT'`)
- 2개의 (불어 있는) 앞면 (`'HHTT'`)
- 2개의 (서로 떨어져 있는) 앞면 (`'HTHT'`)
- 1개의 앞면 (`'HTTT'`)
- 앞면이 없는 경우 (`'TTTT'`)
에 해당한다.

탐색 함수가 제대로 작동하는지 확인해보자:

In [15]:
coin_search()

[{0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3}]

## *N* 동전이 있을 때 필승 전략 

만약 3개의 동전이 있었다면 어떨까? 6개의 동전이 있었다면? 이 문제를 해결하기 위해 다음 함수들을 `N = 4`를 기본 인자로 가진 함수로 일반화할 것이다: `all_moves`, `all_coins`, `rotations`, `coin_search`. 

`all_coins(N)`를 계산하는 방법은 간단하다. 모든 경우의 수를 `product` 함수로 구한 다음 `Coins`를 사용해 표준화하면 된다. `all_moves(N)`은 표준화된 행동을 반환해야 한다: `{0}`을 뒤집는 것이나 `{1}`을 뒤집는 것이나 결국 "동전 하나를 뒤집는" 같은 행동이다. 따라서 `all_coins(N)`의 표준화 결과를 살펴본 후 `H`가 있는 동전을 뒤집으면 된다. (대칭이기 때문에 `T`를 사용할 필요가 없다).

In [16]:
def all_moves(N=4) -> [Move]:
    """`N`개 동전 순서의 가능한 모든 표준화 행동을 반환한다.
    
    Example:
        >>> all_moves(3)
        [{0, 1, 2}, {0, 1}, {0}, {}]
    """
    return [set(i for i in range(N) if coins[i] == 'H')
            for coins in sorted(all_coins(N))]


def all_coins(N=4) -> Belief:
    """모든 경우의 수를 가진 구성된 신뢰 상태를 반환한다.
    
    Example:
        >>> all_coins(4)
        {'HHHH', 'HHHT', 'HHTT', 'HTHT', 'HTTT', 'TTTT'}
    """
    return Belief(map(Coins, product('HT', repeat=N)))


def rotations(coins) -> {Coins}:
    """주어진 동전 순서에서 모든 회전 경우의 수를 반환한다.
    
    Example:
        >>> rotations('HHT')
        {'HHT', 'HTH', 'THH'}
    """
    return {coins[r:] + coins[:r] for r in range(len(coins))}


def coin_search(N=4) -> Strategy:
    """일반화된 `search` 함수를 사용하여 문제를 해결한다.
    
    Example:
        >>> coin_search(2)
        [{0, 1}, {0}, {0, 1}]
    """
    return search(start=all_coins(N), goal={'H' * N}, actions=all_moves(N), result=update)

`update`와 `coin_search`가 제대로 작동하는지 테스트해보자:

In [17]:
assert all_moves(3) == [{0, 1, 2}, {0, 1}, {0}, set()]
assert all_moves(4) == [{0, 1, 2, 3}, {0, 1, 2}, {0, 1}, {0, 2}, {0}, set()]

assert all_coins(4) == {'HHHH', 'HHHT', 'HHTT', 'HTHT', 'HTTT', 'TTTT'}
assert all_coins(5) == {'HHHHH','HHHHT', 'HHHTT','HHTHT','HHTTT', 'HTHTT', 'HTTTT', 'TTTTT'}

assert rotations('HHHHHT') == {'HHHHHT', 'HHHHTH', 'HHHTHH', 'HHTHHH', 'HTHHHH', 'THHHHH'}
assert update({'TTTTTTT'}, {3}) == {'HTTTTTT'}
assert (update(rotations('HHHHHT'), {0}) == update({'HHTHHH'}, {1}) == update({'THHHHH'}, {2})
        == {'HHHHHH', 'HHHHTT', 'HHHTHT', 'HHTHHT'})

assert coin_search(4) == [
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1, 2},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3},
 {0, 1},
 {0, 1, 2, 3},
 {0, 2},
 {0, 1, 2, 3}]

12개 동전까지 몇 개의 고유한 동전 순서가 있는지 살펴보자.

In [18]:
{N: len(all_coins(N))
 for N in range(1, 13)}

{1: 2,
 2: 3,
 3: 4,
 4: 6,
 5: 8,
 6: 14,
 7: 20,
 8: 36,
 9: 60,
 10: 108,
 11: 188,
 12: 352}

12개 동전도 352개의 경우의 수로 나쁘지 않아 보인다. 표준화되지 않을 경우, 4,096개의 경우의 수가 있기 때문이다. 하지만 한편 탐색을 위해서 구골(googol, $10^{100}$)을 넘어서는 2<sup>352</sup>가지의 신뢰 상태를 탐색해야 한다. 하지만, 7개 동전까지는 2<sup>20</sup>으로 약 100만 정도로 해볼 만하다. 

## 1개부터 7개 동전까지 필승 전략

In [19]:
{N: coin_search(N) for N in range(1, 8)}

{1: [{0}],
 2: [{0, 1}, {0}, {0, 1}],
 3: None,
 4: [{0, 1, 2, 3},
  {0, 2},
  {0, 1, 2, 3},
  {0, 1},
  {0, 1, 2, 3},
  {0, 2},
  {0, 1, 2, 3},
  {0, 1, 2},
  {0, 1, 2, 3},
  {0, 2},
  {0, 1, 2, 3},
  {0, 1},
  {0, 1, 2, 3},
  {0, 2},
  {0, 1, 2, 3}],
 5: None,
 6: None,
 7: None}

N = 3, 5, 6, 혹은 7일 때 필승 전략이 없는 것을 알 수 있다. 

N = 1, 2, 4일 경우 필승 전략이 존재하는데 각각 1, 3, 15번의 행동으로 필승할 수 있다. 음…. 이걸 보면 다음을 생각해 볼 수 있다 ... 

## 가정 
> *N*이 2의 제곱 수일 경우, 2<sup>*N*</sup> - 1번의 행동을 가진 필승 전략이 존재한다. 

> *N*이 2의 제곱 수가 아닐 경우, 필승 전략이 존재하지 않는다. 

## 8개 동전의 필승 전략 

N = 8 일 경우, 2<sup>36</sup> = 약 690억 개의 신뢰 상태가 존재한다. 만약 위 가정이 맞는다면 255개의 행동을 가진 필수 전략이 존재할 것이다. 지금까지 정답은 바로 나왔지만 이번 경우는 시간이 조금 걸릴 것이다. 한번 알아보자:

In [20]:
%time strategy = coin_search(8)

CPU times: user 1min 1s, sys: 35.9 ms, total: 1min 1s
Wall time: 1min 1s


In [21]:
len(strategy)

255

**유레카!** 어림짐작으로 한 가정이 맞을지도 모른다. 하지만 여전히 수학적인 증명이 아니다. 그리고 여전히 많은 질문이 남아있다: 

- *N* = 9, 10, 11, ... 일 때 필승 전략이 존재하지 않는 걸 보여 줄 수 있는가? 
- *N*이 2의 제곱 수가 아닐 경우 필승전략이 존재하지 않는 걸 증명할 수 있는가? 
- *N* = 16일 때 65,535 길이를 가진 전략이 나오는지 확인해볼 수 있는가?
- 2의 제곱 수인 경우 필승 전략을 바로 찾을 수 있는가? 
- *N* = 16일 때 더 짧은 전략이 존재하지 않는지 증명할 수 있는가? 
- 위 가정을 일반화하여 증명할 수 있는가? 
- 행동을 나열하는 것이 아닌 전략이 어떻게 작동하는지 *이해*하고 *설명*할 수 있는가?

## 전략 시각화

In [22]:
def show(moves, N=4):
    "순서, 행동, 신뢰 상태를 출력한다."
    belief = all_coins(N)
    order = sorted(belief)
    for (i, move) in enumerate(moves, 1):
        belief = update(belief, move)
        print('{:3} | {:8} | {}'.format(
              i, movestr(move, N), beliefstr(belief, order)))

def beliefstr(belief, order) -> str: 
    return join(((coins if coins in belief else ' ' * len(coins))
                 for coins in order), ' ')

def movestr(move, N) -> str: 
    return join((i if i in move else ' ') 
                for i in range(N))
    
def join(items, sep='') -> str: 
    return sep.join(map(str, items))

아래 테이블은 각 행동이 신뢰 상태를 어떻게 변화시키는지 보여준다.

In [23]:
show(coin_search(2), 2)

  1 | 01       | HH HT   
  2 | 0        | HH    TT
  3 | 01       | HH      


In [24]:
show(coin_search(4))

  1 | 0123     | HHHH HHHT HHTT HTHT HTTT     
  2 | 0 2      | HHHH HHHT HHTT      HTTT TTTT
  3 | 0123     | HHHH HHHT HHTT      HTTT     
  4 | 01       | HHHH HHHT      HTHT HTTT TTTT
  5 | 0123     | HHHH HHHT      HTHT HTTT     
  6 | 0 2      | HHHH HHHT           HTTT TTTT
  7 | 0123     | HHHH HHHT           HTTT     
  8 | 012      | HHHH      HHTT HTHT      TTTT
  9 | 0123     | HHHH      HHTT HTHT          
 10 | 0 2      | HHHH      HHTT           TTTT
 11 | 0123     | HHHH      HHTT               
 12 | 01       | HHHH           HTHT      TTTT
 13 | 0123     | HHHH           HTHT          
 14 | 0 2      | HHHH                     TTTT
 15 | 0123     | HHHH                         


홀수 번째 행동마다 `TTTT`의 경우의 수를 없애는 것을 볼 수 있다. 또한, 2, 4, 6번째 행동에서 두 개의 동전을 뒤집어 앞면이 2개만 존재하는 경우의 수를 없애고, 8번째 행동에서 3개 앞면과 1개의 앞면을 가진 경우의 수를 없애면서 2개의 앞면을 가진 경우의 수가 다시 생겨난다. 

2, 4, 6번째 행동을 반복하고, 10, 12, 14번째 행동이 다시 2개의 앞면이 존재하는 경우의 수를 없애면서 15번째에 마침내 신뢰 상태가 `{'HHHH'}`에 이른다. 

`show(strategy, 8)`도 해볼 수 있지만, 매우 긴 결과가 나오기 때문에 (345글자) 와이드 스크린이 아니라면 보기 어려울 것이다. 대신에 `verbose` 인자를 `play`에 추가하여 각 행동 이후 결과를 출력할 것이다:

In [25]:
def play(coins, strategy, verbose=False):
    "로직은 이전 `play`함수와 동일하다."
    N = len(coins)
    for i, move in enumerate(strategy, 1):
        if 'T' not in coins: return coins
        coins0 = coins
        coins1 = random.choice(list(rotations(coins)))
        coins  = flip(coins1, move)
        if verbose: 
            print('{:4d}: {} rot: {}  flip: {} => {}'.format(
                  i, coins0, coins1, movestr(move, N), coins))
    return coins

play('HHTH', coin_search(4), True)

   1: HHTH rot: THHH  flip: 0123 => HTTT
   2: HTTT rot: TTHT  flip: 0 2  => HTTT
   3: HTTT rot: TTHT  flip: 0123 => HHHT
   4: HHHT rot: HHHT  flip: 01   => HTTT
   5: HTTT rot: THTT  flip: 0123 => HHHT
   6: HHHT rot: HTHH  flip: 0 2  => HTTT
   7: HTTT rot: TTHT  flip: 0123 => HHHT
   8: HHHT rot: THHH  flip: 012  => HHTT
   9: HHTT rot: TTHH  flip: 0123 => HHTT
  10: HHTT rot: TTHH  flip: 0 2  => HHTT
  11: HHTT rot: TTHH  flip: 0123 => HHTT
  12: HHTT rot: HTTH  flip: 01   => HTHT
  13: HTHT rot: HTHT  flip: 0123 => HTHT
  14: HTHT rot: THTH  flip: 0 2  => HHHH


'HHHH'

In [26]:
play('HTTHTTHT', strategy, True)

   1: HTTHTTHT rot: THTHTTHT  flip: 01234567 => HHTHHTHT
   2: HHTHHTHT rot: THHTHTHH  flip: 0 2 4 6  => HHHTTTTT
   3: HHHTTTTT rot: TTHHHTTT  flip: 01234567 => HHHHHTTT
   4: HHHHHTTT rot: HHHHHTTT  flip: 01  45   => HHTHTTTT
   5: HHTHTTTT rot: TTHHTHTT  flip: 01234567 => HHHHTTHT
   6: HHHHTTHT rot: THTHHHHT  flip: 0 2 4 6  => HHHHTHTT
   7: HHHHTHTT rot: THHHHTHT  flip: 01234567 => HHTTTTHT
   8: HHTTTTHT rot: TTTTHTHH  flip: 012 456  => HHHHTTHT
   9: HHHHTTHT rot: TTHTHHHH  flip: 01234567 => HHTHTTTT
  10: HHTHTTTT rot: THHTHTTT  flip: 0 2 4 6  => HHTTTTHT
  11: HHTTTTHT rot: TTTHTHHT  flip: 01234567 => HHHHTHTT
  12: HHHHTHTT rot: THTTHHHH  flip: 01  45   => HHHTTTTT
  13: HHHTTTTT rot: TTTTHHHT  flip: 01234567 => HHHHHTTT
  14: HHHHHTTT rot: HTTTHHHH  flip: 0 2 4 6  => HTHTTHTT
  15: HTHTTHTT rot: TTHTHTTH  flip: 01234567 => HHTHHTHT
  16: HHTHHTHT rot: HHTHHTHT  flip: 0123     => HTHTHTTT
  17: HTHTHTTT rot: THTHTTTH  flip: 01234567 => HHHTHTHT
  18: HHHTHTHT rot: HHTHTHTH  f

'HHHHHHHH'

In [27]:
# Style
from IPython.display import HTML

def apply_css():
    with open("../styles/style.css", "r") as f:
        css = f.read()
        return HTML("<style>{}</style>".format(css))

apply_css()