Celem ćwiczenia było zapoznanie się z frameworkiem EasyAi. EasyAI to framework do gier dwuosobowych oparty na algorytmie Negamax.

W swojej implementacji EasyAI wykorzystuje algorytm Negamax z optymalizacją w postaci obcięcia alpha-beta oraz tabeli transpozycji.

Negamax to wariant  algorytmu Minimax, który jest używany w grach dwuosobowych. Minimax zakłada, że dwaj gracze rywalizują – jeden stara się maksymalizować swój wynik (Max), a drugi minimalizować wynik przeciwnika (Min). Negamax upraszcza ten algorytm, wykorzystując fakt, że minimalizacja wyniku przeciwnika jest tym samym, co maksymalizacja negatywnej wartości jego ruchu. Dzięki temu zamiast implementować osobne funkcje dla gracza Max i Min, w Negamax używamy jednej funkcji, która odwraca znak wyniku.

In [7]:
pip install easyAI



Rozpoczęłyśmy od modyfikacji implementacji gry Nim z pakietu EasyAI, aby dodać jej probabilistyczny wariant. W tym celu w konstruktorze dodałyśmy flagę deterministic, która pozwala na wybór trybu gry – deterministycznego lub probabilistycznego. Dodatkowo dodałyśmy parametr current_player, umożliwiający zmianę gracza rozpoczynającego rozgrywkę.

Kolejnym krokiem była modyfikacja metody make_move, tak aby obsługiwała wariant probabilistyczny gry. Wprowadziłyśmy mechanizm, który z 10% prawdopodobieństwem zmienia efekt ruchu – jeśli losowy warunek zostanie spełniony, gracz jest zmuszony do pobrania o jeden element mniej z wybranego stosu, niż pierwotnie zamierzał.



In [8]:
from easyAI import TwoPlayerGame, Negamax,AI_Player
import random
class Nim(TwoPlayerGame):
    """
    The game starts with 4 piles of 5 pieces. In turn the players
    remove as much pieces as they want, but from one pile only. The
    player that removes the last piece loses.

    Arguments:

    - players: the players...
    - piles: the piles the game starts with. With piles=[2,3,4,4] the
      game will start with 1 pile of 2 pieces, 1 pile of 3 pieces, and 2
      piles of 4 pieces. If set to None, the default will be [5,5,5,5]

    """

    def __init__(self, players, current_player = 1, deterministic = True, piles=None):
        """ Default for `piles` is 5 piles of 5 pieces. """
        self.players = players
        self.piles = piles if (piles is not None) else [5, 5, 5, 5]
        self.current_player = current_player
        self.deterministic = deterministic


    def possible_moves(self):
        return ["%d,%d" % (i + 1, j) for i in range(len(self.piles))
                for j in range(1, self.piles[i] + 1)]

    def make_move(self, move):
        move = list(map(int, move.split(',')))

        if self.deterministic is False:
            if random.random() <= 0.1:
                move[1] = move[1] - 1

        self.piles[move[0] - 1] -= move[1]

    def show(self): print(" ".join(map(str, self.piles)))

    def win(self): return max(self.piles) == 0

    def is_over(self): return self.win()

    def scoring(self): return 100 if self.win() else 0

    def ttentry(self): return tuple(self.piles)  # optional, speeds up AI


In [9]:
def play_games(n_of_games, depth, is_deterministic):
  results = []
  for i in range(n_of_games):
    start_player = 1 if i%2 == 0 else 2
    ai = Negamax(depth = depth)
    game = Nim( [AI_Player(ai), AI_Player(ai)], current_player = start_player, deterministic = is_deterministic)
    game.play()

    winner = game.current_player
    results.append([i+1, depth, is_deterministic, start_player, winner])

  return results


Teraz uruchomimy dwóch graczy AI z algorytmem NegaMax z biblioteki EasyAI przeciwko sobie, naprzemiennie zmieniając gracza rozpoczynającego rozgrywkę. Uruchamiamy po 10 gier na dwóch różnych głębokościach (3,10). Głębokość odpowiada za to ile ruchów do przodu ma przewidzieć agent.

In [None]:
depth = [3,7]
number_of_games = 10
results  = []


for is_det in [True,False]:
  for d in depth:

    for i in range(number_of_games):
      start_player = 1 if i%2 == 0 else 2
      ai = Negamax(d)
      game = Nim( [AI_Player(ai), AI_Player(ai)], current_player = start_player, deterministic = is_det)
      game.play()

      winner = game.current_player
      results.append([i+1, d, is_det, start_player, winner])







In [24]:
import pandas as pd


df = pd.DataFrame(results, columns = ['Number of game', 'Depth', 'Was deterministic', 'Starting player', 'Winner'])
df

Unnamed: 0,Number of game,Depth,Was deterministic,Starting player,Winner
0,1,3,True,1,2
1,2,3,True,2,1
2,3,3,True,1,2
3,4,3,True,2,1
4,5,3,True,1,2
5,6,3,True,2,1
6,7,3,True,1,2
7,8,3,True,2,1
8,9,3,True,1,2
9,10,3,True,2,1


W wersji deterministycznej gry zwycięstwo zawsze przypada graczowi, który rozpoczynał jako drugi.









In [25]:
win_counts = df['Winner'].value_counts()
win_counts

Unnamed: 0_level_0,count
Winner,Unnamed: 1_level_1
2,21
1,19


Liczba zwycięstw poszczególnych graczy jest prawie równa, co oznacza, że obaj gracze grali optymalnie ponieważ co grę zmieniano gracza rozpoczynającego.

Gracz numer

In [26]:
win_counts_by_depth = df.groupby(["Winner", "Depth"]).size().rename("Wins count by depth")
win_counts_by_depth

Unnamed: 0_level_0,Unnamed: 1_level_0,Wins count by depth
Winner,Depth,Unnamed: 2_level_1
1,3,8
1,7,11
2,3,12
2,7,9


In [27]:
wins_variant = df.groupby(['Winner', 'Was deterministic']).size().rename("Wins count by variant")
wins_variant

Unnamed: 0_level_0,Unnamed: 1_level_0,Wins count by variant
Winner,Was deterministic,Unnamed: 2_level_1
1,False,9
1,True,10
2,False,11
2,True,10


In [32]:
df[df['Was deterministic']==True]

Unnamed: 0,Number of game,Depth,Was deterministic,Starting player,Winner
0,1,3,True,1,2
1,2,3,True,2,1
2,3,3,True,1,2
3,4,3,True,2,1
4,5,3,True,1,2
5,6,3,True,2,1
6,7,3,True,1,2
7,8,3,True,2,1
8,9,3,True,1,2
9,10,3,True,2,1


Przycinanie (prunning) alpha-beta to technika optymalizacyjna stosowana w algorytmie Negamax (i Minimax), która przyspiesza jego działanie poprzez eliminację niepotrzebnych obliczeń. Algorytm NegaMax działa rekurencyjnie, analizując wszystkie możliwe ruchy i ich konsekwencje. Jednak w praktyce wiele ruchów można pominąć, jeśli już wiadomo, że nie przyniosą lepszego wyniku niż inne wcześniej sprawdzone opcje. Machanizm alpha - beta śledzi dwa progi:

*alpha - najlepsza wartość, jaką może osiągnąć gracz Max*

*beta - najlepsza wartość, jaką może osiągnąć gracz Min*

Jeśli w trakcie analizy ruchów okaże się, że pewna gałąź drzewa decyzyjnego daje wynik gorszy niż dotychczas najlepszy znaleziony ruch, nie trzeba jej dalej analizować. Dzięki czemu poprawia się wydajność algorytmu


Aby przetestować algorytm NegaMax z i bez obcięcia alfa-beta zmodyfikowałyśmy implementację NegaMax z biblioteki EasyAi. Dodałyśmy flagę prunning, która będzie odpowiadać, która wersję algorytmu stosujemy.

In [28]:
"""
The standard AI algorithm of easyAI is Negamax with alpha-beta pruning
and (optionnally), transposition tables.
"""

import pickle

LOWERBOUND, EXACT, UPPERBOUND = -1, 0, 1
inf = float("infinity")


def negamax(game, depth, origDepth, scoring, alpha=+inf, beta=-inf, tt=None, prunning = True):
    """
    This implements Negamax with transposition tables.
    This method is not meant to be used directly. See ``easyAI.Negamax``
    for an example of practical use.
    This function is implemented (almost) acccording to
    http://en.wikipedia.org/wiki/Negamax
    """

    alphaOrig = alpha

    # Is there a transposition table and is this game in it ?
    lookup = None if (tt is None) else tt.lookup(game)

    if lookup is not None:
        # The game has been visited in the past

        if lookup["depth"] >= depth:
            flag, value = lookup["flag"], lookup["value"]
            if flag == EXACT:
                if depth == origDepth:
                    game.ai_move = lookup["move"]
                return value
            elif flag == LOWERBOUND:
                alpha = max(alpha, value) if prunning else alpha
            elif flag == UPPERBOUND:
                beta = min(beta, value) if prunning else beta

            if prunning and alpha >= beta:
                if depth == origDepth:
                    game.ai_move = lookup["move"]
                return value

    if (depth == 0) or game.is_over():
        # NOTE: the "depth" variable represents the depth left to recurse into,
        # so the smaller it is, the deeper we are in the negamax recursion.
        # Here we add 0.001 as a bonus to signify that victories in less turns
        # have more value than victories in many turns (and conversely, defeats
        # after many turns are preferred over defeats in less turns)
        return scoring(game) * (1 + 0.001 * depth)

    if lookup is not None:
        # Put the supposedly best move first in the list
        possible_moves = game.possible_moves()
        possible_moves.remove(lookup["move"])
        possible_moves = [lookup["move"]] + possible_moves

    else:

        possible_moves = game.possible_moves()

    state = game
    best_move = possible_moves[0]
    if depth == origDepth:
        state.ai_move = possible_moves[0]

    bestValue = -inf
    unmake_move = hasattr(state, "unmake_move")

    for move in possible_moves:

        if not unmake_move:
            game = state.copy()  # re-initialize move

        game.make_move(move)
        game.switch_player()

        move_alpha = -negamax(game, depth - 1, origDepth, scoring, -beta, -alpha, tt)

        if unmake_move:
            game.switch_player()
            game.unmake_move(move)

        # bestValue = max( bestValue,  move_alpha )
        if bestValue < move_alpha:
            bestValue = move_alpha
            best_move = move

        if alpha < move_alpha and prunning:
            alpha = move_alpha
            # best_move = move
            if depth == origDepth:
                state.ai_move = move
            if alpha >= beta:
                break

    if tt is not None:

        assert best_move in possible_moves
        tt.store(
            game=state,
            depth=depth,
            value=bestValue,
            move=best_move,
            flag=UPPERBOUND
            if (bestValue <= alphaOrig)
            else (LOWERBOUND if (bestValue >= beta) else EXACT),
        )

    return bestValue


class Negamax:
    """
    This implements Negamax on steroids. The following example shows
    how to setup the AI and play a Connect Four game:

        >>> from easyAI.games import ConnectFour
        >>> from easyAI import Negamax, Human_Player, AI_Player
        >>> scoring = lambda game: -100 if game.lose() else 0
        >>> ai_algo = Negamax(8, scoring) # AI will think 8 turns in advance
        >>> game = ConnectFour([Human_Player(), AI_Player(ai_algo)])
        >>> game.play()

    Parameters
    -----------

    depth:
      How many moves in advance should the AI think ?
      (2 moves = 1 complete turn)

    scoring:
      A function f(game)-> score. If no scoring is provided
         and the game object has a ``scoring`` method it ill be used.

    win_score:
      Score above which the score means a win. This will be
        used to speed up computations if provided, but the AI will not
        differentiate quick defeats from long-fought ones (see next
        section).

    tt:
      A transposition table (a table storing game states and moves)
      scoring: can be none if the game that the AI will be given has a
      ``scoring`` method.

    Notes
    -----

    The score of a given game is given by

    >>> scoring(current_game) - 0.01*sign*current_depth

    for instance if a lose is -100 points, then losing after 4 moves
    will score -99.96 points but losing after 8 moves will be -99.92
    points. Thus, the AI will chose the move that leads to defeat in
    8 turns, which makes it more difficult for the (human) opponent.
    This will not always work if a ``win_score`` argument is provided.

    """

    def __init__(self, depth, scoring=None, win_score=+inf, tt=None, prunning = True):
        self.scoring = scoring
        self.depth = depth
        self.tt = tt
        self.win_score = win_score
        self.prunning = prunning

    def __call__(self, game):
        """
        Returns the AI's best move given the current state of the game.
        """

        scoring = (
            self.scoring if self.scoring else (lambda g: g.scoring())
        )  # horrible hack

        self.alpha = negamax(
            game,
            self.depth,
            self.depth,
            scoring,
            -self.win_score,
            +self.win_score,
            self.tt,
            self.prunning
        )
        return game.ai_move


In [29]:
import time
number_of_games = 5
results2 = []
for is_deterministic in [True,False]:
  for depth in [3,7]:
    for prunning in [True, False]:
      for i in range(number_of_games):
        ai = Negamax(depth, prunning = prunning)
        game = Nim( [AI_Player(ai), AI_Player(ai)], deterministic = is_deterministic)

        start_time = time.time()
        game.play()
        end_time = time.time()

        winner = game.current_player

        results2.append([i+1, depth, is_deterministic, prunning, end_time-start_time, winner])



5 5 5 5

Move #1: player 1 plays 1,1 :
4 5 5 5

Move #2: player 2 plays 1,1 :
3 5 5 5

Move #3: player 1 plays 1,1 :
2 5 5 5

Move #4: player 2 plays 1,1 :
1 5 5 5

Move #5: player 1 plays 1,1 :
0 5 5 5

Move #6: player 2 plays 2,1 :
0 4 5 5

Move #7: player 1 plays 2,1 :
0 3 5 5

Move #8: player 2 plays 2,1 :
0 2 5 5

Move #9: player 1 plays 2,1 :
0 1 5 5

Move #10: player 2 plays 2,1 :
0 0 5 5

Move #11: player 1 plays 3,1 :
0 0 4 5

Move #12: player 2 plays 3,1 :
0 0 3 5

Move #13: player 1 plays 3,1 :
0 0 2 5

Move #14: player 2 plays 4,1 :
0 0 2 4

Move #15: player 1 plays 4,1 :
0 0 2 3

Move #16: player 2 plays 4,1 :
0 0 2 2

Move #17: player 1 plays 3,1 :
0 0 1 2

Move #18: player 2 plays 4,2 :
0 0 1 0

Move #19: player 1 plays 3,1 :
0 0 0 0
5 5 5 5

Move #1: player 1 plays 1,1 :
4 5 5 5

Move #2: player 2 plays 1,1 :
3 5 5 5

Move #3: player 1 plays 1,1 :
2 5 5 5

Move #4: player 2 plays 1,1 :
1 5 5 5

Move #5: player 1 plays 1,1 :
0 5 5 5

Move #6: player 2 plays 2,1 :
0 4 5 5

In [30]:
import pandas as pd
df2 = pd.DataFrame(results2, columns=['Number', 'Depth', 'Was deterministic', 'Prunning', 'Time', 'Winner'])
df2

Unnamed: 0,Number,Depth,Was deterministic,Prunning,Time,Winner
0,1,3,True,True,0.115074,2
1,2,3,True,True,0.116357,2
2,3,3,True,True,0.110467,2
3,4,3,True,True,0.109878,2
4,5,3,True,True,0.110407,2
5,1,3,True,False,0.27357,1
6,2,3,True,False,0.275352,1
7,3,3,True,False,0.368448,1
8,4,3,True,False,0.469468,1
9,5,3,True,False,0.466639,1


In [37]:
time_by_depth_and_prunning = df2.groupby(['Depth', 'Prunning'])['Time'].mean()
time_by_depth_and_prunning

Unnamed: 0_level_0,Unnamed: 1_level_0,Time
Depth,Prunning,Unnamed: 2_level_1
3,False,0.34468
3,True,0.119862
7,False,32.988249
7,True,10.2382


Na podstawie tabeli można zauważyć, że wraz ze wzrostem głębkości, czas gry się wydłuża. Jest to zgodne z oczekiwaniami, ponieważ większa głębokość oznacza, że algorytm musi przeszukiwać więcej stanów gry, co zwiększa czas obliczeń.
Ponadto można również zauważyć, że na czas gry wpływa również wersja algorytmu NegaMax. Wariant bez obcinania gałęzi zajmuje zajmuje znacznie więcej czasu, ponieważ algorytm przeszukuje pełne drzewo gry zamiast ograniczać liczbę analizowanych ruchów. Wersja z obcinaniem gałęzi pozwala na szybsze podejmowanie decyzji, co skraca czas obliczeń i poprawia wydajność algorytmu.