In [1]:
import numpy as np
import copy
import keras.models

from MCTS import MCTS
from Game import Game 
from model import AmoebaZeroModel
import params


Using TensorFlow backend.


In [2]:
HISTORY_SIZE     = params.PIPELINE_HISTORY_SIZE
BATCH_SIZE       = params.PIPELINE_BATCH_SIZE
TRAINING_LOOP_NR = params.PIPELINE_TRAINING_LOOP_NR
SELFPLAY_NR      = params.PIPELINE_SELFPLAY_NR
EVAL_NR          = params.PIPELINE_EVAL_NR
THRESHOLD        = params.PIPELINE_THRESHOLD

class Pipeline:
    def __init__(self, verbose = 0):
        self.verbose = verbose
        
        self.history_input = np.zeros( (HISTORY_SIZE,15,15,4))
        self.history_p     = np.zeros( (HISTORY_SIZE,225))
        self.history_v     = np.zeros( (HISTORY_SIZE))
        self.batch_input   = np.zeros( (BATCH_SIZE,15,15,4))
        self.batch_p       = np.zeros( (BATCH_SIZE,225))
        self.batch_v       = np.zeros( (BATCH_SIZE))
        self.next_index    = 0
        self.history_nr    = 0
        self.version       = 0
        
        self.model_trained = AmoebaZeroModel()
        self.model_trained.model.save("./models/saved_model_0.h5")
        
        self.model_best       = AmoebaZeroModel()
        self.model_best.model = keras.models.load_model("./models/saved_model_0.h5")
    
    def main_loop(self):
        nr = 0
        self.self_play()
        while True:
            print("Loop - ", nr)
            self.train()
            if self.evaluate_trained():
                self.version += 1
                self.model_trained.model.save("./models/saved_model_"+str(self.version)+".h5")
                self.model_best.model = keras.models.load_model("./models/saved_model_"+str(self.version)+".h5")
                print("New model saved. Version: ", self.version)

                self.self_play()
                
    def self_play(self):
        if self.verbose >= 1:
            print("Self play")
        for i in range(SELFPLAY_NR):
            if self.verbose >=2:
                print(i, "start_index = ", self.next_index)
            start_index = self.next_index
            g = Game()
            mcts = MCTS(g, self.model_best.evaluate)
            nr = 0
            while (g.winner==0):
                nr += 1
                x,y,n = mcts.select_move()                
                g.fill_grids_for_nn(self.history_input,self.next_index)
                mcts.fill_p(self.history_p,self.next_index)
                self.next_index = (self.next_index + 1) % HISTORY_SIZE
                if self.history_nr<HISTORY_SIZE:
                    self.history_nr += 1
                g.move(x,y)
                mcts.reinit(g,n)
                if self.verbose>=3:
                    print(nr, "- move: ", x, y, "; next_index: ", self.next_index)
                if i==0 and self.verbose>=4:
                    g.print()
            v = g.get_final_value()

            if self.verbose >= 2:
                print("Result:", g.winner)
            
            i = start_index
            while i != self.next_index:
                self.history_v[i] = v
                i = (i+1)%HISTORY_SIZE
    
    def train(self):
        if self.verbose >= 1:
            print("Train")
        for i in range(TRAINING_LOOP_NR):
            if self.verbose >= 2:
                print("i: " + str(i))
            
            for j in range(BATCH_SIZE):
                ind = np.random.randint(0,self.history_nr)
                self.batch_input[j] = self.history_input[ind]
                self.batch_p[j]     = self.history_p[ind]
                self.batch_v[j]     = self.history_v[ind]
            self.model_trained.train(self.batch_input,[self.batch_p,self.batch_v],BATCH_SIZE)           
            
    def evaluate_trained(self):
        if self.verbose >= 1:
            print("Evaluate")

        balance = 0 #+ if trained, - if best won more
        
        #best begins
        for i in range(EVAL_NR//2):
            if self.verbose >= 2:
                print("i: ",i)
            g  = Game()
            nr = 0
            while (g.winner==0):
                if nr%2==0:
                    mcts = MCTS(g, self.model_best.evaluate)
                    x,y,_ = mcts.select_move(competitive = True)
                    g.move(x,y)
                else:
                    mcts = MCTS(g, self.model_trained.evaluate)
                    x,y,_ = mcts.select_move(competitive = True)
                    g.move(x,y)
                nr+=1
            if g.winner == 1:
                balance -= 1
            elif g.winner == 2:
                balance += 1

            if self.verbose >= 2:
                print("Result:", balance)

        #trained begins
        for i in range(EVAL_NR//2):
            if self.verbose >= 2:
                print("i: ",i)
            g  = Game()
            nr = 0
            while (g.winner==0):
                if nr%2==0:
                    mcts = MCTS(g, self.model_trained.evaluate)
                    x,y,_ = mcts.select_move(competitive = True)
                    g.move(x,y)
                else:
                    mcts = MCTS(g, self.model_best.evaluate)
                    x,y,_ = mcts.select_move(competitive = True)
                    g.move(x,y)
                nr+=1
            if g.winner == 1:
                balance += 1
            elif g.winner == 2:
                balance -= 1

            if self.verbose >= 2:
                print("Result:", g.winner)

                
        if self.verbose >= 1:
            print("Balance: ",balance," Thr.: ",THRESHOLD)
                
        return balance >= THRESHOLD
           
        
        

In [3]:
pl = Pipeline(verbose = 2)
pl.main_loop()


Self play
0 start_index =  0
Result: 2
1 start_index =  154
Result: 2
2 start_index =  280
Result: 2
Loop -  0
Train
i: 0
Epoch 1/1
i: 1
Epoch 1/1
i: 2
Epoch 1/1
i: 3
Epoch 1/1
i: 4
Epoch 1/1
i: 5
Epoch 1/1
i: 6
Epoch 1/1
i: 7
Epoch 1/1
i: 8
Epoch 1/1
i: 9
Epoch 1/1
i: 10
Epoch 1/1
i: 11
Epoch 1/1
i: 12
Epoch 1/1
i: 13
Epoch 1/1
i: 14
Epoch 1/1
i: 15
Epoch 1/1
i: 16
Epoch 1/1
i: 17
Epoch 1/1
i: 18
Epoch 1/1
i: 19
Epoch 1/1
i: 20
Epoch 1/1
i: 21
Epoch 1/1
i: 22
Epoch 1/1
i: 23
Epoch 1/1
i: 24
Epoch 1/1
i: 25
Epoch 1/1
i: 26
Epoch 1/1
i: 27
Epoch 1/1
i: 28
Epoch 1/1
i: 29
Epoch 1/1
i: 30
Epoch 1/1
i: 31
Epoch 1/1
i: 32
Epoch 1/1
i: 33
Epoch 1/1
i: 34
Epoch 1/1
i: 35
Epoch 1/1
i: 36
Epoch 1/1
i: 37
Epoch 1/1
i: 38
Epoch 1/1


i: 39
Epoch 1/1
i: 40
Epoch 1/1
i: 41
Epoch 1/1
i: 42
Epoch 1/1
i: 43
Epoch 1/1
i: 44
Epoch 1/1
i: 45
Epoch 1/1
i: 46
Epoch 1/1
i: 47
Epoch 1/1
i: 48
Epoch 1/1
i: 49
Epoch 1/1
i: 50
Epoch 1/1
i: 51
Epoch 1/1
i: 52
Epoch 1/1
i: 53
Epoch 1/1
i: 54
Epoch 1/1
i: 55
Epoch 1/1
i: 56
Epoch 1/1
i: 57
Epoch 1/1
i: 58
Epoch 1/1
i: 59
Epoch 1/1
i: 60
Epoch 1/1
i: 61
Epoch 1/1
i: 62
Epoch 1/1
i: 63
Epoch 1/1
i: 64
Epoch 1/1
i: 65
Epoch 1/1
i: 66
Epoch 1/1
i: 67
Epoch 1/1
i: 68
Epoch 1/1
i: 69
Epoch 1/1
i: 70
Epoch 1/1
i: 71
Epoch 1/1
i: 72
Epoch 1/1
i: 73
Epoch 1/1
i: 74
Epoch 1/1
i: 75
Epoch 1/1
i: 76
Epoch 1/1
i: 77
Epoch 1/1


i: 78
Epoch 1/1
i: 79
Epoch 1/1
i: 80
Epoch 1/1
i: 81
Epoch 1/1
i: 82
Epoch 1/1
i: 83
Epoch 1/1
i: 84
Epoch 1/1
i: 85
Epoch 1/1
i: 86
Epoch 1/1
i: 87
Epoch 1/1
i: 88
Epoch 1/1
i: 89
Epoch 1/1
i: 90
Epoch 1/1
i: 91
Epoch 1/1
i: 92
Epoch 1/1
i: 93
Epoch 1/1
i: 94
Epoch 1/1
i: 95
Epoch 1/1
i: 96
Epoch 1/1
i: 97
Epoch 1/1
i: 98
Epoch 1/1
i: 99
Epoch 1/1
Evaluate
i:  0
Result: 2
i:  1
Result: 2
i:  2
Result: 2
i:  3
Result: 2
i:  4
Result: 2
i:  5
Result: 2
i:  6
Result: 2
i:  7
Result: 2
i:  8
Result: 2
i:  9
Result: 2
i:  10
Result: 2
i:  11
Result: 2
i:  12
Result: 2
i:  13
Result: 2
i:  14
Result: 2
i:  15
Result: 2
i:  16
Result: 2
i:  17
Result: 2
i:  18
Result: 2
i:  19
Result: 2
i:  0
Result: 2
i:  1
Result: 2
i:  2
Result: 2
i:  3
Result: 2
i:  4
Result: 2
i:  5
Result: 2
i:  6
Result: 2
i:  7
Result: 2
i:  8
Result: 2
i:  9
Result: 2
i:  10
Result: 2
i:  11
Result: 2
i:  12
Result: 2
i:  13
Result: 2
i:  14
Result: 2
i:  15
Result: 2
i:  16
Result: 2
i:  17
Result: 2
i:  18
Result

i: 14
Epoch 1/1
i: 15
Epoch 1/1
i: 16
Epoch 1/1
i: 17
Epoch 1/1
i: 18
Epoch 1/1
i: 19
Epoch 1/1
i: 20
Epoch 1/1
i: 21
Epoch 1/1
i: 22
Epoch 1/1
i: 23
Epoch 1/1
i: 24
Epoch 1/1
i: 25
Epoch 1/1
i: 26
Epoch 1/1
i: 27
Epoch 1/1
i: 28
Epoch 1/1
i: 29
Epoch 1/1
i: 30
Epoch 1/1
i: 31
Epoch 1/1
i: 32
Epoch 1/1
i: 33
Epoch 1/1
i: 34
Epoch 1/1
i: 35
Epoch 1/1
i: 36
Epoch 1/1
i: 37
Epoch 1/1
i: 38
Epoch 1/1
i: 39
Epoch 1/1
i: 40
Epoch 1/1
i: 41
Epoch 1/1
i: 42
Epoch 1/1
i: 43
Epoch 1/1
i: 44
Epoch 1/1
i: 45
Epoch 1/1
i: 46
Epoch 1/1
i: 47
Epoch 1/1
i: 48
Epoch 1/1
i: 49
Epoch 1/1
i: 50
Epoch 1/1
i: 51
Epoch 1/1
i: 52
Epoch 1/1


i: 53
Epoch 1/1
i: 54
Epoch 1/1
i: 55
Epoch 1/1
i: 56
Epoch 1/1
i: 57
Epoch 1/1
i: 58
Epoch 1/1
i: 59
Epoch 1/1
i: 60
Epoch 1/1
i: 61
Epoch 1/1
i: 62
Epoch 1/1
i: 63
Epoch 1/1
i: 64
Epoch 1/1
i: 65
Epoch 1/1
i: 66
Epoch 1/1
i: 67
Epoch 1/1
i: 68
Epoch 1/1
i: 69
Epoch 1/1
i: 70
Epoch 1/1
i: 71
Epoch 1/1
i: 72
Epoch 1/1
i: 73
Epoch 1/1
i: 74
Epoch 1/1
i: 75
Epoch 1/1
i: 76
Epoch 1/1
i: 77
Epoch 1/1
i: 78
Epoch 1/1
i: 79
Epoch 1/1
i: 80
Epoch 1/1
i: 81
Epoch 1/1
i: 82
Epoch 1/1
i: 83
Epoch 1/1
i: 84
Epoch 1/1
i: 85
Epoch 1/1
i: 86
Epoch 1/1
i: 87
Epoch 1/1
i: 88
Epoch 1/1
i: 89
Epoch 1/1
i: 90
Epoch 1/1
i: 91
Epoch 1/1


i: 92
Epoch 1/1
i: 93
Epoch 1/1
i: 94
Epoch 1/1
i: 95
Epoch 1/1
i: 96
Epoch 1/1
i: 97
Epoch 1/1
i: 98
Epoch 1/1
i: 99
Epoch 1/1
Evaluate
i:  0
Result: 2
i:  1
Result: 2
i:  2
Result: 2
i:  3
Result: 2
i:  4
Result: 2
i:  5
Result: 2
i:  6
Result: 2
i:  7
Result: 2
i:  8
Result: 2
i:  9
Result: 2
i:  10


KeyboardInterrupt: 