# Algoritmo Monte Carlo Tree Search
O algoritmo implementado aqui (UCT, o mais tradicional) corresponde à <i>seção 3.3.1</i> do artigo <b>survey-mcts-methods.pdf</b> disponibilizado na pasta. Sugiro que dêem uma lida nesta seção para melhor compreensão. Resumidamente, a função UCTSEARCH representa o algoritmo, a função TREEPOLICY executa as etapas de seleção (BESTCHILD) e expansão (EXPAND) do MCTS, a função DEFAULTPOLICY executa a etapa de simulação do MCTS e, finalmente, a função BACKUP executa o backpropagation.
<br><br>
A classe State representa um jogo simples onde você possui NUM_TURNS e em cada turno i você deve fazer uma escolha da lista de valores [2,-2,3,-3]*i e adicionar a um acumulador. O objetivo é que este acumulador seja o mais próximo possível de 0 (zero).

In [2]:
import random
import math
import hashlib
import logging

#VALORES MAIORES para este escalar irão AUMENTAR o EXPLOITATION. 
#VALORES MENORES irão AUMENTAR o EXPLORATION. 
SCALAR=1/math.sqrt(2.0)

logging.basicConfig(level=logging.WARNING)
logger = logging.getLogger('MyLogger')

class State():
	NUM_TURNS = 10	
	GOAL = 0
	MOVES=[2,-2,3,-3]
	MAX_VALUE= (5.0*(NUM_TURNS-1)*NUM_TURNS)/2
	num_moves=len(MOVES)
	def __init__(self, value=0, moves=[], turn=NUM_TURNS):
		self.value=value
		self.turn=turn
		self.moves=moves
	def next_state(self):
		nextmove=random.choice([x*self.turn for x  in self.MOVES])
		next=State(self.value+nextmove, self.moves+[nextmove],self.turn-1)
		return next
	def terminal(self):
		if self.turn == 0:
			return True
		return False
	def reward(self):
		r = 1.0-(abs(self.value-self.GOAL)/self.MAX_VALUE)
		return r
	def __hash__(self):
		m = hashlib.md5(str(self.moves).encode('utf-8'))
		return int(m.hexdigest(),16)
		#return int(m.hexdigest(),16)
	def __eq__(self,other):
		if hash(self)==hash(other):
			return True
		return False
	def __repr__(self):
		s="Value: %d; Moves: %s"%(self.value,self.moves)
		return s

class Node():
	def __init__(self, state, parent=None):
		self.visits=1
		self.reward=0.0	
		self.state=state
		self.children=[]
		self.parent=parent	
	def add_child(self,child_state):
		child=Node(child_state,self)
		self.children.append(child)
	def update(self,reward):
		self.reward+=reward
		self.visits+=1
	def fully_expanded(self):
		if len(self.children)==self.state.num_moves:
			return True
		return False
	def __repr__(self):
		s="Node; children: %d; visits: %d; reward: %f"%(len(self.children),self.visits,self.reward)
		return s
		


def UCTSEARCH(budget,root):
	for iter in range(budget):
		if iter%10000==9999:
			logger.info("simulation: %d"%iter)
			logger.info(root)
		front=TREEPOLICY(root)
		reward=DEFAULTPOLICY(front.state)
		BACKUP(front,reward)
	return BESTCHILD(root,0)

def TREEPOLICY(node):
	while node.state.terminal()==False:
		if node.fully_expanded()==False:	
			return EXPAND(node)
		else:
			node=BESTCHILD(node,SCALAR)
	return node

def EXPAND(node):
	tried_children=[c.state for c in node.children]
	new_state=node.state.next_state()
	while new_state in tried_children:
		new_state=node.state.next_state()
	node.add_child(new_state)
	return node.children[-1]

def BESTCHILD(node,scalar):
	bestscore=0.0
	bestchildren=[]
	for c in node.children:
		exploit=c.reward/c.visits
		explore=math.sqrt(math.log(2*node.visits)/float(c.visits))	
		score=exploit+scalar*explore
		if score==bestscore:
			bestchildren.append(c)
		if score>bestscore:
			bestchildren=[c]
			bestscore=score
	if len(bestchildren)==0:
		logger.warn("OOPS: no best child found, probably fatal")
	return random.choice(bestchildren)

def DEFAULTPOLICY(state):
	while state.terminal()==False:
		state=state.next_state()
	return state.reward()

def BACKUP(node,reward):
	while node!=None:
		node.visits+=1
		node.reward+=reward
		node=node.parent
	return

### Aplicando MCTS no jogo simples
<b>levels</b> (= 8) é o número de execuções do MCTS, que corresponde ao comprimento (profundidade) da árvore. A cada execução, o melhor filho de um nível da árvore é encontrado.
<br><b>num_sims</b> (= 10000) é o número de iterações (simulações) do MCTS a se executar para o primeiro nível da árvore (level = 1). A cada nível subsequente, este número diminui sob a razão (num_sims / level) (com level = 2, 3, ..., 8)

In [3]:
num_sims = 10000
levels = 8
current_node=Node(State())
for l in range(levels):
		budget = num_sims//(l+1)
		current_node=UCTSEARCH(budget,current_node)
		print("level %d"%l)
		print("budget (stop criterion): ",budget)
		print("Num Children: %d"%len(current_node.children))
		for i,c in enumerate(current_node.children):
			print(i,c)
		print("Best Child: %s"%current_node.state)
		
		print("--------------------------------")

level 0
budget (stop criterion):  10000
Num Children: 4
0 Node; children: 4; visits: 565; reward: 495.995556
1 Node; children: 4; visits: 369; reward: 316.271111
2 Node; children: 4; visits: 898; reward: 804.506667
3 Node; children: 4; visits: 998; reward: 897.551111
Best Child: Value: -20; Moves: [-20]
--------------------------------
level 1
budget (stop criterion):  5000
Num Children: 4
0 Node; children: 4; visits: 820; reward: 749.911111
1 Node; children: 4; visits: 654; reward: 592.346667
2 Node; children: 4; visits: 559; reward: 502.648889
3 Node; children: 4; visits: 722; reward: 656.813333
Best Child: Value: 7; Moves: [-20, 27]
--------------------------------
level 2
budget (stop criterion):  3333
Num Children: 4
0 Node; children: 4; visits: 342; reward: 310.311111
1 Node; children: 4; visits: 565; reward: 526.346667
2 Node; children: 4; visits: 427; reward: 392.337778
3 Node; children: 4; visits: 501; reward: 463.986667
Best Child: Value: -9; Moves: [-20, 27, -16]
-----------