<a href="https://colab.research.google.com/github/natanrajch/DiploDatos/blob/main/aprendizaje_refuerzos/TicTacToe_RL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Instalaciones

In [None]:
!pip install stable-baselines3[extra,tests,docs]

In [None]:
#@title Instalación de RLBaselinesZoo (no modificar)

# Estamos en Colab?

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    !git clone --recursive https://github.com/DLR-RM/rl-baselines3-zoo
    !cd rl-baselines3-zoo/
    !apt-get install swig cmake ffmpeg
    !pip install -r /content/rl-baselines3-zoo/requirements.txt

In [3]:
import os
from subprocess import Popen, PIPE

import numpy as np
import matplotlib.pyplot as plt
import random

import gym
from gym import spaces
from gym.spaces import Discrete, Box


from stable_baselines3 import DQN, PPO
from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.callbacks import EvalCallback, StopTrainingOnRewardThreshold
from stable_baselines3.common.env_util import make_vec_env

###Custom Environment de ta te tí

Se realiza la implementación de un Custom Environment para aprender a jugar Ta Te Tí.
El trabajo toma la estructura, y la función de renderizado (render) de https://github.com/francofgp/Tic-Tac-Toe-Gym

Sin embargo se ha modificado completamente las funciones __init__ y step. Además se ha programado un oponente con cierta inteligencia contra el que juega nuestro robot, de modo de conseguir una IA mejor.

En esta implementación, hemos probado con un action_space que se recalcula según el estado del juego (el número de acciones es variable según avanza la partida).

Tras 500.000 iteraciones, nuestro robot alcanza un reward que implica que está en una relación ganar/empatar de 65/35. Esto se chequea al final con el modelo terminado, aprovechando el dict info del environment.


In [4]:
class TicTacToe(gym.Env):
  """
  Ambiente personalizado que sigue la interfaz de gym.
  Es un entorno simple en el cuál el agente debe aprender ganarle a un adversario simple
  """
  metadata = {'render.modes': ['console']}

  def __init__(self, grid_size=10):
    super(TicTacToe, self).__init__()
    
    self.observation_space = Box(low=np.zeros(9), high=np.full((9, ), 3))
    self.state = [0,0,0,0,0,0,0,0,0]
    self.win_combs = [[0,1,2],[3,4,5],[6,7,8], #filas
                       [0,3,6],[1,4,7],[2,5,8], #cols
                       [0,4,8],[2,4,6]] #diags
  
  def step(self, action):
    reward = 0
    pos = 0
    zpos = 0
    info = {}
    #Un valor de action=3 implica poner una Cruz en el tercer lugar vacío (No en el 3er lugar de la grilla, sino el 3ero de los vacíos)
    #Esto se ha planteado así para poder aprovechar la función Discrete, teniendo en cuenta que el espacio de acciones varía step a step.
    for st in self.state: 
      if st == 0:
        if zpos == action:
          self.state[pos] = 1
        zpos += 1
      pos += 1  
    if self.check_win():
      reward += 1000
      done = True
      info['resultado'] = 'Victoria'
    elif self.check_draw():
      reward = reward -100
      done=True
      info['resultado'] = 'Empate'
    else:
      self.player2() #Función con IA del adversario
      if self.check_lose():
        reward -= 1000
        done = True
        info['resultado'] = 'Derrota'
      elif self.check_draw():
        reward = reward -100
        done=True
        info['resultado'] = 'Empate'
      else:
        done = False  
    
    return np.array([self.state]).astype(np.float32), reward, done, info
    


  def player2(self):
    '''Si puede tapar una línea del player 1 la tapa, luego si puede generar una línea la genera, si no, juega random '''
    p2_played = False
    if self.state.count(0) > 0:
      for comb in self.win_combs:
        for skip in [0,1,2]:
          if self.state[comb[skip]]==0 and self.state[comb[[X for X in [0,1,2] if X != skip][0]]]==1 and self.state[comb[[X for X in [0,1,2] if X != skip][1]]]==1:   
            self.state[comb[skip]]=2           
            p2_played = True
            break
        else:
          continue
        break
      
      if not p2_played:
        for comb in self.win_combs:
          for skip in [0,1,2]:
            if self.state[comb[skip]]==0 and self.state[comb[[X for X in [0,1,2] if X != skip][0]]]==2 and self.state[comb[[X for X in [0,1,2] if X != skip][1]]]==2:   
              self.state[comb[skip]]=2           
              p2_played = True
              break
          else:
            continue
          break
        
      if not p2_played:
        random_action = random.randint(0,self.state.count(0)-1)
        pos = 0
        zpos = 0
        for st in self.state:
          if st == 0:
            if zpos == random_action:
              self.state[pos] = 2
            zpos += 1
          pos += 1  
  
  def check_win(self):
    for comb in self.win_combs:
      if self.state[comb[0]]==1 and self.state[comb[1]]==1 and self.state[comb[2]]==1:
        return True
    return False

  def check_lose(self):
    for comb in self.win_combs:
      if self.state[comb[0]]==2 and self.state[comb[1]]==2 and self.state[comb[2]]==2:
        return True
    return False
    
  def check_draw(self):
    if self.state.count(0) > 0:
      return False
    else:
      return True
  
  def reset(self):
    self.state=[0,0,0,0,0,0,0,0,0]

    return np.array([self.state]).astype(np.float32)

  def render(self, mode='console'):
    if mode != 'console':
      raise NotImplementedError()
    # en nuestra interfaz de consola, representamos el agente como una cruz, y 
    # el resto como un punto
    draw = ["-", "X", "O"]
    drawing = [draw[st] for st in self.state]
    for i in range(0,9,3):
      if i==0:
        print(f"{drawing[i]} {drawing[i+1]} {drawing[i+2]} ")
      if i==3:
        print(f"{drawing[i]} {drawing[i+1]} {drawing[i+2]} ")
      if i==6:
        print(f"{drawing[i]} {drawing[i+1]} {drawing[i+2]} ")
  def close(self):
    pass

  @property
  def action_space(self):
    return Discrete(self.state.count(0))

In [5]:
env = TicTacToe()
env = make_vec_env(lambda: env, n_envs=1)
model = PPO('MlpPolicy', env, verbose=1).learn(250_000)



Using cpu device
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 3.94     |
|    ep_rew_mean     | -951     |
| time/              |          |
|    fps             | 1321     |
|    iterations      | 1        |
|    time_elapsed    | 1        |
|    total_timesteps | 2048     |
---------------------------------
------------------------------------------
| rollout/                |              |
|    ep_len_mean          | 4.12         |
|    ep_rew_mean          | -904         |
| time/                   |              |
|    fps                  | 1027         |
|    iterations           | 2            |
|    time_elapsed         | 3            |
|    total_timesteps      | 4096         |
| train/                  |              |
|    approx_kl            | 0.0030219764 |
|    clip_fraction        | 0.00205      |
|    clip_range           | 0.2          |
|    entropy_loss         | -2.2         |
|    explained_variance   | -0.000372    

In [7]:
model.save("TicTacToe")

### Resultados
Porcentaje de victorias y empates:

In [11]:
victorias = 0
empates = 0
derrotas = 0

obs = env.reset()
for i in range(1000):
    action, _states = model.predict(obs)
    obs, rewards, dones, info = env.step(action)
    if dones:
      if info[0]['resultado'] == 'Victoria':
        victorias += 1
      if info[0]['resultado'] == 'Empate':
        empates += 1
      if info[0]['resultado'] == 'Derrota':
        derrotas += 1
print('Victorias = ', victorias/(victorias+empates+derrotas))     
print('Empates = ', empates/(victorias+empates+derrotas))     
print('Derrotas = ', derrotas/(victorias+empates+derrotas))     
      

Victorias =  0.6585365853658537
Empates =  0.33658536585365856
Derrotas =  0.004878048780487805


Se imprime a continuación un ejemplo del robot jugando unas 20/25 partidas.
En cada step se observa al inicio la acción tomada por el robot (recordar que la acción señala la posición del lugar, sólo contando a los lugares vacíos de la grilla 3x3).

Luego se dibuja la grilla, en la que se marca con una X al robot, y con un O al adversario. En cada step se agregan los 2 movimientos.

Luego se marca, si en ese movimiento se ha terminado, el resultado de la partida para nuestro robot.



In [10]:
obs = env.reset()
for i in range(100):
    action, _states = model.predict(obs)
    print(action)
    obs, rewards, dones, info = env.step(action)
    env.render(mode='console')
    if dones:
      obs = env.reset()
      print(info[0]['resultado'], 'mediante action=', action)
      print("-*-*-*-*-*-*-*-*-*-*-*-*-")
    else:
      print("-------")

[0]
X O - 
- - - 
- - - 
-------
[0]
X O X 
O - - 
- - - 
-------
[0]
X O X 
O X - 
- - O 
-------
[1]
- - - 
- - - 
- - - 
Victoria mediante action= [1]
-*-*-*-*-*-*-*-*-*-*-*-*-
[0]
X - - 
- O - 
- - - 
-------
[1]
X O X 
- O - 
- - - 
-------
[0]
X O X 
X O - 
O - - 
-------
[0]
X O X 
X O X 
O - O 
-------
[0]
- - - 
- - - 
- - - 
Empate mediante action= [0]
-*-*-*-*-*-*-*-*-*-*-*-*-
[0]
X - O 
- - - 
- - - 
-------
[1]
X - O 
X - - 
O - - 
-------
[1]
X - O 
X X O 
O - - 
-------
[0]
X X O 
X X O 
O O - 
-------
[0]
- - - 
- - - 
- - - 
Victoria mediante action= [0]
-*-*-*-*-*-*-*-*-*-*-*-*-
[0]
X - - 
- O - 
- - - 
-------
[1]
X O X 
- O - 
- - - 
-------
[0]
X O X 
X O - 
O - - 
-------
[0]
X O X 
X O X 
O - O 
-------
[0]
- - - 
- - - 
- - - 
Empate mediante action= [0]
-*-*-*-*-*-*-*-*-*-*-*-*-
[0]
X - - 
- - - 
- - O 
-------
[1]
X O X 
- - - 
- - O 
-------
[0]
X O X 
X - - 
O - O 
-------
[0]
X O X 
X X O 
O - O 
-------
[0]
- - - 
- - - 
- - - 
Empate mediante action= [0]
