# Herramientas para creacion de agente DQL con red convolucional

Vamos a crear algunas herramientas para un agente con una red neuronal convolucional que sea capaz de reconocer imagenes como datos de entrada. Entrenaremos al agente con juegos de Atari, por lo que tambien crearemos las herramientas del entorno.

Recordemos primero el decay.

In [1]:
class DecayLineal(object):
    def __init__(self, valor_ini, valor_final, pasos_max):
        assert valor_ini>valor_final, 'valor inicial > valor final'
        self.valor_ini=valor_ini
        self.valor_final=valor_final
        self.decay=(valor_ini-valor_final)/pasos_max

    def __call__(self, num_pasos):
        valor_actual=self.valor_ini-self.decay*num_pasos
        if valor_actual<self.valor_final:
            valor_actual=self.valor_final
        return valor_actual

Seguiremos implementando la red convolucional con Torch de 3 capas.

In [2]:
import torch

In [3]:
class CNN(torch.nn.Module):
    
    def __init__(self, dim_entrada, dim_salida, device='cpu'): # device=cpu o cuda
        
        super(CNN, self).__init__()
        
        self.device=device
        
        self.capa1=torch.nn.Sequential(
                    torch.nn.Conv2d(dim_entrad[0],
                                    64,
                                    kernel_size=4,
                                    stride=2,
                                    padding=1),
                    torch.nn.ReLU())
        
        
        self.capa2=torch.nn.Sequential(
                    torch.nn.Conv2d(64,
                                    32,
                                    kernel_size=4,
                                    stride=2,
                                    padding=0),
                    torch.nn.ReLU())
        
        
        self.capa3=torch.nn.Sequential(
                    torch.nn.Conv2d(32,
                                    32,
                                    kernel_size=3,
                                    stride=2,
                                    padding=0),
                    torch.nn.ReLU())
        
        self.salida=torch.nn.Linear(18*18*32, dim_salida)
        
       
    
    
    def forward(self, x):
        
        x=torch.from_numpy(x).float().to(self.device)
        x=self.capa1(x)
        x=self.capa2(x)
        x=self.capa3(x)
        x=x.view(x.shape[0], -1)
        x=self.salida(x)
        return x

Podriamos añadir mas capas a la red.

Ahora que hemos creado la red convolucional, vamos a crear un controlador de hiperparametros a traves de un JSON, siendo de esta manera mas facil manejar la red.

In [4]:
import json

In [5]:
class ParamControl(object):
    
    def __init__(self, archivo): # archivo json, path
        
        self.params=json.load(open(archivo, 'r'))
        
        
    def parametros(self):
        return self.params
    
    
    def param_entorno(self):
        return self.params['env']
      
        
    def param_agente(self):
        return self.params['agent']
    
    
    def actualiza_param_agente(self, **kwargs):
        for k,v in kwargs.items():
            if k in self.params.keys():
                self.params['agent'][k]=v
            
            
    def exporta_param_entorno(self, archivo):
        with open(archivo, 'w') as f:
            json.dump(self.params['env'], f, indent=4, separators=(',',': '), sort_keys=True)
            f.write('\n')

            
    def exporta_param_agente(self, archivo):
        with open(archivo, 'w') as f:
            json.dump(self.params['agent'], f, indent=4, separators=(',', ': '), sort_keys=True)
            f.write('\n')

Ahora implementaremos un perceptron de una capa.

In [6]:
class Perceptron(torch.nn.Module):

    def __init__(self, dim_entrada, dim_salida, device=torch.device('cpu')):

        super(Perceptron, self).__init__()
        self.device=device
        self.dim_entrada=dim_entrada[0]
        self.dim_oculta=40
        self.linear=torch.nn.Linear(self.dim_entrada, self.dim_oculta)
        self.salida=torch.nn.Linear(self.dim_oculta, dim_salida)

    def forward(self, x):
        x=torch.from_numpy(x).float().to(self.device)
        x=torch.nn.functional.relu(self.linear(x))
        x=self.salida(x)
        return x

Replay de la experiencia.

In [7]:
from collections import namedtuple

Experiencia=namedtuple('Experiencia', ['obs', 'action', 'reward', 'next_obs', 'done'])

In [8]:
class Memoria(object):
    '''
    Implementacion de un buffer ciclico basado en la memoria de la experiencia
    '''
    def __init__(self, capacidad=int(1e6)):
        """
        capacidad: Max numero de experiencias
        """
        self.capacidad=capacidad
        self.mem_idx=0  # Indice de la experiencia actual
        self.memoria=[]

        
    def guarda(self, experiencia):
        '''
        experiencia: el objeto a ser guardado en memoria
        '''
        if self.mem_idx<self.capacidad:
            # Extiende la memoria y crea un espacio
            self.memoria.append(None)
        self.memoria[self.mem_idx%self.capacidad]=experiencia
        self.mem_idx+=1

        
    def muestra(self, batch_size):
        '''
        batch_size:  tamaño de la muestra
        '''
        assert batch_size<=len(self.memoria), 'El tamaño de la muestra esta disponible en memoria.'
        
        # se devuelve una lista de experiencias con muestreo aleatorio
        return random.sample(self.memoria, batch_size)

    
    def tamaño_muestra(self):
        return len(self.memoria) # numero de experiencias guardadas en memoria

Inicializa los pesos con el metodo Xavier. (Xavier Glorot, Yoshua Bengio, "Understanding the
difficulty of training deep feedforward neural networks").                      

In [9]:
def xavier(m):
    if isinstance(m, torch.nn.Conv2d) or isinstance(m, torch.nn.Linear):
        torch.nn.init.xavier_normal_(m.weight)