# Replay de la experiencia (memoria)

El guardar la experiencia en memoria nos permite reusar la experiencia pasada del agente. Actualizar redes neuronales, especialmente con tasas de aprendizaje bajas, require de muchos pasos de retropropagacion y optimizacion para converger. Reusar la experiencia pasada ayuda a llegar a la convergencia de los Q-valores.

In [1]:
class Memoria(object):
    '''
    Implementacion de un buffer ciclico basado en la memoria de la experiencia
    '''
    def __init__(self, capacidad=int(1e6)):
        """
        capacidad: Max numero de experiencias
        """
        self.capacidad=capacidad
        self.mem_idx=0  # Indice de la experiencia actual
        self.memoria=[]

        
    def guarda(self, experiencia):
        '''
        experiencia: el objeto a ser guardado en memoria
        '''
        if self.mem_idx<self.capacidad:
            # Extiende la memoria y crea un espacio
            self.memoria.append(None)
        self.memoria[self.mem_idx%self.capacidad]=experiencia
        self.mem_idx+=1

        
    def muestra(self, batch_size):
        '''
        batch_size:  tamaño de la muestra
        '''
        assert batch_size<=len(self.memoria), 'El tamaño de la muestra esta disponible en memoria.'
        
        # se devuelve una lista de experiencias con muestreo aleatorio
        return random.sample(self.memoria, batch_size)

    
    def tamaño_muestra(self):
        return len(self.memoria) # numero de experiencias guardadas en memoria