# Aprendizaje Reforzado

### Agenda  

1. ¿Qué es el Reinforcement Learning?
    + Diferencias con los clasicos
    + Componentes  
2. Casos de Uso  
    + Videojuegos
3. Cómo funciona el RL?
    + Premios y castigos
    + Fuerza bruta
4. Q-Learnign 
    + Ecuación de Bellman
    + Explorar vs Explotar
5. El juego del Pong en python
    + Clase Agente
    + Clase Entorno
    + El Juego
    + La tabla de Políticas
6. Conclusiones
    + Recursos

### ¿Qué es el Aprendizaje por Refuerzo?  

Es un aprendizaje de maquina en el que se basa en un esquema de "premios y castigos" en un <b>entorno</b> donde hay que tomar acciones y que está afectado por múltiples variables que cambian con el tiempo

#### Diferencias

Los modelos anteriores de aprendizaje supervisado y no supervisado, su forma de aprendizaje es crear un modelo que minimise el error obtenido y corregirlos de forma recursiva. Por otro lado el aprendizaje reforzado <b>Maximiza la recompenza</b>. Por lo que cambia la forma de aprendizaje, siendo más parecido a la forma en la que nosotros aprendemos, a base de cumplir objetivos.

#### Componentes de Aprendizaje Reforzado 
+ <b>Agente:</b> Modelo de entranamiento que aprenderá a tomar desiciones
+ <b>Ambiente:</b> Será el entorno en donde interactúa el agente  
##### Relación entre el Agente y el Entorno
+ <b>Acción:</b> Posibles acciones que puede tomar el agente en base a lo que perciba del entorno
+ <b>Estado:</b> La percepción que transmite el entorno de los elementos que lo componen, en cada segundo
+ <b>Recompensas y Castigos:</b> Depende de la acción tomada por el Agente, y puede dar resultados positivos (+1) o negativos (-1) siendo estos premios ó penalizaciones respectivamente.  

La relación que tienen el Agente y el Ambiente quedaría de la siguiente manera:  
<br>
<img src="RL1.png">

### Casos de Uso



<ol>
    <li><b>Brazos Mecanicos:</b></li> En vez de darles instrucciones paso a paso, se realiza RL e ir recompensandolo para guiarlo a las metas que queremos que consiga
    <br><br>
    <li><b>Industrial / Mercado:</b></li> Se puede hacer que el Agente interactué en situaciones industriales y financieras del mundo real, dando mantenimiento a maquinas o decidir entre una cartera de inversiones
    <br><br>
    <li><b>Web Personalizada:</b></li> Todos los usuarios tienen gustos diferentes y sería completamente imposible crear un algoritmo que le dé a cada usuario referencias de busqueda en base a lo que cada quien le interesa en ese momento especifico, por que RL abre las puertas para personalizar la experiencia de cada persona que navege por la web 
</ol>

### Q-Learning

<h4> Elementos </h4>

<ul>
    <li><b>Politicas:</b></li> Una tabla de indicaciones para decirle al modelo como actuar en cada estado.
    <li><b>Acciones:</b></li> Elecciones que puede tomar el agente dependiendo del estado del entorno.
    <li><b>Recompensas:</b></li> Suma y resta de puntajes dados por el entorno al agente.
    <li><b>Comportamiento</b></li> Supervisar si sus acciones se quedan estancadas en grandes recompenzas sin completar el objetivo o seguirá explorando otros objetivos a largo plazo.
    <li><b>Q(Estado / Acción):</b></li> nos indicará el valor de la política para un estado y una cción determinados.
</ul>



### Ecuación Bellman

<center>
<img src="Bellman.png">
</center>

$Q(s,a) = Q(s,a) + a[R+((\gamma)maxQ(s',))-Q(s,a)]$  


### ¡A Jugar al Ping Pong! :3

<b>Agente:</b>
+ Nombre: Player 1
+ Acciones:
    + moverse arriba
    + moverse abajo

<b>Reglas del juego:</b>
+ El agente tiene 3 vidas.
+ si pierde le resta 10 puntos
+ cada vez que le demos la bola, gana 10 puntos
+ Limite de juego: 3000 iteraciones o 1000 puntos

##### <b> Igualaciones de la ecuación a variables dentro del Agente </b>

+ $Q(s,a)$ = Valor Actual => actualValue
+ $a$ = Ratio de Aprendizaje => LearningRatio
+ $R$ = Recompenza => rewardAction
+ $\gamma$ = Tasa de descuento => descontador
+ $maxQ(s',)$ = Valor optimo Esperado => idxAction (?)

In [None]:
#Importamos Liberías
import numpy as np
import matplotlib.pyplot as plt
from random import randint
from time import sleep
from IPython.display import clear_output
from math import ceil,floor

In [1]:
#Clase Agente
class PongAgent:
    def __init__(self, game, policy=None, descontador = 0.1, learningRatio = 0.1, ratioExplot = 0.9):

        # Creamos la tabla de politicas
        if policy is not None:
            self._q_table=policy
        else:
            position = list(game.posicionSpace.shape) 
            # Transifere las dimensiones del entorno para que el Agente empiece a percibir
            # donde se encuentra
            position.append(len(game.actionSpace))
            # agrega cuantas acciones tiene el entorno
            self._q_table = np.zeros(position)
            # Crea un array de zeros con respecto a lo que se obtuvo anteriormente
            # Tabla de politicas -> Creada/Inicializada
        #############################################

        self.descontador = descontador
        self.learingRatio = learningRatio
        self.RatioExplot = ratioExplot

    def getNextStep(self, state, game):

        # Damos un paso aleatorio...
        nextStep = np.random.choice(list(game.actionSpace))
        # Obtiene una lista de acciones sobre el entorno
        # De esta lista se selecciona una acción de forma aleatoria
        #------------------------------------------------------------#
        # o tomaremos el mejor paso...
        if np.random.uniform() <= self.RatioExplot:
            # Se selecciona de forma aleatoria un valor de entre 0 y 1
            # siendo este valor <= al radio de explotación del agente
            #---------------------------------------------------------#
            # tomar el maximo
            idxAction = np.random.choice(np.flatnonzero(
                self._q_table[state[0],state[1],state[2]] == self._q_table[state[0],state[1],state[2]].max()  
            ))
            # Busca entre todos los elementos de la tabla de politicas, numeros != 0 y 
            # los remplaza unicamente por los valores maximos de su propia tabla de politicas
            #-----------------------------------------------------------------------------------------------#
            nextStep = list(game.actionSpace)[idxAction]
            # El siguiente paso es igualado a una lista de acciones del entorno
            # y el valor maximo de la tabla de politicas

        return nextStep
    
    # actualizamos las politicas con las recompensas obtenidas
    def update(self, game, oldState, actionTaken, rewardAction, newState, reachedEnd):
        idxAction = list(game.actionSpace).index(actionTaken)
        # la acción es igualada a las posibles acciones y la acción tomada con anterioridad

        actualValueOpt = self._q_table[oldState[0],oldState[1],oldState[2]]
        # El valor opcional actual toma un estado de la tabla de politicas 
        # en funcion de un estado anterior
        actualValue = actualValueOpt[idxAction]
        # Guarda el valor actual directamente de la tabla de estados anterior 
        # para obtener la acción tomada del estado anterior
        futureValueOpt = self._q_table[newState[0],newState[1],newState[2]]
        # Consigue valores actualizados de la tabla de politicas con estados nuevos
        futureMaxValue = rewardAction + self.discountFactor * futureValueOpt.max()
        # Obtiene un posible valor en función a la recompenza obtenida
        if reachedEnd:
            futureMaxValue = rewardAction
            # Si llega al final obtiene directamente la recompenza
        
        self._q_table[oldState[0], oldState[1], oldState[2], idxAction] = actualValue + \
        self.learningRate * (futureMaxValue - actualValue)

        # Actualiza la tabla de politicas
    
    def printPolicy(self):
        for row in np.round(self._q_table,1):
            for column in row:
                print('[', end='')
                for value in column:
                    print(str(value).zfill(5), end='')
                print('] ',end='')
            print('')

    def getPolicy(self):
        return self._q_table
   

In [None]:
#Clase Entorno
class PongEnvironment:
    def __init__(self, maxLife=3,heightPx=40,widthPx=50,movimientoPx=3):
        self.actionSpace=['Arriba','Abajo']
        self.stepPenalization=0
        self.state=[0,0,0]
        self.totalReward=0
        self.dx=movimientoPx
        self.dy=movimientoPx
        
        filas = ceil(heightPx/movimientoPx)
        columnas = ceil(widthPx/movimientoPx)

        self.positionSpace = np.array([[[0 for z in range(columnas)]
                                                for y in range(filas)]
                                                    for x in range(filas)])
        self.lives=maxLife
        self.maxLife=maxLife
        self.x=randint(int(widthPx/2),widthPx)
        self.y=randint(0,heightPx-10)
        self.playerAlto = int(heightPx/4)
        self.player1 = self.playerAlto # posición inicial del jugador
        self.score = 0
        self.widthPx=widthPx
        self.heightPx=heightPx
        self.radio=2.5
    
    def reset(self):
        self.totalReward=0
        self.state=[0,0,0]
        self.lives=self.maxLife
        self.score=0
        self.x=randint(int(self.widthPx/2),self.widthPx)
        self.y=randint(0,self.heightPx-10)

        return self.state
    
    def step(self,action,animate=False):
        self.applyAction(action,animate)
        done=self.lives<=0 #Final
        reward = self.score
        reward += self.stepPenalization
        self.totalReward+=reward
        return self.state,reward,done
    
    def applyAction(self,action,animate=False):
        if action == 'Arriba':
            self.player1 += abs(self.dy)
        elif action == 'Abajo':
            self.player1 -= abs(self.dy)
        
        self.avanzaPlayer()
        
    def avanzaPlayer(self):    
        if self.player1 + self.playerAlto >= self.heightPx:
            self.player1 = self.heightPx - self.playerAlto
        elif self.player1 <= -abs(self.dy):
            self.player1 = -abs(self.dy)
    
    def avanzaFrame(self):
        self.x+=self.dx
        self.y+=self.dy
        if self.x <= 3 or self.x > self.widthPx:
            self.dx = -self.dx
            if self.x <= 3:
                ret = self.detectaColision(self.y,self.player1)

                if ret:
                    self.score = 10
                else:
                    self.score = -10
                    self.lives -= 1
                    if self.lives > 0:
                        self.x = randint(int(self.widthPx/2),self.widthPx)
                        self.y = randint(0, self.heightPx-10)
                        self.dx = abs(self.dx)
                        self.dy = abs(self.dy)
        else:
            self.score=0
        
        if self.y < 0 or self.y > self.heightPx:
            self.dy = -self.dy
    
    def dibujarFrame(self):
        fig = plt.figure(figsize=(5,4))
        a1 = plt.gca()
        circle = plt.Circle((self.x,self.y),self.radio,fc='slategray',ec='black')
        a1.set_ylim(-5,self.heightPx+5)
        a1.set_xlim(-5,self.widthPx+5)
                
        rectangle = plt.Rectangle((-5,self.player1),5,self.playerAlto,fc='gold',ec='none')
        a1.add_patch(circle)
        a1.add_patch(rectangle)
        a1.set_yticklabels([])
        a1.set_xticklabels([])
        plt.text(4,self.heightPx,"SCORE:"+str(self.totalReward)+" LIFE:"+str(self.lives),fontsize=12)
        if self.lives <= 0:
            plt.text(10,self.heightPx-14, "GAME OVER", fontsize=16)
        elif self.totalReward >= 1000:
            plt.text(10,self.heightPx-14, "YOU WIN", fontsize=16)
        return fig


In [None]:
# Cargando el Juego
def play(rounds = 5000, maxLife = 3, discountFactor = 0.1, learningRatio=0.1,
         ratioExplot = 0.9, learner= None, game=None, animate = False):
    if game is None:
        game = PongEnvironment(maxLife=maxLife,movimientoPx=3)
    if learner is None:
        print("Begin New Train!")
        learner = PongAgent(game, discountFactor = discountFactor, learningRatio = learningRatio, ratioExplot=ratioExplot)
    