<a href="https://colab.research.google.com/github/Jazielinho/aprendizaje_refuerzo/blob/main/Cap_1_Introduccion_aprendizaje_refuerzo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1.1 Contexto

##Inteligencia Artificial
Es una disciplina que se ocupa de crear programas informáticos que muestren una "inteligencia" similar a la humana.

##Machine Learning
*Aprendizaje automático*. Subcampo de la inteligencia artificial que proporciona a los computadores la capacidad de aprender sin ser explícitamente programados, es decir, sin que estos necesiten que el programador indique las reglas que deben seguir para lograr su tarea, sino que la hacen automáticamente.

###Aprendizaje Supervisado
Los datos que usamos para el entrenamiento incluyen la solución deseada, llamada etiqueta (**label**). En este caso el aprendizaje radica en aprender un modelo (o función) que mapea una entrada a una salida. El modelo, una vez entrenado, predecirá las etiquetas para datos de entrada no vistos anteriormente.

###Aprendizaje no Supervisado
Los datos de entrenamiento no incluyen las etiquetas, y es el algoritmo el que intentará clasificar la información por sí mismo.

###Aprendizaje por refuerzo
El modelo se implementa en forma de un agente que deberá explorar un espacio desconocido y determinar las acciones a llevar a cabo mediante "prueba y error". Aprenderá por sí mismo gracias a las recompensas y penalizaciones que obtiene de sus acciones. El agente debe actuar y crear la mejor estrategia posible para obtener la mayor recompensa en tiempo y forma.

###Deep Learning
*Aprendizaje profundo*. Se basan en redes neuronales artificiales, cuyas estructuras algorítmicas permiten que modelos compuestos por múltiples capas de procesamiento aprendan representaciones de datos con varios niveles de abstracción.

![](https://miro.medium.com/max/1400/1*YIETknPBlQQBF40DJxL8QA.png)

###Aprendizaje por refuerzo profundo
Se adoptan soluciones que resultan de la utilización simultánea de técnicas de aprendizaje por refuerzo (Reinforcement Learning) y técnicas de aprendizaje profundo (Deep Learning).

#1.2 Aprendizaje por Refuerzo

##Aprender interactuando
*Aprendizaje dirigido* a objetivos a partir de la interacción. A la entidad que aprende no se le dice qué acciones realizar, sino que debe descubrir por sí misma — mediante "prueba y error" — qué acciones producen la mayor *recompensa*. Objetivo: maximizar la *recompensa*.

Estas acciones afectan la recompensa inmediata y futura ("recompensas retrasadas"). Las acciones actuales determinarán situaciones futuras (como ocurre en la vida real). 

Dos características distintivas del aprendizaje por refuerzo: búsqueda por "prueba y error" y recompensa retrasada (delayed *reward* en inglés)


##Piezas básicas del Aprendizaje por Refuerzo

###Agente y Entorno

####Agente
*agent* representa la "solución". Su única opción es tomar decisiones (realizar acciones), para resolver problemas de toma de decisiones bajo incertidumbre.

####Entorno
*enviroment* representación de un "problema", todo lo que viene después de la decisión del agente. El entorno responde con la consecuencia de las acciones, observables o estados, y recompensa.

Estos dos componentes interactúan continuamente, el agente intenta influir en el entorno y el entorno reacciona a las acciones del agente. La reacción del agente tiene dos situaciones:

* El agente conoce el modelo del entorno. Aprendizaje por refuerzo basado en modelo, o *model-based*. Solución: programación dinámica.

* El agente no conoce el modelo del entorno, debe tomar decisiones con información incompleta. El agente puede intentar aprender el modelo como parte del algoritmo. Aprendizaje por refuerzo sin modelo, o *model-free*.

###Estado
El entorno está representado por un espacio de estados, que es un conjunto de variables relacionadas con el problema. Un estado (state) es una instancia del espacio de estados, un conjunto de valores que toman las variables.

###Acción y función de transición
En cada estado, el entorno pone a disposición un *conjunto de acciones*, el agente elegirá una *acción*. El agente afecta en el entorno y el entorno puede cambiar de estado en respuesta.

Función responsable del mapeo: *función de transición* (transition function) o probabilidades de transición (transition probabilities).

Model-free: el agente debe estimar esta función de transición.

###Recompensa
Por cada acción del agente el entorno proporciona señal de *recompensa*. La función responsable de el mapeo de cada acción recompensa se llama *función de recompensa* (reward function).

El objetivo del agente es maximizar la recompensa.

La función de recompensa es una de las partes más complejas en la modelización de un problema.

###Ciclo de aprendizaje por refuerzo

![](https://miro.medium.com/max/1400/1*M98RSO-cjMXTB4Ua5ixWwA.png)

1. El agente *observa el entorno* a partir del estado y la recompensa de su acción anterior.
2. El agente usa el estado y recompensa para *decidir* la siguiente acción.
3. El agente realiza una *acción* sobre el entorno en un intento de controlarlo de manera favorable para él.
4. el entorno *reacciona* a la acción y su estado interno cambia como consecuencia de la acción del agente.

Se repite el bucle.

*time step*, o ciclo: marca una interacción entre el agente y el entorno en el tiempo. Llamado también *iteración*. En cada time step se realiza el bucle.

*experiencia*: conjunto del estado, acción recompensa y el nuevo estado en cada *time step*.

###Episodio
La tarea que el agente está tratando de resolver pueden tener un final natural (*tareas episódicas*, ejemplo, ajedrez) o no (*tareas continuas*, ejemplo, robot aprendiendo a mover). 
* episodio: secuencia de time steps desde el principio hasta el final de una tarea episódica
* trayectoria: cuando consideramos una parte de su "episodio infinito" (tarea continua).

###Retorno
*return*, suma de las recompensas recolectadas en un solo *episodio*. Esta medida es la que guía en el aprendizaje de los agentes.

* recompensa retrasada (delayed reward): la recompensa se revela al final de un episodio. Ejemplo, 3 en raya.

###Exploración versus explotación
un agente tiene que *explotar* (repetir acciones del pasado) para obtener la mayor recompensa posible pero, al mismo tiempo, también tiene que *explorar* (probar nuevas acciones) para poder descubrir de mejores acciones en el futuro (dilema *exploración-explotación*)

![](https://raw.githubusercontent.com/Jazielinho/aprendizaje_refuerzo/main/cap_1_imagen.png)

#1.3 Modelización de un problema

##Frozen-Lake
El entorno simula una pista de patinaje sobre hielo. Está dividida en 16 celdas (4x4), en algunas de estas celdas se ha roto el hielo.

![](https://miro.medium.com/max/1400/1*iTc5J7JcoZq-Y_In8LiuYw.png)

* El patinador (*agente*) empieza a patinar en la posición superior izquierda.
* Su objetivo es llegar a la posición inferior izquierda.
* Si el agente se cae en uno de los agujeros, el *episodio* termina. La *recompensa* es 0.
* Si el agente llega a la celda de destino, la *recompensa* es +1 (termina el *episodio*)
* La cuadrícula es 4x4, el *espacio de estados* es 16 (del 0 al 15).
* *espacio de acciones*: 4 posibles movimientos: izquierda (left), abajo (down), derecha (right) y arriba (up).
* Si el agente intenta salir de la cuadrícula, rebotará en la valla transparente y volverá a quedarse en la misma celda.


![](https://miro.medium.com/max/1400/1*NmDW_vfs8chXxXAoYc5jRw.png)

##Programación del entorno

Librería usada `gym`



In [None]:
import gym

In [None]:
'''Usaremos el entorno Frozen-Lake'''

# is_slippery=False indica que el entorno no es resbaladizo
entorno = gym.make('FrozenLake-v0', is_slippery=False)

'''Establecemos el estado inicial'''
entorno.reset()

0

In [None]:
'''Para ver una vista del estado del juego'''
entorno.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


* S (start): celdra de inicio.
* F (frozen): celda congelada.
* H (hole): celda con agujero.
* G (goal): celda objetivo.

###Programación del agente

Programación del agente torpe

In [None]:
# Entorno no resbaladizo
entorno = gym.make('FrozenLake-v0', is_slippery=False)
entorno.reset()

esta_terminado = False
ciclo = 0

# Creamos un bucle para decidir la acción del agente
while not esta_terminado:
  # Devuelve una acción aleatoria del espacio de acciones posibles
  accion = entorno.action_space.sample()
  # El método step devuelve 4 argumentos:
  estado, recompensa, esta_terminado, _ = entorno.step(accion)
  # Observando los movimientos
  entorno.render()
  ciclo += 1

print(f'Ultimo estado: {estado}')
print(f'Recompensa: {recompensa}')
print(f'Número de ciclos: {ciclo}')

  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
Ultimo estado: 5
Recompensa: 0.0
Número de ciclos: 2


El objetivo es que nuestro agente pueda alcanzar el destino.

###La clase Agent (Agente)

Creamos una clase Agente, el cual tiene el método `selecciona_accion` para decidir qué acción va a realizar:

In [None]:
class Agente:
  def __init__(self):
    self.entorno_interno = gym.make('FrozenLake-v0', is_slippery=False)
  
  def selecciona_accion(self):
    # Decide de manera aleatoria la acción
    return self.entorno_interno.action_space.sample()

Probando el resultado de nuestro agente torpe:

In [None]:
# Entorno no resbaladizo
entorno = gym.make('FrozenLake-v0', is_slippery=False)
entorno.reset()

esta_terminado = False
ciclo = 0

# Agente torpre
agente = Agente()

# Creamos un bucle para decidir la acción del agente
while not esta_terminado:
  # El agente genera la accion
  accion = agente.selecciona_accion()
  estado, recompensa, esta_terminado, _ = entorno.step(accion)
  # Observando los movimientos
  entorno.render()
  ciclo += 1

print(f'Ultimo estado: {estado}')
print(f'Recompensa: {recompensa}')
print(f'Número de ciclos: {ciclo}')

  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
Ultimo estado: 5
Recompensa: 0.0
Número de ciclos: 5


Ejecutando varias veces para estimar el porcentaje de éxito para el Agente torpe(aleatorio)

In [None]:
def test(agente, entorno_test):
  # Reiniciamos el entorno
  entorno_test.reset()
  esta_terminado = False
  ciclo = 0

  while not esta_terminado:
    # El agente genera la accion aleatoria
    accion = agente.selecciona_accion()
    # El método step devuelve 4 argumentos:
    estado, recompensa, esta_terminado, _ = entorno.step(accion)
    ciclo += 1
  
  return estado, recompensa, esta_terminado

In [None]:
# Creamos al agente
agente = Agente()

# Creamos el entorno
entorno = gym.make('FrozenLake-v0', is_slippery=False)

In [None]:
# Iteramos mil veces y calculamos el porcentaje de éxito del Agente
import tqdm # Para visualizar las iteraciones

resuelto = 0

for episodio in tqdm.tqdm(range(1000)):
  estado, recompensa, esta_terminado = test(agente, entorno)
  if estado == 15:
    resuelto += 1

100%|██████████| 1000/1000 [00:00<00:00, 7733.22it/s]


In [None]:
print(f"Resuelto {resuelto} veces, porcentaje: {resuelto / 10}%")

Resuelto 10 veces, porcentaje: 1.0%


#1.4 En qué se diferencia al aprendizaje

* Aprendizaje por refuerzo vs aprendizaje supervisado: El aprendizaje supervisado necesita datos etiquetados, el aprendizaje por refuerzo interactua con un entorno y recibirá una recompensa del cuál aprenderá.

* Aprendizaje por refuerzo vs aprendizaje no supervisado: En el aprendizaje no supervisado el modelo aprende de la estructura oculta de los datos, en el aprendizaje por refuerzo, el modelo aprende de las recompensas que intenta maximizar.