[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ManuelEspejo/Machine-Learning-Bases/blob/main/notebooks/03_Aprendizaje-Por-Refuerzo.ipynb) üëàüèª‚Äã **Pulsar para abrir en Colab‚Äã**

# ¬øC√≥mo usar estos notebooks?

Si este es el primer notebook que abres en este repositorio, te recomiendo que antes leas el [Manual de uso de estos notebooks](https://github.com/ManuelEspejo/Machine-Learning-Bases/blob/main/docs/manual-notebooks.md) que he creado para que te familiarices con el proyecto y las distintas rutas que puedes seguir, luego puedes volver aqu√≠ y continuar.

En este notebook, vamos a profundizar en el aprendizaje por refuerzo.

Por otra parte, si a√∫n no has revisado el notebook "[00_Empieza-aqu√≠.ipynb](https://github.com/ManuelEspejo/Machine-Learning-Bases/blob/main/notebooks/00_Empieza-aqu√≠.ipynb)", te sugiero que le eches un vistazo primero para conocer los conceptos b√°sicos. Pero si ya tienes una idea clara de qu√© es el aprendizaje no supervisado y quieres verlo en acci√≥n, ¬°est√°s en el lugar correcto!

# 03. Aprendizaje por Refuerzo

El Aprendizaje por Refuerzo (Reinforcement Learning, RL) es un tipo de Machine Learning donde el modelo (llamado **agente**) aprende a trav√©s de la experiencia en un entorno, intentando maximizar una recompensa acumulada a lo largo del tiempo.

## ¬øPor qu√© es importante?

El RL es fundamental en la inteligencia artificial moderna porque nos permite resolver problemas en los que las decisiones se deben tomar secuencialmente y las consecuencias de una acci√≥n afectan el futuro. Algunos de los avances m√°s emocionantes en IA han sido gracias al aprendizaje por refuerzo:

- **Inteligencias artificiales campeonas en juegos:** Desde el m√≠tico [AlphaGo](https://en.wikipedia.org/wiki/AlphaGo) que venci√≥ a los mejores jugadores de Go, hasta bots que dominan videojuegos como [Dota 2](https://arxiv.org/abs/1912.06680) o [StarCraft](https://deepmind.google/discover/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning/).
- **Rob√≥tica avanzada:** Robots que aprenden a caminar, volar o ensamblar piezas en f√°bricas sin un manual de instrucciones.
- **Toma de decisiones aut√≥noma:** Algoritmos que optimizan inversiones, rutas de transporte o sistemas energ√©ticos en tiempo real.
- **Ciencia y descubrimiento:** Sistemas que dise√±an medicamentos, exploran galaxias o incluso controlan experimentos cient√≠ficos.

En esencia, el RL se utiliza cuando necesitamos que una m√°quina aprende a actuar en un entorno complejo y din√°mico, en el que no hay una soluci√≥n clara de antemano.

## ¬øQu√© vamos a ver?

En este notebook, vamos a explorar el aprendizaje por refuerzo desde sus fundamentos hasta su implementaci√≥n pr√°ctica. El objetivo es que puedas comprender no solo c√≥mo funciona, sino tambi√©n por qu√© es tan poderoso.

Al final de este notebook, entender√°s:

- **Los fundamentos del RL**, incluyendo conceptos clave como agente, entorno, recompensa y pol√≠tica.
- **C√≥mo funciona un agente RL**, su interacci√≥n con el entorno y c√≥mo aprende para maximizar una recompensa acumulada.
- **C√≥mo implementar un modelo RL desde cero**, aplic√°ndolo al cl√°sico problema de [CartPole](https://www.gymlibrary.dev/environments/classic_control/cart_pole/).
- **C√≥mo aplicar RL a diferentes disciplinas**, como negocios, videojuegos, rob√≥tica y m√°s.

**¬øListo para empezar a explorar el fascinante mundo del aprendizaje por refuerzo?**

**¬°Empecemos!üöÄ**

# √çndice de Contenidos

```{table} √çndice
1. Fundamentos del Aprendizaje por Refuerzo
   1.1. Componentes clave del RL  
      1.1.1. Agente, entorno y recompensa  
      1.1.2. Pol√≠tica, funci√≥n de valor y funci√≥n Q  
   1.2. Exploraci√≥n vs. explotaci√≥n: el equilibrio perfecto  
2. Tabular Q-Learning: Un primer paso pr√°ctico
   2.1. Descripci√≥n del problema: un agente en una cuadr√≠cula  
   2.2. Configuraci√≥n del entorno  
   2.3. Implementaci√≥n del algoritmo Tabular Q-Learning  
      2.3.1. Inicializaci√≥n de la tabla Q  
      2.3.2. Actualizaci√≥n de valores Q  
   2.4. Visualizaci√≥n del aprendizaje del agente  
   2.5. Reto pr√°ctico: Ajustando par√°metros y exploraci√≥n  
3. OpenAI Gym y el problema de CartPole
   3.1. Introducci√≥n a OpenAI Gym  
   3.2. Configuraci√≥n del entorno CartPole  
   3.3. Implementaci√≥n de Q-Learning en CartPole  
      3.3.1. Entrenamiento del agente  
      3.3.2. Visualizaci√≥n del progreso del agente  
   3.4. An√°lisis de resultados y reflexiones  
4. Casos de Uso y Reflexi√≥n Final
   4.1. Aplicaciones reales del RL  
      4.1.1. Negocios y marketing  
      4.1.2. Rob√≥tica  
      4.1.3. Videojuegos  
   4.2. Reflexi√≥n sobre las limitaciones y futuro del RL  
   4.3. Conclusi√≥n y pr√≥ximos pasos
```


## 1.1. Componentes clave del RL

En este apartado, vamos a desglosar los componentes clave del RL para entender bien c√≥mo podemos aplicarlos a nuestros problemas.

### 1.1.1. Agente, entorno y recompensa

En el coraz√≥n del RL, tenemos tres actores principales:

#### üßë‚ÄçüöÄ Agente

El agente es el protagonista de nuestra historia. Es la entidad que toma decisiones, explora el mundo y aprende de sus errores. En un videojuego, el agente ser√≠a tu personaje controlado. En un robot, el agente ser√≠a el sistema que decide c√≥mo moverse.

- **Pregunta clave que se hace el agente**: ¬øQu√© acci√≥n debo tomar ahora?

#### üåç Entorno

El entorno es el mundo donde el agente vive y act√∫a. Define las reglas del juego y las consecuencias de cada acci√≥n. Es como el tablero de un juego de mesa: puede ser un simple tablero 2D o un mundo complejo como el universo de Minecraft.

- **Pregunta clave que se hace el agente**: ¬øC√≥mo responde el mundo a mis acciones?

#### üèÜ Recompensa

La recompensa es el "premio" que el agente obtiene despu√©s de tomar una acci√≥n en el entorno. Es lo que lo motiva a actuar de cierta manera. En un videojuego, la recompensa podr√≠a ser un punto extra por recoger una moneda. En un agente de bolsa,la recompensa podr√≠a ser la ganancia neta despu√©s de una transacci√≥n.

- **Pregunta clave que se hace el agente**: ¬øFue buena mi acci√≥n?

Las recompensas son lo que determinan c√≥mo el agente ajusta su comportamiento con el tiempo. El agente b√°sicamente vive para maximizar sus recompensas acumuladas, es su prop√≥sito vital. Seg√∫n la situaci√≥n, podemos encontrar los siguientes escenarios de recompensa:

- **Recompensa positiva**: La acci√≥n tomada fue buena. El agente recibe un premio.
  - *Ejemplo*: Un dron recibe +1 por cada segundo que se mantiene volando hacia el objetivo.

- **Recompensa negativa**: La acci√≥n tomada fue mala. El agente recibe una penalizaci√≥n.
  - *Ejemplo*: Si el dron choca contra una pared, recibe una penalizaci√≥n de -10.

- **Recompensa nula**: La acci√≥n tomada no tiene consecuencias inmediatas. No es ideal, pero tampoco perjudica al agente.
  - *Ejemplo*: El dron empieza a volar en c√≠rculos sin progresar hacia el objetivo.

#### Escenarios controlados: Evitar la destruccion del mundo

Como habr√°s imaginado, no siempre podemos permitir que el agente practique en el mundo real. Imagina un agente aprendiendo a volar un avi√≥n a base de prueba y error. ¬øQu√© podr√≠a salir mal? O que un agente practicando cirug√≠as a coraz√≥n abierto con pacientes reales. No, graciasüôÇ‚Äç‚ÜîÔ∏è‚Äã.

Para evitar el caos (y salvar el mundo), utilizamos simuladores de mundos controlados. Estos entornos simulan de manera segura la realidad, permitiendo que el agente practique, falle y aprende sin causar da√±os en el mundo real.

¬°Ojo!, esto no s√≥lo aplica a los agentes; los humanos tambi√©n necesitamos simuladores o entornos controlados para practicar, especialmente en actividades complejas como la conducci√≥n o la cirug√≠a. La diferencia es que un agente descontrolado puede tener un potencial de destrucci√≥n mucho mayor (y no se detiene a reflexionar sobre sus errores como nosotros).

### 1.1.2. Pol√≠tica, funci√≥n de valor y funci√≥n Q

Ahora que tenemos claro qui√©n es qui√©n, pasemos a los conceptos que gu√≠an el aprendizaje del agente:

#### üéØ Pol√≠tica

La pol√≠tica es como el "cerebro" del agente. Define qu√© acci√≥n tomar en cada situaci√≥n. Puede ser algo tan simple como una tabla de consulta o tan complejo como una red neuronal.

- **Ejemplo:** Si el dron est√° cerca de una pared, la pol√≠tica podr√≠a ser: "Girar a la izquierda para evitarla".

#### üíé Funci√≥n de valor

La funci√≥n de valor le dice al agente qu√© tan bueno es estar en un estado espec√≠fico. Es como si el agente tuviera un mapa que indica qu√© lugares son seguros y cu√°les no.

- **Ejemplo:** En el caso del dron, un estado cerca de una pared podr√≠a tener un valor bajo (peligroso), mientras que un estado en el centro de la habitaci√≥n tiene un valor alto (seguro).

#### üî¢ Funci√≥n Q

La funci√≥n Q es un nivel m√°s avanzado: no solo eval√∫a los estados, sino las acciones dentro de esos estados. Es decir, ayuda al agente a decidir cu√°l acci√≥n espec√≠fica maximizar√° la recompensa.

- **Ejemplo:** Si el dron est√° en una esquina, la funci√≥n Q le dir√≠a: "Girando a la derecha tendr√°s una mejor recompensa que avanzando hacia adelante".


#### Analog√≠a: En busca del tesoro

Piensa en un explorador en un bosque. La pol√≠tica es su instinto para decidir si gira a la izquierda o a la derecha. La funci√≥n de valor es el mapa que usa para saber qu√© tan lejos est√° del tesoro. La funci√≥n Q combina ambos: "Si tomo este camino, ¬øqu√© tan r√°pido llegar√© al tesoro?"


## 1.2. Exploraci√≥n vs. explotaci√≥n: el equilibrio perfecto

En el aprendizaje por refuerzo encontramos un desaf√≠o fundamental: **¬øcu√°ndo explorar y cu√°ndo explotar?**

Para que un agente aprenda de manera eficiente, necesita encontrar el equilibrio perfecto entre estas dos estrategias:

### Exploraci√≥n

La exploraci√≥n consiste en probar nuevas acciones para descubrir m√°s sobre el entorno, incluso si no garantizan una recompensa inmediata. Es como ser un aventurero que se adentra en territorios desconocidos, con la esperanza de encontrar algo valioso.

- **Ventaja**: Puede descubrir estrategias o recompensas que no eran evidentes antes.
- **Desventaja**: Puede tomar decisiones sub√≥ptimas en el corto plazo, lo que reduce las recompensas inmediatas.
- **Ejemplo**: Un robot que explora una nueva habitaci√≥n podr√≠a intentar atravesar una puerta que no hab√≠a detectado antes, descubriendo un camino m√°s corto hacia su objetivo.

### Explotaci√≥n

La explotaci√≥n significa usar el conocimiento actual para maximizar las recompensas, eligiendo las acciones que ya sabe que funcionan. Es como ir a tu restaurante favorito y pedir ese plato que nunca te falla. ¬øPor qu√© arriesgarse, verdad?

- **Ventaja**: Asegura recompensas constantes y predecibles.
- **Desventaja**: Limita el descubrimiento de estrategias potencialmente mejores.
- **Ejemplo**: El robot, en lugar de explorar nuevas puertas, siempre usa un camino conocido para llegar a su destino, aunque podr√≠a no ser el m√°s eficiente.

### ¬øC√≥mo encontrar el equilibrio?

La clave est√° en balancear ambas estrategias. Un agente que solo explora nunca aprovecha lo que ha aprendido, mientras que uno que solo explota se queda atascado en soluciones sub√≥ptimas. Encontrar este equilibrio es esencial para que el agente no solo aprenda, sino que tambi√©n logre maximizar su rendimiento.

Esto no es solo un dilema de los agentes; ¬°nos pasa a los humanos todo el tiempo! ¬øDeber√≠as pedir ese plato que sabes que te encanta o arriesgarte a probar algo nuevo? ¬øIr de vacaciones al mismo lugar de siempre o aventurarte a descubrir un destino desconocido? Tanto para los agentes como para nosotros, el truco est√° en ser curiosos sin dejar de aprovechar lo que ya sabemos que funciona.

Y t√∫, ¬øeres m√°s explorador o explotador?

# 2. Tabular Q-Learning: Un primer paso pr√°ctico