<a href="https://colab.research.google.com/github/AnIsAsPe/Aprendizaje-por-Refuerzo/blob/main/Notebooks/Problema_Multi_Armed_Bandit__examen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Examen Práctico de Aprendizaje por Refuerzo

El siguiente código utiliza una estrategia puramente de exploración para encontrar el valor esperado del premio que otorga cada máquina o brazo en el probema "Multi Armed Bandit Problem".

## Instrucciones

1. Diseñar una estrategia codiciosa (greedy strategy), también llamada estrategia de explotación, para encontrar el valor esperado de cada máquina,
2. Diseñar una estrategia que priorice la exploración o la explotación según el progreso del experimento (epsilon decreasing greedy), para encontrar el valor esperado de cada máquina
3. Explicar y comparar las tres estrategias ((exploración pura, codiciosa y epsilon codicioso decreciente) 

In [1]:
import numpy as np

In [2]:
def entorno_multi_armed_bandit(maquinas):
    '''
    Creamos el entorno para el problema "multi_armed_bandit" generando aleatoriamente
    la distribución de probabilidad de los premios que otorga cada máquina
    '''
    medias = np.random.normal(size=maquinas)*5
    std_ = np.random.uniform(0, 5, size=maquinas)
    return medias, std_

In [3]:
def init_Q(maquinas):
  '''Inicializa el vector Q en ceros'''
  Q =np.zeros((1, maquinas))
  return Q

In [4]:
def selecciona_maquina(maquinas):
    '''selecciona una máquina aleatoriamente con distribución unifome'''
    selec = np.random.choice(range(maquinas))
    return selec

In [5]:
def calcula_recompensa(selec):
  '''calcula la recompensa de jugar en una determinada máquina'''
  r = int(np.random.normal(medias[selec], std_[selec], 1))
  return r

In [10]:
def actualiza_Q (Q, selec, r, episodio):
    '''actualiza el vector con los valores esperados de recompensa'''
    Q[0, selec] = Q[0, selec] + 1/(episodio)*(r - Q[0, selec])
    return Q

In [11]:
### Definimos el número de máquinas o brazos del problema
n = 4

### Creamos el entorno
medias, std_ = entorno_multi_armed_bandit(n)  # inicializa la distribución de probabilidad de cada máquina

### Inicializamos el vector Q  
Q = init_Q(n)  

episodios = 100000 
for episodio in range(1,episodios+1):
  selec = selecciona_maquina(n)
  r = calcula_recompensa(selec)
  Q = actualiza_Q(Q, selec, r, episodio)

In [12]:
print("La media de la distribución de probabilidad de cada máquina es:", medias)
print("El valor esperado del premio por máquina es: ", Q)

La media de la distribución de probabilidad de cada máquina es: [-1.53818893 10.88372968  7.86945589 -2.6112537 ]
El valor esperado del premio por máquina es:  [[-1.05727839  9.65014285  6.93915666 -2.53870777]]
