<a href="https://colab.research.google.com/github/AnIsAsPe/Aprendizaje-por-Refuerzo/blob/main/Notebook/Problema_Multi_Armed_Bandit__examen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Examen Práctico de Aprendizaje por Refuerzo

El siguiente código utiliza una estrategia puramente de exploración para encontrar el valor esperado del premio que otorga cada máquina o brazo en el probema "Multi Armed Bandit Problem".

## Instrucciones

1. Diseñar una estrategia codiciosa (greedy strategy), también llamada estrategia de explotación, para encontrar el valor esperado de cada máquina,
2. Diseñar una estrategia que priorice la exploración o la explotación según el progreso del experimento (epsilon decreasing greedy), para encontrar el valor esperado de cada máquina
3. Explicar y comparar las tres estrategias ((exploración pura, codiciosa y epsilon codicioso decresiente) 

In [17]:
import numpy as np

In [18]:
def entorno_multi_armed_bandit(maquinas):
    '''
    Creamos el entorno para el problema "multi_armed_bandit" generando aleatoriamente
    la distribución de probabilidad de los premios que otorga cada máquina
    '''
    medias = np.random.normal(size=maquinas)*5
    std_ = np.random.uniform(0, 5, size=maquinas)
    return medias, std_

In [19]:
def init_Q(maquinas):
  '''Inicializa el vector Q en ceros'''
  Q =np.zeros((1, maquinas))
  return Q

In [20]:
def selecciona_maquina(maquinas):
    '''selecciona una máquina aleatoriamente con distribución unifome'''
    selec = np.random.choice(range(maquinas))
    return selec

In [21]:
def calcula_recompensa(selec):
  '''calcula la recompensa de jugar en una determinada máquina'''
  r = int(np.random.normal(medias[selec], std_[selec], 1))
  return r

In [22]:
def actualiza_Q (Q, selec, r):
    '''actualiza el vector con los valores esperados de recompensa'''
    Q[0, selec] = Q[0, selec] + 1/n*(r - Q[0, selec])
    return Q

In [23]:
### Definimos el número de máquinas o brazos del problema
n = 4

### Creamos el entorno
medias, std_ = entorno_multi_armed_bandit(n)  # inicializa la distribución de probabilidad de cada máquina

### Inicializamos el vector Q  
Q = init_Q(n)  

episodios = 100000 
for _ in range(episodios):
  selec = selecciona_maquina(n)
  r = calcula_recompensa(selec)
  Q = actualiza_Q(Q, selec, r)

In [24]:
print("La media de la distribución de probabilidad de cada máquina es:", medias)
print("El valor esperado del premio por máquina es: ", Q)

La media de la distribución de probabilidad de cada máquina es: [-0.62078051  4.51138253 11.30321367  1.55673172]
El valor esperado del premio por máquina es:  [[-0.40190641  4.07319106 10.34596388  2.55605522]]
