#**K-armed bandit problem**

##**Definir probabilidad**

En este notebook veremos cómo resolver el problema del k-armed bandit (o multi-armed bandit) utilizando los conceptos básicos del Reinforcement Learning.

Para empezar establecemos la probabilidad de ganar de una máquina tragamonedas. En realidad, el jugador no conoce a priori la probabilidad de ganar de la máquina.

In [None]:
#probabilidad de ganar de una máquina
prob_win = 0.6

Importamos la librería random, que devuleve un número al azar entre 0 y 1.

In [None]:
import random as rd
import numpy as np

In [None]:
rd.seed(30)
rd.random()

0.5390815646058106

Es el momento de jugar.

La probabilidad de ganar equivale a la probabilidad de que el número random sea inferior al que hemos definido al principio.

In [None]:
#si rd.random() < 0.6, devuelve True. Esto ocurrirá el 60% de las veces
rd.seed(30)

rd.random() < prob_win

True

In [None]:
#si True ganamos, si False perdemos
rd.seed(30)

if rd.random() < prob_win:
  print('win')
else:
  print('lose')

win


In [None]:
#jugamos 10 veces
rd.seed(30)

for i in range(10):
  if rd.random() < prob_win:
    print('win')
  else:
    print('lose')

win
win
win
lose
win
win
win
lose
lose
win


##**Definir recompensa**

In [None]:
#guardamos los resultados en una lista llamada "list_rewards"
rd.seed(30)

list_rewards = []

for i in range(10):
  if rd.random() < prob_win:
    list_rewards.append('win')
  else:
    list_rewards.append('lose')

list_rewards

['win', 'win', 'win', 'lose', 'win', 'win', 'win', 'lose', 'lose', 'win']

Para establecer si ganamos o perdemos, estamos usando siempre la misma expresión:


```
rd.random() < prob_win
```
Definimos una función llamada "get_reward", que nos da reward 1 si ganamos y 0 si perdemos.


In [None]:
#definimos la función "get_reward"
def get_reward(prob_win):
  if rd.random() < prob_win:
    r = 1 #win
  else:
    r = 0 #lose
  return r

In [None]:
#llamamos la función y la ejecutamos 10 veces
rd.seed(30)

list_rewards = [get_reward(prob_win) for i in range(10)]
list_rewards

[1, 1, 1, 0, 1, 1, 1, 0, 0, 1]

In [None]:
#en vez de guardar la lista de recompensas, cálculamos la recompensa total cómo suma de las 10 recompensas
rd.seed(30)

total_reward = 0
iteration = 0

for i in range(10):
  iteration += 1
  r = get_reward(prob_win)
  print('Resultado iteración {0}: {1}'.format(iteration, r))

  total_reward += r

print('Recompensa total: {0}'.format(total_reward))

Resultado iteración 1: 1
Resultado iteración 2: 1
Resultado iteración 3: 1
Resultado iteración 4: 0
Resultado iteración 5: 1
Resultado iteración 6: 1
Resultado iteración 7: 1
Resultado iteración 8: 0
Resultado iteración 9: 0
Resultado iteración 10: 1
Recompensa total: 7


##**Definir action-value**

Introducimos el concepto de "expected prize action/expected return/action value": la probabilidad esperada de ganar.

*Veámoslo primero en las slides...*

Inicializamos la probabilidad esperada de ganar a 1

```
expected_prize_action = expected_prize_action + (r-expected_prize_action) / iteration
```
Recordemos que el jugador no conoce a priori la probabilidad de ganar de la máquina; lo que puede hacer para intentar deducirla es jugar varias veces y actualizar sus expectativas en función de los resultados obtenidos.

In [None]:
rd.seed(30)

total_reward = 0
iteration = 0
expected_prize_action = 1

for i in range(10):
  iteration += 1
  r = get_reward(prob_win)
  print('\nResultado iteración {0}: {1}'.format(iteration, r))

  total_reward += r

  expected_prize_action = expected_prize_action + (r-expected_prize_action) / iteration
  print('Probabilidad esperada: {0}'.format(round(expected_prize_action,2)))

print('\nRecompensa total: {0}'.format(total_reward))


Resultado iteración 1: 1
Probabilidad esperada: 1.0

Resultado iteración 2: 1
Probabilidad esperada: 1.0

Resultado iteración 3: 1
Probabilidad esperada: 1.0

Resultado iteración 4: 0
Probabilidad esperada: 0.75

Resultado iteración 5: 1
Probabilidad esperada: 0.8

Resultado iteración 6: 1
Probabilidad esperada: 0.83

Resultado iteración 7: 1
Probabilidad esperada: 0.86

Resultado iteración 8: 0
Probabilidad esperada: 0.75

Resultado iteración 9: 0
Probabilidad esperada: 0.67

Resultado iteración 10: 1
Probabilidad esperada: 0.7

Recompensa total: 7


*Comprobemos estos resultados en las slides...*

##**Jugar con 3 máquinas**

Ahora vamos a jugar con 3 máquinas

In [None]:
#probabilidades de éxito de 3 máquinas
prob_win = [0.9, 0.5, 0.1]
n_machines = len(prob_win)

Probamos nuestra función "get_reward" para las 3 máquinas:

In [None]:
rd.seed(51)

for index in range(0,n_machines): # index es la máquina que elegimos
  list_rewards = [get_reward(prob_win[index]) for i in range(10)]
  print('Recompensa máquina {0}: {1}'.format(index+1, list_rewards))

Recompensa máquina 1: [1, 1, 1, 1, 1, 1, 0, 1, 0, 1]
Recompensa máquina 2: [0, 0, 0, 1, 0, 1, 0, 0, 1, 1]
Recompensa máquina 3: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


EMPEZAMOS A JUGAR!

Elegimos una máquina al azar:

In [None]:
rd.seed(51)

index = rd.randint(0,n_machines-1)
print('Máquina {0}'.format(index+1))

Máquina 1


In [None]:
rd.seed(51)

list_rewards = [get_reward(prob_win[index]) for i in range(10)]
print('Recompensa máquina {0}: {1}'.format(index+1,list_rewards))

Recompensa máquina 1: [1, 1, 1, 1, 1, 1, 0, 1, 0, 1]


Cálculamos la recompensa total como suma de 100 recompensas:

In [None]:
rd.seed(51)

total_reward = 0

for i in range(100):
  r = get_reward(prob_win[index])
  total_reward += r

print('Recompensa total máquina {0}: {1}'.format(index+1,total_reward))

Recompensa total máquina 1: 83


Calculámos la recompensa total para las 3 máquinas:

In [None]:
rd.seed(51)

for index in range(0,n_machines): #iteramos por cada máquina
  total_reward = 0 #importante! la recompensa total se tiene que reiniciar para cada máquina

  for i in range(100):
    r = get_reward(prob_win[index])
    total_reward += r

  print('Recompensa total máquina {0}: {1}'.format(index+1,total_reward))

Recompensa total máquina 1: 83
Recompensa total máquina 2: 42
Recompensa total máquina 3: 14


Calculamos la recompensa total y la probabilidad esperada para las 3 máquinas:

In [None]:
rd.seed(51)

for index in range(0,n_machines):
  total_reward = 0
  expected_prize_action = 1
  iteration = 0

  for i in range(100): # Probar con más iteraciones
    iteration += 1
    r = get_reward(prob_win[index])
    total_reward += r
    expected_prize_action = expected_prize_action + (r-expected_prize_action) / iteration # formula

  print('Máquina {0}: recompensa total {1}, probabilidad esperada {2}'.format(index+1,total_reward,round(expected_prize_action,2)))

Máquina 1: recompensa total 83, probabilidad esperada 0.83
Máquina 2: recompensa total 42, probabilidad esperada 0.42
Máquina 3: recompensa total 14, probabilidad esperada 0.14


Ahora jugaremos 1000 veces, cada vez eligiendo una máquina distinta (al azar).

In [None]:
rd.seed(51)

#definimos la recompensa total
total_reward = 0

#número de veces que hemos jugado
i = 0

#número de veces que hemos jugado con cada máquina
iterations_machine = [0,0,0]

#inicializamos las probabilidades de ganar. Antes de empezar, es igual para todas las máquinas
expected_prize_action = [1,1,1]

for x in range(1000):

  #index es la máquina que estamos jugando en esta iteración
  index=rd.randint(0,n_machines-1)

  #esta parte emula si ganamos o perdemos
  r = get_reward(prob_win[index])

  #se actualiza la recompensa total
  total_reward += r

  #actualizamos número de veces que hemos jugado
  i += 1

  #actualizamos el número de veces que hemos jugado la máquina elegida
  iterations_machine[index] += 1

  #actualizamos la probabilidad esperada de ganar para la máquina elegida
  expected_prize_action[index] = expected_prize_action[index] + (r-expected_prize_action[index]) / iterations_machine[index]

print('Hemos jugado {0} veces.'.format(i))
print('La recompensa total es de {0} puntos.'.format(total_reward))
for index in range(0,n_machines):
  print('La máquina {0} ha sido elegida {1} veces. Su probabilidad esperada es de {2}'.format(index+1, iterations_machine[index], round(expected_prize_action[index],2)))

Hemos jugado 1000 veces.
La recompensa total es de 513 puntos.
La máquina 1 ha sido elegida 322 veces. Su probabilidad esperada es de 0.92
La máquina 2 ha sido elegida 349 veces. Su probabilidad esperada es de 0.52
La máquina 3 ha sido elegida 329 veces. Su probabilidad esperada es de 0.11


*Veamos los resultados en las slides...*

##**Definir greedy-policy**

¿Y si no quisieramos elegir una máquina al azar, sino la que nos da mayor recompensa?

In [None]:
#definimos nuestra función "greedy", que elige la máquina con mayor probabilidad esperada de ganar
def greedy(expected_prize_action): # expected_prize_action son las probabilidades estimadas de ganar de cada máquina
    index=np.argmax(expected_prize_action)
    return index

In [None]:
rd.seed(51)

#definimos la recompensa total
total_reward = 0

#número de veces que hemos jugado
i = 0

#número de veces que hemos jugado cáda máquina
iterations_machine = [0,0,0] # inicializamos a 0

#inicializamos las probabilidades de ganar. Antes de empezar, es igual para todas las máquinas
expected_prize_action=[1,1,1] # inicializamos a 1

for x in range(1000):

  #index es la máquina que estamos jugando en esta iteración
  index = greedy(expected_prize_action) #elegimos la máquina que tiene mayor probabilidad esperada

  #esta parte emula si ganamos o perdemos
  r = get_reward(prob_win[index])

  #se actualiza la recompensa total
  total_reward += r

  #actualizamos número de veces que hemos jugado
  i += 1

  #actualizamos el número de veces que hemos jugado la máquina elegida
  iterations_machine[index] += 1

  #actualizamos la probabilidad esperada de ganar para la máquina elegida
  expected_prize_action[index] = expected_prize_action[index] + (r-expected_prize_action[index]) / iterations_machine[index]

print('Hemos jugado {0} veces.'.format(i))
print('La recompensa total es de {0} puntos.'.format(total_reward))
for index in range(0,n_machines):
  print('La máquina {0} ha sido elegida {1} veces. Su probabilidad esperada es de {2}'.format(index+1, iterations_machine[index], round(expected_prize_action[index],2)))

Hemos jugado 1000 veces.
La recompensa total es de 900 puntos.
La máquina 1 ha sido elegida 997 veces. Su probabilidad esperada es de 0.9
La máquina 2 ha sido elegida 2 veces. Su probabilidad esperada es de 0.5
La máquina 3 ha sido elegida 1 veces. Su probabilidad esperada es de 0.0


*Veamos los resultados en las slides...*

##**Jugar con muchas máquinas**

Si tenemos muchas máquinas, corremos el riesgo de no explorar.

In [None]:
rd.seed(51)

prob_win = [0.8, 0.4, 0.6, 0.85, 0.2, 0.75, 0.9, 0.55, 0.8, 0.6]
n_machines = len(prob_win)

#definimos la recompensa total
total_reward = 0

#número de veces que hemos jugado
i = 0

#número de veces que hemos jugado cáda máquina
iterations_machine = np.zeros(n_machines) # inicializamos a 0

#inicializamos las probabilidades de ganar. Antes de empezar, es igual para todas las máquinas
expected_prize_action = np.ones(n_machines) # inicializamos a 1

#guardamos la máquina elegida en cada iteración en un vector
chosen_machine = []

for x in range(1000):

  #index es la máquina que estamos jugando en esta iteración
  index=greedy(expected_prize_action) #elegimos la máquina que tiene mayor probabilidad esperada

  #esta parte emula si ganamos o perdemos
  r = get_reward(prob_win[index])

  #se actualiza la recompensa total
  total_reward += r

  #actualizamos número de veces que hemos jugado
  i += 1

  #actualizamos el número de veces que hemos jugado la máquina elegida
  iterations_machine[index] += 1

  #actualizamos la probabilidad esperada de ganar para la máquina elegida
  expected_prize_action[index] = expected_prize_action[index] + (r-expected_prize_action[index]) / iterations_machine[index]

  #actualizamos el vector con la máquina elegida en esta iteración
  chosen_machine.append(index)


print('Hemos jugado {0} veces.'.format(i))
print('La recompensa total es de {0} puntos.'.format(total_reward))
for index in range(0,n_machines):
  print('La máquina {0} ha sido elegida {1} veces'.format(index+1, iterations_machine[index]))

print('La máquina con mayor probabilidad real (máquina {0}) ha sido elegida correctamente {1} veces.'.format(np.argmax(prob_win)+1,chosen_machine.count(np.argmax(prob_win))))

Hemos jugado 1000 veces.
La recompensa total es de 800 puntos.
La máquina 1 ha sido elegida 5.0 veces
La máquina 2 ha sido elegida 2.0 veces
La máquina 3 ha sido elegida 1.0 veces
La máquina 4 ha sido elegida 2.0 veces
La máquina 5 ha sido elegida 1.0 veces
La máquina 6 ha sido elegida 9.0 veces
La máquina 7 ha sido elegida 2.0 veces
La máquina 8 ha sido elegida 1.0 veces
La máquina 9 ha sido elegida 975.0 veces
La máquina 10 ha sido elegida 2.0 veces
La máquina con mayor probabilidad real (máquina 7) ha sido elegida correctamente 2 veces.


*...Veamos los resultados en las slides*

##**Exploration vs Explotation**

In [None]:
#trade-off entre explorar y explotar
def greedy_trade_off(exp_price,epsilon):
    if(rd.random() < epsilon):
            index=rd.randint(0,len(exp_price)-1) #explorar
    else:
        index=np.argmax(exp_price) #explotar
    return index

In [None]:
rd.seed(51)

prob_win = [0.8, 0.4, 0.6, 0.85, 0.2, 0.75, 0.9, 0.55, 0.8, 0.6]
n_machines = len(prob_win)

#exploraremos el 15% de las veces
epsilon = 0.15

#definimos la recompensa total
total_reward = 0

#número de veces que hemos jugado
i = 0

#número de veces que hemos jugado cáda máquina
iterations_machine = np.zeros(n_machines)

#inicializamos las probabilidades de ganar. Antes de empezar, es igual para todas las máquinas
expected_prize_action = np.ones(n_machines)

#guardamos la máquina elegida en cada iteración en un vector
chosen_machine = []

for x in range(1000):

  #index es la máquina que estamos jugando en esta iteración
  index = greedy_trade_off(expected_prize_action, epsilon) #elegimos la máquina que tiene mayor probabilidad esperada

  #esta parte emula si ganamos o perdemos
  r = get_reward(prob_win[index])

  #se actualiza la recompensa total
  total_reward += r

  #actualizamos número de veces que hemos jugado
  i += 1

  #actualizamos el número de veces que hemos jugado la máquina elegida
  iterations_machine[index] += 1

  #actualizamos la probabilidad esperada de ganar para la máquina elegida
  expected_prize_action[index] = expected_prize_action[index] + (r-expected_prize_action[index]) / iterations_machine[index]

  #actualizamos el vector con la máquina elegida en esta iteración
  chosen_machine.append(index)


print('Hemos jugado {0} veces.'.format(i))
print('La recompensa total es de {0} puntos.'.format(total_reward))
for index in range(0,n_machines):
  print('La máquina {0} ha sido elegida {1} veces'.format(index+1, iterations_machine[index]))

print('La máquina con mayor probabiliad real (máquina {0}) ha sido elegida correctamente {1} veces.'.format(np.argmax(prob_win)+1,chosen_machine.count(np.argmax(prob_win))))

Hemos jugado 1000 veces.
La recompensa total es de 856 puntos.
La máquina 1 ha sido elegida 16.0 veces
La máquina 2 ha sido elegida 15.0 veces
La máquina 3 ha sido elegida 17.0 veces
La máquina 4 ha sido elegida 21.0 veces
La máquina 5 ha sido elegida 19.0 veces
La máquina 6 ha sido elegida 19.0 veces
La máquina 7 ha sido elegida 840.0 veces
La máquina 8 ha sido elegida 16.0 veces
La máquina 9 ha sido elegida 20.0 veces
La máquina 10 ha sido elegida 17.0 veces
La máquina con mayor probabiliad real (máquina 7) ha sido elegida correctamente 840 veces.


*...Veamos los resultados en las slides*