---
# KARM

Un problème d' __optimisation__

Fabrice Mulotti
Licence MIT

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sbn
from os import path
import sys


## Définissons les paramètres de notre environnement

In [None]:
K=5 # nombre de bras
recompense_centre=5 # récompense moyenne
dispersion_recompense=4 # écart par rapport à la moyenne
dispersion_resultat_par_bras=2.0 # facteur pour l`écart type appliqué à chaque bras lors des tirages


## Déterminer pour chaque bras sa récompense moyenne et l'écart type

In [None]:
np.random.seed(seed=42)
recompense_moyenne_bras = np.random.random(K)*dispersion_recompense+5
ecart_type_bras = (np.random.random(K)+0.5)*dispersion_resultat_par_bras

In [None]:
recompense_moyenne_bras

In [None]:
reference = np.flip(np.argsort(recompense_moyenne_bras))
print(f"Ordre des bras décroissant {reference}")

In [None]:
ecart_type_bras

In [None]:
## Visualisons sur 10000 tirages à  quoi ressemble les 

In [None]:
np.random.seed(2023)
tirage=10000
sample = np.zeros((tirage,K))
for i in range(K):
    for j in range(tirage):
        sample[j,i]=np.random.normal(recompense_moyenne_bras[i],ecart_type_bras[i])

In [None]:
plt.figure()
sbn.boxplot(sample)
plt.xlabel("Bras")
plt.ylabel("Récompense")
plt.show()

![boxplots.jpg](static/boxplots.jpg)

***
## Functions et classes

### Pour être capable comparer nos résultats, nous allons utiliser un Dataframe pandas

In [None]:
def tirage(bras):
    # tirage pour un bras
    # entrée : numéro du bras
    # sortie : récompense pour un tirage
    return np.random.normal(recompense_moyenne_bras[bras],ecart_type_bras[bras])

---
## Round Robin

Dans une approche Round Robin, on tire un même nombre de fois chaque bras.
C'est donc une approche 'brute'.

In [None]:
# Ecrire une fonction qui renvoie les numéros de bras alternativement
# exmeple 0 -> 1 -> 2 -> 3 -> 4 -> 0 ......

def RoundRobinPolicy(action,K):
    # Round robin policy : tire un bras l'un après l'autre
    # input : mode = 0 : reinitialise, 1 : tire et incrémente, K nombre de bras
    # output : numéro de bras

    # VOTRE CODE

    return action


A tester avec __100__, __1000__ et __10000__ tirages.
Que constate t on ?

In [None]:
np.random.seed(2023)
nombre_tirage=100

# conserver cet appel pour la suite pour comparer les résultats
# nombre de bras , valeur initial de la moyenne des récompenses, nom de la politique
result = []
action = -1

for i in range(nombre_tirage):
    action = # ?
    reward = #? 
    result.append(#?)

    

In [None]:
result_round_robin =#? Cumul des récompenses 

In [None]:
plt.figure()
plt.plot(result_round_robin)
plt.show()

---
# Greedy - valeur initiale élévée<br>
Avec une politique Greedy, notre algorithme choisi toujours le bras qui offre le meilleur rendement.

Donc si on a pas évalué au préalable les bras, et dans un environnement stable, il n'y a pas d'intérêt.


In [None]:
def greedyPolicy(num_action, mean_reward_per_arm):
    # purpose : choisi le bras qui rapporte le plus
    # input : nombre de bras, moyenne de résultat connu par bras.
    # output : bras choisi

    # votre code
    
    return action

In [None]:
np.random.seed(2023)
nombre_tirage=100

result = []
for i in range(nombre_tirage):
    action= # ?
    reward= # ?
    result.append(#?)


In [None]:
# stocker le résultat dans un tableau avec cumul

In [None]:
# comparer les courbes

***
## e-Greedy

e-Greedy (epsilon-glouton) choisit l'action réputée la plus payante selon une probabilité 1-epsilon ou aléatoire selon une probabilité epsilon.

Il va intéressant de jouer avec les deux paramètres :<br>
__epsilon__<br>
__la valeur initiale__<br>

A noter que dès 1000 tirage, egreedy a trouver 100% des bras par ordre de rendement

In [None]:
def egreedyPolicy(num_action,epsilon,mean_reward_per_arm):

    # votre code
    
    return(action)

In [None]:
np.random.seed(2023)
nombre_tirage=1000
epsilon=0.50

result=[]

for i in range(nombre_tirage):
    action= # ?
    reward =  # ?
    result.append()    


In [None]:
# stocker le résultat dans un tableau avec cumul

In [None]:
# comparer les courbes

---
# espilon greedy decay

Nous avons 3 paramètres :<br>
Nstep 
Epsilon max
Epsilon min

In [None]:
np.random.seed(2023)
nombre_tirage=1000
epsilonMax=0.50
epsilonMin=0.05
N=nombre_tirage/10
result=[]

epsilon=epsilonMax
for i in range(nombre_tirage):
    action= # ?
    reward = # ?
    result.append(#?)   
    
    # asjustement d'epsilon
    # voir cours



In [None]:
# stocker le résultat dans un tableau avec cumul

In [None]:
# comparer les courbes

---
# LinUCB

![image.png](attachment:245ff33c-2e56-4a2f-892c-bb24f24aeb34.png)

In [None]:
def linUCBPolicy(mean_reward_arm,arm_usage, c , num_tirage):
    # input
    # mean_reward_arm : récompense moyenne par bras
    # arm_usage : nombre d'utilisation pour tous les bras 
    # c : hyperparamètre
    # num_tirage : numero de tirage de notre exprérience

    return np.argmax(mean_reward_arm + c * np.square((np.log(num_tirage+1)/(arm_usage+1)))) # votre code

In [None]:
np.random.seed(2023)
nombre_tirage=100

Q=np.zeros((K))
N=np.zeros((K))

result=[]
c=0.5

for i in range(nombre_tirage):
    action=linUCBPolicy(Q/(N+1),N,c,i)
    reward = tirage(action)
    Q[action] += reward
    N[action] += 1
    result.append(reward)   
    


In [None]:
Q

In [None]:
# stocker le résultat dans un tableau avec cumul

    

In [None]:
# comparer les courbes


---
# Méthode du gradient

![static/gradient.png](static/gradient.png)

Soit H notre tableau des préférences

In [None]:
def gradientPolicy(H):
    return np.argmax(H)
   

def updatePreference(H,moyenneR,num_tirage,action,reward):
    # en entrée : tableau des préférences H, moyenne des récompenses (baseline), numéro de tirage,a ction choisie et récompense
    # en sortie : tablea H actualisé, nouvelle baseline ajustée
    return H , moyenneR                                      
    

In [None]:
np.random.seed(2023)
H=np.zeros((K))
nombre_tirage=100

alpha=0.5
gradientExp = Experiment(K,nombre_tirage,0.0,f"gradient-alpha-{alpha}")
moyenneR=5

for i in range(nombre_tirage):
    action=gradientPolicy(H)
    reward = tirage(action)
    gradientExp.record_result(action,reward)
    # mise à jour des préférences
    H,moyenneR = updatePreference(H,moyenneR,i,action, reward)

gradientExp.print_score()
tools.graphResult(nombre_tirage)

In [None]:
# stocker le résultat dans un tableau avec cumul

In [None]:
# comparer les courbes