## Examen Cours Algorithme d'apprentissage par renforcement
### Karm Bandit - Recommandation
## Algorithme de recommandation Netflix


Fabrice Mulotti19/02/2022


![Alt text](static/netflix.png)

# Énoncé !
NetFlix utilise un certain nombre de variables pour classer les abonnés.   

Pour chaque classe d'abonné, Nexflix a déterminé un ensemble **k** de recommandation de film (Candidate Pool) (voir image dessous)   

L'algorithme que vous allez concevoir, doit déterminer quel est le film le plus susceptible d'être visionné dans ce pool par l'abonné.   

Il sera ainsi placé en haut de la page d'accueil (Daredevil dans notre exemple 2images plus bas)   

La récompense est fonction du nombre de fois qu'un nouveau membre de la classe d'abonné visionne effectivement ce film !   

Il s'agit d'une ditribution de bernouilli.   

`q= np.random.binomial(1,self.p[arm])`




![Candidate Pool](static/pool.png)

![Sélection](static/exempleSelection.png)

Votre objectif est de déterminer le choix du film qui apporte la plus grande récompense.   

Vous pouvez utiliser l'algorithme de votre choix entre ***epsilon-decay greedy, linUCB ou Gradient.***   

Vous aurez sans doute, suivant votre choix, à jouer sur les hyperparamètres.   

Les endroits ou vous devrez modifier ou ajouter du code sont répérés par le commentaire :
    `# Votre Code`

Vous aurez quelques questions à compléter dans la case suivante.

## Bon courage !

***

### Vous aurez reconnu un problème du type k arm bandit !

### Il y a combien d'actions possibles ?
(réponse)

### Est ce un problème stationnaire ou non stationnaire ?
(réponse)

### Une fois votre choix fait, expliquer en quelques mots pourquoi vous avez choisi cet algorithme ?
(réponse)

***

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
class karm():
    __version__ = "1.3"
    # Votre code : vous aurez sans doute à ajouter des paramètres dans la fonction init selon l'algorithme
    def __init__(self,k,seed,initial_value):
        
        np.random.seed(seed)
        # nombre de bras
        self.k=k
    
        # initialisation des moyennes des k bras
        self.p = np.array([0.25 , 0.30 , 0.35 , 0.10])
        
        self.initial_value = initial_value
        
        self.init_tableau()
    
    def version(self):
        #renvoie la version du code
        return self.__version__
    
    def my_argmax(self,my_array):
        # notre argmax
        my_max=float("-inf")
        my_list_of_max = []
        for i in range(0,my_array.shape[0]):
            if my_array[i] > my_max:
                my_max=my_array[i]
                my_list_of_max = [ i ]
            else:
                if my_array[i] == my_max:
                    my_list_of_max.append(i)
        return(np.random.choice(my_list_of_max))
          
    def init_tableau(self):
        # Initialise les tableaux de suivi
        # comptage du nombre de fois qu'un bras est actionné
        self.n=np.zeros((self.k))
        # init de la récompense par bras
        self.Reward=np.full((self.k),self.initial_value)
                    
    def show(self):
        print("k   = ",self.k)
        print("n   = ",self.n)
        print("R   = ",self.Reward)
     
    def env(self,arm):
        # renvoie la récompense en fonction du bras actionné
        q= np.random.binomial(1,self.p[arm])
                
        Reward_n = self.Reward[arm]
        self.n[arm]=self.n[arm]+1

        self.Reward[arm] = Reward_n + 1/self.n[arm] * (q - Reward_n)
        return(q)
    
    def action(self,t):
        # Politique par défaut gloutonne
        # Votre code Choisissez votre algorithme ici 
        
        # Politique Greedy par défault.
        arm=self.my_argmax(self.Reward)
        
        return(arm)
    
    def simulation(self,ntry,nsample):
        result=np.zeros((ntry,nsample))
        hist_action=np.zeros((ntry,nsample))
        for i in range(ntry):
            self.init_tableau()
            for j in range(nsample):
                action=self.action(j)
                q=self.env(action)
                result[i,j]=q
                hist_action[i,j]=action
        rmean = np.mean(result,axis=0)
        return(np.sum( hist_action  == 2,axis=0),rmean)

In [None]:
# Paramètres fixes !
k=4
seed=1001
Film = ['Strangers Things', 'Narcos', '13 Reasons Why', 'Orange is the new Black']

# Vos Paramètres que vous pouvez modifier !
initial_value =  0.0

# Votre code : vous aurez sans doute à ajouter des paramètres en fonction de votre algo
dummy=karm(k,seed, initial_value )
dummy.show()

In [None]:
nb_essai =200
nb_episode = 1000
actions_correctes , _ = dummy.simulation(nb_essai,nb_episode)
actions_correctes = actions_correctes / nb_essai
dummy.show()
print("Si votre algo devez utiliser Greedy, vous allez choisir  ",Film[np.argmax(dummy.Reward)])
print("Le meilleur choix est ",Film[np.argmax(dummy.p)])
if np.argmax(dummy.Reward) == np.argmax(dummy.p):
    print("Bravo!")

## Résultats 

In [None]:
plt.figure()
plt.title("% d actions correctes")

plt.plot(actions_correctes,color='blue')

plt.show()