<a href="https://colab.research.google.com/github/nitron-alpha-kplr/Reinforcement-Learning/blob/main/RL_from_scratch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reinforcement Learning
### Objectif
- Construire votre propre modèle d'apprentissage automatique à partir de zéro - apprentissage par renforcement.
- Apprenez-lui à ramasser et à livrer des articles.

### Qu'est-ce que l'apprentissage par renforcement ?
- L'apprentissage par renforcement apprend à la machine à penser par elle-même en fonction des récompenses des actions passées.
![Apprentissage par renforcement](https://github.com/LearnPythonWithRune/LearnPython/blob/main/colab/final/img/ReinforcementLearning.png?raw=1)
- En gros, l'algorithme d'apprentissage par renforcement essaie de prédire les actions qui donnent des récompenses et évitent les punitions.
- C'est comme le dressage d'un chien. Vous et le chien ne parlez pas la même langue, mais le chien apprend à agir en fonction des récompenses (et des punitions, que je ne conseille pas et ne préconise pas).
- Ainsi, si un chien est récompensé pour une certaine action dans une situation donnée, la prochaine fois qu'il sera exposé à une situation similaire, il agira de la même manière.
- Traduisez cela en apprentissage par renforcement.
    - L' **agent** est le chien qui est exposé à l' **environnement**.
    - Puis **l'agent** rencontre un **état**.
    - **L'agent** exécute une **action** pour passer à un **nouvel état**.
    - Puis, après la transition, l'agent** reçoit une **récompense** ou une **pénalité (punition)**.
    - Cela forme une **politique** pour créer une stratégie permettant de choisir des actions dans un **état** donné.

#### Quels sont les algorithmes utilisés pour l'apprentissage par renforcement ?
- Les algorithmes les plus courants pour l'apprentissage par renforcement sont.
    - **Q-Learning** : est un algorithme d'apprentissage par renforcement sans modèle pour apprendre une politique indiquant à un agent quelle action entreprendre dans quelles circonstances.
    - **Différence temporelle** : fait référence à une classe de méthodes d'apprentissage par renforcement sans modèle qui apprennent par bootstrapping à partir de l'estimation actuelle de la fonction de valeur.
    - **Deep Adversarial Network** : est une technique employée dans le domaine de l'apprentissage automatique qui tente de tromper les modèles par des entrées malveillantes.
- Nous nous concentrerons sur l'algorithme **Q-learning** car il est à la fois facile à comprendre et puissant.

### Comment fonctionne l'algorithme d'apprentissage Q ?
- Comme je l'ai déjà dit, j'adore cet algorithme. Il est "facile" à comprendre et puissant comme vous allez le voir.
![Algorithme Q-Learning](https://github.com/LearnPythonWithRune/LearnPython/blob/main/colab/final/img/QLearning.png?raw=1)
- L'algorithme **Q-Learning** a une **Q-table** (une matrice de dimension état x actions - ne vous inquiétez pas si vous ne comprenez pas ce qu'est une matrice, vous n'aurez pas besoin des aspects mathématiques de celle-ci - c'est juste un "conteneur" indexé avec des nombres).
- Le **agent** (ou l'algorithme **Q-Learning**) sera dans un état.
- Ensuite, à chaque itération, le **agent** doit prendre une **action**.
- **L'agent** met continuellement à jour la **récompense** dans la **table Q**.
- L'apprentissage peut provenir soit de l'exploitation, soit de l'exploration.
- Cela se traduit par le pseudo-algorithme suivant pour le **Q-Learning**.
- L' **agent** est dans un **étatºº donné et doit choisir une **action**.

#### Algorithme
- Initialiser la **table Q** à tous les zéros.
- Itération
    - L'agent est dans l'état **état**.
    - Avec la probabilité **epsilon**, il choisit **explorer**, sinon **exploiter**.
        - Si **explorer**, alors choisir une **action** *aléatoire*.
        - Si **exploiter**, alors choisissez la **meilleure* action** sur la base de la **table Q** actuelle.
    - Mettez à jour la **table Q** de la nouvelle **récompense** à l'état précédent.
    - Q[**état, action**] = (1 - **alpha**) * Q[**état, action**] + **alpha** * (**récompense + gamma** * max(Q[**nouvel_état**]) - Q[**état, action**])

#### Variables
Comme vous pouvez le constater, nous avons introduit les variables suivantes.

- **epsilon** : la probabilité de prendre une action aléatoire, qui est faite pour explorer un nouveau territoire.
- **alpha** : est le taux d'apprentissage que l'algorithme doit faire à chaque itération et doit être dans l'intervalle de 0 à 1.
- **gamma** : est le facteur d'actualisation utilisé pour équilibrer la récompense immédiate et future. Cette valeur est généralement comprise entre 0,8 et 0,99.
- **Récompense** : est la rétroaction sur l'action et peut être un nombre quelconque. Une valeur négative correspond à une pénalité (ou une punition) et une valeur positive à une récompense.

### Description de la tâche
- To keep it simple, we create a field of size 10×10 positions. In that field there is an item that needs to be picked up and moved to a drop-off point.
![Field](https://github.com/LearnPythonWithRune/LearnPython/blob/main/colab/final/img/Field-ReinforcementLearning.png?raw=1)
- At each position there are 6 different actions that can be taken.
    - **Action 0**: Go South if on field.
    - **Action 1**: Go North if on field.
    - **Action 2**: Go East if on field (Please notice, I mixed up East and West (East is Left here)).
    - **Action 3**: Go West if on field (Please notice, I mixed up East and West (West is right here)).

    - **Action 4**: Pickup item (it can try even if it is not there)
    - **Action 5**: Drop-off item (it can try even if it does not have it)
- Based on these actions we will make a reward system.
    - If the **agent** tries to go off the **field**, punish with **-10** in **reward**.
    - If the **agent** makes a (legal) move, punish with **-1** in **reward**, as we do not want to encourage endless walking around.
    - If the **agent** tries to pick up item, but it is not there or it has it already, punish with **-10** in **reward**.
    - If the **agent** picks up the item correct place, **reward** with **20**.
    - If **agent** tries to drop-off item in wrong place or does not have the item, punish with **-10** in **reward**.
    - If the **agent** drops-off item in correct place, **reward** with **20**.
- That translates into the following code. I prefer to implement this code, as I think the standard libraries that provide similar frameworks hide some important details. As an example, and shown later, how do you map this into a state in the Q-table?

In [1]:
class Field:
    def __init__(self, size, item_pickup, item_drop_off, start_position):
        self.size = size
        self.item_pickup = item_pickup
        self.item_drop_off = item_drop_off
        self.position = start_position
        self.item_in_car = False

    def get_number_of_states(self):
        return self.size*self.size*self.size*self.size*2

    def get_state(self):
        state = self.position[0]*self.size*self.size*self.size*2
        state = state + self.position[1]*self.size*self.size*2
        state = state + self.item_pickup[0]*self.size*2
        state = state + self.item_pickup[1]*2
        if self.item_in_car:
            state = state + 1
        return state

    def make_action(self, action):
        (x, y) = self.position
        if action == 0:  # Go South
            if y == self.size - 1:
                return -10, False
            else:
                self.position = (x, y + 1)
                return -1, False
        elif action == 1:  # Go North
            if y == 0:
                return -10, False
            else:
                self.position = (x, y - 1)
                return -1, False
        elif action == 2:  # Go East
            if x == 0:
                return -10, False
            else:
                self.position = (x - 1, y)
                return -1, False
        elif action == 3:  # Go West
            if x == self.size - 1:
                return -10, False
            else:
                self.position = (x + 1, y)
                return -1, False
        elif action == 4:  # Pickup item
            if self.item_in_car:
                return -10, False
            elif self.item_pickup != (x, y):
                return -10, False
            else:
                self.item_in_car = True
                return 20, False
        elif action == 5:  # Drop off item
            if not self.item_in_car:
                return -10, False
            elif self.item_drop_off != (x, y):
                self.item_pickup = (x, y)
                self.item_in_car = False
                return -10, False
            else:
                return 20, True



In [None]:
field = Field(10, (0, 0), (9, 9), (9, 0))

field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)
field.make_action(2)

field.make_action(4)

field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)
field.make_action(0)

field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)
field.make_action(3)

field.make_action(5)

field.position

(9, 9)

In [2]:
import random

In [3]:
def naive_solution():
    size = 10
    item_start = (0, 0)
    item_drop_off = (9, 9)
    start_position = (0, 9)

    field = Field(size, item_start, item_drop_off, start_position)
    done = False
    steps = 0

    while not done:
        action = random.randint(0, 5)
        reward, done = field.make_action(action)
        steps = steps + 1

    return steps

In [4]:
naive_solution()

57700

In [5]:
runs = [naive_solution() for _ in range(100)]

In [6]:
sum(runs)/len(runs)

129157.36

#### Algorithme
- Initialiser la **Table Q** à tous les zéros
- Itération
    - L'agent est dans l'état **état**.
    - Avec la probabilité **epsilon**, il choisit **explorer**, sinon **exploiter**.
        - Si **explorer**, alors choisir une **action** *aléatoire*.
        - Si **exploiter**, alors choisissez la **meilleure* action** sur la base de la **table Q** actuelle.
    - Mettez à jour la **table Q** de la nouvelle **récompense** à l'état précédent.
    - Q[**état, action**] = (1 - **alpha**) * Q[**état, action**] + **alpha** * (**récompense + gamma** * max(Q[**nouvel_état**]) - Q[**état, action**])

In [7]:
import numpy as np

In [8]:
size = 10
item_start = (0, 0)
item_drop_off = (9, 9)
start_position = (0, 9)

field = Field(size, item_start, item_drop_off, start_position)

number_of_states = field.get_number_of_states()
number_of_actions = 6

q_table = np.zeros((number_of_states, number_of_actions))

epsilon = 0.1
alpha = 0.1
gamma = 0.6

for _ in range(10000):
    field = Field(size, item_start, item_drop_off, start_position)
    done = False

    while not done:
        state = field.get_state()
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, 5)
        else:
            action = np.argmax(q_table[state])

        reward, done = field.make_action(action)
        # Q[state, action] = (1 – alpha) * Q[state, action] + alpha * (reward + gamma * max(Q[new_state]) — Q[state, action])

        new_state = field.get_state()
        new_state_max = np.max(q_table[new_state])

        q_table[state, action] = (1 - alpha)*q_table[state, action] + alpha*(reward + gamma*new_state_max - q_table[state, action])

In [9]:
def reinforcement_learning():
    epsilon = 0.1
    alpha = 0.1
    gamma = 0.6

    field = Field(size, item_start, item_drop_off, start_position)
    done = False
    steps = 0

    while not done:
        state = field.get_state()
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, 5)
        else:
            action = np.argmax(q_table[state])

        reward, done = field.make_action(action)
        # Q[state, action] = (1 – alpha) * Q[state, action] + alpha * (reward + gamma * max(Q[new_state]) — Q[state, action])

        new_state = field.get_state()
        new_state_max = np.max(q_table[new_state])

        q_table[state, action] = (1 - alpha)*q_table[state, action] + alpha*(reward + gamma*new_state_max - q_table[state, action])

        steps = steps + 1

    return steps

In [10]:
reinforcement_learning()

30

In [11]:
runs_rl = [reinforcement_learning() for _ in range(100)]

In [12]:
sum(runs_rl)/len(runs_rl)

44.21