# Artificial Intelligence and Cognition 
> Florian Geillon, Antoine Billod

## Agent 1 : L'agent qui n'aimait pas s'ennuyer
Implémenter un agent qui :

1. Apprend à prédire le résultat (outcome) de ses action en fonction de son environnement.
2. Choisit une action différente quand ses prédictions sont correctes depuis trop longtemps (fixer un temps arbitraire, par exemple 4 cycles d'interaction).

L'agent peut choisir entre deux actions possibles : "0" ou "1". Il peut recevoir deux outcome possibles : "0" ou "1".

L'anticipation se fait sur la base de l'hypothèse que la même action produira le même outcome. Il faut donc implémenter une mémoire des outcome obtenus pour chaque action.

Tester l'agent dans l'environnement 1 et dans l'environnement 2.

La Figure 1 montre un exemple de trace obtenue dans l'environnement 1. Selon les particularités de votre implémentation, vous pouvez obtenir une trace un peu différente.

![Figure 1](https://user-images.githubusercontent.com/11695651/98649838-5a983f80-2338-11eb-821e-6d0e7d8d8490.png)

_Figure 1. La Satisfaction est un triplet (anticipation correcte, valeur de l'interaction, ennui). Pendant les 4 premiers pas, l'agent anticipe correctement l'outcome (dans cette implémentation, l'anticipation par défaut est 0 et par chance elle est juste). Au 4ème pas, il s'ennuie. Au 5ème pas, il choisit donc une action différente mais son anticipation est fausse. A partir du 6ème pas, il anticipe toujours correctement l'outcome._


### Code de l'agent 1

In [5]:
#!/usr/bin/env python
# Olivier Georgeon, 2021.
# This code is used to teach Developmental AI.
# from turtlesim_enacter import TurtleSimEnacter # requires ROS
from turtlepy_enacter import TurtlePyEnacter

#from Agent5 import Agent5
#from OsoyooCarEnacter import OsoyooCarEnacter
ROBOT_IP = "192.168.4.1"


class Agent:
    def __init__(self, valence_table):
        """ Creating our agent """
        self.valence_table = valence_table
        self._action = None
        self.anticipated_outcome = None
        self.memory_anticipation = {}  # {action: outcome}
        self.last_and_satisfaction = []  # [action, satisfaction]

    def action(self, outcome):
        """ tracing the previous cycle """
        if self._action is not None:
            print("Action: " + str(self._action) +
                  ", Anticipation: " + str(self.anticipated_outcome) +
                  ", Outcome: " + str(outcome) +
                  ", Satisfaction: (anticipation: " + str(self.anticipated_outcome == outcome) +
                  ", valence: " + str(self.valence_table[self._action][outcome]) + ")")

            self.memory_anticipation[self._action] = outcome
            self.last_and_satisfaction.append([self._action, self.anticipated_outcome == outcome])

        """ Computing the next action to enact """
        # TODO: Implement the agent's decision mechanism
        if self._action is None:
            self._action = 0
        # Si les 4 derniers sont les mêmes et que la satisfaction est la même alors, on change d'action
        if len(self.last_and_satisfaction) >= 4:
            if self.last_and_satisfaction[-1][0] == self.last_and_satisfaction[-2][0] == self.last_and_satisfaction[-3][
                0] == self.last_and_satisfaction[-4][0]:
                if self.last_and_satisfaction[-1][1] == self.last_and_satisfaction[-2][1] == \
                        self.last_and_satisfaction[-3][1] == self.last_and_satisfaction[-4][1]:
                    self._action = 1 - self._action
        # TODO: Implement the agent's anticipation mechanism
        self.anticipated_outcome = 0
        if self._action in self.memory_anticipation:
            self.anticipated_outcome = self.memory_anticipation[self._action]
        return self._action


class Environment1:
    """ In Environment 1, action 0 yields outcome 0, action 1 yields outcome 1 """

    def outcome(self, action):
        # return int(input("entre 0 1 ou 2"))
        if action == 0:
            return 0
        else:
            return 1


class Environment2:
    """ In Environment 2, action 0 yields outcome 1, action 1 yields outcome 0 """

    def outcome(self, action):
        if action == 0:
            return 1
        else:
            return 0


class Environment3:
    """ Environment 3 yields outcome 1 only when the agent alternates actions 0 and 1 """

    def __init__(self):
        """ Initializing Environment3 """
        self.previous_action = 0

    def outcome(self, action):
        _outcome = 1
        if action == self.previous_action:
            _outcome = 0
        self.previous_action = action
        return _outcome


valences = [[-1, 1], [-1, 1]]

### Test de l'agent 1 dans l'environnement 1

In [2]:
a = Agent(valences)
e = Environment1()
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = e.outcome(action)

Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: 1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome:

### Test de l'agent 1 dans l'environnement 2

In [3]:
e = Environment2()
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = e.outcome(action)

Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: 1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 1, Outcome: 0, Satisfaction: (anticipation: False, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome

## Agent 2 : L'agent qui préférait les interactions positives
(sauf s'il s'ennuie)

L’agent 2 doit choisir préférentiellement les interactions qui ont une valeur hédoniste positive, sauf s’il s’ennuie, auquel cas il préfère faire une action différente même si elle conduit à une interaction de valeur négative.

Dans la trace, on doit donc voir que l’agent répète plusieurs fois une action qui produit une interaction positive jusqu’à ce qu’il s’ennuie. Ensuite, il fait une seule fois une action différente qui produit une interaction de valeur négative. Ensuite, il fait à nouveau plusieurs fois l’action qui produit une interaction de valeur positive (Figure 1).

![Figure 1](https://user-images.githubusercontent.com/11695651/98084964-e7488680-1e7c-11eb-901a-5f3b6003c432.PNG)

_Figure 1. Noter que pendant les 4 premiers cycles d'interaction, l'agent n'essaie pas action 1 car il ignore encore qu'elle produit outcome 1 qui correspond à une interaction de valence positive_

Tester votre agent dans Environment1 et dans Environment2. Testez aussi votre agent avec une table de valences différentes, par exemple valences = [[1, -1], [1, -1]]

### Code de l'agent 2

In [10]:
class Agent2:
    def __init__(self, valence_table):
        """ Creating our agent """
        self.valence_table = valence_table
        self._action = None
        self.anticipated_outcome = None
        self.memory_anticipation = {}  # {action: outcome}
        self.last_and_satisfaction = []  # [action, satisfaction]

    def action(self, outcome):
        """ tracing the previous cycle """
        if self._action is not None:
            print("Action: " + str(self._action) +
                  ", Anticipation: " + str(self.anticipated_outcome) +
                  ", Outcome: " + str(outcome) +
                  ", Satisfaction: (anticipation: " + str(self.anticipated_outcome == outcome) +
                  ", valence: " + str(self.valence_table[self._action][outcome]) + ")")

            self.memory_anticipation[self._action] = outcome
            self.last_and_satisfaction.append([self._action, self.anticipated_outcome == outcome])

        """ Computing the next action to enact """
        # TODO: Implement the agent's decision mechanism
        if self._action is None:
            self._action = 0
        # Si on a fait 4 actions identiques, on change d'action 
        if len(self.last_and_satisfaction) >= 4:
            if self.last_and_satisfaction[-1][0] == self.last_and_satisfaction[-2][0] == self.last_and_satisfaction[-3][
                0] == self.last_and_satisfaction[-4][0]:
                self._action = 1 - self._action
                return self._action
        # Si on connait une action qui rapporte une valence plus grande que l'action actuelle, on change d'action
        for action in self.memory_anticipation:
            if self.valence_table[action][self.memory_anticipation[action]] > self.valence_table[self._action][
                self.memory_anticipation[self._action]]:
                self._action = action

        # TODO: Implement the agent's anticipation mechanism
        self.anticipated_outcome = 0
        if self._action in self.memory_anticipation:
            self.anticipated_outcome = self.memory_anticipation[self._action]
        return self._action

### Test de l'agent 2 dans l'environnement 1

In [11]:
a = Agent2(valences)
e = Environment1()
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = e.outcome(action)

Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0,

### Test de l'agent 2 dans l'environnement 2

In [12]:
e = Environment2()
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = e.outcome(action)

Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0,

In [13]:
valences = [[1, -1], [1, -1]]
a = Agent2(valences)
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = e.outcome(action)

Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcome: 0, Satisfaction: (anticipation: False, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome

## Agente 3 : L'agent qui pilotait une tortue
Excuter l'Agent2 que vous avez fait précédemment dans l'environnement TurtlePy. Pour cela, modifiez world.py pour que votre agent intéragisse avec l'environnement Turtlepy_enacter.py.

L'environnement TurtlePy_enacter renvoie outcome 0 quand la tortue avance sans se cogner, et outcome 1 quand elle se cogne sur le bord de la fenêtre. Il peut être nécessaire d'agrandir la fenêtre avec votre souris pour voir le bord.

![Figure 1](https://user-images.githubusercontent.com/11695651/140096204-1518e200-fc1f-4f5c-9615-39a058fa4368.PNG)

_Figure 1: Les déplacements générées par TurtlePy-enacter dans l'environnement TurtlePy_

Créer un Agent3 en modifiant votre Agent2 pour qu'il puisse choisir parmi 3 actions: 0, 1 ou 2. Choisissez des valences pour les interactions qui font que l'agent ne se retrouve pas coincé sur un bord de l'environnement TurtlePy.

Modifier le code de Agent3 pour rendre ses comportements encore un peu plus intéressants mais sans coder des présuppositions sur ses actions ni sur les outcomes. Il faut que votre agent génère des comportements intéressants même si on inverse les codes des actions et des outcomes dans l'environnement (mais on garde la possibilité d'adapter la table des valences).

### Exécution de l'agent 2 dans l'environnement TurtlePy

In [17]:
from turtlepy_enacter import TurtlePyEnacter

turtle = TurtlePyEnacter()
valences = [[1, -1], [1, -1]]
a = Agent2(valences)
outcome = 0
for i in range(20):
    action = a.action(outcome)
    outcome = turtle.outcome(action)

Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcom

### Création de l'agent 3

In [1]:
class Agent3:
    def __init__(self, valence_table):
        """ Creating our agent """
        self.valence_table = valence_table
        self._action = None
        self.anticipated_outcome = None
        self.memory_anticipation = {}  # {action: outcome}
        self.last_and_satisfaction = []  # [action, satisfaction]

    def action(self, outcome):
        """ tracing the previous cycle """
        if self._action is not None:
            print("Action: " + str(self._action) +
                  ", Anticipation: " + str(self.anticipated_outcome) +
                  ", Outcome: " + str(outcome) +
                  ", Satisfaction: (anticipation: " + str(self.anticipated_outcome == outcome) +
                  ", valence: " + str(self.valence_table[self._action][outcome]) + ")")

            self.memory_anticipation[self._action] = outcome
            self.last_and_satisfaction.append([self._action, self.anticipated_outcome == outcome])

        """ Computing the next action to enact """
        if self._action is None:
            self._action = 0
        # Si on a fait 4 actions identiques, on change d'action 
        if len(self.last_and_satisfaction) >= 4:
            if self.last_and_satisfaction[-1][0] == self.last_and_satisfaction[-2][0] == self.last_and_satisfaction[-3][
                0] == self.last_and_satisfaction[-4][0]:
                self._action = (self._action + 1) % 3
                return self._action
            
        # Si on connait une action qui rapporte une valence plus grande que l'action actuelle, on change d'action
        for action in self.memory_anticipation:
            if self.valence_table[action][self.memory_anticipation[action]] > self.valence_table[self._action][
                self.memory_anticipation[self._action]]:
                self._action = action
        

        self.anticipated_outcome = 0
        if self._action in self.memory_anticipation:
            self.anticipated_outcome = self.memory_anticipation[self._action]
        return self._action





### Exécution de l'agent 3

In [6]:
valences = [[1, -1], [1, -1], [1, -1]]
turtle = TurtlePyEnacter()
a = Agent3(valences)
outcome = 0
for i in range(200):
    action = a.action(outcome)
    outcome = turtle.outcome(action)
    turtle.screen.listen()

Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 0, Anticipation: 0, Outcome: 0, Satisfaction: (anticipation: True, valence: 1)
Action: 1, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 0, Outcome: 1, Satisfaction: (anticipation: False, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 0, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcome: 1, Satisfaction: (anticipation: True, valence: -1)
Action: 1, Anticipation: 1, Outcom

: 

## Agent 4 : L'agent qui adaptait ses actions au contexte
Créer l’Agent4 qui apprend à anticiper les résultats de ses actions dans n’importe lequel des trois environnements 1, 2 ou 3. Faire en sorte que L'Agent4 utilise cette nouvelle capacité d'anticipation pour choisir les actions qui produisent des interactions qui ont une valence positive.

L’agent 4 va donc devoir choisir sa prochaine action en fonction du contexte dans lequel il se situe. Nous allons caractériser le contexte par l’interaction (couple [action, outcome]) qui a été effectuée au cycle d’avant. A chaque fin de cycle t, l'agent doit mémoriser la séquence [interaction(t-1), interaction(t)] qui a été effectuée.

Pour faciliter l'implémentation, utiliser la class Interaction disponible dans resources.py.

Le mécanisme prédictif de l’agent va se baser sur cette mémoire des séquences pour anticiper l’interaction qu’il pourra faire au temps t+1 connaissant l’interaction qu’il a faite au temps t.

![Figure 1](https://user-images.githubusercontent.com/11695651/142997477-f6fe1338-f097-454e-aa56-42f36c7d1844.PNG)

_Figure 1: Exemple de trace de l'Agent4 dans l'Environnement3._

Tester l'Agent4 dans l'environnement TurtlePy utilisé précédemment. Il ne peut pas toujours anticiper qu'il va se cogner, mais quand il se cogne, il pourra anticiper que s'il essaie d'avancer encore, il se cognera à nouveau.