# **TD4 IA** - Le perceptron, fonctions logiques et le problème du XOR

# Modèle du perceptron avec une fonction d'activation Heaviside

In [1]:
import numpy as np

def unit_step(v):
    """ 
    Heavyside Step function. v must be a scalar 
    """
    if v >= 0:
        return 1
    else:
        return 0

def perceptron(x, w, b):
    """ 
    Function implemented by a perceptron with weight vector w and bias b 
    y = f(w*x + b)
    """
    v = np.dot(w, x) + b
    y = unit_step(v)
    return y

# NON logique (NOT)

w = 1, b = -0.5

In [2]:
def NOT_percep(x):
    return perceptron(x, w=-1, b=0.5)

Test du perceptron implémentant un OR

In [3]:
print("NOT(0) = {}".format(NOT_percep(0)))
print("NOT(1) = {}".format(NOT_percep(1)))

NOT(0) = 1
NOT(1) = 0


# ET logique (AND)
w1 = 1, w2 = 1, b = -1.5

In [4]:
def AND_percep(x):
    # weights: w1 = 1, w2 = 1
    w = np.array([1, 1])
    # biais
    b = -1.5
    return perceptron(x, w, b)

# Test
example1 = np.array([1, 1])
example2 = np.array([1, 0])
example3 = np.array([0, 1])
example4 = np.array([0, 0])

print("AND({}, {}) = {}".format(1, 1, AND_percep(example1)))
print("AND({}, {}) = {}".format(1, 0, AND_percep(example2)))
print("AND({}, {}) = {}".format(0, 1, AND_percep(example3)))
print("AND({}, {}) = {}".format(0, 0, AND_percep(example4)))

AND(1, 1) = 1
AND(1, 0) = 0
AND(0, 1) = 0
AND(0, 0) = 0


# OU logique (OR)
w1 = 1, w2 = 1, b = -0.5

In [5]:
def OR_percep(x):
    # weights: w1 = 1, w2 = 1
    w = np.array([1, 1])
    # biais
    b = -0.5
    return perceptron(x, w, b)

# Test
example1 = np.array([1, 1])
example2 = np.array([1, 0])
example3 = np.array([0, 1])
example4 = np.array([0, 0])

print("OR({}, {}) = {}".format(1, 1, OR_percep(example1)))
print("OR({}, {}) = {}".format(1, 0, OR_percep(example2)))
print("OR({}, {}) = {}".format(0, 1, OR_percep(example3)))
print("OR({}, {}) = {}".format(0, 0, OR_percep(example4)))

OR(1, 1) = 1
OR(1, 0) = 1
OR(0, 1) = 1
OR(0, 0) = 0


Est-il **possible de trouver des paramètres pour un simple perceptron (w1, w2 et b)** de tel sorte qu'il **resolve le problème du OU Exclusif (XOR)** ?<br>
Inutile de chercher, la réponse est non, **ces paramètres n'existent pas** !<br>
La raison est que le **problème du XOR n'est pas linérairement séparable**.

La solution consiste à **combiner de multiples séparateurs linéaires** en introduisant des **unités dites "cachées"** dans les réseaux : un **perceptron multi-couches** !<br>
Mais le **nombre de paramètres augmente** et la **recherche des bonnes valeurs** de paramètres devient **compliquée**...<br>
Or, vous savez à présent entrainer des réseaux pour leur faire apprendre des fonctions...<br>
La **solution** consiste donc **entrainer un perceptron multi-couches** pour lui faire **apprendre la fonction XOR** !

# OU Exclusif logique (XOR) : une combinaison de fonctions logiques de base
- Avant cela, on peut aussi vérifier que la fonction OU EXCLUSIF entre 2 entrées x1 et x2 peut se réaliser à partir des fonctions logiques de bases. 
- On peut en effet écrire : `XOR(x1, x2) = AND(NOT(AND(x1,x2)), OR(x1,x2))`

In [6]:
def XOR_net(x):
    gate_1 = AND_percep(x)
    gate_2 = NOT_percep(gate_1)
    gate_3 = OR_percep(x)
    new_x = np.array([gate_2, gate_3])
    output = AND_percep(new_x)
    return output

print("XOR({}, {}) = {}".format(1, 1, XOR_net(example1)))
print("XOR({}, {}) = {}".format(1, 0, XOR_net(example2)))
print("XOR({}, {}) = {}".format(0, 1, XOR_net(example3)))
print("XOR({}, {}) = {}".format(0, 0, XOR_net(example4)))

XOR(1, 1) = 0
XOR(1, 0) = 1
XOR(0, 1) = 1
XOR(0, 0) = 0


# Apprentissage de la fonction logique XOR par un réseau de neurone

#### Import des librairies

In [7]:
import tensorflow as tf
import datetime
from keras.models import Sequential
from keras.layers.core import Dense
import numpy as np
import matplotlib.pyplot as plt

#### Données d'entrainement

In [8]:
x_train = np.array([[0,0], [0,1], [1,0], [1,1]])
y_train = np.array([[0], [1], [1], [0]])

## <font color="red">**Exo1**</font> : Construction d'un perceptron multi-couches pour l'apprentissage de la fonction XOR
- Construire un modèle de perceptron multi-couches avec 1 couche cachée de 8 neurones
- Vous utiliserez une fonction d'activation `tanh` pour les neurones de la couche cachée et une fonction d'activation `sigmoid`pour les neurones de la couche de sortie

In [None]:
model = Sequential()
# A COMPLETER...

In [None]:
model.summary()

#### Hyperparamètres

In [None]:
learning_rate = 0.1
batch_size = 1
nb_epoch = 1000

#### Compilation du modèle
- on utilise l'algorithme de Stochastic Gradient Descent (`SGD`) comme optimizer
- il s'agit d'un problème de classification binaire, on utilise donc une loss de type `binary_crossentropy`

In [None]:
sgd = tf.keras.optimizers.SGD(learning_rate=learning_rate)
model.compile(loss='binary_crossentropy',
              optimizer=sgd, 
              metrics=['accuracy'])

On sauvegarde les poids du modèle avant entrainement. On pourra ainsi les recharger plus loin pour recommencer un apprentissage de 0

In [None]:
model.save_weights('model.h5')

## <font color="red">**Exo2**</font> : Entrainement du modèle
- Entrainer votre modèle pour 1000 epochs

In [None]:
history = model.fit(...) # A COMPLETER

On peut afficher les poids du réseau après apprentissage

In [None]:
for layer in model.layers:
    weights = layer.get_weights()
    print(weights)

#### Evaluation : vérifions que le réseau a bien appris une fonction logique XOR !

In [None]:
print(model.predict(x_train))
print(model.predict(x_train).round())   # On fait un arrondi pour avoir des valeurs entières 0 ou 1

#### Affichons enfin la courbe de la loss et de l'accuracy en fonction du nombre d'epoch

In [None]:
# Plot history of the loss and Accuracy
plt.plot(history.history['loss'], label='Loss (training data)')
plt.plot(history.history['accuracy'], label='Accuracy (training data)')
plt.title('Loss for XOR')
plt.ylabel('Loss value')
plt.xlabel('No. epoch')
plt.legend(loc="upper right")
plt.show()

## <font color="red">**Exo3**</font> : Early Stopping de l'apprentissage (arrêt prématuré)
- La figure ci-dessus montre que la loss n'évolue plus beaucoup après environ 500 epoch
- On pourrait donc pu arrêter l'entrainement avant la fin (i.e. les 1000 epochs)...
- Keras a prévu ce type de situation et permet de définir une callback `EarlyStopping` dont la documentation se trouve [ici](https://keras.io/api/callbacks/early_stopping/).
- Etudier les paramètres passés à la callback `EarlyStopping` ci-dessous. 
- Sous quelle condition l'apprentissage va-t-il s'arrêter prématurément ?
- Réentrainer votre modèle avec le code ci-dessous et observer le nombre d'epoch lors de l'arrêt de l'apprentissage

In [None]:
# Avant de relancer un entrainement, on restaure les poids aléatoires initiaux (avant entrainement)
model.load_weights('model.h5')   

In [None]:
# Definition d'une callback pour éventuellement arrêter l'entrainement avant le nombre d'epoch 
# Ici, on monitore la loss (i.e. l'erreur). Si la loss n'évolue pas de 0.0001 pendant 3 epochs, on s'arrete 
callback = tf.keras.callbacks.EarlyStopping(monitor='loss', min_delta=0.0001, patience=3, verbose=1, mode="min", 
                                            baseline=None, restore_best_weights=True)
    
history = model.fit(x_train, y_train, epochs=nb_epoch, batch_size=batch_size, callbacks=[callback], verbose=1)

In [None]:
print(model.predict(x_train))
print(model.predict(x_train).round())

In [None]:
# Plot history of the loss and Accuracy
plt.plot(history.history['loss'], label='Loss (training data)')
plt.plot(history.history['accuracy'], label='Accuracy (training data)')
plt.title('Loss for XOR')
plt.ylabel('Loss value')
plt.xlabel('No. epoch')
plt.legend(loc="upper right")
plt.show()

## <font color="red">**Exo4**</font> : 
* Construisez cette fois-ci un réseau de neurones avec 2 couches cachées de 8 neurones chacune
* Vous utiliserez toujours une fonction d'activation `tanh` pour les neurones des couches cachées et une fonction d'activation `sigmoid`pour les neurones de la couche de sortie
* Est-ce que le réseau apprend plus vite ?

Vos réponses:

#### MLP avec 2 couches cachées

In [None]:
model2 = Sequential()
# A COMPLETER...

In [None]:
model2.summary()

#### Compilation du modèle

In [None]:
sgd = tf.keras.optimizers.SGD(learning_rate=learning_rate)  # on utilise l'algorithme de Stochastic Gradient Descent (SGD)
model2.compile(loss='binary_crossentropy',    # il s'agit d'un problème de classification binaire
               optimizer=sgd, 
               metrics=['accuracy'])

In [None]:
model2.save_weights('model2.h5')

In [None]:
# Definition d'une callback pour éventuellement arrêter l'entrainement avant le nombre d'epoch 
# Ici, on monitore la loss (i.e. l'erreur). Si la loss n'évolue pas de 0.0001 pendant 3 epochs, on s'arrete 
callback = tf.keras.callbacks.EarlyStopping(monitor='loss', min_delta=0.0001, patience=3, verbose=1, mode="min", 
                                            baseline=None, restore_best_weights=True)
    
history2 = model2.fit(x_train, y_train, epochs=nb_epoch, batch_size=batch_size, callbacks=[callback], verbose=1)

#### Evaluation

In [None]:
print(model2.predict(x_train))
print(model2.predict(x_train).round())

In [None]:
# Plot history of the loss and Accuracy
plt.plot(history2.history['loss'], label='Loss (training data)')
plt.plot(history2.history['accuracy'], label='Accuracy (training data)')
plt.title('Loss for XOR')
plt.ylabel('Loss value')
plt.xlabel('No. epoch')
plt.legend(loc="upper right")
plt.show()

## <font color="red">**Exo5**</font> : Entrainer à nouveau votre modèle MLP après avoir changer les hyperparamètres
* dimensions du réseau, 
* learning rate, 
* optimizer, 
* fonction d'activation... 