# Quelques exemples de fonctions d'activation de base



### Activation functions

In [None]:
import math
import matplotlib.pyplot as plt
import numpy as np


x = np.arange(-6, 6, 0.1)

### Linear  :  Fonction d'activation linéaire

C'est une fonction simple de la forme: f(x) = ax ou f(x) = x. En gros, l'entrée passe à la sortie sans une très grande modification ou alors sans aucune modification. 

In [None]:
def linear(x):
    a = []
    for item in x:
        a.append(item)
    return a

y = linear(x)

plt.plot(x,y)
plt.grid()
plt.show()


### Sigmoid

En mathématiques, la fonction sigmoïde (dite aussi courbe en S) est définie par :

$$ f(x)=\frac{1}{1 + e^{- x}}$$ pour tout réel x ;


Le but premier de la fonction est de réduire la valeur d'entrée pour la réduire entre 0 et 1. En plus d'exprimer la valeur sous forme de probabilité, si la valeur en entrée est un très grand nombre positif, la fonction convertira cette valeur en une probabilité de 1. A l'inverse, si la valeur en entrée est un très grand nombre négatif, la fonction convertira cette valeur en une probabilité de 0. D'autre part, l'équation de la courbe est telle que, seules les petites valeurs influent réellement sur la variation des valeurs en sortie.

La fonction Sigmoïde a plusieurs défaults:

- Elle n'est pas centrée sur zéro, c'est à dire que des entrées négatives peuvent engendrer des sorties positives.

- Etant assez plate, elle influe assez faiblement sur les neurones par rapport à d'autres fonctions d'activations. Le résultat est souvent très proche de 0 ou de 1 causant la saturation de certains neurones.

- Elle est couteuse en terme de calcul car elle comprend la fonction exponentielle.


In [None]:
def sigmoid(x):
    a = []
    for item in x:
        a.append(1/( (1+math.exp(-item) * 1))) 
        # ici j'ai pri A = 1 : plus A est grand plus on se rapproche à la fonction echelon ...
        
    return a

y = sigmoid(x)

plt.plot(x,y)
plt.grid()
plt.show()


### Tahn :  Tangente Hyperbolique 

Cette fonction ressemble à la fonction Sigmoïde. La différence avec la fonction Sigmoïde est que la fonction Tanh produit un résultat compris entre -1 et 1. La fonction Tanh est en terme général préférable à la fonction Sigmoïde car elle est centrée sur zéro. Les grandes entrées négatives tendent vers -1 et les grandes entrées positives tendent vers 1.

Mis à part cet avantage, la fonction Tanh possède les mêmes autres inconvénients que la fonction Sigmoïde.

In [None]:
def tanh(x, derivative=False):
    if (derivative == True):
        return (1 - (x ** 2))
    return np.tanh(x)


y = tanh(x)

plt.plot(x,y)
plt.grid()
plt.show()

### ReLU : Unité de Rectification Linéaire
Pour résoudre le problème de saturation des deux fonctions précédentes (Sigmoïde et Tanh) il existe la fonction ReLU (Unité de Rectification Linéaire). Cette fonction est la plus utilisée.

La fonction ReLU est inteprétée par la formule: f(x) = max(0, x). Si l'entrée est négative la sortie est 0 et si elle est positive, alors la sortie est égale à x. Cette fonction d'activation augmente considérablement la convergence du réseau et ne sature pas.

Mais la fonction ReLU n'est pas parfaite. Si la valeur d'entrée est négative, le neurone reste inactif, ainsi les poids ne sont pas mis à jour et le réseau n’apprend pas.

In [None]:
def relu(x):
    a = []
    for item in x:
        if item > 0:
            a.append(item)
        else:
            a.append(0)
    return a


y = relu(x)

plt.plot(x,y)
plt.grid()
plt.show()

## Construire un modèle de réseaux de neurones 

In [None]:
import tensorflow as tf
from tensorflow import keras
print (tf.__version__)
keras.__version__

In [None]:
from keras.datasets import mnist

#(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
# the data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [None]:
x_train.shape

In [None]:
y_train

In [None]:
x_train = x_train.reshape(60000, 784) #  28*28
x_test = x_test.reshape(10000, 784)

x_train = x_train.astype('float32')
x_test = x_test.astype('float32')

x_train /= 255
x_test /= 255

from tensorflow.keras.utils import to_categorical

y_train = keras.utils.to_categorical(y_train, num_classes=10)
y_test = keras.utils.to_categorical(y_test, num_classes=10)

In [None]:
y_train

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

# Declaration du modèle en Tensorflow2.0
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(10, activation='sigmoid', input_dim =(784)))
model.add(tf.keras.layers.Dense(10, activation='sigmoid'))
model.add(tf.keras.layers.Dense(10, activation='softmax'))


# résumé du modèle
model.summary()



In [None]:
batch_size = 100
#num_classes = 10
epochs= 50

model.compile(loss='categorical_crossentropy',  optimizer='SGD',  metrics=['accuracy'])





In [None]:
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.1,verbose=1 )

#verbose: Integer. 0, 1, or 2. Verbosity mode. 0 = silent, 1 = progress bar, 2 = one line per epoch.
# Je vous invite à lire la documentation : https://keras.io/models/sequential/

In [None]:
test_loss, test_acc = model.evaluate(x_test, y_test,verbose=0)

print('Test loss:', test_loss)
print('Test accuracy:', test_acc)

## Exercice : 
On a obtenu avec ce modèle basique, un taux d'accuracy égale à 84,64%.
- Essayer d'améliorer la performence du modèle, en modifiant les fonctions d'activation, ou/et en n ajoutant le nombre de neurones et des couches intermédiaires.

