<img src="https://datascientest.fr/train/assets/logo_datascientest.png", style="height:150px">

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Introduction au Deep Learning </h1></center>
<center><h2> Concepts fondamentaux </h2></center>

<hr style="border-width:2px;border-color:#75DFC1">

> L'objectif de ce module de formation est de vous familiariser avec les concepts fondamentaux du *deep learning*. Ces concepts vous permettront de comprendre les algorithmes qui nous permettent de construire et entraîner un réseau de neurones. 
>
> Ce module ne compte pas d'exercices pratiques comme les autres et ne sert qu'à illustrer ces concepts le plus clairement possible.
>
> Il n'y a donc aucun pré-requis technique pour aborder ce module à part un niveau très basique en algèbre linéaire et calcul différentiel.

* Veuillez attendre la fin du chargement du notebook:

In [1]:
import ipywidgets as widgets
from IPython.display import display


progress = widgets.IntProgress(
    value=0,
    min=0,
    max=11,
    step=1,
    description='Loading :',
    bar_style='success', # 'success', 'info', 'warning', 'danger' or ''
    orientation='horizontal')


def progress_complete(change):
    if(progress.value == 11):
        progress.description = "Ready"
    else:
        progress.description = "Loading "+ str(int((progress.value / 11)*100)) + "%:"
    
progress.observe(progress_complete)

display(progress)

IntProgress(value=0, bar_style='success', description='Loading :', max=11)

### Classification grâce au produit scalaire usuel.

> Le produit scalaire est utilisé pour la classification grâce à ses propriétés géométriques. Le résultat produit par le produit scalaire entre deux vecteurs est très facile à interpréter.
>
> Dans la figure interactive suivante, vous pouvez apercevoir un point et un vecteur. Le point **x** de couleur bleue et de coordonnées **${(x_1, x_2)}$** est le point que nous devons classifier. Le vecteur **w** de couleur verte et de coordonnées **${(w_1, w_2)}$** est le vecteur qui nous permettra de le classifier.
>
> La classification avec le produit scalaire se fait ainsi:
> * Si le produit scalaire entre **x** et **w** est **positif**, **x sera classifié à 1** (de couleur bleue).
> * Si le produit scalaire entre **x** et **w** est **négatif**, **x sera classifié à 0** (de couleur rouge).
>
> La **ligne verte perpendiculaire à w** représente tous les points du domaine tels que **le produit scalaire avec w vaut 0**. On appelle cette ligne la **frontière de décision** du problème de classification.

In [2]:
import ipyvolume as ipv
import numpy as np
import ipywidgets as widgets
import bqplot as bq
import bqplot.pyplot as plt
from IPython.display import display
import time


######################################################################
#                                                                    #
#                  Classification using Dot Product                  #
#                                                                    #
######################################################################
plt.clear()
x = np.array([1.0, 0.0])

w = np.array([0, 1.0])

w_ort = np.array([-w[1], w[0]])
w_ort = w_ort/np.linalg.norm(w_ort, ord = 2)

#dot_fig = plt.figure()


dot_lin_sc = bq.LinearScale(min = -5, max = 5)

dot_x_point = plt.scatter(x = np.array([x[0]]),
                     y = np.array([x[1]]),
                     scales={'x': dot_lin_sc, 'y': dot_lin_sc},
                     colors = ['blue'])

dot_x_lineto_w = plt.plot(x = [np.dot(w, x)*w[0], x[0]],
                      y = [np.dot(w, x)*w[1], x[1]],
                      colors = ['red'],
                      scales={'x': dot_lin_sc, 'y': dot_lin_sc},
                      line_style = 'dashed'
                      ) 

dot_x_proj_w = plt.plot(x = [np.dot(w, x)*w[0], 0],
                    y = [np.dot(w, x)*w[1], 0],
                    colors = ['red'],
                    scales={'x': dot_lin_sc, 'y': dot_lin_sc},
                    line_style = 'dashed')

dot_w_line = plt.plot(x =[0, w[0], 0.8*w[0] - w[1]/10, w[0], 0.8*w[0] + w[1]/10],
                  y = [0, w[1], 0.8*w[1] + w[0]/10, w[1], 0.8*w[1] - w[0]/10],
                  scales={'x': dot_lin_sc, 'y': dot_lin_sc},
                  colors = ['green'])

dot_w_plane = plt.plot(x = [- w_ort[0]/np.linalg.norm(w_ort, ord = 2)*30, w_ort[0]/np.linalg.norm(w_ort, ord = 2)*30],
                   y = [- w_ort[1]/np.linalg.norm(w_ort, ord = 2)*30, w_ort[1]/np.linalg.norm(w_ort, ord = 2)*30],
                   scales={'x': dot_lin_sc, 'y': dot_lin_sc},
                   colors = ['green'])

dot_label_x = plt.label([" "],
                    x = [x[0]],
                    y = [x[1]],
                    x_offset = -50,
                    y_offset = -15,
                    default_size = 12,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["blue"])

dot_label_w = plt.label(["w = ("+ str(w[0])+", " +str(w[1]) + ")"],
                    x = [w[0]],
                    y = [w[1]],
                    x_offset = 10,
                    y_offset = -10,
                    default_size = 12,
                    font_weight = 'bolder',
                    colors = ["green"])

dot_label_dot_xw = plt.label([" "],
                    x = [w[0]],
                    y = [w[1]],
                    x_offset = 5,
                    y_offset = 5,
                    default_size = 24,
                    font_weight = 'bolder',
                    colors = ["blue"])


dot_ax_x = bq.Axis(scale=dot_lin_sc,
                grid_lines='solid')

dot_ax_y = bq.Axis(scale=dot_lin_sc,
                orientation='vertical',
                grid_lines='solid')

dot_fig = plt.Figure(marks = [dot_x_point, dot_x_lineto_w, dot_x_proj_w, dot_w_line,
                              dot_w_plane, dot_label_x, dot_label_w, dot_label_dot_xw],
                     axes = [dot_ax_x, dot_ax_y],
                     title = "Classification using Dot Product")
dot_fig.layout.height = '400px'
dot_fig.layout.width = '400px'

display(dot_fig)

progress.value += 1

@widgets.interact(
          x1 = widgets.FloatSlider(min=-4, max=4, step=0.1, value=-2),
          x2 = widgets.FloatSlider(min=-4, max=4, step=0.1, value=1.0),
          w1 = widgets.FloatSlider(min=-4, max=4, step=0.1, value=0),
          w2 = widgets.FloatSlider(min=-4, max=4, step=0.1, value=2))

def dot_classification(x1, x2, w1, w2):
    dot_x_point.x = [x1]
    dot_x_point.y = [x2]
    
    w = np.array([w1, w2])
    w_ort = np.array([-w[1], w[0]])
    w_ort = w_ort/np.linalg.norm(w_ort, ord = 2)
    
    dot_w_line.x =[0, w[0], 0.8*w[0] - w[1]/10, w[0], 0.8*w[0] + w[1]/10]
    dot_w_line.y = [0, w[1], 0.8*w[1] + w[0]/10, w[1], 0.8*w[1] - w[0]/10]
    
    dot_w_plane.x = [- w_ort[0]/np.linalg.norm(w_ort, ord = 2)*30, w_ort[0]/np.linalg.norm(w_ort, ord = 2)*30]
    dot_w_plane.y = [- w_ort[1]/np.linalg.norm(w_ort, ord = 2)*30, w_ort[1]/np.linalg.norm(w_ort, ord = 2)*30]
    
    dot_label_w.x = [w1]
    dot_label_w.y = [w2]
    dot_label_w.text = ["w = (" + str(w1) + ", " + str(w2) + ")"]
    
    dot_label_x.x = [x1]
    dot_label_x.y = [x2]
    dot_label_x.text = ["x = (" + str(x1) + ", " + str(x2) + ")"]
    
    norm_w = np.linalg.norm(w, ord = 2)
    
    dot_label_dot_xw.text = ["<w,x> = " + str(np.round(np.dot(w, np.array([x1, x2])), 3))] 
    dot_label_dot_xw.x = [np.dot(w/norm_w, np.array([x1, x2]))*(w[0]/norm_w)]
    dot_label_dot_xw.y = [np.dot(w/norm_w, np.array([x1, x2]))*(w[1]/norm_w)]
    
    if(np.dot(w/norm_w, np.array([x1, x2])) < 0):
        dot_label_x.colors = ['red']
        dot_label_dot_xw.colors = ['red']
        dot_x_point.colors = ['red']
    elif(np.dot(w/norm_w, np.array([x1, x2])) > 0):
        dot_label_x.colors = ['blue']
        dot_label_dot_xw.colors = ['blue']
        dot_x_point.colors = ['blue']
    else:
        dot_label_x.colors = ['green']
        dot_label_dot_xw.colors = ['green']
        dot_x_point.colors = ['green']
    
    dot_x_lineto_w.x = [np.dot(w/norm_w, np.array([x1, x2]))*(w[0]/norm_w), x1]
    dot_x_lineto_w.y = [np.dot(w/norm_w, np.array([x1, x2]))*(w[1]/norm_w), x2]
    
    dot_x_proj_w.x = [0,np.dot(w/norm_w, np.array([x1, x2]))*(w[0]/norm_w)]
    dot_x_proj_w.y = [0, np.dot(w/norm_w, np.array([x1, x2]))*(w[1]/norm_w)]



Figure(axes=[Axis(scale=LinearScale(max=5.0, min=-5.0)), Axis(orientation='vertical', scale=LinearScale(max=5.…

interactive(children=(FloatSlider(value=-2.0, description='x1', max=4.0, min=-4.0), FloatSlider(value=1.0, des…

> Le résultat du produit scalaire entre x et w peut s'interpréter géométriquement:
> * Si le produit scalaire entre x et w est positif, alors x est **"au dessus"** (dans la direction de w) de la frontière de décision.
> * Si le produit scalaire entre x et w est négatif, alors x est **"en dessous"** (dans la direction de w) de la frontière de décision.

### Séparabilité Linéaire

> La notion de séparabilité linéaire d'une base de données est fondamentale pour utiliser la classification par produit scalaire. 
>
>
> La figure suivante correspond à la base de données **Iris** qui contient 2 variables: `Sepal Width` et `Sepal Length` correspondant à la largeur et longueur de sépale de deux espèces d'iris différentes. Le problème de classification est le suivant:
> * **Pouvons-nous à partir de ces deux variables déterminer l'espèce d'une fleur ?**
>
> Les **points verts** de la figure correspondent aux fleurs d'espèce **iris setosa** et les **points oranges** correspondent aux fleurs d'espèce **iris virginica**. (La base de données a été normalisée pour obtenir une meilleure visualisation).

In [3]:
from IPython.display import display
from sklearn import datasets
import pandas as pd

plt.clear()
iris_X = datasets.load_iris()['data']
iris_y = datasets.load_iris()['target']
iris_y[iris_y == 2] = 1

colors = []
for i in range(iris_y.shape[0]):
    if (iris_y[i] == 0):
        colors.append('green')
    else:
        colors.append('orange')
        
scaled = iris_X[:,:2] - np.array([np.mean(iris_X[:,0]), np.mean(iris_X[:,1])])
scaled = scaled / np.array([np.std(iris_X[:,0]), np.std(iris_X[:,1])])

sep1_x_sc = plt.LinearScale(min = -4, max = 4)
sep1_y_sc = plt.LinearScale(min = -4, max = 4)
     
sep1_ax_x = plt.Axis(scale=sep1_x_sc,
                grid_lines='solid',
                label='Sepal Length')

sep1_ax_y = plt.Axis(scale=sep1_y_sc,
                orientation='vertical',
                grid_lines='solid',
                label='Sepal Width')
                        
                          # Scatter plot
    
sep1_bar = plt.Scatter(x = scaled[:,0],
                       y = scaled[:,1]-1,
                       colors = colors,
                       default_size = 10,
                       scales={'x': sep1_x_sc, 'y': sep1_y_sc})


sep1_f = plt.Figure(marks=[sep1_bar],
               axes=[sep1_ax_x, sep1_ax_y],
               title='Iris Dataset',
               legend_location='bottom-right')

sep1_f.layout.height = '400px'
sep1_f.layout.width = '400px'

progress.value += 1

display(sep1_f)

Figure(axes=[Axis(label='Sepal Length', scale=LinearScale(max=4.0, min=-4.0)), Axis(label='Sepal Width', orien…

> Pour résoudre ce problème **géométriquement** avec la classification par produit scalaire, nous pouvons reformuler la question de la manière suivante:
> * **Existe-t-il une frontière de décision linéaire qui nous permettrait de séparer les deux espèces ?**
>
* Trouver à l'aide de la figure interactive suivante un vecteur w définissant une frontière de décision **séparant les points verts des points oranges**.

In [4]:
######################################################################
#                                                                    #
#                       Interactive Loss Plot                        #
#                                                                    #
######################################################################


                            # Data
    
from sklearn import datasets
import pandas as pd

iris_X = datasets.load_iris()['data']
iris_y = datasets.load_iris()['target']
iris_y[iris_y == 2] = 1

colors = []
for i in range(iris_y.shape[0]):
    if (iris_y[i] == 0):
        colors.append('green')
    else:
        colors.append('orange')
        
scaled = iris_X[:,:2] - np.array([np.mean(iris_X[:,0]), np.mean(iris_X[:,1])])
scaled = scaled / np.array([np.std(iris_X[:,0]), np.std(iris_X[:,1])])

################################################################################    
    
                            # Scales

from IPython.display import display

sep2_x_sc = plt.LinearScale(min = -4, max = 4)
sep2_y_sc = plt.LinearScale(min = -4, max = 4)
     
sep2_ax_x = plt.Axis(scale=sep2_x_sc,
                grid_lines='solid',
                label='Sepal Length')

sep2_ax_y = plt.Axis(scale=sep2_y_sc,
                orientation='vertical',
                grid_lines='solid',
                label='Sepal Width')
                        
                          # Scatter plot
    
sep2_bar = plt.Scatter(x = scaled[:,0],
                  y = scaled[:,1]-1,
                  colors = colors,
                  default_size = 10,
                  scales={'x': sep2_x_sc, 'y': sep2_y_sc})

                             # Vector
    
w1, w2 = 1.0, 1.0
w = np.array([w1, w2])

sep2_vector_line = plt.Lines(x = np.array([0, w1]),
                        y = np.array([0, w2]),
                        colors = ['red', 'red'],
                        scales={'x': sep2_x_sc, 'y': sep2_y_sc})

sep2_vector_label = plt.Label(x = [w1],
                         y = [w2],
                         text = ['(w1, w2)'],
                         size = [10])

sep2_vector_plane = plt.Lines(x = [-30*(w2 / np.linalg.norm(w)), 30*(w2 / np.linalg.norm(w))],
                         y = [30*(w1 / np.linalg.norm(w)), -30*(w1 / np.linalg.norm(w))],
                         colors = ['red', 'red'],
                         scales={'x': sep2_x_sc, 'y': sep2_y_sc})

sep2_f = plt.Figure(marks=[sep2_bar, sep2_vector_line, sep2_vector_label, sep2_vector_plane],
               axes=[sep2_ax_x, sep2_ax_y],
               title='Iris Dataset',
               legend_location='bottom-right')

sep2_f.layout.height = '400px'
sep2_f.layout.width = '400px'

display(sep2_f)

progress.value += 1

@widgets.interact(
          w1 = widgets.FloatSlider(min=-4, max=4, step=0.11, value=1.0),
          w2 = widgets.FloatSlider(min=-4, max=4, step=0.11, value=1.0))

                  # Fonction qui va interagir avec les widgets
    
def h(w1, w2):
    sep2_vector_line.x = [0, w1, 0.8*w1 - w2/10, w1, 0.8*w1 + w2/10]
    sep2_vector_line.y = [0, w2, 0.8*w2 + w1/10, w2, 0.8*w2 - w1/10]
    w = np.array([w1, w2])
    sep2_vector_plane.x = [-30*w2 / np.linalg.norm(w), 30*w2 / np.linalg.norm(w)]
    sep2_vector_plane.y = [30*w1 / np.linalg.norm(w), -30*w1 / np.linalg.norm(w)]
    


Figure(axes=[Axis(label='Sepal Length', scale=LinearScale(max=4.0, min=-4.0)), Axis(label='Sepal Width', orien…

interactive(children=(FloatSlider(value=1.0, description='w1', max=4.0, min=-4.0, step=0.11), FloatSlider(valu…

> Une solution possible est le vecteur `w = (-1.8, 0.95)` qui définit une frontière de décision **linéaire** séparant **parfaitement** les deux groupes d'individus. On dit alors que la base de données est **linéairement séparable**.
>
> Dans ce cas particulier, la frontière de décision porte le nom d'**hyperplan séparateur**. Nous utilisons cette dénomination car les points définissant la frontière de décision sont les points satisfaisant l'**équation de plan** ${\{ x = (x_1,x_2)\in \mathbb{R}^2 : \langle x, w \rangle = x_1 w_1 + x_2 w_2 = 0\} }$

### Fonction de Perte

> Nous avons vu que nous pouvons trouver pour la base de données Iris un hyperplan séparant parfaitement les deux espèces de fleur. Cependant, cette solution a été trouvée visuellement.
> * **Comment trouver mathématiquement un hyperplan séparateur?**
>
> Il faut d'abord trouver un moyen de quantifier la qualité de la séparation des espèces. Une des possibilités les plus simple est de **compter le nombre d'erreurs de classification que nous ferions en utilisant un vecteur spécifique**.
>
> Supposons que notre base de données contient $n$ points ${X = (x_i)_{i = 1, 2,..., n} \in \mathbb{R}^d}$ et qu'à chacun de ses points sont associées les valeurs ${Y = (y_i)_{i = 1,2,...,n} \in \{0,1\}}$ correspondant au groupe auquel appartient le point $x_i$.
>
> Dans notre exemple, la classe 1 correspondrait à l'espèce *iris setosa* et la classe 0 à l'espèce *iris virginica*.
>
> Mathématiquement, la classification d'un individu $x_i$ par un vecteur $w$ se ferait par une fonction $f$ définie ainsi:
>
>$${f(x_i, w) = \mathbb{1}_{\langle x,w \rangle \geq 0} = \begin{cases} 1 & \mbox{si } \langle x,w \rangle \geq 0 \\  0 & \mbox{si } \langle x,w \rangle < 0 \end{cases}}$$
>
> Ainsi, le nombre d'erreurs peut être calculé par une fonction de ${w = (w_1, w_2)}$, $X$ et $Y$ qui s'écrirait ainsi:
>
> $${ g(w,X,Y) = \sum_{i = 1}^{n}\mathbb{1}_{f(x_i, w)\neq y_i} }$$
>
> Cette fonction nous permet de définir un critère pour déterminer la meilleure solution à notre problème de classification. Les fonctions de ce type s'appellent des **fonctions de perte** (*loss function* en anglais). 
>
> Plus la valeur de cette fonction est basse, plus notre fonction de classification est perfromante. **Minimiser cette fonction de perte par rapport au vecteur w est donc équivalent à trouver un hyperplan séparateur**.
>
* A l'aide de la figure interactive suivante, minimiser la fonction de perte associée à la classification par le vecteur w défini par les curseurs de défilement.


* Essayer maintenant de maximiser cette fonction de perte. Quel vecteur optimal obtenez-vous? Pourquoi?

> <div class="alert alert-success">
<i class="fa fa-question-circle"></i> &emsp; 
A l'aide de votre souris vous pouvez faire pivoter la figure 3d et zoomer/dézoomer dessus.
</div>

In [5]:
import ipyvolume as ipv
import numpy as np
import ipywidgets as widgets
from bqplot import pyplot as plt
import time


def plot_3d_function(function, resolution = 200, x_range = [-10, 10], y_range = [-10, 10]):
    n = resolution
    x = np.linspace(x_range[0], x_range[1], n)
    y = np.linspace(y_range[0], y_range[1], n)
    coords = []

    i = 0
    while(i < n):
        for j in range(n):
            coords += [[x[i], y[j], function(x[i],y[j])]]
        for j in range(n):
            coords += [[x[i+1], y[n-j-1], function(x[i+1],y[n-j-1])]]
        i = i+2
    
    coords = np.array(coords)
    coords_x = coords[:,0]
    coords_y = coords[:,1]
    coords_z = coords[:,2]
    
    return coords_x, coords_y, coords_z

######################################################################
#                                                                    #
#                       Interactive Loss Plot                        #
#                                                                    #
######################################################################


                            # Data
    
from sklearn import datasets
import pandas as pd

iris_X = datasets.load_iris()['data']
iris_y = datasets.load_iris()['target']
iris_y[iris_y == 2] = 1

colors = []
for i in range(iris_y.shape[0]):
    if (iris_y[i] == 0):
        colors.append('green')
    else:
        colors.append('orange')
        
scaled = iris_X[:,:2] - np.array([np.mean(iris_X[:,0]), np.mean(iris_X[:,1])])
scaled = scaled / np.array([np.std(iris_X[:,0]), np.std(iris_X[:,1])])

################################################################################    
    
                            # Scales

from IPython.display import display

loss_x_sc = plt.LinearScale(min = -4, max = 4)
loss_y_sc = plt.LinearScale(min = -4, max = 4)
     
loss_ax_x = plt.Axis(scale=loss_x_sc,
                grid_lines='solid',
                label='Sepal Length')

loss_ax_y = plt.Axis(scale=loss_y_sc,
                orientation='vertical',
                grid_lines='solid',
                label='Sepal Width')
                        
                          # Scatter plot
    
loss_bar = plt.Scatter(x = scaled[:,0],
                  y = scaled[:,1]-1,
                  colors = colors,
                  default_size = 10,
                  scales={'x': loss_x_sc, 'y': loss_y_sc})

                             # Vector
    
w1, w2 = 1.0, 1.0
w = np.array([w1, w2])

loss_vector_line = plt.Lines(x = np.array([0, w1]),
                        y = np.array([0, w2]),
                        colors = ['red', 'red'],
                        scales={'x': loss_x_sc, 'y': loss_y_sc})

loss_vector_label = plt.Label(x = [w1],
                         y = [w2],
                         text = ['(w1, w2)'],
                         size = [10])

loss_vector_plane = plt.Lines(x = [-4*(w2 / np.linalg.norm(w)), 4*(w2 / np.linalg.norm(w))],
                         y = [4*(w1 / np.linalg.norm(w)), -4*(w1 / np.linalg.norm(w))],
                         colors = ['red', 'red'],
                         scales={'x': loss_x_sc, 'y': loss_y_sc})

loss_f = plt.Figure(marks=[loss_bar, loss_vector_line, loss_vector_label, loss_vector_plane],
               axes=[loss_ax_x, loss_ax_y],
               title='Iris Dataset',
               legend_location='bottom-right')

loss_f.layout.height = '400px'
loss_f.layout.width = '400px'


def loss_function(w1, w2):
    loss = 0
    p = 0
    for i in range(iris_y.shape[0]):
        
        if (w1*scaled[:,0][i] + w2*(scaled[:,1][i] - 1) > 0):
            prediction = 0
        else:
            prediction = 1
        loss += np.abs(prediction - iris_y[i])
    return loss/iris_y.shape[0]

loss3d_f = ipv.figure(width = 400, height = 400)
x, y, z = plot_3d_function(loss_function, resolution = 80, x_range = [-4, 4], y_range = [-4, 4])
loss3d_plott = ipv.plot(x,y,z, color = 'blue')


point_colors = np.zeros((2,3))
point_colors[0] = np.array([255,255,255])
point_colors[1] = np.array([255, 0, 0])

loss3d_point = ipv.scatter(x = np.array([w1, w1]),
                    y = np.array([w2, w2]),
                    z = np.array([loss_function(w1, w2), loss_function(w1, w2)]),
                    size = 10
                   )
loss3d_point.geo = "sphere"

loss3d_f.xlabel = "w1"
loss3d_f.ylabel = "w2"
loss3d_f.zlabel = "loss"
loss3d_f.animation = 0             # on enlève les animations  
loss3d_f.animation_exponent = 0


from ipywidgets import HBox
display(HBox([loss_f, loss3d_f]))

time.sleep(1)
loss3d_f.camera.position = (0, 0, 0)
loss3d_f.camera.position = (0, -2, 0)
            
progress.value += 1
@widgets.interact(
          w1 = widgets.FloatSlider(min=-4, max=4, step=0.11, value=1.0),
          w2 = widgets.FloatSlider(min=-4, max=4, step=0.11, value=1.0))

                  # Fonction qui va interagir avec les widgets
    
def h(w1, w2):
    loss_vector_line.x = [0, w1, 0.8*w1 - w2/10, w1, 0.8*w1 + w2/10]
    loss_vector_line.y = [0, w2, 0.8*w2 + w1/10, w2, 0.8*w2 - w1/10]
    w = np.array([w1, w2])
    loss_vector_plane.x = [-30*w2 / np.linalg.norm(w), 30*w2 / np.linalg.norm(w)]
    loss_vector_plane.y = [30*w1 / np.linalg.norm(w), -30*w1 / np.linalg.norm(w)]
    loss3d_point.x, loss3d_point.y, loss3d_point.z = np.array([w1,w1]), np.array([w2,w2]), np.array([loss_function(w1, w2)+ 0.0,0.0+ loss_function(w1, w2)])
    

HBox(children=(Figure(axes=[Axis(label='Sepal Length', scale=LinearScale(max=4.0, min=-4.0)), Axis(label='Sepa…

interactive(children=(FloatSlider(value=1.0, description='w1', max=4.0, min=-4.0, step=0.11), FloatSlider(valu…

### L'algorithme du Perceptron

> Les étapes que nous venons de suivre peuvent être automatisées dans un algorithme qui s'appelle l'algorithme du **Perceptron** inventé en 1957 par Frank Rosenblatt à l'université de Cornell. Le vocabulaire spécifique à cet algorithme est le suivant:
> * Le vecteur $w$ définissant l'hyperplan séparateur porte le nom de **vecteur de poids** (*weight vector* en anglais).
> * Le vecteur $x$ correspondant à un individu à classifier porte le nom de **vecteur d'entrée** (*input vector* en anglais).
>
> En suivant cette terminologie, le produit scalaire entre $x$ et $w$ peut être interprété comme une somme pondérée des features de x.
>
> Une autre subtilité de l'algorithme du perceptron est que le premier feature de $x$ aura **systématiquement la valeur $1$**. Ce feature artificiel sert en fait à décaler l'hyperplan séparateur dans l'espace d'une certaine valeur que l'on appelera **"biais"** (*bias term* en anglais).
>
> L'équation définissant l'hyperplan séparateur devient alors: 
> $$ \langle x, w \rangle + biais = 0$$
>
>
>Dans la figure interactive suivante, vous pouvez apercevoir l'effet de chacune des coordonnées du vecteur de poids $w = (w_1, w_2, w_3)$ et du biais $b$:
> * Le **vecteur vert** correspond au vecteur $w = (w1, w2, w3)$.
>
>
> * Le **plan quadrillé rouge** correspond au plan d'équation $\langle x, w \rangle + biais = 0$.
>
>
> * Les points **verts clair** correspondent au points tels que $ \langle x, w \rangle + biais \geq 0$.
>
>
> * Les points **bleus** correspondent au points tels que $ \langle x, w \rangle + biais \lt 0$.
>
> Le curseur de défilement `resolution` permet de définir la résolution du quadrillage de l'hyperplan définit par $w$ et $biais$.

In [6]:
import ipyvolume as ipv
import numpy as np
import ipywidgets as widgets
from bqplot import pyplot as plt
import time

################################################################################
#                                                                              #
#                            Fonctions utilitaires                             #
#                                                                              #
################################################################################

# Fonction qui génère les coordonnées x,y,z pour dessiner le vecteur en forme de flèche

def plot_3d_vector(w1, w2, w3, bias = 0, radius = 0.5, length = 1, resolution = 100):
    # Vecteurs du plan 
    w = np.array([w1, w2, w3])
    w  =length * w / np.linalg.norm(w, ord = 2)
    p1 = np.array([0, -w3, w2])                     
    p2 = np.array([-(w2*w2/w3 + w3)/w1, w2/w3, 1])

    p1 = p1 / np.linalg.norm(p1, ord = 2)
    p2 = p2 / np.linalg.norm(p2 , ord = 2)
    
    # Coordonnées des deux cercles
    if(resolution % 2 == 0):
        n_thetas = resolution + 1
    else:
        n_thetas = resolution
    
    thetas = np.linspace(0, 2*np.pi, n_thetas)
   
    base_circle = np.array([radius * (p1 * np.cos(thetas[i]) + p2 * np.sin(thetas[i])) for i in range(n_thetas)])

    top_circle_1 = base_circle + w * 0.5

    top_circle_2 = np.array([(radius * 1.5) * (p1 * np.cos(thetas[i]) + p2 * np.sin(thetas[i])) for i in range(n_thetas)])
    top_circle_2 = top_circle_2 + w * 0.5
    
    # Coordonnées de la trajectoire du plot
    
    circles = [top_circle_1[i,:] for i in range(n_thetas)]

    i = 0
    while(i < n_thetas-2):
        circles += [top_circle_1[i,:], top_circle_1[i+1,:], base_circle[i+1,:], base_circle[i+2,:]]
        i += 2
    
        
    circles += [base_circle[i,:] for i in range(n_thetas)]    
    circles += [top_circle_1[0,:]]
    i = 0
    while(i < n_thetas-2):
        circles += [top_circle_1[i,:], top_circle_1[i+1,:], top_circle_2[i+1,:], top_circle_2[i+2,:]]
        i += 2
    
    circles += [top_circle_2[0,:]]
    circles += [top_circle_2[i,:] for i in range(n_thetas)] 
    
    i = 0
    while(i < n_thetas-2):
        circles += [w, top_circle_2[i,:], w, top_circle_2[i+1,:]]
        i += 2
    
    circles = np.array(circles)    
    
    circles_x = circles[:,0]
    circles_y = circles[:,1]
    circles_z = circles[:,2] - bias/w3    
    
    return circles_x, circles_y, circles_z                          
    
    
    
    # Dimensions du plan       
d1 = 20                                                                     
d2 = 20                                          
resolution = 50

################################################################################
#                                                                              #
#                               Initialisation                                 #
#                                                                              #
################################################################################

                      # Vecteur définissant le plan

w1, w2, w3 = 1.0, 1.0, 1.0   # vecteur orthogonal au plan


p1 = np.array([0, -w3, w2])    # vecteurs du plan pour trouver les 4 coins
p2 = np.array([-(w2*w2/w3 + w3)/w1, w2/w3, 1])

p1 = d1 * p1 / np.linalg.norm(p1, ord = 2)            
p2 = d2 * p2 / np.linalg.norm(p2 , ord = 2)

                            # 4 coins du plan
point2 = p1 + p2          
point3 = p1 - p2
point4 = - point2
point1 = - point3

                 # Coordonnées pour dessiner la surface avec un grillage

L = np.linspace(0, 1, resolution)
L1 = []     # coordonnées x des points du grillage  
L2 = []     # y
L3 = []     # z

for i in range(len(L)-1):
    i = len(L)-1-i
    L1 += [point1[0]*L[i]+point4[0]*(1-L[i]),point2[0]*L[i]+point3[0]*(1-L[i]),point2[0]*L[i-1]+point3[0]*(1-L[i-1])]
    L2 += [point1[1]*L[i]+point4[1]*(1-L[i]),point2[1]*L[i]+point3[1]*(1-L[i]),point2[1]*L[i-1]+point3[1]*(1-L[i-1])]
    L3 += [point1[2]*L[i]+point4[2]*(1-L[i]),point2[2]*L[i]+point3[2]*(1-L[i]),point2[2]*L[i-1]+point3[2]*(1-L[i-1])]
L1 += [point4[0]]
L2 += [point4[1]]
L3 += [point4[2]]
for i in range(len(L)-1):
    i = len(L)-1-i
    L1 += [point4[0]*L[i]+point3[0]*(1-L[i]),point1[0]*L[i]+point2[0]*(1-L[i]),point1[0]*L[i-1]+point2[0]*(1-L[i-1])]
    L2 += [point4[1]*L[i]+point3[1]*(1-L[i]),point1[1]*L[i]+point2[1]*(1-L[i]),point1[1]*L[i-1]+point2[1]*(1-L[i-1])]
    L3 += [point4[2]*L[i]+point3[2]*(1-L[i]),point1[2]*L[i]+point2[2]*(1-L[i]),point1[2]*L[i-1]+point2[2]*(1-L[i-1])]

                      # Initialisation de la figure

d3plane_fig = ipv.figure()

                # Coordonnées d'un nuage de points aléatoire
    
scat_x, scat_y, scat_z = np.random.normal(0, 5, (3,100))

     # Couleurs des points (bleu si classification positive / vert sinon)
    
cross_prods = np.array([np.dot(np.array([scat_x[i], scat_y[i], scat_z[i]]),np.array([w1, w2, w3])) for i in range(100)])
colors = np.zeros((100,3))
colors[np.where(cross_prods < 0)] = np.array([0, 0, 255])
colors[np.where(cross_prods >= 0)] = np.array([0, 255, 0])

                      # Scatterplot aléatoire

d3plane_scat = ipv.scatter(scat_x, scat_y, scat_z, color = colors)

                       # Plot de la surface
    
d3plane_xdd = ipv.plot(np.array(L1),np.array(L2),np.array(L3))

                     # Plot du vecteur directeur

vect_x, vect_y, vect_z = plot_3d_vector(w1, w2, w3, resolution = 10, length = 5)

d3plane_vect = ipv.plot(vect_x, vect_y, vect_z, color = 'green')

                         # Styling de la figure
    
d3plane_fig.animation = 0             # on enlève les animations  
d3plane_fig.animation_exponent = 0

ipv.xyzlim(-15,15)           # étendue des axes x,y,z

d3plane_scat.geo = "sphere"         # glyphe sphere pour les points du nuage aléatoire

ipv.show()       

progress.value += 1

################################################################################
#                                                                              #
#                            Partie interactive                                #
#                                                                              #
################################################################################
                    
               # Sliders pour les coordonnées du vecteur + biais 

#:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:#
#                                                                                            #
#               Se débrouiller pour ne mettre aucune des coordonnées de w à 0                #
#                                                                                            #
#:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:DANGER:#      

@widgets.interact(
          w1 = widgets.FloatSlider(min=-5, max=5, step=0.3, value=1.0),
          w2 = widgets.FloatSlider(min=-5, max=5, step=0.3, value=1.0),
          w3 = widgets.FloatSlider(min=-5, max=5, step=0.3, value=1.0),
          bias = widgets.FloatSlider(min = -10, max = 10, step = 0.2, value = 0.0),
          resolution = widgets.IntSlider(min = 10, max = 120, step = 10, value = 70))

                  # Fonction qui va interagir avec les widgets
    
def g(w1, w2, w3, bias, resolution):
    
                        # Vecteur directeurs du plan
    
    p1 = np.array([0, -w3, w2])                     
    p2 = np.array([-(w2*w2/w3 + w3)/w1, w2/w3, 1])

    p1 = d1 * p1 / np.linalg.norm(p1, ord = 2)
    p2 = d2 * p2 / np.linalg.norm(p2 , ord = 2)
    
                            # 4 coins du plan
    
    point2 = p1 + p2          
    point3 = p1 - p2
    point4 = - point2
    point1 = - point3

                    # Coordonnées pour dessiner la surface avec un grillage

    L = np.linspace(0, 1, resolution)
    L1 = []   # coordonnées x du grillage
    L2 = []   # y
    L3 = []   # z

    for i in range(len(L)-1):
        i = len(L)-1-i
        L1 += [point1[0]*L[i]+point4[0]*(1-L[i]),point2[0]*L[i]+point3[0]*(1-L[i]),point2[0]*L[i-1]+point3[0]*(1-L[i-1])]
        L2 += [point1[1]*L[i]+point4[1]*(1-L[i]),point2[1]*L[i]+point3[1]*(1-L[i]),point2[1]*L[i-1]+point3[1]*(1-L[i-1])]
        L3 += [point1[2]*L[i]+point4[2]*(1-L[i]),point2[2]*L[i]+point3[2]*(1-L[i]),point2[2]*L[i-1]+point3[2]*(1-L[i-1])]
        
    L1 += [point4[0]]
    L2 += [point4[1]]
    L3 += [point4[2]]
    
    for i in range(len(L)-1):
        i = len(L)-1-i
        L1 += [point4[0]*L[i]+point3[0]*(1-L[i]),point1[0]*L[i]+point2[0]*(1-L[i]),point1[0]*L[i-1]+point2[0]*(1-L[i-1])]
        L2 += [point4[1]*L[i]+point3[1]*(1-L[i]),point1[1]*L[i]+point2[1]*(1-L[i]),point1[1]*L[i-1]+point2[1]*(1-L[i-1])]
        L3 += [point4[2]*L[i]+point3[2]*(1-L[i]),point1[2]*L[i]+point2[2]*(1-L[i]),point1[2]*L[i-1]+point2[2]*(1-L[i-1])]

           # Couleurs des points (bleu si classification positive / vert sinon)
    
    cross_prods = np.array([np.dot(np.array([scat_x[i], scat_y[i], scat_z[i]]),np.array([w1, w2, w3])) for i in range(100)])
    colors = np.zeros((100,3))
    colors[np.where(cross_prods + bias < 0)] = np.array([0, 0, 255])
    colors[np.where(cross_prods + bias >= 0)] = np.array([0, 255, 0])
    d3plane_scat.color = colors
    
    
                     # M.à.j du grillage
    
    d3plane_xdd.x = np.array(L1)
    d3plane_xdd.y = np.array(L2)
    d3plane_xdd.z = np.array(L3) - bias/w3
    
                    # M.à.j du vecteur orthogonal
        
    d3plane_vect.x, d3plane_vect.y, d3plane_vect.z = plot_3d_vector(w1, w2, w3, bias, resolution = 10, length = 5)


VBox(children=(Figure(animation=0.0, animation_exponent=0.0, camera=PerspectiveCamera(fov=46.0, position=(0.0,…

interactive(children=(FloatSlider(value=1.0, description='w1', max=5.0, min=-5.0, step=0.3), FloatSlider(value…

> Une autre particularité de l'algorithme du Perceptron est que la fonction de classification n'est pas tout à fait le produit scalaire avec le biais. Dans de nombreux cas, nous allons utiliser une fonction nommée d'**activation** qui va nous permettre d'utiliser une fonction de perte plus adaptée à notre problème.
>
> Les fonctions d'activation les plus utilisées pour l'algorithme du Perceptron sont la tangente hyperbolique **tanh** et la fonction logistique **sigmoid**.
>
> Supposons que les $(y_i)_{i = 1,..,n} \in \{-1, 1\} $ et que nous utilisons la fonction *tanh* comme activation. La fonction de classification devient:
>
> $$ f(x_i, w) = tanh(\langle x, w \rangle + biais) $$
>
> La fonction de perte devient:
> $$ g(w, X, Y) = \sum_{i = 1}^{n} (f(x_i) - y_i)^2 $$
>
> La fonction de classification et la fonction de perte **ne contiennent plus de fonctions indicatrices** et sont maintenant **dérivables en tout point**. Cette nuance est très importante pour la suite. De plus, la fonction de perte est **convexe** (si les données sont linéairement séparables).
>
> Une autre raison pour laquelle nous utiliserions la fonction *tanh* est que
>
> $$ tanh(\langle x, w \rangle + biais) = 0 \iff \langle x, w \rangle + biais = 0$$
> car $$ tanh(x) = 0 \iff x = 0 $$
>
> C'est-à-dire que l'équation de l'hyperplan séparateur optimal est la même que si nous n'utilisions pas de fonction d'activation.  

### Entraînement par Descente de Gradient

> Grâce à la fonction d'activation, la fonction de perte est dérivable. Nous pouvons utiliser un algorithme de minimisation nommée **algorithme de descente de gradient** pour trouver le vecteur $w$ optimal.
>
> L'algorithme de descente de gradient est très simple. Le cas le plus simple à illustrer est le cas à une dimension. Dans la figure suivante, la fonction représentée est $f(x) = x^2$ et sa dérivée est $f'(x) = 2x$.

In [7]:
import numpy as np
import bqplot.pyplot as plt

xs = np.linspace(-10, 10, 100)
ys = xs**2 + 2 #two random walks

grad1_x_sc = plt.LinearScale(min = -10, max = 10)
grad1_y_sc = plt.LinearScale(min = 0, max = 100)

grad1_lines = plt.Lines(x=xs, y=ys, colors=['red'], scales = {'x': grad1_x_sc, 'y' : grad1_y_sc})

grad1_label_min = plt.label(["Minimum"],
                    x = [0],
                    y = [2],
                    scales = {'x': grad1_x_sc, 'y' : grad1_y_sc},
                    x_offset = -30,
                    y_offset = -15,
                    default_size = 12,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["blue"])

grad1_minimum = plt.scatter(x = [0],
                      y = [2],
                      colors = ["blue"])

xk = np.random.normal(0,5,1)

grad1_label_f_prim = plt.label([" "],
                    x = xk,
                    y = xk ** 2 + 2,
                    x_offset = 0,
                    y_offset = 0,
                    default_size = 20,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["green"])

grad1_point = plt.scatter(x = xk,
                    y = xk ** 2 + 2,
                    colors = ["green"])

grad1_ax_x = bq.Axis(scale=grad1_x_sc,
                grid_lines='solid')

grad1_ax_y = bq.Axis(scale=grad1_y_sc,
                orientation='vertical',
                grid_lines='solid')

grad1_fig = plt.Figure(marks = [grad1_lines, grad1_label_min, grad1_minimum, grad1_label_f_prim, grad1_point],
                       axes = [grad1_ax_x, grad1_ax_y],
                       title = "Slope and Derivatives")

grad1_fig.layout.height = '400px'
grad1_fig.layout.width = '600px'


display(grad1_fig)

progress.value += 1

@widgets.interact(
          x = widgets.FloatSlider(min=-10, max=10, step=0.2, value= -5))

def gradient_plot(x):
    grad1_point.x = [x]
    grad1_point.y = [x**2 + 2]
    
    grad1_label_f_prim.x = [x]
    grad1_label_f_prim.y = [x**2 + 2]
    if(x < 0):
        grad1_label_f_prim.text = ["f'(x) = " + str(2 * x) + " < 0"]
        grad1_label_f_prim.x_offset = 10
        grad1_label_f_prim.colors = ["red"]
    if(x > 0):
        grad1_label_f_prim.text = ["f'(x) = " + str(2 * x) + " > 0"]
        grad1_label_f_prim.x_offset = - 140
        grad1_label_f_prim.colors = ["green"]

Figure(axes=[Axis(scale=LinearScale(max=10.0, min=-10.0)), Axis(orientation='vertical', scale=LinearScale(max=…

interactive(children=(FloatSlider(value=-5.0, description='x', max=10.0, min=-10.0, step=0.2), Output()), _dom…

> Lorsque $f'(x) < 0$ (en rouge), alors $f$ est **décroissante** au voisinage de $x$.
>
> Lorsque $f'(x) > 0$ (en rouge), alors $f$ est **croissante** au voisinage de $x$.
>
> Ainsi, un point $x_{min}$ est un minimum d'une fonction **convexe** que si $f'(x_{min}) = 0$, c'est-à-dire que $f$ doit être croissante au voisinage de tout point $x > x_{min}$ et décroissante au voisinage de tout point $x < x_{min}$
>
> Soit $x_0$ un point aléatoire du domaine de définition de $f$. L'algorithme de descente de gradient consiste alors à choisir un point dans la direction **opposée** au gradient. C'est-à-dire que:
> * Si $f'(x_0) < 0$, $f$ est décroissante au voisinage de $x_0$, ce qui veut dire que le minimum $x_{min}$ est forcément supérieur à $x_0$.
> * Si $f'(x_0) > 0$, $f$ est croissante au voisinage de $x_0$, ce qui veut dire que le minimum $x_{min}$ est forcément inférieur à $x_0$.
>
> On définit alors $x_1 = x_0 - \lambda f'(x_0)$, où $\lambda$ est appelé **le pas de descente**. Dans le contexte de l'algorithme du Perceptron et du *deep learning* en général, $\lambda$ est appelé **taux d'apprentissage** (**learning rate** en anglais).
>
> On répète l'opération jusqu'à obtenir un point $x_k$ tel que $f'(x_k) < tol$ où $tol$ est la **tolérance**, une constante très petite.
>
> > Etape 0 : Définir un point initial $x_0$ et une tolérance $tol$.
> >
> > Etape k : Tant que $f'(x_k) >= tol$ : $x_{k+1} = x_k - f'(x_k)$.

* Que se passe-t-il lorsque le pas de descente est trop petit? Lorsqu'il est trop grand?


* Pour l'initialisation $x_0 = -10$, trouver le plus petit pas de descente tel que $f'(x_k) \leq 0.001$ au bout de 20 étapes.


* Trouver un pas de descente tel que l'algorithme de descente converge vers le minimum en 1 étape pour toute initialisation $x_0$.

In [8]:
import numpy as np
import bqplot.pyplot as plt

xs = np.linspace(-10, 10, 100)
ys = xs**2 + 2

grad2_x_sc = plt.LinearScale(min = -10, max = 10)
grad2_y_sc = plt.LinearScale(min = 0, max = 100)

grad2_lines = plt.Lines(x=xs, y=ys, colors=['red', 'green'],scales = {'x': grad2_x_sc, 'y' : grad2_y_sc})

grad2_label_min = plt.label(["Minimum"],
                    x = [0],
                    y = [2],
                    x_offset = -30,
                    y_offset = -15,
                    scales = {'x': grad2_x_sc, 'y' : grad2_y_sc},
                    default_size = 12,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["blue"])

grad2_minimum = plt.Scatter(x = [0],
                      y = [2],
                      colors = ["blue"],
                      scales = {'x': grad2_x_sc, 'y' : grad2_y_sc})

xk = np.random.normal(0,5,1)

grad2_label_f_prim = plt.label([" "],
                    x = xk,
                    y = xk ** 2 + 2,
                    x_offset = 0,
                    y_offset = 0,
                    default_size = 20,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["green"])

grad2_label_x0 = plt.label(["x0"],
                    x = [-5],
                    y = [0],
                    x_offset = 10,
                    y_offset = 0,
                    default_size = 20,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["red"])

grad2_lines_x0 = plt.Lines(x = [-5, -5],
                     y = [0, 25],
                     scales = {'x': grad2_x_sc, 'y' : grad2_y_sc},
                     line_style = "dashed",
                     colors = ["red"])

grad2_point = plt.Scatter(x = xk,
                    y = xk ** 2 + 2,
                    colors = ["green"],
                    scales = {'x': grad2_x_sc, 'y' : grad2_y_sc})

grad2_point_lines = plt.Lines(x = xk,
                        y = xk ** 2 + 2,
                        colors = ["green"],
                        scales = {'x': grad2_x_sc, 'y' : grad2_y_sc})

grad2_ax_x = bq.Axis(scale=grad2_x_sc,
                grid_lines='solid')

grad2_ax_y = bq.Axis(scale=grad2_y_sc,
                orientation='vertical',
                grid_lines='solid')

grad2_fig2 = plt.Figure(marks = [grad2_lines, grad2_point_lines, grad2_lines_x0,
                                 grad2_label_min, grad2_minimum, grad2_label_f_prim,
                                 grad2_label_x0, grad2_point],
                        axes = [grad2_ax_x, grad2_ax_y],
                        title = "Convex Gradient Descent")

grad2_fig2.layout.height = '400px'
grad2_fig2.layout.width = '600px'

#display(fig2)

grad2_x0 = widgets.FloatSlider(min = -10, max = 10, value = -5, step = 0.2, description = "x0")
grad2_learning_rate = widgets.BoundedFloatText(min=0.001, max=1.5, step=0.01, value = 0.9, description = "Learning rate")
grad2_etape_play = widgets.Play(value = 0,interval = 50, min=0, max=50, step=1, disabled=False)
grad2_etape = widgets.IntSlider(value = 0, min = 0, max = 50, step = 1, description = "Step")
grad2_hbox = widgets.HBox([grad2_etape_play,grad2_etape])
widgets.jslink((grad2_etape_play, 'value'), (grad2_etape, 'value'))

def grad2_gradient_plot(change):

    xk = np.zeros(101)
    xk[0] = grad2_x0.value
    for k in np.arange(100)+1:
         xk[k] = xk[k-1] - grad2_learning_rate.value*2*xk[k-1]
    grad2_point.x = xk[:grad2_etape.value+1]
    grad2_point.y = xk[:grad2_etape.value+1] ** 2
        
    grad2_point_lines.x = xk[:grad2_etape.value+1]
    grad2_point_lines.y = xk[:grad2_etape.value+1] ** 2
    
    grad2_label_x0.x = [grad2_x0.value]
    grad2_lines_x0.x = [grad2_x0.value, grad2_x0.value]
    grad2_lines_x0.y = [0, grad2_x0.value ** 2]
    
    grad2_label_f_prim.x = [-8]
    grad2_label_f_prim.y = [90]
    grad2_label_f_prim.text = ["Step " + str(grad2_etape.value) + ", f'(x"+str(grad2_etape.value)+") = "+str(np.round(2*xk[grad2_etape.value], 3))]

grad2_etape_play.observe(grad2_gradient_plot)
grad2_x0.observe(grad2_gradient_plot)
grad2_learning_rate.observe(grad2_gradient_plot)

display(widgets.VBox([grad2_fig2, grad2_x0, grad2_learning_rate, grad2_etape, grad2_etape_play]))

progress.value += 1


        



VBox(children=(Figure(axes=[Axis(scale=LinearScale(max=10.0, min=-10.0)), Axis(orientation='vertical', scale=L…

### Limites de la descente de gradient

> Comme vous pouvez le voir, l'algorithme de descente de gradient muni du bon pas de descente est très efficace pour trouver le minimum global d'une fonction. Néanmoins, cet algorithme possède un point faible colossal: **Il n'est efficace que lorsque la fonction à minimiser est strictement convexe, ce qui n'est pas toujours le cas (comme nous allons le voir dans la suite)**.
>
> Dans la figure interactive suivante, nous avons tracé la fonction $f(x) = (\frac{x}{5})^4 + (\frac{x}{5})^3 - 6(\frac{x}{5})^2 + 1$.
>
> Cette fonction contient un minimum global (celui que nous voulons approcher) et un minimum local (que nous voulons éviter).

* Que se passe-t-il si nous appliquons l'algorithme de descente de gradient avec l'initialisation $x_0 = 11$ et un pas de descente de $0,1$?


* Que se passe-t-il si nous appliquons l'algorithme de descente de gradient avec l'initialisation $x_0 = 0$ et un pas de descente quelconque?


* Que se passe-t-il si nous appliquons l'algorithme de descente de gradient avec l'initialisation $x_0 = -1$ et un pas de descente de $0,1$?


* Que se passe-t-il si nous appliquons l'algorithme de descente de gradient avec l'initialisation $x_0 = -1$ et un pas de descente de supérieur à $0,54$?




In [9]:
import numpy as np
import bqplot.pyplot as plt

def f2(xs):
    x = xs/5
    return x**4 + x**3 - 6*x**2 + 1 

def f2_p(xs):
    x = xs/5
    return 4*(x**3) + 3*(x)**2 - 12*x

xs = np.linspace(-40, 40, 100)
ys = f2(xs)

grad3_x_sc = plt.LinearScale(min = -16, max = 15)
grad3_y_sc = plt.LinearScale(min = -20, max = 25)

grad3_lines = plt.Lines(x=xs, y=ys, colors=['red', 'green'],scales = {'x': grad3_x_sc, 'y' : grad3_y_sc})

grad3_label_min_global = plt.label(["Minimum global"],
                    x = [-10.7],
                    y = [f2(-10.7)],
                    x_offset = -30,
                    y_offset = 15,
                    scales = {'x': grad3_x_sc, 'y' : grad3_y_sc},
                    default_size = 12,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["blue"])

grad3_minimum_global = plt.Scatter(x = [-10.7],
                      y = [f2(-10.7)],
                      colors = ["blue"],
                      scales = {'x': grad3_x_sc, 'y' : grad3_y_sc})

grad3_label_min_local = plt.label(["Minimum local"],
                    x = [7.02],
                    y = [f2(7.02)],
                    x_offset = -30,
                    y_offset = 15,
                    scales = {'x': grad3_x_sc, 'y' : grad3_y_sc},
                    default_size = 12,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["red"])

grad3_minimum_local = plt.Scatter(x = [7.02],
                      y = [f2(7.02)],
                      colors = ["red"],
                      scales = {'x': grad3_x_sc, 'y' : grad3_y_sc})

xk = np.random.normal(0,5,1)

grad3_label_f_prim = plt.label([" "],
                    x = xk,
                    y = f2(xk),
                    x_offset = 0,
                    y_offset = 0,
                    default_size = 20,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["green"])

grad3_label_x0 = plt.label(["x0"],
                    x = [-5],
                    y = [0],
                    x_offset = 10,
                    y_offset = 0,
                    default_size = 20,
                    font_weight = 'bolder',
                    update_on_move = True,
                    colors = ["red"])

grad3_lines_x0 = plt.Lines(x = [-5, -5],
                     y = [0, 25],
                     scales = {'x': grad3_x_sc, 'y' : grad3_y_sc},
                     line_style = "dashed",
                     colors = ["red"])

grad3_point = plt.Scatter(x = xk,
                    y = f2(xk),
                    colors = ["green"],
                    scales = {'x': grad3_x_sc, 'y' : grad3_y_sc})

grad3_point_lines = plt.Lines(x = xk,
                        y = f2(xk),
                        colors = ["green"],
                        scales = {'x': grad3_x_sc, 'y' : grad3_y_sc})

grad3_ax_x = bq.Axis(scale=grad3_x_sc,
                grid_lines='solid')

grad3_ax_y = bq.Axis(scale=grad3_y_sc,
                orientation='vertical',
                grid_lines='solid')

grad3_fig2 = plt.Figure(marks = [grad3_lines, grad3_point_lines, grad3_lines_x0,
                                 grad3_label_min_global, grad3_minimum_global, grad3_label_f_prim,
                                 grad3_label_min_local, grad3_minimum_local,
                                 grad3_label_x0, grad3_point],
                        axes = [grad3_ax_x, grad3_ax_y],
                        title = "Non-Convex Gradient Descent")

grad3_fig2.layout.height = '400px'
grad3_fig2.layout.width = '600px'

#display(fig2)

grad3_x0 = widgets.FloatSlider(min = -15, max = 11, value = -5, step = 1, description = "x0")
grad3_learning_rate = widgets.BoundedFloatText(min=0.001, max=0.6, step=0.01, value = 0.1, description = "Learning rate")
grad3_etape_play = widgets.Play(value = 0,interval = 300, min=0, max=50, step=1, disabled=False)
grad3_etape = widgets.IntSlider(value = 0, min = 0, max = 50, step = 1, description = "Step")
grad3_hbox = widgets.HBox([grad3_etape_play,grad3_etape])
widgets.jslink((grad3_etape_play, 'value'), (grad3_etape, 'value'))

def gradient_plot2(change):

    xk = np.zeros(101)
    xk[0] = grad3_x0.value
    for k in np.arange(100)+1:
         xk[k] = xk[k-1] - grad3_learning_rate.value*f2_p(xk[k-1])
    grad3_point.x = xk[:grad3_etape.value+1]
    grad3_point.y = f2(xk[:grad3_etape.value+1])
        
    grad3_point_lines.x = xk[:grad3_etape.value+1]
    grad3_point_lines.y = f2(xk[:grad3_etape.value+1])
    
    grad3_label_x0.x = [grad3_x0.value]
    grad3_lines_x0.x = [grad3_x0.value, grad3_x0.value]
    grad3_lines_x0.y = [0, f2(grad3_x0.value)]
    
    grad3_label_f_prim.x = [-14]
    grad3_label_f_prim.y = [22]
    grad3_label_f_prim.text = ["Step " + str(grad3_etape.value) + ", f'(x"+str(grad3_etape.value)+") = "+str(np.round(f2_p(xk[grad3_etape.value]), 3))]

grad3_etape_play.observe(gradient_plot2)
grad3_x0.observe(gradient_plot2)
grad3_learning_rate.observe(gradient_plot2)

display(widgets.VBox([grad3_fig2, grad3_x0, grad3_learning_rate, grad3_etape, grad3_etape_play]))

progress.value += 1

VBox(children=(Figure(axes=[Axis(scale=LinearScale(max=15.0, min=-16.0)), Axis(orientation='vertical', scale=L…

> Lorsque la fonction à minimiser n'est pas convexe, l'algorithme de descente de gradient devient imprévisible et ne donne pas de résultats consistants. **Les résultats de l'algorithme sont très sensibles au variation du pas du gradient**.
>
> Dans la grande majorité des cas en *deep learning*, **la fonction de perte à minimiser n'est jamais convexe et l'algorithme de descente de gradient convergera vers un minimum local**.
>
> Malheureusement, l'algorithme de descente de gradient est l'un des seuls algorithmes pouvant être utilisés en pratique car il est le seul algorithme d'optimisation efficace en temps de calcul dont nous disposons.
>
>
> Comme vous le verrez plus tard dans des modules pratiques, **le pas du gradient est l'un des hyperparamètres les plus influents sur la performance d'un modèle de *deep learning***.

### Perceptron Multicouche

> L'algorithme de Perceptron simple n'est plus utilisé en pratique. L'algorithme du ***Support Vector Machine***, aussi connu sous le nom de **Perceptron à stabilité optimale**, est bien plus performant.
>
> L'interêt de l'algorithme du Perceptron vient d'une technique démontrée en 1989 par George Cybenko qui consiste à empiler plusieurs perceptrons qui auront la même entrée sur une couche appelée **couche cachée** (*hidden layer* en anglais). 
>
> La sortie de cette couche de perceptrons sera ensuite donnée en entrée à un perceptron qui fera la classification binaire. Ce perceptron forme ce que l'on appelle la **couche de sortie** (*output layer* en anglais).
>
> Un algorithme de ce type s'appelle **Perceptron Multicouche** (*Multilayer Perceptron* en anglais), souvent abrégé par l'acronyme **MLP**.
>
> Dans l'exemple suivant, nous illustrons un MLP avec une couche cachée de 3 perceptrons et une couche de sortie à 1 perceptron. Vous pouvez appuyer sur le bouton *play* pour lancer l'animation, et le bouton *stop* pour la relancer depuis le début.

In [10]:
plt.clear()

mlp_x_sc = plt.LinearScale(min = -1, max = 6)
mlp_y_sc = plt.LinearScale(min = -5, max = 5)

mlp_ax_x = bq.Axis(scale= mlp_x_sc)

mlp_ax_y = bq.Axis(scale= mlp_y_sc, orientation='vertical')

mlp_point1 = plt.Scatter(x = [0], y = [0], scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_point2 = plt.Scatter(x = [0], y = [0], scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_point3 = plt.Scatter(x = [0], y = [0], scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_input_label = plt.Label(text = ['Input'], x = [0], y = [4],
                            scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                            default_size = 12,
                            default_opacities = [0.5],
                            font_weight = 'bolder',
                            update_on_move = True,
                            colors = ["blue"])

mlp_input_layer_label = plt.Label(text = ['Input Layer'], x = [-0.8], y = [-5],
                                  scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                                  default_size = 20,
                                  default_opacities = [0.9],
                                  font_weight = 'bolder',
                                  update_on_move = True,
                                  colors = ["steelblue"])

mlp_hidden_layer_label = plt.Label(text = ['Hidden Layer'], x = [1.1], y = [-5],
                                   scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                                   default_size = 20,
                                   default_opacities = [0.65],
                                   font_weight = 'bolder',
                                   update_on_move = True,
                                   colors = ["red"])

mlp_out_layer_label = plt.Label(text = ['Output Layer'], x = [4.1], y = [-5],
                                   scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                                   default_size = 20,
                                   default_opacities = [0.65],
                                   font_weight = 'bolder',
                                   update_on_move = True,
                                   colors = ["green"])

mlp_dotprod1_label = plt.Label(text = ['Dot Product 1'], x = [2], y = [4],
                               scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                               default_size = 12,
                               default_opacities = [0.5],
                               font_weight = 'bolder',
                               update_on_move = True,
                               colors = ["blue"])

mlp_dotprod2_label = plt.Label(text = ['Dot Product 2'], x = [2], y = [4],
                               scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                               default_size = 12,
                               default_opacities = [0.5],
                               font_weight = 'bolder',
                               update_on_move = True,
                               colors = ["blue"])

mlp_activ1_label = plt.Label(text = ["Activation 1"], x = [3], y = [4],
                             scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                             default_size = 12,
                             default_opacities = [0.5],
                             font_weight = 'bolder',
                             update_on_move = True,
                             colors = ["blue"])

mlp_activ2_label = plt.Label(text = ["Activation 2"], x = [3], y = [4],
                           scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                           default_size = 12,
                           default_opacities = [0.5],
                           font_weight = 'bolder',
                           update_on_move = True,
                           opacity = [0.5],
                           colors = ["blue"])

mlp_conc_label = plt.Label(text = ["Concatenation of Outputs"], x = [4], y = [4],
                           scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                           default_size = 12,
                           default_opacities = [0.5],
                           font_weight = 'bolder',
                           update_on_move = True,
                           colors = ["blue"])

mlp_class_label = plt.Label(text = ["Classification"], x = [5], y = [4],
                           scales = {'x': mlp_x_sc, 'y' : mlp_y_sc},
                           default_size = 12,
                           default_opacities = [0.5],
                           font_weight = 'bolder',
                           update_on_move = True,
                           colors = ["blue"])

mlp_perceptrons = plt.Scatter(x = [0, 2, 2, 2, 5],
                              y = [0, -3.5, 0, 3.5, 0],
                              size = [900, 900 , 900, 900, 900],
                              default_size = 900,
                              colors = ['steelblue','red', 'red', 'red', 'green'],
                              scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete1_1 = plt.Scatter(x = np.zeros(80),
                         y = np.zeros(80),
                         size = [10, 10, 10],
                         default_size = 10,
                         scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete1_2 = plt.Scatter(x = np.zeros(80),
                         y = np.zeros(80),
                         size = [10, 10, 10],
                         default_size = 10,
                         scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete1_3 = plt.Scatter(x = np.zeros(80),
                         y = np.zeros(80),
                         size = [10, 10, 10],
                         default_size = 10,
                         scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete2_1 = plt.Scatter(x = np.zeros(100) + 2,
                          y = np.zeros(100) + 3.5,
                          colors = ['red'],
                          size = [10, 10, 10],
                          default_size = 10,
                          scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete2_2 = plt.Scatter(x = np.zeros(100) + 2 ,
                          y = np.zeros(100),
                          colors = ['red'],
                          size = [10, 10, 10],
                          default_size = 10,
                          scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete2_3 = plt.Scatter(x = np.zeros(100) + 2,
                           y = np.zeros(100) - 3.5,
                           colors = ['red'],
                           size = [10, 10, 10],
                           default_size = 10,
                           scales = {'x': mlp_x_sc, 'y': mlp_y_sc})

mlp_arete3_1 = plt.Scatter(x = np.zeros(50) + 5,
                           y = np.zeros(50) ,
                           colors = ['green'],
                           size = [10, 10, 10],
                           default_size = 10,
                           scales = {'x': mlp_x_sc, 'y': mlp_y_sc})



mlp_fig = plt.Figure(marks = [mlp_input_layer_label, mlp_hidden_layer_label,mlp_out_layer_label,
                              mlp_arete1_1,mlp_arete1_2, mlp_arete1_3,
                              mlp_arete2_1, mlp_arete2_2, mlp_arete2_3,
                              mlp_arete3_1,
                              mlp_perceptrons, mlp_point1, mlp_point2, mlp_point3, 
                              mlp_input_label, mlp_dotprod1_label, mlp_dotprod2_label,
                              mlp_activ1_label, mlp_conc_label, mlp_activ2_label,
                              mlp_class_label],
                     #axes = [mlp_ax_x, mlp_ax_y],
                     animation_duration = 1000)

####################################################
mlp_activ2_label.x = [4.5]
mlp_activ2_label.y = [2]
mlp_activ2_label.default_opacities = [0.01]
mlp_activ2_label.opacity = [0.01]

mlp_dotprod2_label.x = [4]
mlp_dotprod2_label.y = [2]
mlp_dotprod2_label.default_opacities = [0.01]
mlp_dotprod2_label.opacity = [0.01]

mlp_conc_label.x = [2.4]
mlp_conc_label.y = [3]
mlp_conc_label.default_opacities = [0.01]
mlp_conc_label.opacity = [0.01]

mlp_activ1_label.x = [1.6]
mlp_activ1_label.y = [5]
mlp_activ1_label.default_opacities = [0.01]
mlp_activ1_label.opacity = [0.01]

mlp_input_label.x = [-0.2]
mlp_input_label.y = [2]
mlp_input_label.default_opacities = [0.01]
mlp_input_label.opacity = [0.01]

mlp_dotprod1_label.x = [0.5]
mlp_dotprod1_label.y = [4.2]
mlp_dotprod1_label.default_opacities = [0.01]
mlp_dotprod1_label.opacity = [0.01]

mlp_class_label.x = [5]
mlp_class_label.y = [2]
mlp_class_label.default_opacities = [0.01]
mlp_class_label.opacity = [0.01]

display(mlp_fig)

progress.value += 1
@widgets.interact(frame = widgets.Play(value = 0, interval = 2000, min = 0, max = 9, step=1, disabled=False))

def mlp_anim(frame):
    if(frame == 0):
        mlp_class_label.default_opacities = [0.01]
        mlp_class_label.opacity = [0.01]
        
        mlp_input_label.default_opacities = [0.9]
        mlp_input_label.opacity = [0.9]
        
        mlp_arete1_1.x = np.zeros(80)
        mlp_arete1_1.y = np.zeros(80)
        
        mlp_arete1_2.x = np.zeros(80)
        mlp_arete1_2.y = np.zeros(80)
        
        mlp_arete1_3.x = np.zeros(80)
        mlp_arete1_3.y = np.zeros(80)
        
        mlp_arete2_1.x = np.zeros(100) + 2
        mlp_arete2_1.y = np.zeros(100) + 3.5

        mlp_arete2_2.x = np.zeros(100) + 2
        mlp_arete2_2.y = np.zeros(100)

        mlp_arete2_3.x = np.zeros(100) + 2
        mlp_arete2_3.y = np.zeros(100) - 3.5
        
        mlp_arete3_1.x = np.zeros(100) + 5
        mlp_arete3_1.y = np.zeros(100)
        
        mlp_point1.x, mlp_point1.y = [0], [0]
        mlp_point2.x, mlp_point2.y = [0], [0]
        mlp_point3.x, mlp_point3.y = [0], [0]
        
        mlp_point1.names = ['x']
        mlp_point2.names = ['x']
        mlp_point3.names = ['x']
        
        mlp_point1.colors = ['steelblue']
        mlp_point2.colors = ['steelblue']
        mlp_point3.colors = ['steelblue']
        return
    if(frame == 1):
        mlp_input_label.default_opacities = [0.01]
        mlp_input_label.opacity = [0.01]
        
        mlp_dotprod1_label.default_opacities = [0.9]
        mlp_dotprod1_label.opacity = [0.9]
        
        mlp_arete1_1.x = np.append(np.linspace(0, 1, 50), np.zeros(30) + 1)
        mlp_arete1_1.y = np.append(np.linspace(0, 1.75, 50), np.zeros(30) + 1.75)
        
        
        mlp_arete1_2.x = np.append(np.linspace(0, 1, 50), np.zeros(30) + 1)
        
        mlp_arete1_3.x = np.append(np.linspace(0, 1, 50), np.zeros(30) + 1)
        mlp_arete1_3.y = np.append(np.linspace(0, -1.75, 50), np.zeros(30) - 1.75)
        
        mlp_point1.x, mlp_point1.y = [1], [1.75]
        mlp_point2.x, mlp_point2.y = [1], [0]
        mlp_point3.x, mlp_point3.y = [1], [-1.75]
        
        mlp_point1.names = ['<w1, x> + b1']
        mlp_point2.names = ['<w2, x> + b2']
        mlp_point3.names = ['<w3, x> + b3']
        return
    if(frame == 2):
        
        mlp_dotprod1_label.default_opacities = [0.01]
        mlp_dotprod1_label.opacity = [0.01]
        
        mlp_activ1_label.default_opacities = [0.9]
        mlp_activ1_label.opacity = [0.9]
        
        mlp_arete1_1.x = np.append(np.linspace(0, 1, 50), np.linspace(1,2, 30))
        mlp_arete1_1.y = np.append(np.linspace(0, 1.75, 50), np.linspace(1.75, 3.5, 30))
        
        mlp_arete1_2.x = np.append(np.linspace(0, 1, 50), np.linspace(1,2, 30))
        
        
        mlp_arete1_3.x = np.append(np.linspace(0, 1, 50), np.linspace(1,2, 30))
        mlp_arete1_3.y = np.append(np.linspace(0, -1.75, 50), np.linspace(-1.75, -3.5, 30))
        
        mlp_point1.x, mlp_point1.y = [2], [3.5]
        mlp_point2.x, mlp_point2.y = [2], [0]
        mlp_point3.x, mlp_point3.y = [2], [-3.5]
        
        mlp_point1.names = [' ']
        mlp_point2.names = [' ']
        mlp_point3.names = [' ']
        return
    if(frame == 3):
        mlp_point1.colors = ['red']
        mlp_point2.colors = ['red']
        mlp_point3.colors = ['red']
        
        
        return
    if(frame == 4):
        mlp_activ1_label.default_opacities = [0.01]
        mlp_activ1_label.opacity = [0.01]
        
        mlp_conc_label.default_opacities = [0.9]
        mlp_conc_label.opacity = [0.9]
        
        mlp_point1.names = ['O1']
        mlp_point2.names = ['O2']
        mlp_point3.names = ['O3']

        mlp_point1.x, mlp_point1.y = [3], [1]
        mlp_point2.x, mlp_point2.y = [3], [0]
        mlp_point3.x, mlp_point3.y = [3], [-1]
        return
    if(frame == 5):
        mlp_point1.x, mlp_point1.y = [4], [0]
        mlp_point2.x, mlp_point2.y = [4], [0]
        mlp_point3.x, mlp_point3.y = [4], [0]
        
        mlp_arete2_1.x = np.append(np.linspace(2, 4, 50), np.zeros(50) + 4)
        mlp_arete2_1.y = np.append(np.linspace(3.5, 0, 50), np.zeros(50))
        
        
        mlp_arete2_2.x = np.append(np.linspace(2, 4, 50), np.zeros(50) + 4)
        
        mlp_arete2_3.x = np.append(np.linspace(2, 4, 50), np.zeros(50) + 4)
        mlp_arete2_3.y = np.append(np.linspace(-3.5, 0, 50), np.zeros(50))
        
        mlp_point1.names = ['O']
        mlp_point2.names = ['O']
        mlp_point3.names = ['O']
        return
    if(frame == 6):
        mlp_conc_label.default_opacities = [0.01]
        mlp_conc_label.opacity = [0.01]
        
        mlp_dotprod2_label.default_opacities = [0.9]
        mlp_dotprod2_label.opacity = [0.9]
        
        mlp_point1.x, mlp_point1.y = [4.5], [0]
        mlp_point2.x, mlp_point2.y = [4.5], [0]
        mlp_point3.x, mlp_point3.y = [4.5], [0]
        
        mlp_arete2_1.x = np.append(np.linspace(2, 4, 50), np.linspace(4, 5, 50))
        mlp_arete2_1.y = np.append(np.linspace(3.5, 0, 50), np.zeros(50))
        
        
        mlp_arete2_2.x = np.append(np.linspace(2, 4, 50), np.linspace(4, 5, 50))
        
        mlp_arete2_3.x = np.append(np.linspace(2, 4, 50), np.linspace(4, 5, 50))
        mlp_arete2_3.y = np.append(np.linspace(-3.5, 0, 50), np.zeros(50))

        mlp_point1.names = ['<w4, O> + b4']
        mlp_point2.names = ['<w4, O> + b4']
        mlp_point3.names = ['<w4, O> + b4']
        return
    if(frame == 7):
        mlp_dotprod2_label.default_opacities = [0.01]
        mlp_dotprod2_label.opacity = [0.01]
        
        mlp_activ2_label.default_opacities = [0.9]
        mlp_activ2_label.opacity = [0.9]
        
        mlp_point1.x, mlp_point1.y = [5], [0]
        mlp_point2.x, mlp_point2.y = [5], [0]
        mlp_point3.x, mlp_point3.y = [5], [0]
        
        mlp_point1.names = [' ']
        mlp_point2.names = [' ']
        mlp_point3.names = [' ']
        return
    if(frame == 8):
        
        mlp_point1.colors = ['green']
        mlp_point2.colors = ['green']
        mlp_point3.colors = ['green']
        return        
    if(frame == 9):
        mlp_activ2_label.default_opacities = [0.01]
        mlp_activ2_label.opacity = [0.01]
        
        mlp_class_label.default_opacities = [0.9]
        mlp_class_label.opacity = [0.9]
        
        if(np.random.normal(0,1,1) > 0):
            mlp_point1.x, mlp_point1.y = [5.5], [0]
            mlp_point2.x, mlp_point2.y = [5.5], [0]
            mlp_point3.x, mlp_point3.y = [5.5], [0]
            
            mlp_arete3_1.x = np.linspace(5, 5.5, 50)
            mlp_arete3_1.y = np.zeros(50)
            
            mlp_point1.names = ['1']
            mlp_point2.names = ['1']
            mlp_point3.names = ['1']
        else:
            mlp_point1.x, mlp_point1.y = [5.5], [0]
            mlp_point2.x, mlp_point2.y = [5.5], [0]
            mlp_point3.x, mlp_point3.y = [5.5], [0]
            
            mlp_arete3_1.x = np.linspace(5, 5.5, 50)
            mlp_arete3_1.y = np.zeros(50)
            
            mlp_point1.names = ['0']
            mlp_point2.names = ['0']
            mlp_point3.names = ['0']






Figure(animation_duration=1000, fig_margin={'top': 60, 'bottom': 60, 'left': 60, 'right': 60}, marks=[Label(co…

interactive(children=(Play(value=0, description='frame', interval=2000, max=9), Output()), _dom_classes=('widg…

> Dans un problème de classification, ce type d'algorithme permet d'approximer une frontière de décision non-linéaire, mais pour cela **il faut absolument que les fonctions d'activations des perceptrons de la couche cachée soient non-linéaires**. En pratique, nous utiliserons les fonctions $tanh$ ou $ReLU$ définie par ${ReLU(x) = \begin{cases} x & \mbox{si } x \geq 0 \\ 0 & \mbox{sinon }\end{cases}}$.
>
> Pour illustrer les effets de ces fonctions d'activation, nous allons appliquer l'algorithme du MLP sur le dataset *moons*.

In [11]:
# Data

from sklearn.datasets import make_moons

X, y = make_moons(n_samples = 100)

X_0 = X[y == 0]
X_1 = X[y == 1]

# Scales

moons_x_sc= plt.LinearScale(min = -1, max = 2)

moons_y_sc= plt.LinearScale(min = -1, max = 1)

# Axes

moons_ax_x = plt.Axis(scale = moons_x_sc,
                      grid_lines = 'solid',
                      label ='x')

moons_ax_y = plt.Axis(scale = moons_y_sc,
                      grid_lines = 'solid',
                      orientation = 'vertical',
                      label = 'y')

# Scatter plots

moons_x0 = plt.Scatter(x = X_0[:,0], y = X_0[:,1],
                       scales = {'x': moons_x_sc, 'y': moons_y_sc},
                       colors = ['blue'])

moons_x1 = plt.Scatter(x = X_1[:,0], y = X_1[:,1],
                       scales = {'x': moons_x_sc, 'y': moons_y_sc},
                       colors = ['red'])

# Figure

moons_fig = plt.Figure(marks = [moons_x0, moons_x1],
                       axes = [moons_ax_x, moons_ax_y],
                       title = "Moons Dataset")

moons_fig.layout.height = '400px'
moons_fig.layout.width = '500px'

progress.value += 1
display(moons_fig)






Figure(axes=[Axis(label='x', scale=LinearScale(max=2.0, min=-1.0)), Axis(label='y', orientation='vertical', sc…

>Nous nous apercevons rapidement que cette base de données n'est pas linéairement séparable. Pour ce type de données, aucun algorithme de Perceptron simple n'arrivera à trouver une solution satisfaisante.
>
>Néanmoins, grâce au modèle MLP nous pouvons approximer une frontière de décision non-linéaire. Dans la figure interactive ci- dessous, les points bleus et rouges représentent les deux classes d'individus et la ligne de couleur verte correspond à l'approximation de la frontière de décision obtenue par descente de gradient avec un maximum de $1 000 000$ d'itérations.

* A l'aide du menu interactif, déterminer le meilleur pas de gradient pour un MLP ayant 3 perceptrons dans sa couche cachée et utilisant la fonction $ReLU$ comme activation.


* Pourquoi le MLP ayant 3 perceptrons dans sa couche cachée et utilisant la fonction $tanh$ comme activation ne trouve pas de frontière de décision satisfaisante pour un pas de gradient inférieur ou égal à $0.01$?


* Pour quelle raison le MLP ayant 30 perceptrons dans sa couche cachée et utilisant la fonction $ReLU$ comme activation est plus performant que le MLP ayant 90 perceptrons dans sa couche cachée et utilisant la fonction $ReLU$ comme activation lorsque le pas de gradient est fixé à $1$?



In [12]:
import json as json

with open('decision_boundaries.txt') as json_file:
    decision_boundaries2 = json.load(json_file)
    
db = np.sort(np.array(decision_boundaries2['relu']['3']['1']), axis = 0)
moons_db = plt.Scatter(x = db[:,0],
                       y = db[:,1],
                       scales = {'x': moons_x_sc, 'y': moons_y_sc},
                       default_size = 4,
                       size = [3],
                       colors = ['green'])

moons_fig2 = plt.Figure(marks = [moons_x0, moons_x1, moons_db],
                        axes = [moons_ax_x, moons_ax_y],
                        animation_duration = 500,
                        title = "Decision Boundaries on Moons Dataset")
moons_fig2.layout.height = '400px'
moons_fig2.layout.width = '500px'

progress.value += 1

display(moons_fig2)

style = {'description_width': 'initial'}

@widgets.interact(activation = widgets.Dropdown(options=['relu', 'tanh'],
                                              value='relu',
                                              description='Activation Function',
                                              disabled = False,
                                              style = style),
                  n_layers = widgets.Dropdown(options=['2', '3', '30', '90'],
                                              value='3',
                                              description='Hidden Layer Size',
                                              style = style,
                                              disabled = False),
                  learning_rate = widgets.Dropdown(options=['0.001', '0.01', '0.1', '1'],
                                              value='0.001',
                                              description='Learning Rate',
                                              style = style,
                                              disabled = False)
                  )
def moons_interaction(activation,n_layers,learning_rate):
    db = np.array(decision_boundaries2[activation][n_layers][learning_rate])
    
    moons_db.x = db[:,0]
    moons_db.y = db[:,1]

Figure(animation_duration=500, axes=[Axis(label='x', scale=LinearScale(max=2.0, min=-1.0)), Axis(label='y', or…

interactive(children=(Dropdown(description='Activation Function', options=('relu', 'tanh'), style=DescriptionS…

> Le comportement de la descente de gradient est imprévisible car la fonction de perte n'est pas convexe. Un pas de gradient trop grand ou trop petit ne permettra pas à l'algorithme de converger vers une solution satisfaisante, même si la solution existe.

### Ce qu'il faut retenir:
> * Le produit scalaire est le principal outil que nous utilisons pour faire la classification. **Cette classification est purement géométrique**.
> * L'objectif d'un Perceptron est de **trouver un hyperplan qui sépare les différentes classes d'individus**. 
> * L'atteinte de cet objectif se fait en **minimisant la fonction de perte par descente de gradient**.
> * Si la base de données n'est pas linéairement séparable, il n'existe pas forcément un unique minimum global.
> * Si la base de données n'est pas linéairement séparable, **il est quand même possible de trouver un hyperplan séparateur non-linéaire en utilisant une approche multicouche.**
> * **Un pas de gradient trop grand ou trop petit ne permettra pas à l'algorithme MLP de converger vers une solution satisfaisante**. Trouver le bon pas de gradient et la bonne initialisation est tout le challenge du *deep learning*.


### Fin

> Merci d'avoir suivi cet exercice introductif sur le *deep learning*! Le prochain exercice traitera sur différents types de couche plus avancés que le MLP et très utilisés aujourd'hui dans les algorithmes *state-of-the-art* de *deep learning*.