# 11 - Séparer les classes avec des lignes de séparation


Nous allons développer un réseau neuronal simple dans ce chapitre de notre tutoriel. Un réseau capable de séparer deux classes, qui sont séparables par une ligne droite dans un espace de caractéristiques à 2 dimensions.

## Séparation par ligne

Avant de commencer à programmer un réseau neuronal simple, nous allons développer un concept différent. Nous voulons rechercher les lignes droites qui séparent deux points ou deux classes dans un plan. Nous n'étudierons que les lignes droites passant par l'origine. Nous étudierons les lignes droites générales plus tard dans le tutoriel.

Vous pouvez imaginer que vous avez deux attributs décrivant un objet comestible comme un fruit par exemple : "douceur" et "aigreur".

Nous pourrions les décrire par des points dans un espace bidimensionnel. L'axe A est utilisé pour les valeurs du goût sucré et l'axe y est utilisé de manière correspondante pour les valeurs de l'acidité. Imaginons maintenant que nous ayons deux fruits comme points dans cet espace, c'est-à-dire une orange à la position (3,5, 1,8) et un citron à la position (1,1, 3,9).

Nous pourrions définir des lignes de séparation pour définir les points qui ressemblent davantage à des citrons et ceux qui ressemblent davantage à des oranges.

Dans le diagramme suivant, nous représentons un citron et une orange. La ligne verte sépare les deux points. Nous supposons que tous les autres citrons sont au-dessus de cette ligne et que toutes les oranges sont en dessous de cette ligne.

<center>
    <img src="img/illustration11_1.png" width="50%">
</center>    

La ligne verte est définie par:
$$y=mx$$

où :

$m$ est la pente ou le gradient de la ligne et $x$ est la variable indépendante de la fonction.
$$m=\frac{p_1}{p_2}x$$

Cela signifie qu'un point $P'=(p'_1, p'_2)$ est sur cette ligne, si la condition suivante est remplie :
$$mp'_1-p'_2=0$$

Le programme Python suivant trace un graphique décrivant la situation décrite précédemment :

In [None]:
import matplotlib.pyplot as plt
import numpy as np

X = np.arange(0, 7)
fig, ax = plt.subplots()

ax.plot(3.5, 1.8, "o", 
        color="darkorange", 
        markersize=15)
ax.plot(1.1, 3.9, "oy", 
        markersize=15)

point_on_line = (4, 4.5)
# calculate gradient:
m = point_on_line[1] / point_on_line[0]  
ax.plot(X, m * X, "g-", linewidth=3)
plt.show()

Il est clair qu'un point $1=(a_1,a_2)$ n'est pas sur la ligne, si $a_1\cdot m-a_2$ n'est pas égal à 0. Nous voulons en savoir plus. Nous voulons savoir si un point est au-dessus ou au-dessous d'une ligne droite.
 
<center>
    <img src="img/illustration11_2.png" width="50%">
</center>

Si un point $B=(b_1,b_2)$ est en dessous de cette ligne, il doit y avoir un $\delta_B>0$ de sorte que le point $(b_1,b_2+\delta_B)$

Cela signifie que

$$m\cdot b_1-(b_2+\delta_B)=0$$

ce qui peut être réarrangé en:

$$m\cdot b_1 -b_2 = \delta_B$$

Enfin, nous avons un critère pour qu'un point soit en dessous de la ligne. $m\cdot b_1-b_2$ est positif, car $\delta_B$ est positif.

Le raisonnement pour "un point est au-dessus de la ligne" est analogue : Si un point $A=(a_1, a_2)$ est au-dessus de la ligne, il doit exister un $\delta_A$ de sorte que le point $(a_1, a_2-\delta_A)$ soit sur la ligne.

Cela signifie que:

$$m\cdot a_1-(a_2-\delta_A)=0$$

ce qui peut être réarrangé en:

$$m\cdot a_1-a_2 = - \delta_A$$

En résumé, nous pouvons dire : Un point $P(p_1, p2)$ se trouve:
- en dessous de la ligne droite, si $m\cdot p_1 - p_2 > 0$
- sur la ligne droite, si $m\cdot p_1 - p_2 =0$
- au-dessus de la ligne droite, si $m\cdot p_1 - p_2 <0$

Nous pouvons maintenant le vérifier sur nos fruits. Le citron a les coordonnées (1,1, 3,9) et l'orange les coordonnées 3,5, 1,8. Le point sur la droite, que nous avons utilisé pour définir notre droite de séparation a pour valeurs (4, 4,5). Donc m est le quotient de 4,5 et 4.

In [None]:
lemon = (1.1, 3.9)
orange = (3.5, 1.8)
m = 4.5 / 4

# check if the orange is below the line,
# a positive value is expected:
print(orange[0] * m - orange[1])

# check if the lemon is above the line,
# a negative value is expected:
print(lemon[0] * m - lemon[1])

Nous n'avons pas calculé la ligne verte à l'aide de formules ou de méthodes mathématiques, mais l'avons déterminée arbitrairement par un jugement visuel. Nous aurions pu choisir d'autres lignes également.

Le programme Python suivant calcule et rend un certain nombre de lignes. Toutes passent par l'origine, c'est-à-dire le point (0, 0). Les lignes rouges sont totalement inutilisables pour séparer les deux fruits, car dans ce cas, le citron et l'orange se trouvent du même côté de la ligne droite. Cependant, il est évident que même les verts ne sont pas très utiles si nous avons plus que ces deux fruits. Certains citrons peuvent être plus sucrés et certaines oranges peuvent être assez acides.

In [None]:
def create_distance_function(a, b, c):
    """ 0 = ax + by + c """
    def distance(x, y):
        """ 
        returns tuple (d, pos)
        d is the distance
        If pos == -1 point is below the line, 
        0 on the line and +1 if above the line
        """
        nom = a * x + b * y + c
        if nom == 0:
            pos = 0
        elif (nom<0 and b<0) or (nom>0 and b>0):
            pos = -1
        else:
            pos = 1
        return (np.absolute(nom) / np.sqrt( a ** 2 + b ** 2), pos)
    return distance
    
orange = (4.5, 1.8)
lemon = (1.1, 3.9)
fruits_coords = [orange, lemon]

fig, ax = plt.subplots()
ax.set_xlabel("sweetness")
ax.set_ylabel("sourness")
x_min, x_max = -1, 7
y_min, y_max = -1, 8
ax.set_xlim([x_min, x_max])
ax.set_ylim([y_min, y_max])
X = np.arange(x_min, x_max, 0.1)

step = 0.05
for x in np.arange(0, 1+step, step):
    slope = np.tan(np.arccos(x))
    dist4line1 = create_distance_function(slope, -1, 0)
    Y = slope * X
    results = []
    for point in fruits_coords:
        results.append(dist4line1(*point))
    if (results[0][1] != results[1][1]):
        ax.plot(X, Y, "g-", linewidth=0.8, alpha=0.9)
    else:
        ax.plot(X, Y, "r-", linewidth=0.8, alpha=0.9)

size = 10
for (index, (x, y)) in enumerate(fruits_coords):
    if index== 0:
        ax.plot(x, y, "o", 
                color="darkorange", 
                markersize=size)
    else:
        ax.plot(x, y, "oy", 
                markersize=size)


plt.show()

En fait, nous avons effectué une classification sur la base de notre ligne de démarcation. Même si presque personne ne la décrirait comme telle.

Il est facile d'imaginer que nous avons plusieurs citrons et oranges avec des valeurs d'acidité et de douceur légèrement différentes. Cela signifie que nous avons une classe de citrons ```classe1``` et une classe d'oranges ```classe2```. Ceci est illustré dans le diagramme suivant.

<center>
    <img src="img/illustration11_4.png" width="40%">
</center>

Nous allons faire "pousser" des oranges et des citrons avec un programme Python. Nous allons créer ces deux classes en créant de manière aléatoire des points à l'intérieur d'un cercle dont le point central et le rayon sont définis. Le code Python suivant va créer les classes :

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def points_within_circle(radius, 
                         center=(0, 0),
                         number_of_points=100):
    center_x, center_y = center
    r = radius * np.sqrt(np.random.random((number_of_points,)))
    theta = np.random.random((number_of_points,)) * 2 * np.pi
    x = center_x + r * np.cos(theta)
    y = center_y + r * np.sin(theta)
    return x, y

X = np.arange(0, 8)
fig, ax = plt.subplots()
oranges_x, oranges_y = points_within_circle(1.6, (5, 2), 100)
lemons_x, lemons_y = points_within_circle(1.9, (2, 5), 100)

ax.scatter(oranges_x, 
           oranges_y, 
           c="orange", 
           label="oranges")
ax.scatter(lemons_x, 
           lemons_y, 
           c="y", 
           label="lemons")

ax.plot(X, 0.9 * X, "g-", linewidth=2)

ax.legend()
ax.grid()
plt.show()

## Détermination automatique de la ligne de démarcation

La ligne de séparation a de nouveau été fixée arbitrairement à l'œil. La question se pose de savoir comment le faire systématiquement. Nous ne considérons toujours que des lignes droites passant par l'origine, qui sont définies uniquement par leur pente.

Reprenons le cas le plus simple, avec un citron et une orange. Nous commençons par une ligne arbitraire qui ne sépare absolument pas notre orange et notre citron.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_fruits(p1, p2, point_on_line=(5,1)):
    X = np.arange(0, 7)
    fig, ax = plt.subplots()
    ax.plot(p1[0], p1[1], "o", 
            color="darkorange", 
            markersize=15)
    ax.annotate("Orange", 
                xy=(p1[0], p1[1]), 
                xytext=(p1[0]+0.5, p1[1]+0.5),
                arrowprops=dict(facecolor='orange', shrink=0.05))
    ax.plot(p2[0], p2[1], "o", 
            color="yellow", 
            markersize=15)
    ax.annotate("Lemon", 
                xy=(p2[0], p2[1]), 
                xytext=(p2[0]-0.5, p2[1]-0.5),
                arrowprops=dict(facecolor='orange', shrink=0.05))
    ax.plot(*point_on_line, "x", 
            color="darkorange", 
            markersize=15)
    # calculate gradient:
    m = point_on_line[1] / point_on_line[0]  
    ax.plot(X, m * X, "g-", linewidth=3)
    plt.show()


orange = (4, 2)
lemon = (1, 3)
point = (5, 1)
plot_fruits(p1=orange, p2=lemon, point_on_line=point)

Nous pouvons voir que la ligne ne convient pas comme ligne de séparation, car le citron et l'orange sont tous deux au-dessus de la ligne. Nous pouvons calculer si l'orange est au-dessus ou au-dessous de la ligne, si nous vérifions que ```m * orange[0] + orange[1]``` est supérieur à zéro ("au-dessous de la ligne") ou inférieur à zéro ("au-dessus de la ligne") :

In [None]:
m = point[1] / point[0]
m * orange[0] - orange[1]

Cela signifie que l'orange est au-dessus de la ligne, mais qu'elle devrait être en dessous de la ligne. Dans cet exemple, l'idéal serait d'avoir une ligne de séparation juste au-dessus de l'orange. Ainsi, une ligne passant par le point $p_3 = (4, 2+\delta)$ avec $\delta$ égal à 0,3 satisfait à la condition :

In [None]:
delta = 0.3
plot_fruits(p1=(4, 2), p2=(1, 3), point_on_line=(4, 2+delta))

new_slope = (2 + delta) / 4
# position of orange:
new_slope * orange[0] - orange[1]

Cela signifie que l'orange est maintenant en dessous de la ligne.

Nous pouvons dire que l'erreur entre notre pente initiale et la pente visée est de :

In [None]:
targeted_slope = new_slope
initial_slope = point[1] / point[0]
error = targeted_slope - initial_slope

# the targeted_slope can be seen as the following sum:
initial_slope + error

Nous allons maintenant examiner ce qui se passe si nous appliquons ce mécanisme de correction à d'autres fruits. Pour créer les clusters de citrons et d'oranges, nous allons utiliser cette fois la fonction ```make_blobs``` de ```sklearn.datasets```. Le centre des oranges est fixé à (1, 1,5) et celui des citrons à (1,5, 1).

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

number_of_samples = 9
centers = [(1, 1.5), (1.5, 1)]
data, labels = make_blobs(n_samples=number_of_samples, 
                          cluster_std=0.2,
                          centers=np.array(centers),
                          random_state=42)

fruits = [(data[i], labels[i]) for i in range(len(data))]

fig, ax = plt.subplots()
colours = ["yellow", "orange"]
label_name = ["Lemons", "Oranges"]
for label in range(0, 2):
    ax.scatter(data[labels==label, 0], 
               data[labels==label, 1], 
               c=colours[label], 
               s=40, 
               label=label_name[label])

ax.set(xlabel='X', ylabel='Y', title='fruits');

Nous allons appliquer l'idée développée précédemment de corriger l'erreur sur ces données. Nous allons itérer sur les fruits et corriger l'erreur de la manière que nous avons démontrée juste avant : Chaque fois qu'un fruit se trouve du mauvais côté de la ligne droite, nous réinitialiserons la pente en conséquence :

In [None]:
slope = 0.3
def adjust(slope=0.3):
    line = None
    delta = 0.1
    counter = -1
    for ((x, y), label) in zip(data, labels):   
        counter += 1
        ax.scatter(x, y,
                   color="y" if label == 0 else "orange")
        ax.annotate(str(counter), 
                    (x, y))
 
        pos2line = slope * x - y
        target_slope = (y + delta) / x
        error = (target_slope - slope) 
        #print(label, pos2line)
        if label == 1 and pos2line < 0:
            # point is above line but should be below 
            # => increment slope
            print(slope, error)
            slope += error 
            print(slope, x, y)
            ax.plot(X, slope * X, 
                    linewidth=2, label=str(counter))

        elif label == 0 and pos2line > 0:
            # point is below line but should be above 
            # => decrement slope
            #print(pos2line, label)
            print(slope, error)
            slope += error 
            print(slope, x, y)
            ax.plot(X, slope * X,  
                    linewidth=2, label=str(counter))
    return slope

X = np.arange(0, 3)
fig, ax = plt.subplots()
colours = ["orange", "yellow"]
label_name = ["Oranges", "Lemons"]


ax.set(xlabel='X', ylabel='Y', title='fruits')
slope_count = 1
ax.plot(X, 
        slope * X,  
        linewidth=2,
        label="initial")
slope = adjust(slope)

ax.legend()
ax.grid()

print(f'The final value for the slope: {slope}')

plt.show()

Cela a bien fonctionné, mais ce n'est toujours pas bon. Pour montrer ce qui peut mal se passer, nous allons ajouter une orange dans la zone où les citrons sont censés être :

In [None]:
data = np.concatenate((data, np.array([[1.1, 1.6]])))
labels = np.concatenate((labels, np.array([1])))
fig, ax = plt.subplots()
colours = ["yellow", "orange"]
label_name = ["Lemons", "Oranges"]
for label in range(0, 2):
    ax.scatter(data[labels==label, 0], 
               data[labels==label, 1], 
               c=colours[label], 
               s=40, 
               label=label_name[label])

ax.set(xlabel='X', ylabel='Y', title='fruits')

Nous allons appliquer notre algorithme adaptatif à ce jeu de données étendu :

In [None]:
start_slope = 0.3
def adjust(slope=0.3):
    line = None
    delta = 0.1
    counter = -1
    for ((x, y), label) in zip(data, labels):   
        counter += 1   
        ax.scatter(x, y,
                   color="y" if label == 0 else "orange")
        ax.annotate(str(counter), 
                    (x, y))
 
        pos2line = slope * x - y
        target_slope = (y + delta) / x
        error = (target_slope - slope) 
        #print(label, pos2line)
        if label == 1 and pos2line < 0:
            # point is above line but should be below 
            # => increment slope
            print(slope, error)
            slope += error 
            ax.plot(X, slope * X, 
                    linewidth=2, label=str(counter))

        elif label == 0 and pos2line > 0:
            # point is below line but should be above 
            # => decrement slope
            print(slope, error)
            slope += error 
            ax.plot(X, slope * X,  
                    linewidth=2, label=str(counter))
    return slope


fig, ax = plt.subplots()
colours = ["orange", "yellow"]
label_name = ["Oranges", "Lemons"]


ax.set(xlabel='X', ylabel='Y', title='fruits')
slope_count = 1
ax.plot(X, 
        start_slope * X,  
        linewidth=2,
        label="initial")
slope = adjust(start_slope)

ax.legend()
ax.grid()
print(f'The final value for the slope: {slope}')
plt.show()

Nous pouvons voir que l'orange nouvellement ajouté "détruit" le résultat précédemment créé. La ligne numéro 3 (verte) était parfaite. La ligne orange qui est positionnée à l'intérieur des citrons a provoqué la création de la ligne rouge.

Au lieu de corriger complètement l'erreur, nous devrions seulement la corriger un peu dans la direction nécessaire. De cette façon, les valeurs aberrantes ne seront pas capables de changer complètement le résultat. Pour ce faire, nous allons introduire un taux d'apprentissage. Nous utiliserons le taux d'apprentissage pour modifier les corrections, c'est-à-dire les rendre moins importantes.

Le programme Python suivant calcule une ligne de division en passant par tous les fruits et ajuste dynamiquement la pente de la ligne de division que nous voulons calculer. Si un point est au-dessus de la ligne mais devrait être en dessous de la ligne, la pente sera incrémentée par la valeur du learning_rate multipliée par l'erreur absolue. Si le point est au-dessous de la ligne mais devrait être au-dessus de la ligne, la pente sera décrémentée de la valeur de learning_rate multipliée par l'erreur absolue.

In [None]:
learning_rate, start_slope = 0.1, 0.3
def adjust(slope=0.3, learning_rate=0.3):
    line = None
    delta = 0.3
    counter = -1
    for ((x, y), label) in zip(data, labels):   
        counter += 1 
        ax.scatter(x, y,
                   color="y" if label == 0 else "orange")
        ax.annotate(str(counter), 
                    (x, y))
 
        pos2line = slope * x - y
        target_slope = (y + delta) / x
        error = (target_slope - slope) 
        if label == 1 and pos2line < 0:
            # point is above line but should be below 
            # => increment slope
            slope += error * learning_rate
            ax.plot(X, slope * X, 
                    linewidth=2, label=str(counter))

        elif label == 0 and pos2line > 0:
            # point is below line but should be above 
            # => decrement slope
            slope += error * learning_rate
            ax.plot(X, slope * X,  
                    linewidth=2, label=str(counter))
    return slope

fig, ax = plt.subplots()
colours = ["orange", "yellow"]
label_name = ["Oranges", "Lemons"]


ax.set(xlabel='X', ylabel='Y', title='fruits')
slope_count = 1
ax.plot(X, 
        start_slope * X,  
        linewidth=2,
        label="initial")
slope = adjust(start_slope, learning_rate)

ax.legend()
ax.grid()
plt.show()

print(slope)

Nous pouvons voir dans la classe précédente que nous n'avons pas trouvé une ligne de démarcation correcte. La raison en est que notre taux d'apprentissage était trop faible pour l'ensemble des données, c'est-à-dire que nous n'avons pas assez de fruits pour un taux d'apprentissage aussi faible. Nous pouvons essayer d'obtenir plus de fruits ou nous pouvons appeler adjust plusieurs fois, c'est-à-dire répéter l'apprentissage avec les mêmes données. Nous faisons cela dans le code suivant :

In [None]:
fig, ax = plt.subplots()
colours = ["orange", "yellow"]
label_name = ["Oranges", "Lemons"]


ax.set(xlabel='X', ylabel='Y', title='fruits')
slope_count = 1
ax.plot(X, 
        start_slope * X,  
        linewidth=2,
        label="initial")
slope = adjust(start_slope, learning_rate)
# redo the learning, we use the current slope as the start slope:
slope = adjust(slope, learning_rate)
# and again once more:
slope = adjust(slope, learning_rate)

ax.legend()
ax.grid()
plt.show()

print(slope)

Nous pouvons être satisfaits maintenant !

Dans le chapitre suivant, nous verrons que cette idée peut s'appliquer à des réseaux neuronaux simples ne comportant qu'un seul neurone.

## Un réseau neuronal simple

Nous avons été capables de séparer les deux classes avec une ligne droite. On peut se demander quel est le rapport avec les réseaux neuronaux. Nous allons établir ce lien ci-dessous.

Nous allons définir un réseau neuronal pour classer les ensembles de données précédents. Notre réseau neuronal sera composé d'un seul neurone. Un neurone avec deux valeurs d'entrée, l'une pour l'"aigreur" et l'autre pour la "douceur".

<center>
    <img src="img/illustration11_5.png" width="50%">
</center>

Les deux valeurs d'entrée - appelées in_data dans notre programme Python ci-dessous - doivent être pondérées par des valeurs de poids. Pour résoudre notre problème, nous définissons une classe Perceptron. Une instance de cette classe est un Perceptron (ou Neuron). Elle peut être initialisée avec la longueur d'entrée, c'est-à-dire le nombre de valeurs d'entrée, et les poids, qui peuvent être donnés sous forme de liste, de tuple ou de tableau. Si aucune valeur n'est donnée pour les poids ou si le paramètre est défini sur None, nous initialiserons les poids à 1 / input_length.

Dans l'exemple suivant, nous choisissons -0.45 et 0.5 comme valeurs pour les poids. Ce n'est pas la façon normale de procéder. Un réseau neuronal calcule les poids automatiquement pendant sa phase de formation, comme nous l'apprendrons plus tard.

In [None]:
import numpy as np

class Perceptron:
    
    def __init__(self, weights):
        """
        'weights' can be a numpy array, list or a tuple with the
        actual values of the weights. The number of input values
        is indirectly defined by the length of 'weights'
        """
        self.weights = np.array(weights)
    
    def __call__(self, in_data):
        weighted_input = self.weights * in_data
        weighted_sum = weighted_input.sum()
        return weighted_sum

Chaque instance de ce Perceptron est appelable comme une fonction avec une liste (ou un tableau) de deux éléments.

In [None]:
p = Perceptron(weights=[-0.45, 0.5])
p([2.9, 4])

Nous pouvons l'appeler avec les données de nos citrons et oranges :

In [None]:
for point in zip(oranges_x[:10], oranges_y[:10]):
    res = p(point)
    print(res, end=", ")

for point in zip(lemons_x[:10], lemons_y[:10]):
    res = p(point)
    print(res, end=", ")

Nous pouvons voir que nous obtenons une valeur négative si nous saisissons une orange et une valeur positive si nous saisissons un citron. Avec ces connaissances, nous pouvons calculer la précision de notre réseau neuronal sur cet ensemble de données :

In [None]:
from collections import Counter
evaluation = Counter()
for point in zip(oranges_x, oranges_y):
    res = p(point)
    if res < 0:
        evaluation['corrects'] += 1
    else:
        evaluation['wrongs'] += 1


for point in zip(lemons_x, lemons_y):
    res = p(point)
    if res >= 0:
        evaluation['corrects'] += 1
    else:
        evaluation['wrongs'] += 1

print(evaluation)

Comment fonctionne le calcul ? Nous multiplions les valeurs d'entrée avec les poids et obtenons des valeurs négatives et positives. Examinons ce que nous obtenons, si le calcul donne 0 :

$$\omega_1\cdot x_1+\omega_2\cdot x_2 = 0$$

Nous pouvons transformer cette équation en:
$$x_2=\frac{\omega_1}{\omega_2}\cdot x_1$$

Nous pouvons comparer cela avec la forme générale d'une ligne droite:

$$y=m\cdot x +c$$

où :

- $m$ est la pente ou le gradient de la ligne.
- $c$ est l'ordonnée à l'origine de la droite.
- $x$ est la variable indépendante de la fonction.

Nous pouvons facilement voir que notre équation correspond à la définition d'une ligne et de la pente (alias gradient) $m=\frac{\omega_1}{\omega_2}$ et $c$ est égal à 0.

Il s'agit d'une ligne droite séparant les oranges et les citrons, que l'on appelle la ```frontière de décision```.

Nous visualisons cela avec le programme Python suivant :

In [None]:
import time
import matplotlib.pyplot as plt
slope = 0.1

X = np.arange(0, 8)
fig, ax = plt.subplots()
ax.scatter(oranges_x, 
           oranges_y, 
           c="orange", 
           label="oranges")
ax.scatter(lemons_x, 
           lemons_y, 
           c="y", 
           label="lemons")

slope = 0.45 / 0.5
ax.plot(X, slope * X,  linewidth=2)


ax.grid()
plt.show()

print(slope)

## Formation d'un réseau neuronal

Comme nous l'avons mentionné dans la section précédente : Nous n'avons pas entraîné notre réseau. Nous avons ajusté les poids à des valeurs dont nous savons qu'elles formeraient une ligne de démarcation. Nous souhaitons maintenant démontrer ce qui est nécessaire pour former notre réseau neuronal simple.

Avant de commencer cette tâche, nous allons séparer nos données en données d'apprentissage et de test dans le programme Python suivant. En attribuant la valeur 42 au paramètre ```random_state```, nous obtiendrons le même résultat à chaque exécution, ce qui peut être utile pour le débogage.

In [None]:
from sklearn.model_selection import train_test_split
import random

oranges = list(zip(oranges_x, oranges_y))
lemons = list(zip(lemons_x, lemons_y))

# labelling oranges with 0 and lemons with 1:
labelled_data = list(zip(oranges + lemons, 
                         [0] * len(oranges) + [1] * len(lemons)))
random.shuffle(labelled_data)

data, labels = zip(*labelled_data)

res = train_test_split(data, labels, 
                       train_size=0.8,
                       test_size=0.2,
                       random_state=42)
train_data, test_data, train_labels, test_labels = res    
print(train_data[:10], train_labels[:10])

Comme nous commençons avec deux poids arbitraires, nous ne pouvons pas nous attendre à ce que le résultat soit correct. Pour certains points (fruits), il peut retourner la bonne valeur, c'est-à-dire 1 pour un citron et 0 pour une orange. Dans le cas où nous obtenons un résultat erroné, nous devons corriger nos valeurs de poids. Tout d'abord, nous devons calculer l'erreur. L'erreur est la différence entre la valeur cible ou attendue ```target_result``` et la valeur calculée ```calculated_result```. Avec cette erreur, nous devons ajuster les valeurs de poids avec une valeur incrémentale, c'est-à-dire:

$$\omega_1 = \omega_1 + \Delta\omega_1\text{ et }\omega_2 = \omega_2 + \Delta\omega_2$$

<center>
    <img src="img\illustration11_6.png" width="50%">
</center>

Si l'erreur $e$ est égale à 0, c'est-à-dire que le résultat cible est égal au résultat calculé, nous n'avons rien à faire. Le réseau est parfait pour ces valeurs d'entrée. Si l'erreur n'est pas égale, nous devons modifier les poids. Nous devons modifier les poids en leur ajoutant de petites valeurs. Ces valeurs peuvent être positives ou négatives. La quantité de poids que nous devons modifier dépend de l'erreur et de la valeur d'entrée. Supposons, $x_1=0$ et $x_2>0$. Dans ce cas le résultat dans ce cas résulte uniquement sur l'entrée $x_2$. Cela signifie d'autre part que nous pouvons minimiser l'erreur en modifiant uniquement $\omega_2$. Si l'erreur est négative, nous devrons lui ajouter une valeur négative, et si l'erreur est positive, nous devrons lui ajouter une valeur positive. A partir de là, nous pouvons comprendre que quelles que soient les valeurs d'entrée, nous pouvons les multiplier par l'erreur et nous obtenons des valeurs, que nous pouvons ajouter aux poids. Il manque encore une chose : En faisant ça, on apprendrait à être rapide. Nous avons beaucoup d'échantillons et chaque échantillon ne devrait changer les poids qu'un tout petit peu. Nous devons donc multiplier ce résultat par un taux d'apprentissage ```self.learning_rate```. Le taux d'apprentissage est utilisé pour contrôler la vitesse à laquelle les poids sont mis à jour. De petites valeurs pour le taux d'apprentissage entraînent un long processus d'apprentissage, de plus grandes valeurs comportent le risque de se retrouver avec des valeurs de poids sous-optimales. Nous verrons cela de plus près dans notre chapitre sur la rétropropagation.

Nous sommes maintenant prêts à écrire le code pour adapter les poids, ce qui signifie entraîner le réseau. Pour ce faire, nous ajoutons une méthode 'adjust' à notre classe Perceptron. La tâche de cette méthode est de corriger l'erreur.

In [None]:
import numpy as np
from collections import Counter

class Perceptron:
    
    def __init__(self, 
                 weights,
                 learning_rate=0.1):
        """
        'weights' can be a numpy array, list or a tuple with the
        actual values of the weights. The number of input values
        is indirectly defined by the length of 'weights'
        """
        self.weights = np.array(weights)
        self.learning_rate = learning_rate
     
    # activation function:
    @staticmethod
    def unit_step_function(x):
        if  x < 0:
            return 0
        else:
            return 1
        
    def __call__(self, in_data):
        weighted_input = self.weights * in_data
        weighted_sum = weighted_input.sum()
        return Perceptron.unit_step_function(weighted_sum)
    
    def adjust(self, 
               target_result, 
               calculated_result,
               in_data):
        if type(in_data) != np.ndarray:
            in_data = np.array(in_data)  
        error = target_result - calculated_result
        if error != 0:
            correction = error * in_data * self.learning_rate
            self.weights += correction 
            
    def evaluate(self, data, labels):
        evaluation = Counter()
        for index in range(len(data)):
            label = int(round(p(data[index]),0))
            if label == labels[index]:
                evaluation["correct"] += 1
            else:
                evaluation["wrong"] += 1
        return evaluation
                

p = Perceptron(weights=[0.1, 0.1],
               learning_rate=0.3)

for index in range(len(train_data)):
    p.adjust(train_labels[index], 
             p(train_data[index]), 
             train_data[index])
    
evaluation = p.evaluate(train_data, train_labels)
print(evaluation.most_common())
evaluation = p.evaluate(test_data, test_labels)
print(evaluation.most_common())

print(p.weights)

Tant sur les données d'apprentissage que sur les données de test, nous n'avons que des valeurs correctes, c'est-à-dire que notre réseau a été capable d'apprendre automatiquement et avec succès !

Nous visualisons la frontière de décision avec le programme suivant :

In [None]:
import matplotlib.pyplot as plt
import numpy as np

X = np.arange(0, 7)
fig, ax = plt.subplots()

lemons = [train_data[i] for i in range(len(train_data)) if train_labels[i] == 1]
lemons_x, lemons_y = zip(*lemons)
oranges = [train_data[i] for i in range(len(train_data)) if train_labels[i] == 0]
oranges_x, oranges_y = zip(*oranges)

ax.scatter(oranges_x, oranges_y, c="orange")
ax.scatter(lemons_x, lemons_y, c="y")

w1 = p.weights[0]
w2 = p.weights[1]
m = -w1 / w2
ax.plot(X, m * X, label="decision boundary")
ax.legend()
plt.show()
print(p.weights)

Examinons l'algorithme "en action".

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cm as cm

p = Perceptron(weights=[0.1, 0.1],
               learning_rate=0.1)
number_of_colors = 10
colors = cm.rainbow(np.linspace(0, 1, number_of_colors))

fig, ax = plt.subplots()
ax.set_xticks(range(8))
ax.set_ylim([-2, 8])

counter = 0
for index in range(len(train_data)):
    old_weights = p.weights.copy()
    p.adjust(train_labels[index], 
             p(train_data[index]), 
             train_data[index])
    if not np.array_equal(old_weights, p.weights):
        color = "orange" if train_labels[index] == 0 else "y"        
        ax.scatter(train_data[index][0], 
                   train_data[index][1],
                   color=color)
        ax.annotate(str(counter), 
                    (train_data[index][0], train_data[index][1]))
        m = -p.weights[0] / p.weights[1]
        print(index, m, p.weights, train_data[index])
        ax.plot(X, m * X, label=str(counter), color=colors[counter])
        counter += 1
ax.legend()
plt.show()

Chacun des points du diagramme ci-dessus entraîne une modification des poids. Nous les voyons numérotés dans l'ordre de leur apparition et la ligne droite correspondante. De cette façon, nous pouvons voir comment les réseaux "apprennent".

[Suivant](12_reseau_de_neurones_simple_python.ipynb)