# Régression linéaire par moindres carrés
## Implémentation de l'algorithme des moindres carrés

Les imports du notebook complet :

In [1]:
# Install a pip package in the current Jupyter kernel
import sys
!{sys.executable} -m pip install matplotlib
!{sys.executable} -m pip install sklearn
%matplotlib notebook



In [2]:
import random
from sklearn import neighbors
from sklearn.datasets import load_iris  # les donn ́ees iris sont charg ́ees
from sklearn.datasets import load_boston  # les donn ́ees iris sont charg ́ees
from sklearn.datasets import load_diabetes  # les donn ́ees iris sont charg ́ees
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import pylab as pl  # permet de remplacer le nom "pylab" par "pl"
import numpy as np
import statistics as stat

Soit l'algorithme de régression linéaire par moindre carrés suivant : <br>
1) Ajouter le vecteur 1 à la matrice $X \in \mathbb{R}^{n x d}$ contenant les données $x_{i=1}^{n}$<br>
2) Calculer $w = (X^{T}X)^{-1}X^{T}y$, avec $y = y_{i=1}^{n} \in \mathbb{R}^{n}$<br>
3) Retourner $w$<br>
On se propose de coder l'implémentation de la régression linéaire par moindre carrés :

In [3]:
def reg(X, Y):
    ones = np.ones((len(X), 1))
    Xb = np.concatenate((X, ones), axis=1)
    
    Xt = np.transpose(Xb)
    w = np.dot(np.dot(np.linalg.inv(np.dot(Xt, Xb)), Xt), Y)
    
    print("w =", w)
    return w

Pour la réalisation de l'exercice nous utiliserons un jeu de données bi-dimensionnelle contenues dans un fichier.<br>
On ouvre le fichier et on stocke les valeurs dans 2 variables ($x$ et $y$) que nous réutiliserons par la suite.<br>
La variable $x$ est un vecteur en 2 dimensions, la variable $y$ est en 1 dimension.

In [4]:
# Lire le fichier
tt = np.loadtxt("dataRegLin2D.txt")
x = tt[:, :2]
y = tt[:, -1]

On représente les données sur un graphe en 3 dimensions :

In [5]:
def graph3D(x,y):
    fig = pl.figure("Visualisation du jeu de données")
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(x[:,0],x[:,1],y, c=y)
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.set_zlabel('y')
    pl.show()

# Graphe 3D
graph3D(x,y)

<IPython.core.display.Javascript object>

A première vue il y a une dépendance linéaire entre les étiquettes $x_{i}^{1}$, $x_{i}^{2}$ et $y_i$ selon l'angle de vue.

On va donc chercher si les valeurs sont bien dépendantes ou non. Pour cela on affiche les résultats de la régression linéaire des valeurs du fichier sur un graphe en 2D.<br>
En premier lieu on étudie les dépendances entre les étiquettes $x_{i}^{1}$ et $y_i$ (en <span style="color:red">rouge</span>) puis les étiquettes $x_{i}^{2}$ et $y_i$ (en <span style="color:blue">bleu</span>).

In [6]:
# Première étiquette
pl.figure("x^(1)")
pl.scatter(x[:, 0], y, c='red')
pl.show()

# Seconde étiquette
pl.figure("x^(2)")
pl.scatter(x[:, 1], y, c='blue')
pl.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

On peut voir que les données de la <span style="color:red">première dimension</span> de x (i.e $x_{i}^{1}$) est "mal" répartie et produit une dispersion de points qui ne semblent pas avoir de cohérences entre eux.<br>
L'inverse se produit pour les données de la <span style="color:blue">seconde dimension</span> de x (i.e $x_{i}^{2}$) qui ont l'air d'être facilement approchées par une droite de régression.

On cherche maintenant à calculer les droites de régression dans chacun des cas :

In [7]:
# Paramètres de régression
x0p = reg(x[:, [0]], y)  # [ 0.44979209 -0.59832595]
x1p = reg(x[:, [1]], y)  # [ 1.43100678 -0.64475543]
    
def lin(x, xp):
    return xp[0] * x + xp[1]
    
# Graphiques 2D
pl.figure("Plotting des valeurs de x et leur droites de régression calculées")
pl.scatter(x[:, 0], y, c='red')
pl.scatter(x[:, 1], y, c='blue')
pl.plot(x, lin(x, x0p), color='red')
pl.plot(x, lin(x, x1p), color='blue')
pl.show()

w = [ 0.44979209 -0.59832595]
w = [ 1.43100678 -0.64475543]


<IPython.core.display.Javascript object>

On peut remarquer que les points <span style="color:red">rouge</span> de $x_{i}^{1}$ et $y_{i}$ sont dispersés et la droite de régression qui les représente passe grossièrement au milieu de tous les points, mais la cohérence des points entre eux est faible.<br>
En revanche les points <span style="color:blue">bleus</span> sont bien alignés et la droite de régression qui en résulte est  proche des points.

On va calculer un vecteur de pondération <i>w</i> afin de réaliser une fonction qui à partir de valeurs $x_{test}$ permet de prédire le label $y_{test}$ :

In [8]:
# Ensembles de test et d'entraînement
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3,
                                                        random_state=random.seed(123))# Calcul du vecteur de pondération w

w = reg(X_train, Y_train)

w = [ 0.25638898  1.35120776 -0.6909554 ]


On donne la formule de la fonction de la droite de régression, soit $x \in \mathbb{R}^{2}, f(x) =  w_{1}.x_{1} + w_{2}.x_{2} + w_{3}$

In [9]:
def pred_reg(x, w):
    return w[0]*x[0] + w[1]*x[1] +  w[2]

In [10]:
# Calcul de l'erreur au carré entre les valeurs prédites et celles de l'ensemble des données réelles
err_pred = []
for i in range(len(X_test)):
    # Calcul de la valeur prédite
    y_pred = pred_reg(X_test[i], w)
    # Différence entre le label prédit et le label réel
    err_pred.append(abs(Y_test[i] - y_pred)**2)
print(err_pred[:10], "...")

[0.11610533505149415, 1.555202515789215e-05, 0.00018216337176262424, 0.026478656427592093, 1.9414188113212562e-05, 0.0007240384134888348, 0.00018100986632404642, 0.0036772203161509628, 0.01197115392287659, 0.00043726964410269864] ...


In [11]:
# Moyenne d'erreur carrée
stat.mean(err_pred)

0.014354307546065887

On trouve une prédiction proche à 2 décimales en moyenne des valeurs d'origines grâce à la fonction de prédiction entraînée par la méthode des moindres carrés.

### Conclusion
On peut voir que les données en entrées qui semblaient, prises à part, être sans aucun lien, possède bien une corrélation qui permettent ensemble de déduire un modèle linéaire fiable avec une erreur à $10^{-2}$ environ par rapport aux données réelles.

# Régression linéaire avec Scikit-learn
## Sur les mêmes données simulées

Nous avons jusque là réalisé la méthode "à la main" en suivant l'algorithme de régression linéaire des moindres carrés.<br>
Maintenant nous allons réaliser implémenter et analyser de nouveaux algorithmes de régressions linéaires avec la librairie Scikit-learn.<br>

Pour commencer on va recalculer avec les nouveaux outils les données de l'exercice précédent.

In [12]:
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

coefficient of determination: 0.9935785216972255
intercept: -0.6909553990051559
slope: [0.25638898 1.35120776]


Pour rappel nous avions trouvé comme paramètres :

In [13]:
w

array([ 0.25638898,  1.35120776, -0.6909554 ])

In [14]:
# Prédictions des labels y
y_pred = model.predict(X_test)
print(y_pred[:10], "...")

[ 0.69550767 -1.72159361 -1.06410321 -1.08134064  0.25949415 -0.03346814
 -0.17862701  1.82845991  1.06276723  1.49630901] ...


In [15]:
# Formatage des données
pred = np.array(y_pred).reshape(-1, 1)

# Calcul de l'erreur moyenne carré pour chaque valeurs
print(mean_squared_error(Y_test, y_pred))

0.014354307546065818


La prédiction calculée par scikit-learn est identique à celle trouvée précédemment.

On peut appliquer cette méthode sur des jeux de données réels différents, par exemple le prix des maison à Boston ou sur les chiffres du diabète.<br>

## Sur des données réelles
### Diabète
Chargement des données depuis scikit-learn.<br>

In [16]:
# Chargement des données de diabète
diabete = load_diabetes()
X_diabete = diabete.data
Y_diabete = diabete.target

Les attributs disponibles dans ces données sont :
- age in years
- sex
- bmi body mass index
- bp average blood pressure
- s1 tc, T-Cells (a type of white blood cells)
- s2 ldl, low-density lipoproteins
- s3 hdl, high-density lipoproteins
- s4 tch, thyroid stimulating hormone
- s5 ltg, lamotrigine
- s6 glu, blood sugar level

On réalise un jeu de données et on calcule la régression linéaire avec scikit-learn.

In [17]:
# jeux de données de tests et d'entrainements créés à partir de l'ensemble des données importées
X_train, X_test, Y_train, Y_test = train_test_split(X_diabete, Y_diabete, test_size=0.3,
                                                        random_state=random.seed(123))
#Calcul du modèle de régression linéaire
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

# Prédiction de données à partir des données de test
y_pred = model.predict(X_test)

coefficient of determination: 0.5053790575223754
intercept: 150.89933367523483
slope: [  39.33318602 -197.84229064  501.60777338  324.0395553  -876.72402709
  573.37146132  150.87171749  114.73008503  809.26147802   36.74151564]


In [18]:
# Moyenne de l'erreur au carré
print(mean_squared_error(Y_test, y_pred))

2844.8749280816724


L'erreur au carré est très importante, le modèle n'est pas bon.

### Boston<br>
Chargement des données depuis scikit-learn.<br>

In [19]:
# Chargement des données de Boston
boston = load_boston()
X_boston = boston.data
Y_boston = boston.target

Les attributs du jeu de données sont :
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per \$10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in \$1000’s

On réalise un jeu de données et on calcule la régression linéaire avec scikit-learn.

In [20]:
# jeux de données de tests et d'entrainements créés à partir de l'ensemble des données importées
X_train, X_test, Y_train, Y_test = train_test_split(X_boston, Y_boston, test_size=0.3,
                                                        random_state=random.seed(123))

#Calcul du modèle de régression linéaire
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

# Prédiction de données à partir des données de test
y_pred = model.predict(X_test)

coefficient of determination: 0.7355885831309749
intercept: 38.00024247138738
slope: [-9.08343769e-02  4.88169161e-02  5.86135632e-03  3.01270569e+00
 -1.87927702e+01  3.58428187e+00  1.29825617e-02 -1.32476323e+00
  2.87187245e-01 -1.09647980e-02 -9.73402833e-01  7.64992454e-03
 -5.65931111e-01]


In [21]:
# Moyenne de l'erreur au carré
print(mean_squared_error(Y_test, y_pred))

21.64112981267456


L'écart est moins important entre le modèle prédit et les données réelles, il est possible que le modèle soit bon.

## Régression par Ridge et Lasso
La régression ridge et lasso sont des extensions de la régression linéaire par moindres carrés permettant d’éviter le risque de sur-apprentissage.<br>
Nous allons appliquer une régression Ridge et Lasso avec un coefficient $\alpha = 1.0$ sur les données de Boston et comparer les deux solutions.

In [22]:
X_train, X_test, Y_train, Y_test = train_test_split(X_boston, Y_boston, test_size=0.3,
                                                        random_state=random.seed(123))

# alp signifie que le coefficient alpha utilisé est celui par défaut, False sinon pour calculer un coefficient optimisé
def ridge_boston(alp):
    alpha = 1.0 if alp else alphaRidge(X_train, Y_train)['alpha']
    print("alpha =", alpha)

    model = Ridge(alpha=alpha).fit(X_train, Y_train)
    r_sq = model.score(X_train, Y_train)
    print('coefficient of determination:', r_sq)
    print('intercept:', model.intercept_)
    print('slope:', model.coef_)

    # Prédiction
    y_pred = model.predict(X_test)
    print('Erreur moyenne carrée :', mean_squared_error(Y_test, y_pred))

# alp signifie que le coefficient alpha utilisé est celui par défaut, False sinon pour calculer un coefficient optimisé
def lasso_boston(alp):
    alpha = 1.0 if alp else alphaLasso(X_train, Y_train)['alpha']
    print("alpha =", alpha)

    model = Lasso(alpha=alpha).fit(X_train, Y_train)
    r_sq = model.score(X_train, Y_train)
    print('coefficient of determination:', r_sq)
    print('intercept:', model.intercept_)
    print('slope:', model.coef_)

    # Prédiction
    y_pred = model.predict(X_test)
    print('Erreur moyenne carrée :', mean_squared_error(Y_test, y_pred))

In [23]:
# Calcul du modèle de régression linéaire par Ridge
# True signifie que le coefficient alpha utilisé est celui par défaut
ridge_boston(True)

alpha = 1.0
coefficient of determination: 0.7639586998817893
intercept: 25.44155588987199
slope: [-1.04258855e-01  3.40079860e-02 -1.90677207e-02  1.21362480e+00
 -9.92940814e+00  4.76272001e+00 -1.66464537e-02 -1.30035148e+00
  2.62398927e-01 -1.31695923e-02 -9.20356380e-01  9.70579558e-03
 -3.86754432e-01]
Erreur moyenne carrée : 31.61781184970509


In [24]:
# Calcul du modèle de régression linéaire par Lasso
# True signifie que le coefficient alpha utilisé est celui par défaut
lasso_boston(True)

alpha = 1.0
coefficient of determination: 0.7031822892390757
intercept: 38.71609381351291
slope: [-0.05980306  0.03859714 -0.01045478  0.         -0.          1.37824737
  0.01551183 -0.62348884  0.26549666 -0.01610444 -0.75295707  0.00782299
 -0.68409208]
Erreur moyenne carrée : 32.37483602686883


Les deux méthodes donnent des résultats proches entre eux et par rapport à la méthode des moindres carrés.<br>
Nous allons maintenant chercher à calculer le meilleur coefficent $\alpha$ pour les deux nouvelles méthodes de régression linéaire. Pour cela nous utiliserons la méthode de cross-validation sur une grille de valeurs.

In [25]:
## Méthodes pour déterminer le meilleure coefficient alpha les régressions par Ridge et Lasso

def alphaRidge(X, y):
    alphas = np.logspace(-3, -1, 20)
    gscv = GridSearchCV(Ridge(), dict(alpha=alphas), cv=5).fit(X, y)
    return gscv.best_params_


def alphaLasso(X, y):
    alphas = np.logspace(-3, -1, 20)
    gscv = GridSearchCV(Lasso(), dict(alpha=alphas), cv=5).fit(X, y)
    return gscv.best_params_

In [26]:
# Calcul du meilleur coefficient alpha pour la méthode du Ridge
alpha = alphaRidge(X_train, Y_train)['alpha']
alpha

0.06158482110660261

In [27]:
# Calcul du meilleur coefficient alpha pour la méthode du Lasso
alpha = alphaLasso(X_train, Y_train)['alpha']
alpha

0.001623776739188721

On peut donc utiliser le meilleur coefficient $\alpha$ pour les deux méthodes :

In [28]:
# False signifie que le coefficient alpha utilisé est celui optimisé par le calcul d'un coefficient en 
# fonction des jeux de données
ridge_boston(False)

alpha = 0.06158482110660261
coefficient of determination: 0.767106855015476
intercept: 31.167318674117418
slope: [-1.07981934e-01  3.31344806e-02  1.48260143e-02  1.40715047e+00
 -1.79821995e+01  4.69777065e+00 -8.88623969e-03 -1.42550707e+00
  2.76726357e-01 -1.22286639e-02 -1.00809331e+00  9.02788024e-03
 -3.81365510e-01]
Erreur moyenne carrée : 31.496078973041282


In [29]:
# False signifie que le coefficient alpha utilisé est celui optimisé par le calcul d'un coefficient en 
# fonction des jeux de données
lasso_boston(False)

alpha = 0.001623776739188721
coefficient of determination: 0.7671344190358218
intercept: 31.54248464493204
slope: [-1.08195445e-01  3.30850541e-02  1.67722900e-02  1.39308331e+00
 -1.84504804e+01  4.68832927e+00 -8.32236293e-03 -1.43225428e+00
  2.77676321e-01 -1.21774463e-02 -1.01353948e+00  8.98591182e-03
 -3.81592783e-01]
Erreur moyenne carrée : 31.505617005917003


Avec la valeur du coefficient $\alpha$ optimisé, on se rend compte que les deux modèles de régression renvoient des résultats très similaires. Le coefficient $\alpha$ est bien ajusté par rapport au jeux de données et l'erreur est minimisé.

# Algorithme du perceptron pour la classification binaire

In [30]:
from pylab import rand
import pylab as pl
import numpy as np

En utilisant la fonction ci-dessous, on représente des données générées sur un graphique, les données d'apprentissages.

In [31]:
def generateData(n):
    """
    generates a 2D linearly separable dataset with 2n samples.returns X an array of 2D samples, and Y the samples label
    """
    xb = (rand(n) * 2 - 1) / 2 - 0.5
    yb = (rand(n) * 2 - 1) / 2 + 0.5
    xr = (rand(n) * 2 - 1) / 2 + 0.5
    yr = (rand(n) * 2 - 1) / 2 - 0.5
    inputs = []
    for i in range(n):
        inputs.append([xb[i], yb[i], -1])
        inputs.append([xr[i], yr[i], 1])
    data = np.array(inputs)
    X = data[:, 0:2]
    Y = data[:, -1]
    return X, Y

In [32]:
# Génération des données
n = 100
x, y = generateData(n)
# Affichage des données d'apprentissage
pl.figure("Représentation des données d'apprentissage")
pl.scatter(x[:, 0], x[:, 1], c=y)
pl.show()

<IPython.core.display.Javascript object>

On peut tout de suite voir qu'il existe deux ensembles catégorisés (<span style="color:#440154"><b>violet</b></span> et <span style="color:#fde725"><b>jaune</b></span>) dans ce jeu de données et qu'ils sont linéairement séparables. L'outil qui permet de réaliser une séparation par un hyperplan entre 2 ensembles linéairement séparables est le perceptron binaire. On implémente donc l'algorithme du perceptron binaire.

In [33]:
def perceptron(x, y):
    w = np.zeros((x.shape[1]))
    sorted = False
    while not sorted:
        sorted = True
        for xi, yi in zip(x, y):
            if yi * np.dot(w, xi) <= 0:
                sorted = False
                w += yi * xi
    print("w =", w)
    return w

On calcule le vecteur de pondération $w$ qui résulte du perceptron avec nos données et on représente la <span style="color:#ff7f0e">droite</span> générée par le vecteur de pondération sur un graphique. A noter que ce cas est fait à partir de données linéairement séparables par une droite passant par l'origine.

In [34]:
# Calcul du vecteur de pondération par le perceptron
w = perceptron(x, y)

#Affichage sur le graphique de la droite
pl.figure("Affichage de la droite du classifieur")
pl.plot(x, (-w[0] / w[1]) * x)
pl.scatter(x[:, 0], x[:, 1], c=y)
pl.show()

w = [ 0.45072309 -0.18489587]


<IPython.core.display.Javascript object>

Pour tester le vecteur de pondération $w$ on va réaliser un ensemble de jeux de données de test et calculer l'erreur que la prédiction nous donne sur l'ensemble cet ensemble.

In [35]:
# Génération des données de test
x_test, y_test = generateData(n)

# Calcul de l'erreur
e = 0
for xi, yi in zip(x_test, y_test):
    prod_vect_xw = np.dot(xi, w)
    # Teste la bonne appartenance à une catégorie des données
    if (prod_vect_xw > 0 > yi) or (prod_vect_xw < 0 < yi):
        e += 1
print(e)

0


Le vecteur $w$ donne donc une prédiction parfaite, nous n'avons aucune erreur entre l'ensemble de test et l'ensemble prédit.

Enfin, nous avons vu le cas du perceptron sur des données séparables par un hyperplan passant par l'origine. Nous allons étudier le cas d'un hyperplan ne passant pas par l'origine.<br>
Voici le code qui génère les données pour ce cas :

In [36]:
def generateData2(n):
    """
    generates a 2D linearly separable dataset with 2n samples.returns X an array of 2D samples, and Y the samples label
    """
    xb = (rand(n) * 2 - 1) / 2 + 0.5
    yb = (rand(n) * 2 - 1) / 2
    xr = (rand(n) * 2 - 1) / 2 + 1.5
    yr = (rand(n) * 2 - 1) / 2 - 0.5
    inputs = []
    for i in range(n):
        inputs.append([xb[i], yb[i], -1])
        inputs.append([xr[i], yr[i], 1])
    data = np.array(inputs)
    X = data[:, 0:2]
    Y = data[:, -1]
    return X, Y

Nous représentons ces données sur un graphique :

In [37]:
# Génération des données ne passant pas par l'origine
x, y = generateData2(n)
pl.figure("Représentation des données d'apprentissage")
pl.scatter(x[:, 0], x[:, 1], c=y)
pl.show()

On veut utiliser la technique qui permet de considérer nos données qui sont de dimensions $d$, dans $\mathbb{R}^{d}$, on va faire comme si elles étaient dans $\mathbb{R}^{d+1}$ et qu'elles avaient toutes 1 en dernière coordonnée.<br>
Du coup, on considère que $w$ est aussi de dimension $d+1$ et la dernière coordonnée de $w$ est $b$, le scalaire qui permet de générer un vecteur $w$ qui ne passe pas forcément par l'origine.

On définit une nouvelle fonction $complete$ qui ajoute cette dimension aux données.

In [38]:
def complete(sample):
    return np.concatenate(
        (sample,
         np.ones((len(sample), 1))
         ),
        axis=1
    )

In [39]:
# Ajout d'un attribut à 1 pour chaque données
x = complete(x)

# Calcul du perceptron avec biais
w = perceptron(x, y)

# Représentation graphique de l'hyperplan avec les données
pl.figure("Représentation de l'hyperplan du classifieur")
# Utilisation de l'équation de la droite à partir du vecteur de pondération
pl.plot(x, (-w[0] / w[1]) * x - w[2] / w[1])
pl.scatter(x[:, 0], x[:, 1], c=y)
pl.show()

w = [ 10.5117142   -2.27168154 -11.        ]


<IPython.core.display.Javascript object>

On peut calculer l'erreur avec le nouveau perceptron avec biais :

In [40]:
# Test de l'erreur avec biais
# Génération des données de test
x_test, y_test = generateData2(n)
x_test = complete(x_test)

# Calcul de l'erreur
e = 0
for xi, yi in zip(x_test, y_test):
    if (np.dot(xi, w) > 0 > yi) or (np.dot(xi, w) < 0 < yi):
        e += 1
print(e)

1


Il peut arriver que les données ne soient pas toujours totalement linéairement séparables et on trouve donc quelques erreurs selon l'itération, mais elles restent minoritaires et n'impactent pas le résultat. L'hyperplan sépare bien les deux ensembles et ne passe pas par l'origine.

## Perceptron à noyau

Pour représenter des données cette fois dans le cadre du perceptron à noyau, on implémente une nouvelle fonction :

In [41]:
def generateData3(n):
    """generates a non linearly separable dataset with about 2n samples.The third element of the sample is the label"""
    xb = (rand(n) * 2 - 1) / 2
    yb = (rand(n) * 2 - 1) / 2
    # (xb, yb) est dans le carré centré à l’origine de c^oté 1
    xr = 3 * (rand(4 * n) * 2 - 1) / 2
    yr = 3 * (rand(4 * n) * 2 - 1) / 2
    # (xb, yb) est dans le carré centré à l’origine de c^oté 3
    inputs = []
    for i in range(n):
        inputs.append(((xb[i], yb[i]), -1))
    for i in range(4 * n):
        # on ne conserve que les points extérieurs au carré centré à l’origine de c^oté 2
        if abs(xr[i]) >= 1 or abs(yr[i]) >= 1:
            inputs.append(((xr[i], yr[i]), 1))
    return inputs

In [42]:
# Génération de données
sample = generateData3(n)

# Formatage des données
x = [i[0] for i in sample]
x = [[i[0], i[1]] for i in x]
x = np.array(x)
y = [i[1] for i in sample]
y = np.array(y).reshape((-1, 1))

# Affichage sur un graphique des données
pl.figure("Affichage des données d'apprentissage")
pl.scatter(x[:, 0], x[:, 1], c=y)
pl.show()

<IPython.core.display.Javascript object>

Dans le cas du perceptron à noyau, les données ne sont par linéairements séparables, peu importe l'angle de vue voulu, c'est pour cela que l'on observe ce genre d'ensemble.

On cherche à plonger les données dans une dimension qui nous permet de les séparer.<br>
On considère le plongement $\phi : \mathbb{R}^{2} \rightarrow \mathbb{R}^{6}$ défini par $\phi(x,y) = (1,x,y,x², x * y, y²)$ :

In [43]:
#Fonction de plongement R2 à R6
def plongement(x):
    p = []
    for xi in x:
        pp = np.array([1, xi[0], xi[1], xi[0] ** 2, xi[0] * xi[1], xi[1] ** 2])
        p.append(pp)
    return np.array(p)

Pour représenter les données, on va former une séparation à partir de points calculés par le vecteur $w$.<br>
Pour réaliser cela on va calculer des points et les afficher s'ils sont proches de la séparation entre les deux classes.

In [44]:
# Fonction pour réaliser le produit scalaire <w,x>
def f(w, x):
    w = w.reshape((-1, 1))
    x = plongement(x)
    return np.dot(x, w)

# Affichage de la courbe du classifieur par balayage
def plotRect(w):
    res = 500
    for x in range(res):
        for y in range(res):
            # la fonction f va effectuer le calcul du produit scalaire <w,x> pour trouver la classe
            # On affiche les points qui sont à +- 0,01 de l'hyperplan d'après cette fonction f pour afficher les "contours" de l'hyperplan
            if abs(f(w, [[-3 / 2 + 3 * x / res, -3 / 2 + 3 * y / res]])) < 0.01:
                pl.plot(-3 / 2 + 3 * x / res, -3 / 2 + 3 * y / res, 'xb')
    pl.show()

In [45]:
# Plongement des données en R6 puis calcul du perceptron à noyau
px = plongement(x)
w = perceptron(px, y)

# Représentation graphique des données
pl.figure("Représentation des données d'apprentissage")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRect(w)

w = [-2.         -0.22283741 -0.40556795  3.0094052  -1.14419135  2.5427478 ]


Le plongement réalisé correspond à la fonction noyau $k_{1}$ définie par :<br>
$k_{1}((x_{1},y_{1}),(x_{2},y_{2})) = 1 + x_{1}x_{2} + y_{1}y_{2} + x_{1}^{2}x_{2}^{2} + x_{1}y_{1}x_{2}y_{2} + y_{1}^{2}y_{2}^{2}$

In [46]:
def k(a, b):
    x1 = a[0]
    x2 = b[0]
    y1 = a[1]
    y2 = b[1]
    return  1 + x1*x2 + y1*y2 + ((x1**2)*(x2**2)) + x1*y1*x2*y2 + ((y1**2)*(y2**2))

Etant donné un échantillon $S = ((x_{1},y_{1}),...,(x_{n},y_{n}))$ où chaque $x_{i} \in \mathbb{R}²$, une fonction noyau $k : \mathbb{R}² \times \mathbb{R}² \rightarrow \mathbb{R}$, un ensemble de coefficients $c_{1},...,c_{n} \in \mathbb{N}$, l'ensemble $VS$ des exemples de coefficients non nuls ($VS = \{(x_{i}, y_{i})|c_{i} \neq 0\}$), on en déduit la fonction $f : \mathbb{R}²  \rightarrow \mathbb{R}$ définie par :<br>
$f(x) = \sum_{(x_{i},y_{i})\in VS} c_{i}y_{i}k(x_{i},x)$<br>
En effet, cette fonction nous permettra de déterminer la valeur prédite par l'échantillon.

In [47]:
def f_from_k(coeffs, support_set, k, x):
    t = 0
    for a, ss in zip(coeffs, support_set):
        xi = ss[0]
        yi = ss[1]
        t += a * yi * k(xi, x)
    return t

On définit la fonction du perceptron à noyau :

In [48]:
def perceptron_noyau(X, Y, k):
    coef = []
    support_set = []
    isSorted = True
    maxTour = 20
    co = 0
    while isSorted and co < maxTour :
        isSorted = False
        for x, y in zip(X, Y):
            if y * f_from_k(coef, support_set, k, x) <= 0:
                isSorted = True
                support_set.append((x, y))  # (x,y)
                coef += [1]
        co += 1
    return coef, support_set

La fonction $f\_from\_k : x \rightarrow \sum_{i=1}^{n}\alpha_{i}y^{i}k(x,x^{i})$ précédemment définie nous permet de réaliser la représentation graphique du classifieur<br>
On va calculer plusieurs valeurs autour du classifieur et afficher celles qui sont les plus proches (à 0.01 près) pour le rendre visible.

In [49]:
coeff, support = perceptron_noyau(x, y, k)
print(coeff, support)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1] [(array([-0.4952222 , -0.36606963]), array([-1])), (array([-1.4245368,  0.1826665]), array([1])), (array([ 0.81124271, -1.47664103]), array([1])), (array([-0.4952222 , -0.36606963]), array([-1])), (array([-0.25053418, -0.40876583]), array([-1])), (array([ 0.23807494, -0.49206164]), array([-1])), (array([-0.53897456, -1.04152745]), array([1])), (array([-0.4952222 , -0.36606963]), array([-1])), (array([-1.06391681, -0.43517196]), array([1])), (array([-0.4952222 , -0.36606963]), array([-1]))]


In [50]:
def plotRectK(coef,supp, fk):
    res = 150
    for x in range(res):
        for y in range(res):
            if abs(f_from_k(coef, supp, fk, [-3/2+3*x/res,-3/2+3*y/res]))<0.01:
                pl.scatter(-3/2 + 3*x/res, -3/2 + 3*y/res, color='b')
    pl.show()
    
pl.figure("Représentation de l'hyperplan par le perceptron noyau")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, k)

<IPython.core.display.Javascript object>

On obtient le même résultat que dans le perceptron précédent. Cela peut vouloir dire que la fonction noyau est bien adapté avec notre problème.

Nous allons maintenant tester le perceptron avec une autre fonction noyau, celle du noyau gaussien. La fonction prend un paramètre $\sigma$ que nous allons modifier pour analyser les résultats, on prendra $\sigma = \{20, 10, 1, 0.5, 0.2\}$.

In [51]:
import math
def kg20(x,y):
    sigma=20
    return np.exp(-((x[0]-y[0])**2+(x[1]-y[1])**2)/sigma**2)
def kg10(x,y):
    sigma=10
    return np.exp(-((x[0]-y[0])**2+(x[1]-y[1])**2)/sigma**2)
def kg1(x,y):
    sigma=1
    return np.exp(-((x[0]-y[0])**2+(x[1]-y[1])**2)/sigma**2)
def kg05(x,y):
    sigma=0.5
    return np.exp(-((x[0]-y[0])**2+(x[1]-y[1])**2)/sigma**2)
def kg02(x,y):
    sigma=0.2
    return np.exp(-((x[0]-y[0])**2+(x[1]-y[1])**2)/sigma**2)

$\sigma = 20$

In [52]:
coeff, support = perceptron_noyau(x, y, kg20)
pl.figure("Sigma = 20")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, kg20)

<IPython.core.display.Javascript object>

$\sigma = 10$

In [53]:
coeff, support = perceptron_noyau(x, y, kg10)
pl.figure("Sigma = 10")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, kg10)

<IPython.core.display.Javascript object>

$\sigma = 1$

In [54]:
coeff, support = perceptron_noyau(x, y, kg1)
pl.figure("Sigma = 1")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, kg1)

<IPython.core.display.Javascript object>

$\sigma = 0.5$

In [55]:
coeff, support = perceptron_noyau(x, y, kg05)
pl.figure("Sigma = 0.5")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, kg05)

<IPython.core.display.Javascript object>

$\sigma = 0.2$

In [56]:
coeff, support = perceptron_noyau(x, y, kg02)
pl.figure("Sigma = 0.2")
pl.scatter(x[:, 0], x[:, 1], c=y)
plotRectK(coeff, support, kg02)

<IPython.core.display.Javascript object>

La conclusion sur l'utilisation du noyau gaussien,c'est que plus le coefficient sigma est élevé, moins la précision est grande. Donc si le coefficient est trop élevé, la classification sera trop précise et empêche de visualiser les résultats, alors que dans le cas inverse, si le coefficient est trop faible il va absolument mal classifier et la limite entre deux classes sera floue. Ici nous pouvons garder un coefficient $\sigma$ de 1.

# Exercice

On se propose de réaliser un perceptron avec de nouvelles valeurs.

In [57]:
# Récupération des valeurs dans le fichier de données
f = open("./learn.data","r")
training_set = []
x = f.readline()
while x:
    training_set.append(eval(x))
    x = f.readline()
f.close()

In [58]:
# Formatage des données
X_file = []
Y_file = []
for v in training_set:
    t = v[0]
    X_file += [[t[0],t[1]]]
    Y_file += [v[1]]    

In [59]:
# Création de jeux de données
X_train, X_test, Y_train, Y_test = train_test_split(X_file, Y_file, test_size=0.3,
                                                        random_state=random.seed(123))

In [60]:
# Entrainement d'un nouveau perceptron sur le jeu de train
coeff, support = perceptron_noyau(X_train, Y_train, kg1)

In [61]:
# Représentation des données de train
pl.figure("Représentation des données d'apprentissage")
pl.scatter(np.array(X_train)[:,0], np.array(X_train)[:,1], c=Y_train)
pl.show()

In [62]:
# Représentation des données d'apprentissage et du classifieur
pl.figure("Représentation des données d'apprentissage et du classifieur calculé")
pl.scatter(np.array(X_train)[:,0], np.array(X_train)[:,1], c=Y_train)

res = 100
for i in range(res):
    for j in range(res):
        if abs(f_from_k(coeff, support, kg1, [20*i/res,-1+2*j/res]))<0.01:
            pl.scatter(20*i/res,-1+2*j/res, color='b')
pl.show()

<IPython.core.display.Javascript object>

Finalement nous pouvons écrire une fonction qui va reprendre tous ces principes et calculer un score de prédiction sur un ensemble $S$ de données.<br>
Ici nous prendrons ($x\_test,y\_test$) comme ensemble $S$.

In [63]:
def score(S, coeffs, support_set, k):
    x_test, y_test = S
    error = 0
    for x_val, y_val in zip(x_test, y_test):
        if np.sign(f_from_k(coeffs, support_set, k, x_val)) != np.sign(y_val):
            error += 1
    print(f"Trouvé {error} erreurs pour {len(x_test)} valeurs")
    return 1 - error/len(x_test)
    
score((X_test, Y_test), coeff, support, kg1)

Trouvé 2 erreurs pour 28 valeurs


0.9285714285714286