# Régression linéaire par moindres carrés

Les imports du notebook complet :

In [None]:
# Install a pip package in the current Jupyter kernel
import sys
!{sys.executable} -m pip install matplotlib
!{sys.executable} -m pip install sklearn

In [None]:
%matplotlib notebook
import random
from sklearn import neighbors
from sklearn.datasets import load_iris  # les donn ́ees iris sont charg ́ees
from sklearn.datasets import load_boston  # les donn ́ees iris sont charg ́ees
from sklearn.datasets import load_diabetes  # les donn ́ees iris sont charg ́ees
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import pylab as pl  # permet de remplacer le nom "pylab" par "pl"
import numpy as np
import statistics as stat

Soit l'algorithme de régression linéaire par moindre carrés suivant : <br>
1) Ajouter le vecteur 1 à la matrice $X \in \mathbb{R}^{n x d}$ contenant les données $x_{i=1}^{n}$<br>
2) Calculer $w = (X^{T}X)^{-1}X^{T}y$, avec $y = y_{i=1}^{n} \in \mathbb{R}^{n}$<br>
3) Retourner $w$<br>
On se propose de coder l'implémentation de la régression linéaire par moindre carrés :

In [None]:
def reg(X, Y):
    ones = np.ones((len(X), 1))
    Xb = np.concatenate((X, ones), axis=1)
    
    Xt = np.transpose(Xb)
    w = np.dot(np.dot(np.linalg.inv(np.dot(Xt, Xb)), Xt), Y)
    
    print(w)
    return w

Pour la réalisation de l'exercice nous utiliserons un jeu de données bi-dimensionnelle contenues dans un fichier.<br>
On ouvre le fichier et on stocke les valeurs dans 2 variables ($x$ et $y$) que nous réutiliserons par la suite.<br>
La variable $x$ est un vecteur en 2 dimensions, la variable $y$ est en 1 dimension.

In [None]:
# Lire le fichier
tt = np.loadtxt("dataRegLin2D.txt")
x = tt[:, :2]
y = tt[:, -1]

On représente les données sur un graphe en 3 dimensions :

In [None]:
def graph3D(x,y):
    fig = pl.figure("Visualisation du jeu de données")
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(x[:,0],x[:,1],y, c=y)
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.set_zlabel('y')
    pl.show()

# Graphe 3D
graph3D(x,y)

A première vue il y a une dépendance linéaire entre les étiquettes $x_{i}^{1}$, $x_{i}^{2}$ et $y_i$ selon l'angle de vue.

On va donc chercher si les valeurs sont bien dépendantes ou non. Pour cela on affiche les résultats de la régression linéaire des valeurs du fichier sur un graphe en 2D.<br>
En premier lieu on étudie les dépendances entre les étiquettes $x_{i}^{1}$ et $y_i$ (en <span style="color:red">rouge</span>) puis les étiquettes $x_{i}^{2}$ et $y_i$ (en <span style="color:blue">bleu</span>).

In [None]:
# Première étiquette
pl.figure("x^(1)")
pl.scatter(x[:, 0], y, c='red')
pl.show()

# Seconde étiquette
pl.figure("x^(2)")
pl.scatter(x[:, 1], y, c='blue')
pl.show()

On peut voir que les données de la <span style="color:red">première dimension</span> de x (i.e $x_{i}^{1}$) est "mal" répartie et produit une dispersion de points qui ne semblent pas avoir de cohérences entre eux.<br>
L'inverse se produit pour les données de la <span style="color:blue">seconde dimension</span> de x (i.e $x_{i}^{2}$) qui ont l'air d'être facilement approchées par une droite de régression.

On cherche maintenant à calculer les droites de régression dans chacun des cas :

In [None]:
# Paramètres de régression
x0p = reg(x[:, [0]], y)  # [ 0.44979209 -0.59832595]
x1p = reg(x[:, [1]], y)  # [ 1.43100678 -0.64475543]
    
def lin(x, xp):
    return xp[0] * x + xp[1]
    
# Graphiques 2D
pl.figure("Plotting des valeurs de x et leur droites de régression calculées")
pl.scatter(x[:, 0], y, c='red')
pl.scatter(x[:, 1], y, c='blue')
pl.plot(x, lin(x, x0p), color='red')
pl.plot(x, lin(x, x1p), color='blue')
pl.show()

On peut remarquer que les points <span style="color:red">rouge</span> de $x_{i}^{1}$ et $y_{i}$ sont dispersés et la droite de régression qui les représente passe grossièrement au milieu de tous les points, mais la cohérence des points entre eux est faible.<br>
En revanche les points <span style="color:blue">bleus</span> sont bien alignés et la droite de régression qui en résulte est  proche des points.

On va calculer un vecteur de pondération <i>w</i> afin de réaliser une fonction qui à partir de valeurs $x_{test}$ permet de prédire le label $y_{test}$ :

In [None]:
# Calcul du vecteur de pondération w
w = reg(x,y)

On donne la formule de la fonction de la droite de régression, soit $x \in \mathbb{R}^{2}, f(x) =  w_{1}.x_{1} + w_{2}.x_{2} + w_{3}$

In [None]:
def pred_reg(x, w):
    return w[0]*x[0] + w[1]*x[1] +  w[2]

In [None]:
# Calcul de l'erreur au carré entre les valeurs prédites et celles de l'ensemble des données réelles
err_pred = []
for i in range(len(x)):
    # Calcul de la valeur prédite
    y_pred = pred_reg(x[i], w)
    # Différence entre le label prédit et le label réel
    err_pred.append(abs(y[i] - y_pred)**2)
print(err_pred[:10], "...")

In [None]:
# Moyenne d'erreur carrée
stat.mean(err_pred)

On trouve une prédiction proche à 2 décimales en moyenne des valeurs d'origines grâce à la fonction de prédiction entraînée par la méthode des moindres carrés.

# Régression linéaire avec Scikit-learn

Nous avons jusque là réalisé la méthode "à la main" en suivant l'algorithme de régression linéaire des moindres carrés.<br>
Maintenant nous allons réaliser implémenter et analyser de nouveaux algorithmes de régressions linéaires avec la librairie Scikit-learn.<br>

Pour commencer on va recalculer avec les nouveaux outils les données de l'exercice précédent.

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3,
                                                        random_state=random.seed(123))
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

Pour rappel nous avions trouvé comme paramètres :

In [None]:
w

In [None]:
# Prédictions des labels y
y_pred = model.predict(X_test)
print(y_pred[:10], "...")

In [None]:
# Formatage des données
pred = np.array(y_pred).reshape(-1, 1)

# Calcul de l'erreur moyenne carré pour chaque valeurs
print(mean_squared_error(Y_test, y_pred))

La prédiction calculée par scikit-learn est très similaire à celle trouvée précédemment.

On peut appliquer cette méthode sur des jeux de données réels différents, par exemple le prix des maison à Boston ou sur les chiffres du diabète.<br>

## Diabète<br>
Chargement des données depuis scikit-learn.<br>

In [None]:
# Chargement des données de diabète
diabete = load_diabetes()
X_diabete = diabete.data
Y_diabete = diabete.target

Les attributs disponibles dans ces données sont :
- age in years
- sex
- bmi body mass index
- bp average blood pressure
- s1 tc, T-Cells (a type of white blood cells)
- s2 ldl, low-density lipoproteins
- s3 hdl, high-density lipoproteins
- s4 tch, thyroid stimulating hormone
- s5 ltg, lamotrigine
- s6 glu, blood sugar level

On réalise un jeu de données et on calcule la régression linéaire avec scikit-learn.

In [None]:
# jeux de données de tests et d'entrainements créés à partir de l'ensemble des données importées
X_train, X_test, Y_train, Y_test = train_test_split(X_diabete, Y_diabete, test_size=0.3,
                                                        random_state=random.seed(123))
#Calcul du modèle de régression linéaire
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

# Prédiction de données à partir des données de test
y_pred = model.predict(X_test)

In [None]:
# Moyenne de l'erreur au carré
print(mean_squared_error(Y_test, y_pred))

L'erreur au carré est très importante, le modèle n'est pas bon.

## Boston<br>
Chargement des données depuis scikit-learn.<br>

In [None]:
# Chargement des données de Boston
boston = load_boston()
X_boston = boston.data
Y_boston = boston.target

Les attributs du jeu de données sont :
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per \$10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in \$1000’s

On réalise un jeu de données et on calcule la régression linéaire avec scikit-learn.

In [None]:
# jeux de données de tests et d'entrainements créés à partir de l'ensemble des données importées
X_train, X_test, Y_train, Y_test = train_test_split(X_boston, Y_boston, test_size=0.3,
                                                        random_state=random.seed(123))

#Calcul du modèle de régression linéaire
model = LinearRegression().fit(X_train, Y_train)
r_sq = model.score(X_train, Y_train)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)

# Prédiction de données à partir des données de test
y_pred = model.predict(X_test)

In [None]:
# Moyenne de l'erreur au carré
print(mean_squared_error(Y_test, y_pred))

L'écart est moins important entre le modèle prédit et les données réelles, il est possible que le modèle soit bon.

## Régression par Ridge et Lasso
La régression ridge et lasso sont des extensions de la régression linéaire par moindres carrés permettant d’éviter le risque de sur-apprentissage.<br>
Nous allons appliquer une régression Ridge et Lasso avec un coefficient $\alpha = 1.0$ sur les données de Boston et comparer les deux solutions.

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X_boston, Y_boston, test_size=0.3,
                                                        random_state=random.seed(123))

# alp signifie que le coefficient alpha utilisé est celui par défaut, False sinon pour calculer un coefficient optimisé
def ridge_boston(alp):
    alpha = 1.0 if alp else alphaRidge(X_train, Y_train)['alpha']
    print("alpha =", alpha)

    model = Ridge(alpha=alpha).fit(X_train, Y_train)
    r_sq = model.score(X_train, Y_train)
    print('coefficient of determination:', r_sq)
    print('intercept:', model.intercept_)
    print('slope:', model.coef_)

    # Prédiction
    y_pred = model.predict(X_test)
    print('Erreur moyenne carrée :', mean_squared_error(Y_test, y_pred))

# alp signifie que le coefficient alpha utilisé est celui par défaut, False sinon pour calculer un coefficient optimisé
def lasso_boston(alp):
    alpha = 1.0 if alp else alphaLasso(X_train, Y_train)['alpha']
    print("alpha =", alpha)

    model = Lasso(alpha=alpha).fit(X_train, Y_train)
    r_sq = model.score(X_train, Y_train)
    print('coefficient of determination:', r_sq)
    print('intercept:', model.intercept_)
    print('slope:', model.coef_)

    # Prédiction
    y_pred = model.predict(X_test)
    print('Erreur moyenne carrée :', mean_squared_error(Y_test, y_pred))

In [None]:
# Calcul du modèle de régression linéaire par Ridge
# True signifie que le coefficient alpha utilisé est celui par défaut
ridge_boston(True)

In [None]:
# Calcul du modèle de régression linéaire par Lasso
# True signifie que le coefficient alpha utilisé est celui par défaut
lasso_boston(True)

Les deux méthodes donnent des résultats proches entre eux et par rapport à la méthode des moindres carrés.<br>
Nous allons maintenant chercher à calculer le meilleur coefficent $\alpha$ pour les deux nouvelles méthodes de régression linéaire. Pour cela nous utiliserons la méthode de cross-validation sur une grille de valeurs.

In [None]:
## Méthodes pour déterminer le meilleure coefficient alpha les régressions par Ridge et Lasso

def alphaRidge(X, y):
    alphas = np.logspace(-3, -1, 20)
    gscv = GridSearchCV(Ridge(), dict(alpha=alphas), cv=5).fit(X, y)
    return gscv.best_params_


def alphaLasso(X, y):
    alphas = np.logspace(-3, -1, 20)
    gscv = GridSearchCV(Lasso(), dict(alpha=alphas), cv=5).fit(X, y)
    return gscv.best_params_

In [None]:
# Calcul du meilleur coefficient alpha pour la méthode du Ridge
alpha = alphaRidge(X_train, Y_train)['alpha']
alpha

In [None]:
# Calcul du meilleur coefficient alpha pour la méthode du Lasso
alpha = alphaLasso(X_train, Y_train)['alpha']
alpha

On peut donc utiliser le meilleur coefficient $\alpha$ pour les deux méthodes :

In [None]:
# False signifie que le coefficient alpha utilisé est celui optimisé par le calcul d'un coefficient en 
# fonction des jeux de données
ridge_boston(False)

In [None]:
# False signifie que le coefficient alpha utilisé est celui optimisé par le calcul d'un coefficient en 
# fonction des jeux de données
lasso_boston(False)

Avec la valeur du coefficient $\alpha$ optimisé, on se rend compte que les deux modèles de régression renvoient des résultats très similaires. Le coefficient $\alpha$ est bien ajusté par rapport au jeux de données et l'erreur est minimisé.