In [1]:
import numpy as np
import math as m
from matplotlib import pyplot as plt

# Régression linéaire

Passons en revu quelques technique d'estimation des paramètres d'une régression linéaire

Génération de données d'exercice

In [27]:
N_OBS = 1000
N_FEATS = 4
BETA = [42, 1, m.pi, m.e, (1+m.sqrt(5))/2]
SIGMA = 0.3

In [3]:
eps = np.random.normal(0, SIGMA, size=N_OBS)
X = np.random.randn(N_OBS, N_FEATS)
y = BETA[0] + BETA[1]*X[:, 0]  + BETA[2]*X[:, 1]  + BETA[3]*X[:, 2]  + BETA[4]*X[:, 3] + eps

# Bonne pratique :
Certaines étapes sont récurrentes dans le traitement des problématiques ML. Une première étape souvent utile consiste à standardiser les données d'entraînement :

In [None]:
from sklearn.preprocessing import ?

? = ?.?(X)

Une autre étape, cruciale, est un passage méthodologique obligatoire:

In [None]:
from sklearn.model_selection import ?

?, ?, ?, ? = ?(X, y)

Puisque le but de l'exercice est de coder des méthode d'estimation, nous allons exceptionnellement continuer avec `(X, y)`

# Un test avec sklearn

Apprentissage d'une régression linéaire via ScikitLearn pour avoir une base

In [5]:
from sklearn ?

In [9]:
# fit d'une regression 
lm = ?

In [11]:
# affichage des coefficients estimés
print(f"Constante estimée : {lm.intercept_}")
print(f"Coeffs estimés    : {lm.coef_}")

Constante estimée : 41.98900277407211
Coeffs estimés    : [1.0058881  3.15463999 2.72123358 1.62106606]


# Méthode d'estimation manuelle

## Closed-form

On rappelle que la closed-form de l'estimateur des coeffs de régression est 
$$\hat{\beta} = (X' \cdot X)^{-1}X'y$$

Réaliser l'opération matricielle pour obtenir directement l'estimateur des coefficients. Attention, on rappelle qu'il faut injecter une colonne de `1` à `X` pour estimer la constante ("intercept")

In [14]:
Xc = np.concatenate((np.ones((N_OBS, 1)), X), axis=1)

In [22]:
# passage en numpy de la closed-form:
beta = ?

array([41.98900277,  1.0058881 ,  3.15463999,  2.72123358,  1.62106606])

## Optimisation

Une façon plus commune d'estimer beta est d'optimiser une fonction de coût qui mènera vers les bons paramètres. On rappelle que la fonction de coût en régression linéaire est l'erreur quadratique
$$\ell(\beta) = \| y - \hat{y} \|^2 = \| y - \beta x \|^2$$
et 
$$\frac{\partial \ell}{\partial \beta}(\beta)=2\cdot x ( y - \beta x )$$

In [87]:
from scipy.optimize import minimize

In [104]:
def loss(beta) -> np.float32:
    # Attention à bien utiliser Xc ici aussi pour ne pas rater l'intercept
    return ?

def loss_derivative(beta) -> np.array:
    return (2 * Xc.T * (Xc.dot(beta) - y)).mean(axis=1)

In [105]:
beta_init = np.array([1]*5)
beta_opt = minimize(loss, beta_init, method="BFGS", jac=loss_derivative)

In [106]:
print(f"Success: {beta_opt.success} with beta={beta_opt.x}")

Success: True with beta=[41.98900262  1.00588822  3.15463994  2.72123566  1.62106664]
