# <a id='linear-models'></a> 1.1. [**Modèles linéaires**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/1_1_linear_model.ipynb)<br/>([*Linear Models*](https://scikit-learn.org/stable/modules/linear_model.html))

Ce chapitre présente un ensemble de méthodes destinées à la régression dans lesquelles la valeur cible est supposée être une combinaison linéaire des caractéristiques. En notation mathématique, si $\hat{y}$ est la valeur prédite :

$$\hat{y}(w, x) = w_0 + w_1 x_1 + ... + w_p x_p = w_0 + x^\top w$$

Dans tout le module, nous désignons le vecteur $w = (w_1,..., w_p)$ par `coef_` et $w_0$ par `intercept_`.

Pour effectuer une classification avec des modèles linéaires généralisés, voir [**Régression logistique** (1.1.11)](#logistic-regression).

✔ 1.1.1. [**Moindres carrés ordinaires**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/1_1_linear_model.ipynb#ordinary-least-squares)<br/>([*Ordinary Least Squares*](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares))


# <a id='ordinary-least-squares'></a> 1.1.1. Moindres carrés ordinaires<br/>([*Ordinary Least Squares*](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares))

[`LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) ajuste un modèle linéaire avec des coefficients $w = (w_1,..., w_p)$ pour minimiser la somme résiduelle des carrés entre les cibles observées dans l'ensemble de données et les cibles prédites par l'approximation linéaire. Mathématiquement, il résout un problème de la forme :

$$\displaystyle\min_{w} || X w - y||_2^2$$

<p style="text-align: center"><img alt="sphx_glr_plot_ols_001.png" src="https://scikit-learn.org/stable/_images/sphx_glr_plot_ols_001.png" src="https://scikit-learn.org/stable/_images/sphx_glr_plot_ols_001.png" style="width: 320.0px; height: 240.0px" /></a></p>

[`LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) prend les tableaux $X$ et $y$ dans sa méthode `fit` d'ajustement et stocke les coefficients $w$ du modèle linéaire dans son membre `coef_` :

In [1]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2]) # > LinearRegression()
print('coef_      :', reg.coef_) # > array([0.5, 0.5])
print('intercept_ :', reg.intercept_)

coef_      : [0.5 0.5]
intercept_ : 2.220446049250313e-16


Les estimations de coefficient pour les moindres carrés ordinaires (**OLS**) reposent sur l'indépendance des caractéristiques. Lorsque les caractéristiques sont corrélées et que les colonnes de la **matrice de conception** ont une dépendance approximativement linéaire, la matrice de conception devient proche du **singulier** et, par conséquent, l'estimation des moindres carrés devient très sensible aux erreurs aléatoires dans la cible observée, produisant une grande **variance**. Cette situation de **multicolinéarité** peut survenir, par exemple, lorsque des données sont collectées sans **plan expérimental**.

### Exemples

#### [**Exemple de régression linéaire**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_1_linear_model/plot_ols.ipynb)<br/>([*Linear Regression Example*](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html))

## <a id='non-negative-least-squares'></a> 1.1.1.1. Moindres Carrés Non-Négatif<br/>([*Non-Negative Least Squares*](https://scikit-learn.org/stable/modules/linear_model.html#non-negative-least-squares))

Il est possible de contraindre tous les coefficients à être non négatifs, ce qui peut être utile lorsqu'ils représentent certaines quantités physiques ou naturellement non négatives (par exemple, les comptages de fréquence ou les prix des biens). [`LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) accepte un paramètre booléen `positive` : lorsqu'il est défini `True` la méthode des moindres carrés non-négative (**NNLS**) est alors appliquée.

### Exemples

#### [**Moindres Carrés Non-Négatif**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_1_linear_model/plot_nnls.ipynb)<br/>([*Non-negative least squares*](https://scikit-learn.org/stable/auto_examples/linear_model/plot_nnls.html))

## <a id='ordinary-least-squares-complexity'></a> 1.1.1.2. Complexité des Moindres Carrés Ordinaire<br/>([*Ordinary Least Squares Complexity*](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares-complexity))

La solution des moindres carrés est calculée à l'aide de la décomposition en valeurs singulières de X. Si X est une matrice de forme `(n_samples, n_features)`, cette méthode a un coût de $O(n p^2)$, en admettant que $n \geq p$.

# <a id='ridge-regression-and-classification'></a> 1.1.2. Régression et classification de crête<br/>([*Ridge regression and classification*](https://scikit-learn.org/stable/modules/linear_model.html#ridge-regression-and-classification))

## <a id='regression'></a> 1.1.2.1. Régression

La régression de crête [`Ridge`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) résout certains des problèmes des moindres carrés ordinaires en imposant une pénalité à la taille des coefficients. Les coefficients d'arête minimisent une somme résiduelle des carrés pénalisée :

$$\min_{w} || X w - y||_2^2 + \alpha ||w||_2^2$$

Le paramètre de complexité $\alpha \geq 0$ contrôle le niveau de rétrécissement : plus la valeur de $\alpha$ est importante, plus le niveau de rétrécissement est important, et donc les coefficients deviennent plus robustes à la colinéarité.

<p style="text-align: center"><img alt="sphx_glr_plot_ridge_path_001.png" src="https://scikit-learn.org/stable/_images/sphx_glr_plot_ridge_path_001.png" style="width: 320.0px; height: 240.0px;" /></a>

Comme avec les autres modèles linéaires, `Ridge` prendra dans sa méthode `fit` les tableaux $X, y$ et stockera les coefficients $w$ du modèle linéaire dans son membre `coef_` :

In [None]:
from sklearn import linear_model
reg = linear_model.Ridge(alpha=.5)
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
display(reg.coef_)
display(reg.intercept_)

array([0.34545455, 0.34545455])

0.1363636363636364

## <a id='classification'></a> 1.1.2.2. Classification

Le régresseur [`Ridge`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) a une variante classifieur : [`RidgeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeClassifier.html#sklearn.linear_model.RidgeClassifier). Ce classifieur convertit d'abord les cibles binaires en `{-1, 1}`, puis traite le problème comme une tâche de régression, optimisant le même objectif que ci-dessus. La classe prédite correspond au signe de la prédiction du régresseur. Pour la classification multiclasse, le problème est traité comme une régression multi-sortie et la classe prédite correspond à la sortie avec la valeur la plus élevée.

Il peut sembler discutable d'utiliser une perte des moindres carrés (pénalisée) pour ajuster un modèle de classification au lieu de pertes logistiques ou de crête plus traditionnelles. Cependant, en pratique, tous ces modèles peuvent conduire à des scores de validation croisée similaires en termes d'exactitude ou de précision/rappel, tandis que la perte des moindres carrés pénalisée utilisée par le [`RidgeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeClassifier.html#sklearn.linear_model.RidgeClassifier) permet un choix très différent des solveurs numériques avec des profils de performances de calcul distincts.

Le [`RidgeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeClassifier.html#sklearn.linear_model.RidgeClassifier) peut être beaucoup plus rapide que par exemple la [`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression) avec un grand nombre de classes car il peut calculer la **matrice de projection** $(X^\top X)^{-1} X^\top$ juste une fois.

Ce classifieur est parfois appelé [wkp:**machines à vecteurs de support à moindres carrés**](https://en.wikipedia.org/wiki/Least-squares_support-vector_machine) avec noyau linéaire.

## <a id='ridge-complexity'></a> 1.1.2.3. Complexité du "Ridge"

Cette méthode a le même ordre de complexité que les moindres carrés ordinaires.

## <a id='setting-the-regularization-parameter-leave-one-out-cross-validation'></a> 1.1.2.4. Définition du paramètre de régularisation : leave-one-out Cross-Validation

[RidgeCV](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html#sklearn.linear_model.RidgeCV) implémente la régression de crête avec validation croisée intégrée du paramètre alpha. L'objet fonctionne de la même manière que GridSearchCV sauf qu'il est par défaut à Leave-One-Out Cross-Validation :

In [None]:
import numpy as np
from sklearn import linear_model
reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
# RidgeCV(alphas=array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
#      1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]))
reg.alpha_
# 0.01

0.01

La spécification de la valeur de l'attribut [`cv`](https://scikit-learn.org/stable/glossary.html#term-cv) déclenchera l'utilisation de la validation croisée avec [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV), par exemple `cv=10` pour une validation croisée 10 fois, plutôt que la validation croisée Leave-One-Out.

## Exemples

### [**Affichage des coefficients de crête comme fonction de la régularisation**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_1_linear_model/plot_ridge_path.ipynb)<br/>([*Plot Ridge coefficients as a function of the regularization*](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ridge_path.html))

Montre l'effet de la colinéarité sur les coefficients d'un estimateur.

### [**Classification de documents textes à l'aide de caractéristiques parcimonieuses**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_1_linear_model/plot_document_classification_20newsgroups.ipynb)<br/>([*Classification of text documents using sparse features*](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html))


### [**Pièges courants dans l'interprétation des coefficients des modèles linéaires**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/4_inspection/plot_linear_model_coefficient_interpretation.ipynb)<br/>([*Common pitfalls in the interpretation of coefficients of linear models*](https://scikit-learn.org/stable/auto_examples/inspection/plot_linear_model_coefficient_interpretation.html))

## Références

“**Notes on Regularized Least Squares**”, Rifkin & Lippert [(](https://drive.google.com/file/d/14EuBuRok9fMNfXPAExnb8-r2xBbkYU5K/view?usp=share_link)[*rapport technique*](http://cbcl.mit.edu/publications/ps/MIT-CSAIL-TR-2007-025.pdf), [*diapositives de cours*](https://www.mit.edu/~9.520/spring07/Classes/rlsslides.pdf)[)](https://drive.google.com/file/d/1EEnlzb0jI5yxebwN7atU9QnbVQwtYh0_/view?usp=share_link).