# <a id='preprocessing-data'></a> 6.3. [**Prétraitement des données**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#preprocessing-data)</br>([*Preprocessing data*](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-data))

Le package `sklearn.preprocessing` fournit plusieurs fonctions utilitaires courantes et des classes de transformeurs pour changer les vecteurs de caractéristiques brutes en une représentation plus adaptée aux estimateurs aval.

En général, les algorithmes d'apprentissage bénéficient d'une standardisation de l'ensemble de données. Si des outliers sont présents dans l'ensemble, des redimensionneurs ou transformateurs robustes sont plus appropriés. Le comportement des différents redimensionneurs, transformeurs et normaliseurs sur un jeu de données contenant des outliers marginaux est mis en évidence dans [**Comparaison de l'effet de différents redimensionneurs sur des données avec des outliers**](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html).

- ✔ 6.3. [**Prétraitement des données**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#preprocessing-data)<br/>([*Preprocessing data*](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-data))
    - **Volume** : 26 pages, 7 exemples, 5 papiers
    - ✔ 6.3.1. [**Standardisation, ou suppression de la moyenne et mise à l'échelle de la variance**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#standardization-or-mean-removal-and-variance-scaling)<br/>([*Standardization, or mean removal and variance scaling*](https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling))
    - ✔ 6.3.2. [**Transformation non linéaire**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#non-linear-transformation)<br/>([*Non-linear transformation*](https://scikit-learn.org/stable/modules/preprocessing.html#non-linear-transformation))
    - ✔ 6.3.3. [**Normalisation**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#normalization)<br/>([*Normalization*](https://scikit-learn.org/stable/modules/preprocessing.html#normalization))
    - ✔ 6.3.4. [**Encodage des caractéristiques catégorielles**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#encoding-categorical-features)<br/>([*Encoding categorical features*](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features))
    - ✔ 6.3.5. [**Discrétisation**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#discretization)<br/>([*Discretization*](https://scikit-learn.org/stable/modules/preprocessing.html#discretization))
    - ✔ 6.3.6. [**Imputation des valeurs manquantes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#imputation-of-missing-values)<br/>([*Imputation of missing values*](https://scikit-learn.org/stable/modules/preprocessing.html#imputation-of-missing-values))
    - ✔ 6.3.7. [**Génération de caractéristiques polynomiales**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#generating-polynomial-features)<br/>([*Generating polynomial features*](https://scikit-learn.org/stable/modules/preprocessing.html#generating-polynomial-features))
    - ✔ 6.3.8. [**Transformateurs personnalisés**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_3_preprocessing.ipynb#custom-transformers)<br/>([*Custom transformers*](https://scikit-learn.org/stable/modules/preprocessing.html#custom-transformers))

# <a id='standardization-or-mean-removal-and-variance-scaling'></a> 6.3.1. Standardisation, ou suppression de la moyenne et normalisation de la variance

La **standardisation** des ensembles de données est **une exigence courante pour de nombreux estimateurs d'apprentissage automatique** mis en œuvre dans scikit-learn; ils pourraient mal se comporter si les caractéristiques individuelles ne ressemblent pas plus ou moins à des données distribuées suivant la distribution normale standard : Gaussienne avec une **moyenne nulle et une variance unitaire**.

En pratique, nous ignorons souvent la forme de la distribution et transformons simplement les données pour les centrer en supprimant la valeur moyenne de chaque caractéristique, puis en les dimensionnant en divisant les caractéristiques non constantes par leur écart-type.

Par exemple, de nombreux éléments utilisés dans la fonction objectif d'un algorithme d'apprentissage (tels que le noyau RBF des Machines à Vecteurs de Support ou les régulariseurs $\ell_1$ et $\ell_2$ des modèles linéaires) peuvent supposer que toutes les caractéristiques sont centrées autour de zéro ou ont une variance de même ordre. Si une caractéristique a une variance qui est des ordres de grandeur plus grande que les autres, elle pourrait dominer la fonction objectif et empêcher l'estimateur d'apprendre correctement des autres caractéristiques comme prévu.

Le module [**`preprocessing`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing) fournit la classe utilitaire [**`StandardScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html), qui est un moyen rapide et facile pour effectuer les opérations suivantes sur un jeu de données de type tableau :

In [1]:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
scaler = preprocessing.StandardScaler().fit(X_train)
scaler
# StandardScaler()

In [2]:
scaler.mean_
# array([1. ..., 0. ..., 0.33...])

array([1.        , 0.        , 0.33333333])

In [3]:
scaler.scale_
#array([0.81..., 0.81..., 1.24...])

array([0.81649658, 0.81649658, 1.24721913])

In [4]:
X_scaled = scaler.transform(X_train)
X_scaled
# array([[ 0.  ..., -1.22...,  1.33...],
#        [ 1.22...,  0.  ..., -0.26...],
#        [-1.22...,  1.22..., -1.06...]])

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

Les données mises à l'échelle ont une moyenne nulle et une variance unitaire :

In [5]:
X_scaled.mean(axis=0)
# array([0., 0., 0.])

array([0., 0., 0.])

In [6]:
X_scaled.std(axis=0)
# array([1., 1., 1.])

array([1., 1., 1.])

Cette classe implémente l'API `Transformer` pour calculer la moyenne et l'écart-type sur un ensemble d'entraînement, afin de pouvoir réappliquer la même transformation sur l'ensemble de test. Cette classe est donc adaptée aux premières étapes d'un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html).

In [7]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

X, y = make_classification(random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
pipe = make_pipeline(StandardScaler(), LogisticRegression())
pipe.fit(X_train, y_train)  # apply scaling on training data
# Pipeline(steps=[('standardscaler', StandardScaler()),
#                 ('logisticregression', LogisticRegression())])

In [8]:
pipe.score(X_test, y_test)  # apply scaling on testing data, without leaking training data.
# 0.96

0.96

Il est possible de désactiver le centrage ou la mise à l'échelle en passant respectivement les paramètres `with_mean=False` ou `with_std=False` au constructeur de [**`StandardScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

## <a id='scaling-features-to-a-range'></a> 6.3.1.1. Mise à l'échelle des caractéristiques dans une plage donnée

Une autre méthode de standardisation consiste à mettre à l'échelle les caractéristiques pour ramener entre des valeurs minimale et maximale données, souvent entre zéro et un, ou de manière à ce que la valeur absolue maximale de chaque caractéristique soit mise à l'échelle à une taille unitaire. Cela peut être réalisé en utilisant [**`MinMaxScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) ou [**`MaxAbsScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html), respectivement.

La motivation pour utiliser cette mise à l'échelle comprend la robustesse par rapport aux écarts types très faibles des caractéristiques et la préservation des entrées nulles dans les données éparses.

Voici un exemple pour mettre à l'échelle une matrice de données factices dans la plage `[0, 1]` :

In [9]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax
# array([[0.5       , 0.        , 1.        ],
#        [1.        , 0.5       , 0.33333333],
#        [0.        , 1.        , 0.        ]])

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

La même instance du transformeur peut ensuite être appliquée à de nouvelles données de test qui n'ont pas été vues lors de l'appel à la méthode `fit` : les mêmes opérations de mise à l'échelle et de translation seront appliquées pour assurer la cohérence avec la transformation effectuée sur les données d'entraînement.

In [10]:
X_test = np.array([[-3., -1.,  4.]])
X_test_minmax = min_max_scaler.transform(X_test)
X_test_minmax
# array([[-1.5       ,  0.        ,  1.66666667]])

array([[-1.5       ,  0.        ,  1.66666667]])

Il est possible d'introspecter les attributs du redimensionneur pour en savoir plus sur la nature exacte de la transformation apprise sur les données d'entraînement.

In [11]:
min_max_scaler.scale_
# array([0.5       , 0.5       , 0.33...])

array([0.5       , 0.5       , 0.33333333])

In [12]:
min_max_scaler.min_
# array([0.        , 0.5       , 0.33...])

array([0.        , 0.5       , 0.33333333])

Si [**`MinMaxScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) reçoit une plage explicite `feature_range=(min, max)`, la formule complète est :

In [None]:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

[**`MaxAbsScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html) fonctionne de manière très similaire, mais met à l'échelle de manière à ce que les données d'entraînement se situent dans la plage `[-1, 1]` en divisant par la plus grande valeur maximale de chaque caractéristique. Il est conçu pour les données qui sont déjà centrées sur zéro ou des données creuses.

Voici comment utiliser les données factices de l'exemple précédent avec ce redimensionneur :

In [13]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs
# array([[ 0.5, -1. ,  1. ],
#        [ 1. ,  0. ,  0. ],
#        [ 0. ,  1. , -0.5]])

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

In [14]:
X_test = np.array([[ -3., -1.,  4.]])
X_test_maxabs = max_abs_scaler.transform(X_test)
X_test_maxabs
# array([[-1.5, -1. ,  2. ]])

array([[-1.5, -1. ,  2. ]])

In [15]:
max_abs_scaler.scale_
# array([2.,  1.,  2.])

array([2., 1., 2.])

## <a id='scaling-sparse-data'></a> 6.3.1.2. Mise à l'échelle des données creuses

Recentrer des données creuses détruirait leur structure creuse, et donc cela n'est généralement pas pertinent. Cependant, il peut être judicieux de mettre à l'échelle des entrées creuses, en particulier si les caractéristiques sont sur des échelles différentes.

[**`MaxAbsScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html) a été spécifiquement conçu pour la mise à l'échelle de données clairsemées et est la méthode recommandée pour cela. Cependant, [**`StandardScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) peut accepter des matrices creuses de `scipy.sparse` en entrée, à condition que `with_mean=False` soit explicitement passé au constructeur. Sinon, une `ValueError` sera levée car la recentralisation silencieuse romprait la cavité et pourrait souvent entraîner un crash de l'exécution en allouant accidentellement des quantités excessives de mémoire. [**`RobustScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html) ne peut pas être adapté à des entrées creuses, mais vous pouvez utiliser la méthode `transform` sur des entrées creuses.

Notez que les scalers acceptent à la fois le format CSR (Compressed Sparse Rows) et le format CSC (Compressed Sparse Columns) (voir `scipy.sparse.csr_matrix` et `scipy.sparse.csc_matrix`). Toute autre entrée creuse sera **convertie en représentation CSR**. Pour éviter des copies de mémoire inutiles, il est recommandé de choisir la représentation CSR ou CSC en amont.

Enfin, si l'on s'attend à ce que les données recentrées soient suffisamment petites, une autre option consiste à convertir explicitement l'entrée en un tableau en utilisant la méthode `toarray` des matrices creuses.

## <a id='scaling-data-with-outliers'></a> 6.3.1.3. Mise à l'échelle des données avec des valeurs aberrantes

Si vos données contiennent de nombreuses valeurs aberrantes, une mise à l'échelle utilisant la moyenne et la variance des données risque de ne pas fonctionner très bien. Dans ces cas, vous pouvez utiliser [**`RobustScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html) comme remplacement direct. Il utilise des estimations plus robustes pour le centre et l'étendue de vos données.

### Références

Une discussion plus approfondie sur l'importance du recentrage et de la mise à l'échelle des données est disponible dans cette FAQ : [Dois-je normaliser/standardiser/mettre à l'échelle les données ?](http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html)

### Mise à l'échelle vs Blanchiment

Il n'est parfois pas suffisant de centrer et mettre à l'échelle les caractéristiques indépendamment, car un modèle ultérieur peut faire des hypothèses supplémentaires sur l'indépendance linéaire des caractéristiques.

Pour résoudre ce problème, vous pouvez utiliser [**`PCA`** (Analyse en Composantes Principales)](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA) avec `whiten=True` pour éliminer davantage la corrélation linéaire entre les caractéristiques.

## <a id='centering-kernel-matrices'></a> 6.3.1.4. Recentrage des matrices de noyau

Si vous disposez d'une matrice de noyau de noyau $K$ qui calcule un produit scalaire dans un espace de caractéristiques (éventuellement de manière implicite) défini par une fonction $\phi(\cdot)$, un [**`KernelCenterer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KernelCenterer.html) peut transformer la matrice de noyau de manière à contenir des produits scalaires dans l'espace de caractéristiques défini par suivi de la suppression de la moyenne dans cet espace. En d'autres termes, le [**`KernelCenterer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KernelCenterer.html) calcule la matrice de Gram centrée associée à un noyau semi-défini positif $K$.

### Formulation mathématique

Nous pouvons examiner la formulation mathématique maintenant que nous avons l'intuition. Soit $K$
une matrice de noyau de forme `(n_samples, n_samples)` calculée à partir de $X$, une matrice de données de forme `(n_samples, n_features)`, lors de l'étape de l'ajustement (`fit`). $K$ est défini par

$$K(X, X) = \phi(X) . \phi(X)^{T}$$

$\phi(X)$ est une fonction qui mappe $X$ dans un espace de Hilbert. Un noyau centré $\tilde{K}$ est défini comme :

$$\tilde{K}(X, X) = \tilde{\phi}(X) . \tilde{\phi}(X)^{T}$$

où $\tilde{\phi}(X)$ résulte du centrage de $\phi(X)$ dans l'espace de Hilbert.

Ainsi, on pourrait calculer $\tilde{K}$ en effectuant le mappage en utilisant la fonction $\phi(\cdot)$ et en recentrant les données dans ce nouvel espace. Cependant, les noyaux sont souvent utilisés car ils permettent des calculs algébriques qui évitent de calculer explicitement ce mappage en utilisant $\phi(\cdot)$. En effet, on peut implicitement centrer comme indiqué dans l'annexe B de [Scholkopf1998] :

$$\tilde{K} = K - 1_{\text{n}_{samples}} K - K 1_{\text{n}_{samples}} + 1_{\text{n}_{samples}} K 1_{\text{n}_{samples}}$$

$1_{\text{n}_{samples}}$ est une matrice de `(n_samples, n_samples)` où toutes les entrées sont égales à $\frac{1}{\text{n}_{samples}}$. Lors de l'étape `transform`, le noyau devient $K_{test}(X, Y)$ défini comme :

$$K_{test}(X, Y) = \phi(Y) . \phi(X)^{T}$$

$Y$ est l'ensemble de données de test de forme `(n_samples_test, n_features)` et donc $K_{test}$ de forme `(n_samples_test, n_samples)`. Dans ce cas, le centrage de $K_{test}$ est effectué comme suit :

$$\tilde{K}_{test}(X, Y) = K_{test} - 1'_{\text{n}_{samples}} K - K_{test} 1_{\text{n}_{samples}} + 1'_{\text{n}_{samples}} K 1_{\text{n}_{samples}}$$

$1'_{\text{n}_{samples}}$ est une matrice de forme `(n_samples_test, n_samples)` où toutes les entrées sont égales à $\frac{1}{\text{n}_{samples}}$.

### Références

[Scholkopf1998] B. Schölkopf, A. Smola, and K.R. Müller, [“**Nonlinear component analysis as a kernel eigenvalue problem**](https://www.mlpack.org/papers/kpca.pdf)[”](https://drive.google.com/file/d/1ApHX19KKGii4WNoGWJCStLa3zK1sTB3p/view?usp=drive_link). Neural computation 10.5 (1998): 1299-1319.

## <a id='non-linear-transformation'></a> 6.3.2. Transformation non linéaire

Deux types de transformations sont disponibles : les transformations quantiles et les transformations de puissance. Les transformations quantiles et les transformations de puissance sont basées sur des transformations monotones des caractéristiques, ce qui préserve le rang des valeurs le long de chaque caractéristique.

Les transformations quantiles placent toutes les caractéristiques dans la même distribution souhaitée en utilisant la formule $G^{-1}(F(X))$ où $F$ est la fonction de distribution cumulative de la caractéristique et $G^{-1}$ la [fonction quantile](https://en.wikipedia.org/wiki/Quantile_function) de la distribution de sortie souhaitée $G$. Cette formule utilise les deux faits suivants : (i) si $X$ est une variable aléatoire avec une fonction de distribution cumulative continue $F$, alors $F(X)$ est uniformément distribué sur $[0,1]$; (ii) si $U$ est une variable aléatoire avec une distribution uniforme sur $[0,1]$, alors $G^{-1}(U)$ a une distribution $G$. En effectuant une transformation de rang, une transformation quantile lisse les distributions inhabituelles et est moins influencée par les valeurs aberrantes que les méthodes de mise à l'échelle. Cependant, elle déforme les corrélations et les distances à l'intérieur et entre les caractéristiques.

Les transformations de puissance sont une famille de transformations paramétriques qui visent à mapper les données de n'importe quelle distribution aussi proche que possible d'une distribution gaussienne.

## <a id='mapping-to-a-uniform-distribution'></a> 6.3.2.1. Mappage vers une distribution uniforme

[**`QuantileTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.QuantileTransformer.html) fournit une transformation non paramétrique pour mapper les données vers une distribution uniforme avec des valeurs entre 0 et 1 :

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
X_train_trans = quantile_transformer.fit_transform(X_train)
X_test_trans = quantile_transformer.transform(X_test)
np.percentile(X_train[:, 0], [0, 25, 50, 75, 100])
# array([ 4.3,  5.1,  5.8,  6.5,  7.9])

Cette caractéristique correspond à la longueur des sépales en cm. Une fois la transformation quantile appliquée, ces points de repère se rapprochent étroitement des percentiles précédemment définis :

In [None]:
np.percentile(X_train_trans[:, 0], [0, 25, 50, 75, 100])
# array([ 0.00... ,  0.24...,  0.49...,  0.73...,  0.99... ])

Cela peut être confirmé sur un ensemble de test indépendant avec des remarques similaires :

In [None]:
np.percentile(X_test[:, 0], [0, 25, 50, 75, 100])
# array([ 4.4  ,  5.125,  5.75 ,  6.175,  7.3  ])
np.percentile(X_test_trans[:, 0], [0, 25, 50, 75, 100])
# array([ 0.01...,  0.25...,  0.46...,  0.60... ,  0.94...])

## <a id='mapping-to-a-gaussian-distribution'></a> 6.3.2.2. Mappage vers une distribution gaussienne

Dans de nombreux scénarios de modélisation, la normalité des caractéristiques d'un ensemble de données est souhaitable. Les transformations de puissance sont une famille de transformations paramétriques et monotones qui visent à mapper les données de n'importe quelle distribution aussi proche que possible d'une distribution gaussienne afin de stabiliser la variance et de minimiser l'asymétrie.

[**`PowerTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html) fournit actuellement deux transformations de puissance, la transformation Yeo-Johnson et la transformation Box-Cox.

La transformation Yeo-Johnson est donnée par :

$$\begin{split}x_i^{(\lambda)} =
\begin{cases}
 [(x_i + 1)^\lambda - 1] / \lambda & \text{if } \lambda \neq 0, x_i \geq 0, \\[8pt]
\ln{(x_i + 1)} & \text{if } \lambda = 0, x_i \geq 0 \\[8pt]
-[(-x_i + 1)^{2 - \lambda} - 1] / (2 - \lambda) & \text{if } \lambda \neq 2, x_i < 0, \\[8pt]
 - \ln (- x_i + 1) & \text{if } \lambda = 2, x_i < 0
\end{cases}\end{split}$$

tandis que la transformation Box-Cox est donnée par :

$$\begin{split}x_i^{(\lambda)} =
\begin{cases}
\dfrac{x_i^\lambda - 1}{\lambda} & \text{if } \lambda \neq 0, \\[8pt]
\ln{(x_i)} & \text{if } \lambda = 0,
\end{cases}\end{split}$$

Box-Cox ne peut être appliqué qu'à des données strictement positives. Dans les deux méthodes, la transformation est paramétrée par $\lambda$, qui est déterminé par une estimation du maximum de vraisemblance. Voici un exemple d'utilisation de Box-Cox pour mapper des échantillons tirés d'une distribution lognormale vers une distribution normale :

In [None]:
pt = preprocessing.PowerTransformer(method='box-cox', standardize=False)
X_lognormal = np.random.RandomState(616).lognormal(size=(3, 3))
X_lognormal
# array([[1.28..., 1.18..., 0.84...],
#        [0.94..., 1.60..., 0.38...],
#        [1.35..., 0.21..., 1.09...]])
pt.fit_transform(X_lognormal)
# array([[ 0.49...,  0.17..., -0.15...],
#        [-0.05...,  0.58..., -0.57...],
 #       [ 0.69..., -0.84...,  0.10...]])

Bien que l'exemple ci-dessus définisse l'option `standardize` sur `False`, [**`PowerTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html) appliquera par défaut une normalisation à moyenne nulle et variance unitaire à la sortie transformée.

Ci-dessous, des exemples de Box-Cox et de Yeo-Johnson appliqués à diverses distributions de probabilité. Notez que lorsqu'ils sont appliqués à certaines distributions, les transformations de puissance donnent des résultats très similaires à une distribution gaussienne, mais avec d'autres, elles sont inefficaces. Cela souligne l'importance de visualiser les données avant et après la transformation.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_map_data_to_normal_001.png)

Il est également possible de mapper les données vers une distribution normale en utilisant [**`QuantileTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.QuantileTransformer.html) avec `output_distribution='normal'`. En utilisant l'exemple précédent avec l'ensemble de données Iris :

In [None]:
quantile_transformer = preprocessing.QuantileTransformer(
      output_distribution='normal', random_state=0)
X_trans = quantile_transformer.fit_transform(X)
quantile_transformer.quantiles_
# array([[4.3, 2. , 1. , 0.1],
#        [4.4, 2.2, 1.1, 0.1],
#        [4.4, 2.2, 1.2, 0.1],
#        ...,
#        [7.7, 4.1, 6.7, 2.5],
#        [7.7, 4.2, 6.7, 2.5],
#        [7.9, 4.4, 6.9, 2.5]])

Ainsi, la médiane de l'entrée devient la moyenne de la sortie, centrée sur 0. La sortie normale est tronquée de sorte que le minimum et le maximum de l'entrée - correspondant respectivement aux quantiles 1e-7 et 1 - 1e-7 - ne deviennent pas infinis sous la transformation.

# <a id='normalization'></a> 6.3.3. Normalisation

La **normalisation** est le processus de **mise à l'échelle des échantillons individuels pour avoir une norme unitaire**. Ce processus peut être utile si vous prévoyez d'utiliser une forme quadratique telle que le produit scalaire ou tout autre noyau pour quantifier la similarité de chaque paire d'échantillons.

Cette hypothèse est à la base du [**modèle d'espace vectoriel** (VSM)](https://en.wikipedia.org/wiki/Vector_Space_Model) souvent utilisé dans les contextes de classification et de regroupement de texte.

La fonction [**`normalize`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html) fournit un moyen rapide et facile d'effectuer cette opération sur un seul ensemble de données de type tableau, en utilisant les normes `l1`, `l2` ou `max` :

In [None]:
X = [[ 1., -1.,  2.],
    [ 2.,  0.,  0.],
    [ 0.,  1., -1.]]
X_normalized = preprocessing.normalize(X, norm='l2')

X_normalized
# array([[ 0.40..., -0.40...,  0.81...],
#        [ 1.  ...,  0.  ...,  0.  ...],
#        [ 0.  ...,  0.70..., -0.70...]])

Le module `preprocessing` fournit également une classe utilitaire [**`Normalizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html#sklearn.preprocessing.Normalizer) qui implémente la même opération en utilisant l'API du `Transformer` (même si la méthode `fit` est inutile dans ce cas : la classe est sans état car cette opération traite les échantillons indépendamment).

Cette classe convient donc à une utilisation dans les premières étapes d'un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) :

In [None]:
normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
normalizer
# Normalizer()

L'instance du normaliseur peut ensuite être utilisée sur des vecteurs d'échantillons comme n'importe quel transformeur :

In [None]:
normalizer.transform(X)
# array([[ 0.40..., -0.40...,  0.81...],
#        [ 1.  ...,  0.  ...,  0.  ...],
#        [ 0.  ...,  0.70..., -0.70...]])

normalizer.transform([[-1.,  1., 0.]])
# array([[-0.70...,  0.70...,  0.  ...]])

Note : La normalisation $\ell_2$ est également connue sous le nom de prétraitement par signe spatial.

### Entrée creuse

[**`normalize`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html) et [**`Normalizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html) acceptent **à la fois des tableaux denses et des matrices creuses de type array-like provenant de scipy.sparse en entrée.**

Pour les entrées creuses, les données sont **converties en représentation Compressed Sparse Rows** (voir `scipy.sparse.csr_matrix`) avant d'être traitées par des routines Cython efficaces. Pour éviter des copies inutiles de mémoire, il est recommandé de choisir la représentation CSR en amont.

# <a id='encoding-categorical-features'></a> 6.3.4. Encodage des caractéristiques catégorielles

Souvent, les caractéristiques ne sont pas données sous forme de valeurs continues mais catégorielles. Par exemple, une personne peut avoir des caractéristiques `["homme", "femme"]`, `["from Europe", "from États-Unis", "from Asia"]`, `["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]`. De telles caractéristiques peuvent être efficacement codées sous forme d'entiers, par exemple `["male", "from États-Unis", "uses Internet Explorer"]` pourrait être exprimé par `[0, 1, 3]` tandis que `["female", "from Asia", "uses Chrome"]` serait `[1, 2, 1]`.

Pour convertir des caractéristiques catégorielles en de tels codes entiers, nous pouvons utiliser [**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html). Cet estimateur transforme chaque caractéristique catégorielle en une nouvelle caractéristique d'entiers ($0$ à $n_{\text{categories}} - 1$) :

In [None]:
from sklearn import preprocessing
enc = preprocessing.OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OrdinalEncoder()
enc.transform([['female', 'from US', 'uses Safari']])
# array([[0., 1., 1.]])

array([[0., 1., 1.]])

Une telle représentation entière ne peut cependant pas être utilisée directement avec tous les estimateurs scikit-learn, car ceux-ci attendent une entrée continue et interpréteraient les catégories en tant qu'ordinaux, ce qui n'est souvent pas souhaité (c'est-à-dire que l'ensemble des navigateurs a été ordonné arbitrairement).

Par défaut, [**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) transmettra également les valeurs manquantes représentées par `np.nan`.

In [None]:
import numpy as np
enc = preprocessing.OrdinalEncoder()
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)
# array([[ 1.],
#       [ 0.],
#       [nan],
#       [ 0.]])

array([[ 1.],
       [ 0.],
       [nan],
       [ 0.]])

[**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) fournit un paramètre `encoded_missing_value` pour encoder les valeurs manquantes sans avoir besoin de créer un pipeline et en utilisant [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer).

In [None]:
enc = preprocessing.OrdinalEncoder(encoded_missing_value=-1)
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)
# array([[ 1.],
#        [ 0.],
#        [-1.],
#        [ 0.]])

array([[ 1.],
       [ 0.],
       [-1.],
       [ 0.]])

Le traitement ci-dessus est équivalent au pipeline suivant :

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
enc = Pipeline(steps=[
        ("encoder", preprocessing.OrdinalEncoder()),
        ("imputer", SimpleImputer(strategy="constant", fill_value=-1)),
    ])
enc.fit_transform(X)
# array([[ 1.],
#        [ 0.],
#        [-1.],
#        [ 0.]])

Une autre possibilité de convertir des caractéristiques catégorielles en caractéristiques pouvant être utilisées avec les estimateurs scikit-learn consiste à utiliser un one-of-K, également connu sous le nom de codage one-hot ou factice. Ce type d'encodage peut être obtenu avec le [**`OneHotEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html), qui transforme chaque caractéristique catégorique avec `n_categories` valeurs possibles en `n_categories` caractéristiques binaires, avec l'une d'elles à 1, et toutes les autres à 0.

Reprenons l'exemple ci-dessus :

In [None]:
enc = preprocessing.OneHotEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder()
enc.transform([['female', 'from US', 'uses Safari'],
               ['male', 'from Europe', 'uses Safari']]).toarray()
# array([[1., 0., 0., 1., 0., 1.],
#        [0., 1., 1., 0., 0., 1.]])

array([[1., 0., 0., 1., 0., 1.],
       [0., 1., 1., 0., 0., 1.]])

Par défaut, les valeurs que chaque caractéristique peut prendre sont automatiquement déduites du jeu de données et peuvent être trouvées dans l'attribut `categories_` :

In [None]:
enc.categories_
# [array(['female', 'male'], dtype=object),
#  array(['from Europe', 'from US'], dtype=object),
#  array(['uses Firefox', 'uses Safari'], dtype=object)]

[array(['female', 'male'], dtype=object),
 array(['from Europe', 'from US'], dtype=object),
 array(['uses Firefox', 'uses Safari'], dtype=object)]

Il est possible de le spécifier explicitement à l'aide du paramètre `categories`. Il existe deux genres, quatre continents possibles et quatre navigateurs Web dans notre ensemble de données :

In [None]:
genders = ['female', 'male']
locations = ['from Africa', 'from Asia', 'from Europe', 'from US']
browsers = ['uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari']
enc = preprocessing.OneHotEncoder(categories=[genders, locations, browsers])
# Note that for there are missing categorical values for the 2nd and 3rd
# feature
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder(categories=[['female', 'male'],
#                           ['from Africa', 'from Asia', 'from Europe',
#                            'from US'],
#                           ['uses Chrome', 'uses Firefox', 'uses IE',
#                            'uses Safari']])
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()
# array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

S'il est possible que les données d'entraînement aient des caractéristiques catégorielles manquantes, il peut souvent être préférable de spécifier `handle_unknown='infrequent_if_exist'` au lieu de définir les catégories manuellement comme ci-dessus. Lorsque `handle_unknown='infrequent_if_exist'` est spécifié et que des catégories inconnues sont rencontrées lors de la transformation, aucune erreur n'est générée, mais les colonnes encodées à chaud résultantes pour cette caractéristique sont toutes nulles ou considérées comme une catégorie peu fréquente si cette option est activée. (`handle_unknown='infrequent_if_exist'` n'est pris en charge que pour l'encodage one-hot) :

In [None]:
enc = preprocessing.OneHotEncoder(handle_unknown='infrequent_if_exist')
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder(handle_unknown='infrequent_if_exist')
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()
# array([[1., 0., 0., 0., 0., 0.]])

array([[1., 0., 0., 0., 0., 0.]])

Il est également possible d'encoder chaque colonne en `n_categories - 1` colonnes au lieu de `n_categories` colonnes en utilisant le paramètre `drop`. Ce paramètre permet à l'utilisateur de spécifier une catégorie pour chaque caractéristique à supprimer. Ceci est utile pour éviter la colinéarité dans la matrice d'entrée dans certains classificateurs. Une telle fonctionnalité est utile, par exemple, lors de l'utilisation d'une régression non régularisée ([**`LinearRegression`**](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)), car la colinéarité rendrait la matrice de covariance non inversible :

In [None]:
X = [['male', 'from US', 'uses Safari'],
     ['female', 'from Europe', 'uses Firefox']]
drop_enc = preprocessing.OneHotEncoder(drop='first').fit(X)
drop_enc.categories_
# [array(['female', 'male'], dtype=object), array(['from Europe', 'from US'], dtype=object),
#  array(['uses Firefox', 'uses Safari'], dtype=object)]
drop_enc.transform(X).toarray()
# array([[1., 1., 1.],
#        [0., 0., 0.]])

array([[1., 1., 1.],
       [0., 0., 0.]])

On peut vouloir supprimer l'une des deux colonnes uniquement pour les caractéristiques à 2 catégories. Dans ce cas, vous pouvez définir le paramètre `drop='if_binary'`.

In [None]:
X = [['male', 'US', 'Safari'],
     ['female', 'Europe', 'Firefox'],
     ['female', 'Asia', 'Chrome']]
drop_enc = preprocessing.OneHotEncoder(drop='if_binary').fit(X)
drop_enc.categories_
# [array(['female', 'male'], dtype=object), array(['Asia', 'Europe', 'US'], dtype=object),
#  array(['Chrome', 'Firefox', 'Safari'], dtype=object)]
drop_enc.transform(X).toarray()
# array([[1., 0., 0., 1., 0., 0., 1.],
#        [0., 0., 1., 0., 0., 1., 0.],
#        [0., 1., 0., 0., 1., 0., 0.]])

array([[1., 0., 0., 1., 0., 0., 1.],
       [0., 0., 1., 0., 0., 1., 0.],
       [0., 1., 0., 0., 1., 0., 0.]])

Dans le `X` transformé, la première colonne encode la caractéristique avec les catégories "masculin"/"féminin", tandis que les 6 colonnes restantes encodent les 2 caractéristiques avec respectivement 3 catégories chacune.

Lorsque `handle_unknown='ignore'` et que `drop` n'est pas `None`, les catégories inconnues seront encodées en zéros :

In [None]:
drop_enc = preprocessing.OneHotEncoder(drop='first',
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
drop_enc.transform(X_test).toarray()
# array([[0., 0., 0., 0., 0.]])

Toutes les catégories dans `X_test` sont inconnues lors de la transformation et seront mappées sur tous les zéros. Cela signifie que les catégories inconnues auront la même correspondance que la catégorie supprimée. [**`OneHotEncoder.inverse_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) mappera tous les zéros sur la catégorie supprimée si une catégorie est supprimée et `None` si une catégorie n'est pas supprimée :

In [None]:
drop_enc = preprocessing.OneHotEncoder(drop='if_binary', sparse=False,
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
X_trans = drop_enc.transform(X_test)
X_trans
# array([[0., 0., 0., 0., 0., 0., 0.]])
drop_enc.inverse_transform(X_trans)
# array([['female', None, None]], dtype=object)



array([['female', None, None]], dtype=object)

[**`OneHotEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) prend en charge les caractéristiques catégorielles avec des valeurs manquantes en considérant les valeurs manquantes comme une catégorie supplémentaire :

In [None]:
X = [['male', 'Safari'],
     ['female', None],
     [np.nan, 'Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_
# [array(['female', 'male', nan], dtype=object),
#  array(['Firefox', 'Safari', None], dtype=object)]
enc.transform(X).toarray()
# array([[0., 1., 0., 0., 1., 0.],
#        [1., 0., 0., 0., 0., 1.],
#        [0., 0., 1., 1., 0., 0.]])

array([[0., 1., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0.]])

Si une caractéristique contient à la fois `np.nan` et `None`, elles seront considérées comme des catégories distinctes :

In [None]:
X = [['Safari'], [None], [np.nan], ['Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_
# [array(['Firefox', 'Safari', None, nan], dtype=object)]
enc.transform(X).toarray()
# array([[0., 1., 0., 0.],
#        [0., 0., 1., 0.],
#        [0., 0., 0., 1.],
#        [1., 0., 0., 0.]])

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [1., 0., 0., 0.]])

Voir [**Chargement de caractéristiques à partir de dicts** (6.2.1)](https://scikit-learn.org/stable/modules/feature_extraction.html#dict-feature-extraction) pour des caractéristiques catégorielles représentées sous forme de dictionnaires, et non sous forme de scalaires.

## <a id='infrequent-categories'></a> 6.3.4.1. Catégories peu fréquentes

[**`OneHotEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) et [**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) prennent en charge l'agrégation de catégories peu fréquentes en une seule sortie pour chaque caractéristique. Les paramètres permettant de rassembler les catégories peu fréquentes sont `min_frequency` et `max_categories`.

1. `min_frequency` est soit un entier supérieur ou égal à 1, soit un flottant dans l'intervalle `(0.0, 1.0)`. Si `min_frequency` est un entier, les catégories avec une cardinalité inférieure à `min_frequency` seront considérées comme peu fréquentes. Si `min_frequency` est un flottant, les catégories avec une cardinalité inférieure à cette fraction du nombre total d'échantillons seront considérées comme peu fréquentes. La valeur par défaut est 1, ce qui signifie que chaque catégorie est encodée séparément.

2. `max_categories` vaut `None` ou tout entier supérieur à 1. Ce paramètre définit une limite supérieure au nombre de caractéristiques en sortie pour chaque caractéristique en entrée. `max_categories` inclut la caractéristique qui combine des catégories peu fréquentes.

Dans l'exemple suivant avec [**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html), les catégories `dog` et `snake` sont considérées comme peu fréquentes :

In [16]:
X = np.array([['dog'] * 5 + ['cat'] * 20 + ['rabbit'] * 10 +
              ['snake'] * 3], dtype=object).T
enc = preprocessing.OrdinalEncoder(min_frequency=6).fit(X)
enc.infrequent_categories_
# [array(['dog', 'snake'], dtype=object)]
enc.transform(np.array([['dog'], ['cat'], ['rabbit'], ['snake']]))
# array([[2.],
#        [0.],
#        [1.],
#        [2.]])

array([[2.],
       [0.],
       [1.],
       [2.]])

Le paramètre `max_categories` de [**`OrdinalEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) **ne tient pas** compte des catégories manquantes ou inconnues. En définissant `unknown_value` ou `encoded_missing_value` sur un entier, le nombre de codes entiers uniques augmente de un à chaque fois. Cela peut entraîner jusqu'à `max_categories + 2` codes entiers. Dans l'exemple suivant, "a" et "d" sont considérés comme peu fréquents et regroupés dans une seule catégorie, "b" et "c" sont leurs propres catégories, les valeurs inconnues sont codées comme 3 et les valeurs manquantes sont codées comme 4.

In [17]:
X_train = np.array(
    [["a"] * 5 + ["b"] * 20 + ["c"] * 10 + ["d"] * 3 + [np.nan]],
    dtype=object).T
enc = preprocessing.OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=3,
    max_categories=3, encoded_missing_value=4)
_ = enc.fit(X_train)
X_test = np.array([["a"], ["b"], ["c"], ["d"], ["e"], [np.nan]], dtype=object)
enc.transform(X_test)
# array([[2.],
#        [0.],
#        [1.],
#        [2.],
#        [3.],
#        [4.]])

array([[2.],
       [0.],
       [1.],
       [2.],
       [3.],
       [4.]])

De même, [**`OneHotEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) peut être configuré pour regrouper les catégories peu fréquentes ensemble.

In [19]:
enc = preprocessing.OneHotEncoder(min_frequency=6, sparse_output=False).fit(X)
enc.infrequent_categories_
# [array(['dog', 'snake'], dtype=object)]
enc.transform(np.array([['dog'], ['cat'], ['rabbit'], ['snake']]))
# array([[0., 0., 1.],
#        [1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

En définissant `handle_unknown` sur `'infrequent_if_exist'`, les catégories inconnues seront considérées comme peu fréquentes :

In [20]:
enc = preprocessing.OneHotEncoder(
    handle_unknown='infrequent_if_exist', sparse_output=False, min_frequency=6)
enc = enc.fit(X)
enc.transform(np.array([['dragon']]))
# array([[0., 0., 1.]])

array([[0., 0., 1.]])

[**`OneHotEncoder.get_feature_names_out`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.get_feature_names_out) utilise `'infrequent'` pour désigner les caractéristiques peu fréquentes :

In [21]:
enc.get_feature_names_out()
# array(['x0_cat', 'x0_rabbit', 'x0_infrequent_sklearn'], dtype=object)

array(['x0_cat', 'x0_rabbit', 'x0_infrequent_sklearn'], dtype=object)

Lorsque `'handle_unknown'` est défini sur `'infrequent_if_exist'` et qu'une catégorie inconnue est rencontrée dans la transformation :

1. Si la prise en charge de la catégorie peu fréquente n'a pas été configurée ou s'il n'y avait pas de catégorie peu fréquente pendant l'entraînement, les colonnes encodées à chaud résultantes pour cette caractéristique seront toutes des zéros. Dans la transformation inverse, une catégorie inconnue sera notée `None`.

2. S'il y a une catégorie peu fréquente pendant l'entraînement, la catégorie inconnue sera considérée comme peu fréquente. Dans la transformation inverse, "infrequent_sklearn" sera utilisé pour représenter la catégorie peu fréquente.

Les catégories peu fréquentes peuvent également être configurées à l'aide de `max_categories`. Dans l'exemple suivant, nous définissons `max_categories=2` pour limiter le nombre de caractéristiques dans la sortie. Il en résultera que toutes les catégories sauf la catégorie `'cat'` seront considérées comme peu fréquentes, ce qui conduira à deux caractéristiques, une pour les catégories `'cat'` et une pour les catégories peu fréquentes - qui sont toutes les autres :

In [23]:
enc = preprocessing.OneHotEncoder(max_categories=2, sparse_output=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])
# array([[0., 1.],
#        [1., 0.],
#        [0., 1.],
#        [0., 1.]])

array([[0., 1.],
       [1., 0.],
       [0., 1.],
       [0., 1.]])

Si `max_categories` et `min_frequency` ne sont pas des valeurs par défaut, les catégories sont sélectionnées en fonction de `min_frequency` en premier et les catégories `max_categories` sont conservées. Dans l'exemple suivant, `min_frequency=4` considère que seul `snake` est peu fréquent, mais `max_categories=3`, force `dog` à être également peu fréquent :

In [None]:
enc = preprocessing.OneHotEncoder(min_frequency=4, max_categories=3, sparse_output=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])
# array([[0., 0., 1.],
#        [1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

S'il existe des catégories peu fréquentes avec la même cardinalité au seuil de `max_categories`, alors les premières `max_categories` sont prises en fonction de l'ordre du lexique. Dans l'exemple suivant, « b », « c » et « d » ont la même cardinalité et avec `max_categories=2`, « b » et « c » sont peu fréquents car ils ont un ordre de lexique plus élevé.

In [24]:
X = np.asarray([["a"] * 20 + ["b"] * 10 + ["c"] * 10 + ["d"] * 10], dtype=object).T
enc = preprocessing.OneHotEncoder(max_categories=3).fit(X)
enc.infrequent_categories_
# [array(['b', 'c'], dtype=object)]

[array(['b', 'c'], dtype=object)]

## <a id='target-encoder'></a> 6.3.4.1. Encodeur de cible

Le [**`TargetEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html) utilise la moyenne de la cible conditionnée à la caractéristique catégorielle pour encoder les catégories non ordonnées, c'est-à-dire les catégories nominales [PAR] [MIC]. Ce schéma d'encodage est utile pour les caractéristiques catégorielles ayant une cardinalité élevée, où l'encodage one-hot augmenterait l'espace des caractéristiques, rendant ainsi le traitement plus coûteux pour un modèle aval. Un exemple classique de catégories à cardinalité élevée sont les données basées sur la localisation, telles que le code postal ou la région. Pour la cible de classification binaire, l'encodage de la cible est donné par :

$$S_i = \lambda_i\frac{n_{iY}}{n_i} + (1 - \lambda_i)\frac{n_Y}{n}$$

où $S_i$ est l'encodage pour la catégorie $i$, $n_{iY}$ est le nombre d'observations avec $Y=1$ et la catégorie $i$, $n_i$ est le nombre d'observations avec la catégorie $i$, $n_Y$ est le nombre d'observations avec $Y=1$, $n$ est le nombre d'observations et $\lambda_i$ est un facteur de réduction pour la catégorie. Le facteur de réduction est donné par :

$$\lambda_i = \frac{n_i}{m + n_i}$$

où $m$ est un facteur de lissage, qui est contrôlé avec le paramètre `smooth` dans [**`TargetEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html). Les facteurs de lissage élevés mettront davantage l'accent sur la moyenne globale. Lorsque `smooth="auto"`, le facteur de lissage est calculé comme une estimation de Bayes empirique : $m=\sigma_i^2/\tau^2$, où $\sigma_i^2$  est la variance de `y` avec la catégorie $i$ et $r^2$ est la variance globale de `y`.

Pour les cibles continues, la formulation est similaire à la classification binaire :

$$S_i = \lambda_i\frac{\sum_{k\in L_i}Y_k}{n_i} + (1 - \lambda_i)\frac{\sum_{k=1}^{n}Y_k}{n}$$

où $L_i$ est l'ensemble des observations avec la catégorie $i$ et $n_i$ est le nombre d'observations avec la catégorie $i$.

La méthode [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) utilise un schéma d'ajustement croisé pour éviter que les informations de la cible ne s'introduisent dans la représentation à l'entraînement, en particulier pour les variables catégorielles de grande cardinalité non informatives, et aide à prévenir le surajustement du modèle aval à des corrélations erronées. Notez qu'en conséquence, `fit(X, y).transform(X)` n'est pas équivalent à `fit_transform(X, y)`. Dans [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform), les données d'entraînement sont divisées en $k$ plis (déterminés par le paramètre `cv`) et chaque pli est encodé en utilisant les encodages entraînés sur les autres $k-1$ plis. Le schéma d'ajustement croisé dans [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) avec la valeur par défaut `cv=5` est illustré dans le diagramme suivant :

![](https://scikit-learn.org/stable/_images/target_encoder_cross_validation.svg)

La méthode [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) apprend également un encodage "données complètes" en utilisant la totalité du jeu d'entraînement. Cela n'est jamais utilisé dans [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) mais est enregistré dans l'attribut `encodings_` pour une utilisation ultérieure lors de l'appel à la méthode [**`transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.transform). Notez que les encodages appris pour chaque pli lors du schéma d'ajustement croisé ne sont pas enregistrés dans un attribut.

La méthode [**`fit`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit) **n'utilise aucun** schéma d'ajustement croisé et apprend un encodage sur la totalité du jeu d'entraînement, qui est utilisé pour encoder les catégories dans la méthode [**`transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.transform). Cet encodage est identique à l'encodage "données complètes" appris dans [**`fit_transform`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform).

> **Note** : Le [**`TargetEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html) considère les valeurs manquantes, telles que `np.nan` ou `None`, comme une autre catégorie et les encode comme n'importe quelle autre catégorie. Les catégories qui ne sont pas observées lors de l'ajustement (`fit`) sont encodées avec la moyenne de la cible, c'est-à-dire `target_mean_`.

### Exemples

#### [**Comparaison du TargetEncoder avec d'autres encodeurs**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_target_encoder.ipynb)<br/>([_Comparing Target Encoder with Other Encoders_](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder.html))

#### [**Ajustement croisé interne du TargetEncoder**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_target_encoder_cross_val.ipynb)<br/>([_Target Encoder’s Internal Cross fitting_](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder_cross_val.html))

### Références

[MIC] Micci-Barreca, Daniele. [“**A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems**](https://dl.acm.org/doi/10.1145/507533.507538)[”](https://drive.google.com/file/d/1BZZf6TCUb5F7H-7FmVPTcWrwrywP8w8o/view?usp=drive_link) SIGKDD Explor. Newsl. 3, 1 (July 2001), 27–32.

[PAR] Pargent, F., Pfisterer, F., Thomas, J. et al. [“**Regularized target encoding outperforms traditional methods in supervised machine learning with high cardinality features**](https://link.springer.com/article/10.1007/s00180-022-01207-6)[”](https://drive.google.com/file/d/1-8PJVt5nSDRcQn3KXsbcSieAiKTqhJI2/view?usp=drive_link) Comput Stat 37, 2671–2692 (2022)


## <a id='discretization'></a> 6.3.5. Discrétisation

La [**discrétisation**](https://en.wikipedia.org/wiki/Discretization_of_continuous_features) (également connue sous le nom de quantification ou regroupement) permet de diviser les caractéristiques continues en valeurs discrètes. Certains ensembles de données comportant des caractéristiques continues peuvent bénéficier d'une discrétisation, car celle-ci peut transformer l'ensemble de données en attributs nominaux seulement.

Les caractéristiques discrétisées encodées en one-hot peuvent rendre un modèle plus expressif tout en préservant son interprétabilité. Par exemple, le prétraitement avec un discrétiseur peut introduire une non-linéarité dans les modèles linéaires. Pour des possibilités plus avancées, en particulier des fonctions lisses, consultez la section [**Génération de caractéristiques polynomiales** (6.3.7)](https://scikit-learn.org/stable/modules/preprocessing.html#generating-polynomial-features) ci-dessous.


### <a id='k-bins-discretization'></a> 6.3.5.1. Discrétisation en K intervalles

[**`KBinsDiscretizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html#sklearn.preprocessing.KBinsDiscretizer) discrétise les caractéristiques en `k` intervalles :

In [25]:
X = np.array([[ -3., 5., 15 ],
              [  0., 6., 14 ],
              [  6., 3., 11 ]])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)

Par défaut, la sortie est encodée en one-hot dans une matrice creuse (voir [**Encodage des caractéristiques catégorielles** (6.3.4)](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-categorical-features)) et cela peut être configuré avec le paramètre `encode`. Pour chaque caractéristique, les limites des intervalles sont calculées lors de l'ajustement (`fit`) et, avec le nombre d'intervalles, elles définiront les intervalles. Ainsi, pour l'exemple actuel, ces intervalles sont définis comme suit :

- caractéristique 1 : ${[-\infty, -1), [-1, 2), [2, \infty)}$
- caractéristique 2 : ${[-\infty, 5), [5, \infty)}$
- caractéristique 3 : ${[-\infty, 14), [14, \infty)}$

En fonction de ces intervalles, `X` est transformé comme suit :

In [26]:
est.transform(X)
# array([[ 0., 1., 1.],
#        [ 1., 1., 1.],
#        [ 2., 0., 0.]])

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])

L'ensemble de données résultant contient des attributs ordinaux qui peuvent être utilisés ultérieurement dans un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html).

La discrétisation est similaire à la construction d'histogrammes pour les données continues. Cependant, les histogrammes se concentrent sur le décompte des caractéristiques qui tombent dans des intervalles particuliers, tandis que la discrétisation se concentre sur l'assignation des valeurs des caractéristiques à ces intervalles.

[**`KBinsDiscretizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html) met en œuvre différentes stratégies de regroupement, qui peuvent être sélectionnées avec le paramètre `strategy`. La stratégie `'uniform'` utilise des intervalles de largeur constante. La stratégie `'quantile'` utilise les valeurs des quantiles pour avoir des intervalles également peuplés dans chaque caractéristique. La stratégie `'kmeans'` définit des intervalles en se basant sur une procédure de regroupement k-means effectuée sur chaque caractéristique de manière indépendante.

Notez que vous pouvez spécifier des intervalles personnalisés en passant une fonction définissant la stratégie de discrétisation à [**`FunctionTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html). Par exemple, vous pouvez utiliser la fonction [**`pandas.cut`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html) de Pandas :

In [27]:
import pandas as pd
import numpy as np
bins = [0, 1, 13, 20, 60, np.inf]
labels = ['infant', 'kid', 'teen', 'adult', 'senior citizen']
transformer = preprocessing.FunctionTransformer(
    pd.cut, kw_args={'bins': bins, 'labels': labels, 'retbins': False}
)
X = np.array([0.2, 2, 15, 25, 97])
transformer.fit_transform(X)
# ['infant', 'kid', 'teen', 'adult', 'senior citizen']
# Categories (5, object): ['infant' < 'kid' < 'teen' < 'adult' < 'senior citizen']

['infant', 'kid', 'teen', 'adult', 'senior citizen']
Categories (5, object): ['infant' < 'kid' < 'teen' < 'adult' < 'senior citizen']

### Exemples

#### [**Utilisation de KBinsDiscretizer pour discrétiser des caractéristiques continues**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_discretization.ipynb)<br/>([_Using KBinsDiscretizer to discretize continuous features_](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization.html))

#### [**Discrétisation des caractéristiques**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_discretization_classification.ipynb)<br/>([_Feature discretization_](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization_classification.html))

#### [**Démonstration des différentes stratégies de KBinsDiscretizer**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_discretization_strategies.ipynb)<br/>([_Demonstrating the different strategies of KBinsDiscretizer_](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization_strategies.html))

### <a id='feature-binarization'></a> 6.3.5.2. Binarisation des caractéristiques

La **binarisation des caractéristiques** consiste à **seuiller les caractéristiques numériques pour obtenir des valeurs booléennes**. Cela peut être utile pour les estimateurs probabilistes ultérieurs qui supposent que les données d'entrée sont distribuées selon une [**distribution de Bernoulli**](https://en.wikipedia.org/wiki/Bernoulli_distribution) multivariée. Par exemple, c'est le cas pour la classe [**`BernoulliRBM`**](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.BernoulliRBM.html).

Il est également courant dans la communauté du traitement du texte d'utiliser des valeurs de caractéristiques binaires (probablement pour simplifier le raisonnement probabiliste), même si les comptages normalisés (également appelés fréquences de termes) ou les caractéristiques pondérées par TF-IDF sont souvent légèrement plus performants en pratique.

Comme pour le [**`Normalizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html), la classe d'utilité [**`Binarizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html) est destinée à être utilisée aux premières étapes d'un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html). La méthode `fit` ne fait rien car chaque échantillon est traité indépendamment des autres :

In [28]:
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]

binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
binarizer
# Binarizer()

binarizer.transform(X)
# array([[1., 0., 1.],
#        [1., 0., 0.],
#        [0., 1., 0.]])

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

Il est possible d'ajuster le seuil du binariseur :

In [29]:
binarizer = preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)
# array([[0., 0., 1.],
#        [1., 0., 0.],
#        [0., 0., 0.]])

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

Comme pour la classe [**`Normalizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html), le module de prétraitement fournit une fonction accompagnante [**`binarize`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.binarize.html) qui peut être utilisée lorsque l'API du transformateur n'est pas nécessaire.

Notez que le [**`Binarizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html) est similaire à [**`KBinsDiscretizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html) lorsque `k = 2` et que la limite de l'intervalle se situe à la valeur du seuil (`threshold`).

#### Entrée creuse

[**`binarize`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.binarize.html) et [**`Binarizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html) acceptent **à la fois des tableaux denses et des matrices creuses de type array-like et sparse de scipy.sparse**.

Pour les entrées creuses, les données sont **converties en une représentation Compressed Sparse Rows** (voir `scipy.sparse.csr_matrix`). Pour éviter les copies inutiles de mémoire, il est recommandé de choisir la représentation CSR en amont.

## <a id='imputation-of-missing-values'></a> 6.3.6. Imputation des valeurs manquantes

Les outils pour l'imputation des valeurs manquantes sont discutés dans la section [**Imputation des valeurs manquantes** (6.4)](https://scikit-learn.org/stable/modules/impute.html).

## <a id='generating-polynomial-features'></a> 6.3.7. Génération de caractéristiques polynomiales

Il est souvent utile d'ajouter de la complexité à un modèle en considérant des caractéristiques non linéaires des données d'entrée. Nous présentons deux possibilités basées sur les polynômes : la première utilise des polynômes purs, la deuxième utilise des splines, c'est-à-dire des polynômes par morceaux.

### <a id='polynomial-features'></a> 6.3.7.1. Caractéristiques polynomiales

Une méthode simple et courante à utiliser est celle des caractéristiques polynomiales, qui permet d'obtenir les termes d'ordre supérieur et les termes d'interaction des caractéristiques. Elle est implémentée dans [**`PolynomialFeatures`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html) :

In [30]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X
# array([[0, 1],
#        [2, 3],
#        [4, 5]])

array([[0, 1],
       [2, 3],
       [4, 5]])

In [31]:
poly = PolynomialFeatures(2)
poly.fit_transform(X)
# array([[ 1.,  0.,  1.,  0.,  0.,  1.],
#        [ 1.,  2.,  3.,  4.,  6.,  9.],
#        [ 1.,  4.,  5., 16., 20., 25.]])

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

Les caractéristiques de `X` ont été transformées de $(X_1, X_2)$ en $(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)$.

Dans certains cas, seuls les termes d'interaction entre les caractéristiques sont nécessaires, et cela peut être obtenu en définissant `interaction_only=True` :

In [32]:
X = np.arange(9).reshape(3, 3)
X
# array([[0, 1, 2],
#        [3, 4, 5],
#        [6, 7, 8]])
poly = PolynomialFeatures(degree=3, interaction_only=True)
poly.fit_transform(X)
# array([[  1.,   0.,   1.,   2.,   0.,   0.,   2.,   0.],
#        [  1.,   3.,   4.,   5.,  12.,  15.,  20.,  60.],
#        [  1.,   6.,   7.,   8.,  42.,  48.,  56., 336.]])

array([[  1.,   0.,   1.,   2.,   0.,   0.,   2.,   0.],
       [  1.,   3.,   4.,   5.,  12.,  15.,  20.,  60.],
       [  1.,   6.,   7.,   8.,  42.,  48.,  56., 336.]])

Les caractéristiques de `X` ont été transformées de $(X_1, X_2, X_3)$ en $(1, X_1, X_2, X_3, X_1X_2, X_1X_3, X_2X_3, X_1X_2X_3)$.

Notez que les caractéristiques polynomiales sont utilisées implicitement dans les [**méthodes de noyau**](https://en.wikipedia.org/wiki/Kernel_method) (par exemple, [**`SVC`**](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html), [**`KernelPCA`**](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.KernelPCA.html)) lors de l'utilisation de [**fonctions de noyau** (1.4.6)](https://scikit-learn.org/stable/modules/svm.html#svm-kernels) polynomiales.

Consultez **Interpolation polynomiale et par splines pour la régression Ridge** en utilisant les caractéristiques polynomiales créées.

### <a id='spline-transformer'></a> 6.3.7.2. Transformateur Spline

Une autre façon d'ajouter des termes non linéaires au lieu de polynômes purs de caractéristiques est de générer des fonctions de base spline pour chaque caractéristique avec [**`SplineTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html). Les splines sont des polynômes par morceaux, paramétrés par leur degré polynomial et les positions des nœuds. [**`SplineTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html) implémente une base de splines B, cf. les références ci-dessous.

> **Note :** Le [**`SplineTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html) traite chaque caractéristique séparément, c'est-à-dire qu'il ne vous donnera pas de termes d'interaction.

Certains des avantages des splines par rapport aux polynômes sont les suivants :

- Les splines B sont très flexibles et robustes si vous maintenez un degré faible fixe, généralement 3, et adaptez de manière parcimonieuse le nombre de nœuds. Les polynômes nécessiteraient un degré plus élevé, ce qui nous amène au point suivant.
- Les splines B n'ont pas de comportement oscillatoire aux limites comme les polynômes (plus le degré est élevé, plus c'est mauvais). Cela est connu sous le nom de [**phénomène de Runge**](https://en.wikipedia.org/wiki/Runge%27s_phenomenon).
- Les splines B offrent de bonnes options pour l'extrapolation au-delà des limites, c'est-à-dire au-delà de la plage des valeurs ajustées. Regardez l'option `extrapolation`.
- Les splines B génèrent une matrice de caractéristiques avec une structure en bande. Pour une seule caractéristique, chaque ligne ne contient que `degré + 1` éléments non nuls, qui se produisent de manière consécutive et sont tous positifs. Cela donne une matrice avec de bonnes propriétés numériques, par exemple un faible nombre conditionnel, contrairement à une matrice de polynômes, qui porte le nom de [**matrice de Vandermonde**](https://en.wikipedia.org/wiki/Vandermonde_matrix). Un faible nombre conditionnel est important pour des algorithmes stables de modèles linéaires.

Le code suivant montre les splines en action :

In [33]:
import numpy as np
from sklearn.preprocessing import SplineTransformer
X = np.arange(5).reshape(5, 1)
X
# array([[0],
#        [1],
#        [2],
#        [3],
#        [4]])

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [34]:
spline = SplineTransformer(degree=2, n_knots=3)
spline.fit_transform(X)
# array([[0.5  , 0.5  , 0.   , 0.   ],
#        [0.125, 0.75 , 0.125, 0.   ],
#        [0.   , 0.5  , 0.5  , 0.   ],
#        [0.   , 0.125, 0.75 , 0.125],
#        [0.   , 0.   , 0.5  , 0.5  ]])

array([[0.5  , 0.5  , 0.   , 0.   ],
       [0.125, 0.75 , 0.125, 0.   ],
       [0.   , 0.5  , 0.5  , 0.   ],
       [0.   , 0.125, 0.75 , 0.125],
       [0.   , 0.   , 0.5  , 0.5  ]])

Comme `X` est trié, on peut facilement voir la matrice en bande générée. Seules les trois diagonales centrales sont non nulles pour `degré=2`. Plus le degré est élevé, plus les splines se chevauchent.

Fait intéressant, un [**`SplineTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html) avec `degré=0` est identique à [**`KBinsDiscretizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html) avec `encode='onehot-dense'` et `n_bins = n_knots - 1` si `knots = strategy`.

### Exemples

#### [**Interpolation polynomiale et par spline**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_polynomial_interpolation.ipynb)<br/>([_Polynomial and Spline interpolation_](https://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html))

#### [**Ingénierie des caractéristiques liées au temps**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_3_preprocessing/plot_cyclical_feature_engineering.ipynb)<br/>([_Time-related feature engineering_](https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html))

### Références

- Eilers, P., & Marx, B. (1996). [“**Flexible Smoothing with B-splines and Penalties**](https://projecteuclid.org/journals/statistical-science/volume-11/issue-2/Flexible-smoothing-with-B-splines-and-penalties/10.1214/ss/1038425655.full)[”](https://drive.google.com/file/d/1JbQUYqM7iWJ4qC7oXx23AMM9L_Y5kSVa/view?usp=drive_link). Statist. Sci. 11 (1996), no. 2, 89–121.
- Perperoglou, A., Sauerbrei, W., Abrahamowicz, M. et al. [“**A review of spline function procedures in R**](https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-019-0666-3)[”](https://drive.google.com/file/d/1XKlipPMjuy-3Ug6P9w4_LzlkaMt6usgH/view?usp=drive_link). BMC Med Res Methodol 19, 46 (2019).

## <a id='custom-transformers'></a> 6.3.8. Transformateurs personnalisés

Souvent, vous voudrez convertir une fonction Python existante en un transformateur pour aider à la préparation ou au traitement des données. Vous pouvez implémenter un transformateur à partir d'une fonction arbitraire avec [**`FunctionTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html). Par exemple, pour construire un transformateur qui applique une transformation logarithmique dans un pipeline, faites :

In [35]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer
transformer = FunctionTransformer(np.log1p, validate=True)
X = np.array([[0, 1], [2, 3]])
# Since FunctionTransformer is no-op during fit, we can call transform directly
transformer.transform(X)
# array([[0.        , 0.69314718],
#        [1.09861229, 1.38629436]])

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

Vous pouvez vous assurer que `func` et `inverse_func` sont inverses l'un de l'autre en définissant `check_inverse=True` et en appelant `fit` avant `transform`. Veuillez noter qu'un avertissement est émis et peut être transformé en une erreur avec un `filterwarnings` :

In [36]:
import warnings
warnings.filterwarnings("error", message=".*check_inverse*.",
                        category=UserWarning, append=False)

Pour un exemple de code complet qui montre comment utiliser un [**`FunctionTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html) pour extraire des caractéristiques à partir de données textuelles, consultez **Transformation de colonnes avec des sources de données hétérogènes** et **Ingénierie des caractéristiques liées au temps**.