# 6\. [**Transformations d'ensembles de données**](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_dataset_transformations.ipynb)</br>([*Dataset transformations*](https://scikit-learn.org/stable/data_transforms.html))

scikit-learn fournit une bibliothèque de transformateurs, qui peuvent nettoyer (voir [6.3. Prétraitement des données](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing)), réduire (voir [6.5. Réduction de dimensionnalité non supervisée](https://scikit-learn.org/stable/modules/unsupervised_reduction.html#data-reduction)), étendre (voir [6.7. Approximation du noyau](https://scikit-learn.org/stable/modules/kernel_approximation.html#kernel-approximation)) ou générer (voir [6.2. Extraction de caractéristiques](https://scikit-learn.org/stable/modules/feature_extraction.html#feature-extraction)) des représentations d'entités.

Comme d'autres estimateurs, ceux-ci sont représentés par des classes avec une méthode d'ajustement `fit`, qui apprend les paramètres du modèle (par exemple, la moyenne et l'écart type pour la normalisation) à partir d'un ensemble d'apprentissage, et une méthode de transformation `transform` qui applique ce modèle de transformation à de nouvelles données. `fit_transform` peut être plus pratique et efficace pour modéliser et transformer simultanément les données d'apprentissage.

La combinaison de tels transformateurs, en parallèle ou en série, est traitée dans [6.1. Pipelines et estimateurs composites](https://scikit-learn.org/stable/modules/compose.html#combining-estimators). [6.8. Les métriques par paires, es Affinités et les Noyaux](https://scikit-learn.org/stable/modules/metrics.html#metrics) couvrent la transformation des espaces de caractéristiques en matrices d'affinité, tandis que la [6.9. transformation de la cible de prédiction (y)](https://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets) considère les transformations de l'espace cible (par exemple, les étiquettes catégorielles) à utiliser dans scikit-learn.

✔ 6.1. Pipelines et estimateurs composites
* ✔ 6.1.1. Pipeline : estimateurs de chaînage
* ✔ 6.1.2. Transformer la cible en régression
* ✔ 6.1.3. FeatureUnion : espaces d'entités composites
* ✔ 6.1.4. ColumnTransformer pour les données hétérogènes
* ✔ 6.1.5. Visualisation des estimateurs composites

✔ 6.2. Extraction de caractéristiques
* ✔ 6.2.1. Chargement de caractéristiques à partir de dicts
* ✔ 6.2.2. Hachage des caractéristiques
* ✔ 6.2.3. Extraction de caractéristiques de texte
* ✔ 6.2.4. Extraction de caractéristiques d'image

6.3. Prétraitement des données
* 6.3.1. Standardisation, ou suppression de la moyenne et mise à l'échelle de la variance
* 6.3.2. Transformation non linéaire
* 6.3.3. Normalisation
* ✔ 6.3.4. Encodage des caractéristiques catégorielles
* 6.3.5. Discrétisation
* 6.3.6. Imputation des valeurs manquantes
* 6.3.7. Génération de caractéristiques polynomiales
* 6.3.8. Transformateurs personnalisés

6.4. Imputation des valeurs manquantes
* 6.4.1. Imputation univariée vs imputation multivariée
* 6.4.2. Imputation de caractéristique univariée
* 6.4.3. Imputation de caractéristiques multivariées
* 6.4.4. Références
* 6.4.5. Imputation des plus proches voisins
* 6.4.6. Marquage des valeurs imputées
* 6.4.7. Estimateurs qui gèrent les valeurs NaN

6.5. Réduction de dimensionnalité non supervisée
* 6.5.1. ACP : analyse en composantes principales
* 6.5.2. Projections aléatoires
* 6.5.3. Agglomération de caractéristiques

6.6. Projection aléatoire
* 6.6.1. Le lemme de Johnson-Lindenstrauss
* 6.6.2. Projection aléatoire gaussienne
* 6.6.3. Projection aléatoire clairsemée
* 6.6.4. Transformation inverse

6.7. Approximation du noyau
* 6.7.1. Méthode Nystroem pour l'approximation du noyau
* 6.7.2. Noyau de fonction de base radiale
* 6.7.3. Additif Chi Squared Kernel
* 6.7.4. Noyau au carré de chi asymétrique
* 6.7.5. Approximation du noyau polynomial via Tensor Sketch
* 6.7.6. Détails mathématiques

6.8. Métriques par paires, affinités et noyaux
* 6.8.1. Similitude cosinus
* 6.8.2. Noyau linéaire
* 6.8.3. Noyau polynomial
* 6.8.4. Noyau sigmoïde
* 6.8.5. Noyau RBF
* 6.8.6. Noyau laplacien
* 6.8.7. Noyau du chi carré

✔ 6.9. Transformer la cible de prédiction (y)
* ✔ 6.9.1. Binarisation des étiquettes
* ✔ 6.9.2. Encodage des étiquettes