# <a id='skl-ext'></a> 1. **Extensions de Scikit-learn**</br>(*Scikit-learn extension*)

# E1. [**..**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/e1_imbalanced_learn.ipynb)<br/>([*Imbalanced Learn*](https://imbalanced-learn.org/stable/user_guide.html))

# Sommaire

- **Volume** : . pages, . exemples, . papiers
- E1.1 Introduction
    - 1.1. API’s of imbalanced-learn samplers
    - 1.2. Problem statement regarding imbalanced data sets
- E1.2. Over-sampling
    - 2.1. A practical guide
        - 2.1.1. Naive random over-sampling
        - 2.1.2. From random over-sampling to SMOTE and ADASYN
        - 2.1.3. Ill-posed examples
        - 2.1.4. SMOTE variants
    - 2.2. Mathematical formulation
        - 2.2.1. Sample generation
        - 2.2.2. Multi-class management
- E1.3. Under-sampling
    - 3.1. Prototype generation
    - 3.2. Prototype selection
        - 3.2.1. Controlled under-sampling techniques
            - 3.2.1.1. Mathematical formulation
        - 3.2.2. Cleaning under-sampling techniques
            - 3.2.2.1. Tomek’s links
            - 3.2.2.2. Edited data set using nearest neighbours
            - 3.2.2.3. Condensed nearest neighbors and derived algorithms
            - 3.2.2.4. Instance hardness threshold
- E1.4. Combination of over- and under-sampling
- E1.5. Ensemble of samplers
    - 5.1. Classifier including inner balancing samplers
        - 5.1.1. Bagging classifier
        - 5.1.2. Forest of randomized trees
        - 5.1.3. Boosting
- E1.6. Miscellaneous samplers
    - 6.1. Custom samplers
    - 6.2. Custom generators
        - 6.2.1. TensorFlow generator
        - 6.2.2. Keras generator
- E1.7. Metrics
    - 7.1. Classification metrics
        - 7.1.1. Sensitivity and specificity metrics
        - 7.1.2. Additional metrics specific to imbalanced datasets
        - 7.1.3. Macro-Averaged Mean Absolute Error (MA-MAE)
        - 7.1.4. Summary of important metrics
    - 7.2. Pairwise metrics
        - 7.2.1. Value Difference Metric
- E1.8. Common pitfalls and recommended practices
    - 8.1. Data leakage
- E1.9. Dataset loading utilities
    - 9.1. Imbalanced datasets for benchmark
    - 9.2. Imbalanced generator
- E1.10. Developer guideline
    - 10.1. Developer utilities
        - 10.1.1. Validation Tools
        - 10.1.2. Deprecation
    - 10.2. Making a release
        - 10.2.1. Major release
        - 10.2.2. Bug fix release
- E1.11. References

- E1.1 Introduction
    - 1.1. API des échantillonneurs imbalanced-learn
    - 1.2. Problème lié aux jeux de données déséquilibrés
- E1.2. Sur-échantillonnage
    - 2.1. Guide pratique
        - 2.1.1. Sur-échantillonnage aléatoire naïf
        - 2.1.2. Du sur-échantillonnage aléatoire à SMOTE et ADASYN
        - 2.1.3. Exemples de problèmes mal posés
        - 2.1.4. Variantes de SMOTE
    - 2.2. Formulation mathématique
        - 2.2.1. Génération d'échantillons
        - 2.2.2. Gestion multi-classes
- E1.3. Sous-échantillonnage
    - 3.1. Génération de prototypes
    - 3.2. Sélection de prototypes
        - 3.2.1. Techniques de sous-échantillonnage contrôlé
            - 3.2.1.1. Formulation mathématique
        - 3.2.2. Techniques de sous-échantillonnage de nettoyage
            - 3.2.2.1. Liens de Tomek
            - 3.2.2.2. Jeu de données édité en utilisant les voisins les plus proches
            - 3.2.2.3. Voisins les plus proches condensés et algorithmes dérivés
            - 3.2.2.4. Seuil de difficulté des instances
- E1.4. Combinaison de sur-échantillonnage et de sous-échantillonnage
- E1.5. Ensemble d'échantillonneurs
    - 5.1. Classifieur incluant des échantillonneurs à équilibrage internes
        - 5.1.1. Classifieur Bagging
        - 5.1.2. Forêt d'arbres aléatoires
        - 5.1.3. Boosting
- E1.6. Échantillonneurs divers
    - 6.1. Échantillonneurs personnalisés
    - 6.2. Générateurs personnalisés
        - 6.2.1. Générateur TensorFlow
        - 6.2.2. Générateur Keras
- E1.7. Métriques
    - 7.1. Métriques de classification
        - 7.1.1. Métriques de sensibilité et spécificité
        - 7.1.2. Métriques supplémentaires spécifiques aux jeux de données déséquilibrés
        - 7.1.3. Erreur absolue moyenne macro-pondérée (MA-MAE)
        - 7.1.4. Résumé des métriques importantes
    - 7.2. Métriques par paires
        - 7.2.1. Métrique de différence de valeur (VDM)
- E1.8. Erreurs courantes et bonnes pratiques recommandées
    - 8.1. Fuite de données
- E1.9. Utilitaires de chargement de jeux de données
    - 9.1. Jeux de données déséquilibrés pour benchmark
    - 9.2. Générateur déséquilibré
- E1.10. Lignes directrices pour les développeurs
    - 10.1. Utilitaires pour les développeurs
        - 10.1.1. Outils de validation
        - 10.1.2. Obsolescence
    - 10.2. Publication d'une version
        - 10.2.1. Version majeure
        - 10.2.2. Correctif de bug
- E1.11. Références

# <a id='introduction'></a> E1.1. **Introduction**<br/>([_Introduction_](https://imbalanced-learn.org/stable/introduction.html#introduction))

## <a id='api-s-of-imbalanced-learn-samplers'></a> E1.1.1. **API des échantillonneurs imbalanced-learns**<br/>([_API’s of imbalanced-learn samplers_](https://imbalanced-learn.org/stable/introduction.html#api-s-of-imbalanced-learn-samplers))

## <a id='problem-statement-regarding-imbalanced-data-sets'></a> E1.1.2. **Problème lié aux jeux de données déséquilibrés**<br/>([_Problem statement regarding imbalanced data sets_](https://imbalanced-learn.org/stable/introduction.html#problem-statement-regarding-imbalanced-data-sets))


# <a id='over-sampling'></a> E1.2. **Sur-échantillonnage**<br/>([_Over-sampling_](https://imbalanced-learn.org/stable/over_sampling.html#over-sampling))

## <a id='a-practical-guide'></a> E1.2.1. **Guide pratique**<br/>([_A practical guide_](https://imbalanced-learn.org/stable/over_sampling.html#a-practical-guide))

### <a id='naive-random-over-sampling'></a> E1.2.1.1. **Sur-échantillonnage aléatoire naïf**<br/>([_Naive random over-sampling_](https://imbalanced-learn.org/stable/over_sampling.html#naive-random-over-sampling))

### <a id='from-random-over-sampling-to-smote-and-adasyn'></a> E1.2.1.2. **Du sur-échantillonnage aléatoire à SMOTE et ADASYN**<br/>([_From random over-sampling to SMOTE and ADASYN_](https://imbalanced-learn.org/stable/over_sampling.html#from-random-over-sampling-to-smote-and-adasyn))

### <a id='ill-posed-examples'></a> E1.2.1.3. **Exemples de problèmes mal posés**<br/>([_Ill-posed examples_](https://imbalanced-learn.org/stable/over_sampling.html#ill-posed-examples))

### <a id='smote-variants'></a> E1.2.1.4. **Variantes de SMOTE**<br/>([_SMOTE variants_](https://imbalanced-learn.org/stable/over_sampling.html#smote-variants))

## <a id='mathematical-formulation'></a> E1.2.2. **Formulation mathématique**<br/>([_Mathematical formulation_](https://imbalanced-learn.org/stable/over_sampling.html#mathematical-formulation))

### <a id='sample-generation'></a> E1.2.2.1. **Génération d'échantillons**<br/>([_Sample generation_](https://imbalanced-learn.org/stable/over_sampling.html#sample-generation))

### <a id='multi-class-management'></a> E1.2.2.2. **Gestion multi-classes**<br/>([_Multi-class management_](https://imbalanced-learn.org/stable/over_sampling.html#multi-class-management))

# <a id='introduction'></a> E1.1. **Introduction**<br/>([_Introduction_](https://imbalanced-learn.org/stable/introduction.html#introduction))

## <a id='api-s-of-imbalanced-learn-samplers'></a> E1.1.1. **API des échantillonneurs imbalanced-learns**<br/>([_API’s of imbalanced-learn samplers_](https://imbalanced-learn.org/stable/introduction.html#api-s-of-imbalanced-learn-samplers))

Les échantillonneurs disponibles suivent l'API de scikit-learn en utilisant l'estimateur de base et en ajoutant une fonctionnalité d'échantillonnage via la méthode `sample` :

**Estimateur :** L'objet de base, implémente une méthode `fit` pour apprendre à partir des données, soit :

```python
estimator = obj.fit(data, targets)
```

**ré-échantillonneur :** Pour ré-échantillonner un ensemble de jeux de données, chaque échantillonneur implémente :

```python
data_resampled, targets_resampled = obj.fit_resample(data, targets)
```

Les échantillonneurs imbalanced-learn acceptent les mêmes entrées que scikit-learn :
* `data`:
    * 2-D [**`list`**](https://docs.python.org/3/library/stdtypes.html#list),
    * 2-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.DataFrame`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame),
    * [**`scipy.sparse.csr_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix) or [**`scipy.sparse.csc_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csc_matrix.html#scipy.sparse.csc_matrix);
* `targets`:
    * 1-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.Series`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series).

La sortie sera du type suivant :
* `data_resampled`:
    * 2-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.DataFrame`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame),
    * [**`scipy.sparse.csr_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix) or [**`scipy.sparse.csc_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csc_matrix.html#scipy.sparse.csc_matrix);
* `targets_resampled`:
    * 1-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.Series`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series).

### Entrées/Sortie avec Pandas

Contrairement à scikit-learn, imbalanced-learn prend en charge les entrées/sorties avec Pandas. Par conséquent, si vous fournissez un dataframe, vous obtiendrez également un dataframe en sortie.

### Entrée creuse

Pour les entrées creuses, les données sont converties en représentation Compressed Sparse Rows (CSR) (voir `scipy.sparse.csr_matrix`) avant d'être passées à l'échantillonneur. Pour éviter les copies inutiles en mémoire, il est recommandé de choisir la représentation CSR en amont.

## <a id='problem-statement-regarding-imbalanced-data-sets'></a> E1.1.2. **Problème lié aux jeux de données déséquilibrés**<br/>([_Problem statement regarding imbalanced data sets_](https://imbalanced-learn.org/stable/introduction.html#problem-statement-regarding-imbalanced-data-sets))

La phase d'apprentissage et la prédiction ultérieure des algorithmes d'apprentissage automatique peuvent être affectées par le problème des jeux de données déséquilibrés. Ce problème d'équilibrage correspond à la différence du nombre d'échantillons dans les différentes classes. Nous illustrons l'effet de l'apprentissage d'un classificateur SVM linéaire avec différents niveaux d'équilibrage des classes.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_001.png"
    alt="Fonction de décision du LogisticRegression"
    style="max-width: 50%; height: auto;"/>
</div>

Comme prévu, la fonction de décision du SVM linéaire varie considérablement en fonction du déséquilibre des données. Avec un ratio de déséquilibre plus élevé, la fonction de décision favorise la classe avec le plus grand nombre d'échantillons, généralement appelée classe dominante.

# <a id='over-sampling'></a> E1.2. **Sur-échantillonnage**<br/>([_Over-sampling_](https://imbalanced-learn.org/stable/over_sampling.html#over-sampling))

## <a id='a-practical-guide'></a> E1.2.1. **Guide pratique**<br/>([_A practical guide_](https://imbalanced-learn.org/stable/over_sampling.html#a-practical-guide))

Vous pouvez vous référer à l'exemple [**Comparer les échantillonneurs de sur-échantillonnage**](https://imbalanced-learn.org/stable/auto_examples/over-sampling/plot_comparison_over_sampling.html).

### <a id='naive-random-over-sampling'></a> E1.2.1.1. **Sur-échantillonnage aléatoire naïf**<br/>([_Sur-échantillonnage aléatoire naïf_](https://imbalanced-learn.org/stable/over_sampling.html#naive-random-over-sampling))

Une manière de lutter contre ce problème est de générer de nouveaux échantillons pour les classes qui sont sous-représentées. La stratégie la plus naïve consiste à générer de nouveaux échantillons en échantillonnant aléatoirement avec remplacement des échantillons actuellement disponibles. Le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) propose un tel schéma :

In [1]:
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=5000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94],
    class_sep=0.8, random_state=0)
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
from collections import Counter
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]

[(0, 4674), (1, 4674), (2, 4674)]


L'ensemble de données augmenté doit être utilisé à la place de l'ensemble de données d'origine pour entraîner un classifieur :

In [2]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_resampled, y_resampled)
# LogisticRegression(...)

Dans la figure ci-dessous, nous comparons les fonctions de décision d'un classifieur entraîné en utilisant l'ensemble de données sur-échantillonné et l'ensemble de données d'origine.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_002.png"
    alt="Fonction de décision de LogisticRegression"
    style="max-width: 75%; height: auto;"/>
</div>

En conséquence, la classe majoritaire ne prend pas le dessus sur les autres classes pendant le processus d'entraînement. Par conséquent, toutes les classes sont représentées par la fonction de décision.

De plus, le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) permet d'échantillonner des données hétérogènes (par exemple, contenant des chaînes de caractères) :

In [4]:
import numpy as np
X_hetero = np.array(
    [['xxx', 1, 1.0], ['yyy', 2, 2.0], ['zzz', 3, 3.0]],
    dtype=object
)
y_hetero = np.array([0, 0, 1])
X_resampled, y_resampled = ros.fit_resample(X_hetero, y_hetero)
print(X_resampled)
# [['xxx' 1 1.0]
#  ['yyy' 2 2.0]
#  ['zzz' 3 3.0]
#  ['zzz' 3 3.0]]
print(y_resampled)
# [0 0 1 1]

[['xxx' 1 1.0]
 ['yyy' 2 2.0]
 ['zzz' 3 3.0]
 ['zzz' 3 3.0]]
[0 0 1 1]


Il fonctionnerait également avec un dataframe pandas :

In [6]:
from sklearn.datasets import fetch_openml
df_adult, y_adult = fetch_openml(
    'adult', version=2, as_frame=True, return_X_y=True, parser='auto')
df_adult.head()  
df_resampled, y_resampled = ros.fit_resample(df_adult, y_adult)
df_resampled.head()  

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,,103497,Some-college,10,Never-married,,Own-child,White,Female,0,0,30,United-States


Si la répétition d'échantillons pose problème, le paramètre `shrinkage` permet de créer un bootstrap lissé. Cependant, les données d'origine doivent être numériques. Le paramètre `shrinkage` contrôle la dispersion des nouveaux échantillons générés. Nous montrons un exemple illustrant que les nouveaux échantillons ne se chevauchent plus une fois qu'un bootstrap lissé est utilisé. Cette manière de générer un bootstrap lissé est également connue sous le nom d'Exemples de Sur-Échantillonnage Aléatoire (ROSE) [MT14].

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_003.png"
    alt="Rééchantillonnage avec RandomOverSampler"
    style="max-width: 75%; height: auto;"/>
</div>

### <a id='from-random-over-sampling-to-smote-and-adasyn'></a> E1.2.1.2. **Du sur-échantillonnage aléatoire à SMOTE et ADASYN**<br/>([_From random over-sampling to SMOTE and ADASYN_](https://imbalanced-learn.org/stable/over_sampling.html#from-random-over-sampling-to-smote-and-adasyn))

Outre l'échantillonnage aléatoire avec remplacement, il existe deux méthodes populaires pour sur-échantillonner les classes minoritaires : (i) la technique de sur-échantillonnage synthétique des classes minoritaires (SMOTE - _Synthetic Minority Oversampling Technique_) [CBHK02] et (ii) la méthode d'échantillonnage synthétique adaptatif (ADASYN - _Adaptive Synthetic_) [HBGL08]. Ces algorithmes peuvent être utilisés de la même manière :

In [7]:
from imblearn.over_sampling import SMOTE, ADASYN
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]
clf_smote = LogisticRegression().fit(X_resampled, y_resampled)
X_resampled, y_resampled = ADASYN().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4673), (1, 4662), (2, 4674)]
clf_adasyn = LogisticRegression().fit(X_resampled, y_resampled)

[(0, 4674), (1, 4674), (2, 4674)]
[(0, 4673), (1, 4662), (2, 4674)]


La figure ci-dessous illustre la principale différence entre les différentes méthodes de sur-échantillonnage.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_004.png"
    alt="Comparaison des méthodes de sur-échantillonnage"
    style="max-width: 50%; height: auto;"/>
</div>

### <a id='ill-posed-examples'></a> E1.2.1.3. **Exemples de problèmes mal posés**<br/>([_Ill-posed examples_](https://imbalanced-learn.org/stable/over_sampling.html#ill-posed-examples))

Tandis que le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) effectue le sur-échantillonnage en dupliquant certains des échantillons originaux de la classe minoritaire, [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) et [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) génèrent de nouveaux échantillons par interpolation. Cependant, les échantillons utilisés pour l'interpolation/la génération de nouveaux échantillons synthétiques diffèrent. En effet, [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) se concentre sur la génération, à l'aide d'un classifieur k-NN, d'échantillons proches des échantillons originaux mal classés, tandis que l'implémentation de base de [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) ne fait aucune distinction entre les échantillons faciles et difficiles à classer suivant la règle des voisins les plus proches. Par conséquent, la fonction de décision trouvée lors de l'entraînement sera différente entre les deux algorithmes.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_005.png"
    alt="Comparaison ADASYN, SMOTE et absence de ré-échantillonnage"
    style="max-width: 75%; height: auto;"/>
</div>

Les particularités de l'échantillonnage de ces deux algorithmes peuvent entraîner des comportements particuliers, comme le montre l'exemple ci-dessous.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_006.png"
    alt="Particularités de la sur-échantillonnage avec SMOTE et ADASYN"
    style="max-width: 50%; height: auto;"/>
</div>

### <a id='smote-variants'></a> E1.2.1.4. **Variantes de SMOTE**<br/>([_SMOTE variants_](https://imbalanced-learn.org/stable/over_sampling.html#smote-variants))

SMOTE pourrait connecter des valeurs aberrantes (outliers) avec les valeurs atypiques (inliers), tandis qu'ADASYN pourrait se concentrer uniquement sur les valeurs aberrantes, ce qui, dans les deux cas, pourrait conduire à une fonction de décision sous-optimale. À cet égard, SMOTE propose trois options supplémentaires pour générer des échantillons. Ces méthodes se concentrent sur les échantillons proches de la frontière de la fonction de décision optimale et généreront des échantillons dans la direction opposée à la classe des voisins les plus proches. Ces variantes sont présentées dans la figure ci-dessous.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_007.png"
    alt="Fonction de décision et ré-échantillonnage à l'aide des variantes de SMOTE"
    style="max-width: 50%; height: auto;"/>
</div>

Les algorithmes [**`BorderlineSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.BorderlineSMOTE.html#imblearn.over_sampling.BorderlineSMOTE) [HWM05], [**`SVMSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SVMSMOTE.html#imblearn.over_sampling.SVMSMOTE) [NCK09], et [**`KMeansSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.KMeansSMOTE.html#imblearn.over_sampling.KMeansSMOTE) [LDB17] sont des variantes de l'algorithme SMOTE :

In [8]:
from imblearn.over_sampling import BorderlineSMOTE
X_resampled, y_resampled = BorderlineSMOTE().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]

[(0, 4674), (1, 4674), (2, 4674)]


Lorsqu'il s'agit de données mixtes, telles que des caractéristiques continues et catégorielles, aucune des méthodes présentées (à l'exception de la classe [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler)) ne peut traiter les caractéristiques catégorielles. La [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) [CBHK02] est une extension de l'algorithme SMOTE qui traite différemment les données catégorielles :

In [9]:
# create a synthetic data set with continuous and categorical features
rng = np.random.RandomState(42)
n_samples = 50
X = np.empty((n_samples, 3), dtype=object)
X[:, 0] = rng.choice(['A', 'B', 'C'], size=n_samples).astype(object)
X[:, 1] = rng.randn(n_samples)
X[:, 2] = rng.randint(3, size=n_samples)
y = np.array([0] * 20 + [1] * 30)
print(sorted(Counter(y).items()))
# [(0, 20), (1, 30)]

[(0, 20), (1, 30)]


Dans ce jeu de données, les première et dernière caractéristiques sont considérées comme des caractéristiques catégorielles. Il est nécessaire de fournir cette information à [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) via les paramètres `categorical_features`, que ce soit en passant les indices, les noms des caractéristiques lorsque `X` est un DataFrame pandas, un masque booléen marquant ces caractéristiques, ou en se basant sur l'inférence du type (`dtype`) si les colonnes utilisent le [**`pandas.CategoricalDtype`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.CategoricalDtype.html#pandas.CategoricalDtype) :

In [11]:
from imblearn.over_sampling import SMOTENC
smote_nc = SMOTENC(categorical_features=[0, 2], random_state=0)
X_resampled, y_resampled = smote_nc.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 30), (1, 30)]
print(X_resampled[-5:])
# [['A' 0.5246469549655818 2]
# ['B' -0.3657680728116921 2]
# ['B' 0.9344237230779993 2]
# ['B' 0.3710891618824609 2]
# ['B' 0.3327240726719727 2]]

[(0, 30), (1, 30)]
[['A' 0.5246469549655818 2]
 ['B' -0.3657680728116921 2]
 ['B' 0.9344237230779993 2]
 ['B' 0.3710891618824609 2]
 ['B' 0.3327240726719727 2]]


Par conséquent, on peut voir que les échantillons générés dans les première et dernière colonnes appartiennent aux mêmes catégories que celles présentées initialement sans aucune interpolation supplémentaire.

Cependant, [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) ne fonctionne que lorsque les données sont constituées d'une combinaison de caractéristiques numériques et catégorielles. Si les données sont composées uniquement de données catégorielles, on peut utiliser la variante [**`SMOTEN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTEN.html#imblearn.over_sampling.SMOTEN) [CBHK02]. L'algorithme change de deux manières :
- La recherche des voisins les plus proches ne repose pas sur la distance euclidienne. En effet, la métrique de différence de valeur (VDM - _Value Difference Metric_), également implémentée dans la classe `ValueDifferenceMetric`, est utilisée.
- Un nouvel échantillon est généré où chaque valeur de caractéristique correspond à la catégorie la plus courante observée dans les échantillons voisins appartenant à la même classe.

Prenons l'exemple suivant :

In [12]:
import numpy as np
X = np.array(["green"] * 5 + ["red"] * 10 + ["blue"] * 7,
             dtype=object).reshape(-1, 1)
y = np.array(["apple"] * 5 + ["not apple"] * 3 + ["apple"] * 7 +
             ["not apple"] * 5 + ["apple"] * 2, dtype=object)

Nous générons un jeu de données associant une couleur au fait d'être ou non une pomme. Nous associons fortement `"green"` et `"red"` au fait d'être une pomme. La classe minoritaire étant `"not apple"`, nous nous attendons à ce que de nouvelles données générées appartiennent à la catégorie `"bleu"` :

In [13]:
from imblearn.over_sampling import SMOTEN
sampler = SMOTEN(random_state=0)
X_res, y_res = sampler.fit_resample(X, y)
X_res[y.size:]
y_res[y.size:]
# array(['not apple', 'not apple', 'not apple', 'not apple', 'not apple',
#        'not apple'], dtype=object)

array(['not apple', 'not apple', 'not apple', 'not apple', 'not apple',
       'not apple'], dtype=object)

## <a id='mathematical-formulation'></a> E1.2.2. **Formulation mathématique**<br/>([_Mathematical formulation_](https://imbalanced-learn.org/stable/over_sampling.html#mathematical-formulation))

### <a id='sample-generation'></a> E1.2.2.1. **Génération d'échantillons**<br/>([_Sample generation_](https://imbalanced-learn.org/stable/over_sampling.html#sample-generation))

[**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) et [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) utilisent le même algorithme pour générer de nouveaux échantillons. En considérant un échantillon $x_i$, un nouvel échantillon $x_{new}$ sera généré en prenant en compte ses $k$ plus proches voisins (correspondant à `k_neighbors`). Par exemple, les 3 plus proches voisins sont inclus dans le cercle bleu comme illustré dans la figure ci-dessous. Ensuite, l'un de ces plus proches voisins $x_{zi}$ est sélectionné et un échantillon est généré comme suit :

$$x_{new} = x_i + \lambda \times (x_{zi} - x_i)$$

où $\lambda$ est un nombre aléatoire dans la plage $[0, 1]$. Cette interpolation créera un échantillon sur la ligne entre $x_i$ et $x_{zi}$, comme illustré dans l'image ci-dessous :

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_generation_sample_001.png"
    alt="Stratégie d'échantillonnage"
    style="max-width: 30%; height: auto;"/>
</div>

SMOTE-NC change légèrement la manière dont un nouvel échantillon est généré en effectuant quelque chose de spécifique pour les caractéristiques catégorielles. En fait, les catégories d'un nouvel échantillon généré sont décidées en choisissant la catégorie la plus fréquente parmi les voisins les plus proches présents lors de la génération.

> **Avertissement** Soyez conscient que SMOTE-NC n'est pas conçu pour fonctionner uniquement avec des données catégorielles.

Les autres variantes de SMOTE et ADASYN diffèrent les unes des autres en sélectionnant les échantillons $x_i$ avant de générer les nouveaux échantillons.

Le SMOTE **régulier** - cf. l'objet [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) - n'impose aucune règle et choisira de manière aléatoire tous les $x_i$ possibles disponibles.

Le SMOTE **borderline** - cf. [**`BorderlineSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.BorderlineSMOTE.html#imblearn.over_sampling.BorderlineSMOTE) avec les paramètres `kind='borderline-1'` et `kind='borderline-2'` - classe chaque échantillon $x_i$ comme (i) du bruit (c'est-à-dire que tous les voisins les plus proches sont d'une classe différente de celle de $x_i$), (ii) en danger (c'est-à-dire qu'au moins la moitié des voisins les plus proches sont de la même classe que $x_i$), ou (iii) sûr (c'est-à-dire que tous les voisins les plus proches sont de la même classe que $x_i$). Le SMOTE **Borderline-1** et **Borderline-2** utilise les échantillons en danger pour générer de nouveaux échantillons. Dans le **Borderline-1** SMOTE, $x_{zi}$ appartient à la même classe que celle de l'échantillon $x_i$. En revanche, le **Borderline-2** SMOTE prend en compte $x_{zi}$ qui peut être de n'importe quelle classe.

Le SMOTE **SVM** - cf. [**`SVMSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SVMSMOTE.html#imblearn.over_sampling.SVMSMOTE) - utilise un classifieur SVM pour trouver des vecteurs de support et génère des échantillons en les prenant en compte. Notez que le paramètre `C` du classifieur SVM permet de sélectionner plus ou moins de vecteurs de support.

Pour le SMOTE borderline et SVM, un voisinage est défini à l'aide du paramètre `m_neighbors` pour décider si un échantillon est en danger, sûr ou du bruit.

Le SMOTE **KMeans** - cf. [**`KMeansSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.KMeansSMOTE.html#imblearn.over_sampling.KMeansSMOTE) - utilise une méthode de regroupement KMeans avant d'appliquer le SMOTE. Le regroupement regroupe des échantillons ensemble et génère de nouveaux échantillons en fonction de la densité de la grappe.

ADASYN fonctionne de manière similaire au SMOTE régulier. Cependant, le nombre d'échantillons générés pour chaque échantillon est proportionnel au nombre d'échantillons qui ne sont pas de la même classe que dans un voisinage donné. Par conséquent, plus d'échantillons seront générés dans la zone où la règle du voisinage le plus proche n'est pas respectée. Le paramètre `m_neighbors` est équivalent à `k_neighbors` dans [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE).

### <a id='multi-class-management'></a> E1.2.2.2. **Gestion multi-classes**<br/>([_Multi-class management_](https://imbalanced-learn.org/stable/over_sampling.html#multi-class-management))

Tous les algorithmes peuvent être utilisés tant avec des classes multiples qu'avec une classification binaire. [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) ne nécessite aucune information inter-classes lors de la génération d'échantillons. Par conséquent, chaque classe cible est ré-échantillonnée indépendamment. En revanche, [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) et [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) ont besoin d'informations concernant le voisinage de chaque échantillon utilisé pour la génération d'échantillons. Ils utilisent une approche un-contre-tous (OvR) en sélectionnant chaque classe cible et en calculant les statistiques nécessaires par rapport au reste du jeu de données, qui est regroupé dans une seule classe.

# <a id='under-sampling'></a> E1.3. **Sous-échantillonnage**<br/>([_Under-sampling_](https://imbalanced-learn.org/stable/under_sampling.html#under-sampling))

Vous pouvez vous référer à l'exemple [**Comparaison des échantillonneurs de sous-échantillonnage**](https://imbalanced-learn.org/stable/auto_examples/under-sampling/plot_comparison_under_sampling.html#sphx-glr-auto-examples-under-sampling-plot-comparison-under-sampling-py).

## <a id='prototype-generation'></a> E1.3.1. **Génération de prototypes**<br/>([_Prototype generation_](https://imbalanced-learn.org/stable/under_sampling.html#prototype-generation))

Étant donné un jeu de données original $S$, les algorithmes de génération de prototypes génèrent un nouvel ensemble $S'$ où $|S'| < |S|$ et $S' \not\subset S$. En d'autres termes, la technique de génération de prototypes réduit le nombre d'échantillons dans les classes ciblées, mais les échantillons restants sont générés, et non sélectionnés, à partir de l'ensemble d'origine.

[**`ClusterCentroids`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.ClusterCentroids.html#imblearn.under_sampling.ClusterCentroids) utilise K-means pour réduire le nombre d'échantillons. Par conséquent, chaque classe est synthétisée avec les centroïdes de la méthode K-means au lieu des échantillons d'origine :

In [1]:
from collections import Counter
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=5000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94],
    class_sep=0.8, random_state=0
)
print(sorted(Counter(y).items()))
# [(0, 64), (1, 262), (2, 4674)]
from imblearn.under_sampling import ClusterCentroids
cc = ClusterCentroids(random_state=0)
X_resampled, y_resampled = cc.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 64), (2, 64)]

[(0, 64), (1, 262), (2, 4674)]


  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)


[(0, 64), (1, 64), (2, 64)]


La figure ci-dessous illustre un tel sous-échantillonnage.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_001.png"
    alt="Resampling avec ClusterCentroids"
    style="max-width: 50%; height: auto;"/>
</div>

[**`ClusterCentroids`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.ClusterCentroids.html#imblearn.under_sampling.ClusterCentroids) offre un moyen efficace de représenter la grappe de données avec un nombre réduit d'échantillons. Gardez à l'esprit que cette méthode nécessite que vos données soient regroupées en grappes. De plus, le nombre de centroïdes doit être défini de manière à ce que les grappes sous-échantillonnées soient représentatives de l'originale.

> **Avertissement** [**`ClusterCentroids`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.ClusterCentroids.html#imblearn.under_sampling.ClusterCentroids) prend en charge les matrices creuses. Cependant, les nouveaux échantillons générés ne sont pas spécifiquement creux. Par conséquent, même si la matrice résultante est creuse, l'algorithme est inefficace à cet égard.

## <a id='prototype-selection'></a> E1.3.2. **Sélection de prototypes**<br/>([_Prototype selection_](https://imbalanced-learn.org/stable/under_sampling.html#prototype-selection))

Contrairement aux algorithmes de génération de prototypes, les algorithmes de sélection de prototypes sélectionnent des échantillons à partir de l'ensemble d'origine $S$. Par conséquent, $S'$ est défini de telle sorte que $|S'| < |S|$ et $S' \subset S$.

De plus, ces algorithmes peuvent être divisés en deux groupes :
- (i) les techniques de sous-échantillonnage contrôlées et
- (ii) les techniques de sous-échantillonnage de nettoyage.

Le premier groupe de méthodes permet une stratégie de sous-échantillonnage dans laquelle le nombre d'échantillons dans $S'$ est spécifié par l'utilisateur. En revanche, les techniques de sous-échantillonnage de nettoyage n'autorisent pas cette spécification et sont destinées au nettoyage de l'espace des caractéristiques.

### <a id='controlled-under-sampling-techniques'></a> E1.3.2.1. **Techniques de sous-échantillonnage contrôlé**<br/>([_Controlled under-sampling techniques_](https://imbalanced-learn.org/stable/under_sampling.html#controlled-under-sampling-techniques))

[**`RandomUnderSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html#imblearn.under_sampling.RandomUnderSampler) est un moyen rapide et simple d'équilibrer les données en sélectionnant de manière aléatoire un sous-ensemble de données pour les classes ciblées.

In [2]:
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 64), (2, 64)]

[(0, 64), (1, 64), (2, 64)]


[**`RandomUnderSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html#imblearn.under_sampling.RandomUnderSampler) permet de réaliser un échantillonnage avec remplacement des données en définissant `replacement` sur `True`. Le ré-échantillonnage avec plusieurs classes est effectué en considérant indépendamment chaque classe ciblée :

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_002.png"
    alt="Ré-échantillonnage avec RandomUnderSampler"
    style="max-width: 50%; height: auto;"/>
</div>

In [3]:
import numpy as np
print(np.vstack([tuple(row) for row in X_resampled]).shape)
# (192, 2)
rus = RandomUnderSampler(random_state=0, replacement=True)
X_resampled, y_resampled = rus.fit_resample(X, y)
print(np.vstack(np.unique([tuple(row) for row in X_resampled], axis=0)).shape)
# (181, 2)

(192, 2)
(181, 2)


De plus, [**`RandomUnderSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html#imblearn.under_sampling.RandomUnderSampler) permet d'échantillonner des données hétérogènes (par exemple, contenant des chaînes de caractères).

In [4]:
X_hetero = np.array(
    [['xxx', 1, 1.0], ['yyy', 2, 2.0], ['zzz', 3, 3.0]],
    dtype=object
)
y_hetero = np.array([0, 0, 1])
X_resampled, y_resampled = rus.fit_resample(X_hetero, y_hetero)
print(X_resampled)
# [['xxx' 1 1.0]
#  ['zzz' 3 3.0]]
print(y_resampled)
# [0 1]

[['xxx' 1 1.0]
 ['zzz' 3 3.0]]
[0 1]


Il fonctionnerait également avec un dataframe pandas :

In [5]:
from sklearn.datasets import fetch_openml
df_adult, y_adult = fetch_openml('adult', version=2, as_frame=True, return_X_y=True)
df_adult.head()  
df_resampled, y_resampled = rus.fit_resample(df_adult, y_adult)
df_resampled.head()  

  warn(


Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
3582,29.0,Private,201101.0,HS-grad,9.0,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0.0,0.0,50.0,United-States
27844,23.0,Private,188950.0,Assoc-voc,11.0,Never-married,Sales,Own-child,White,Male,0.0,0.0,40.0,United-States
39877,24.0,Private,282604.0,Some-college,10.0,Married-civ-spouse,Protective-serv,Other-relative,White,Male,0.0,0.0,24.0,United-States
42144,29.0,Private,174419.0,HS-grad,9.0,Never-married,Other-service,Unmarried,White,Female,0.0,0.0,30.0,United-States
27199,20.0,Private,236592.0,12th,8.0,Never-married,Prof-specialty,Not-in-family,White,Female,0.0,0.0,35.0,Italy


[**`NearMiss`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NearMiss.html#imblearn.under_sampling.NearMiss) ajoute quelques règles heuristiques pour sélectionner des échantillons [MZ03]. [**`NearMiss`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NearMiss.html#imblearn.under_sampling.NearMiss) implémente 3 types différents d'heuristiques qui peuvent être sélectionnés avec le paramètre `version` :

In [6]:
from imblearn.under_sampling import NearMiss
nm1 = NearMiss(version=1)
X_resampled_nm1, y_resampled = nm1.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 64), (2, 64)]

[(0, 64), (1, 64), (2, 64)]


Comme indiqué ultérieurement dans la section suivante, les règles heuristiques de [**`NearMiss`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NearMiss.html#imblearn.under_sampling.NearMiss) sont basées sur l'algorithme des plus proches voisins. Par conséquent, les paramètres `n_neighbors` et `n_neighbors_ver3` acceptent un classificateur dérivé de `KNeighborsMixin` de scikit-learn. Le premier paramètre est utilisé pour calculer la distance moyenne aux voisins, tandis que le second est utilisé pour la pré-sélection des échantillons d'intérêt.

### <a id='mathematical-formulation'></a> E1.3.2.1.1. **Formulation mathématique**<br/>([_Mathematical formulation_](https://imbalanced-learn.org/stable/under_sampling.html#mathematical-formulation))

Soient les _échantillons positifs_ les échantillons appartenant à la classe ciblée à sous-échantillonner. L'échantillon négatif désigne les échantillons de la classe minoritaire (c'est-à-dire la classe la moins représentée).

NearMiss-1 sélectionne les échantillons positifs pour lesquels la distance moyenne aux $N$ échantillons les plus proches de la classe négative est la plus petite.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_nearmiss_001.png"
    alt="NearMiss-1"
    style="max-width: 30%; height: auto;"/>
</div>

NearMiss-2 sélectionne les échantillons positifs pour lesquels la distance moyenne aux $N$ échantillons les plus éloignés de la classe négative est la plus petite.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_nearmiss_002.png"
    alt="NearMiss-2"
    style="max-width: 30%; height: auto;"/>
</div>

NearMiss-3 est un algorithme en 2 étapes. Tout d'abord, pour chaque échantillon négatif, leurs $M$ plus proches voisins seront conservés. Ensuite, les échantillons positifs sélectionnés sont ceux pour lesquels la distance moyenne aux $N$ plus proches voisins est la plus grande.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_nearmiss_003.png"
    alt="NearMiss-3"
    style="max-width: 30%; height: auto;"/>
</div>

Dans l'exemple suivant, les différentes variantes de [**`NearMiss`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NearMiss.html#imblearn.under_sampling.NearMiss) sont appliquées à l'exemple factice précédent. On peut constater que les fonctions de décision obtenues dans chaque cas sont différentes.

Lors du sous-échantillonnage d'une classe spécifique, NearMiss-1 peut être altéré par la présence de bruit. En effet, cela impliquera que les échantillons de la classe ciblée seront sélectionnés autour de ces échantillons, comme c'est le cas dans l'illustration ci-dessous pour la classe jaune. Cependant, dans le cas normal, ce sont les échantillons situés près des limites qui seront sélectionnés. NearMiss-2 n'aura pas cet effet car il ne se concentre pas sur les échantillons les plus proches, mais plutôt sur les échantillons les plus éloignés. On peut imaginer que la présence de bruit peut également altérer l'échantillonnage principalement en présence de valeurs aberrantes marginales. NearMiss-3 est probablement la version la moins affectée par le bruit en raison de la sélection d'échantillons de la première étape.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_003.png"
    alt="NearMiss-3"
    style="max-width: 50%; height: auto;"/>
</div>

### <a id='cleaning-under-sampling-techniques'></a> E1.3.2.2. **Techniques de sous-échantillonnage de nettoyage**<br/>([_Cleaning under-sampling techniques_](https://imbalanced-learn.org/stable/under_sampling.html#cleaning-under-sampling-techniques))

Les techniques de sous-échantillonnage de nettoyage ne permettent pas de spécifier le nombre d'échantillons à avoir dans chaque classe. En fait, chaque algorithme met en œuvre une heuristique qui nettoie l'ensemble de données.

#### <a id='controlled-under-sampling-techniques'></a> E1.3.2.2.1. **Liens de Tomek**<br/>([_Tomek’s links_](https://imbalanced-learn.org/stable/under_sampling.html#tomek-s-links))

[**`TomekLinks`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.TomekLinks.html#imblearn.under_sampling.TomekLinks) détecte les liens de Tomek [Tom76b]. Un lien de Tomek entre deux échantillons de classes différentes $x$ et $y$ est défini de telle sorte que pour n'importe quel échantillon $z$ :

$$d(x, y) < d(x, z) \text{et} d(x, y) < d(y, z)$$

où $d(\cdot)$ est la distance entre les deux échantillons. En d'autres termes, un lien de Tomek existe si les deux échantillons sont les voisins les plus proches l'un de l'autre. Dans la figure ci-dessous, un lien de Tomek est illustré en mettant en évidence les échantillons d'intérêt en vert.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_tomek_links_001.png"
    alt="NearMiss-3"
    style="max-width: 30%; height: auto;"/>
</div>

Le paramètre `sampling_strategy` contrôle quel échantillon du lien est supprimé. Par exemple, la valeur par défaut (c'est-à-dire `sampling_strategy='auto'`) supprime l'échantillon de la classe majoritaire. Les échantillons des classes majoritaire et minoritaire peuvent être supprimés en définissant `sampling_strategy` sur `'all'`. La figure suivante illustre ce comportement.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_tomek_links_002.png"
    alt="NearMiss-3"
    style="max-width: 50%; height: auto;"/>
</div>

#### <a id=''></a> E1.3.2.2.2. **Jeu de données édité en utilisant les voisins les plus proches**<br/>([_Edited data set using nearest neighbors_](https://imbalanced-learn.org/stable/under_sampling.html#edited-data-set-using-nearest-neighbours))

[**`EditedNearestNeighbours`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.EditedNearestNeighbours.html#imblearn.under_sampling.EditedNearestNeighbours) applique un algorithme de plus proches voisins et "édite" l'ensemble de données en supprimant les échantillons qui ne sont pas suffisamment conformes à leur voisinage [Wil72]. Pour chaque échantillon de la classe à sous-échantillonner, les voisins les plus proches sont calculés et si le critère de sélection n'est pas rempli, l'échantillon est supprimé :

In [7]:
sorted(Counter(y).items())
# [(0, 64), (1, 262), (2, 4674)]
from imblearn.under_sampling import EditedNearestNeighbours
enn = EditedNearestNeighbours()
X_resampled, y_resampled = enn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 213), (2, 4568)]

[(0, 64), (1, 213), (2, 4568)]


Deux critères de sélection sont actuellement disponibles :
- (i) la majorité (c'est-à-dire `kind_sel='mode'`) ou
- (ii) tous (c'est-à-dire `kind_sel='all'`) les plus proches voisins doivent appartenir à la même classe que l'échantillon inspecté pour le conserver dans l'ensemble de données.

Par conséquent, cela implique que `kind_sel='all'` soit moins conservateur que `kind_sel='mode'`, et plus d'échantillons soient exclus dans la première stratégie que dans la dernière :

In [8]:
enn = EditedNearestNeighbours(kind_sel="all")
X_resampled, y_resampled = enn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 213), (2, 4568)]
enn = EditedNearestNeighbours(kind_sel="mode")
X_resampled, y_resampled = enn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 234), (2, 4666)]

[(0, 64), (1, 213), (2, 4568)]
[(0, 64), (1, 234), (2, 4666)]


Le paramètre `n_neighbors` permet de fournir un classificateur issu de la classe `KNeighborsMixin` de scikit-learn pour trouver les voisins les plus proches et prendre la décision de conserver ou non un échantillon donné.

[**`RepeatedEditedNearestNeighbours`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RepeatedEditedNearestNeighbours.html#imblearn.under_sampling.RepeatedEditedNearestNeighbours) étend [**`EditedNearestNeighbours`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.EditedNearestNeighbours.html#imblearn.under_sampling.EditedNearestNeighbours) en répétant l'algorithme plusieurs fois [Tom76a]. En général, la répétition de l'algorithme supprime davantage de données :

In [9]:
from imblearn.under_sampling import RepeatedEditedNearestNeighbours
renn = RepeatedEditedNearestNeighbours()
X_resampled, y_resampled = renn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 208), (2, 4551)]

[(0, 64), (1, 208), (2, 4551)]


[**`AllKNN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.AllKNN.html#imblearn.under_sampling.AllKNN) diffère du précédent [**`RepeatedEditedNearestNeighbours`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RepeatedEditedNearestNeighbours.html#imblearn.under_sampling.RepeatedEditedNearestNeighbours) car le nombre de voisins de l'algorithme interne des voisins les plus proches est augmenté à chaque itération [Tom76a] :

In [10]:
from imblearn.under_sampling import AllKNN
allknn = AllKNN()
X_resampled, y_resampled = allknn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 220), (2, 4601)]

[(0, 64), (1, 220), (2, 4601)]


Dans l'exemple ci-dessous, on peut voir que les trois algorithmes ont un impact similaire en nettoyant les échantillons bruyants près des frontières des classes.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_004.png"
    alt="EditedNearestNeighbours, RepeatedEditedNearestNeighbours, AllKNN"
    style="max-width: 50%; height: auto;"/>
</div>

#### <a id='condensed-nearest-neighbors-and-derived-algorithms'></a> E1.3.2.2.3. **Voisins les plus proches condensés et algorithmes dérivés**<br/>([_Condensed nearest neighbors and derived algorithms_](https://imbalanced-learn.org/stable/under_sampling.html#condensed-nearest-neighbors-and-derived-algorithms))

[**`CondensedNearestNeighbour`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.CondensedNearestNeighbour.html#imblearn.under_sampling.CondensedNearestNeighbour) utilise une règle du 1 voisin le plus proche pour décider de manière itérative si un échantillon doit être supprimé ou non [Har68]. L'algorithme se déroule comme suit :

1. Obtenir tous les échantillons de la classe minoritaire dans un ensemble $C$.
2. Ajouter un échantillon de la classe cible (classe à sous-échantillonner) dans $C$ et tous les autres échantillons de cette classe dans un ensemble $S$.
3. Parcourir l'ensemble $S$, échantillon par échantillon, et classifier chaque échantillon en utilisant une règle du 1 voisin le plus proche.
4. Si l'échantillon est mal classifié, l'ajouter à $C$, sinon ne rien faire.
5. Répéter sur $S$ jusqu'à ce qu'il n'y ait plus d'échantillons à ajouter.

Le [**`CondensedNearestNeighbour`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.CondensedNearestNeighbour.html#imblearn.under_sampling.CondensedNearestNeighbour) peut être utilisé de la manière suivante :

In [11]:
from imblearn.under_sampling import CondensedNearestNeighbour
cnn = CondensedNearestNeighbour(random_state=0)
X_resampled, y_resampled = cnn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 24), (2, 115)]

[(0, 64), (1, 24), (2, 115)]


Cependant, comme illustré dans la figure ci-dessous, [**`CondensedNearestNeighbour`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.CondensedNearestNeighbour.html#imblearn.under_sampling.CondensedNearestNeighbour) est sensible au bruit et ajoute des échantillons bruyants.

En revanche, [**`OneSidedSelection`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.OneSidedSelection.html#imblearn.under_sampling.OneSidedSelection) utilisera [**`TomekLinks`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.TomekLinks.html#imblearn.under_sampling.TomekLinks) pour supprimer les échantillons bruyants [Har68]. De plus, la règle du 1 voisin le plus proche est appliquée à tous les échantillons et ceux qui sont mal classés sont ajoutés à l'ensemble $C$. Aucune itération sur l'ensemble $S$ n'a lieu. Cette classe peut être utilisée comme suit :

In [12]:
from imblearn.under_sampling import OneSidedSelection
oss = OneSidedSelection(random_state=0)
X_resampled, y_resampled = oss.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 174), (2, 4404)]

[(0, 64), (1, 174), (2, 4404)]


Notre implémentation permet de définir le nombre de graines à mettre initialement dans l'ensemble $C$ en définissant le paramètre `n_seeds_S`.

[**`NeighbourhoodCleaningRule`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NeighbourhoodCleaningRule.html#imblearn.under_sampling.NeighbourhoodCleaningRule) se concentre davantage sur le nettoyage des données que sur leur condensation [Lau01]. Par conséquent, il utilise l'union des échantillons à rejeter entre les [**`EditedNearestNeighbours`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.EditedNearestNeighbours.html#imblearn.under_sampling.EditedNearestNeighbours) et la sortie d'un classifieur à 3 voisins les plus proches. Cette classe peut être utilisée comme suit :

In [13]:
from imblearn.under_sampling import NeighbourhoodCleaningRule
ncr = NeighbourhoodCleaningRule()
X_resampled, y_resampled = ncr.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 234), (2, 4666)]

[(0, 64), (1, 234), (2, 4666)]


<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_005.png"
    alt="CondensedNearestNeighbour, OneSidedSelection, NeighbourhoodCleaningRule"
    style="max-width: 50%; height: auto;"/>
</div>

#### <a id='instance-hardness-threshold'></a> E1.3.2.2.4. **Seuil de difficulté des instances**<br/>([_Instance hardness threshold_](https://imbalanced-learn.org/stable/under_sampling.html#instance-hardness-threshold))

[**`InstanceHardnessThreshold`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.InstanceHardnessThreshold.html#imblearn.under_sampling.InstanceHardnessThreshold) est un algorithme spécifique dans lequel un classifieur est entraîné sur les données et les échantillons ayant des probabilités plus faibles sont supprimés [SMGC14]. Cette classe peut être utilisée comme suit :

In [14]:
from sklearn.linear_model import LogisticRegression
from imblearn.under_sampling import InstanceHardnessThreshold
iht = InstanceHardnessThreshold(
    random_state=0,
    estimator=LogisticRegression(solver='lbfgs', multi_class='auto')
)
X_resampled, y_resampled = iht.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 64), (2, 64)]

[(0, 64), (1, 64), (2, 64)]


Cette classe comporte 2 paramètres importants. `estimator` accepte n'importe quel classifieur scikit-learn qui a une méthode `predict_proba`. L'entraînement du classifieur est effectué à l'aide d'une validation croisée et le paramètre `cv` peut définir le nombre de plis à utiliser.

> **Note :** [**`InstanceHardnessThreshold`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.InstanceHardnessThreshold.html#imblearn.under_sampling.InstanceHardnessThreshold) pourrait presque être considéré comme une méthode de sous-échantillonnage contrôlé. Cependant, en raison des sorties de probabilité, il n'est pas toujours possible d'obtenir un nombre spécifique d'échantillons.

La figure ci-dessous donne d'autres exemples sur des données fictives.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_under_sampling_006.png"
    alt="FunctionSampler, InstanceHardnessThreshold"
    style="max-width: 50%; height: auto;"/>
</div>

# <a id='combination-of-over-and-under-sampling'></a> E1.4. **Combination de sur-échantillonnage et de sous-échantillonnage**<br/>([_Combination of over- and under-sampling_](https://imbalanced-learn.org/stable/combine.html#combination-of-over-and-under-sampling))

Nous avons précédemment présenté [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) et montré que cette méthode peut générer des échantillons bruyants en interpolant de nouveaux points entre les valeurs aberrantes marginales et les valeurs typiques. Ce problème peut être résolu en nettoyant l'espace résultant du sur-échantillonnage.

À cet égard, le lien de Tomek et les voisins les plus proches modifiés sont les deux méthodes de nettoyage qui ont été ajoutées à la chaîne de traitement après l'application du sur-échantillonnage SMOTE pour obtenir un espace plus propre. Les deux classes prêtes à l'emploi implémentées par imbalanced-learn pour combiner les méthodes de sur- et sous-échantillonnage sont : (i) [**`SMOTETomek`**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTETomek.html#imblearn.combine.SMOTETomek) [BPM04] et (ii) [**`SMOTEENN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html#imblearn.combine.SMOTEENN) [BBM03].

Ces deux classes peuvent être utilisées comme tout autre échantillonneur avec des paramètres identiques à leurs échantillonneurs d'origine :

In [None]:
from collections import Counter
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=5000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94],
    class_sep=0.8, random_state=0)
print(sorted(Counter(y).items()))
# [(0, 64), (1, 262), (2, 4674)]
from imblearn.combine import SMOTEENN
smote_enn = SMOTEENN(random_state=0)
X_resampled, y_resampled = smote_enn.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4060), (1, 4381), (2, 3502)]
from imblearn.combine import SMOTETomek
smote_tomek = SMOTETomek(random_state=0)
X_resampled, y_resampled = smote_tomek.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4499), (1, 4566), (2, 4413)]

Nous pouvons également voir dans l'exemple ci-dessous que [**`SMOTEENN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html#imblearn.combine.SMOTEENN) tend à nettoyer davantage d'échantillons bruyants que [**`SMOTETomek`**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTETomek.html#imblearn.combine.SMOTETomek).

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_combine_001.png"
    alt="SMOTEENN nettoie davantage d'échantillons bruyants que SMOTETomek"
    style="max-width: 30%; height: auto;"/>
</div>

## Exemples

### [**Comparaison d'échantillonneurs combinant le sur-échantillonnage et le sous-échantillonnage**](https://imbalanced-learn.org/stable/auto_examples/combine/plot_comparison_combine.html#sphx-glr-auto-examples-combine-plot-comparison-combine-py)

# <a id='ensemble-of-samplers'></a> E1.5. **Échantillonneurs ensemblistes**<br/>([_Ensemble of samplers_](https://imbalanced-learn.org/stable/ensemble.html#ensemble-of-samplers))

## <a id='classifier-including-inner-balancing-samplers'></a> E1.5.1. **Classifieur incluant des échantillonneurs à équilibrage internes**<br/>([_Classifier including inner balancing samplers_](https://imbalanced-learn.org/stable/ensemble.html#classifier-including-inner-balancing-samplers))

### <a id='bagging-classifier'></a> E1.5.1.1. **Bagging classifier**<br/>([_Classifieur Bagging_](https://imbalanced-learn.org/stable/ensemble.html#bagging-classifier))

Dans les classifieurs ensemblistes, les méthodes de bagging construisent plusieurs estimateurs sur différents sous-ensembles de données sélectionnés de manière aléatoire. Dans scikit-learn, ce classifieur est nommé **`BaggingClassifier`**. Cependant, ce classifieur ne permet pas d'équilibrer chaque sous-ensemble de données. Par conséquent, lors de l'entraînement sur un jeu de données déséquilibré, ce classifieur favorisera les classes majoritaires.

In [15]:
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=10000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94], class_sep=0.8,
    random_state=0)
from sklearn.model_selection import train_test_split
from sklearn.metrics import balanced_accuracy_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
bc = BaggingClassifier(
    base_estimator=DecisionTreeClassifier(),
    random_state=0)
bc.fit(X_train, y_train) #doctest:
y_pred = bc.predict(X_test)
balanced_accuracy_score(y_test, y_pred)
# 0.77..



0.7739629664028289

Dans le [**`BalancedBaggingClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.BalancedBaggingClassifier.html#imblearn.ensemble.BalancedBaggingClassifier), chaque échantillon bootstrap sera encore rééchantillonné pour atteindre la `sampling_strategy` souhaitée. Par conséquent, [**`BalancedBaggingClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.BalancedBaggingClassifier.html#imblearn.ensemble.BalancedBaggingClassifier) prend les mêmes paramètres que **`BaggingClassifier`** de scikit-learn. De plus, l'échantillonnage est contrôlé par le paramètre `sampler` ou les deux paramètres `sampling_strategy` et `replacement`, si l'on souhaite utiliser le [**`RandomUnderSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html#imblearn.under_sampling.RandomUnderSampler).

In [16]:
from imblearn.ensemble import BalancedBaggingClassifier
bbc = BalancedBaggingClassifier(
    base_estimator=DecisionTreeClassifier(),
    sampling_strategy='auto',
    replacement=False,
    random_state=0)
bbc.fit(X_train, y_train)
y_pred = bbc.predict(X_test)
balanced_accuracy_score(y_test, y_pred)
# 0.8...



0.8251353587264241

Changer le `sampler` donnera lieu à différentes implémentations connues [MO97], [HKT09], [WY09]. Vous pouvez vous référer à l'exemple suivant qui montre en pratique ces différentes méthodes : [**Classifieurs de bagging utilisant un échantillonneur**](https://imbalanced-learn.org/stable/auto_examples/ensemble/plot_bagging_classifier.html#sphx-glr-auto-examples-ensemble-plot-bagging-classifier-py).

### <a id='forest-of-randomized-trees'></a> E1.5.1.2. **Forest of randomized trees**<br/>([_Forêt d'arbres aléatoires_](https://imbalanced-learn.org/stable/ensemble.html#forest-of-randomized-trees))

[**`BalancedRandomForestClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.BalancedRandomForestClassifier.html#imblearn.ensemble.BalancedRandomForestClassifier) est une autre méthode ensembliste dans laquelle chaque arbre de la forêt recevra un échantillon bootstrap équilibré [CLB+04]. Cette classe offre toutes les fonctionnalités de **`RandomForestClassifier`**.

In [17]:
from imblearn.ensemble import BalancedRandomForestClassifier
brf = BalancedRandomForestClassifier(
    n_estimators=100, random_state=0, sampling_strategy="all", replacement=True
)
brf.fit(X_train, y_train)
y_pred = brf.predict(X_test)
balanced_accuracy_score(y_test, y_pred)
# 0.8...

0.8299918475176207

### <a id='boosting'></a> E1.5.1.3. **Boosting**<br/>([_Boosting_](https://imbalanced-learn.org/stable/ensemble.html#forest-of-randomized-trees))

Plusieurs méthodes exploitant le boosting ont été conçues.

[**`RUSBoostClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.RUSBoostClassifier.html#imblearn.ensemble.RUSBoostClassifier) sous-échantillonne de manière aléatoire le jeu de données avant d'effectuer une itération de boosting [SKVHN09].

In [18]:
from imblearn.ensemble import RUSBoostClassifier
rusboost = RUSBoostClassifier(
    n_estimators=200, algorithm='SAMME.R', random_state=0
)
rusboost.fit(X_train, y_train)
y_pred = rusboost.predict(X_test)
balanced_accuracy_score(y_test, y_pred)

0.595736286114293

Une méthode spécifique qui utilise **`AdaBoostClassifier`** comme apprenants dans le classifieur de bagging s'appelle "EasyEnsemble". L'[**`EasyEnsembleClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.EasyEnsembleClassifier.html#imblearn.ensemble.EasyEnsembleClassifier) permet de regrouper les apprenants AdaBoost qui sont entraînés sur des échantillons bootstrap équilibrés [LWZ08]. De manière similaire à l'API de [**`BalancedBaggingClassifier`**](https://imbalanced-learn.org/stable/references/generated/imblearn.ensemble.BalancedBaggingClassifier.html#imblearn.ensemble.BalancedBaggingClassifier), on peut construire l'ensemble de la manière suivante :

In [19]:
from imblearn.ensemble import EasyEnsembleClassifier
eec = EasyEnsembleClassifier(random_state=0)
eec.fit(X_train, y_train)
y_pred = eec.predict(X_test)
balanced_accuracy_score(y_test, y_pred)
# 0.6...

0.6248477859302602

### Exemples

#### Comparer les classifieurs ensemblistes en utilisant le ré-échantillonnage

# <a id='miscellaneous-samplers'></a> E1.6. **Échantillonneurs divers**<br/>([_Miscellaneous samplers_](https://imbalanced-learn.org/stable/miscellaneous.html#miscellaneous-samplers))

## <a id='custom-samplers'></a> E1.6.1. **Échantillonneurs personnalisés**<br/>([_Custom samplers_](https://imbalanced-learn.org/stable/miscellaneous.html#custom-samplers))

Un échantillonneur entièrement personnalisé, [**`FunctionSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.FunctionSampler.html#imblearn.FunctionSampler), est disponible dans imbalanced-learn. Il vous permet de prototyper rapidement votre propre échantillonneur en définissant une seule fonction. Des paramètres supplémentaires peuvent être ajoutés en utilisant l'attribut `kw_args`, qui accepte un dictionnaire. L'exemple suivant illustre comment conserver les 10 premiers éléments du tableau `X` et `y` :

In [1]:
import numpy as np
from imblearn import FunctionSampler
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=5000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94],
    class_sep=0.8, random_state=0
)
def func(X, y):
    return X[:10], y[:10]
sampler = FunctionSampler(func=func)
X_res, y_res = sampler.fit_resample(X, y)
np.all(X_res == X[:10])
np.all(y_res == y[:10])

True

De plus, le paramètre `validate` contrôle la vérification des entrées. Par exemple, en définissant `validate=False`, vous pouvez passer n'importe quel type de cible `y` et effectuer un échantillonnage pour les cibles de régression :

In [2]:
from sklearn.datasets import make_regression
X_reg, y_reg = make_regression(n_samples=100, random_state=42)
rng = np.random.RandomState(42)
def dummy_sampler(X, y):
    indices = rng.choice(np.arange(X.shape[0]), size=10)
    return X[indices], y[indices]
sampler = FunctionSampler(func=dummy_sampler, validate=False)
X_res, y_res = sampler.fit_resample(X_reg, y_reg)
y_res

array([  41.49112498, -142.78526195,   85.55095317,  141.43321419,
         75.46571114,  -67.49177372,  159.72700509, -169.80498923,
        211.95889757,  211.95889757])

Nous avons illustré l'utilisation de cet échantillonneur pour mettre en œuvre un estimateur de rejet des valeurs aberrantes qui peut être facilement utilisé dans un [**`Pipeline`**](https://imbalanced-learn.org/stable/references/generated/imblearn.pipeline.Pipeline.html#imblearn.pipeline.Pipeline) : **Échantillonneur personnalisé pour mettre en œuvre un estimateur de rejet des valeurs aberrantes**.

## <a id='custom-generators'></a> E1.6.2. **Générateurs personnalisés**<br/>([_Custom generators_](https://imbalanced-learn.org/stable/miscellaneous.html#custom-generators))

Imbalanced-learn propose des générateurs spécifiques pour TensorFlow et Keras qui généreront des mini-lots équilibrés.

### <a id='tensorflow-generator'></a> E1.6.2.1. **Générateur TensorFlow**<br/>([_TensorFlow generator_](https://imbalanced-learn.org/stable/miscellaneous.html#tensorflow-generator))

Le [**`balanced_batch_generator`**](https://imbalanced-learn.org/stable/references/generated/imblearn.tensorflow.balanced_batch_generator.html#imblearn.tensorflow.balanced_batch_generator) permet de générer des mini-lots équilibrés en utilisant un échantillonneur imbalanced-learn qui renvoie des indices.

Commençons par générer des données :

In [3]:
n_features, n_classes = 10, 2
X, y = make_classification(
    n_samples=10_000, n_features=n_features, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=n_classes,
    n_clusters_per_class=1, weights=[0.1, 0.9],
    class_sep=0.8, random_state=0
)
X = X.astype(np.float32)

Ensuite, nous pouvons créer le générateur qui produira des mini-lots équilibrés :

In [4]:
from imblearn.under_sampling import RandomUnderSampler
from imblearn.tensorflow import balanced_batch_generator
training_generator, steps_per_epoch = balanced_batch_generator(
    X,
    y,
    sample_weight=None,
    sampler=RandomUnderSampler(),
    batch_size=32,
    random_state=42,
)

Les paramètres `generator` et `steps_per_epoch` sont utilisés lors de l'entraînement d'un modèle Tensorflow. Nous allons illustrer comment utiliser ce générateur. Tout d'abord, nous pouvons définir un modèle de régression logistique qui sera optimisé par une descente de gradient :

In [5]:
import tensorflow as tf
# initialize the weights and intercept
normal_initializer = tf.random_normal_initializer(mean=0, stddev=0.01)
coef = tf.Variable(normal_initializer(
    shape=[n_features, n_classes]), dtype="float32"
)
intercept = tf.Variable(
    normal_initializer(shape=[n_classes]), dtype="float32"
)
# define the model
def logistic_regression(X):
    return tf.nn.softmax(tf.matmul(X, coef) + intercept)
# define the loss function
def cross_entropy(y_true, y_pred):
    y_true = tf.one_hot(y_true, depth=n_classes)
    y_pred = tf.clip_by_value(y_pred, 1e-9, 1.)
    return tf.reduce_mean(-tf.reduce_sum(y_true * tf.math.log(y_pred)))
# define our metric
def balanced_accuracy(y_true, y_pred):
    cm = tf.math.confusion_matrix(tf.cast(y_true, tf.int64), tf.argmax(y_pred, 1))
    per_class = np.diag(cm) / tf.math.reduce_sum(cm, axis=1)
    return np.mean(per_class)
# define the optimizer
optimizer = tf.optimizers.SGD(learning_rate=0.01)
# define the optimization step
def run_optimization(X, y):
    with tf.GradientTape() as g:
        y_pred = logistic_regression(X)
        loss = cross_entropy(y, y_pred)
    gradients = g.gradient(loss, [coef, intercept])
    optimizer.apply_gradients(zip(gradients, [coef, intercept]))

Une fois initialisé, le modèle est entraîné en itérant sur des mini-lots équilibrés de données et en minimisant la perte précédemment définie :

In [6]:
epochs = 10
for e in range(epochs):
    y_pred = logistic_regression(X)
    loss = cross_entropy(y, y_pred)
    bal_acc = balanced_accuracy(y, y_pred)
    print(f"epoch: {e}, loss: {loss:.3f}, accuracy: {bal_acc}")
    for _ in range(steps_per_epoch):
        X_batch, y_batch = next(training_generator)
        run_optimization(X_batch, y_batch)

epoch: 0, loss: 6881.147, accuracy: 0.5421011021956641
epoch: 1, loss: 3942.267, accuracy: 0.7999513158412606
epoch: 2, loss: 3760.627, accuracy: 0.7970163626687475
epoch: 3, loss: 3790.591, accuracy: 0.7998105681415657
epoch: 4, loss: 3644.607, accuracy: 0.7986326082901678
epoch: 5, loss: 3620.346, accuracy: 0.7973868414162727
epoch: 6, loss: 3496.922, accuracy: 0.7888339587835976
epoch: 7, loss: 3603.346, accuracy: 0.7958854613187674
epoch: 8, loss: 3916.773, accuracy: 0.802113867883685
epoch: 9, loss: 4099.809, accuracy: 0.804816737083297


### <a id='keras-generator'></a> E1.6.2.2. **Générateur Keras**<br/>([_Keras generator_](https://imbalanced-learn.org/stable/miscellaneous.html#keras-generator))

Keras provides an higher level API in which a model can be defined and train by calling `fit_generator` method to train the model. To illustrate, we will define a logistic regression model:

---

[**`balanced_batch_generator`**](https://imbalanced-learn.org/stable/references/generated/imblearn.tensorflow.balanced_batch_generator.html#imblearn.tensorflow.balanced_batch_generator) creates a balanced mini-batches generator with the associated number of mini-batches which will be generated:

---

Then, `fit` can be called passing the generator and the step:

---

The second possibility is to use [**`BalancedBatchGenerator`**](https://imbalanced-learn.org/stable/references/generated/imblearn.keras.BalancedBatchGenerator.html#imblearn.keras.BalancedBatchGenerator). Only an instance of this class will be passed to `fit`:

---

##  Exemple de référence

**Porto Seguro: balancing samples in mini-batches with Keras**

### <a id='keras-generator'></a> E1.6.2.2. **Générateur Keras**<br/>([_Keras generator_](https://imbalanced-learn.org/stable/miscellaneous.html#keras-generator))

Keras offre une API de niveau supérieur dans laquelle un modèle peut être défini et entraîné en appelant la méthode `fit_generator` pour entraîner le modèle. Pour illustrer, nous allons définir un modèle de régression logistique :

In [7]:
from tensorflow import keras
y = keras.utils.to_categorical(y, 3)
model = keras.Sequential()
model.add(
    keras.layers.Dense(
        y.shape[1], input_dim=X.shape[1], activation='softmax'
    )
)
model.compile(
    optimizer='sgd', loss='categorical_crossentropy', metrics=['accuracy']
)

[**`balanced_batch_generator`**](https://imbalanced-learn.org/stable/references/generated/imblearn.tensorflow.balanced_batch_generator.html#imblearn.tensorflow.balanced_batch_generator) crée un générateur de mini-lots équilibrés avec le nombre associé de mini-lots qui seront générés :

In [8]:
from imblearn.keras import balanced_batch_generator
training_generator, steps_per_epoch = balanced_batch_generator(
    X, y, sampler=RandomUnderSampler(), batch_size=10, random_state=42
)

Ensuite, `fit` peut être appelé en passant le générateur et l'étape :

In [9]:
callback_history = model.fit(
    training_generator,
    steps_per_epoch=steps_per_epoch,
    epochs=10,
    verbose=1,
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


La deuxième possibilité est d'utiliser [**`BalancedBatchGenerator`**](https://imbalanced-learn.org/stable/references/generated/imblearn.keras.BalancedBatchGenerator.html#imblearn.keras.BalancedBatchGenerator). Seule une instance de cette classe sera passée à `fit` :

In [10]:
from imblearn.keras import BalancedBatchGenerator
training_generator = BalancedBatchGenerator(
    X, y, sampler=RandomUnderSampler(), batch_size=10, random_state=42
)
callback_history = model.fit(
    training_generator,
    steps_per_epoch=steps_per_epoch,
    epochs=10,
    verbose=1,
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


## Exemple de référence

**Porto Seguro: balancing samples in mini-batches with Keras**