# <a id='skl-ext'></a> 1. **Extensions de Scikit-learn**</br>(*Scikit-learn extension*)

# E1. [**..**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/e1_imbalanced_learn.ipynb)<br/>([*Imbalanced Learn*](https://imbalanced-learn.org/stable/user_guide.html))

# Sommaire

- **Volume** : . pages, . exemples, . papiers
- E1.1 Introduction
    - 1.1. API’s of imbalanced-learn samplers
    - 1.2. Problem statement regarding imbalanced data sets
- E1.2. Over-sampling
    - 2.1. A practical guide
        - 2.1.1. Naive random over-sampling
        - 2.1.2. From random over-sampling to SMOTE and ADASYN
        - 2.1.3. Ill-posed examples
        - 2.1.4. SMOTE variants
    - 2.2. Mathematical formulation
        - 2.2.1. Sample generation
        - 2.2.2. Multi-class management
- E1.3. Under-sampling
    - 3.1. Prototype generation
    - 3.2. Prototype selection
        - 3.2.1. Controlled under-sampling techniques
            - 3.2.1.1. Mathematical formulation
        - 3.2.2. Cleaning under-sampling techniques
            - 3.2.2.1. Tomek’s links
            - 3.2.2.2. Edited data set using nearest neighbours
            - 3.2.2.3. Condensed nearest neighbors and derived algorithms
            - 3.2.2.4. Instance hardness threshold
- E1.4. Combination of over- and under-sampling
- E1.5. Ensemble of samplers
    - 5.1. Classifier including inner balancing samplers
        - 5.1.1. Bagging classifier
        - 5.1.2. Forest of randomized trees
        - 5.1.3. Boosting
- E1.6. Miscellaneous samplers
    - 6.1. Custom samplers
    - 6.2. Custom generators
        - 6.2.1. TensorFlow generator
        - 6.2.2. Keras generator
- E1.7. Metrics
    - 7.1. Classification metrics
        - 7.1.1. Sensitivity and specificity metrics
        - 7.1.2. Additional metrics specific to imbalanced datasets
        - 7.1.3. Macro-Averaged Mean Absolute Error (MA-MAE)
        - 7.1.4. Summary of important metrics
    - 7.2. Pairwise metrics
        - 7.2.1. Value Difference Metric
- E1.8. Common pitfalls and recommended practices
    - 8.1. Data leakage
- E1.9. Dataset loading utilities
    - 9.1. Imbalanced datasets for benchmark
    - 9.2. Imbalanced generator
- E1.10. Developer guideline
    - 10.1. Developer utilities
        - 10.1.1. Validation Tools
        - 10.1.2. Deprecation
    - 10.2. Making a release
        - 10.2.1. Major release
        - 10.2.2. Bug fix release
- E1.11. References

- E1.1 Introduction
    - 1.1. API des échantillonneurs imbalanced-learn
    - 1.2. Problème lié aux jeux de données déséquilibrés
- E1.2. Sur-échantillonnage
    - 2.1. Guide pratique
        - 2.1.1. Sur-échantillonnage aléatoire naïf
        - 2.1.2. Du sur-échantillonnage aléatoire à SMOTE et ADASYN
        - 2.1.3. Exemples de problèmes mal posés
        - 2.1.4. Variantes de SMOTE
    - 2.2. Formulation mathématique
        - 2.2.1. Génération d'échantillons
        - 2.2.2. Gestion multi-classes
- E1.3. Sous-échantillonnage
    - 3.1. Génération de prototypes
    - 3.2. Sélection de prototypes
        - 3.2.1. Techniques de sous-échantillonnage contrôlé
            - 3.2.1.1. Formulation mathématique
        - 3.2.2. Techniques de sous-échantillonnage de nettoyage
            - 3.2.2.1. Liens de Tomek
            - 3.2.2.2. Jeu de données édité en utilisant les voisins les plus proches
            - 3.2.2.3. Voisins les plus proches condensés et algorithmes dérivés
            - 3.2.2.4. Seuil de difficulté des instances
- E1.4. Combinaison de sur-échantillonnage et de sous-échantillonnage
- E1.5. Ensemble d'échantillonneurs
    - 5.1. Classifieur incluant des échantillonneurs à équilibrage internes
        - 5.1.1. Classifieur Bagging
        - 5.1.2. Forêt d'arbres aléatoires
        - 5.1.3. Boosting
- E1.6. Échantillonneurs divers
    - 6.1. Échantillonneurs personnalisés
    - 6.2. Générateurs personnalisés
        - 6.2.1. Générateur TensorFlow
        - 6.2.2. Générateur Keras
- E1.7. Métriques
    - 7.1. Métriques de classification
        - 7.1.1. Métriques de sensibilité et spécificité
        - 7.1.2. Métriques supplémentaires spécifiques aux jeux de données déséquilibrés
        - 7.1.3. Erreur absolue moyenne macro-pondérée (MA-MAE)
        - 7.1.4. Résumé des métriques importantes
    - 7.2. Métriques par paires
        - 7.2.1. Métrique de différence de valeur (VDM)
- E1.8. Erreurs courantes et bonnes pratiques recommandées
    - 8.1. Fuite de données
- E1.9. Utilitaires de chargement de jeux de données
    - 9.1. Jeux de données déséquilibrés pour benchmark
    - 9.2. Générateur déséquilibré
- E1.10. Lignes directrices pour les développeurs
    - 10.1. Utilitaires pour les développeurs
        - 10.1.1. Outils de validation
        - 10.1.2. Obsolescence
    - 10.2. Publication d'une version
        - 10.2.1. Version majeure
        - 10.2.2. Correctif de bug
- E1.11. Références

# <a id='introduction'></a> E1.1. **Introduction**<br/>([_Introduction_](https://imbalanced-learn.org/stable/introduction.html#introduction))

## <a id='api-s-of-imbalanced-learn-samplers'></a> E1.1.1. **API des échantillonneurs imbalanced-learns**<br/>([_API’s of imbalanced-learn samplers_](https://imbalanced-learn.org/stable/introduction.html#api-s-of-imbalanced-learn-samplers))

## <a id='problem-statement-regarding-imbalanced-data-sets'></a> E1.1.2. **Problème lié aux jeux de données déséquilibrés**<br/>([_Problem statement regarding imbalanced data sets_](https://imbalanced-learn.org/stable/introduction.html#problem-statement-regarding-imbalanced-data-sets))


# <a id='over-sampling'></a> E1.2. **Sur-échantillonnage**<br/>([_Over-sampling_](https://imbalanced-learn.org/stable/over_sampling.html#over-sampling))

## <a id='a-practical-guide'></a> E1.2.1. **Guide pratique**<br/>([_A practical guide_](https://imbalanced-learn.org/stable/over_sampling.html#a-practical-guide))

### <a id='naive-random-over-sampling'></a> E1.2.1.1. **Sur-échantillonnage aléatoire naïf**<br/>([_Naive random over-sampling_](https://imbalanced-learn.org/stable/over_sampling.html#naive-random-over-sampling))

### <a id='from-random-over-sampling-to-smote-and-adasyn'></a> E1.2.1.2. **Du sur-échantillonnage aléatoire à SMOTE et ADASYN**<br/>([_From random over-sampling to SMOTE and ADASYN_](https://imbalanced-learn.org/stable/over_sampling.html#from-random-over-sampling-to-smote-and-adasyn))

### <a id='ill-posed-examples'></a> E1.2.1.3. **Exemples de problèmes mal posés**<br/>([_Ill-posed examples_](https://imbalanced-learn.org/stable/over_sampling.html#ill-posed-examples))

### <a id='smote-variants'></a> E1.2.1.4. **Variantes de SMOTE**<br/>([_SMOTE variants_](https://imbalanced-learn.org/stable/over_sampling.html#smote-variants))

## <a id='mathematical-formulation'></a> E1.2.2. **Formulation mathématique**<br/>([_Mathematical formulation_](https://imbalanced-learn.org/stable/over_sampling.html#mathematical-formulation))

### <a id='sample-generation'></a> E1.2.2.1. **Génération d'échantillons**<br/>([_Sample generation_](https://imbalanced-learn.org/stable/over_sampling.html#sample-generation))

### <a id='multi-class-management'></a> E1.2.2.2. **Gestion multi-classes**<br/>([_Multi-class management_](https://imbalanced-learn.org/stable/over_sampling.html#multi-class-management))

# <a id='introduction'></a> E1.1. **Introduction**<br/>([_Introduction_](https://imbalanced-learn.org/stable/introduction.html#introduction))

## <a id='api-s-of-imbalanced-learn-samplers'></a> E1.1.1. **API des échantillonneurs imbalanced-learns**<br/>([_API’s of imbalanced-learn samplers_](https://imbalanced-learn.org/stable/introduction.html#api-s-of-imbalanced-learn-samplers))

Les échantillonneurs disponibles suivent l'API de scikit-learn en utilisant l'estimateur de base et en ajoutant une fonctionnalité d'échantillonnage via la méthode `sample` :

**Estimateur :** L'objet de base, implémente une méthode `fit` pour apprendre à partir des données, soit :

```python
estimator = obj.fit(data, targets)
```

**ré-échantillonneur :** Pour ré-échantillonner un ensemble de jeux de données, chaque échantillonneur implémente :

```python
data_resampled, targets_resampled = obj.fit_resample(data, targets)
```

Les échantillonneurs imbalanced-learn acceptent les mêmes entrées que scikit-learn :
* `data`:
    * 2-D [**`list`**](https://docs.python.org/3/library/stdtypes.html#list),
    * 2-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.DataFrame`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame),
    * [**`scipy.sparse.csr_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix) or [**`scipy.sparse.csc_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csc_matrix.html#scipy.sparse.csc_matrix);
* `targets`:
    * 1-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.Series`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series).

La sortie sera du type suivant :
* `data_resampled`:
    * 2-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.DataFrame`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame),
    * [**`scipy.sparse.csr_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix) or [**`scipy.sparse.csc_matrix`**](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csc_matrix.html#scipy.sparse.csc_matrix);
* `targets_resampled`:
    * 1-D [**`numpy.ndarray`**](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html#numpy.ndarray),
    * [**`pandas.Series`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series).

### Entrées/Sortie avec Pandas

Contrairement à scikit-learn, imbalanced-learn prend en charge les entrées/sorties avec Pandas. Par conséquent, si vous fournissez un dataframe, vous obtiendrez également un dataframe en sortie.

### Entrée creuse

Pour les entrées creuses, les données sont converties en représentation Compressed Sparse Rows (CSR) (voir `scipy.sparse.csr_matrix`) avant d'être passées à l'échantillonneur. Pour éviter les copies inutiles en mémoire, il est recommandé de choisir la représentation CSR en amont.

## <a id='problem-statement-regarding-imbalanced-data-sets'></a> E1.1.2. **Problème lié aux jeux de données déséquilibrés**<br/>([_Problem statement regarding imbalanced data sets_](https://imbalanced-learn.org/stable/introduction.html#problem-statement-regarding-imbalanced-data-sets))

La phase d'apprentissage et la prédiction ultérieure des algorithmes d'apprentissage automatique peuvent être affectées par le problème des jeux de données déséquilibrés. Ce problème d'équilibrage correspond à la différence du nombre d'échantillons dans les différentes classes. Nous illustrons l'effet de l'apprentissage d'un classificateur SVM linéaire avec différents niveaux d'équilibrage des classes.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_001.png"
    alt="Fonction de décision du LogisticRegression"
    style="max-width: 50%; height: auto;"/>
</div>

Comme prévu, la fonction de décision du SVM linéaire varie considérablement en fonction du déséquilibre des données. Avec un ratio de déséquilibre plus élevé, la fonction de décision favorise la classe avec le plus grand nombre d'échantillons, généralement appelée classe dominante.

# <a id='over-sampling'></a> E1.2. **Sur-échantillonnage**<br/>([_Sur-échantillonnage_](https://imbalanced-learn.org/stable/over_sampling.html#over-sampling))

## <a id='a-practical-guide'></a> E1.2.1. **Guide pratique**<br/>([_Guide pratique_](https://imbalanced-learn.org/stable/over_sampling.html#a-practical-guide))

Vous pouvez vous référer à l'exemple [**Comparer les échantillonneurs de sur-échantillonnage**](https://imbalanced-learn.org/stable/auto_examples/over-sampling/plot_comparison_over_sampling.html).

### <a id='naive-random-over-sampling'></a> E1.2.1.1. **Sur-échantillonnage aléatoire naïf**<br/>([_Sur-échantillonnage aléatoire naïf_](https://imbalanced-learn.org/stable/over_sampling.html#naive-random-over-sampling))

Une manière de lutter contre ce problème est de générer de nouveaux échantillons pour les classes qui sont sous-représentées. La stratégie la plus naïve consiste à générer de nouveaux échantillons en échantillonnant aléatoirement avec remplacement des échantillons actuellement disponibles. Le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) propose un tel schéma :

In [1]:
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=5000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=3,
    n_clusters_per_class=1,
    weights=[0.01, 0.05, 0.94],
    class_sep=0.8, random_state=0)
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
from collections import Counter
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]

[(0, 4674), (1, 4674), (2, 4674)]


L'ensemble de données augmenté doit être utilisé à la place de l'ensemble de données d'origine pour entraîner un classifieur :

In [2]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_resampled, y_resampled)
# LogisticRegression(...)

Dans la figure ci-dessous, nous comparons les fonctions de décision d'un classifieur entraîné en utilisant l'ensemble de données sur-échantillonné et l'ensemble de données d'origine.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_002.png"
    alt="Fonction de décision de LogisticRegression"
    style="max-width: 75%; height: auto;"/>
</div>

En conséquence, la classe majoritaire ne prend pas le dessus sur les autres classes pendant le processus d'entraînement. Par conséquent, toutes les classes sont représentées par la fonction de décision.

De plus, le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) permet d'échantillonner des données hétérogènes (par exemple, contenant des chaînes de caractères) :

In [4]:
import numpy as np
X_hetero = np.array(
    [['xxx', 1, 1.0], ['yyy', 2, 2.0], ['zzz', 3, 3.0]],
    dtype=object
)
y_hetero = np.array([0, 0, 1])
X_resampled, y_resampled = ros.fit_resample(X_hetero, y_hetero)
print(X_resampled)
# [['xxx' 1 1.0]
#  ['yyy' 2 2.0]
#  ['zzz' 3 3.0]
#  ['zzz' 3 3.0]]
print(y_resampled)
# [0 0 1 1]

[['xxx' 1 1.0]
 ['yyy' 2 2.0]
 ['zzz' 3 3.0]
 ['zzz' 3 3.0]]
[0 0 1 1]


Il fonctionnerait également avec un dataframe pandas :

In [6]:
from sklearn.datasets import fetch_openml
df_adult, y_adult = fetch_openml(
    'adult', version=2, as_frame=True, return_X_y=True, parser='auto')
df_adult.head()  
df_resampled, y_resampled = ros.fit_resample(df_adult, y_adult)
df_resampled.head()  

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,,103497,Some-college,10,Never-married,,Own-child,White,Female,0,0,30,United-States


Si la répétition d'échantillons pose problème, le paramètre `shrinkage` permet de créer un bootstrap lissé. Cependant, les données d'origine doivent être numériques. Le paramètre `shrinkage` contrôle la dispersion des nouveaux échantillons générés. Nous montrons un exemple illustrant que les nouveaux échantillons ne se chevauchent plus une fois qu'un bootstrap lissé est utilisé. Cette manière de générer un bootstrap lissé est également connue sous le nom d'Exemples de Sur-Échantillonnage Aléatoire (ROSE) [MT14].

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_003.png"
    alt="Rééchantillonnage avec RandomOverSampler"
    style="max-width: 75%; height: auto;"/>
</div>

### <a id='from-random-over-sampling-to-smote-and-adasyn'></a> E1.2.1.2. **Du sur-échantillonnage aléatoire à SMOTE et ADASYN**<br/>([_From random over-sampling to SMOTE and ADASYN_](https://imbalanced-learn.org/stable/over_sampling.html#from-random-over-sampling-to-smote-and-adasyn))

Outre l'échantillonnage aléatoire avec remplacement, il existe deux méthodes populaires pour sur-échantillonner les classes minoritaires : (i) la technique de sur-échantillonnage synthétique des classes minoritaires (SMOTE - _Synthetic Minority Oversampling Technique_) [CBHK02] et (ii) la méthode d'échantillonnage synthétique adaptatif (ADASYN - _Adaptive Synthetic_) [HBGL08]. Ces algorithmes peuvent être utilisés de la même manière :

In [7]:
from imblearn.over_sampling import SMOTE, ADASYN
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]
clf_smote = LogisticRegression().fit(X_resampled, y_resampled)
X_resampled, y_resampled = ADASYN().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4673), (1, 4662), (2, 4674)]
clf_adasyn = LogisticRegression().fit(X_resampled, y_resampled)

[(0, 4674), (1, 4674), (2, 4674)]
[(0, 4673), (1, 4662), (2, 4674)]


La figure ci-dessous illustre la principale différence entre les différentes méthodes de sur-échantillonnage.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_004.png"
    alt="Comparaison des méthodes de sur-échantillonnage"
    style="max-width: 50%; height: auto;"/>
</div>

### <a id='ill-posed-examples'></a> E1.2.1.3. **Exemples de problèmes mal posés**<br/>([_Ill-posed examples_](https://imbalanced-learn.org/stable/over_sampling.html#ill-posed-examples))

Tandis que le [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) effectue le sur-échantillonnage en dupliquant certains des échantillons originaux de la classe minoritaire, [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) et [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) génèrent de nouveaux échantillons par interpolation. Cependant, les échantillons utilisés pour l'interpolation/la génération de nouveaux échantillons synthétiques diffèrent. En effet, [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) se concentre sur la génération, à l'aide d'un classifieur k-NN, d'échantillons proches des échantillons originaux mal classés, tandis que l'implémentation de base de [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) ne fait aucune distinction entre les échantillons faciles et difficiles à classer suivant la règle des voisins les plus proches. Par conséquent, la fonction de décision trouvée lors de l'entraînement sera différente entre les deux algorithmes.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_005.png"
    alt="Comparaison ADASYN, SMOTE et absence de ré-échantillonnage"
    style="max-width: 75%; height: auto;"/>
</div>

Les particularités de l'échantillonnage de ces deux algorithmes peuvent entraîner des comportements particuliers, comme le montre l'exemple ci-dessous.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_006.png"
    alt="Particularités de la sur-échantillonnage avec SMOTE et ADASYN"
    style="max-width: 50%; height: auto;"/>
</div>

### <a id='smote-variants'></a> E1.2.1.4. **Variantes de SMOTE**<br/>([_SMOTE variants_](https://imbalanced-learn.org/stable/over_sampling.html#smote-variants))

SMOTE pourrait connecter des valeurs aberrantes (outliers) avec les valeurs atypiques (inliers), tandis qu'ADASYN pourrait se concentrer uniquement sur les valeurs aberrantes, ce qui, dans les deux cas, pourrait conduire à une fonction de décision sous-optimale. À cet égard, SMOTE propose trois options supplémentaires pour générer des échantillons. Ces méthodes se concentrent sur les échantillons proches de la frontière de la fonction de décision optimale et généreront des échantillons dans la direction opposée à la classe des voisins les plus proches. Ces variantes sont présentées dans la figure ci-dessous.

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_comparison_over_sampling_007.png"
    alt="Fonction de décision et ré-échantillonnage à l'aide des variantes de SMOTE"
    style="max-width: 50%; height: auto;"/>
</div>

Les algorithmes [**`BorderlineSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.BorderlineSMOTE.html#imblearn.over_sampling.BorderlineSMOTE) [HWM05], [**`SVMSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SVMSMOTE.html#imblearn.over_sampling.SVMSMOTE) [NCK09], et [**`KMeansSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.KMeansSMOTE.html#imblearn.over_sampling.KMeansSMOTE) [LDB17] sont des variantes de l'algorithme SMOTE :

In [8]:
from imblearn.over_sampling import BorderlineSMOTE
X_resampled, y_resampled = BorderlineSMOTE().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 4674), (1, 4674), (2, 4674)]

[(0, 4674), (1, 4674), (2, 4674)]


Lorsqu'il s'agit de données mixtes, telles que des caractéristiques continues et catégorielles, aucune des méthodes présentées (à l'exception de la classe [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler)) ne peut traiter les caractéristiques catégorielles. La [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) [CBHK02] est une extension de l'algorithme SMOTE qui traite différemment les données catégorielles :

In [9]:
# create a synthetic data set with continuous and categorical features
rng = np.random.RandomState(42)
n_samples = 50
X = np.empty((n_samples, 3), dtype=object)
X[:, 0] = rng.choice(['A', 'B', 'C'], size=n_samples).astype(object)
X[:, 1] = rng.randn(n_samples)
X[:, 2] = rng.randint(3, size=n_samples)
y = np.array([0] * 20 + [1] * 30)
print(sorted(Counter(y).items()))
# [(0, 20), (1, 30)]

[(0, 20), (1, 30)]


Dans ce jeu de données, les première et dernière caractéristiques sont considérées comme des caractéristiques catégorielles. Il est nécessaire de fournir cette information à [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) via les paramètres `categorical_features`, que ce soit en passant les indices, les noms des caractéristiques lorsque `X` est un DataFrame pandas, un masque booléen marquant ces caractéristiques, ou en se basant sur l'inférence du type (`dtype`) si les colonnes utilisent le [**`pandas.CategoricalDtype`**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.CategoricalDtype.html#pandas.CategoricalDtype) :

In [11]:
from imblearn.over_sampling import SMOTENC
smote_nc = SMOTENC(categorical_features=[0, 2], random_state=0)
X_resampled, y_resampled = smote_nc.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 30), (1, 30)]
print(X_resampled[-5:])
# [['A' 0.5246469549655818 2]
# ['B' -0.3657680728116921 2]
# ['B' 0.9344237230779993 2]
# ['B' 0.3710891618824609 2]
# ['B' 0.3327240726719727 2]]

[(0, 30), (1, 30)]
[['A' 0.5246469549655818 2]
 ['B' -0.3657680728116921 2]
 ['B' 0.9344237230779993 2]
 ['B' 0.3710891618824609 2]
 ['B' 0.3327240726719727 2]]


Par conséquent, on peut voir que les échantillons générés dans les première et dernière colonnes appartiennent aux mêmes catégories que celles présentées initialement sans aucune interpolation supplémentaire.

Cependant, [**`SMOTENC`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTENC.html#imblearn.over_sampling.SMOTENC) ne fonctionne que lorsque les données sont constituées d'une combinaison de caractéristiques numériques et catégorielles. Si les données sont composées uniquement de données catégorielles, on peut utiliser la variante [**`SMOTEN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTEN.html#imblearn.over_sampling.SMOTEN) [CBHK02]. L'algorithme change de deux manières :
- La recherche des voisins les plus proches ne repose pas sur la distance euclidienne. En effet, la métrique de différence de valeur (VDM - _Value Difference Metric_), également implémentée dans la classe `ValueDifferenceMetric`, est utilisée.
- Un nouvel échantillon est généré où chaque valeur de caractéristique correspond à la catégorie la plus courante observée dans les échantillons voisins appartenant à la même classe.

Prenons l'exemple suivant :

In [12]:
import numpy as np
X = np.array(["green"] * 5 + ["red"] * 10 + ["blue"] * 7,
             dtype=object).reshape(-1, 1)
y = np.array(["apple"] * 5 + ["not apple"] * 3 + ["apple"] * 7 +
             ["not apple"] * 5 + ["apple"] * 2, dtype=object)

Nous générons un jeu de données associant une couleur au fait d'être ou non une pomme. Nous associons fortement `"green"` et `"red"` au fait d'être une pomme. La classe minoritaire étant `"not apple"`, nous nous attendons à ce que de nouvelles données générées appartiennent à la catégorie `"bleu"` :

In [13]:
from imblearn.over_sampling import SMOTEN
sampler = SMOTEN(random_state=0)
X_res, y_res = sampler.fit_resample(X, y)
X_res[y.size:]
y_res[y.size:]
# array(['not apple', 'not apple', 'not apple', 'not apple', 'not apple',
#        'not apple'], dtype=object)

array(['not apple', 'not apple', 'not apple', 'not apple', 'not apple',
       'not apple'], dtype=object)

## <a id='mathematical-formulation'></a> E1.2.2. **Formulation mathématique**<br/>([_Mathematical formulation_](https://imbalanced-learn.org/stable/over_sampling.html#mathematical-formulation))

### <a id='sample-generation'></a> E1.2.2.1. **Génération d'échantillons**<br/>([_Sample generation_](https://imbalanced-learn.org/stable/over_sampling.html#sample-generation))

[**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) et [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) utilisent le même algorithme pour générer de nouveaux échantillons. En considérant un échantillon $x_i$, un nouvel échantillon $x_{new}$ sera généré en prenant en compte ses $k$ plus proches voisins (correspondant à `k_neighbors`). Par exemple, les 3 plus proches voisins sont inclus dans le cercle bleu comme illustré dans la figure ci-dessous. Ensuite, l'un de ces plus proches voisins $x_{zi}$ est sélectionné et un échantillon est généré comme suit :

$$x_{new} = x_i + \lambda \times (x_{zi} - x_i)$$

où $\lambda$ est un nombre aléatoire dans la plage $[0, 1]$. Cette interpolation créera un échantillon sur la ligne entre $x_i$ et $x_{zi}$, comme illustré dans l'image ci-dessous :

<div style="background-color: white; color: black; text-align: center;">
  <img
    src="https://imbalanced-learn.org/stable/_images/sphx_glr_plot_illustration_generation_sample_001.png"
    alt="Stratégie d'échantillonnage"
    style="max-width: 50%; height: auto;"/>
</div>

SMOTE-NC change légèrement la manière dont un nouvel échantillon est généré en effectuant quelque chose de spécifique pour les caractéristiques catégorielles. En fait, les catégories d'un nouvel échantillon généré sont décidées en choisissant la catégorie la plus fréquente parmi les voisins les plus proches présents lors de la génération.

> **Avertissement** Soyez conscient que SMOTE-NC n'est pas conçu pour fonctionner uniquement avec des données catégorielles.

Les autres variantes de SMOTE et ADASYN diffèrent les unes des autres en sélectionnant les échantillons $x_i$ avant de générer les nouveaux échantillons.

Le SMOTE **régulier** - cf. l'objet [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) - n'impose aucune règle et choisira de manière aléatoire tous les $x_i$ possibles disponibles.

Le SMOTE **borderline** - cf. [**`BorderlineSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.BorderlineSMOTE.html#imblearn.over_sampling.BorderlineSMOTE) avec les paramètres `kind='borderline-1'` et `kind='borderline-2'` - classe chaque échantillon $x_i$ comme (i) du bruit (c'est-à-dire que tous les voisins les plus proches sont d'une classe différente de celle de $x_i$), (ii) en danger (c'est-à-dire qu'au moins la moitié des voisins les plus proches sont de la même classe que $x_i$), ou (iii) sûr (c'est-à-dire que tous les voisins les plus proches sont de la même classe que $x_i$). Le SMOTE **Borderline-1** et **Borderline-2** utilise les échantillons en danger pour générer de nouveaux échantillons. Dans le **Borderline-1** SMOTE, $x_{zi}$ appartient à la même classe que celle de l'échantillon $x_i$. En revanche, le **Borderline-2** SMOTE prend en compte $x_{zi}$ qui peut être de n'importe quelle classe.

Le SMOTE **SVM** - cf. [**`SVMSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SVMSMOTE.html#imblearn.over_sampling.SVMSMOTE) - utilise un classifieur SVM pour trouver des vecteurs de support et génère des échantillons en les prenant en compte. Notez que le paramètre `C` du classifieur SVM permet de sélectionner plus ou moins de vecteurs de support.

Pour le SMOTE borderline et SVM, un voisinage est défini à l'aide du paramètre `m_neighbors` pour décider si un échantillon est en danger, sûr ou du bruit.

Le SMOTE **KMeans** - cf. [**`KMeansSMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.KMeansSMOTE.html#imblearn.over_sampling.KMeansSMOTE) - utilise une méthode de regroupement KMeans avant d'appliquer le SMOTE. Le regroupement regroupe des échantillons ensemble et génère de nouveaux échantillons en fonction de la densité de la grappe.

ADASYN fonctionne de manière similaire au SMOTE régulier. Cependant, le nombre d'échantillons générés pour chaque échantillon est proportionnel au nombre d'échantillons qui ne sont pas de la même classe que dans un voisinage donné. Par conséquent, plus d'échantillons seront générés dans la zone où la règle du voisinage le plus proche n'est pas respectée. Le paramètre `m_neighbors` est équivalent à `k_neighbors` dans [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE).

### <a id='multi-class-management'></a> E1.2.2.2. **Gestion multi-classes**<br/>([_Multi-class management_](https://imbalanced-learn.org/stable/over_sampling.html#multi-class-management))

Tous les algorithmes peuvent être utilisés tant avec des classes multiples qu'avec une classification binaire. [**`RandomOverSampler`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html#imblearn.over_sampling.RandomOverSampler) ne nécessite aucune information inter-classes lors de la génération d'échantillons. Par conséquent, chaque classe cible est ré-échantillonnée indépendamment. En revanche, [**`ADASYN`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN) et [**`SMOTE`**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#imblearn.over_sampling.SMOTE) ont besoin d'informations concernant le voisinage de chaque échantillon utilisé pour la génération d'échantillons. Ils utilisent une approche un-contre-tous (OvR) en sélectionnant chaque classe cible et en calculant les statistiques nécessaires par rapport au reste du jeu de données, qui est regroupé dans une seule classe.