# Scikit-learn e Imbalanced-learn para problemas de clasificación no balanceados, selección de instancias y eliminación de ruido

## Técnicas de muestreo para problemas de clasificación no balanceados

Para realizar los diferentes tipos de muestreo vamos a utilizar un librería de Python llamada [**imbalanced-learn**](https://pypi.python.org/pypi/imbalanced-learn). Esta librería no es nativa de Scikit-learn pero es totalmente compatible. Por este motivo la podemos utilizar al igual que todas las funcionalidades de Scikit-learn. La [*API*](https://imbalanced-learn.org/stable/references/index.html#api) (se muestran todas las clases y sus características) para los métodos de muestreo para problemas de clasificación no balanceados. 

En primer lugar vamos a comentar la **técnica RUS**. La clase correspondiente a dicha técnica se llama [**RandomUnderSampler**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    rus = RandomUnderSampler(sampling_strategy=estrategia, random_state=semilla,replacement=reemplazo)

Los parámetros de entrada del método son:
* estrategia: determina la forma de realizar el remuestreo. Puede tomar diversos valores:
    * Número real (entre 0 y 1): determina el ratio entre el número de ejemplos de la clase minoritaria sobre el de la clase mayoritaria ($\frac{NumEjClasMin}{NumEjClasMay}$) tras realizar el remuestreo.
    * String: determina la clase a ser remuestreada. Las opciones son:
        * 'majority': remuestrea solamwente la clase mayoritaria
        * 'not minority': remuestrea todas las clases menos la minoritaria.
        * 'not majority': remuestrea todas las clases menos la mayoritaria.
        * 'all': remuestrea todas las clases (en este caso al número de ejemplos de la clase que tenga menos).
        * 'auto': equivale a 'not minority'. Opción por defecto.
    * Diccionario: determina el número de ejemplos (valor) a obtener tras aplicar el remuestreo de cada clase (clave).
* reemplazo: valor booleano que determina si el muestreo se realiza con reemplazamiento o no. Por defecto está a False.
* semilla: valor que determina la semilla a utilizar para garantizar la reproducibilidad de los resultados.

Una vez generado el objeto de la clase RandomUnderSampler se pueden ejecutar los siguientes métodos:
* fit: realiza el aprendizaje. Se le pasan como parámetros de entrada tanto los datos de entrada (X) como los de salida (y).
* fit_resample: realiza el aprendizaje y después aplica el remuestreo del dataset. Se le pasan como parámetros de entrada tanto los datos de entrada (X) como los de salida (y).

NOTA IMPORTANTE: las clases para realizar muestreo no tiene método resample solo. El motivo es que de este modo queda claro que solamente se puede aplicar estas técnicas para entrenar, con los datos de entrenamiento, y nunca en caso contrario (conjuntos de validación y test o cuando se invoca el método *predict* de una Pipeline).

Los parámetros de salida del método sample son:
* X_sampled: variables de entrada muestreadas.
* y_sampled: variable de salida muestreada.

Además, se puede acceder a la lista de índices con los ejemplos muestreados (seleccionados) mediante el atributo *sample_indices_* del objeto de la clase entrenado y con el que se ha hecho el muestreo (*fit_resample*).

**Técnica Tomek Links**, su clase se llama [**TomekLinks**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.TomekLinks.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    TomekLinks(sampling_strategy=estrategia)

La explicación del argumento de entrada, los métodos del objeto generado y las salidas de la técnica son las mismas que hemos explicado anteriormente.

**Técnica CNN**, su clase se llama [**CondensedNearestNeighbour**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.CondensedNearestNeighbour.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    CondensedNearestNeighbour(sampling_strategy=estrategia, n_neighbors=numeroVecinos, random_state=semilla)

Hay un nuevo argumento de entrada que es 
* numeroVecinos: determina el número de vecinos a tener en cuenta, por defecto es 1 (None).

El resto de parámetros de entrada, los métodos del objeto generado y las salidas de la técnica son las mismas que hemos explicado anteriormente. 

**Técnica OSS**, su clase se llama [**OneSidedSelection**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.OneSidedSelection.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    OneSidedSelection(sampling_strategy=estrategia, n_neighbors=numeroVecinos, random_state=semilla)

Los parámetros de entrada, los métodos del objeto generado y las salidas de la técnica son las misma que hemos explicado anteriormente.

**Técnica NCL**, su clase se llama [**NeighbourhoodCleaningRule**](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NeighbourhoodCleaningRule.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    NeighbourhoodCleaningRule(sampling_strategy=estrategia, n_neighbors=numeroVecinos)

Los argumentos de entrada, los métodos del objeto generado y las salidas de la técnica son las misma que hemos explicado anteriormente.

**Técnica ROS**, su clase se llama [**RandomOverSampler**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    RandomOverSampler(sampling_strategy=estrategia, random_state=semilla)

Los argumentos de entrada, los métodos del objeto generado y las salidas de la técnica son las mismas que hemos explicado anteriormente. Al ser una técnica de over-sampling, no tiene mucho sentido obtener los ejemplos muestreados y la opción por defecto del argumento *sampling_strategy* pasa a ser *not majority*.

**Técnica SMOTE**, su clase se llama [**SMOTE**](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    SMOTE(sampling_strategy=estrategia, n_neighbors=numeroVecinos, random_state=semilla)

Los argumentos de entrada, los métodos del objeto generado y las salidas de la técnica son las mismas que hemos explicado anteriormente. La opción por defecto del argumento *sampling_strategy* pasa a ser *not majority*.

**Técnica híbrida SMOTE con Tomek Links**, su clase se llama [**SMOTETomek**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTETomek.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    SMOTETomek(sampling_strategy=estrategia, random_state=semilla)

Los argumentos de entrada, los métodos del objeto generado y las salidas de la técnica son las mismas que hemos explicado anteriormente. La opción por defecto del argumento *sampling_strategy* pasa a ser *not majority*.

**Técnica híbrida SMOTE con ENN**, su clase se llama [**SMOTEENN**](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html). La llamada al constructor de la clase y sus principales parámetros son los siguientes:

    SMOTEENN(sampling_strategy=estrategia, random_state=semilla)
    
El parámetro de entrada, los métodos del objeto generado y las salidas de la técnica son las misma que hemos explicado anteriormente. La opción por defecto del argumento *sampling_strategy* pasa a ser *not majority*.

Al igual que hemos visto en prácticas anteriores, podemos crear un flujo de técnicas a aplicar para resolver el problema. Para ello se utilizan las **Pipelines**. 

En este caso, los clases de las técnicas de muestreo no tienen el método *transform* sino que tienen el método *fit_resample*. Por ello, las pipelines de Scikit-learn no nos valen y tenemos que utilizar las [*Pipelines*](https://imbalanced-learn.org/stable/references/generated/imblearn.pipeline.Pipeline.html) de la librería imbalanced-learn (funcionan igual que las de Scikit-learn pero también dan soporte a los métodos de imbalanced-learn).

    from imblearn.pipeline import Pipeline

Las medidas de rendimiento para evaluar problemas de clasificación no balanceados son diferentes al accuracy. Unas de las más habituales son:
* Media geométrica entre el porcentaje de aciertos de la clase positiva y el de la negativa. Para obtener dicho redimiento se debe utilizar la función [*geometric_mean_score*](https://imbalanced-learn.org/stable/references/generated/imblearn.metrics.geometric_mean_score.html) ofrecida en la librería *imblearn.metrics*. 
* Fscore, que es la media harmónica entre el porcentaje de ejemplos correctamente clasificados de la clase positiva y el porcentaje de ejemplos acertados cuando el clasificador predice clase positiva. La clase de *Scikit-learn* para obtener el Fscore se lama [*f1_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html).

También se puede ver un resumen del rendimiento, dado por varias métricas, en cada clase y en global (macro: media aritmética: weighted: media poderada por el porcentaje de ejemplos de cada clase). Para ello, se puede utilizar la función [*classification_report_imbalanced*](https://imbalanced-learn.org/stable/references/generated/imblearn.metrics.classification_report_imbalanced.html) ofrecida en la librería *imblearn.metrics*. 
    
Los parámetros de entrada de todas las funciones son los mismos que para la función *accuracy_score*. Es decir, las clases reales y las clases predichas por el clasificador (en ese orden).

## Técnicas de selección de instancias

Para realizar procesos de selección de instancias podemos utilizar las técnicas de muestreo de datos para problemas de clasificación no balanceados. En concreto, se puede utilizar las técnicas que valgan tanto para acometer dicho muestreo como para realizar selección de instancias (independientemente de la clase) que estén implementadas en *imbalanced-learn*. Para ello, lo único que se debe determinar en el constructor es la estrategia de muestreo, parámetro *sampling_strategy* de las clases enteriores al que se debe asginar el valor *all*. De este modo muestreará los ejemplos de todas las clases (todos los ejemplos).

## Técnicas de eliminación de ruido

Como hemos comentado en clase de teoría, algunas de las técnicas de selección de instancias están centradas en eliminar ruido. Por tanto, lo comentado en el apartado anterior sería válido. No obstante, vamos a describir más en concreto 3 técnicas:
* [*Tomek Links*](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.TomekLinks.html), cuya clase ha sido explicada anteriormente. Lo único que hay que modificar para que realice un proceso de eliminación de ruido es que elimine ejemplos de las dos clases. Para ello, se debe asignar el parámetro *sampling_strategy* a *all*.
* [*EditedNearestNeighbours*](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.EditedNearestNeighbours.html) (ENN). La clase es similar a las comentadas en los métodos de under-sampling. Para que funcione como método de eliminación de ruido se debe elegir la misma estragia de muestreo que se ha explicado con Tomek Links y para que funcione como se ha explicado en clase de teoría se debe establecer el parámetro *kind_sel* a *mode*, es decir, eliminará un ejemplo cuando se falle (no hace falta que todos sean de la misma clase que el ejemplo a estudiar, con que se falle es suficiente). También se podría variar el número de vecinos a considerar mediante el parámetro *n_neighbors*, cuyo valor por defecto es 3.
* [*AllKNN*](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.AllKNN.html). La clase es similar a las comentada para ENN y los parámetros se deben fijar del mismo modo.