Datos Anómalos
==============

Un modelo de aprendizaje automatizado aprende a partir de datos conocidos, por lo que es importante que los datos de entrenamiento sean representativos de los datos que se encontrarán en el mundo real. Si los datos de entrenamiento contienen valores atípicos, el modelo puede aprender a predecir valores atípicos. Esto puede ser un problema si los valores atípicos son datos incorrectos o si son datos correctos pero poco frecuentes.

Para mejorar la calidad de las predicciones de un modelo, es importante identificar y eliminar los valores atípicos de los datos de entrenamiento. Esto se puede realizar de varias formas, aquí veremos como utilizar el método de `Local Outlier Factor` para asignar a cada dato un valor de anomalía. Luego, y a partir de este dato, podemos eliminar los datos que tengan un valor de anomalía superior a un umbral.

## Python

Carguemos un conjunto de datos e identifiquemos los valores atípicos.

In [23]:
import pandas as pd
import numpy as np
from sklearn.neighbors import LocalOutlierFactor

In [24]:
dataset: pd.DataFrame = pd.read_csv('./datasets/clean.csv')
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 572 entries, 0 to 571
Data columns (total 29 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   572 non-null    object 
 1   id        572 non-null    int64  
 2   age       572 non-null    int64  
 3   sex       572 non-null    int64  
 4   painloc   572 non-null    float64
 5   painexer  572 non-null    float64
 6   trestbps  572 non-null    float64
 7   htn       572 non-null    float64
 8   chol      572 non-null    float64
 9   fbs       572 non-null    float64
 10  restecg   572 non-null    float64
 11  ekgmo     572 non-null    int64  
 12  ekgday    572 non-null    int64  
 13  dig       572 non-null    float64
 14  prop      572 non-null    float64
 15  nitr      572 non-null    float64
 16  pro       572 non-null    float64
 17  diuretic  572 non-null    float64
 18  thaldur   572 non-null    float64
 19  tpeakbpd  572 non-null    float64
 20  oldpeak   572 non-null    float6

Este conjunto de datos no tiene valores faltantes, pero desconocemos si tiene valores atípicos. Para calular el valor de anomalía de cada dato, utilizaremos la clase `LocalOutlierFactor` de la librería `sklearn`.

In [25]:
lof = LocalOutlierFactor(n_neighbors=20)
lof.fit(dataset.drop(['id', 'num', 'dataset'], axis=1))
dataset['outlier'] = -lof.negative_outlier_factor_

print(dataset.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 572 entries, 0 to 571
Data columns (total 30 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   572 non-null    object 
 1   id        572 non-null    int64  
 2   age       572 non-null    int64  
 3   sex       572 non-null    int64  
 4   painloc   572 non-null    float64
 5   painexer  572 non-null    float64
 6   trestbps  572 non-null    float64
 7   htn       572 non-null    float64
 8   chol      572 non-null    float64
 9   fbs       572 non-null    float64
 10  restecg   572 non-null    float64
 11  ekgmo     572 non-null    int64  
 12  ekgday    572 non-null    int64  
 13  dig       572 non-null    float64
 14  prop      572 non-null    float64
 15  nitr      572 non-null    float64
 16  pro       572 non-null    float64
 17  diuretic  572 non-null    float64
 18  thaldur   572 non-null    float64
 19  tpeakbpd  572 non-null    float64
 20  oldpeak   572 non-null    float6

Ahora lo que resta es eliminar las columnas que tengan un valor de anomalía superior a un umbral. Utilizemos un umbral de 1.3.

In [26]:
dataset = dataset[dataset['outlier'] <= 1.3]
dataset = dataset.drop(['outlier'], axis=1)
print(dataset.info())

<class 'pandas.core.frame.DataFrame'>
Index: 522 entries, 0 to 571
Data columns (total 29 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   dataset   522 non-null    object 
 1   id        522 non-null    int64  
 2   age       522 non-null    int64  
 3   sex       522 non-null    int64  
 4   painloc   522 non-null    float64
 5   painexer  522 non-null    float64
 6   trestbps  522 non-null    float64
 7   htn       522 non-null    float64
 8   chol      522 non-null    float64
 9   fbs       522 non-null    float64
 10  restecg   522 non-null    float64
 11  ekgmo     522 non-null    int64  
 12  ekgday    522 non-null    int64  
 13  dig       522 non-null    float64
 14  prop      522 non-null    float64
 15  nitr      522 non-null    float64
 16  pro       522 non-null    float64
 17  diuretic  522 non-null    float64
 18  thaldur   522 non-null    float64
 19  tpeakbpd  522 non-null    float64
 20  oldpeak   522 non-null    float64
 21

El conjunto de datos se reducio de 572 ejemplos a 522 ejemplos.

## RapidMiner

Dentro de RapidMiner, el proceso es similar. Utilizamos primero el operador `Detect Outliers (LOF)`  para obtener el valor de anomalía de cada dato.

![Detect Outliers (LOF)](../images/da-01.png)

Luego utilizamos el operador `Filter Examples` para eliminar los datos que tengan un valor de anomalía superior al umbral predeterminado. En nuestro caso 1.3.

![Filter Examples](../images/da-02.png)

El resultado en este caso es un conjunto de datos de 458 ejemplos.

![Filter Examples](../images/da-03.png)