# ¿Qué son los Outliers?

Es interesante ver las traducciones de “outlier” -según su contexto- en inglés:

* Atípico
* Destacado
* Excepcional
* Anormal
* Valor Extremo, Valor anómalo, valor aberrante!!

Eso nos da una idea, ¿no?

Es decir, que los outliers en nuestro dataset serán los valores que se “escapan al rango en donde se concentran la mayoría de muestras”. Según Wikipedia son las muestras que están distantes de otras observaciones.


# Outliers Buenos vs Outliers Malos
Los Outliers pueden significar varias cosas:

1. _ERROR_: Si tenemos un grupo de “edades de personas” y tenemos una persona con 160 años, seguramente sea un error de carga de datos. En este caso, la detección de outliers nos ayuda a detectar errores.

2. _LIMITES_: En otros casos, podemos tener valores que se escapan del “grupo medio”, pero queremos mantener el dato modificado, para que no perjudique al aprendizaje del modelo de ML.

3. _Punto de Interés_: puede que sean los casos “anómalos” los que queremos detectar y que sean nuestro objetivo (y no nuestro enemigo!)

Muchas veces es sencillo identificar los outliers en gráficas. Veamos ejemplos de Outliers en 1, 2 y 3 dimensiones.

# Detección de Outliers
¿Y por qué nos interesa detectar esos Outliers? Por que pueden afectar considerablemente a los resultados que pueda obtener un modelo de Machine Learning… Para mal… ó para bien! Por eso hay que detectarlos, y tenerlos en cuenta. Por ejemplo en Regresión Lineal ó algoritmos de Ensamble puede tener un impacto negativo en sus predicciones.

## Outliers en 1 Dimension

Si analizáramos una sola variable, por ejemplo “edad”, veremos donde se concentran la mayoría de muestras y los posibles valores “extremos”.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from math import pi

In [None]:
# %matplotlib notebook

edades = np.array([22,22,23,23,23,23,26,27,27,28,30,30,30,30,31,32,33,34,80])
edad_unique, counts = np.unique(edades, return_counts=True) # Sin repetir valores
sizes = counts*100
colors = ['blue']*len(edad_unique)
colors[-1] = 'red'

plt.axhline(1, color='k', linestyle='--') # Agrega linea hotizontal
plt.scatter(edad_unique, np.ones(len(edad_unique)), s=sizes, color=colors)
plt.yticks([])
plt.show()

En azul los valores donde se concentra la mayoría de nuestras filas. En rojo un outlier, ó “valor extremo”.

En el código, importamos librerías, creamos un array de edades con Numpy y luego contabilizamos las ocurrencias.

Al graficar vemos donde se concentran la mayoría de edades, entre 20 y 35 años. Y una muestra aislada con valor 80.

## Outliers en 2 Dimensiones

Ahora supongamos que tenemos 2 variables: edad e ingresos. Hagamos una gráfica en 2D. Además, usaremos una fórmula para trazar un círculo que delimitará los valores outliers: Los valores que superen el valor de la “media más 2 desvíos estándar” (el área del círculo) quedarán en rojo.

In [None]:
salario_anual_miles = np.array([16,20,15,21,19,17,33,22,31,32,56,30,22,31,30,16,2,22,23])
media = (salario_anual_miles).mean()
std_x = (salario_anual_miles).std()*2
media_y = (edades).mean()
std_y = (edades).std()*2

colors = ['blue']*len(salario_anual_miles)
for index, x in enumerate(salario_anual_miles):
    if abs(x-media) > std_x:
        colors[index] = 'red'
        
for index, x in enumerate(edades):
    if abs(x-media_y) > std_y:
        colors[index] = 'red'

plt.scatter(edades, salario_anual_miles, s=100, color=colors)
plt.axhline(media, color='k', linestyle='--')
plt.axvline(media_y, color='k', linestyle='--')

v=media     #y-position of the center
u=media_y    #x-position of the center
b=std_x     #radius on the y-axis
a=std_y    #radius on the x-axis

t = np.linspace(0, 2*pi, 100)
plt.plot( u+a*np.cos(t) , v+b*np.sin(t) ) # dibuja el circulo

plt.xlabel('Edad')
plt.ylabel('Salario Anual (miles)')
plt.show()

Dentro del circulo azul, los valores que están en la media y en rojo los outliers: 3 valores que superan en más de 2 veces el desvío estándar.

Veamos -con la ayuda de seaborn-, _la línea de tendencia de la misma distribución_ con y sin outliers:

### Como afectan los Outliers

In [None]:
import seaborn as sns

#CON OUTLIERS: La línea de tendencia se mantiene plana sobre todo por el outlier de la edad

sns.set(color_codes=True)
sns.regplot(x=edades, y=salario_anual_miles)

In [None]:
# SIN OUTLIERS: Al quitar los outliers la tendencia empieza a tener pendiente

edades_fix=[]
salario_anual_miles_fix=[]

for index, x in enumerate(salario_anual_miles):
    y= edades[index]
    if abs(x-media) > std_x or abs(y-media_y) > std_y:
        pass
    else:
        edades_fix.append(y)
        salario_anual_miles_fix.append(x)
        
sns.regplot(x=np.array(edades_fix), y=np.array(salario_anual_miles_fix))

Con esto nos podemos dar una idea de qué distinto podría resultar entrenar un modelo de Machine Learning con ó sin esas muestras anormales.

## Outliers en 3D

Vamos viendo que algunas de las muestras del dataset inicial van quedando fuera!

¿Qué pasa si añadimos una 3ra dimensión nuestro dataset? Por ejemplo, la dimensión de “compras por mes” de cada usuario.

In [None]:
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(figsize=(7,7))

ax = fig.add_subplot(projection='3d')

compras_mes = np.array([1,2,1,20,1,0,3,2,3,0,5,3,2,1,0,1,2,2,2])
media_z = (compras_mes).mean()
std_z = (compras_mes).std()*2

for index, x in enumerate(compras_mes):
    if abs(x-media_z) > std_z:
        colors[index] = 'red'

ax.scatter(edades, salario_anual_miles, compras_mes, s=20, c=colors)
plt.xlabel('Edad')
plt.ylabel('Salario Anual (miles)')
ax.set_zlabel('Compras mensuales')

plt.show()

Vemos en 3 dimensiones que hay valores que escapan a la _distribución normal_. Valores atípicos en rojo.

En el caso de las compras mensuales, vemos que aparece un nuevo “punto rojo” en el eje Z. Debemos pensar si es un usuario que queremos descartar ó que por el contrario, nos interesa analizar.

### Outliers en N-dimensiones

La realidad es que en los modelos con los que trabajamos constan de muchas dimensiones, podemos tener 30, 100 ó miles. Entonces ya no parece tan sencillo visualizar los outliers.

Podemos seguir detectando los outliers “a ciegas” y manejarlos. O mediante una librería (más adelante se comenta).

## Outliers usando Boxplots

Una gráfica bastante interesante de conocer es la de los _Boxplots_, muy utilizados en el mundo financiero. En nuestro caso, podemos visualizar las variables y en esa “cajita” veremos donde se concentra el 50 por ciento de nuestra distribución (percentiles 25 a 75), los valores mínimos y máximos (las rayas en “T”) y -por supuesto- los outliers, esos “valores extraños” y alejados.

In [None]:
green_diamond = dict(markerfacecolor='g', marker='D')
fig, ax = plt.subplots()
ax.set_title('Boxplot por Edades')
ax.boxplot(edades, flierprops=green_diamond, labels=["Edad"])

In [None]:
green_diamond = dict(markerfacecolor='g', marker='D')
fig, ax = plt.subplots()
ax.set_title('Boxplot por Salario')
ax.boxplot(salario_anual_miles, flierprops=green_diamond, labels=["Salarios"])

In [None]:
green_diamond = dict(markerfacecolor='g', marker='D')
fig, ax = plt.subplots()
ax.set_title('Boxplot por Compras')
ax.boxplot(compras_mes, flierprops=green_diamond, labels=["Compras"])

Ese diamante verde está muy alejado de nuestra media!

# Una vez detectados, ¿qué hago?

Según la lógica de negocio podemos actuar de una manera u otra.

Por ejemplo podríamos decidir:

* Las edades fuera de la distribución normal, eliminar.
* El salario que sobrepasa el límite, asignar el valor máximo (media + 2 sigmas).
* Las compras mensuales, mantener sin cambios.

# Outliers usando Libreria Pyod

En el código utilicé una medida conocida para la detección de outliers que puede servir: _la media de la distribución más 2 sigmas como frontera_. Pero existen otras estrategias para delimitar outliers.

Una librería muy recomendada es PyOD. Posee diversas estrategias para detectar Outliers. Ofrece distintos algoritmos, entre ellos Knn que tiene mucho sentido, pues analiza la cercanía entre muestras, PCA, Redes Neuronales, veamos cómo utilizarla en nuestro ejemplo.

In [None]:
#!pip install pyod

In [None]:
from pyod.models.knn import KNN
from pyod.models.pca import PCA
import pandas as pd

In [None]:
df = pd.DataFrame(data={'edad':edades,'salario':salario_anual_miles, 'compras':compras_mes})

In [None]:
clf = KNN(contamination=0.18)
#clf = PCA(contamination=0.17)
clf.fit(df)

X=df
clf.fit(X)
scores_pred = clf.decision_function(X)
y_pred = clf.predict(X)

In [None]:
scores_pred

In [None]:
y_pred

In [None]:
df[y_pred == 1]

La librería PyOd detecta los registros anómalos.

Para problemas en la vida real, con múltiples dimensiones conviene apoyarnos en una librería como esta que nos facilitará la tarea de detección y limpieza/transformación del dataset.