# El problema de los valores atípicos

Un valor atípico es cualquier medición que se encuentre por fuera del comportamiento general de una muestra de datos.
Pueden indicar variabilidad, errores de medición o novedades.

## ¿Por qué son problemáticos?
1. Pueden generar sesgos importantes en los modelos de ML.
2. A veces contienen información relevante sobre la naturaleza de los datos.
3. Detección temprana de fallos.

## ¿Cómo identificarlos?

A través de métodos estadísticos:

1. Z - Score: Mide la distancia (en desviaciones estándar) de un punto dado a la media.
2. Técnicas de clustering como DBSCAN (Density-Based Spatial Clustering of Applications with Noise).
- Consiste en considerar a zonas muy densas como clusters, mientras que los puntos que carecen de ‘vecinos’ no pertenecen a ningún conjunto y por lo tanto se clasifican como ruido (o outliers).
- Una ventaja de está técnica es que no se requiere que se especifique el número de clusters (como en K-means, por ejemplo), en cambio se debe especificar un número mínimo de datos que constituye un cluster y un parámetro epsilon que está relacionado con el espacio entre vecinos. En la siguiente imagen pueden ver un ejemplo gráfico de esta técnica: 
- ![](./images/DBSCAN_search.gif)
3. Si q< Q1-1.5IQR ó q > Q3+1.5IQR

![](./images/atipicos_boxplots.png)



# Regresiones robustas

Sci-kit learn nos ofrece algunos modelos especificos para abordar el problema de los valores atipicos:

- **Ransac**: selecciona una muestra aleatoria de los datos asumiendo que esa muestra se encuentra dentro de los valores inliners, con estos datos se entrena el modelo y se compara su comportamiento con respecto a los otros datos. Este procedimiento se repite tantas veces como se indique y al finalizar el algoritmo escoge la combinación de datos que tenga la mejor cantidad de inliners, donde los valores atípicos puedan ser discriminados de forma efectiva.
Ejemplo:

![](./images/ransac.png)

- **Huber Reggresor**: no elimina los valores atípicos sino que los penaliza. Realiza el entrenamiento y si el error absoluto de la perdida alcanza cierto umbral (epsilon) los datos son tratados como atípicos. El valor por defecto de epsilon es 1.35 ya que se ha demostrado que logra un 95% de eficiencia estadística.