# Clase 07: Detecci√≥n de Anomal√≠as y Visualizaci√≥n en Baja Dimensionalidad

**MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos**




## Objetivos de la Clase

- Entender qu√© es un outlier y explorar distintas t√©ncicas para encontrarlos.
- Explorar t√©cnicas para visualizar datos en baja dimensionalidad.

## Detecci√≥n y manejo de Anomal√≠as

> **Pregunta**: ¬øQu√© es una anomal√≠a?

Una anomal√≠a (*outlier* en ingles) es un dato significativamente distinto a los dem√°s. Se puede considerar como una observaci√≥n cuya desviaci√≥n del conjunto de datos permite establecer la hip√≥tesis, de que su generaci√≥n fue obtenida por un mecanismo distinto al principal en la modelaci√≥n de un fen√≥meno.

![Outlier](../../recursos/2023-01/16-Detecci√≥n-anomalias/outliers.gif)

> **Pregunta**: ¬øPor qu√© deber√≠a preocuparme por estos valores?

Las anomal√≠as contienen por tanto informaci√≥n sobre caracter√≠sticas anormales de las entidades y esquemas que impactan el proceso generativo de los datos. Reconocer estas observaciones permite:
- Desde el punto de vista te√≥rico, mejorar el entendimiento de los problemas modelados.
- Desde el punto de vista pr√°ctico, permite mejorar procesos de adquisici√≥n de datos y presici√≥n de modelos.


Antes de continuar, es necesario hacer una distinci√≥n entre t√©rminos:

- **Detecci√≥n de Outliers** : Detectamos anomal√≠as sobre los datos que estamos analizando o sobre los datos de entrenamiento del modelo.

- **Novelty Detection**: Cuando detectamos outliers sobre **datos nuevos**.


## Tipos de Outliers

- **Univariados**: Solo en una caracter√≠stica de los datos.
- **Multivariados**: Outlier al combinar m√°s de una caracter√≠stica de los datos.
   

## Origen de los Outliers


> **Pregunta ‚ùì**: ¬øCu√°les son las posibles fuentes de Outliers?


- Errores al transcribir los Datos.
- Errores de Medici√≥n.
- Errores Experimentales.
- Errores del preprocesamiento.
- Al extraer o mezclar datos que no son compatibles entre si.
- Naturales.

## Dataset de Hoy: Wine Quality üç∑

<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/wine.jpg" style="width: 50%;">
</div>

<center> Fuente de la imagen: https://www.baysidegroup.com.au/blog/could-native-grapes-be-the-future-of-australian-wine/</center>

Wine Quality es un dataset de caracter√≠sticas que describen vinos portugeses de la variedad "Vinho Verde".

Atributos:

    1 - fixed acidity
    2 - volatile acidity
    3 - citric acid
    4 - residual sugar
    5 - chlorides
    6 - free sulfur dioxide
    7 - total sulfur dioxide
    8 - density
    9 - pH
    10 - sulphates
    11 - alcohol
    
Output: Calidad subjetiva del vino.

    12 - quality (score between 0 and 10)

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv("../../recursos/2023-01/16-Detecci√≥n-anomalias/wineQualityReds.csv", index_col=0)
df.head()

In [None]:
df.describe()

In [None]:
for col in df:
    fig = px.histogram(df, x=col, marginal="box", title = 'Histogram of ' + col)
    fig.show()

## M√©todos de Manejo de Anomal√≠as Univariados


#### Desviaci√≥n Est√°ndar

Si se estima que la variable a estudiar se distribuye de manera normal, entonces el 95% de los datos se encuentra a 2 desviaciones est√°ndar de la media, mientras que el 99.7% se encuentra dentro de 3 desviaciones est√°ndar. Bas√°ndose en esto, se puede considerar que cualquier punto fuera de 3 desviaciones est√°ndar de la media como candidato a anomal√≠a. Una forma m√°s flexible de estimar anomal√≠as usando el principio de normalidad, es por medio de z-scores.


$$\text{z-score} = \frac{x_i - \overline{x}}{s}$$


<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/norm.png" style="width: 75%;">
</div>

In [None]:
from scipy.stats import zscore

z_scores = zscore(df["fixed.acidity"])
z_scores

In [None]:
# agregamos los zscores al df
df["fixed.acidity_zscores"] = z_scores
df

In [None]:
# agregamos un booleano por cada fila que indica si la observaci√≥n est√°
# a 3 o m√°s distribuciones estandar entonces es booleano.
df["fixed.acidity_outlier"] = df["fixed.acidity_zscores"].abs() > 3

# los datos se verian asi:
df[["fixed.acidity", "fixed.acidity_zscores", "fixed.acidity_outlier"]].head(10)

In [None]:
df.loc[
    df["fixed.acidity_outlier"], # condicion: fixed.acidity_outlier == True
    ["fixed.acidity", "fixed.acidity_zscores", "fixed.acidity_outlier"],
]

In [None]:
fig = px.histogram(df, x="fixed.acidity", color="fixed.acidity_outlier")
fig.update_layout(showlegend=False)

Si se va a estudiar una columna con ouliers mediante este m√©todo, es coveniente hacer un **test de normalidad**. Si la variable no cumple con la hip√≥tesis, es posible preprocesarla usando el m√©todo de **box-cox**, **Yeo-Johnson** o **Inter Quantilico**. Se recomienda este √∫ltimo por ser robusto a outliers.


#### IQR: Rango Intercuartilico

El rango intercuart√≠lico (**IQR**) se utiliza para medir la dispersi√≥n de los datos.
Para obtenerlo:

Los datos se separan en 4 grupo de (casi) igual tama√±o.
El IQR se calcula como la diferencia entre el primer cuartil $Q1$ (25%) y el tercero $Q3$ (75%) : $IQR = Q3 - Q1$.

<div align='center'>
    <img src="https://miro.medium.com/max/9000/1*2c21SkzJMf3frPXPAR_gZA.png" style="width: 50%;">
    <p>
        Fuente:
        <a href='https://www.kdnuggets.com/2019/11/understanding-boxplots.html'>Understanding Boxplots
        </a>
    </p>
</div>

In [None]:
df["total.sulfur.dioxide"].describe()

In [None]:
px.histogram(df, "total.sulfur.dioxide", marginal="box")

In [None]:
desc = df["total.sulfur.dioxide"].describe()
desc

In [None]:
iqr = desc["75%"] - desc["25%"]
iqr

Luego, los valores que est√©n en $25\% - (IQR * 1.5)$

In [None]:
cota_inf = desc["25%"] - iqr * 1.5
cota_inf

Y los valores que est√©n sobre $75\% + (IQR * 1.5)$

In [None]:
cota_sup = desc["75%"] + iqr * 1.5
cota_sup

Con ambas cotas, generamos una columna de outliers:

In [None]:
df["total.sulfur.dioxide_outlier"] = (
    df["total.sulfur.dioxide"] > cota_sup) | (
    df["total.sulfur.dioxide"] < cota_inf
)

Grafiquemos ahora los outliers bajo esta clasificaci√≥n:

In [None]:
import plotly.express as px

fig1 = px.box(df, x="total.sulfur.dioxide", height=200)
fig1.show()

fig2 = px.histogram(
    df,
    x="total.sulfur.dioxide",
    color="total.sulfur.dioxide_outlier",
    title="total.sulfur.dioxide<br><sup>Rojo = outlier</sup>",
)
fig2.update_layout(showlegend=False)
fig2.show()

En el gr√°fico de caja, vemos que los outliers est√°n sobre y bajo las lineas rectas, cada una representa Q1 - 1.5 x IQR (linea inferior) y Q3 + 1.5 x IQR (linea superior). Los valores dentro de la caja corresponden al IQR y la linea central es la mediana de los datos.

> **Pregunta:** ¬øPor qu√© 1.5 y no otro n√∫mero?

<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/iqr_origen.png" style="width: 50%;">
</div>

## Reducci√≥n de Dimensionalidad para la Visualizaci√≥n

Como hemos visto en las clases anteriores, todos las observaciones se componen de muchas variables/caracter√≠sticas distintas. Mientras m√°s caracter√≠sticas se tengan, m√°s complejo se torna el an√°lisis exploratorio de datos, la detecci√≥n de outliers y la creaci√≥n de modelos predictivos.



In [None]:
df.head()



Por lo tanto, ser√≠a de mucha utilidad contar con mecanismos para reducir la cantidad de caracter√≠sticas. Existen 2 enfoques:

- **Selecci√≥n de Atributos Relevantes**
- **Reducci√≥n de Dimensionalidad.**

Ambos ser√°n vistos con mayor profundidad m√°s adelante.

Sin embargo, existe un par de m√©todos de reducci√≥n de dimensionalidad que nos pueden ser particularmente √∫tiles para la tarea que estamos resolviendo en este momento (detecci√≥n de outliers) y en general, para crear una idea de como se distribuyen los datos al considerar todas las caracter√≠sticas.


Estos son los **m√©todos de reducci√≥n de dimensionalidad para visualizaci√≥n**. Estas son t√©cnicas que nos permiten representar cada observaci√≥n (un vector de alta dimensionalidad) en un vector de dos o tres dimensiones (mucho m√°s sencillo para graficar).


**Par√©ntesis: Manifold learning**  


> Manifold learning es un enfoque para la reducci√≥n de dimensionalidad no lineal. Los algoritmos para esta tarea se basan en la idea de que la dimensionalidad de muchos conjuntos de datos es solo artificialmente alta.

### t-distributed Stochastic Neighbor Embedding (t-SNE)


La idea detr√°s de este m√©todo es proveer un m√©todo efectivo de reducci√≥n de dimensionalidad para visualizar un dataset complejo. El objetivo es conservar la mayor parte de la informaci√≥n en la dimensi√≥n baja a la vez que permita visualizar clusters y estructura general de los datos.

Este m√©todo conserva la localidad de las observaciones: Es decir, las observaciones similares queden en vectores cercanos y observaciones distintas en vectores lejanos (cercanos y lejanos en funci√≥n de sus distancias).


Sin embargo, el m√©todo posee un par de desventajas:

- Es computacionalmente caro. Puede tomar horas transformar m√°s de un millon de datos.
- Es estoc√°stico: diferentes ejecuciones entregan distintas proyecciones.
- Las relaciones entre distancias globales no se preservan correctamente.

> **Nota**: Es importante tener a la misma escala todos los datos.

<div style="text-align: center;">
    <img src="https://miro.medium.com/max/800/1*lKLB_1aghhnxQjMQziEyGQ.gif" style="width: 50%;">
</div>

<center>Fuente de la animaci√≥n: https://www.oreilly.com/content/an-illustrated-introduction-to-the-t-sne-algorithm/</center>


No veremos la implementaci√≥n de este m√©todo en clases, pero pueden encontrar una muy buena referencia en el siguiente video: https://www.youtube.com/watch?v=NEaUSP4YerM

Ver tambi√©n: **https://projector.tensorflow.org/**

In [None]:
features = df.drop(
    columns=[
        "quality",
        "fixed.acidity_zscores",
        "fixed.acidity_outlier",
        "total.sulfur.dioxide_outlier",
    ]
)
quality = df.loc[:, ["quality"]]

features.head(3)

In [None]:
from sklearn.manifold import TSNE
from sklearn.preprocessing import MinMaxScaler

# Notar que hacemos un escalamiento previo!!
scaled_features = MinMaxScaler().fit_transform(features)

# Creamos una instancia de tsne
tsne = TSNE(n_components=2, random_state=42)

# Transformamos los datos
wine_features_tsne_embedded = tsne.fit_transform(scaled_features)
wine_features_tsne_embedded

In [None]:
# Noten que guardamos la transformaci√≥n en df y no en features.
df["x_tsne"] = wine_features_tsne_embedded[:, 0]
df["y_tsne"] = wine_features_tsne_embedded[:, 1]

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne")

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne", color="pH")

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne", color="alcohol")

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne", color="residual.sugar")

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne", color="quality")

In [None]:
px.scatter(df, x="x_tsne", y="y_tsne", color="fixed.acidity")

In [None]:
# probamos el criterio de outliers z-score
px.scatter(df, x="x_tsne", y="y_tsne", color="fixed.acidity_outlier")

### Uniform Manifold Approximation and Projection (UMAP)

Relativamente novedoso m√©todo de reducci√≥n de dimensionalidad. Puede ser usado tanto para visualizaci√≥n como para reducci√≥n de dimensionalidad para modelos predictivos.

Presenta varias mejoras que con respecto a TSNE.  

- Es m√°s r√°pido y acepta una mayor cantidad de datos.
- Conserva las distancias globales entre puntos.

In [None]:
# hay que instalarlo aparte.
#!pip install umap-learn

In [None]:
from umap import UMAP

# Notar que hacemos un escalamiento previo
scaled_features = MinMaxScaler().fit_transform(features)

umap = UMAP()

wine_features_umap_embedded = umap.fit_transform(scaled_features)
wine_features_umap_embedded

**Pregunta:** C√≥mo podr√≠amos implementar la celda anterior con `pipeline`? Podemos hacer lo mismo con `t-SNE`?

In [None]:
# Noten que guardamos la transformaci√≥n en df y no en features.
df["x_umap"] = wine_features_umap_embedded[:, 0]
df["y_umap"] = wine_features_umap_embedded[:, 1]

In [None]:
from plotly.subplots import make_subplots

fig1 = px.scatter(
    df,
    x="x_umap",
    y="y_umap",
)

fig2 = px.scatter(
    df,
    x="x_tsne",
    y="y_tsne",
)

# izquierda: UMAP
# derecha: TSNE
fig = (
    make_subplots(rows=1, cols=2)
    .add_trace(fig1.data[0], row=1, col=1)
    .add_trace(fig2.data[0], row=1, col=2)
    .update_layout(height=400, title_text="Comparaci√≥n UMAP - TSNE")
    .show()
)

In [None]:
px.scatter(
    df,
    x="x_umap",
    y="y_umap",
    color="quality",
)

In [None]:
px.scatter(df, x="x_umap", y="y_umap", color="fixed.acidity_outlier")

In [None]:
px.scatter(df, x="x_umap", y="y_umap", color="fixed.acidity")

> **Pregunta:** ¬øSon suficientes los detectores de outliers sobre sola una variable?

## M√©todos de Manejo de Outliers Multivariados


Este tipo de m√©todos permiten encontrar outliers considerando no solo un atributo en particular, si no que todos los atributos al mismo tiempo.

### Par√©ntesis: Clustering


**El Clustering es la tarea de agrupar distintas observaciones seg√∫n su similitud.**

Es de tipo no-supervisado (no requiere etiquetas para entrenar).

![](./resources/clustering.png)

### DBScan

DBscan es un algoritmo de clustering basado en densidad. Su funcionamiento se basa en clasificar los datos en tres categor√≠as:

- **Core point**: Es un punto que contiene un n√∫mero minimo de vecinos cerca de un vecindario (esfera de radio …õ)

- **Border point**: Es un punto que no es core, pero que es alcanzable por un Core Point. Es decir, existe un camino entre el Core Point y este.

- **Outlier**: Es un punto que no es core point y a la vez, que no tiene un camino entre un Core Point u Border Point.

<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/dbscan.png" style="width: 50%;">
</div>

In [None]:
from sklearn.cluster import DBSCAN

# El par√°metro eps indicar√° el tama√±o de la esfera y por tanto, la cantidad de outliers
# Mientras menor sea el tama√±o de eps, mayor la cantidad de outliers
clustering = DBSCAN(eps=0.3, min_samples=3).fit(scaled_features)

db_scan_labels = clustering.labels_

db_scan_labels

In [None]:
db_scan_labels.max()

In [None]:
# Nota: Los labels de los outliers son -1
df[db_scan_labels == -1]

In [None]:
# Es m√°s sencillo visualizar los outliers con color=db_scan_labels == -1
px.scatter(df, x="x_umap", y="y_umap", color=db_scan_labels == -1)

In [None]:
px.scatter(df, x="x_umap", y="y_umap", color=db_scan_labels.astype(str))

In [None]:
from sklearn.cluster import DBSCAN

# Volvemos a hacer lo mismo pero con las dimensiones de UMAP
clustering_projections = DBSCAN(eps=0.3, min_samples=3).fit(wine_features_umap_embedded)

db_scan_labels = clustering_projections.labels_

db_scan_labels

In [None]:
wine_features_umap_embedded

In [None]:
px.scatter(df, x="x_umap", y="y_umap", color=db_scan_labels.astype(str))

## M√©todos Espec√≠ficos Provistos por Scikit-Learn

<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/outlier_methods_sklearn.png" style="width: 50%;">
</div>

### Isolation Forest

El concepto subyacente de Isolation Forest es que las anomal√≠as son datos que son pocos y diferentes, y por lo tanto, **m√°s f√°ciles de aislar** que los datos normales. Isolar se refiere al proceso de separar un punto de datos del resto del conjunto de datos.

#### ¬øC√≥mo funciona?

1. Construcci√≥n de √Årboles de Aislamiento: Isolation Forest construye m√∫ltiples √°rboles de decisi√≥n, llamados √°rboles de aislamiento, para aislar cada muestra de datos. Para cada √°rbol, el proceso es como sigue:
    - **Seleccionar aleatoriamente una variable** y luego selecciona un valor aleatorio de corte entre el m√≠nimo y m√°ximo valor de la caracter√≠stica seleccionada.
    - **Dividir el conjunto de datos en dos subconjuntos**: uno con valores menores que el valor de corte y otro con valores mayores o iguales.
    - **Repetir este proceso** recursivamente en cada subconjunto hasta que todos los datos han sido aislados o se alcanza un l√≠mite predeterminado en la profundidad del √°rbol.
2. Propiedad de Aislamiento: En teor√≠a, las anomal√≠as, al ser pocos y distintos, **requieren menos divisiones** aleatorias para ser aislados en comparaci√≥n con los puntos de datos normales. Por lo tanto, los puntos de datos que tienen caminos cortos en los √°rboles son m√°s propensos a ser anomal√≠as.

#### C√°lculo de puntuaci√≥n de Anomal√≠a

Una vez construidos los √°rboles, Isolation Forest eval√∫a la anormalidad de los datos utilizando una puntuaci√≥n de anomal√≠a basada en la **longitud del camino promedio** de un punto de datos en los √°rboles de aislamiento.
**Cuanto m√°s corto es el camino promedio de un punto de datos, m√°s alta es la puntuaci√≥n de anomal√≠a**, lo que indica una mayor probabilidad de ser una anomal√≠a.

<div style="text-align: center;">
    <img src="../../recursos/2023-01/16-Detecci√≥n-anomalias/itree.png" style="width: 50%;">
</div>
    
<center>Fuente:https://betterprogramming.pub/anomaly-detection-with-isolation-forest-e41f1f55cc6</center>

#### Ventajas de Isolation Forest
- **Eficiencia**: Es eficaz en grandes conjuntos de datos y con una alta dimensionalidad de datos.
- **No necesita normalizaci√≥n**: A diferencia de otros m√©todos que requieren normalizaci√≥n de datos, Isolation Forest no necesita normalizar los datos porque el m√©todo de partici√≥n es independiente de la distribuci√≥n.
- **Escalabilidad y Facilidad de Implementaci√≥n**: Es relativamente f√°cil de implementar y escalar en comparaci√≥n con otros m√©todos de detecci√≥n de anomal√≠as.


<center>Trafico web a trav√©s del tiempo<center/>

<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/b/b9/Anomalous_Web_Traffic.png" style="width: 60%;">
</div>


In [None]:
import numpy as np
from sklearn.ensemble import IsolationForest

isf = IsolationForest(n_estimators=20, random_state=42)
outliers = isf.fit_predict(scaled_features)

In [None]:
px.scatter(df, x="x_umap", y="y_umap", color=outliers.astype(str))

#### Novelty Detection

Ya que tenemos el modelo entrenado, podemos aplicarlo para clasificar una nueva observaci√≥n (fuera del conjunto de entrenamiento) como outlier o no. Podemos lograr esto a trav√©s del m√©todo `.predict`:

In [None]:
row = scaled_features[100, :].copy() # obtenemos una fila
row

In [None]:
isf.predict([row]) # 1: no es outlier

In [None]:
row[0] *= -100 # cambiar feature 0  * -1000
row[5] *= 500 # cambiar feature 5 * 500
row[10] *= 999 # cambiar feature 10 * 999
row

In [None]:
isf.predict([row]) # -1: es outlier