# Lectura 15
## RafaCastle
## 15.1 Detección de anomalías - Motivación

Para explicar lo que es la detección de anomalías, es útil dar un ejemplo de su uso.

Supongamos que se tiene un conjunto de datos de entrenamiento como el que se muestra a continuación:

![Title](Imágenes/15-1-1.png)

Si se tomaran los 2 siguientes datos de testeo:

![Title](Imágenes/15-1-2.png)

Es claro que el dato que se encuentra en el centro esta ubicado en un punto que no resalta en comparación con los otros datos del conjunto de prueba, pero el dato que se encuentra en la parte inferior es definitivamente una anomalía.

Buscamos entonces un algoritmo que nos diga si un cierto dato $x_{\text{test}}$ es anómalo. Para esto se debe construir un modelo para $p(x)$ (la probabilidad de que $x_{\text{test}}$ sea una anomalía). Así si tenemos $p(x_{\text{test}}) < \psi$ entonces el punto se etiquetará como una anomalía, en caso contrario, $p(x_{\text{test}}) \ge \psi$, se considerará como un punto normal. 

## 15.2 Distribución Gaussiana

En esta sección se da un repaso de probabilidad básica, se repasa la forma de la distribución gaussiana (o normal) dejo el [aquí](https://www.youtube.com/watch?v=mh6rAYA0e7Q&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=89) el link del vídeo.

## 15.3 Algoritmo de detección de anomalías

Si se tiene un conjunto de entrenamiento $\{ x^{(1)}, ... ,x^{(m)} \}$, vamos a modelar a $p(x)$ como:

$$
p(x) = p(x_1;\mu_1, \sigma_1^2)\cdot p(x_2;\mu_2, \sigma_2^2)\cdot , ..., p(x_n;\mu_n, \sigma_n^2)\cdot
$$

Donde la notación implica que la variable $x_i$ tiene una distribución normal, una media $\mu_i$ y una desviación estándar $\sigma_i$, lo cual se denota $x_1 \sim N(\mu_1, \sigma_1)$. Y se supone que las variables son independientes una de otra. Así, puede escribirse:

$$
p(x) = \prod_{j=1}^n p(x_j; \mu_j, \sigma_j) = \prod_{j=1}^n \frac{1}{\sqrt{2 \pi}\sigma_j} exp \left[ - \frac{(x_j - \mu_j)^2}{2 \sigma_j^2} \right]
$$

con

$$
\mu_j = \frac{1}{m} \sum_{i = 1}^m x_j^{(i)} \hspace{1cm} y \hspace{1cm} \sigma_j^2 = \frac{1}{m} \sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2
$$

Donde la función $p(x)$ es sustituida en la ecuación ya que se considera que $x$ tiene una distribución normal (ver el vídeo de la sección anterior en caso de confusión). Además se define un valor $\psi$ tal que si $p(x) < \psi$, entonces $x$ es anómalo.

## 15.4 Evaluando la detección de una anomalía

Supongamos que se tiene un conjunto donde ya se etiquetó si los datos son anómalos o no, ($y=0$ si es normal y $y=1$ si es una anomalía). 

Se tiene un conjunto de entrenamiento: $x^{(1)}, x^{(2)},...,x^{(m)}$

Uno de prueba: $\{ (x^{(1)}_{t}, y^{(1)}_{t}), (x^{(2)}_{t}, y^{(2)}_{t}),...,(x^{(m)}_{t}, y^{(m)}_{t}) \}$

Y uno de validación cruzada: $\{ (x^{(1)}_{cv}, y^{(1)}_{cv}), (x^{(2)}_{cv}, y^{(2)}_{cv}),...,(x^{(m)}_{cv}, y^{(m)}_{cv}) \}$

En este conjunto se tienen $10,000$ datos "normales" y $20$ anomalías. En el conjunto de prueba se toman $6,000$ datos normales, y en los de prueba y de validación cruzada se toman $2,000$ normales y 10 anómalos en cada uno. 

El modelo que se forma con los datos de prueba debe dar como output a $p(x)$ y predecir $y=1$ si $p(x)<\psi$ y $y=0$ si $p(x)\ge \psi$ para los conjuntos de validación y de prueba.

Para evaluar el modelo pueden usarse las métricas Precision/Recall, $F_1$ o el análisis de errr tipo 1 y 2. Con el conjunto de validación puede escogerse el valor del parámetro $\psi$. 

## 15.5 Detección de anomalías vs aprendizaje supervizado

En general, se utiliza el algoritmo de detección de anomalías cuando se espera obtener un número muy pequeño de estas, es decir cuando se tiene un conjunto donde la mayoría de datos son "normales". Si se tiene un gran número de anomalías se recomienda usar un algoritmo de aprendizaje supervizado, ya que puede tratarse como un problema de clasificación. 

## 15.6 Escogiendo los atributos

A veces se tienen distribuciones no gaussianas para un conjunto de datos como la que se muestra a continuación:

![Title](Imágenes/15-6-1.png)

Para realizar la transformación en un ejemplo como el anterior, se aplica la función $\log(x)$ a la variable $x$, es decir $x \to log(x)$. En general se pueden aplicar funciones a una variable para tratar de volverla más gaussiana y hacer una mejor detección de anomalías.

## 15.7 Distribución gaussiana multivariada

Consideremos el siguiente ejemplo:

![Title](Imágenes/15-7-1.png)

Donde se ve que ambas variables muestran de manera independiente una distribución gaussiana. Ahora, consideremos el punto verde de la gráfica de la izquierda, ¿Cómo saber si se trata de una anomalía? 

En un análisis en las gráficas de la derecha, notatíamos que el punto está dentro de un rango aceptable para ambos parámetros. Sin embargo es claro que el punto se trata de una anomalía, por lo tanto se requiere atacar el problema de una manera diferente.

De manera intuitiva, pueden trazarse zonas en la gráfica de la izquerda donde se tengan diferentes probabilidades de que el punto sea o no una anomalía. En este caso el punto está dentro del segundo círculo, por lo que tiene una probabilidad mayor de ser una anomalía que los puntos en el círculo central. 

![Title](Imágenes/15-7-2.png)

Así, si $x \in R^n$, no es recomendable modelar $p(x_1),p(x_2),...$ de manera separada sino modelar a $p(x)$ de un jalón. 

$$
p(x, \mu, \Sigma) = \frac{1}{(2 \pi)^{n/2} |\Sigma|^{1/2}} \exp[-\frac{1}{2}(x - \mu)^T \Sigma^{-1}(x - \mu)]
$$

Donde $\mu \in R^n$ y $\Sigma \in R^{n \times n}$.  La expresión $|\Sigma|$ es el determinante de $\Sigma$. Veamos entonces como se ve la función $p(x)$ para determinados parámetros:

![Title](Imágenes/15-7-3.png)

![Title](Imágenes/15-7-4.png)

![Title](Imágenes/15-7-5.png)

Los valores de la matriz $\Sigma$ pueden variar, obteniendo distintos tipos de elipses:

![Title](Imágenes/15-7-6.png)

## 15.8 Detección de anomalías usando la distribución multivariada gaussiana

El problema descrito anteriormente puede resolverse de manera gráfica si se observan las distribuciones de la sección anterior. Ahora, tomando algún diagrama $x_1 - x_2$ y graficando el punto a evaluar resulta más simple ver si se trata de una anomalía.

![Title](Imágenes/15-7-7.png)

Supongamos entonces el caso general, se tiene un conjunto de entramiento: $\{ x^{(1)}, x^{(2)}, ..., x^{(m)} \}$ donde se hace un fitting sobre el modelo $p(x)$ al calcular:

$$
\mu = \frac{1}{m} \sum_{i=1}^m x^{(i)}
\hspace{1cm} y  \hspace{1cm}
\Sigma  = \frac{1}{m} \sum_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T
$$

Ahora, dado un nuevo ejemplo $x_o$ se calcula $p(x_o)$ y se observa si $p(x_o) < \psi$ donde $\psi$ es un parámetro que se escoge de manera intuitiva de acuerdo al contexto del problema. 


Cabe destacar que este modelo es análogo al anterior 

$$
p(x) = p(x_1; \mu_1, \sigma_1^2)\cdot p(x_1; \mu_1, \sigma_1^2) ... p(x_n; \mu_n, \sigma_n^2)
$$

si se cumple:

$$
\Sigma = \left( \begin{array}{cccc}
\sigma_1^2&0&...&0 \\
0& \sigma_2^2&...&0 \\
...&...&...&... \\
0& 0 &...&\sigma_n^2
\end{array} \right)
$$

Por lo que el modelo anterior es solo un caso particular del modelo de multivariables. 