# Detección de anomalías en dataset multidimensional

En este ejemplo implementaremos el algoritmo de detección de outliers para un dataset de mayores dimensiones (3D o más). 
El escenario es una red en donde los servidores poseen 11 característcas por lo tanto es la cantidad de atributos por
observación en el dataset.

#### Configuración de tamaño de gráficos

In [2]:
options(repr.plot.width=5, repr.plot.height=4, scipen = 999)

#### Instalación y carga de paquetes necesarios

In [3]:
list.of.packages <- c('R.matlab', 'gmodels')

new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages, repos = "https://cran.r-project.org")

library(R.matlab)
library(gmodels)

R.matlab v3.6.1 (2016-10-19) successfully loaded. See ?R.matlab for help.

Attaching package: 'R.matlab'

The following objects are masked from 'package:base':

    getOption, isOpen



### Carga y exploración de estructuras de datos

In [4]:
X <- as.data.frame(readMat('ex8data2.mat'))

Xval <- X[, 12:22]
yval <- X[, 'yval']
X <- X[, 1:11]

str(X)
str(Xval)
str(yval)

'data.frame':	1000 obs. of  11 variables:
 $ X.1 : num  6.65 -5.63 9.72 -4.64 -12.84 ...
 $ X.2 : num  13.69 -18.94 -9.98 -10.72 -20.39 ...
 $ X.3 : num  17.55 18.64 15.57 20.36 9.49 ...
 $ X.4 : num  -11.93 -6.16 -32.22 -9 -7.04 ...
 $ X.5 : num  -5.76 -25.99 -5.6 -4.92 -9.92 ...
 $ X.6 : num  15.44 15.41 24.32 -4.26 -3.72 ...
 $ X.7 : num  -12.137 -16.596 0.833 -1.306 -9.385 ...
 $ X.8 : num  8.22 9.45 10.79 0.95 -2.33 ...
 $ X.9 : num  -4.884 -2.877 0.728 -8.634 -13.519 ...
 $ X.10: num  5.349 -6.009 10.393 0.198 11.007 ...
 $ X.11: num  17.35137 19.21064 7.08599 0.00677 14.00321 ...
'data.frame':	1000 obs. of  11 variables:
 $ Xval.1 : num  18.27 -3.19 -5.26 12.95 3.76 ...
 $ Xval.2 : num  -12.36 -19.71 -12.92 -10.35 -5.73 ...
 $ Xval.3 : num  5 6.53 25.44 19.86 11.4 ...
 $ Xval.4 : num  1.61 -21.57 -7.23 -24.42 -17.56 ...
 $ Xval.5 : num  1.09 3.05 3.65 3.27 -6.25 ...
 $ Xval.6 : num  29.3 23.5 12.4 30.4 16.2 ...
 $ Xval.7 : num  -8.31 -1.13 -6.51 -11.13 -9.72 ...
 $ Xval.8 : num 

Ahora tenemos que estimar un modelo Gaussiano para cada uno de los atributos. Tendremos que encontrar los parámetros **mu** y **sigma cuadrado** para cada modelo.

In [5]:
estimateGaussian <- function(X) {
    
    m <- nrow(X)
    n <- ncol(X)
    mu <- rep(0, n)
    sigma2 <- rep(0, n)
    mu <- colMeans(X)
    sigma2 <- apply(X, 2, var)
    
    return(list(mu = mu, sigma2 = sigma2))
}

results <- estimateGaussian(X)
mu <- results$mu
sigma2 <- results$sigma2

cat('mu = ', mu)
cat('\nsigma2 = ', sigma2)

mu =  4.9394 -9.637268 13.81471 -10.46449 -7.956229 10.1995 -6.019408 7.969829 -6.253182 2.324513 8.473723
sigma2 =  61.03593 53.25898 58.57404 84.28833 65.33393 89.66454 55.68919 87.24959 29.65893 70.85606 50.55412

#### Calculamos la densidad de la dist. normal multivariada de cada observación en X para set de entrenamiento

In [6]:
multivariateGaussian <- function(X, mu, Sigma2) {
    
    k <- length(mu)
    
    if(is.vector(Sigma2)) {
        Sigma2 <- diag(Sigma2)
    }
    
    X <- as.matrix(X)
    
    X <- sweep(X, MARGIN=2, mu, FUN="-")
    p <- (2 * pi) ^ (- k / 2) * det(Sigma2) ^ (-0.5) * (exp(-0.5 * rowSums((X %*% solve(Sigma2)) * X)))
    
    return(p)
}

p <- multivariateGaussian(X, mu, sigma2)

#### Selección del umbral Epsilon

Ahora que estimamos los parámetros Gaussianos buscaremos las observaciones que tienen una probabilidad alta dada esta distribucion y cuales tienen una probabilidad más baja (las anomalías). Evaluaremos con F1-score sobre un conjunto de validación cual es el mejor valor para **epsilon**.

In [7]:
pval <- multivariateGaussian(Xval, mu, sigma2)

selectTreshold <- function(yval, pval) {
    
    bestEpsilon <- 0
    bestF1 <- 0
    F1 <- 0
    
    stepsize <- (max(pval) - min(pval)) / 1000
    
    for(epsilon in seq(min(pval),max(pval),stepsize)) {
        
        predictions <- as.integer(pval < epsilon)
        
        TP <- sum((yval == 1) & (predictions == 1))
        FN <- sum((yval == 1) & (predictions == 0))
        FP <- sum((yval == 0) & (predictions == 1))
        
        precision <- TP / (TP + FP) 
        recall <- TP / (TP + FN)
        
        F1 <- 2 * precision * recall / (precision + recall)
        
        if (!is.na(F1) && !is.na(bestF1) && F1 > bestF1) {
            
            bestF1 <- F1
            bestEpsilon <- epsilon
        }
    }
    
    return(list(epsilon = bestEpsilon, F1 = bestF1))
}

results <- selectTreshold(yval, pval)
epsilon <- results$epsilon
F1 <- results$F1

cat('Mejor Epsilon encontrado usando el set de validación: ', epsilon)
cat('\nMejor F1 en el set de validación: ', F1)
cat('\nCantidad de outliers encontrados: ', sum(pval < epsilon))

Mejor Epsilon encontrado usando el set de validación:  0.000000000000000001371661
Mejor F1 en el set de validación:  0.6153846
Cantidad de outliers encontrados:  160

Se tiene un valor de F1-score bajo porque la recuperación es alta pero la precisión es **baja**.

In [8]:
predictions <- as.integer(pval < epsilon)
        
TP <- sum((yval == 1) & (predictions == 1))
FN <- sum((yval == 1) & (predictions == 0))
FP <- sum((yval == 0) & (predictions == 1))
        
precision <- TP / (TP + FP) 
recall <- TP / (TP + FN)
cat('Precisión: ', round(precision, 2))
cat('\nRecuperación: ', round(recall, 2))

Precisión:  0.5
Recuperación:  0.8

#### Matriz de confusión

In [9]:
CrossTable(yval, predictions, prop.t = FALSE, prop.r = FALSE, prop.c = FALSE, prop.chisq = FALSE)


 
   Cell Contents
|-------------------------|
|                       N |
|-------------------------|

 
Total Observations in Table:  1000 

 
             | predictions 
        yval |         0 |         1 | Row Total | 
-------------|-----------|-----------|-----------|
           0 |       820 |        80 |       900 | 
-------------|-----------|-----------|-----------|
           1 |        20 |        80 |       100 | 
-------------|-----------|-----------|-----------|
Column Total |       840 |       160 |      1000 | 
-------------|-----------|-----------|-----------|

 


Podemos ver que nuestro algoritmo detectó el 80% de los casos de outliers pero clasificó 80 casos de observaciones normales como outliers.