# Deteção de anomalias: Dataset sintético

## O que vamos fazer?

- Criar um dataset sintético para a deteção de anomalias com casos normais e anómalos. 
- Modelar uma distribuição gaussiana sobre os dados normais.
- Determinar o limiar de probabilidade de deteção de anómalos por validação. 
- Avaliar a precisão final do modelo sobre o subconjunto de teste.
- Representar graficamente o comportamento do modelo em cada passo

In [None]:
# TODO: Usar esta célula para importar todas as livrarias necessárias

import numpy as np
from sklearn.datasets import make_blobs
from scipy.stats import multivariate_normal
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from matplotlib import pyplot as plt
from matplotlib.colors import from_levels_and_colors
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D

plot_n = 1
rng = np.random.RandomState(42)

## Criar um dataset sintético para deteção de anomalias

Para resolver este exercício, precisamos primeiro de criar um dataset com dados normais e outro com dados anómalos. Neste caso, os datasets serão 2 dimensões (2D) com apenas 2 características, em vez de um elevado n.º de características *n*, para facilitar a sua visualização numa representação 2D.

Inicialmente, vamos criar 2 datasets independentes, um representando os dados normais e o outro os dados anómalos. Iremos combinar então estes dataset em 3 subsets finais, de formação, validação e teste, como é habitual, com a particularidade de, neste caso, os dados anómalos só serem encontrados nos subsets de validação e teste.

Completar a seguinte célula de código para criar datasets iniciais independentes com dados normais e anómalos:

In [None]:
# TODO: Gerar dois datasets sintéticos independentes com dados normais e anómalos

m = 300
n = 2
ratio_anomalos = 0.15 # Percentagem de dados anómalos vs dados normais, modificável
m_anomalos = int(m * ratio_anomalos) 
m_normales = m - m_anomalos
x_lim = (-5, 5)
y_lim = (-5, 5)

print('Nº de exemplos: {}, ratio de exemplos anómalos: {}%, nº de dados normais e anómalos {}/{}'.format(m, 
print('Nº de características: {}'.format(n))
                                                                                                         
# Criar ambos os dastasets
dataset_normales = make_blobs(n_samples=m_normales, centers=np.array([[1.5, 1.5]]), cluster_std=1.0, random_st 
dataset_normales = dataset_normales[0] # Descartamos el resto de información y retenemos sólo las posicione 
dataset_anomalos = np.random.uniform(low=(x_lim[0], y_lim[0]), high=(x_lim[1], y_lim[1]), size=(m_anomalos, 2))

# Representar os dados iniciais
plt.figure(plot_n)
                              
plt.title('Dataset original: dados normais e anómalos') 
                              
plt.scatter(dataset_normales[:, 0], dataset_normales[:, 1], s=10, color='b')
plt.scatter(dataset_anomalos[:, 0], dataset_anomalos[:, 1], s=10, color='r')
                              
plt.xlim(x_lim) 
plt.ylim(y_lim)
plt.legend(('Normais', 'Anómalos')) 
plt.grid()
                              
plt.show() 
                              
plot_n += 1

Antes de continuar, vamos pré-processar os dados, normalizando-os, como habitualmente fazemos. Uma vez que o nosso *X* será composto por ambos os dataset, iremos normalizá-los à vez.

Neste caso, não inserimos uma primeira coluna de 1s no dataset, pelo que normalizamos todas as colunas.

Completar a célula de código seguinte para normalizar os dados. Para o fazer, resgatar a sua função de normalização dos exercícios anteriores:

In [None]:
# TODO: Normalizar os dados de ambos datasets com os mesmos parâmetros de normalização

def normalize(x, mu, std):
    """ Normalizar um dataset com exemplos X
    Argumentos posicionais:
    x -- array 2D de Numpy com os exemplos, sem termo de bias
    mu -- vetor 1D de Numpy com a média de cada característica/coluna
    std -- vetor 1D de Numpy com o desvio típico de cada característica/coluna
    Devolver:
    X norm -- array 2D de Numpy com os exemplos, com as suas características 
    normalizadas 
    """
    return [...]

# Encontrar a média e o desvio padrão das características dos datasets originais
# Concatenar previamente ambos os datasets num X comum, certificando-se de utilizar o eixo correto.
X = [...]
mu_normalizar = [...] 
std = [...]

print('Datasets originais:') 
print(dataset_normales.shape, dataset_anomalos.shape)

print('Média e desvio típico das características:') 
print(mu_normalizar)
print(mu_normalizar.shape) 
print(std)
print(std.shape)

print('Datasets normalizados:')
dataset_normales_norm = normalize(dataset_normales, mu_normalizar, std) 
dataset_anomalos_norm = normalize(dataset_anomalos, mu_normalizar, std)

print(dataset_normales_norm.shape) 
print(dataset_anomalos_norm.shape)

Agora vamos subdividir os datasets originais nos subsets de formação, validação e teste.

Para tal, dividimos o dataset normal de acordo com os ratios habituais, e atribuímos metade dos valores anómalos aos subsets de validação e teste. Se tivéssemos muito poucos dados anómalos, poderíamos incorporar a validação cruzada por K-fold.

Completar a seguinte célula de código para criar estes subsets:

In [None]:
# TODO: Dividir os datasets em subsets de formação, validação e teste com dados normais e anómalos

ratios = [66,33,33]
print('Ratios:\n', ratios, ratios[0] + ratios[1] + ratios[2])

r = [0,0]
# Dica: a função round() e o atributo x.shape podem ser-lhe úteis
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Dividir o dataset de dados normais nos 3 subsets seguindo os ratios indicados
# Dica: a função np.array_split() pode ser-lhe útil
X_train, X_cv, X_test = [...]

# Atribuir a etiqueta Y = 0 a todos os dados do dataset de dados normais.
# Denotar os dados anómalos como Y = 1
# Criar arrays 1D do comprimento do n.º de exemplos em cada subset com o valor 0. (float) em cada elemento
Y_train = [...]
Y_cv = [...]
Y_test = [...]

# Agora concatenar metade dos dados anómalos ao subset de validação e a outra metade ao subset de teste.
# Dica:novamente a função np.array_split() pode ser útil para si
dataset_anomalos_cv, dataset_anomalos_test = [...]

X_cv = [...]
X_test = [...]
# O resultado final para X_cv e X_test serão vetores 2D de (m_normals * ratio[CV ou teste] + m_anomalos / 2,

# Finalmente, como já fizemos antes, concatenar para Y_cv e Y_test cada uma das matrizes 1D com o comprimento 
de n
# Cada matriz, desta vez, tem valores de 1. (float) em cada elemento
Y_cv = [...]
Y_test = [...]
# O resultado final para Y_cv e Y_test será 1D vectores de (m_normals * ratio[CV ou teste], 1) de 0s e (m_ano

# Comprovar os subsets criados
print('Tamanhos dos subsets de formação, validação e teste:') 
print(X_train.shape)
print(Y_train.shape) 
print(X_cv.shape) 
print(Y_cv.shape) 
print(X_test.shape) 
print(Y_test.shape)

Finalmente, vamos acabar o pré-processamento dos datasets, reordenando-os aleatoriamente. 

Completar a seguinte célula de código para reordenar aleatoriamente os subsets:

In [None]:
# TODO: Reordenar aleatoriamente los subconjuntos de entrenamiento, validación y prueba de forma individual

print('Primeiras 10 filas e 2 colunas de X e vetor Y:') 
print('Subset de formação:')
print(X_train[:10,:2])
print(Y_train[:10,:2]) 
print('Subset de validação:') 
print(X_cv[:10,:2])
print(Y_cv[:10,:2]) 
print('Subset de 
teste:') 
print(X_test[:10,:2])
print(Y_test[:10,:2])
      
print('Reordenar X e Y:')
# Se preferir, pode usar a função sklearn.utils.shuffle convenience function.
# Utiliza um estado inicial aleatório de 42, de modo a manter a reprodutibilidade.
X_train, Y_train = [...] 
X_cv, Y_cv = [...]
X_test, Y_test = [...]
      
print('Primeiras 10 filas e 2 colunas de X e vetor Y:') 
print('Subset de formação:')
print(X_train[:10,:2])
print(Y_train[:10,:2]) 
print('Subset de validação:') 
print(X_cv[:10,:2])
print(Y_cv[:10,:2]) 
print('Subset de 
teste:') 
print(X_test[:10,:2])
print(Y_test[:10,:2])
      
print('Tamanhos dos subsets de formação, validação e teste:') 
print(X_train.shape)
print(Y_train.shape) 
print(X_cv.shape) 
print(Y_cv.shape) 
print(X_test.shape) 

Por último, representar os nossos 3 subsets num gráfico 2D. 

Completar a seguinte célula de código para representar os subsets:

In [None]:
# TODO: Representar os 3 subsets num gráfico 2D

# É possível ajustar parâmetros matplotlib, tais como a gama de dimensões e o tamanho dos pontos.
plt.figure(plot_n)

plt.title('Subsets com dados normais e anómalos')

cmap, norm = from_levels_and_colors([0., 0.5, 1.1], ['blue', 'red'])

plt.scatter(X_train[:, 0], X_train[:, 1], s=25, c=Y_train, marker='o', cmap=cmap, norm=norm) 
plt.scatter(X_cv[:, 0], X_cv[:, 1], s=25, c=Y_cv, marker='s', cmap=cmap, norm=norm) 
plt.scatter(X_test[:, 0], X_test[:, 1], s=25, c=Y_test, marker='*', cmap=cmap, norm=norm)

plt.xlim(x_lim) 
plt.ylim(y_lim)
plt.legend(('formação', 'Validação', 'Teste')) 
plt.grid()

plt.show() 

plot_n += 1

## Modelar uma distribuição gaussiana

Vamos “formar o modelo”, o que neste caso irá significar modelar a presumível distribuição gaussiana que os dados normais seguem.

Modelamos apenas os dados normais porque queremos encontrar que distribuição segue, que distribuição de dados é normal ou aceitável, e que dados não seguem tal distribuição e devem ser considerados anómalos.

Uma distribuição gaussiana multivariável é definida por 2 parâmetros: a média $\mu$ e a matriz de covariância $\Sigma$. $\mu$ é um vetor de tamanho
(*n*) e $\Sigma$ é um vetor/matriz quadrada (*n*, *n*).

Recordar do módulo e exercício sobre SVM com filtro gaussiano que a distribuição multivariada gaussiana (ou normal) pode ter uma forma arredondada ou oval, que o $\mu$ representa o ponto central da distribuição no espaço e o $\Sigma$ a forma da mesma.

*NOTA*: Embora a distribuição normal ou gaussiana seja uma das, se não a mais comum na natureza, num projeto real devemos primeiro verificar se os nossos dados normais, de acordo com o conjunto de características retiradas, seguem uma distribuição normal ou temos de os modelar com outro tipo de distribuição, seguindo os mesmos passos. 

μ e Σ poderiam ser calculados como:

$$
\mu = \frac{1}{m} \sum\limits_{i=0}^{m} x^i; \\
\Sigma = \frac{1}{m} \sum\limits_{i=0}^{m} (x^i - \mu)(x^i - \mu)^T;
$$

Seguir as instruções abaixo para modelar a distribuição gaussiana e obter os seus parâmetros $\mu$ e $\Sigma$ e depois calcular a probabilidade de um ponto ser anómalo:

In [None]:
# TODO: Modelar a distribuição gaussiana e obter mu e Sigma

# Calcular a média e Sigma de X_train
# Para o fazer, pode usar as funções de matriz de média e covariância do Numpy com o eixo apropriado.
mu = [...]
sigma = [...]

# Computar a distribuição normal multivariável com estes parâmetros
dist_normal = multivariado_normal(média=mu, cov=sigma)

print('Dimensões da média e matriz de covariância do subset de formação:')
print(mu.shape, sigma.shape)
print('Média:') 
print(mu)
print('Matriz de 
covariância:') 
print(sigma)

Vamos representar a função de densidade da distribuição normal de dados com fatias de probabilidade ao lado do dataset normal.

Função de densidade de probabilidade:

$pdf(x) = \frac{1}{\Sigma \sqrt{2 \pi}} e^{- \frac{1}{2}(\frac{x - \mu}{\Sigma})^2}$

Seguir as instruções na célula seguinte para o fazer

*NOTA*: Pode basear-se na função [contourf](https://matplotlib.org/stable/gallery/images_contours_and_fields/contourf_demo.html#sphx-glr-gallery-images-contours-and-fields-contourf-demo-py) de matplotlib.

In [None]:
# TODO: representar a função de densidade e os dados normais

fig1, ax2 = plt.subplots([...])

# Adicionar uma barra de cor com a probabilidade da distribuição
[...]

# Adicionar um título e etiquetas a cada dimensão
[...]

# Também representar os dados do subset de formação X_train como pontos no mesmo gráfico.
[...]

plt.show()

## Determinar el umbral de probabilidad para detectar casos anómalos

Vamos agora determinar o limiar de probabilidade em que determinaremos se um novo caso é normal ou anómalo. Se um exemplo for demasiado diferente dos dados normais, se estiver longe dos dados normais, se a probabilidade de seguir a mesma distribuição que os dados normais, for inferior a este limiar, podemos declarar como anómalo.

Para encontrar este limiar, utilizaremos o subset de validação, com dados normais e anómalos, e tal como a validação para regularização na aprendizagem supervisionada, iremos estimars múltiplos valores do limiar  $\epsilon$, mantendo aquele que melhor classifica os dados normais e anómalos

Para começar, vamos representar graficamente a distribuição, o subset de validação e vários valores possíveis de $\epsilon$. 

Para isso, seguir as instruções para completar a seguinte célula

*NOTA*: Para linhas de contorno, utilizar a função de [contour](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.contour.html#matplotlib.axes.Axes.contour), também utilizada no exemplo anterior

In [None]:
# TODO: Representar a distribuição, o subset de validação e vários valores possíveis do epsilon

# Gera alguns valores para epsilon
epsilon_evaluated = np.linspace(0., 0.5, num=5)

# Recuperar o código da célula anterior e adicionar uma linha de contorno a cada valor de epsilon
[...]

Para ter mais visibilidade no nosso dataset e para comprovar o valor de $\epsilon$ finalmente, vamos calcular as probabilidades de cada dado anómalo no subset de validação, e seguir a distribuição de dados normais.

Para isso, seguir as instruções na célula seguinte

In [None]:
# TODO: Calcular as probabilidades dos dados anómalos de validação de acordo com a distribuição da formação

# Filtrar os dados no subset de validação que são anómalos
# Recordar que os dados anómalos têm um Y_cv = 1.
X_cv_anomalos = [...]

# Calcular as suas probabilidades de seguir a distribuição normal
p_cv_anomalos = dist_normal.pdf(X_cv_anomalos)

print('Probabilidade de seguir a distribuição normal dos 10 primeiros dados de validação:')
print(p_cv_anomalos[:10])

Finalmente, vamos avaliar um espaço linear de valores possíveis de $\epsilon$ e encontrar o mais ideal para declarar um dado como anómalo:

In [None]:
# TODO: Avaliar múltiplos valores de epsilon e encontrar o melhor para classificar os dados como normais ou anómalos.

# Gerar um espaço linear de valores epsilon com mais precisão
epsilon_evaluated = np.linspace(0., 1., num=1e2) # Pode modificar a precisão para acelerar o cálculo

# Valores para encontrar o seu ótimo
epsilon = 1e6 # Valor do epsilon
f1_cv = 0. # F1_score da classificação
for e in epsilon_evaluado:
    # Atribuir Y = 1. a valores cuja probabilidade é inferior a epsilon e 0. ao resto.
    Y_cv_pred = np.where([...])
    
    # Encontrar a pontuação F1 para essa classificação com Y_cv como o valor conhecido.
    score = f1_score([...])
    
    if score > f1_cv: 
        f1_cv = score 
        epsilon = e
        
print('Epsilon ótima no subset de validação:', epsilon) 
print('Com F1-score:', f1_cv)

## Avaliar a precisão final do modelo

Para concluir a nossa formação, vamos verificar a precisão final do modelo no subset de teste, como habitualmente fazemos.

Para tal, iremos fazer uma verificação matemática e visual dos dados.

Seguir as instruções para preencher a célula seguinte e traçar os valores normais e anómalas do subset de teste juntamente com a distribuição normal dos dados do subset de formação

In [None]:
# TODO: Representar o subset de teste juntamente com a distribuição de dados do subset de formação.
# Incluir a linha de contorno para o epsilon escolhido.

[...]

plt.show()

Agora calcular a métrica de avaliação da classificação para avaliar a classificação entre dados normais e anómalos feita pelo modelo no subset de teste:

In [None]:
# TODO: Calcular a métrica de avaliação da classificação do modelo para o subset de teste.

# Atribuir Y = 1. a valores cuja probabilidade é inferior a epsilon e 0. ao resto.
Y_test_pred = np.where([...])

# Encontrar a pontuação F1 para essa classificação com Y_teste como o valor conhecido.
f1_test = f1_score([...])

print('F1-score para o subset de teste:', f1_test)

Analisar graficamente quais os dados do subset de teste que o modelo classifica correta e incorretamente:

In [None]:
# TODO: Representar erros e acertos no subset de teste junto à distribuição e o corte de epsilon

# Atribuir z = 1. para acerto e z = 0. para falha
# Acerto: Y_test == Y_test_pred
z = [...]

# Representar o gráfico
# Utilizar cores diferentes para os dados que acertou e os que falhou
[...]

plt.show()

*Acha que o modelo faz um bom trabalho na deteção de anomalias?*

*Existe algum dado que classificaria de forma diferente?*

Finalmente, representar graficamente todos os dados, dos 3 subsets, juntamente com a distribuição e o corte $\epsilon$, para analisar a distribuição de dados normais e anómalos e o funcionamento do modelo:

In [None]:
# TODO: Representar os dados normais e anómalos juntamente com a distribuição e o corte do epsilon.
# Representar os 3 subsets: formação, validação e teste
# Se preferir, pode distingui-los com marcadores de diferentes formas
# Pode usar cores diferentes para dados normais e anómalos que eram originalmente conhecidos
[...]

plt.show()