# Deteção de anomalias: Comparação com classificação

## O que vamos fazer?

- Criar um dataset sintético para a deteção de anomalias com casos normais e anómalos.
- Comparar a resolução do dataset com os métodos de deteção de anomalias de baixa probabilidade e classificação por SVM. 
- Avaliar ambos os métodos e representar graficamente os seus resultados.


Os métodos de deteção de anomalias pela covariância da distribuição gaussiana e a baixa probabilidade de um evento (o método que usámos no exercício anterior) e por classificação são bastante semelhantes, principalmente se a classificação for feita com o SVM de kernel gaussiano, uma vez que ambos tentam modelar a mesma distribuição gaussiana sobre os dados.

As suas principais diferenças só são percetíveis em algumas circunstâncias, por exemplo:
- A distribuição dos exemplos normais não é gaussiana/normal, ou tem múltiplos centroides que não detetamos de antemão por agrupamento, por exemplo, e a classificação não é feita por SVM gaussiano.
- Em dataset com um elevado número de dimensões, manter a distribuição normal dos dados é mais difícil.
- A classificação, sendo um método de aprendizagem supervisionado, pode exigir uma percentagem de dados anómalos superior à de aprendizagem reforçada.

Neste exercício vamos combinar ambos os métodos, que já resolveram em exercícios anteriores, para analisar os seus resultados e diferenças.

Seguir as instruções abaixo para resolver o mesmo dataset por covariância da distribuição gaussiana e por SVM com kernel gaussiano, copiando as células de código de exercícios anteriores sempre que possível:

In [None]:
# TODO: Usar esta célula para importar todas as livrarias necessárias

import time
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

## Criação do dataset original

Vamos criar um dataset sintético seguindo os mesmos passos que no exercício de deteção de anomalias anterior. No entanto, iremos então criar 2 conjuntos de 3 subconjuntos diferentes de dados de formação, validação e teste, uma vez que para a deteção da covariância da distribuição gaussiana não atribuímos valores anómalos ao subset de formação e para a classificação por SVM se for necessário.


Os passos que vamos então dar são:
1. Criar um dataset de dados normais e outro de dados anómalos.
1. Normalizar esses dados.
1. Criar um subset de formação, validação e teste para resolver por covariância de distribuição Gaussiana, sem dados anómalos no subset de formação.
1. Criar um conjunto de subsets de formação, validação e teste para resolver por SVM com kernel gaussiano, com dados anómalos em todos os subsets.
1. Reordenar os dados aleatoriamente a partir dos 2 conjuntos de subsets.
1. Representar graficamente os dados a partir dos 2 conjuntos de subsets.

Portanto, completar as seguintes células de código, copiando o seu código de exercícios anteriores sempre que possível. No final, deve ter gerado, normalizado, dividido e reordenado as matrizes *X_cdg_train, X_cdg_cv, X_cdg_test, X_svm_train, X_svm_cv, X_svm_test* e os seus *Y* correspondentes.

In [None]:
# TODO: Gerar dois datasets sintéticos independentes com dados normais e anómalos

m = 500
n = 2
ratio_anomalos = 0.25    # Percentagem de dados anómalos vs dados normais, modificável

[...]

In [None]:
# TODO: Normalizar os dados de ambos datasets com os mesmos parâmetros de normalização

In [None]:
#  TODO: Dividir os datasets nos subsets de formação, validação e teste para covariância de dist. gaussiana

In [None]:
# TODO: Dividir os datasets nos subsets de formação, validação e teste para classificação por SVM

In [None]:
# TODO: Reordenar aleatoriamente os 2 conjuntos de subsets de formação, validação e teste individualmente

In [None]:
# TODO: Representar os 3 subsets num gráfico 2D para covariância de distribuição gaussiana e classificação por SVM

## Resolução por deteção de anomalias por covariância da distribuição normal

Para resolver o dataset para a covariância da distribuição normal, seguir os passos do exercício anterior, copiar as células correspondentes para as células seguintes, e ter o cuidado de utilizar os subsets adequados:

In [None]:
# TODO: Modelar a distribuição gaussiana e obter mu e Sigma

In [None]:
# TODO: Avaliar múltiplos valores de epsilon e encontrar o melhor para classificar os dados como normais ou anómalos.

In [None]:
# TODO: Calcular a F1-score do modelo sobre o subset de teste.

## Resolução por classificação por SVM

Da mesma forma, seguir os passos do exercício SVM acima para classificar os dados em normais e anómalos por SVM, copiando as células correspondentes para as células seguintes sempre que possível, e ter o cuidado de utilizar os subsets adequados.

Utilizar um kernel RBF com a função de Scikit-learn [OneClassSVM](https://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html) e *ratio_anomalos* como parâmetro *nu*. Para regularizar o modelo, otimizar *gamma* com [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html):

In [None]:
# TODO: Formar um modelo de OneClassSVM e otimizar gamma no subset de validação

In [None]:
# TODO: Calcular a F1-score do modelo sobre o subset de teste.

## Comparação dos resultados de ambos os métodos

Agora comparar ambos os métodos, mostrando F1-score e representando graficamente os seus resultados:

In [None]:
# TODO: Mostrar os resultados da F1-score de ambos os modelos

print('F1-score da covariância da distribuição gaussiana:') 
print()
print('F1-score da classificação por SVM:') 
print()

Representar os resultados de ambos os modelos Como os subsets de teste são diferentes em ambos os casos, nesta ocasião calcular os erros e acertos sobre os dados dos 3 subsets:

In [None]:
# TODO: Representar erros e acertos junto à distribuição e o corte de epsilon
# para a covariância da distribuição gaussiana

# Atribuir z = 1. para acerto e z = 0. para falha
# Acerto: Y_test == Y_test_pred

z_cdg = [...]
# Representar o gráfico
# Utilizar cores diferentes para os dados que acertou e os que falhou
[...]

plt.show()

In [None]:
# TODO: Representar erros e acertos no subset de teste junto à distribuição e o corte de epsilon
# para a classificação por SVM

# Atribuir z = 1. para acerto e z = 0. para falha
# Acerto: Y_test == Y_test_pred
z_svm = [...]

# Representar o gráfico
# Utilizar cores diferentes para os dados que acertou e os que falhou
[...]

plt.show()

*Que conclusões pode tirar? Que diferenças há entre ambos os métodos?*

*BÓNUS: Consegue pensar numa forma de modificar os datasets iniciais para que os dois métodos obtenham resultados diferentes?*