# Comparação dos resultados encontrados entre cada modelo

Nesta etapa foi realizada a comparação dos resultados encontrados entre os modelos considerando 1%  de contaminação para cada modelo. O objetivo é encontrar quais outliers foram encontrados simultaneamente entre os outliers encontrados para cada modelo para verificar se os registros anômalos encontrados em dois ou mais modelos têm mais chance de serem verdadeiro positivos.

In [131]:
# Bibliotecas de manipulação de dados
import pandas as pd
import numpy as np

# Biblioteca para desligar os alertas do Python
import warnings

warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)

In [132]:
# Carrega os índices dos valores anômalos encontrados pelo iForest
iforest = pd.read_csv(r'..\iforest\output\outliers.csv', encoding='latin-1')
iforest = iforest['idx']

# Carrega os índices dos valores anômalos encontrados pelo SOM
som = pd.read_csv(r'..\som\output\outliers.csv', encoding='latin-1')
som = som['idx']

# Carrega os índices dos valores anômalos encontrados pelo LOF
lof = pd.read_csv(r'..\lof\output\outliers.csv', encoding='latin-1')
lof = lof['idx']
lof

0      72126
1      72187
2      49364
3      49143
4      68373
       ...  
760    67036
761    74414
762    59750
763    63969
764    40329
Name: idx, Length: 765, dtype: int64

In [133]:
# Encontra a porcentagem de valores iguais entre dois conjuntos
def percentage_of_common_values(arr1, arr2):
    # Converte os arrays em sets para facilitar o cálculo
    set1 = set(arr1)
    set2 = set(arr2)
    
    # Calcula o tamanho da intersecção
    intersection_size = len(set1.intersection(set2))
    
    # Calcula a porcentagem
    percentage = (intersection_size / len(set1)) * 100
    
    return percentage

In [134]:
# Encontra a porcentagem de valores iguais entre os três conjuntos
def percentage_of_all_common_values(arr1, arr2, arr3):
    # Converte os arrays em sets para facilitar o cálculo
    set1 = set(arr1)
    set2 = set(arr2)
    set3 = set(arr3)
    
    # Calcula o tamanho da intersecção
    intersection_size = len(set1.intersection(set2).intersection(set3))
    
    # Calcula a porcentagem
    percentage = (intersection_size / len(set1)) * 100
    
    return percentage

In [135]:
# Calcula a porcentagem de valores que são encontrados entre os resultados do SOM e iForest
c1 = percentage_of_common_values(som, iforest)

# Calcula a porcentagem de valores que são encontrados entre os resultados do SOM e LOF
c2 = percentage_of_common_values(som, lof)

# Calcula a porcentagem de valores que são encontrados entre os resultados do LOF e iForest
c3 = percentage_of_common_values(lof, iforest)

# Calcula a porcentagem de valores que são encontrados entre os resultados de todos os modelos
c_all = percentage_of_all_common_values(som, iforest, lof)

In [136]:
# Imprime a porcentagem de valores que são encontrados entre os resultados do SOM e iForest
c1

28.49673202614379

In [137]:
# Imprime a porcentagem de valores que são encontrados entre os resultados do SOM e LOF
c2

6.405228758169934

In [138]:
# Imprime a porcentagem de valores que são encontrados entre os resultados do LOF e iForest
c3

4.313725490196078

In [139]:
# Imprime a porcentagem de valores que são encontrados entre os resultados de todos os conjuntos
c_all

1.045751633986928

In [140]:
# Encontra os índices da intersecção entre o SOM e iForest
intersection_set = set(som).intersection(iforest)
intersection_list = list(intersection_set)
som_iforest = pd.DataFrame(intersection_list, columns=['idx'])

#Salva os valores da intersecção
som_iforest.to_csv('output\som_iforest_intersec.csv', index=False)
som_iforest

Unnamed: 0,idx
0,46592
1,46593
2,46594
3,73219
4,46596
...,...
213,46587
214,46588
215,46589
216,46590


In [141]:
# Encontra os índices da intersecção entre o SOM e LOF
intersection_set = set(som).intersection(lof)
intersection_list = list(intersection_set)
som_lof = pd.DataFrame(intersection_list, columns=['idx'])

#Salva os valores da intersecção
som_lof.to_csv('output\som_lof_intersec.csv', index=False)
som_lof

Unnamed: 0,idx
0,72320
1,76293
2,46601
3,41995
4,72587
5,74126
6,63260
7,63261
8,63265
9,76453


In [142]:
# Encontra os índices da intersecção entre o LOF e iForest
intersection_set = set(lof).intersection(iforest)
intersection_list = list(intersection_set)
lof_iforest = pd.DataFrame(intersection_list, columns=['idx'])

#Salva os valores da intersecção
lof_iforest.to_csv('output\lof_iforest_intersec.csv', index=False)
lof_iforest

Unnamed: 0,idx
0,72194
1,46601
2,72203
3,72204
4,72087
5,72216
6,76451
7,76452
8,72233
9,72234


In [143]:
# Encontra os índices da intersecção entre todos os conjuntos
intersection_set = set(som).intersection(iforest).intersection(lof)
intersection_list = list(intersection_set)
all_intersec = pd.DataFrame(intersection_list, columns=['idx'])

#Salva os valores da intersecção
all_intersec.to_csv(r'output\all_intersec.csv', index=False)
all_intersec

Unnamed: 0,idx
0,62178
1,65219
2,72292
3,65218
4,46601
5,65203
6,76343
7,70971
