# Comparação Probabilidade de Detecção

No jupyter anterior, a ideia foi mostrar o comecinho de até onde o ML pode chegar. Aqui a ideia vai ser comparar o desempenho do ML com os algoritmos originais.

### Importações

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from time import time
from sklearn.linear_model import SGDClassifier
from sklearn.utils import shuffle
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import KFold

In [2]:
#DEFININDO ALGUNS PARÂMETROS DO GRÁFICO
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
params = {
    'figure.figsize': [12, 3.3], 
    'axes.labelsize': 12,
    'axes.titlesize':14, 
    'font.size': 12,
    'legend.fontsize': 10, 
    'xtick.labelsize': 10, 
    'ytick.labelsize': 10,
    'axes.axisbelow': True
}
plt.rcParams.update(params)

### Definição de funções

In [3]:
def obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures=None):
    
    # CONSTRUO O CAMINHO
    caminhoCSV = "../../CSV/dataset_"+str(qtdUsuarios)+"usuarios_"+str(qtdAntenas)+"antenas_"+str(qtdSimbolos)+"simbolos.csv"    
    
    # ABRO O CSV
    datasetCSV = pd.read_csv(caminhoCSV)
    
     # DROPANDO AS FEATURES DESEJADAS
    if droparFeatures != None:
        datasetCSV = datasetCSV.drop(droparFeatures, axis=1)

    # SEPARANDO DATA, TARGET, POTENCIA DO ESPIAO E SNR DE CADA DADO
    arrayData      = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
    arrayTarget    = datasetCSV[datasetCSV.columns[-1]].to_numpy()
    arraySNR       = datasetCSV[datasetCSV.columns[0]].to_numpy()
    arrayPotEspiao = datasetCSV[datasetCSV.columns[-2]].to_numpy()
    
    # RETORNO OS DADOS
    return arrayData, arrayTarget, arraySNR, arrayPotEspiao

In [4]:
def obterValoresUnicos(arraySNR, arrayPotEspiao):
    rangeSNRs      = np.unique(arraySNR)
    rangePotEspiao = np.unique(arrayPotEspiao)
    return rangeSNRs, rangePotEspiao

In [5]:
def treinarEClassificar(xTrain, xTest, yTrain, classificador):

    # TREINANDO O CLASSIFICADOR
    objClassificador = eval(classificador)
    objClassificador.fit(xTrain, yTrain)

    # PREDIZENDO OS DE TESTE
    yPred = objClassificador.predict(xTest)
        
    return yPred

In [6]:
def deteccaoHassan(xTest):
    
    yPred = []
    
    for dadoAtual in xTest:
        if dadoAtual[1] > dadoAtual[2]:
            yPred.append(1)
        else:
            yPred.append(0)
    
    return np.array(yPred)

In [7]:
def deteccaoKapetanovic(xTest, threshold):
    
    yPred = []
    
    for dadoAtual in xTest:
        if dadoAtual[1]/dadoAtual[2] > threshold:
            yPred.append(1)
        else:
            yPred.append(0)
    
    return np.array(yPred)

In [8]:
def obterMetricas(matrizConfusao):
    
    acuracia  = 0.0
    precisao  = 0.0
    revocacao = 0.0
    
    if np.sum(matrizConfusao) != 0:
        acuracia  = (matrizConfusao[0][0]+matrizConfusao[1][1])/np.sum(matrizConfusao)
    if (matrizConfusao[1][1] + matrizConfusao[0][1]) != 0:
        precisao  = matrizConfusao[1][1]/(matrizConfusao[1][1] + matrizConfusao[0][1])
    if (matrizConfusao[1][1] + matrizConfusao[1][0]) != 0:
        revocacao = matrizConfusao[1][1]/(matrizConfusao[1][1] + matrizConfusao[1][0])
    
    return acuracia, precisao, revocacao

In [9]:
def iniciarJSON(arquivoSalvar):
    objFile = open(arquivoSalvar, mode="a")
    objFile.write("[")
    objFile.close()

In [10]:
def encerrarJSON(arquivoSalvar):
    objFile = open(arquivoSalvar, mode="a")
    objFile.write("\n]")
    objFile.close()

In [11]:
def salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=True):
    
    acuracia, precisao, revocacao = obterMetricas(matrizConfusao)
    
    string  = '\n{"qtdUsuarios":"' + str(qtdUsuarios)
    string += '","qtdAntenas":"' + str(qtdAntenas)
    string += '","qtdSimbolos":"' + str(qtdSimbolos)
    string += '","descricao":"' + str(descricao)
    string += '","droparFeatures":"' + str(droparFeatures).replace('\n', '').replace(' ', ',').replace(',,', ',')
    string += '","repetibilidadeDataset":"' + str(repetibilidadeDataset)
    string += '","qtdFolders":"' + str(qtdFolders)
    string += '","acuracia":"' + str(acuracia)
    string += '","precisao":"' + str(precisao)
    string += '","revocacao":"' + str(revocacao)
    string += '","rangePotEspiao":"' + str(rangePotEspiao).replace('\n', '').replace(' ', ',').replace(',,', ',')
    string += '","rangeSNRs":"' + str(rangeSNRs).replace('\n', '').replace(' ', ',').replace(',,', ',').replace(',,', ',')
    string += '","matrizProbabilidadeDeteccao":"' + str(matrizProbabilidadeDeteccao).replace('\n', '').replace(' ', ',').replace(',,', ',').replace(',,', ',')
    string += '","matrizConfusao":"' + str(matrizConfusao.tolist()).replace('\n', '').replace(' ', ',').replace(',,', ',') + '"}'
    
    if sum(1 for line in open(arquivoSalvar)) != 1:
        string = "," + string
    
    objFile = open(arquivoSalvar, mode="a")
    objFile.write(string)
    objFile.close()
    
    if plotar == True:
        printarResultado(matrizProbabilidadeDeteccao, matrizConfusao, rangePotEspiao, rangeSNRs, qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures, acuracia, precisao, revocacao)

In [12]:
def printarResultado(matrizProbabilidadeDeteccao, matrizConfusao, rangePotEspiao, rangeSNRs, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, acuracia, precisao, revocacao):
    
    # MONTANDO O TITULO DA FIGURA
    titulo  = descricao + "\n"
    titulo += "Usuários: " + str(qtdUsuarios) + " - Antenas: " + str(qtdAntenas) + " - Símbolos: " + str(qtdSimbolos) + "\n"
    titulo += "Acurácia: " + str(acuracia)[:7] + " - Precisão: " + str(precisao)[:7] + " - Revocação: " + str(revocacao)[:7] + "\n"
    
    # CRIANDO O PRIMEIRO GRAFICO
    fig, axs = plt.subplots(1, 2)
    for i in range(len(rangePotEspiao)):
        axs[0].plot(rangeSNRs, matrizProbabilidadeDeteccao[i], label="Potência do Espião: "+str(rangePotEspiao[i]))
    axs[0].set_xlabel("SNR")
    axs[0].set_ylabel("Probabilidade de Detecção")
    axs[0].grid(alpha=0.5)
    axs[0].legend()
    
    # CRIANDO A MATRIZ DE CONFUSAO
    axs[1].imshow(matrizConfusao, cmap="gray")
    for (j,i), total in np.ndenumerate(matrizConfusao):
        axs[1].text(i, j, int(total), ha="center", va="center", color="#e6005c", size=15)
    axs[1].set_xlabel("Predito")
    axs[1].set_ylabel("Real")
    axs[1].set_xticklabels([])
    axs[1].set_yticklabels([])
    
    # PRINTANDO
    plt.suptitle(titulo, y=1.15)
    plt.show()

### Parâmetros iniciais

In [13]:
classificador         = "RandomForestClassifier(n_estimators=10, n_jobs=-1)"
arquivoSalvar         = "../../Resultados/probabilidadeDeteccao_" + str(time()) + ".json"
qtdFolders            = 5
qtdAntenas            = 256
qtdSimbolos           = 128
repetibilidadeDataset = 1000
rangeQtdUsuarios      = np.array([1, 2, 4, 8, 16, 32, 64, 128, 256])

### Iniciando o JSON

In [14]:
iniciarJSON(arquivoSalvar)

# COMEÇANDO

## Rodando com ML e todas as features

In [15]:
descricao      = "Detecção baseada em " + classificador.split("(")[0] + " com todas as features"
droparFeatures = None

# PARA CADA DATASET
for qtdUsuarios in rangeQtdUsuarios:
    
    # PEGO O QUE E O QUE
    arrayData, arrayTarget, arraySNR, arrayPotEspiao = obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures)
    
    # VALORES UNICOS DE SNR E POTENCIA DE ESPIAO PRA EU SABER O INDEX DAS MATRIZES DE RESULTADOS
    rangeSNRs, rangePotEspiao = obterValoresUnicos(arraySNR, arrayPotEspiao)
    
    # MATRIZES QUE VAO GUARDAR OS RESULTADOS
    matrizProbabilidadeDeteccao = np.zeros(shape=(len(rangePotEspiao), len(rangeSNRs)))
    matrizConfusao              = np.zeros((2,2))
    
    # KFOLD
    objKFold = KFold(n_splits=qtdFolders, shuffle=True)
    for arrayIndexesTreinamento, arrayIndexesTeste in objKFold.split(arrayData):
        
        # TREINO E TESTE
        xTrain, xTest, yTrain, yTest = arrayData[arrayIndexesTreinamento], arrayData[arrayIndexesTeste], arrayTarget[arrayIndexesTreinamento], arrayTarget[arrayIndexesTeste]
        
        # CLASSIFICACAO
        yPred = treinarEClassificar(xTrain, xTest, yTrain, classificador)
        
        # AGREGO NA CONFUSION MATRIX
        matrizConfusao += confusion_matrix(yTest, yPred)
        
        # AGREGO NA MATRIZ DE PROB DE DETECCAO
        for (indexTesteAtual, predicaoAtual) in zip(arrayIndexesTeste, yPred):
            
            # PEGANDO EM QUAL LINHA E EM QUAL COLUNA DA MATRIZ EU VOU COLOCAR O RESULTADO
            indexPotEsp = np.where(rangePotEspiao==arrayPotEspiao[indexTesteAtual])[0][0]
            indexSNR    = np.where(rangeSNRs==arraySNR[indexTesteAtual])[0][0]
            
            # JA SOMO COM A PROBABILIDADE (DIVIDINDO PELA REPETIBILIDADE)
            matrizProbabilidadeDeteccao[indexPotEsp][indexSNR] += predicaoAtual/repetibilidadeDataset
    
    # CONSIDERANDO QUE O DATASET ESTA BALANCEADO, HA MUITO MAIS REPETIBILIDADE QUANDO POTESP = 0
    matrizProbabilidadeDeteccao[0] /= (len(rangePotEspiao) - 1)
    
    # SALVANDO E PRINTANDO
    salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=False)

## Rodando com ML apenas com os autovalores

In [16]:
descricao      = "Detecção baseada em " + classificador.split("(")[0] + " apenas com os três autovalores do Kapetanovic"
droparFeatures = ["E","eta"]

# PARA CADA DATASET
for qtdUsuarios in rangeQtdUsuarios:
    
    # PEGO O QUE E O QUE
    arrayData, arrayTarget, arraySNR, arrayPotEspiao = obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures)
    
    # VALORES UNICOS DE SNR E POTENCIA DE ESPIAO PRA EU SABER O INDEX DAS MATRIZES DE RESULTADOS
    rangeSNRs, rangePotEspiao = obterValoresUnicos(arraySNR, arrayPotEspiao)
    
    # MATRIZES QUE VAO GUARDAR OS RESULTADOS
    matrizProbabilidadeDeteccao = np.zeros(shape=(len(rangePotEspiao), len(rangeSNRs)))
    matrizConfusao              = np.zeros((2,2))
    
    # KFOLD
    objKFold = KFold(n_splits=qtdFolders, shuffle=True)
    for arrayIndexesTreinamento, arrayIndexesTeste in objKFold.split(arrayData):
        
        # TREINO E TESTE
        xTrain, xTest, yTrain, yTest = arrayData[arrayIndexesTreinamento], arrayData[arrayIndexesTeste], arrayTarget[arrayIndexesTreinamento], arrayTarget[arrayIndexesTeste]
        
        # CLASSIFICACAO
        yPred = treinarEClassificar(xTrain, xTest, yTrain, classificador)
        
        # AGREGO NA CONFUSION MATRIX
        matrizConfusao += confusion_matrix(yTest, yPred)
        
        # AGREGO NA MATRIZ DE PROB DE DETECCAO
        for (indexTesteAtual, predicaoAtual) in zip(arrayIndexesTeste, yPred):
            
            # PEGANDO EM QUAL LINHA E EM QUAL COLUNA DA MATRIZ EU VOU COLOCAR O RESULTADO
            indexPotEsp = np.where(rangePotEspiao==arrayPotEspiao[indexTesteAtual])[0][0]
            indexSNR    = np.where(rangeSNRs==arraySNR[indexTesteAtual])[0][0]
            
            # JA SOMO COM A PROBABILIDADE (DIVIDINDO PELA REPETIBILIDADE)
            matrizProbabilidadeDeteccao[indexPotEsp][indexSNR] += predicaoAtual/repetibilidadeDataset
    
    # CONSIDERANDO QUE O DATASET ESTA BALANCEADO, HA MUITO MAIS REPETIBILIDADE QUANDO POTESP = 0
    matrizProbabilidadeDeteccao[0] /= (len(rangePotEspiao) - 1) 
    
    # SALVANDO E PRINTANDO
    salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=False)

## Rodando com ML apenas com E e eta

In [17]:
descricao      = "Detecção baseada em " + classificador.split("(")[0] + " apenas com E e eta do Hassan"
droparFeatures = ["a1","a2","a3"]

# PARA CADA DATASET
for qtdUsuarios in rangeQtdUsuarios:
    
    # PEGO O QUE E O QUE
    arrayData, arrayTarget, arraySNR, arrayPotEspiao = obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures)
    
    # VALORES UNICOS DE SNR E POTENCIA DE ESPIAO PRA EU SABER O INDEX DAS MATRIZES DE RESULTADOS
    rangeSNRs, rangePotEspiao = obterValoresUnicos(arraySNR, arrayPotEspiao)
    
    # MATRIZES QUE VAO GUARDAR OS RESULTADOS
    matrizProbabilidadeDeteccao = np.zeros(shape=(len(rangePotEspiao), len(rangeSNRs)))
    matrizConfusao              = np.zeros((2,2))
    
    # KFOLD
    objKFold = KFold(n_splits=qtdFolders, shuffle=True)
    for arrayIndexesTreinamento, arrayIndexesTeste in objKFold.split(arrayData):
        
        # TREINO E TESTE
        xTrain, xTest, yTrain, yTest = arrayData[arrayIndexesTreinamento], arrayData[arrayIndexesTeste], arrayTarget[arrayIndexesTreinamento], arrayTarget[arrayIndexesTeste]
        
        # CLASSIFICACAO
        yPred = treinarEClassificar(xTrain, xTest, yTrain, classificador)
        
        # AGREGO NA CONFUSION MATRIX
        matrizConfusao += confusion_matrix(yTest, yPred)
        
        # AGREGO NA MATRIZ DE PROB DE DETECCAO
        for (indexTesteAtual, predicaoAtual) in zip(arrayIndexesTeste, yPred):
            
            # PEGANDO EM QUAL LINHA E EM QUAL COLUNA DA MATRIZ EU VOU COLOCAR O RESULTADO
            indexPotEsp = np.where(rangePotEspiao==arrayPotEspiao[indexTesteAtual])[0][0]
            indexSNR    = np.where(rangeSNRs==arraySNR[indexTesteAtual])[0][0]
            
            # JA SOMO COM A PROBABILIDADE (DIVIDINDO PELA REPETIBILIDADE)
            matrizProbabilidadeDeteccao[indexPotEsp][indexSNR] += predicaoAtual/repetibilidadeDataset
    
    # CONSIDERANDO QUE O DATASET ESTA BALANCEADO, HA MUITO MAIS REPETIBILIDADE QUANDO POTESP = 0
    matrizProbabilidadeDeteccao[0] /= (len(rangePotEspiao) - 1)
    
    # SALVANDO E PRINTANDO
    salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=False)

## Rodando algoritmo do Hassan E>eta

In [18]:
descricao      = "Detecção baseada no algoritmo do Hassan"
droparFeatures = ["a1","a2","a3"]

# PARA CADA DATASET
for qtdUsuarios in rangeQtdUsuarios:
    
    # PEGO O QUE E O QUE
    arrayData, arrayTarget, arraySNR, arrayPotEspiao = obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures)
    
    # VALORES UNICOS DE SNR E POTENCIA DE ESPIAO PRA EU SABER O INDEX DAS MATRIZES DE RESULTADOS
    rangeSNRs, rangePotEspiao = obterValoresUnicos(arraySNR, arrayPotEspiao)
    
    # MATRIZES QUE VAO GUARDAR OS RESULTADOS
    matrizProbabilidadeDeteccao = np.zeros(shape=(len(rangePotEspiao), len(rangeSNRs)))
    matrizConfusao              = np.zeros((2,2))
    
    # KFOLD
    objKFold = KFold(n_splits=qtdFolders, shuffle=True)
    for arrayIndexesTreinamento, arrayIndexesTeste in objKFold.split(arrayData):
        
        # TREINO E TESTE
        xTrain, xTest, yTrain, yTest = arrayData[arrayIndexesTreinamento], arrayData[arrayIndexesTeste], arrayTarget[arrayIndexesTreinamento], arrayTarget[arrayIndexesTeste]
        
        # CLASSIFICACAO
        yPred = deteccaoHassan(xTest)
        
        # AGREGO NA CONFUSION MATRIX
        matrizConfusao += confusion_matrix(yTest, yPred)
        
        # AGREGO NA MATRIZ DE PROB DE DETECCAO
        for (indexTesteAtual, predicaoAtual) in zip(arrayIndexesTeste, yPred):
            
            # PEGANDO EM QUAL LINHA E EM QUAL COLUNA DA MATRIZ EU VOU COLOCAR O RESULTADO
            indexPotEsp = np.where(rangePotEspiao==arrayPotEspiao[indexTesteAtual])[0][0]
            indexSNR    = np.where(rangeSNRs==arraySNR[indexTesteAtual])[0][0]
            
            # JA SOMO COM A PROBABILIDADE (DIVIDINDO PELA REPETIBILIDADE)
            matrizProbabilidadeDeteccao[indexPotEsp][indexSNR] += predicaoAtual/repetibilidadeDataset
    
    # CONSIDERANDO QUE O DATASET ESTA BALANCEADO, HA MUITO MAIS REPETIBILIDADE QUANDO POTESP = 0
    matrizProbabilidadeDeteccao[0] /= (len(rangePotEspiao) - 1)
    
    # SALVANDO E PRINTANDO
    salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=False)

## Rodando algoritmo do Kapetanovic a1/a2 > threshold

In [19]:
descricao      = "Detecção baseada no algoritmo do Kapetanovic"
droparFeatures = ["E","eta","a3"]

# PARA CADA DATASET
for qtdUsuarios in rangeQtdUsuarios:
    
    # PEGO O QUE E O QUE
    arrayData, arrayTarget, arraySNR, arrayPotEspiao = obterDados(qtdUsuarios, qtdAntenas, qtdSimbolos, droparFeatures)
    
    # VALORES UNICOS DE SNR E POTENCIA DE ESPIAO PRA EU SABER O INDEX DAS MATRIZES DE RESULTADOS
    rangeSNRs, rangePotEspiao = obterValoresUnicos(arraySNR, arrayPotEspiao)
    
    # MATRIZES QUE VAO GUARDAR OS RESULTADOS
    matrizProbabilidadeDeteccao = np.zeros(shape=(len(rangePotEspiao), len(rangeSNRs)))
    matrizConfusao              = np.zeros((2,2))
    
    # KFOLD
    objKFold = KFold(n_splits=qtdFolders, shuffle=True)
    for arrayIndexesTreinamento, arrayIndexesTeste in objKFold.split(arrayData):
        
        # TREINO E TESTE
        xTrain, xTest, yTrain, yTest = arrayData[arrayIndexesTreinamento], arrayData[arrayIndexesTeste], arrayTarget[arrayIndexesTreinamento], arrayTarget[arrayIndexesTeste]
        
        # CLASSIFICACAO
        yPred = deteccaoKapetanovic(xTest, 100)
        
        # AGREGO NA CONFUSION MATRIX
        matrizConfusao += confusion_matrix(yTest, yPred)
        
        # AGREGO NA MATRIZ DE PROB DE DETECCAO
        for (indexTesteAtual, predicaoAtual) in zip(arrayIndexesTeste, yPred):
            
            # PEGANDO EM QUAL LINHA E EM QUAL COLUNA DA MATRIZ EU VOU COLOCAR O RESULTADO
            indexPotEsp = np.where(rangePotEspiao==arrayPotEspiao[indexTesteAtual])[0][0]
            indexSNR    = np.where(rangeSNRs==arraySNR[indexTesteAtual])[0][0]
            
            # JA SOMO COM A PROBABILIDADE (DIVIDINDO PELA REPETIBILIDADE)
            matrizProbabilidadeDeteccao[indexPotEsp][indexSNR] += predicaoAtual/repetibilidadeDataset
    
    # CONSIDERANDO QUE O DATASET ESTA BALANCEADO, HA MUITO MAIS REPETIBILIDADE QUANDO POTESP = 0
    matrizProbabilidadeDeteccao[0] /= (len(rangePotEspiao) - 1)
    
    # SALVANDO E PRINTANDO
    salvarResultado(arquivoSalvar, qtdUsuarios, qtdAntenas, qtdSimbolos, descricao, droparFeatures, repetibilidadeDataset, qtdFolders, rangePotEspiao, rangeSNRs, matrizProbabilidadeDeteccao, matrizConfusao, plotar=False)    

### Encerrando o JSON

In [20]:
encerrarJSON(arquivoSalvar)