## Criação arquivos lookup ##

In [13]:
import json
import pandas as pd
import os

# Carregamento dos Dados de Tráfego
print("Carregando dados de tráfego...")
df_trafego = pd.read_csv("trafego_rede_simulado.csv")

# Criar diretório se não existir
os.makedirs("../data/graph", exist_ok=True)

# Gerar lookup para IPs únicos
unique_ips = pd.concat([df_trafego['src_ip'], df_trafego['dst_ip']]).unique()
ip_lookup = {str(ip): idx for idx, ip in enumerate(unique_ips)}

# Gerar lookup para portas únicas
unique_ports = df_trafego['dst_port'].unique()
port_lookup = {str(port): idx for idx, port in enumerate(unique_ports)}

# Salvar os dicionários como JSON
with open("../data/graph/ip_lookup.json", "w") as file:
    json.dump(ip_lookup, file, indent=4)

with open("../data/graph/port_lookup.json", "w") as file:
    json.dump(port_lookup, file, indent=4)

print("Arquivos ip_lookup.json e port_lookup.json recriados com sucesso!")


Carregando dados de tráfego...
Arquivos ip_lookup.json e port_lookup.json recriados com sucesso!


## Criação do corpus e das features ##

In [14]:
import json
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm
import pickle
import sys
import os
sys.path.append('../')

from src.preprocessing import *
from src.preprocessing.nlp import *

# Definição de parâmetros para filtragem e análise
FILTER = 5      # Número mínimo de pacotes para considerar

# Carregamento dos dados de tráfego da rede
print("Carregando dados de tráfego...")
df_trafego = pd.read_csv("trafego_rede_simulado.csv")
print(df_trafego.head())

# Aplicação do filtro de pacotes antes da renomeação de colunas
df_trafego = apply_packets_filter(df_trafego, FILTER)

# Renomeação de colunas para padronização
df_trafego.rename(columns={'dst_ip': 'destino', 'pacotes': 'pkts'}, inplace=True)

processed_df = [df_trafego]

# Carregamento do Ground Truth
print("Carregando dados de Ground Truth...")
gt = pd.read_csv("ground_truth_simulado.csv")

# Geração de estatísticas gerais
print("Calculando estatísticas gerais...")
df_merged = pd.concat(processed_df, ignore_index=True)[['src_ip', 'destino', 'pkts']]
df_merged = df_merged.merge(gt, on='src_ip', how='left').dropna()

print(df_merged.groupby('label').agg({
    'src_ip': lambda x: len(set(x)),  # Número de IPs únicos
    'destino': lambda x: len(set(x)),  # Número de destinos únicos
    'pkts': sum  # Soma total de pacotes
}))

# Carregamento da matriz de adjacência do grafo da rede
print("Carregando matriz de adjacência...")
df_grafo = pd.read_csv("matriz_adjacencia_simulada.txt", sep=" ", names=["origem", "destino", "peso"])

# Cálculo de estatísticas do grafo
total_nos = pd.concat([df_grafo['origem'], df_grafo['destino']]).nunique()
total_arestas = df_grafo.shape[0]

print(f"Total de Nós (IPs distintos): {total_nos}")
print(f"Total de Arestas (Conexões na Rede): {total_arestas}")

# Carregamento de dicionários de lookup
print("Carregando dicionários de lookup...")
with open("../data/graph/ip_lookup.json", "r") as file:
    ip_lookup = json.load(file)

with open("../data/graph/port_lookup.json", "r") as file:
    port_lookup = json.load(file)

# Extração de features dos nós com base nos dicionários de lookup
print("Extraindo features dos nós...")
df_merged['origem_id'] = df_merged['src_ip'].map(ip_lookup)
df_merged['destino_id'] = df_merged['destino'].map(ip_lookup)

node_features = df_merged.groupby('origem_id').agg({'pkts': ['mean', 'sum']}).reset_index()
node_features.columns = ['origem_id', 'media_pkts', 'soma_pkts']

print("Features extraídas com sucesso:")
print(node_features.head())

# Salvamento dos dados processados
os.makedirs("../data/features", exist_ok=True)
for day in df_trafego['interval'].unique():
    snapshot = df_trafego[df_trafego['interval'] == day]
    snapshot['origem_id'] = snapshot['src_ip'].map(ip_lookup)
    snapshot['destino_id'] = snapshot['destino'].map(ip_lookup)
    node_features_day = snapshot.groupby('origem_id').agg({'pkts': ['mean', 'sum']}).reset_index()
    node_features_day.columns = ['origem_id', 'media_pkts', 'soma_pkts']
    node_features_day.to_csv(f"../data/features/features_{day}.csv", index=False)
    print(f"Features do dia {day} salvas em '../data/features/features_{day}.csv'.")

print("Extração e salvamento de features concluídos! 🚀")

# Análise de tráfego para NLP
print("Analisando tráfego para NLP...")
raw_df = df_trafego.copy()

# Geração do corpus NLP
print("Gerando corpus NLP...")
tot_intervals = sorted(raw_df['interval'].unique())

for day in tqdm(tot_intervals):
    # Filtragem do tráfego do dia
    snapshot = raw_df[raw_df['interval'] == day].sort_values('ts')
    # Agrupamento de IPs de origem por porta de destino
    corpus = snapshot.groupby('dst_port')['src_ip'].apply(list).to_dict()
    # Ordenação das portas e alinhamento do corpus
    port_order = list(corpus.keys())
    corpus_list = [corpus[port] for port in port_order]
    # Criar diretório de saída
    os.makedirs("../data/corpus", exist_ok=True)
    # Salvamento do corpus NLP
    with open(f'../data/corpus/corpus_{day}.pkl', 'wb') as file:
        pickle.dump({'ports': port_order, 'corpus': corpus_list}, file)
    print(f"Corpus do dia {day} salvo com sucesso.")


Carregando dados de tráfego...
         src_ip        dst_ip  pacotes  bytes_transferidos protocolo  \
0   192.168.1.3  192.168.1.27      981               51284       UDP   
1  192.168.1.33  192.168.1.34      476               62016      ICMP   
2   192.168.1.6  192.168.1.27      702               74072       TCP   
3  192.168.1.50  192.168.1.17      634               62287       UDP   
4  192.168.1.10  192.168.1.43      558               13084       TCP   

   interval   ts  dst_port  
0        14  1.0     15579  
1        18  2.0     12631  
2        18  3.0     39440  
3        29  4.0      6357  
4         7  5.0     37372  
Carregando dados de Ground Truth...
Calculando estatísticas gerais...
                 src_ip  destino  pkts
label                                 
benign                1        6  2740
censys                1        6  2968
internetcensus        1        6  3473
mirai                 2       11  6019
securitytrails        1        4  4066
unk_bruteforcer    

  0%|          | 0/31 [00:00<?, ?it/s]

Corpus do dia 1 salvo com sucesso.
Corpus do dia 2 salvo com sucesso.
Corpus do dia 3 salvo com sucesso.
Corpus do dia 4 salvo com sucesso.
Corpus do dia 5 salvo com sucesso.
Corpus do dia 6 salvo com sucesso.
Corpus do dia 7 salvo com sucesso.
Corpus do dia 8 salvo com sucesso.
Corpus do dia 9 salvo com sucesso.
Corpus do dia 10 salvo com sucesso.
Corpus do dia 11 salvo com sucesso.
Corpus do dia 12 salvo com sucesso.
Corpus do dia 13 salvo com sucesso.
Corpus do dia 14 salvo com sucesso.
Corpus do dia 15 salvo com sucesso.
Corpus do dia 16 salvo com sucesso.
Corpus do dia 17 salvo com sucesso.
Corpus do dia 18 salvo com sucesso.
Corpus do dia 19 salvo com sucesso.
Corpus do dia 20 salvo com sucesso.
Corpus do dia 21 salvo com sucesso.
Corpus do dia 22 salvo com sucesso.
Corpus do dia 23 salvo com sucesso.
Corpus do dia 24 salvo com sucesso.
Corpus do dia 25 salvo com sucesso.
Corpus do dia 26 salvo com sucesso.
Corpus do dia 27 salvo com sucesso.
Corpus do dia 28 salvo com sucesso.
C

## Geração de embeddings (NLP) ##

In [15]:
from src.models.nlp import iWord2Vec
from tqdm.notebook import tqdm
import pickle
import glob
import os
import pandas as pd

# Inicializa o modelo
word2vec = iWord2Vec(c=5, e=128, epochs=1, seed=15)

# Processa os arquivos do corpus
for file in tqdm(sorted(glob.glob('../data/corpus/corpus_*.pkl'))):
    try:
        # Obtém o dia a partir do nome do arquivo
        day = file.split('/')[-1].replace('corpus_', '').replace('.pkl', '')
        
        # Valida se o dia é um número entre 1 e 31
        try:
            day_int = int(day)
            if not (1 <= day_int <= 31):
                print(f"Ignorando {file}: dia {day_int} inválido.")
                continue
        except ValueError:
            print(f"Ignorando {file}: nome do arquivo não contém um dia válido.")
            continue
        
        # Carrega o corpus
        with open(file, 'rb') as f:
            corpus_data = pickle.load(f)
        
        # Verifica a estrutura esperada
        if 'ports' not in corpus_data or 'corpus' not in corpus_data:
            print(f"Estrutura inválida em {file}. Ignorando.")
            continue
        
        port_order = corpus_data['ports']
        corpus = corpus_data['corpus']
        
        # Verifica se o corpus está vazio
        if not corpus:
            print(f"Corpus vazio em {file}. Ignorando.")
            continue
        
        # Treina ou atualiza o modelo conforme o dia
        if day_int == 1:
            print(f"Treinando modelo para o dia {day_int}...")
            word2vec.train(corpus)
        else:
            print(f"Atualizando modelo para o dia {day_int}...")
            word2vec.update(corpus)
        
        # Obtém os embeddings
        embeddings = word2vec.get_embeddings()
        if isinstance(embeddings, pd.DataFrame):
            embeddings.index.name = "src_ip"
            embeddings = embeddings.reset_index()
        else:
            embeddings = pd.DataFrame(embeddings)
            embeddings.insert(0, "src_ip", port_order)
        
        # Salva os embeddings em CSV
        os.makedirs("../data/nlp_embeddings", exist_ok=True)
        embeddings.to_csv(f'../data/nlp_embeddings/embeddings_idarkvec_{day}.csv', index=False)
        
        print(f"Embeddings do dia {day} salvos em '../data/nlp_embeddings/embeddings_idarkvec_{day}.csv'")
    
    except Exception as e:
        print(f"Erro ao processar {file}: {e}")


  0%|          | 0/31 [00:00<?, ?it/s]

Treinando modelo para o dia 1...
Embeddings do dia 1 salvos em '../data/nlp_embeddings/embeddings_idarkvec_1.csv'
Atualizando modelo para o dia 10...
Embeddings do dia 10 salvos em '../data/nlp_embeddings/embeddings_idarkvec_10.csv'
Atualizando modelo para o dia 11...
Embeddings do dia 11 salvos em '../data/nlp_embeddings/embeddings_idarkvec_11.csv'
Atualizando modelo para o dia 12...
Embeddings do dia 12 salvos em '../data/nlp_embeddings/embeddings_idarkvec_12.csv'
Atualizando modelo para o dia 13...
Embeddings do dia 13 salvos em '../data/nlp_embeddings/embeddings_idarkvec_13.csv'
Atualizando modelo para o dia 14...
Embeddings do dia 14 salvos em '../data/nlp_embeddings/embeddings_idarkvec_14.csv'
Atualizando modelo para o dia 15...
Embeddings do dia 15 salvos em '../data/nlp_embeddings/embeddings_idarkvec_15.csv'
Atualizando modelo para o dia 16...
Embeddings do dia 16 salvos em '../data/nlp_embeddings/embeddings_idarkvec_16.csv'
Atualizando modelo para o dia 17...
Embeddings do dia

## Classificação (NLP) ##

In [16]:
import pandas as pd
import numpy as np
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import os

# Carrega o arquivo de ground truth contendo os rótulos reais
gt_file = 'ground_truth_simulado.csv'
if not os.path.exists(gt_file):
    raise FileNotFoundError(f"Arquivo de ground truth {gt_file} não encontrado.")

gt = pd.read_csv(gt_file)

gt['src_ip'] = gt['src_ip'].astype(str)  # Garante que os endereços IP sejam tratados como strings

if 'src_ip' not in gt.columns or 'label' not in gt.columns:
    raise ValueError("O ground truth deve conter as colunas 'src_ip' e 'label'.")

# Implementação de um classificador k-NN personalizado com vizinhos adaptativos
class KnnClassifier:
    def __init__(self, n_neighbors=3, metric='cosine'):
        self.n_neighbors = n_neighbors
        self.metric = metric
        self.model = None  # O modelo será inicializado na chamada do método `fit`

    def fit(self, X_train, y_train, scale_data=False):
        num_samples = len(y_train)

        k = min(self.n_neighbors, num_samples)  # Ajusta `k` para não ser maior que o número de amostras disponíveis
        if k < 1:
            raise ValueError("Número insuficiente de amostras para classificação k-NN.")

        self.model = KNeighborsClassifier(n_neighbors=k, metric=self.metric)

        if scale_data:
            self.scaler = StandardScaler()
            X_train = self.scaler.fit_transform(X_train)  # Normaliza os dados antes do treinamento

        self.model.fit(X_train, y_train)  # Treina o modelo com os dados fornecidos

    def predict(self, X_test, scale_data=False):
        if self.model is None:
            raise ValueError("O modelo ainda não foi treinado.")

        if scale_data:
            X_test = self.scaler.transform(X_test)  # Normaliza os dados antes da predição

        return self.model.predict(X_test)  # Retorna as previsões do modelo

# Pipeline de classificação
def classification_pipeline(embeddings, gt):
    print("\nVerificando estrutura dos embeddings...")
    print(embeddings.head())  # Exibe amostras dos embeddings para verificação

    if 'src_ip' not in embeddings.columns:
        raise ValueError("Arquivo de embeddings não contém 'src_ip'. Verifique o formato.")

    embeddings['src_ip'] = embeddings['src_ip'].astype(str)  # Garante que os endereços IP sejam strings

    # Mescla os embeddings com o ground truth com base no campo 'src_ip'
    embeddings = embeddings.merge(gt, on='src_ip', how='left').fillna('unknown')

    print("\nDistribuição de rótulos antes da filtragem:")
    print(embeddings['label'].value_counts())  # Mostra a distribuição dos rótulos antes da filtragem

    valid_labels = embeddings['label'].value_counts().index
    embeddings.loc[~embeddings['label'].isin(valid_labels), 'label'] = 'unknown'

    # Remove registros com rótulo 'unknown' apenas se houver outras classes válidas
    if (embeddings['label'] == 'unknown').sum() != len(embeddings):
        embeddings = embeddings[embeddings['label'] != 'unknown']

    print("\nDistribuição de rótulos após a filtragem:")
    print(embeddings['label'].value_counts())  # Exibe a distribuição dos rótulos após a filtragem

    # Verifica se há classes suficientes para treinar o modelo
    if len(np.unique(embeddings['label'].values)) < 2:
        raise ValueError("\nErro: quantidade insuficiente de classes válidas para classificação. Verifique a distribuição de rótulos.")

    X_train = embeddings.drop(columns=['label', 'src_ip'], errors='ignore').values  # Remove colunas não numéricas
    y_train = np.ravel(embeddings[['label']].values)  # Obtém os rótulos para treinamento

    knn = KnnClassifier(n_neighbors=3, metric='cosine')
    knn.fit(X_train, y_train, scale_data=True)  # Treina o classificador

    valid_indices = np.arange(len(y_train)).astype(int).flatten()

    y_true = y_train[valid_indices]  # Obtém os rótulos verdadeiros
    y_pred = knn.predict(X_train[valid_indices], scale_data=True)  # Obtém as previsões do modelo

    crep = classification_report(y_true, y_pred, labels=np.unique(y_true), output_dict=True)  # Gera o relatório de classificação
    return crep

# Carrega o arquivo de embeddings e executa a classificação
embedding_file = '../data/nlp_embeddings/embeddings_idarkvec_2.csv'
if not os.path.exists(embedding_file):
    raise FileNotFoundError(f"Arquivo de embeddings {embedding_file} não encontrado.")

embeddings = pd.read_csv(embedding_file)

print("\nVerificando conteúdo do arquivo:")
print(embeddings.head())  # Exibe amostras do arquivo de embeddings para depuração

if 'src_ip' not in embeddings.columns:
    raise KeyError("A coluna 'src_ip' está ausente no arquivo de embeddings. Verifique o formato dos dados.")

embeddings['src_ip'] = embeddings['src_ip'].astype(str)  # Converte os IPs para string para garantir consistência

classification_report = classification_pipeline(embeddings, gt)  # Executa o pipeline de classificação

print("\nRelatório de Classificação:")
print(pd.DataFrame(classification_report).transpose())  # Exibe o relatório de classificação final



Verificando conteúdo do arquivo:
         src_ip         0         1         2         3         4         5  \
0  192.168.1.26  0.006738  0.003012  0.003212  0.004935 -0.004036 -0.002431   
1  192.168.1.33  0.002965 -0.003778  0.000793 -0.001849 -0.000688 -0.006697   
2  192.168.1.40 -0.001823  0.007714  0.007047 -0.003224  0.007148  0.004393   
3  192.168.1.38 -0.005350  0.004542 -0.001045  0.005886 -0.000692 -0.002025   
4   192.168.1.9 -0.002121 -0.001018 -0.006599 -0.000633 -0.002287  0.005048   

          6         7         8  ...       118       119       120       121  \
0 -0.004646 -0.007112 -0.000888  ... -0.006956  0.003519  0.003514  0.004902   
1 -0.006737  0.003017 -0.004178  ... -0.004152  0.002504 -0.000645  0.005921   
2 -0.002487 -0.000087  0.002947  ...  0.004844  0.000537  0.001595  0.000475   
3  0.004510  0.002709 -0.003699  ... -0.000646 -0.004903 -0.001364 -0.001819   
4  0.000739 -0.003050 -0.006083  ... -0.003366 -0.004525 -0.001277 -0.005287   

        12

## Geração de embeddings (GCN)

In [17]:
import pandas as pd
import torch
import json
import os
from tqdm.notebook import tqdm_notebook as tqdm
from collections import deque  # Para armazenar as matrizes de adjacência passadas
from src.preprocessing.gnn import generate_adjacency_matrices
from src.models.gnn import GCN
from glob import glob

epochs = 50  # Número de épocas de treinamento
HISTORY_DAYS = 5  # Número de snapshots passados a serem usados

# Caminhos para os diretórios de entrada e saída
DATASET_DIR = '../data'
GRAPH_DIR = f'{DATASET_DIR}/graph'
OUTPUT_DIR = f'{DATASET_DIR}/gnn_embeddings'

# Criar o diretório de saída caso ele não exista
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Carregar o dicionário de IPs
ip_lookup_path = f'{GRAPH_DIR}/ip_lookup.json'
if not os.path.exists(ip_lookup_path):
    raise FileNotFoundError(f"Arquivo de mapeamento de IPs não encontrado: {ip_lookup_path}")

with open(ip_lookup_path, 'r') as file:
    ip_lookup = json.load(file)
    reverse_lookup = {v: k for k, v in ip_lookup.items()}
    ip_nodes = len(reverse_lookup)

# Carregar a única matriz de adjacência disponível
graph_file = sorted(glob('*.txt'))


if not graph_file:
    raise FileNotFoundError(f"Nenhuma matriz de adjacência encontrada em {GRAPH_DIR}")

# Gerar a matriz de adjacência única
X_train = generate_adjacency_matrices(graph_file, ip_lookup_path, weighted=True)[0]
n_nodes = X_train.shape[0]  # Número total de nós

# Converter a matriz de adjacência para o formato esparso
X_train = X_train.to_sparse()

# Fila para armazenar os últimos 5 snapshots
history_queue = deque(maxlen=HISTORY_DAYS)

# Inicializar o modelo GCN uma única vez (mantém a memória do treinamento anterior)
gcn = GCN(
    n_nodes=n_nodes, 
    ns=1, 
    gcn_layers=2, 
    input_size=n_nodes, 
    gcn_units=1024, 
    gcn_output_size=512,
    embedding_size=128, 
    predictor_units=64, 
    dropout=0.0, 
    lr=1e-3, 
    cuda=torch.cuda.is_available(), 
    epochs=epochs,
    early_stop=10  # Permite que o modelo pare se não houver melhora por 10 épocas consecutivas
)

# Loop para processar os 31 dias
for i in tqdm(range(31), desc="Treinando GCN nos snapshots"):
    
    # Caso tenha histórico suficiente, calcular a média das últimas 5 matrizes de adjacência
    if len(history_queue) >= HISTORY_DAYS:
        X_dense_list = [x.to_dense() for x in history_queue]  # Converter todas as matrizes esparsas para densas
        X_input = torch.stack(X_dense_list).mean(dim=0).to_sparse()  # Calcular a média e converter de volta para esparsa
    else:
        X_input = X_train  # Usar a matriz de adjacência original caso o histórico não esteja completo

    # Garantir que a matriz de entrada esteja no formato esparso adequado
    X_input = X_input.coalesce()

    # Treinar o modelo usando a mesma matriz de adjacência, mas atualizando os embeddings
    gcn.fit(X_input, day=i)

    # Obter os embeddings considerando o histórico aprendido
    embeddings = gcn.get_embeddings(X_input)[:ip_nodes]

    # Ajustar o índice com os nós de IPs
    new_index = [reverse_lookup[x] for x in range(ip_nodes)]
    embeddings = pd.DataFrame(embeddings, index=new_index)

    # Formatar o nome do dia para salvar corretamente
    day = f"{i+1}"  

    # Caminho para salvar os embeddings
    ename= f'{OUTPUT_DIR}/embeddings_gcn_features_{day}.csv'
    embeddings.to_csv(ename)

    print(f"Embeddings do Dia {day} salvos em {ename}")

    # Armazenar o snapshot atual na fila de histórico para uso futuro
    history_queue.append(X_train)


Carregando matriz_adjacencia_simulada.txt...
matriz_adjacencia_simulada.txt - Dados convertidos para IDs numéricos:
   src  dst  weight
0   12   26       1
1   12   32       1
2   12   44       1
3   12   45       1
4    8    2       1


Treinando GCN nos snapshots:   0%|          | 0/31 [00:00<?, ?it/s]

Early stop condition met
Embeddings do Dia 1 salvos em ../data/gnn_embeddings/embeddings_gcn_features_1.csv
Early stop condition met
Embeddings do Dia 2 salvos em ../data/gnn_embeddings/embeddings_gcn_features_2.csv
Early stop condition met
Embeddings do Dia 3 salvos em ../data/gnn_embeddings/embeddings_gcn_features_3.csv
Early stop condition met
Embeddings do Dia 4 salvos em ../data/gnn_embeddings/embeddings_gcn_features_4.csv
Early stop condition met
Embeddings do Dia 5 salvos em ../data/gnn_embeddings/embeddings_gcn_features_5.csv
Early stop condition met
Embeddings do Dia 6 salvos em ../data/gnn_embeddings/embeddings_gcn_features_6.csv
Early stop condition met
Embeddings do Dia 7 salvos em ../data/gnn_embeddings/embeddings_gcn_features_7.csv
Early stop condition met
Embeddings do Dia 8 salvos em ../data/gnn_embeddings/embeddings_gcn_features_8.csv
Early stop condition met
Embeddings do Dia 9 salvos em ../data/gnn_embeddings/embeddings_gcn_features_9.csv
Early stop condition met
Emb

In [18]:
import pandas as pd
import torch
import json
import os
from glob import glob
from tqdm.notebook import tqdm
from src.preprocessing.gnn import generate_adjacency_matrices
from src.models.gnn import GCN

# Número de épocas de treinamento
EPOCHS = 50
# Caminho para os dados
DATASET_DIR = '../data'  # Ajuste conforme necessário
FEATURES_DIR = f'{DATASET_DIR}/features'
GRAPH_DIR = f'{DATASET_DIR}/graph'
OUTPUT_DIR = f'{DATASET_DIR}/gnn_embeddings'

# Criar diretório de saída se não existir
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Carregar dicionário de IPs
ip_lookup_path = f'{GRAPH_DIR}/ip_lookup.json'
if not os.path.exists(ip_lookup_path):
    raise FileNotFoundError(f"Arquivo de lookup de IPs não encontrado: {ip_lookup_path}")

with open(ip_lookup_path, 'r') as file:
    ip_lookup = json.load(file)
    reverse_lookup = {v: k for k, v in ip_lookup.items()}
    ip_nodes = len(reverse_lookup)

# Carregar matriz de adjacência
graph_files = sorted(glob('*.txt'))

if not graph_files:
    raise FileNotFoundError(f"Nenhuma matriz de adjacência encontrada em {GRAPH_DIR}")

# Gerar matriz de adjacência única (assumindo um único arquivo)
X_train = generate_adjacency_matrices(graph_files, ip_lookup_path, weighted=True)[0]
n_nodes = X_train.shape[0]  # Número total de nós

# Listar arquivos de features (um para cada dia)
feature_files = sorted(glob(f'{FEATURES_DIR}/*.csv'))

# Processar cada dia **individualmente**, mantendo a mesma matriz de adjacência
for i, feature_file in tqdm(enumerate(feature_files), total=len(feature_files), desc="Processando Snapshots"):
    
    # Carregar features do dia i
    feat = pd.read_csv(feature_file, index_col=[0]).sort_index()
    features_train_day = torch.tensor(feat.to_numpy(), dtype=torch.float32)

    # Ajustar o número de nós para alinhar features com a matriz de adjacência
    n_features = features_train_day.shape[1]

    # Garantir que features_train_day tenha o mesmo número de nós que X_train
    fixed_feat = torch.zeros((n_nodes, n_features))  # Criar tensor zerado
    num_feat_nodes = min(features_train_day.shape[0], n_nodes)
    fixed_feat[:num_feat_nodes, :] = features_train_day[:num_feat_nodes, :]  # Copiar dados existentes
    features_train_day = fixed_feat

    print(f"Processando Dia {i+1}:")
    print(f"X_train shape: {X_train.shape}")  # Deve ser (n_nodes, n_nodes)
    print(f"features_train_day shape: {features_train_day.shape}")  # Deve ser (n_nodes, n_features)

    # Inicializar o modelo GCN **apenas para esse dia**
    gcn = GCN(
        n_nodes=n_nodes,
        ns=1,
        gcn_layers=2,
        input_size=n_features,
        gcn_units=1024,
        gcn_output_size=512,
        embedding_size=128,
        predictor_units=64,
        dropout=0.0,
        lr=1e-3,
        cuda=torch.cuda.is_available(),
        epochs=EPOCHS,
        early_stop=3
    )

    # Treinar o modelo **apenas com os dados do dia i**
    gcn.fit(X_train, features=features_train_day, day=i)

    # Obter os embeddings **apenas desse dia**
    embeddings = gcn.get_embeddings(X_train, features_train_day)[:ip_nodes]

    # Ajustar índice com os nós de IPs
    new_index = [reverse_lookup[x] for x in range(ip_nodes)]
    embeddings = pd.DataFrame(embeddings, index=new_index)
    embeddings.index.name = "src_ip" 

    # Formatar o nome do dia para salvar corretamente
    day = f"{i+1}"  

    # Caminho para salvar os embeddings
    embedding_path = f'{OUTPUT_DIR}/embeddings_gcn_features_{day}.csv'
    embeddings.to_csv(embedding_path)

    print(f"Embeddings do dia {day} salvos em {embedding_path}")  

Carregando matriz_adjacencia_simulada.txt...
matriz_adjacencia_simulada.txt - Dados convertidos para IDs numéricos:
   src  dst  weight
0   12   26       1
1   12   32       1
2   12   44       1
3   12   45       1
4    8    2       1


Processando Snapshots:   0%|          | 0/31 [00:00<?, ?it/s]

Processando Dia 1:
X_train shape: torch.Size([50, 50])
features_train_day shape: torch.Size([50, 2])
Early stop condition met
Embeddings do dia 1 salvos em ../data/gnn_embeddings/embeddings_gcn_features_1.csv
Processando Dia 2:
X_train shape: torch.Size([50, 50])
features_train_day shape: torch.Size([50, 2])
Early stop condition met
Embeddings do dia 2 salvos em ../data/gnn_embeddings/embeddings_gcn_features_2.csv
Processando Dia 3:
X_train shape: torch.Size([50, 50])
features_train_day shape: torch.Size([50, 2])
Early stop condition met
Embeddings do dia 3 salvos em ../data/gnn_embeddings/embeddings_gcn_features_3.csv
Processando Dia 4:
X_train shape: torch.Size([50, 50])
features_train_day shape: torch.Size([50, 2])
Early stop condition met
Embeddings do dia 4 salvos em ../data/gnn_embeddings/embeddings_gcn_features_4.csv
Processando Dia 5:
X_train shape: torch.Size([50, 50])
features_train_day shape: torch.Size([50, 2])
Early stop condition met
Embeddings do dia 5 salvos em ../data/

## Classificação (GCN)

In [19]:
import pandas as pd
import numpy as np
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import os

# Carrega o arquivo de ground truth contendo os rótulos reais
gt_file = 'ground_truth_simulado.csv'
if not os.path.exists(gt_file):
    raise FileNotFoundError(f"Arquivo de ground truth {gt_file} não encontrado.")

gt = pd.read_csv(gt_file)
gt['src_ip'] = gt['src_ip'].astype(str)  # Garante que os endereços IP sejam strings

if 'src_ip' not in gt.columns or 'label' not in gt.columns:
    raise ValueError("O ground truth deve conter as colunas 'src_ip' e 'label'.")

# Implementação de um classificador k-NN personalizado com Leave-One-Out
class KnnClassifier:
    def __init__(self, n_neighbors=3, metric='cosine'):
        self.n_neighbors = n_neighbors
        self.metric = metric
        self.scaler = StandardScaler()  # Normalizador para os dados

    def fit(self, X_train, y_train):
        self.model = KNeighborsClassifier(n_neighbors=min(self.n_neighbors, len(y_train)), metric=self.metric)
        X_train = self.scaler.fit_transform(X_train)  # Normaliza os dados
        self.model.fit(X_train, y_train)

    def predict(self, X_test):
        X_test = self.scaler.transform(X_test)  # Normaliza os dados antes da predição
        return self.model.predict(X_test)

# Pipeline de classificação usando Leave-One-Out
def classification_pipeline(embeddings, gt):
    print("\nVerificando estrutura dos embeddings...")
    print(embeddings.head())  # Exibe amostras dos embeddings para verificação

    if 'src_ip' not in embeddings.columns:
        raise ValueError("Arquivo de embeddings não contém 'src_ip'. Verifique o formato.")

    embeddings['src_ip'] = embeddings['src_ip'].astype(str)  # Garante que os endereços IP sejam strings

    # Mescla os embeddings com o ground truth com base no campo 'src_ip'
    embeddings = embeddings.merge(gt, on='src_ip', how='left').fillna('unknown')

    print("\nDistribuição de rótulos antes da filtragem:")
    print(embeddings['label'].value_counts())  # Mostra a distribuição dos rótulos antes da filtragem

    valid_labels = embeddings['label'].value_counts().index
    embeddings.loc[~embeddings['label'].isin(valid_labels), 'label'] = 'unknown'

    # Remove registros com rótulo 'unknown' apenas se houver outras classes válidas
    if (embeddings['label'] == 'unknown').sum() != len(embeddings):
        embeddings = embeddings[embeddings['label'] != 'unknown']

    print("\nDistribuição de rótulos após a filtragem:")
    print(embeddings['label'].value_counts())  # Exibe a distribuição dos rótulos após a filtragem

    # Verifica se há classes suficientes para treinar o modelo
    if len(np.unique(embeddings['label'].values)) < 2:
        raise ValueError("\nErro: quantidade insuficiente de classes válidas para classificação. Verifique a distribuição de rótulos.")

    # Separar embeddings e rótulos
    X = embeddings.drop(columns=['label', 'src_ip'], errors='ignore').values
    y = np.ravel(embeddings[['label']].values)

    # Inicializa o classificador k-NN
    knn = KnnClassifier(n_neighbors=3, metric='cosine')

    # Leave-One-Out Cross Validation (LOO)
    y_true, y_pred = [], []
    for i in range(len(y)):
        X_train = np.delete(X, i, axis=0)  # Remove um IP do treino
        y_train = np.delete(y, i)  # Remove o rótulo correspondente
        X_test = X[i].reshape(1, -1)  # Usa o IP removido como teste
        y_test = y[i]  # Rótulo verdadeiro do IP de teste

        knn.fit(X_train, y_train)  # Treina o modelo sem o IP de teste
        y_pred.append(knn.predict(X_test)[0])  # Faz a predição
        y_true.append(y_test)  # Armazena o rótulo verdadeiro

    # Relatório de classificação
    crep = classification_report(y_true, y_pred, labels=np.unique(y_true), output_dict=True)
    return crep

# Processar os embeddings da GCN para classificação
emb_path = '../data/gnn_embeddings/'
fname = 'gcn_features_'  # Nome base dos arquivos de embeddings

final_reps = []
for day in range(1, 32):  # Dias de teste (1 a 31)
    embedding_file = f'{emb_path}/embeddings_{fname}{day}.csv'

    if not os.path.exists(embedding_file):
        print(f"Arquivo de embeddings {embedding_file} não encontrado. Pulando...")
        continue

    embeddings = pd.read_csv(embedding_file)
    embeddings['src_ip'] = embeddings['src_ip'].astype(str)  # Garantir que os IPs sejam strings

    print(f"\nProcessando embeddings do dia {day}...")

    # Executar a classificação para o dia usando Leave-One-Out
    crep = classification_pipeline(embeddings, gt)

    # Salvar os resultados do dia
    df = pd.DataFrame(crep).transpose()
    df.to_csv(f'../data/results/classification_gcn_{day}.csv')

    final_reps.append(df)

# Concatenar os resultados de todos os dias
df_final = pd.concat(final_reps, keys=range(1, 31))
df_final.to_csv('../data/results/classification_gcn_results.csv')

print("\nClassificação final concluída. Resultados salvos em '../data/results/classification_gcn_results.csv'")



Processando embeddings do dia 1...

Verificando estrutura dos embeddings...
         src_ip         0         1         2         3         4         5  \
0   192.168.1.3 -0.446166 -0.280962  0.004478 -0.299272  0.004644  0.002221   
1  192.168.1.33  5.811852  4.657792  0.004478  5.178214  0.004644  0.002221   
2   192.168.1.6 -0.446166  2.422536  0.004478  1.601347  0.004644  0.002221   
3  192.168.1.50 -0.098742  0.150052  0.004478  0.179612  0.004644  0.002221   
4  192.168.1.10  0.019109 -0.751369  0.004478 -0.640602  0.004644  0.002221   

         6         7         8  ...       118       119       120       121  \
0 -0.12294 -0.134398 -0.141837  ... -0.001993 -0.316058 -0.296959  0.005201   
1 -0.12294 -0.134398 -0.141837  ... -0.001993  5.577607  4.997903  0.005201   
2 -0.12294 -0.134398 -0.141837  ... -0.001993  0.493747  1.913123  0.005201   
3 -0.12294 -0.134398 -0.141837  ... -0.001993  0.200628  0.165536  0.005201   
4 -0.12294 -0.134398 -0.141837  ... -0.001993 -0.4757

OSError: Cannot save file into a non-existent directory: '../data/results'