In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.cluster import KMeans
from imblearn.under_sampling import EditedNearestNeighbours
import tensorflow as tf
from tensorflow.keras.optimizers import legacy
from tensorflow.keras import layers, Model
import pickle

In [2]:
with open('/content/drive/MyDrive/nsl_kdd_preprocessed.pkl', 'rb') as file:
    X_train, X_test, y_train, y_test = pickle.load(file)

In [3]:
print("Kích thước của tập huấn luyện (X_train):", X_train.shape)
print("Kích thước của tập kiểm tra (X_test):", X_test.shape)
print("Kích thước của tập huấn luyện (y_train):", y_train.shape)
print("Kích thước của tập kiểm tra (y_test):", y_test.shape)

Kích thước của tập huấn luyện (X_train): (125972, 41)
Kích thước của tập kiểm tra (X_test): (22543, 41)
Kích thước của tập huấn luyện (y_train): (125972,)
Kích thước của tập kiểm tra (y_test): (22543,)


In [4]:
# Thống kê số mẫu mỗi lớp
y_train.value_counts()

attack
0    67342
1    45927
2    11656
4      995
3       52
Name: count, dtype: int64

In [5]:
y_test.value_counts()

attack
0    9711
1    7459
4    2885
2    2421
3      67
Name: count, dtype: int64

In [6]:
t = 20000 # Maximum number in a label
# Lay danh sach cac class thuoc minority va majority
Smin = []
Smaj = []

for label, cnt in y_train.value_counts().items():
  if cnt >= (t * 0.7): # trainset:testset = 7:3
    Smaj.append(label)
  else:
    Smin.append(label)

print(Smin)
print(Smaj)

[2, 4, 3]
[0, 1]


In [7]:
# Số lượng cụm và tổng số mẫu cần lấy từ mỗi lớp
n_clusters = 5 # Num of classes
samples_needed_per_class = int(t * 0.7) # t * 0.7

# Khởi tạo một list để lưu các cụm và nhãn sau khi xử lý
selected_samples_X = []
selected_samples_y = []

# Lọc ra các mẫu dữ liệu chỉ thuộc các nhãn trong Smaj
majority_mask = np.isin(y_train, Smaj)
X_majority = X_train[majority_mask]
y_majority = y_train[majority_mask]

print('ENN')
# Áp dụng ENN để loại bỏ nhiễu
enn = EditedNearestNeighbours()
X_enn, y_enn = enn.fit_resample(X_majority, y_majority)

# Duyệt qua từng nhãn trong nhãn đã làm sạch
for label in Smaj:
    print('Label: ', label)
    label_mask = y_enn == label
    X_label = X_enn[label_mask]

    # Áp dụng k-means trên dữ liệu đã làm sạch cho mỗi nhãn
    if len(X_label) > 1:  # Kiểm tra có đủ dữ liệu để phân cụm không
        print('Clustering')
        kmeans = KMeans(n_clusters=n_clusters, random_state=0)
        kmeans.fit(X_label)
        labels = kmeans.labels_

        # Tính số mẫu cần lấy từ mỗi cụm
        cluster_counts = np.bincount(labels, minlength=n_clusters)
        cluster_ratios = cluster_counts / cluster_counts.sum()
        samples_per_cluster = np.floor(cluster_ratios * samples_needed_per_class).astype(int)

        # Đảm bảo rằng tổng số mẫu đúng bằng 16000, điều chỉnh nếu cần
        while samples_per_cluster.sum() < samples_needed_per_class:
            print('not enough')
            samples_per_cluster[np.argmax(cluster_counts - samples_per_cluster)] += 1

        print('Compressing')
        # Lấy mẫu từ mỗi cụm
        for cluster in range(n_clusters):
            print('Cluster ', cluster)

            cluster_mask = labels == cluster
            X_cluster = X_label[cluster_mask]

            if len(X_cluster) > 0:

                # Chọn ngẫu nhiên các mẫu từ cụm
                if len(X_cluster) > samples_per_cluster[cluster]:
                    indices = np.random.choice(len(X_cluster), samples_per_cluster[cluster], replace=False)
                    selected_samples_X.append(X_cluster.iloc[indices])
                    selected_samples_y.extend([label] * samples_per_cluster[cluster])
                else:
                    selected_samples_X.append(X_cluster)
                    selected_samples_y.extend([label] * len(X_cluster))

# Tạo tập dữ liệu cuối cùng từ các mẫu đã chọn
X_train_balanced = np.vstack(selected_samples_X)
y_train_balanced = np.array(selected_samples_y)

print("Số lượng mẫu cuối cùng được chọn: ", X_train_balanced.shape[0])

ENN
Label:  0
Clustering




not enough
not enough
not enough
Compressing
Cluster  0
Cluster  1
Cluster  2
Cluster  3
Cluster  4
Label:  1
Clustering




not enough
not enough
not enough
Compressing
Cluster  0
Cluster  1
Cluster  2
Cluster  3
Cluster  4
Số lượng mẫu cuối cùng được chọn:  28000


In [8]:
unique_values, counts = np.unique(y_train_balanced, return_counts=True)

# Hiển thị các giá trị và tần suất xuất hiện tương ứng
for value, count in zip(unique_values, counts):
    print(f'{value}: {count}')

0: 14000
1: 14000


In [9]:
# Khai báo các hằng số
BATCH_SIZE = 32
LATENT_DIM = 128
NUM_EPOCHS = 10
SAMPLES_TO_GENERATE = int(t * 0.7)

# Định nghĩa mô hình Generator
def build_generator():
    noise = layers.Input(shape=(LATENT_DIM,))
    x = layers.Dense(256, activation="relu")(noise)
    x = layers.BatchNormalization()(x)
    x = layers.Dense(512, activation="relu")(x)
    x = layers.BatchNormalization()(x)
    x = layers.Dense(1024, activation="relu")(x)
    x = layers.BatchNormalization()(x)
    x = layers.Dense(np.prod(X_train.shape[1:]), activation=None)(x)
    samp = layers.Reshape(X_train.shape[1:])(x)
    return Model(noise, samp)

# Định nghĩa mô hình Discriminator
def build_discriminator():
    samp = layers.Input(shape=X_train.shape[1:])
    x = layers.Flatten()(samp)
    x = layers.Dense(512, activation="relu")(x)
    x = layers.Dense(256, activation="relu")(x)
    x = layers.Dense(1)(x)
    return Model(samp, x)


# Hàm để sinh dữ liệu
def generate_data_for_class(label):
    global X_train_balanced, y_train_balanced, X_train, y_train
    current_data = X_train[y_train == label]
    current_samples = current_data.shape[0]
    samples_needed = SAMPLES_TO_GENERATE - current_samples

    X_train_balanced = np.concatenate([X_train_balanced, current_data], axis=0)
    y_train_balanced = np.concatenate([y_train_balanced, np.full(current_samples, label)], axis=0)

    if samples_needed > 0:
        noise = np.random.normal(0, 1, (samples_needed, LATENT_DIM))
        generated_samples = generator.predict(noise)

        # Gộp dữ liệu sinh ra vào X_train và y_train
        X_train_balanced = np.concatenate([X_train_balanced, generated_samples], axis=0)
        y_train_balanced = np.concatenate([y_train_balanced, np.full(samples_needed, label)], axis=0)

# Huấn luyện WGAN cho mỗi class thiểu số
for label in Smin:

    # Tối ưu hoá và loss function
    optimizer = legacy.RMSprop(lr=0.00005)

    generator = build_generator()
    discriminator = build_discriminator()

    discriminator.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy'])
    discriminator.trainable = False

    noise = layers.Input(shape=(LATENT_DIM,))
    samp = generator(noise)
    validity = discriminator(samp)
    combined = Model(noise, validity)
    combined.compile(loss='binary_crossentropy', optimizer=optimizer)

    data = X_train[y_train == label]
    valid = np.ones((BATCH_SIZE, 1))
    fake = -np.ones((BATCH_SIZE, 1))

    for epoch in range(NUM_EPOCHS):
        idx = np.random.randint(0, data.shape[0], BATCH_SIZE)
        real_samp = data.iloc[idx]

        noise = np.random.normal(0, 1, (BATCH_SIZE, LATENT_DIM))
        gen_samp = generator.predict(noise)

        d_loss_real = discriminator.train_on_batch(real_samp, valid)
        d_loss_fake = discriminator.train_on_batch(gen_samp, fake)
        d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

        g_loss = combined.train_on_batch(noise, valid)

    generate_data_for_class(label)  # Sinh dữ liệu cho class hiện tại

  super().__init__(name, **kwargs)




  super().__init__(name, **kwargs)




  super().__init__(name, **kwargs)




In [10]:
unique_values, counts = np.unique(y_train_balanced, return_counts=True)

# Hiển thị các giá trị và tần suất xuất hiện tương ứng
for value, count in zip(unique_values, counts):
    print(f'{value}: {count}')

0: 14000
1: 14000
2: 14000
3: 14000
4: 14000


In [11]:
# Giam du lieu X_test, y_test bang cach chon ngau nhien

def reduce_data(X_test, y_test, n):
    unique_classes = np.unique(y_test)
    X_test_reduced = np.empty((0, X_test.shape[1]))
    y_test_reduced = np.array([])

    for label in unique_classes:
        indices = np.where(y_test == label)[0]
        if len(indices) > n:
            indices = np.random.choice(indices, n, replace=False)
        X_subset = X_test.iloc[indices]
        y_subset = y_test.iloc[indices]

        X_test_reduced = np.vstack((X_test_reduced, X_subset))
        y_test_reduced = np.concatenate((y_test_reduced, y_subset))

    return X_test_reduced, y_test_reduced

X_test_reduced, y_test_reduced = reduce_data(X_test, y_test, int(t * 0.3))

In [12]:
y_test_reduced = y_test_reduced.astype('int64')
unique_values, counts = np.unique(y_test_reduced, return_counts=True)

# Hiển thị các giá trị và tần suất xuất hiện tương ứng
for value, count in zip(unique_values, counts):
    print(f'{value}: {count}')

0: 6000
1: 6000
2: 2421
3: 67
4: 2885


In [13]:
# Lưu dữ liệu vào file
data = {
    'X_train': X_train_balanced,
    'X_test': X_test_reduced,
    'y_train': y_train_balanced,
    'y_test': y_test_reduced
}

with open('nsl-kdd-balanced.pkl', 'wb') as file:
    pickle.dump(data, file)