# Import thư viện cần thiết

In [1]:
import os
import pandas as pd
import numpy as np
from scapy.all import *
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Conv2D, MaxPooling2D, Flatten, Dropout
from tensorflow.keras.utils import to_categorical
import random

# Đọc file, lấy đặc trưng (Source Port, Destination Port, Data Size) và gán nhãn

In [2]:
# Tạo một danh sách chứa thông tin về tệp và nhãn
data = []
# Tạo một danh sách để theo dõi các tệp đã xử lý
processed_files = set()
# Định nghĩa hàm để xử lý tệp pcapng và trích xuất thông tin
def extract_features_from_pcapng(folder_path, label):
    # Lấy danh sách tất cả các tệp pcapng trong thư mục
    pcapng_files = [f for f in os.listdir(folder_path) if f.endswith('.pcapng')]
    for file_name in pcapng_files:
        file_path = os.path.join(folder_path, file_name)
        # Đọc tệp pcapng
        packets = rdpcap(file_path)
        feature_dict = {}
        feature_dict['file'] = file_path
        for packet in packets:
            # Lấy thông tin địa chỉ IP nguồn và đích
            if IP in packet:
                feature_dict['source_ip'] = packet[IP].src
                feature_dict['destination_ip'] = packet[IP].dst
            # Lấy cổng nguồn và đích (nếu là giao thức TCP hoặc UDP)
            if TCP in packet:
                feature_dict['source_port'] = packet[TCP].sport
                feature_dict['destination_port'] = packet[TCP].dport
            elif UDP in packet:
                feature_dict['source_port'] = packet[UDP].sport
                feature_dict['destination_port'] = packet[UDP].dport
            # Lấy kích thước gói tin
            feature_dict['packet_length'] = len(packet)
            # Lấy thời gian trễ (timestamp)
            feature_dict['timestamp'] = packet.time
            # Đây là nơi bạn cần thêm nhãn (label) vào dữ liệu
            # Ví dụ: bạn có thể thay 'YOUR_LABEL' bằng nhãn thực tế của dữ liệu
            feature_dict['label'] = label
            data.append(feature_dict)
            
            
# Xử lý các tệp pcapng trong thư mục YouTube và gán nhãn là "YouTube"
extract_features_from_pcapng('youtube', 'YouTube')

# Xử lý các tệp pcapng trong thư mục Hangouts và gán nhãn là "Hangouts"
extract_features_from_pcapng('hangouts', 'Hangouts')

random.shuffle(data)
# Tạo DataFrame từ danh sách thông tin
df = pd.DataFrame(data)

# In ra thông tin
df

Unnamed: 0,file,source_ip,destination_ip,source_port,destination_port,packet_length,timestamp,label
0,youtube\youtube5.pcapng,192.168.16.103,162.159.134.234,54095,443,54,1693986939.993495,YouTube
1,youtube\youtube4.pcapng,52.159.49.199,192.168.16.103,443,53043,66,1693986674.838689,YouTube
2,hangouts\gg_hangouts4.pcapng,216.58.203.78,192.168.16.103,443,53523,42,1693987223.270949,Hangouts
3,youtube\youtube10.pcapng,192.168.16.103,162.159.136.234,55145,443,42,1693989976.206323,YouTube
4,youtube\youtube10.pcapng,192.168.16.103,162.159.136.234,55145,443,42,1693989976.206323,YouTube
...,...,...,...,...,...,...,...,...
614665,hangouts\gg_hangouts5.pcapng,192.168.16.103,216.58.200.238,56939,443,1285,1693987425.808476,Hangouts
614666,youtube\youtube10.pcapng,192.168.16.103,162.159.136.234,55145,443,42,1693989976.206323,YouTube
614667,youtube\youtube8.pcapng,192.168.16.103,40.100.55.2,59805,443,77,1693989213.414964,YouTube
614668,youtube\youtube5.pcapng,192.168.16.103,162.159.134.234,54095,443,54,1693986939.993495,YouTube


# Tiền xử lý dữ liệu để phù hợp với mô hình CNN

In [20]:
# Chuyển đổi nhãn (label) thành dạng số
label_encoder = LabelEncoder()
df['label'] = label_encoder.fit_transform(df['label'])

# Chuẩn bị dữ liệu
X = df[['source_ip', 'destination_ip', 'source_port', 'destination_port', 'packet_length', 'timestamp']]
y = df['label']

# Tiền xử lý dữ liệu (chẳng hạn, one-hot encoding cho các cột IP)
X = pd.get_dummies(X, columns=['source_ip', 'destination_ip'])

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Reshape dữ liệu để phù hợp với Conv2D
X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], 1, 1)
X_test = X_test.reshape(X_test.shape[0], X_test.shape[1], 1, 1)

# Chuyển đổi dữ liệu đầu ra thành mã hóa one-hot
y_train = to_categorical(y_train, num_classes=4)
y_test = to_categorical(y_test, num_classes=4)

# Xây dựng mô hình CNN

In [18]:
# Xây dựng mô hình Conv2D
model = Sequential()

model.add(Conv2D(filters=32, kernel_size=(2, 1), activation='relu', input_shape=(X_train.shape[1], 1, 1)))
model.add(Conv2D(filters=32, kernel_size=(2, 1), activation='relu', ))

model.add(MaxPooling2D(pool_size=(2, 1)))
model.add(Dropout(0.5))

model.add(Conv2D(filters=64, kernel_size=(2, 1), activation='relu'))
model.add(Conv2D(filters=64, kernel_size=(2, 1), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 1)))
model.add(Dropout(0.5))

model.add(Flatten())
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(4, activation='softmax'))

# Biên dịch mô hình
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Huấn luyện mô hình
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x1b0e9b0ee10>

# Đánh giá mô hình

In [23]:
# Đánh giá mô hình trên tập kiểm tra
evaluation = model.evaluate(X_test, y_test)

# evaluation là một mảng chứa các giá trị độ chính xác và hàm mất mát
accuracy = evaluation[1]
loss = evaluation[0]

print(f'Accuracy on test data: {accuracy * 100:.2f}%')
print(f'Loss on test data: {loss}')

Accuracy on test data: 97.94%
Loss on test data: 0.02943303808569908


In [12]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_4 (Conv2D)           (None, 21, 1, 32)         96        
                                                                 
 conv2d_5 (Conv2D)           (None, 20, 1, 32)         2080      
                                                                 
 max_pooling2d_4 (MaxPoolin  (None, 10, 1, 32)         0         
 g2D)                                                            
                                                                 
 dropout_2 (Dropout)         (None, 10, 1, 32)         0         
                                                                 
 conv2d_6 (Conv2D)           (None, 9, 1, 64)          4160      
                                                                 
 conv2d_7 (Conv2D)           (None, 8, 1, 64)          8256      
                                                      