In [1]:
import os
import pandas as pd
import numpy as np
from scapy.all import *
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Conv1D, MaxPooling1D, Flatten, Dropout
from tensorflow.keras.utils import to_categorical
import random

In [2]:
# Tạo một danh sách chứa thông tin về tệp và nhãn
data = []

# Tạo một danh sách để theo dõi các tệp đã xử lý
processed_files = set()

# Định nghĩa hàm để xử lý tệp pcapng và trích xuất thông tin
def process_pcap(folder, label):
    for filename in os.listdir(folder):
        if filename.endswith('.pcapng'):
            file_path = os.path.join(folder, filename)
            
            # Kiểm tra xem tệp đã được xử lý chưa
            if file_path in processed_files:
                continue
            
            packets = rdpcap(file_path)
            for packet in packets:
                if packet.haslayer(TCP):
                    dest_port = packet[TCP].dport
                    src_port = packet[TCP].sport  # Thêm dòng này để trích xuất Source Port
                    packet_length = len(packet) / 8  # Convert bits to bytes
                    packet_length = packet_length / 255  # Normalize to [0, 1]
                    data.append({'File': file_path, 'Source Port': src_port, 'Destination Port': dest_port, 'Data Size': packet_length, 'Label': label})
            
            # Đánh dấu tệp đã được xử lý
            processed_files.add(file_path)

# Xử lý các tệp pcapng trong thư mục YouTube và gán nhãn là "YouTube"
process_pcap('youtube', 'YouTube')

# Xử lý các tệp pcapng trong thư mục Hangouts và gán nhãn là "Hangouts"
process_pcap('hangouts', 'Hangouts')

random.shuffle(data)
# Tạo DataFrame từ danh sách thông tin
df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,File,Source Port,Destination Port,Data Size,Label
0,youtube\youtube9.pcapng,443,54095,0.339216,YouTube
1,youtube\youtube4.pcapng,1900,54466,0.206373,YouTube
2,youtube\youtube10.pcapng,55157,443,0.026471,YouTube
3,hangouts\gg_hangouts8.pcapng,443,54118,0.026471,Hangouts
4,hangouts\gg_hangouts10.pcapng,55145,443,0.026471,Hangouts
...,...,...,...,...,...
17777,youtube\youtube4.pcapng,1900,54465,0.026471,YouTube
17778,youtube\youtube8.pcapng,443,55140,0.738235,YouTube
17779,hangouts\gg_hangouts4.pcapng,54674,443,0.065686,Hangouts
17780,youtube\youtube4.pcapng,54621,1900,0.177941,YouTube


In [6]:
# Chuyển đổi nhãn thành dạng số
label_encoder = LabelEncoder()
df['Label'] = label_encoder.fit_transform(df['Label'])

# Define the fixed packet length (e.g., 128 bytes)
fixed_packet_length = 128

# Pad or truncate byte values to match the fixed_packet_length
def pad_or_truncate_byte_values(byte_values):
    if len(byte_values) < fixed_packet_length:
        return byte_values + [0] * (fixed_packet_length - len(byte_values))
    else:
        return byte_values[:fixed_packet_length]

# Group packets by network flow and create matrices
network_flows = df.groupby(['File', 'Source Port', 'Destination Port'])

# Initialize lists to store network flow matrices and labels
flow_matrices = []
flow_labels = []

# Iterate through network flows and create matrices
for _, group in network_flows:
    byte_values = group['Data Size'].tolist()
    padded_byte_values = pad_or_truncate_byte_values(byte_values)
    flow_matrices.append(padded_byte_values)
    flow_labels.append(group['Label'].iloc[0])  # Assume all packets in the flow have the same label

# Convert the lists to numpy arrays
X_flow = np.array(flow_matrices)
y_flow = np.array(flow_labels)

# Reshape the data to match the input shape of the model
X_flow_reshaped = X_flow.reshape(X_flow.shape[0], fixed_packet_length, 1)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X_flow_reshaped, y_flow, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
X_train = (X_train - np.mean(X_train)) / np.std(X_train)
X_test = (X_test - np.mean(X_test)) / np.std(X_test)

# Xây dựng mô hình CNN
model = Sequential()

model.add(Conv1D(filters=64, kernel_size=2, activation='relu', input_shape=(fixed_packet_length, 1)))
model.add(MaxPooling1D(pool_size=1))

model.add(Conv1D(filters=64, kernel_size=2, activation='relu'))
model.add(MaxPooling1D(pool_size=1))

model.add(Flatten())
model.add(Dense(64, activation='relu'))

model.add(Dropout(0.5))
model.add(Dense(2, activation='softmax'))

# Biên dịch mô hình
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Huấn luyện mô hình
y_train_categorical = to_categorical(y_train)
model.fit(X_train, y_train_categorical, epochs=10, batch_size=32, validation_split=0.2)

# Đánh giá mô hình trên tập kiểm tra
y_test_categorical = to_categorical(y_test)
accuracy = model.evaluate(X_test, y_test_categorical)[1]
print(f'Accuracy on test data: {accuracy * 100:.2f}%')

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Accuracy on test data: 67.03%
