# Mô tả các Nhóm Đặc Trưng Luồng Mạng (Network Flow Features)

## Nhóm 1: Thông tin cơ bản về luồng mạng (Network Flow Information)
- **id.orig_p**: Cổng nguồn (source port) của luồng mạng.  
- **id.resp_p**: Cổng đích (destination port) của luồng mạng.  
- **proto**: Giao thức mạng được sử dụng (ví dụ: TCP, UDP).  
- **service**: Dịch vụ liên quan đến luồng mạng (ví dụ: MQTT, HTTP, hoặc "-").  
- **flow_duration**: Thời gian tồn tại của luồng mạng (tính bằng giây).  

## Nhóm 2: Thống kê gói tin (Packet Statistics)
- **fwd_pkts_tot**: Tổng số gói tin từ nguồn đến đích (forward).  
- **bwd_pkts_tot**: Tổng số gói tin từ đích đến nguồn (backward).  
- **fwd_data_pkts_tot**: Gói tin chứa dữ liệu từ nguồn đến đích.  
- **bwd_data_pkts_tot**: Gói tin chứa dữ liệu từ đích đến nguồn.  
- **fwd_pkts_per_sec**: Tốc độ forward packets mỗi giây.  
- **bwd_pkts_per_sec**: Tốc độ backward packets mỗi giây.  
- **flow_pkts_per_sec**: Tổng tốc độ gói tin mỗi giây.  
- **down_up_ratio**: Tỷ lệ giữa gói tin backward và forward.  

## Nhóm 3: Kích thước tiêu đề gói tin (Header Size Statistics)
- **fwd_header_size_tot**, **min**, **max**: Tổng, nhỏ nhất, lớn nhất kích thước tiêu đề gói forward.  
- **bwd_header_size_tot**, **min**, **max**: Tổng, nhỏ nhất, lớn nhất kích thước tiêu đề gói backward.  

## Nhóm 4: Cờ TCP (TCP Flags)
- **flow_FIN_flag_count**, **SYN**, **RST**, **ACK**, **CWR**, **ECE**: Số lần xuất hiện các cờ FIN, SYN, RST, ACK, CWR, ECE trong toàn bộ luồng.  
- **fwd_PSH_flag_count**, **fwd_URG_flag_count**: Số lần xuất hiện cờ PSH, URG trong forward packets.  
- **bwd_PSH_flag_count**, **bwd_URG_flag_count**: Số lần xuất hiện cờ PSH, URG trong backward packets.  

## Nhóm 5: Thống kê tải trọng gói tin (Payload Statistics)
- **fwd_pkts_payload** (min, max, tot, avg, std): Kích thước tải trọng gói tin forward.  
- **bwd_pkts_payload** (min, max, tot, avg, std): Kích thước tải trọng gói tin backward.  
- **flow_pkts_payload** (min, max, tot, avg, std): Kích thước tải trọng toàn bộ luồng.  

## Nhóm 6: Thống kê thời gian giữa các gói tin (Inter-Arrival Time Statistics)
- **fwd_iat** (min, max, tot, avg, std): Thống kê thời gian giữa các gói tin forward.  
- **bwd_iat** (min, max, tot, avg, std): Thống kê thời gian giữa các gói tin backward.  
- **flow_iat** (min, max, tot, avg, std): Thống kê thời gian giữa các gói tin bất kỳ.  

## Nhóm 7: Thống kê luồng phụ (Subflow Statistics)
- **fwd_subflow_pkts**, **bwd_subflow_pkts**: Số gói tin trung bình mỗi subflow forward/backward.  
- **fwd_subflow_bytes**, **bwd_subflow_bytes**: Số byte trung bình mỗi subflow forward/backward.  

## Nhóm 8: Thống kê khối dữ liệu (Bulk Statistics)
- **fwd_bulk_bytes**, **fwd_bulk_packets**, **fwd_bulk_rate**: Tổng byte, gói tin, tốc độ khối dữ liệu forward.  
- **bwd_bulk_bytes**, **bwd_bulk_packets**, **bwd_bulk_rate**: Tổng byte, gói tin, tốc độ khối dữ liệu backward.  

## Nhóm 9: Thống kê thời gian hoạt động và nhàn rỗi (Active/Idle Statistics)
- **active** (min, max, tot, avg, std): Thời gian hoạt động của luồng.  
- **idle** (min, max, tot, avg, std): Thời gian nhàn rỗi của luồng.  

## Nhóm 10: Kích thước cửa sổ TCP (TCP Window Size)
- **fwd_init_window_size**, **bwd_init_window_size**: Kích thước cửa sổ ban đầu của gói forward/backward.  
- **fwd_last_window_size**: Kích thước cửa sổ cuối cùng của gói forward.  

## Nhóm 11: Nhãn tấn công (Attack Label)
- **Attack_type**: Loại tấn công mạng hoặc hành vi của luồng (ví dụ: `MQTT_Publish`, `DOS_SYN_Hping`).


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split
import Preprocessing
import DataProcessing
data = Preprocessing.load_data('data/rt_iot2022', target_col='Attack_type')

In [None]:
print(data['Attack_type'])
X = data.drop('Attack_type', axis=1)
y = data['Attack_type'] 

In [None]:
Preprocessing.check_types(data,"object")

In [None]:
data = Preprocessing.delete_columns(data, ['service'])
data = Preprocessing.one_hot_encode(data, ['proto'])
data = Preprocessing.label_encode(data, ['Attack_type'])
print(data.head(5))

In [None]:
X, y = data.drop('Attack_type', axis=1), data['Attack_type']
X_balanced, y_balanced = Preprocessing.apply_smote(X, y)
X, X_test, y, y_test = train_test_split(X_balanced, y_balanced, test_size=0.2, random_state=42)

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Xử lý dữ liệuliệu
list = DataProcessing.select_feature(X_train, y_train)

In [None]:
Preprocessing.plot_heatmap(X_train[list['Feature']], y_train,'Attack_type')

In [None]:
df_reduced, dropped_columns = DataProcessing.remove_highly_correlated_columns(X_train[list['Feature']], threshold=0.8)

In [None]:
Preprocessing.plot_heatmap(X_train[list['Feature']].drop(dropped_columns, axis=1), y_train,'Attack_type')

In [None]:
# df = data
# # Chọn các cột số
# numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns

# # Kiểm tra giá trị inf
# inf_counts = df[numeric_columns].apply(lambda x: np.isinf(x)).sum()
# print("Số lượng giá trị inf trong mỗi cột:")
# print(inf_counts[inf_counts > 0])  # Chỉ hiển thị các cột có giá trị inf

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix


# 👉 6. Đánh giá
print("Classification Report:\n", classification_report(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


In [30]:
import xgboost as xgb

In [31]:
# Bước 6: Huấn luyện XGBoostClassifier
model = xgb.XGBClassifier(scale_pos_weight=5, use_label_encoder=False, eval_metric='mlogloss')
model.fit(X_train, y_train)
    
    # Bước 7: Dự đoán và đánh giá
y_pred = model.predict(X_test)
print("Classification Report:\n", classification_report(y_test, y_pred))

Parameters: { "scale_pos_weight", "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99      1570
           1       1.00      1.00      1.00       413
           2       1.00      1.00      1.00     18898
           3       1.00      1.00      1.00       882
           4       1.00      1.00      1.00       384
           5       1.00      1.00      1.00       398
           6       1.00      1.00      1.00       433
           7       1.00      1.00      1.00       380
           8       0.99      0.99      0.99       501
           9       1.00      1.00      1.00       404
          10       0.99      0.99      0.99      1606
          11       1.00      1.00      1.00       384

    accuracy                           1.00     26253
   macro avg       1.00      1.00      1.00     26253
weighted avg       1.00      1.00      1.00     26253



In [33]:
# Bước 6: Huấn luyện MLPClassifier
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from imblearn.over_sampling import SMOTE
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=500, random_state=42, activation='relu', solver='adam')
mlp.fit(X_train, y_train)
    
    # Bước 7: Dự đoán và đánh giá
y_pred = mlp.predict(X_test)
print("Classification Report:\n", classification_report(y_test, y_pred))

Classification Report:
               precision    recall  f1-score   support

           0       0.91      0.62      0.74      1570
           1       0.90      0.52      0.66       413
           2       1.00      1.00      1.00     18898
           3       0.99      0.99      0.99       882
           4       0.88      0.90      0.89       384
           5       0.42      0.96      0.59       398
           6       0.55      0.71      0.62       433
           7       0.97      0.99      0.98       380
           8       0.97      0.92      0.94       501
           9       0.54      0.37      0.44       404
          10       0.82      0.92      0.87      1606
          11       0.77      0.78      0.77       384

    accuracy                           0.94     26253
   macro avg       0.81      0.81      0.79     26253
weighted avg       0.95      0.94      0.94     26253



In [None]:
# print("Classification Report:\n", classification_report(y_test, y_pred))
# print(y_test.value_counts())
# print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

In [None]:
# kiểm tra hiệu suất
# from sklearn.svm import SVC
# svm = SVC(kernel='linear')
# svm.fit(X_train[list['Feature']].drop(dropped_columns, axis=1), y_train)

# X_test_selected_reduced = X_test.drop(columns=X_train[list['Feature']].drop(dropped_columns, axis=1).columns, errors='ignore')
# accuracy = svm.score(X_test_selected_reduced, y_test)
# print(f"Accuracy on test set after feature reduction: {accuracy:.4f}")