# Data Exploration for 5% IoT Botnet Dataset
Khám phá dữ liệu với 15 đặc trưng đã chọn.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

## 1. Đọc dữ liệu 5% và chỉ giữ 15 đặc trưng

In [None]:
# Đường dẫn đến thư mục chứa data 5%
data_path = Path(r'c:/Users/Tplab/OneDrive/CNN tutorial/data/raw/5percent')
csv_files = sorted(list(data_path.glob('*.csv')))
print(f'Tổng số file CSV: {len(csv_files)}')
print('5 file đầu tiên:', [f.name for f in csv_files[:5]])

# Đặc trưng giữ lại
KEEP_FEATURES = [
    'pkts', 'bytes', 'dur', 'mean', 'stddev', 'sum', 'min', 'max',
    'spkts', 'dpkts', 'sbytes', 'dbytes', 'rate', 'srate', 'drate'
    ]
TARGETS = ['attack', 'category', 'subcategory']
ALL_COLS = [
    'pkSeqID', 'stime', 'flgs', 'proto', 'saddr', 'sport', 'daddr', 'dport',
    'pkts', 'bytes', 'state', 'ltime', 'seq', 'dur', 'mean', 'stddev',
    'smac', 'dmac', 'sum', 'min', 'max', 'soui', 'doui', 'sco', 'dco',
    'spkts', 'dpkts', 'sbytes', 'dbytes', 'rate', 'srate', 'drate',
    'attack', 'category', 'subcategory'
    ]
# Đọc file đầu tiên (chỉ lấy 10.000 dòng để kiểm tra nhanh)
df = pd.read_csv(
    csv_files[0],
    header=None,
    names=ALL_COLS,
    usecols=KEEP_FEATURES+TARGETS,
    nrows=10000,  # chỉ đọc 10.000 dòng đầu tiên
    low_memory=False
)
print('Shape:', df.shape)
print('Columns:', df.columns.tolist())

## 2. Thống kê mô tả và kiểm tra missing values

In [None]:
# Thống kê mô tả
display(df.describe())
# Kiểm tra missing
missing = df.isnull().sum()
print('Các cột có missing values:')
print(missing[missing > 0])

## 3. Phân phối nhãn (attack, category, subcategory)

In [None]:
for col in TARGETS:
    print(f'
{col} value counts:')
    print(df[col].value_counts())

## 4. Biểu đồ phân phối một số đặc trưng quan trọng

In [None]:
fig, axes = plt.subplots(3, 3, figsize=(15, 10))
axes = axes.flatten()
for i, col in enumerate(KEEP_FEATURES[:9]):
    sns.histplot(df[col], bins=50, ax=axes[i], kde=True)
    axes[i].set_title(col)
plt.tight_layout()
plt.show()

## 5. Kiểm tra tương quan giữa các đặc trưng

In [None]:
corr = df[KEEP_FEATURES].corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Matrix (15 features)')
plt.show()