# Demo Training LSTM cho Phát hiện DDoS trên IoT

Notebook này demo toàn bộ quá trình từ preprocessing đến training và đánh giá model LSTM.

## 1. Import các thư viện cần thiết

In [None]:
import sys
sys.path.append('../src')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from preprocess import (
    load_raw_data, clean_data, encode_labels,
    select_features, preprocess_bot_iot,
    reshape_for_lstm, full_preprocessing_pipeline
)

from config import get_config, TrainingConfig
from train_lstm import train_model
from evaluate import evaluate_model, plot_training_history

%matplotlib inline
sns.set_style('whitegrid')

## 2. Khám phá dữ liệu Bot-IoT

In [None]:
# Load dữ liệu
data_path = '../data/raw/bot_iot.csv'  # Chỉnh đường dẫn cho đúng

# Uncomment dòng dưới khi có dữ liệu
# df = load_raw_data(data_path)
# print(f"Shape: {df.shape}")
# df.head()

In [None]:
# Thống kê cơ bản
# df.info()
# df.describe()

In [None]:
# Kiểm tra phân phối nhãn
# if 'attack' in df.columns:
#     print(df['attack'].value_counts())
#     
#     # Vẽ biểu đồ
#     plt.figure(figsize=(10, 6))
#     df['attack'].value_counts().plot(kind='bar')
#     plt.title('Phân phối các loại tấn công')
#     plt.xlabel('Loại')
#     plt.ylabel('Số lượng')
#     plt.xticks(rotation=45)
#     plt.tight_layout()
#     plt.show()

## 3. Preprocessing dữ liệu

In [None]:
# Sử dụng pipeline preprocessing đầy đủ
# X_scaled, y, scaler, feature_cols = full_preprocessing_pipeline(
#     data_path,
#     binary_classification=True,
#     save_processed=True
# )

# print(f"\nX shape: {X_scaled.shape}")
# print(f"y shape: {y.shape}")
# print(f"Số features: {len(feature_cols)}")
# print(f"Phân phối nhãn: {np.bincount(y)}")

## 4. Training Model

### 4.1. Training với config mặc định

In [None]:
# Train model với default config
# model, history, metrics = train_model(
#     config_name='default',
#     data_path=data_path
# )

### 4.2. Thử nghiệm với config khác nhau

In [None]:
# Thử lightweight config (nhanh hơn)
# model_light, history_light, metrics_light = train_model(
#     config_name='lightweight',
#     data_path=data_path
# )

In [None]:
# Thử deep config (model sâu hơn)
# model_deep, history_deep, metrics_deep = train_model(
#     config_name='deep',
#     data_path=data_path
# )

## 5. Visualize Training History

In [None]:
# Vẽ training history
# plot_training_history('../results/training_history.json', save_dir='../results')

## 6. Đánh giá Model

In [None]:
# Load và đánh giá model
from evaluate import load_and_evaluate

# metrics = load_and_evaluate(
#     model_path='../models/lstm_ddos_model.h5',
#     data_path='../data/processed/bot_iot_preprocessed.csv',
#     time_steps=1,
#     output_dir='../results'
# )

## 7. Phân tích kết quả

In [None]:
# Đọc và hiển thị metrics
import json

# with open('../results/evaluation_metrics.json', 'r') as f:
#     metrics = json.load(f)

# print("=== Kết quả Đánh giá ===")
# print(f"ROC AUC: {metrics['roc_auc']:.4f}")
# print(f"Average Precision: {metrics['average_precision']:.4f}")
# print("\nClassification Report:")
# for label, values in metrics['classification_report'].items():
#     if isinstance(values, dict):
#         print(f"\n{label}:")
#         for metric, value in values.items():
#             print(f"  {metric}: {value:.4f}")

## 8. Inference trên dữ liệu mới

In [None]:
from tensorflow.keras.models import load_model
from preprocess import load_preprocessor

# Load model và scaler
# model = load_model('../models/lstm_ddos_model.h5')
# scaler, feature_cols = load_preprocessor('../models')

# Giả sử có dữ liệu mới
# new_data = pd.read_csv('path_to_new_data.csv')
# X_new = new_data[feature_cols].values.astype('float32')
# X_new_scaled = scaler.transform(X_new)
# X_new_lstm = reshape_for_lstm(X_new_scaled, time_steps=1)

# Dự đoán
# predictions = model.predict(X_new_lstm)
# predicted_labels = (predictions >= 0.5).astype('int32').ravel()

# print(f"Số mẫu Normal: {(predicted_labels == 0).sum()}")
# print(f"Số mẫu Attack: {(predicted_labels == 1).sum()}")

## 9. So sánh các config

Nếu đã train nhiều config, có thể so sánh kết quả

In [None]:
# So sánh performance của các config
# configs = ['default', 'lightweight', 'deep']
# results = []

# for config in configs:
#     metrics_path = f'../results/{config}_metrics.json'
#     if os.path.exists(metrics_path):
#         with open(metrics_path, 'r') as f:
#             metrics = json.load(f)
#         results.append({
#             'config': config,
#             'accuracy': metrics['classification_report']['accuracy'],
#             'roc_auc': metrics['roc_auc']
#         })

# results_df = pd.DataFrame(results)
# print(results_df)

# # Vẽ biểu đồ so sánh
# results_df.plot(x='config', y=['accuracy', 'roc_auc'], kind='bar', figsize=(10, 6))
# plt.title('So sánh Performance các Config')
# plt.ylabel('Score')
# plt.ylim([0, 1.1])
# plt.xticks(rotation=0)
# plt.legend(['Accuracy', 'ROC AUC'])
# plt.tight_layout()
# plt.show()