: 

# PCDN vs Normal Traffic Classification using XGBoost

这个项目使用XGBoost对正常流量和PCDN流量进行二分类。

## 数据集结构
- Training_set/APP_0: 正常流量
- Training_set/APP_1: PCDN流量
- Validation_set: 验证集
- Testing_set: 测试集


In [None]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
from sklearn.preprocessing import LabelEncoder, StandardScaler
from scipy import stats  # 用于序列特征的偏度和峰度计算
import ast  # 用于安全解析数组字符串
import os
import glob
import warnings
warnings.filterwarnings('ignore')

# 设置中文字体支持
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

# 设置图表样式
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("库导入完成！")


In [None]:
# 数据加载函数
def load_data_from_directory(base_path, label):
    """
    从指定目录加载所有CSV文件并添加标签
    """
    csv_files = glob.glob(os.path.join(base_path, '*.csv'))
    dataframes = []
    
    for file in csv_files:
        try:
            df = pd.read_csv(file)
            df['label'] = label  # 添加标签列
            df['source_file'] = os.path.basename(file)  # 添加源文件信息
            dataframes.append(df)
            print(f"成功加载文件: {file}, 样本数: {len(df)}")
        except Exception as e:
            print(f"加载文件 {file} 时出错: {e}")
    
    if dataframes:
        return pd.concat(dataframes, ignore_index=True)
    else:
        return pd.DataFrame()

# 使用相对路径定义数据目录
# 数据集应该与此notebook在同一目录下
data_dir = './pcdn_32_pkts_2class_feature_enhance_v17.4_dataset'

# 检查数据目录是否存在
if not os.path.exists(data_dir):
    print(f"❌ 数据目录不存在: {data_dir}")
    print("请确保数据集文件夹与notebook在同一目录下")
    print("当前工作目录:", os.getcwd())
    print("当前目录内容:", [f for f in os.listdir('.') if not f.startswith('.')])
    
    # 尝试查找数据目录
    possible_dirs = [d for d in os.listdir('.') if 'pcdn' in d.lower() and os.path.isdir(d)]
    if possible_dirs:
        print(f"发现可能的数据目录: {possible_dirs}")
        data_dir = possible_dirs[0]
        print(f"使用数据目录: {data_dir}")
    else:
        raise FileNotFoundError("找不到数据目录，请检查数据集位置")
else:
    print(f"✅ 找到数据目录: {data_dir}")

# 加载训练数据
print("\n开始加载训练数据...")
train_normal = load_data_from_directory(os.path.join(data_dir, 'Training_set', 'APP_0'), 0)  # 正常流量标签为0
train_pcdn = load_data_from_directory(os.path.join(data_dir, 'Training_set', 'APP_1'), 1)    # PCDN流量标签为1

# 合并训练数据
train_data = pd.concat([train_normal, train_pcdn], ignore_index=True)
print(f"\n训练数据加载完成！")
print(f"正常流量样本数: {len(train_normal)}")
print(f"PCDN流量样本数: {len(train_pcdn)}")
print(f"总训练样本数: {len(train_data)}")


In [None]:
# 加载验证和测试数据
print("开始加载验证数据...")
val_normal = load_data_from_directory(os.path.join(data_dir, 'Validation_set', 'APP_0'), 0)
val_pcdn = load_data_from_directory(os.path.join(data_dir, 'Validation_set', 'APP_1'), 1)

# 检查验证数据是否为空
if len(val_normal) == 0 and len(val_pcdn) == 0:
    print("⚠️ 警告: 验证集为空，将使用训练集的一部分作为验证集")
    val_data = pd.DataFrame()
else:
    val_data = pd.concat([val_normal, val_pcdn], ignore_index=True)

print("\n开始加载测试数据...")
test_normal = load_data_from_directory(os.path.join(data_dir, 'Testing_set', 'APP_0'), 0)
test_pcdn = load_data_from_directory(os.path.join(data_dir, 'Testing_set', 'APP_1'), 1)

# 检查测试数据是否为空
if len(test_normal) == 0 and len(test_pcdn) == 0:
    print("⚠️ 警告: 测试集为空，将使用训练集的一部分作为测试集")
    test_data = pd.DataFrame()
else:
    test_data = pd.concat([test_normal, test_pcdn], ignore_index=True)

print(f"\n验证集样本数: {len(val_data)} (正常: {len(val_normal)}, PCDN: {len(val_pcdn)})")
print(f"测试集样本数: {len(test_data)} (正常: {len(test_normal)}, PCDN: {len(test_pcdn)})")


In [None]:
# 数据探索和基本信息
print("=== 训练数据基本信息 ===")
print(f"数据形状: {train_data.shape}")
print(f"\n列名 ({len(train_data.columns)}个特征):")
print(train_data.columns.tolist())

print("\n=== 标签分布 ===")
label_counts = train_data['label'].value_counts()
print(label_counts)
print(f"正常流量比例: {label_counts[0]/len(train_data)*100:.2f}%")
print(f"PCDN流量比例: {label_counts[1]/len(train_data)*100:.2f}%")

print("\n=== 数据类型信息 ===")
print(train_data.dtypes.value_counts())


In [None]:
# 数据预处理
def preprocess_data(df):
    """
    数据预处理函数
    """
    df_processed = df.copy()
    
    # 删除指定的不需要的列
    columns_to_drop = [
        'source_file',  # 源文件信息（添加的辅助列）
        'frame.number', # 帧编号
        'frame.time_relative', # 相对时间
        'ip.version',   # IP版本
        'ip.ttl',       # IP TTL
        'ip.src', 'ip.dst',  # IP地址
        'ipv6.plen',    # IPv6 payload长度
        'ipv6.nxt',     # IPv6 下一个头
        'ipv6.src', 'ipv6.dst',  # IPv6地址
        '_ws.col.Protocol', # Wireshark协议列
        'ssl.handshake.extensions_server_name',  # SSL扩展信息
        'eth.src',      # MAC地址
        'pcap_duration', # PCAP持续时间
        'app',          # 应用程序
        'os',           # 操作系统
        'date',         # 日期
        'flow_id',      # 流ID
        'dpi_file_name', # DPI文件名
        'dpi_five_tuple', # 五元组
        'dpi_rule_result', # DPI规则结果
        'dpi_label',    # DPI标签
        'ulProtoID',    # 上层协议ID
        'dpi_rule_pkt', # DPI规则包
        'dpi_packets',  # DPI包数
        'dpi_bytes',    # DPI字节数
        'label_source', # 标签源
        'id',           # ID字段
        'category'      # category字段
    ]
    
    # 删除存在的列
    columns_to_drop = [col for col in columns_to_drop if col in df_processed.columns]
    df_processed = df_processed.drop(columns=columns_to_drop)
    
    # 保留所有其他特征（包括数组特征），这些可能对分类有用
    # 数组特征如 ip_direction, pkt_len, iat 等将在后续步骤中进行编码处理
    
    # 处理缺失值
    df_processed = df_processed.fillna(0)
    
    # 处理无穷大值
    df_processed = df_processed.replace([np.inf, -np.inf], 0)
    
    return df_processed

# 预处理训练数据
train_processed = preprocess_data(train_data)

# 智能处理空数据集的情况
from sklearn.model_selection import train_test_split

val_exists = len(val_data) > 0
test_exists = len(test_data) > 0

print(f"验证集存在: {'是' if val_exists else '否'}")
print(f"测试集存在: {'是' if test_exists else '否'}")

if not val_exists and not test_exists:
    # 两个数据集都为空，进行60/20/20分割
    print("验证集和测试集都为空，从训练数据分割为 60% 训练 / 20% 验证 / 20% 测试")
    train_temp, temp_split = train_test_split(
        train_processed, test_size=0.4, random_state=42, 
        stratify=train_processed['label']
    )
    val_processed, test_processed = train_test_split(
        temp_split, test_size=0.5, random_state=42, 
        stratify=temp_split['label']
    )
    train_processed = train_temp
    
elif not val_exists:
    # 只有验证集为空，分割80/20
    print("验证集为空，从训练数据分割为 80% 训练 / 20% 验证")
    train_temp, val_processed = train_test_split(
        train_processed, test_size=0.2, random_state=42, 
        stratify=train_processed['label']
    )
    train_processed = train_temp
    test_processed = preprocess_data(test_data)
    
elif not test_exists:
    # 只有测试集为空，分割80/20
    print("测试集为空，从训练数据分割为 80% 训练 / 20% 测试")
    train_temp, test_processed = train_test_split(
        train_processed, test_size=0.2, random_state=42, 
        stratify=train_processed['label']
    )
    train_processed = train_temp
    val_processed = preprocess_data(val_data)
    
else:
    # 两个数据集都存在，直接使用
    print("使用原始的验证集和测试集")
    val_processed = preprocess_data(val_data)
    test_processed = preprocess_data(test_data)

print(f"预处理后训练数据形状: {train_processed.shape}")
print(f"预处理后验证数据形状: {val_processed.shape}")
print(f"预处理后测试数据形状: {test_processed.shape}")


In [None]:
# 特征工程和数据预处理
# 提取特征和标签
feature_columns = [col for col in train_processed.columns if col != 'label']
print(f"预处理后特征数量: {len(feature_columns)}")
print(f"特征列表前10个: {feature_columns[:10]}")

# 处理序列特征 - 这些字段包含网络包的时序信息
def process_sequence_features(df):
    """
    处理序列类型的特征 (pkt_len, ip_direction, iat)
    
    对于XGBoost这种基于树的算法，需要将序列数据转换为有意义的统计特征：
    1. pkt_len: 包长度序列 - 反映流量的数据传输模式
    2. ip_direction: IP方向序列 - 反映通信的方向模式  
    3. iat: 包间到达时间间隔序列 - 反映流量的时间特征
    
    XGBoost无法直接处理变长序列，需要提取固定维度的特征
    """
    df_copy = df.copy()
    
    # 定义序列特征及其含义
    sequence_columns = {
        'ip_direction': '网络包方向序列 (0=出站, 1=入站)',
        'pkt_len': '网络包长度序列',
        'iat': '包间到达时间间隔序列'
    }
    
    for col, description in sequence_columns.items():
        if col in df_copy.columns:
            print(f"处理序列特征: {col} - {description}")
            
            try:
                # 安全地将字符串转换为数值列表（避免使用eval）
                def safe_parse_array(x):
                    """安全解析数组字符串"""
                    if pd.isna(x) or x == '' or x == '[]':
                        return []
                    if isinstance(x, str) and x.startswith('[') and x.endswith(']'):
                        try:
                            # 使用ast.literal_eval替代eval，更安全
                            return ast.literal_eval(x)
                        except (ValueError, SyntaxError):
                            return []
                    return []
                
                sequences = df_copy[col].apply(safe_parse_array)
                
                # === 基础统计特征 ===
                df_copy[f'{col}_mean'] = sequences.apply(lambda x: np.mean(x) if len(x) > 0 else 0)
                df_copy[f'{col}_std'] = sequences.apply(lambda x: np.std(x) if len(x) > 0 else 0)
                df_copy[f'{col}_min'] = sequences.apply(lambda x: np.min(x) if len(x) > 0 else 0)
                df_copy[f'{col}_max'] = sequences.apply(lambda x: np.max(x) if len(x) > 0 else 0)
                df_copy[f'{col}_median'] = sequences.apply(lambda x: np.median(x) if len(x) > 0 else 0)
                df_copy[f'{col}_range'] = sequences.apply(lambda x: (np.max(x) - np.min(x)) if len(x) > 0 else 0)
                
                # === 分位数特征 ===
                df_copy[f'{col}_q25'] = sequences.apply(lambda x: np.percentile(x, 25) if len(x) > 0 else 0)
                df_copy[f'{col}_q75'] = sequences.apply(lambda x: np.percentile(x, 75) if len(x) > 0 else 0)
                df_copy[f'{col}_iqr'] = df_copy[f'{col}_q75'] - df_copy[f'{col}_q25']
                
                # === 序列长度特征 ===
                df_copy[f'{col}_len'] = sequences.apply(lambda x: len(x))
                
                # === 序列模式特征 ===
                # 变异系数 (标准差/均值) - 衡量序列的相对变化程度
                df_copy[f'{col}_cv'] = sequences.apply(lambda x: np.std(x)/np.mean(x) if len(x) > 0 and np.mean(x) != 0 else 0)
                
                # 偏度和峰度 - 衡量序列分布形状
                df_copy[f'{col}_skew'] = sequences.apply(lambda x: stats.skew(x) if len(x) > 1 else 0)
                df_copy[f'{col}_kurtosis'] = sequences.apply(lambda x: stats.kurtosis(x) if len(x) > 1 else 0)
                
                # === 序列特有的特征 ===
                if col == 'ip_direction':
                    # 对于方向序列：统计出站/入站比例
                    df_copy[f'{col}_out_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i == 0])/len(x) if len(x) > 0 else 0)
                    df_copy[f'{col}_in_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i == 1])/len(x) if len(x) > 0 else 0)
                    # 方向变化次数 - 反映通信模式
                    df_copy[f'{col}_changes'] = sequences.apply(lambda x: sum([1 for i in range(1, len(x)) if x[i] != x[i-1]]) if len(x) > 1 else 0)
                
                elif col == 'pkt_len':
                    # 对于包长度序列：小包/大包比例
                    df_copy[f'{col}_small_pkt_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i <= 64])/len(x) if len(x) > 0 else 0)
                    df_copy[f'{col}_large_pkt_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i >= 1400])/len(x) if len(x) > 0 else 0)
                
                elif col == 'iat':
                    # 对于时间间隔序列：突发性检测
                    df_copy[f'{col}_burst_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i < 0.01])/len(x) if len(x) > 0 else 0)  # 小于10ms的比例
                    df_copy[f'{col}_long_gap_ratio'] = sequences.apply(lambda x: sum([1 for i in x if i > 1.0])/len(x) if len(x) > 0 else 0)  # 大于1s的比例
                
                # === 趋势特征 ===
                # 序列递增/递减趋势
                def trend_analysis(seq):
                    if len(seq) < 2:
                        return 0, 0
                    increasing = sum([1 for i in range(1, len(seq)) if seq[i] > seq[i-1]])
                    decreasing = sum([1 for i in range(1, len(seq)) if seq[i] < seq[i-1]])
                    return increasing/len(seq), decreasing/len(seq)
                
                trends = sequences.apply(trend_analysis)
                df_copy[f'{col}_increasing_ratio'] = trends.apply(lambda x: x[0])
                df_copy[f'{col}_decreasing_ratio'] = trends.apply(lambda x: x[1])
                
                # 删除原始序列列
                df_copy = df_copy.drop(columns=[col])
                print(f"  -> 已从 {col} 提取 {len([c for c in df_copy.columns if c.startswith(col)])} 个特征")
                
            except Exception as e:
                print(f"  -> 处理 {col} 时出错，将直接编码: {e}")
                # 如果处理失败，就简单编码
                df_copy[col] = LabelEncoder().fit_transform(df_copy[col].astype(str))
    
    return df_copy

# 处理所有数据集的序列特征
print("开始处理序列特征...")
print("=" * 60)
train_processed = process_sequence_features(train_processed)
val_processed = process_sequence_features(val_processed)
test_processed = process_sequence_features(test_processed)

# 更新特征列表
feature_columns = [col for col in train_processed.columns if col != 'label']
print(f"\n处理序列特征后的特征数量: {len(feature_columns)}")
print("=" * 60)

# 检查剩余的非数值列
non_numeric_cols = []
for col in feature_columns:
    if not pd.api.types.is_numeric_dtype(train_processed[col]):
        non_numeric_cols.append(col)

print(f"\n需要编码的非数值列数量: {len(non_numeric_cols)}")
if non_numeric_cols:
    print(f"非数值列: {non_numeric_cols[:5]}...")  # 显示前5个

# 对非数值列进行标签编码
if non_numeric_cols:
    print("开始对非数值列进行标签编码...")
    for col in non_numeric_cols:
        try:
            le = LabelEncoder()
            # 合并所有数据集的该列值进行编码
            all_values = pd.concat([
                train_processed[col].fillna('missing').astype(str),
                val_processed[col].fillna('missing').astype(str),
                test_processed[col].fillna('missing').astype(str)
            ])
            le.fit(all_values)
            
            train_processed[col] = le.transform(train_processed[col].fillna('missing').astype(str))
            val_processed[col] = le.transform(val_processed[col].fillna('missing').astype(str))
            test_processed[col] = le.transform(test_processed[col].fillna('missing').astype(str))
            print(f"  ✓ 已编码: {col}")
            
        except Exception as e:
            print(f"  ✗ 编码失败 {col}: {e}")
            # 编码失败的列直接删除
            if col in train_processed.columns:
                train_processed = train_processed.drop(columns=[col])
                val_processed = val_processed.drop(columns=[col])
                test_processed = test_processed.drop(columns=[col])

# 确保所有数据集具有相同的特征列
print("\n🔧 检查数据集特征一致性...")
train_features = set(train_processed.columns) - {'label'}
val_features = set(val_processed.columns) - {'label'}
test_features = set(test_processed.columns) - {'label'}

print(f"训练集特征数: {len(train_features)}")
print(f"验证集特征数: {len(val_features)}")
print(f"测试集特征数: {len(test_features)}")

# 取三个数据集的特征交集，确保一致性
common_features = train_features.intersection(val_features).intersection(test_features)
print(f"共同特征数: {len(common_features)}")

if len(common_features) < len(train_features):
    print("⚠️ 警告: 数据集间特征不一致，使用共同特征")
    # 只保留共同特征
    feature_cols_to_keep = list(common_features) + ['label']
    train_processed = train_processed[feature_cols_to_keep]
    val_processed = val_processed[feature_cols_to_keep]
    test_processed = test_processed[feature_cols_to_keep]

print("\n数据预处理完成！")
print(f"最终特征数量: {len(common_features)}")
print("✅ 所有数据集特征已对齐")


## 🔍 序列特征处理策略说明

### 为什么XGBoost需要特殊处理序列特征？

**XGBoost的限制：**
- XGBoost是基于树的算法，只能处理固定维度的表格数据
- 无法直接处理变长序列（如[1,0,1,1,0]这样的数组）
- 需要将序列转换为固定数量的数值特征

### 📊 我们提取的序列特征类型

**1. 基础统计特征**
- 均值、标准差、最大/最小值、中位数、四分位数
- 这些特征捕获序列的整体分布特性

**2. 形状特征**
- 偏度(skewness)：序列分布的对称性
- 峰度(kurtosis)：序列分布的尖锐程度
- 变异系数：相对变化程度

**3. 序列模式特征**
- **方向序列(ip_direction)**：出站/入站比例、方向变化次数
- **包长度序列(pkt_len)**：小包/大包比例
- **时间间隔序列(iat)**：突发传输/长间隔比例

**4. 趋势特征**
- 递增/递减趋势：反映序列的时间演化模式

### 🎯 这些特征对PCDN检测的意义

**正常流量 vs PCDN流量的区别：**
- **包大小模式**：PCDN可能有特定的分块传输模式
- **方向模式**：PCDN的上传/下载比例可能不同
- **时间模式**：PCDN的传输节奏可能更规律或更突发
- **序列长度**：PCDN会话可能有特定的包数量模式


In [None]:
# 序列特征处理效果展示
print("🔍 序列特征处理效果分析")
print("=" * 60)

# 统计每个序列特征生成了多少个新特征
sequence_feature_counts = {}
for original_col in ['ip_direction', 'pkt_len', 'iat']:
    derived_features = [col for col in train_processed.columns if col.startswith(original_col)]
    sequence_feature_counts[original_col] = len(derived_features)
    print(f"{original_col:15} -> 生成了 {len(derived_features):2d} 个特征")
    print(f"                   包括: {', '.join(derived_features[:5])}{'...' if len(derived_features) > 5 else ''}")

total_sequence_features = sum(sequence_feature_counts.values())
print(f"\n📈 总共从3个序列特征生成了 {total_sequence_features} 个数值特征")

# 展示一些关键特征的含义
print(f"\n📋 关键特征含义示例:")
feature_meanings = {
    'pkt_len_mean': '平均包大小 - 反映传输数据的粒度',
    'pkt_len_cv': '包大小变异系数 - 反映传输的规律性',
    'ip_direction_changes': '方向变化次数 - 反映交互模式',
    'iat_burst_ratio': '突发传输比例 - 反映时间模式',
    'pkt_len_small_pkt_ratio': '小包比例 - 反映协议特征'
}

for feat, meaning in feature_meanings.items():
    if feat in train_processed.columns:
        print(f"  {feat:25}: {meaning}")

print("\n✨ 这些特征将帮助XGBoost学习正常流量和PCDN流量的行为差异模式")
print("=" * 60)


In [None]:
# 数据分布可视化
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 标签分布
label_counts = train_processed['label'].value_counts()
axes[0, 0].pie(label_counts.values, labels=['Normal Traffic', 'PCDN Traffic'], autopct='%1.1f%%')
axes[0, 0].set_title('Training Data Label Distribution')

# 选择几个重要的数值特征进行可视化（包括处理后的序列特征）
numeric_features = ['ip.len', 'tcp.srcport', 'tcp.dstport', 'sum_pkt_len', 'total_pkts']
sequence_features = ['pkt_len_mean', 'ip_direction_changes', 'iat_mean']  # 添加序列特征

# 合并特征列表并检查可用性
all_viz_features = numeric_features + sequence_features
available_features = [f for f in all_viz_features if f in train_processed.columns]
print(f"可用于可视化的特征: {available_features}")

if len(available_features) >= 3:
    # 特征分布对比
    for i, feature in enumerate(available_features[:3]):
        if i == 0:
            ax = axes[0, 1]
        elif i == 1:
            ax = axes[1, 0]
        else:
            ax = axes[1, 1]
        
        normal_data = train_processed[train_processed['label'] == 0][feature]
        pcdn_data = train_processed[train_processed['label'] == 1][feature]
        
        ax.hist(normal_data, alpha=0.7, label='Normal', bins=30, density=True)
        ax.hist(pcdn_data, alpha=0.7, label='PCDN', bins=30, density=True)
        ax.set_title(f'Distribution of {feature}')
        ax.legend()

plt.tight_layout()
plt.show()

print("数据分布可视化完成！")


## 📝 序列特征处理总结

### 🔄 完整处理流程

**原始序列特征 → 提取统计特征 → XGBoost训练**

1. **原始数据格式**：
   - `pkt_len`: `"[40, 40, 1432, 712, ...]"` (包长度序列)
   - `ip_direction`: `"[0, 0, 1, 1, 0, ...]"` (方向序列)  
   - `iat`: `"[0.0, 0.016, 0.083, ...]"` (时间间隔序列)

2. **特征提取策略**：
   - **统计特征**：均值、方差、分位数等 (适用于所有序列)
   - **领域特征**：根据序列含义设计的专门特征
   - **模式特征**：变化趋势、突发性等时序特征

3. **XGBoost优势**：
   - 可以自动发现特征之间的复杂组合
   - 通过树结构捕获非线性模式
   - 特征重要性分析帮助理解哪些序列模式最重要

### 📈 预期效果

通过这种处理方式，我们将**3个变长序列**转换为**数十个固定长度的数值特征**，这些特征能够充分表达网络流量的时序行为模式，帮助XGBoost准确区分正常流量和PCDN流量。

## 🛠️ 代码质量改进

### 🔒 安全性修复
- **替换 `eval()` 函数**：使用 `ast.literal_eval()` 安全解析数组字符串，避免代码注入风险
- **增强错误处理**：添加完善的异常捕获和数据验证

### 📊 数据一致性保证
- **特征维度对齐**：确保训练、验证、测试集具有相同的特征列
- **空数据集处理**：自动从训练集分割验证/测试集，防止数据缺失
- **数据质量检查**：检测NaN值、无穷值和标签分布

### ⚙️ 模型参数优化
- **修复XGBoost参数**：正确使用 `early_stopping_rounds` 参数
- **改进错误处理**：更robust的序列特征处理流程


In [None]:
# 准备训练数据 - 使用处理后的实际特征列
final_feature_columns = [col for col in train_processed.columns if col != 'label']
print(f"实际使用的特征数量: {len(final_feature_columns)}")

X_train = train_processed[final_feature_columns]
y_train = train_processed['label']

X_val = val_processed[final_feature_columns] 
y_val = val_processed['label']

X_test = test_processed[final_feature_columns]
y_test = test_processed['label']

print(f"训练集特征形状: {X_train.shape}")
print(f"验证集特征形状: {X_val.shape}")
print(f"测试集特征形状: {X_test.shape}")

# 检查是否还有非数值数据
print(f"\n训练数据中的数据类型:")
print(X_train.dtypes.value_counts())

# 确保所有数据都是数值型
X_train = X_train.select_dtypes(include=[np.number])
X_val = X_val.select_dtypes(include=[np.number])
X_test = X_test.select_dtypes(include=[np.number])

print(f"\n最终特征数量: {X_train.shape[1]}")

# 数据质量检查
print("\n🔍 数据质量检查:")
print(f"训练集是否包含NaN: {X_train.isnull().any().any()}")
print(f"验证集是否包含NaN: {X_val.isnull().any().any()}")
print(f"测试集是否包含NaN: {X_test.isnull().any().any()}")
print(f"训练集是否包含无穷值: {np.isinf(X_train).any().any()}")
print(f"标签分布 - 训练集: {y_train.value_counts().to_dict()}")
print(f"标签分布 - 验证集: {y_val.value_counts().to_dict()}")
print(f"标签分布 - 测试集: {y_test.value_counts().to_dict()}")

# 检查特征维度是否一致
assert X_train.shape[1] == X_val.shape[1] == X_test.shape[1], "特征维度不一致！"
print("✅ 数据质量检查通过")


In [None]:
# XGBoost模型训练
print("开始训练XGBoost模型...")

# 创建XGBoost分类器
xgb_model = xgb.XGBClassifier(
    n_estimators=100,
    max_depth=6,
    learning_rate=0.1,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
    eval_metric='logloss'
)

# 训练模型（使用验证集进行早停）
xgb_model.fit(
    X_train, y_train,
    eval_set=[(X_val, y_val)],
    early_stopping_rounds=10,
    verbose=True
)

print("\nXGBoost模型训练完成！")


In [None]:
# 模型评估
def evaluate_model(model, X, y, data_name):
    """
    评估模型性能
    """
    # 预测
    y_pred = model.predict(X)
    y_pred_proba = model.predict_proba(X)[:, 1]
    
    print(f"\n=== {data_name} 评估结果 ===")
    
    # 分类报告
    print("\n分类报告:")
    print(classification_report(y, y_pred, target_names=['Normal', 'PCDN']))
    
    # AUC分数
    auc_score = roc_auc_score(y, y_pred_proba)
    print(f"\nAUC Score: {auc_score:.4f}")
    
    return y_pred, y_pred_proba, auc_score

# 评估训练集
train_pred, train_proba, train_auc = evaluate_model(xgb_model, X_train, y_train, "训练集")

# 评估验证集
val_pred, val_proba, val_auc = evaluate_model(xgb_model, X_val, y_val, "验证集")

# 评估测试集
test_pred, test_proba, test_auc = evaluate_model(xgb_model, X_test, y_test, "测试集")


In [None]:
# 特征重要性分析
feature_importance = xgb_model.feature_importances_
feature_names = X_train.columns

# 创建特征重要性DataFrame
importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': feature_importance
}).sort_values('importance', ascending=False)

print("=== Top 20 最重要特征 ===")
print(importance_df.head(20))

# 特征重要性可视化
plt.figure(figsize=(12, 8))
top_features = importance_df.head(20)
plt.barh(range(len(top_features)), top_features['importance'])
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Feature Importance')
plt.title('Top 20 Feature Importance in XGBoost Model')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()


In [None]:
# 绘制ROC曲线和混淆矩阵
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# ROC曲线
datasets = [
    (y_train, train_proba, "Training", train_auc),
    (y_val, val_proba, "Validation", val_auc),
    (y_test, test_proba, "Testing", test_auc)
]

ax_roc = axes[0, 0]
for y_true, y_prob, label, auc in datasets:
    fpr, tpr, _ = roc_curve(y_true, y_prob)
    ax_roc.plot(fpr, tpr, label=f'{label} (AUC = {auc:.3f})')

ax_roc.plot([0, 1], [0, 1], 'k--', label='Random')
ax_roc.set_xlabel('False Positive Rate')
ax_roc.set_ylabel('True Positive Rate')
ax_roc.set_title('ROC Curves')
ax_roc.legend()
ax_roc.grid(True)

# 混淆矩阵 - 测试集
cm = confusion_matrix(y_test, test_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Normal', 'PCDN'], 
            yticklabels=['Normal', 'PCDN'],
            ax=axes[0, 1])
axes[0, 1].set_title('Confusion Matrix - Test Set')
axes[0, 1].set_ylabel('True Label')
axes[0, 1].set_xlabel('Predicted Label')

# 预测概率分布
axes[1, 0].hist(test_proba[y_test == 0], alpha=0.7, label='Normal', bins=30, density=True)
axes[1, 0].hist(test_proba[y_test == 1], alpha=0.7, label='PCDN', bins=30, density=True)
axes[1, 0].set_xlabel('Prediction Probability')
axes[1, 0].set_ylabel('Density')
axes[1, 0].set_title('Prediction Probability Distribution')
axes[1, 0].legend()

# 学习曲线（训练历史）
results = xgb_model.evals_result()
if 'validation_0' in results:
    epochs = len(results['validation_0']['logloss'])
    x_axis = range(0, epochs)
    axes[1, 1].plot(x_axis, results['validation_0']['logloss'], label='Validation')
    axes[1, 1].set_xlabel('Epochs')
    axes[1, 1].set_ylabel('Log Loss')
    axes[1, 1].set_title('Model Learning Curve')
    axes[1, 1].legend()
else:
    axes[1, 1].text(0.5, 0.5, 'Learning curve not available', 
                    ha='center', va='center', transform=axes[1, 1].transAxes)
    axes[1, 1].set_title('Learning Curve')

plt.tight_layout()
plt.show()


In [None]:
# 特征相关性分析
if len(importance_df) >= 10:
    # 选择最重要的10个特征进行相关性分析
    top_10_features = importance_df.head(10)['feature'].tolist()
    corr_data = train_processed[top_10_features + ['label']]
    
    plt.figure(figsize=(12, 10))
    correlation_matrix = corr_data.corr()
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
                square=True, fmt='.2f')
    plt.title('Correlation Matrix of Top 10 Features')
    plt.tight_layout()
    plt.show()
    
    print("\n=== 与标签相关性最高的特征 ===")
    label_corr = correlation_matrix['label'].abs().sort_values(ascending=False)
    print(label_corr[label_corr.index != 'label'].head(10))


In [None]:
# 模型性能总结
print("\n" + "="*50)
print("             模型性能总结")
print("="*50)

performance_summary = pd.DataFrame({
    '数据集': ['训练集', '验证集', '测试集'],
    'AUC Score': [train_auc, val_auc, test_auc],
    '样本数量': [len(y_train), len(y_val), len(y_test)]
})

print(performance_summary.to_string(index=False))

print(f"\n特征总数: {len(feature_names)}")
print(f"最重要的5个特征:")
for i, (idx, row) in enumerate(importance_df.head(5).iterrows(), 1):
    print(f"  {i}. {row['feature']}: {row['importance']:.4f}")

print("\n模型训练和评估完成！")


In [None]:
# 保存模型和结果
import pickle
import os

# 创建输出目录
output_dir = './output'
os.makedirs(output_dir, exist_ok=True)

# 保存模型
model_path = os.path.join(output_dir, 'xgboost_pcdn_classifier.pkl')
try:
    with open(model_path, 'wb') as f:
        pickle.dump(xgb_model, f)
    print(f"✅ 模型已保存到: {model_path}")
except Exception as e:
    print(f"❌ 模型保存失败: {e}")

# 保存特征重要性
importance_path = os.path.join(output_dir, 'feature_importance.csv')
try:
    importance_df.to_csv(importance_path, index=False, encoding='utf-8-sig')
    print(f"✅ 特征重要性已保存到: {importance_path}")
except Exception as e:
    print(f"❌ 特征重要性保存失败: {e}")

# 保存性能报告
performance_path = os.path.join(output_dir, 'model_performance.csv')
try:
    performance_summary.to_csv(performance_path, index=False, encoding='utf-8-sig')
    print(f"✅ 模型性能报告已保存到: {performance_path}")
except Exception as e:
    print(f"❌ 性能报告保存失败: {e}")

# 保存详细分析报告
analysis_report = {
    'Project': 'PCDN vs Normal Traffic Classification',
    'Algorithm': 'XGBoost',
    'Total_Features': len(feature_names),
    'Train_Samples': len(y_train),
    'Val_Samples': len(y_val),
    'Test_Samples': len(y_test),
    'Train_AUC': train_auc,
    'Val_AUC': val_auc,
    'Test_AUC': test_auc,
    'Top_5_Features': importance_df.head(5)['feature'].tolist()
}

report_path = os.path.join(output_dir, 'analysis_report.txt')
try:
    with open(report_path, 'w', encoding='utf-8') as f:
        f.write("PCDN流量分类项目分析报告\n")
        f.write("=" * 50 + "\n\n")
        for key, value in analysis_report.items():
            f.write(f"{key}: {value}\n")
    print(f"✅ 分析报告已保存到: {report_path}")
except Exception as e:
    print(f"❌ 分析报告保存失败: {e}")

print(f"\n📁 所有输出文件已保存到目录: {output_dir}")


## 🎉 项目完成总结

### ✅ 已完成的工作

1. **数据加载与预处理** 
   - ✅ 智能路径检测和数据加载
   - ✅ 自动处理缺失的验证/测试集
   - ✅ 安全的序列特征解析

2. **特征工程**
   - ✅ 序列特征转统计特征 (45+ 新特征)
   - ✅ 非数值特征自动编码
   - ✅ 数据质量检查和清洗

3. **模型训练**
   - ✅ XGBoost分类器训练
   - ✅ 早停机制防止过拟合
   - ✅ 模型性能评估

4. **结果分析**
   - ✅ 特征重要性分析
   - ✅ ROC曲线和混淆矩阵
   - ✅ 相关性分析
   - ✅ 可视化展示

5. **输出管理**
   - ✅ 模型文件保存
   - ✅ 结果报告导出
   - ✅ 项目文档完善

### 🚀 使用方法

1. **环境准备**: 确保安装所需Python包 (pandas, numpy, scikit-learn, xgboost, matplotlib, seaborn, scipy)

2. **数据准备**: 将数据集文件夹放在notebook同目录下

3. **运行项目**: 依次执行所有代码单元

4. **查看结果**: 检查 `./output/` 目录中的输出文件

### 🎯 项目价值

- **实用性**: 可直接用于PCDN流量检测
- **扩展性**: 可轻松适配其他网络流量分类任务  
- **可解释性**: 详细的特征重要性分析
- **可维护性**: 清晰的代码结构和文档
