# Web安全之机器学习
## 第5章 K近邻算法
### 5.3 示例：使用K近邻算法检测异常操作（一）

#### 1. 数据收集和数据清洗
训练数据中包括50个用户的Linux系统的操作日志，每个日志中包含15000条操作命令，其中前5000条都是正常操作，后面的10000条中随机包含有异常操作。为了便于分析，数据集每100条操作作为一个操作序列，同时进行了标注，每个操作序列只要有1条操作异常就认为这个操作序列异常。

（1）首先，依次读取每行操作命令，每100个命令组成一个操作序列，保存在列表里面。
（2）统计出现**最频繁**使用的前50个命令和**最不频繁**使用的前50个命令

In [1]:
from nltk.probability import FreqDist
import numpy as  np
from sklearn.neighbors import KNeighborsClassifier

In [2]:
def convert_to_cmdlist(filename):
    cmd_list =[]
    dist = []
    with open(filename) as f:
        x = []
        for i,line in enumerate(f.readlines()):
            x.append(line.strip())
            dist.append(line.strip())
            if i%100 == 0:
                cmd_list.append(x)
                x = []
    fdist = list(FreqDist(dist).keys())
    dist_max50 = set(fdist[:50])  ### 最频繁的50个命令
    dist_min50 = set(fdist[-50:]) ### 最不频繁的50个命令
    return cmd_list,dist_max50,dist_min50

#### 2. 特征化
从每一个操作序列中提取**三个特征值**，分别为：

（1）去重后的操作命令的个数

（2）当前序列最频繁使用的10个命令与该用户最频繁使用的50个命令之间重复的个数

（3）当前序列最不频繁使用的10个命令与该用户最不频繁使用的50个命令之间重复的个数

In [3]:
def get_feature(cmd_list,dist_max50,dist_min50):
    x = []
    for cmd in cmd_list:
        f1 = len(set(cmd))              ### 特征（1）
        f2 = list(FreqDist(cmd).keys())[:10]
        f3 = list(FreqDist(cmd).keys())[-10:]
        f2 = len(set(f2) & dist_max50)  ###特征（2）
        f3 = len(set(f3) & dist_min50)  ###特征（3）
        f = [f1,f2,f3]
        x.append(f)
    return x

#### 3.读取标签
标签文件为$100 \times 50$的矩阵，100行代表着后100个随机序列的，50列代表着50个用户。值为0代表正常序列，值为1代表异常序列

In [4]:
def get_label():
    return np.loadtxt("data/masquerade/label.txt")

#### 4.训练模型
加载user3的操作数据，并将前90个操作序列作为训练序列，后60个序列作为测试序列。

In [5]:
def KNN_train():
    N = 90
    cmd_list,dist_max50,dist_min50 = convert_to_cmdlist("data/masquerade/User3")
    X = get_feature(cmd_list,dist_max50,dist_min50)
    Y = get_label()
    Y = np.vstack((np.zeros((50,1)),Y[:,2].reshape(Y.shape[0],1)))  ##样本分割
    X_train = X[:N]
    X_test = X[N:]
    Y_train = Y[:N].ravel()
    Y_test = Y[N:].ravel()

    neigh = KNeighborsClassifier(n_neighbors=3)
    neigh.fit(X_train,Y_train)
    Y_pred = neigh.predict(X_test)

    score = np.mean(Y_test==Y_pred) *100
    print("score = ",score)
KNN_train()

score =  83.3333333333
