# Web安全之机器学习
## 第5章 K近邻算法
### 5.4 示例：使用K近邻算法检测异常操作（二）

**在5.3中，我们只使用了最频繁和最不频繁的操作命令当做特征，为了达到更高的准确度，我们这次将尝试使用全部的操作命令作为特征。**
#### 1. 数据搜集和数据清洗
我们将全部命令去重后，每个命令当做一个特征，形成一个大型空间向量。

In [1]:
from nltk.probability import FreqDist
import numpy as  np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split,cross_val_score

In [2]:
def convert_to_cmdlist_new(filename):
    cmd_list = []
    dist = []
    with open(filename) as f:
        x = []
        for i, line in enumerate(f.readlines()):
            x.append(line.strip())
            dist.append(line.strip())
            if i % 100 == 0:
                cmd_list.append(x)
                x = []
    return cmd_list,list(set(dist))

#### 2.特征化
形成m个命令序列和n个特征的$m \times n$维特征空间向量

In [3]:
def get_feature_new(cmd_list,dist):
    matrix = np.zeros((len(cmd_list),len(dist)))
    for i,cmd in enumerate(cmd_list):
        for j,x in enumerate(dist):
            if x in cmd:
                matrix[i,j] += 1
    return matrix
def get_label():
    return np.loadtxt("data/masquerade/label.txt")

#### 3.训练模型
scikit-learn 包中的[train_tset_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split)辅助函数可以很快地将实验数据集划分为任何训练集（training sets）和测试集（test sets）。
其参数如下：
train_test_split(X,Y,test_size=0.25,train_size,random_state,shuffle,stratify)

#### 4.效果验证
这里使用交叉验证，10次随机取样和验证，提高验证可信度。

使用交叉验证最简单的方法是在估计器和数据集上调用 [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score) 辅助函数。

`cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’)`

- estimator：所使用的估计器，用来实施拟合
- groups：样本的组标签尽在划分数据集到train/test时使用，仅能够和一个‘group’cv实例一起使用
- scoring：评分标准。
- cv：使用几重交叉验证。默认3重。
- n_jobs：计算所使用的CPU数。默认为1，-1为使用所有处理器。
- fit_params：估计器所使用到的参数。
- pre_dispatch：控制在并行执行期间分派的作业数。减少此数量可有助于避免在分配的作业多于CPU可处理的内容时消耗内存消耗。
- error_score：当估计器在拟合的过程中出现问题时，返回的分数。


In [4]:
def KNN_train_2():
    N=90
    cmd_list,dist = convert_to_cmdlist_new("data/masquerade/User3")
    X = get_feature_new(cmd_list,dist)
    Y = get_label()
    Y = np.vstack((np.zeros((50, 1)), Y[:, 2].reshape(Y.shape[0], 1)))

    neigh = KNeighborsClassifier(n_neighbors=3)
    score = cross_val_score(neigh,X,Y.ravel(),cv=10,n_jobs=1)
    print(score)
KNN_train_2()

[ 0.9375      1.          0.93333333  1.          1.          1.          1.
  1.          1.          1.        ]
