In [None]:
import numpy as np
import operator


def createDataSet():
    """
    创建训练数据集及其对应的标签

    Returns:
    data - 特征值数据集
    labels - 相应的标签集
    """
    data = np.array(
        [
            [1, 1, 1, 1],
            [0.5, 1, 1, 1],
            [0.1, 0.1, 0.1, 0.1],
            [0.5, 0.5, 0.5, 0.5],
            [1, 0.8, 0.3, 1],
            [0.6, 0.5, 0.7, 0.5],
            [1, 1, 0.9, 0.5],
            [1, 0.6, 0.5, 0.8],
            [0.5, 0.5, 1, 1],
            [0.9, 1, 1, 1],
            [0.6, 0.6, 1, 0.1],
            [1, 0.8, 0.5, 0.5],
            [1, 0.1, 0.1, 1],
            [1, 1, 0.7, 0.3],
            [0.2, 0.3, 0.4, 0.5],
            [0.5, 1, 0.6, 0.6],
        ]
    )

    labels = [
        "女神",
        "淑女",
        "丑女",
        "一般型",
        "淑女",
        "一般型",
        "女神",
        "一般型",
        "淑女",
        "女神",
        "丑女",
        "可爱型",
        "可爱型",
        "淑女",
        "丑女",
        "可爱型",
    ]
    return data, labels


def classify(inX, data, labels, k):
    """
    KNN 分类器

    参数:
    inX - 需要分类的新数据点 (特征值数组)
    data - 训练数据集
    labels - 训练数据集的标签
    k - 选择最近的训练数据数目 (一般不超过20)

    返回:
    预测的分类标签
    """
    # 获取训练数据集的行数
    dataSetSize = data.shape[0]

    # 计算输入向量与训练数据集中每个点的欧氏距离
    diffMat = np.tile(inX, (dataSetSize, 1)) - data  # 差值矩阵
    sqDiffMat = diffMat**2  # 差值矩阵的平方
    sqDistances = sqDiffMat.sum(axis=1)  # 计算每一行上元素的和
    distances = sqDistances**0.5  # 开方，得到欧氏距离

    # 按距离从小到大排序，并返回索引值
    sortedDistIndices = distances.argsort()

    # 选择距离最小的k个点，并进行投票
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]  # 获取对应的标签
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1  # 计数

    # 排序，返回出现次数最多的类别
    sortedClassCount = sorted(
        classCount.items(), key=operator.itemgetter(1), reverse=True
    )
    return sortedClassCount[0][0]  # 返回出现次数最多的类别