In [1]:
import numpy as np

### 一. 原始数据为 (身高, 体重与性别对应关系表)
|身高(cm)|体重(kg)|性别|
| :----: | :----: | :----: |
|180|76|男|
|158|43|女|
|176|78|男|
|161|49|女|






### 二. 数据标注化
数据标准化(Normalization): 将数据按照一定的比例进行缩放, 使其落入一个特定的小区间
常见的数据标准化方法有6中:
1. Min-Max标准化: 对原始数据进行线性变换, 将值映射到[0,1]之间
计算公式为: $$x^` = \frac{x-x_{min}}{x_{max}-x_{min}}$$



2. Z-Score标准化: 基于原始数据的均值(mean)和标准差(standard deviation)来进行数据的标准化. 
计算公式: $$ x^` = \frac{x-{\mu}}{\sigma}$$


3. 小数定标 标准化: 通过移动小数点的位置来进行数据的不标准化. 小数点移动的位数取决于原始数据中的最大绝对值.

计算公式: $$ x^` = \frac{x}{10^j}$$

4. 均值归一化法 : 通过原始数据中的均值, 最大值和最小值来进行数据的标准化.
计算公式: $$x^` = \frac{x-{\mu}}{x_{max}-x_{min}}$$

5. 向量归一化: 通过原始数据中的每个值除以所有数据之和来进行数据点的标准化.
计算公式: $$ x^` = \frac{x}{\sum_{i=1}^{n}x_i}$$

6. 指数转换 : 通过对原始数据的值进行相应的指数函数变化来进行数据的标注化

In [56]:
class KNN:
    def __init__(self, k):
        self.k = k
    
    # 准备数据
    def createData(self):
        features = np.array([[180,76], [158,43], [176,78], [161,49]])
        labels = ["男", "女", "男", "女"]
        return features, labels
    
    # 数据进行min-max标准化(由于身高和体重不在一个重量级上, 所以要进行标准化处理)
    def Normalization(self, data):
        maxs = np.max(data, axis=0)
        mins = np.min(data, axis=0)
        new_data = (data-mins)/(maxs-mins)
        return new_data, maxs, mins
    
    # 计算k最近邻
    def classify(self, one, data, labels):
        # 计算新样本与数据集中每个样本本直接的距离, 这里采用的是欧式距离计算方式
        differenceData = data - one
        squareData = (differenceData ** 2).sum(axis=1)
        distace = squareData ** 0.5
        # 排序,获取索引的排序
        sortDistanceIndex = distace.argsort()
        # 统计k最近邻的label
        labelCount = dict()
        for i in range(self.k):
            label = labels[sortDistanceIndex[i]]
            labelCount.setdefault(label,0)
            labelCount[label] += 1
            
        # 计算结果
        sortLabelCount = sorted(labelCount.items(), key=lambda x:x[1], reverse=True)
        print(sortLabelCount)
        return sortLabelCount[0][0]
    
    
    
    

In [60]:
if __name__ == "__main__":
       
    knn = KNN(3) # 选择k=3
        
    # 创建数据集
    features, labels = knn.createData()
    # 数据集标注化
    new_data, maxs, mins = knn.Normalization(features)
 
    # 比如新数据身高176cm, 体重76kg
    one = np.array([176,76])
        
    # 新数据标注化
    new_one = (one-mins) / (maxs-mins)
    #计算新数据的性别
    result = knn.classify(new_one, new_data, labels)
    print("数据 {} 的预测性别为: {}".format(one, result))
        
        

[('男', 2), ('女', 1)]
数据 [176  76] 的预测性别为: 男
