# K近邻算法（欧氏距离）
存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据（(最近邻)计算两点之间的距离）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。


In [None]:
#创建函数集
import numpy as np
def createData():
    data=np.array([[1.,101],[5.,89],[108.,5],[115.,8],[100,40]])
    labels=['LoverView','LoverView','ActionView','ActionView','ActionView']
    return data,labels 
    # 生成数据集以及对应的数据标签
np.tile()
group ,labels = createData()
print(group)
print(labels)

## K近邻算法步骤
- 计算已知类别数据集中的点与当前点之间的距离；
- 按照距离递增次序排序；
- 选取与当前点距离最小的k个点；
- 确定前k个点所在类别的出现频率；
- 返回前k个点所出现频率最高的类别作为当前点的预测分类。

In [None]:
import operator
def KNN(test,Train,labels,K):
    # 获取样本个数，即属性行数
    row = Train.shape[0]
    # 测试集将规模扩展至训练集一致
    ready = np.tile(test,(row,1)) - Train
    # np.tile(array,(lay,row))将array的列复制lay次，行复制row次
    sqDis = ready**2
    befDis = sqDis.sum(axis=1)
    #  axis=1行内元素相加，axis=0列内元素相加
    Dis = befDis**0.5
    # 开方得到欧氏距离
    sortIndex = Dis.argsort()
    # 返回排序后的Index
    # 按照距离进行排序并返回对应的索引
    classCount={}
    # 设置字典记录出现频率
    for i in range(K):
        # 取出前K个元素的标记
        label = labels[sortIndex[i]]
        classCount[label] = classCount.get(label,0)+1
        # 0是默认值，没有找到返回默认值
    print(classCount)
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    print(sortedClassCount)
    # operator.itemgetter(1)是字典的value，operator.itemgetter(0)是字典的key
    return sortedClassCount[0][0]
   
test = [40,49]
testClass = KNN(test,group,labels,3)
print("this is a",testClass)


## 完整的K-近邻算法
- 收集数据：可以使用爬虫进行数据的收集，也可以使用第三方提供的免费或收费的数据。一般来讲，数据放在txt文本文件中，按照一定的格式进行存储，便于解析及处理。
- 准备数据：使用Python解析、预处理数据。
- 分析数据：可以使用很多方法对数据进行分析，例如使用Matplotlib将数据可视化。
- 测试算法：计算错误率。
- 使用算法：错误率在可接受范围内，就可以运行k-近邻算法进行分类。

### 海伦约会实例---预测下一个特征的人会是她的理想吗？


In [None]:
# 读取数据
def file2matrix(filename):
	#打开文件,此次应指定编码，
    
    fr = open(filename,'r',encoding = 'utf-8')
	#读取文件所有内容
    arrayOLines = fr.readlines()
    #针对有BOM的UTF-8文本，应该去掉BOM，否则后面会引发错误。
    arrayOLines[0]=arrayOLines[0].lstrip('\ufeff')
	#得到文件行数
    numberOfLines = len(arrayOLines)
	#返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
    returnMat = np.zeros((numberOfLines,3))
	#返回的分类标签向量
    classLabelVector = []
	#行的索引值
    index = 0

    for line in arrayOLines:
		#s.strip(rm)，当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
        line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
        listFromLine = line.split('\t')
		#将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
        returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力   
		# 对于datingTestSet2.txt  最后的标签是已经经过处理的 标签已经改为了1, 2, 3
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

In [None]:
fr = open("L:/Machine-Learning/kNN/2.海伦约会/datingTestSet.txt",'r')
file = fr.readlines()
length = len(file)
# print(file,'--------')
margtix=np.zeros((length,3))
index =0
classr = []
for line in file:
    # print(line)
    line=line.strip()
    line=line.split('\t')
    margtix[index,:]=line[0:3]
    if line[-1] == 'didntLike':
        classr.append(1)
    elif line[-1] == 'smallDoses':
        classr.append(2)
    elif line[-1] == 'largeDoses':
        classr.append(3)
    index += 1
print(classr)


print(length)

In [None]:
import matplotlib.pyplot as plt
# First create some toy data:
x = np.linspace(0, 2*np.pi, 400)
y = np.sin(x**2)

# Create just a figure and only one subplot
fig, ax = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))


## 归一化处理
使得预处理的数据被限制在一定的范围内，从而消除奇异样本数据导致的不良影响
- 提升模型的收敛速度
    非常熟悉的梯度等高线图，当我们使用梯度下降法寻找系数最优解经常会遇到。你可以想象我们模型在在寻找系数最优解的过程中就相当于在这个等高线图上蹦跶（蹦跶的强度就是我们的学习率），他为什么蹦跶？因为他要找到最凹的地方，也就是等高线中中间最小的圈圈。标准化前，由于变量的单位相差很大，导致了椭圆型的梯度轮廓。标准化后，把变量变成统一单位，产生了圆形轮廓。由于梯度下降是按切线方向下降，所以导致了系统在椭圆轮廓不停迂回地寻找最优解，而圆形轮廓就能轻松找到了。还有一种比较极端的情况，有时没做标准化，模型始终找不到最优解，一直不收敛。
- 提升模型的准确度
    当我们模型会考虑到特征取值的时候，归一化、标准化就显得十分必要。因为有时候，不同特征之间，他们的取值范围会相差很大。如果这时候不做点什么的话，模型会自然地对取值大的特征有偏向性，忽略了取值小的特征，这是对取值范围小的特征的不公平！为了让他们受到公平对待，归一化可以实现。

一些需要归一化的算法

|需要|	不需要|
|----|----|
|线性回归	|决策树|
|逻辑回归	|随机森林|
|SVM|	朴素贝叶斯|
|KNN|	XGBoost|
|K-MEANS|	LightGBM|
|PCA	||
|Adaboost||	
|神经网络||	
|GBDT	| |

需要的原因

| 算法 |需要的原因| 
| ---- | ---- |
|线性回归|     学习率众口难调。在寻找损失函数最小值的时候，对所有特征使用的都是同等学习率，如果学习率对于取值范围比较大的特征来说能够很好地逼近损失函数的极小值的话，对于本身取值范围较小的特征来说，学习率就可能偏大，蹦跶过猛，错过他的最小值。 |   	
|逻辑回归	|其实不是所有逻辑回归都需要归一化、标准化处理，这取决于是否使用了正则化。有正则化，需要；无正则化，非必须。因为不用正则时，我们的损失函数只是仅仅在度量预测与真实的差距，加上正则后，我们的损失函数除了要度量上面的差距外，还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。只是进行标准化后，得出的参数值的大小可以反应出不同特征对样本label的贡献度，方便我们进行特征筛选。如果不做标准化，是不能这样来筛选特征的。使用正则化的时候，如果遇到不同特征取值范围差距较大的时候，在L1正则时，我们是简单将参数的绝对值相加，因为它们的大小级别不一样，就会导致L1最后只会对那些级别比较大的参数有作用，那些小的参数都被忽略了。|
|SVM|	道理与之前的原因类似，在求最优超平面时，需要进行求偏导，找极值。|
|KNN|	因为KNN和K-means的原因类似，就放在一起说了。你会发现这两个算法，虽然一个是监督学习算法，另一个是非监督学习算法，但他们都与距离有关。就欧式距离而言，某个特征的取值普遍较大的话，相当于增加了其在距离计算中的权重，如果有明确的先验知识表明某个特征很重要，那么适当增加其权重可能有正向效果，但如果没有这样的先验，或者目的就是想知道哪些特征更重要，那么就需要先归一化、标准化，对各维特征等而视之。|
|K-MEANS|   |
|PCA|	PCA通常是用于高维数据的降维，它可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。如果数据其中某一特征（矩阵的某一列）的数值特别大，那么它在整个误差计算的比重上就很大，那么可以想象在投影到低维空间之后，为了使低秩分解逼近原数据，整个投影会去努力逼近最大的那一个特征，而忽略数值比较小的特征。因为在建模前我们并不知道每个特征的重要性，这很可能导致了大量的信息缺失。为了“公平”起见，防止过分捕捉某些数值大的特征，我们会对每个特征先进行标准化处理，使得它们的大小都在相同的范围内，然后再进行PCA。|
|Adaboost|	AdaBoost是在每一步归一化权值的前向分步算法|
|神经网络|	神经网络离不开求偏导，自然也需要利用梯度下降法，所以理由与线性回归类似。|
|GBDT|	因为GBDT的树是在上一颗树的基础上通过梯度下降求解最优解，归一化能收敛的更快，GBDT通过减少偏差来提高性能。|


树模型不适用归一化的原因：因为数值缩放不影响分裂点位置，对树模型的结构不造成影响，而且是不能进行梯度下降的，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。

- 如果对输出结果范围有要求，用归一化。

- 如果数据较为稳定，不存在极端的最大最小值，用归一化。

- 如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。
### 具体实现
#### 最大最小标准化（通常来说叫做广义标准化）
- (1) 线性函数将原始数据线性化的方法转换到[0 1]的范围, 计算结果为归一化后的数据，X为原始数据

- (2) 本归一化方法比较适用在数值比较集中的情况；

- (3) 缺陷：如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。

应用场景：在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法（不包括Z-score方法）。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
#### z-score标准化（也叫广义标准化）
$$
    {z}^{*}=\frac{x-μ} {σ}
$$ 
其中，μ、σ分别为原始数据集的均值和方法。

- 将原始数据集归一化为均值为0、方差1的数据集

- 该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。

应用场景：在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，Z-score standardization表现更好。



