# 第8讲 机器学习入门

<font face="宋体" >郭峰（Email：guofengsfi@163.com)   
副教授、博士生导师  
上海财经大学公共经济与管理学院 </font> 

<font face="宋体" >本讲目录：  
8.1. 机器学习原理  
8.2. 线性回归、岭回归和Lasso回归  
8.3. K近邻算法  
8.4. 朴素贝叶斯算法  
8.5. 机器学习实操案例</font>  

# 8.3. K近邻算法

<font face="宋体" >在近邻分类算法中，对于预测的数据，将其与训练样本进行比较，找到最为相似的K个训练样本，并以这K个训练样本中出现最多的标签作为最终的预测标签。在近邻分类算法中，最主要的是K-近邻算法。</font>  

### 数据演示

<font face="宋体" >目标：以鸢尾花分类为示例，介绍KNN算法，鸢尾花可以被分为setosa、versicolor、virginica三个品种，现在我们要建立一个模型，输入新的叶子数据判定它是属于哪一类。原理就是看新的叶子数据跟已知三个品众那个长得最像。</font> 

In [1]:
import numpy as np
from sklearn import datasets
iris=datasets.load_iris()
X=iris.data   #x展示了样本的四个特征，根据这四个特征，预测花的品种
print('X:\n',X[0:10])
Y=iris.target
print('Y:\n',Y[0:10])

X:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
Y:
 [0 0 0 0 0 0 0 0 0 0]


<font face="宋体" >我们使用欧氏距离公式，计算两个向量点之间的距离;计算完所有点之间的距离后，可以对数据按照从小到大的次序排序;统计距离最近前k个数据点的类别数，返回票数最多的那类类别。</font>  

### 将训练集和测试集进行划分

<font face="宋体" >导入的数据集我们要分为训练集和测试集，一般都是采用3：1的随机分配办法； 
而拆分时为了数据分布均匀，我们先要对数据进行随机达伦，确保测试数据和训练数据的全面性；
在scikit-learn中，我们可以调用train_test_split函数实现划分，利用random_state指定随机数生成种子即可。</font> 

In [2]:
#sklearn中的train_test_split
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.25,random_state=666)

### 对模型的正确率进行衡量

In [3]:
#方法1
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
iris=datasets.load_iris()
x=iris.data
y=iris.target

knn_classifier=KNeighborsClassifier(n_neighbors=5)
knn_classifier.fit(x_train,y_train)    #因为knn对算法进行了封装，既包括构建模型的算法，也包括预测的算法，我们只需要调用fit方法来训练数据即可。
y_predict=knn_classifier.predict(x_test)
scores=knn_classifier.score(x_test,y_test)
print('acc:{}'.format(sum(y_predict==y_test)/len(y_test)),scores)

acc:1.0 1.0


In [4]:
#直接使用sklean自带的程序，预测某一个点的分类结果
X_new = np.array([[5,2.9,1,0.2]])
prediction =knn_classifier.predict(X_new)
print(prediction)
print("Predicted target name:{}".format(iris['target_names'][prediction]))

[0]
Predicted target name:['setosa']


### 寻找最好的k

<font face="宋体" >得到正确率之后，想要进一步的提升在测试集上的正确率，我们就需要对模型进行调参;
超参数：在算法运行前需要设定的参数（通过领域知识、经验数值、实验搜索来寻找好的超参数）,KNN算法中的k是典型的超参数，我们将采用实验搜索来寻找好的超参数，例如在k=1到10之间一个个测试，看那个k效果最好</font> 

In [5]:
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
digits=datasets.load_digits()
x=digits.data
y=digits.target
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=666)

# 寻找最好的k
best_k=-1
best_score=0
for i in range(1,10):
    knn_clf=KNeighborsClassifier(n_neighbors=i)
    knn_clf.fit(x_train,y_train)
    scores=knn_clf.score(x_test,y_test)
    print(i,scores)
    if scores>best_score:
        best_score=scores
        best_k=i
print('最好的k为:%d,最好的得分为:%.4f'%(best_k,best_score))

1 0.98
2 0.9844444444444445
3 0.9866666666666667
4 0.9844444444444445
5 0.9866666666666667
6 0.9866666666666667
7 0.9822222222222222
8 0.9822222222222222
9 0.98
最好的k为:3,最好的得分为:0.9867


In [None]:
#在sklearn中，可以通过"网格搜索"，自动寻找最优参数，具体做法可以参考网络资料

In [6]:
#寻找最优超参数weights
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
digits=datasets.load_digits()
x=digits.data
y=digits.target
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=666)

# 寻找最好的k,weights
best_k=-1
best_score=0
best_method=''
for method in ['uniform','distance']:
    for i in range(1,11):
        knn_clf=KNeighborsClassifier(n_neighbors=i,weights=method)
        knn_clf.fit(x_train,y_train)
        scores=knn_clf.score(x_test,y_test)
        if scores>best_score:
            best_score=scores
            best_k=i
            best_method=method
print('最好的k为:%d,最好的得分为:%.4f,最好的方法%s'%(best_k,best_score,best_method))

最好的k为:3,最好的得分为:0.9867,最好的方法uniform


### 实战案例：手写数字识别

In [None]:
from IPython.display import Image
path='D:/python/郭峰Python讲义/数据与结果/08机器学习入门/'
Image(filename = path+'num_data.png', width=500, height=260)

In [None]:
#步骤1：导入第三方库
from numpy import *
import os
from os import listdir
import operator
from sklearn.neighbors import KNeighborsClassifier

In [None]:
#步骤2：路径与标签
path1='D:/python/郭峰Python讲义/数据与结果/08机器学习入门/digits/trainingDigits/'
path2='D:/python/郭峰Python讲义/数据与结果/08机器学习入门/digits/testDigits/'
print(path1)
#将训练数据存储到一个矩阵中1024维，并存储对应的标签
trainName=listdir(path1)
trainNum=len(trainName)
trainNumpy = zeros((trainNum,1024))
#print("trainNum=%d"%trainNum)
#对文件名进行分析，训练文本对应的标签
print(trainNum)
print(trainName[0])


#将测试数据存储到一个矩阵中1024维，并存储对应的标签
testName=listdir(path2)
testNum=len(testName)
testNumpy = zeros((testNum,1024))

In [None]:
#步骤3：将像素数据转换成向量数据
#这个函数是1024长度的向量
def img2vector(filename):
    vect=zeros((1,1024))
    f=open(filename)
    for i in range(32):
        line=f.readline()
        for j in range(32):
            vect[0,32*i+j]=int(line[j])
    return vect
handlabel=[]

#训练集
for i in range(trainNum):
    filename=trainName[i]#文件名
    filestr=filename.split('.')[0]#不带后缀的文件名
    filelabel=int(filestr.split('_')[0])#文件的标签,0,1,2,....,9
    #将标签添加至handlabel中
    handlabel.append(filelabel)
    trainNumpy[i,:]=img2vector(path1+str(filename))#转成1024
    #print(handlabel[:20])

print(trainNumpy[0][0:40])
print(trainNumpy.shape[0])
print(handlabel[0:40])
print(len(handlabel))

#测试集
handlabel_test=[]
for i in range(testNum):
    filename_test=testName[i]#文件名
    filestr_test=filename_test.split('.')[0]#不带后缀的文件名
    filelabel_test=int(filestr_test.split('_')[0])#文件的标签,0,1,2,....,9
    #将标签添加至handlabel中
    handlabel_test.append(filelabel_test)
    testNumpy[i,:]=img2vector(path1+str(filename_test))#转成1024

In [None]:
y_train=handlabel
x_train=trainNumpy  #列表，1934个元素，每个元素又是一个1024长度的列表
print(len(x_train))
print(len(y_train))

print(y_train[0:20])
print(len(x_train[0]))

In [None]:
y_test=handlabel_test
x_test=testNumpy  #列表，1934个元素，每个元素又是一个1024长度的列表
print(len(x_test))
print(len(y_test))


In [None]:
#步骤四：定义KNN算法，并进行测试
knn_classifier=KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(x_train,y_train)    
y_predict=knn_classifier.predict(x_test)
scores=knn_classifier.score(x_test,y_test)
print('acc:{}'.format(sum(y_predict==y_test)/len(x_test)),scores)
print(y_predict[0:10])

<font face="宋体" >机器学习实操中，工作量主要体现在如何对一个图片、文字进行数量化表达(特征工程)。上述关于图片的向量化表达是一个信息损失很大的方式，更好的特征工程方法需要运用到图像处理、深度学习等知识，超出了本课程的范围。</font> 