# 1. 采用局部加权线性回归，预测鲍鱼年龄（使用鲍鱼年龄数据集abalone.txt），随机选取部分数据分别用于训练、余下数据测试。采用不同核大小（不同k 值），分别计算训练误差和测试误差。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as ple
from sklearn.model_selection import train_test_split

def lwlr(testPoint,xArr,yArr,k=1.0):
    xMat=np.mat(xArr)
    yMat=np.mat(yArr).T
    m=np.shape(xMat)[0]
    weights=np.mat(np.eye((m)))
    for j in range(m):
        diffMat=testPoint-xMat[j,:]
        weights[j,j]=np.exp((diffMat*diffMat.T)[0,0]/(-2.0*k**2))
    xTx=xMat.T*(weights*xMat)
    if np.linalg.det(xTx)==0.0:
        print('This matrix is singular, cannot do inverse')
        return
    ws=xTx.I*(xMat.T*(weights*yMat))
    return (testPoint*ws)[0,0]

def lwlrTest(testArr,xArr,yArr,k=1.0):
    m=np.shape(testArr)[0]
    yHat=np.zeros(m)
    for i in range(m):
        yHat[i]=lwlr(testArr[i],xArr,yArr,k)
    return yHat

def rssError(yArr,yHatArr):
    return ((yArr-yHatArr)**2).sum()

def MSE(yArr,yHatArr):
    return ((yArr-yHatArr)**2).mean()

data=pd.read_csv('abalone.txt',header=None,sep='\t')
X=np.array(data.iloc[:,:-1])
y=np.array(data.iloc[:,-1])
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)

# X_train=X[0:99]
# y_train=y[0:99]

yHat01=lwlrTest(X_train,X_train,y_train,0.1)
yHat1=lwlrTest(X_train,X_train,y_train,1)
yHat10=lwlrTest(X_train,X_train,y_train,10)

# 测试误差
print('k=0.1时，训练误差：',MSE(y_train,yHat01.T))
print('k=1时，训练误差：',MSE(y_train,yHat1.T))
print('k=10时，训练误差：',MSE(y_train,yHat10.T))

yHat01=lwlrTest(X_test,X_train,y_train,0.1)
yHat1=lwlrTest(X_test,X_train,y_train,1)
yHat10=lwlrTest(X_test,X_train,y_train,10)

# 测试误差
print('k=0.1时，测试误差：',MSE(y_test,yHat01.T))
print('k=1时，测试误差：',MSE(y_test,yHat1.T))
print('k=10时，测试误差：',MSE(y_test,yHat10.T))



k=0.1时，训练误差： 21.701545093265118
k=1时，训练误差： 4.773287028096537
k=10时，训练误差： 5.009129068008318
k=0.1时，测试误差： 5.1372752616870825
k=1时，测试误差： 5.0449036133910345
k=10时，测试误差： 5.215195078965419
