In [1]:
# 导入自己写的函数
from regression_ import read_data, linear, lasso, ridge, error, train_model

# 导入其他库
import numpy as np
import pandas as pd
import time
import matplotlib.pyplot as plt
from sklearn.model_selection import KFold
from sklearn.preprocessing import RobustScaler

### 1．使用基于梯度下降的标准线性回归进行预测

In [2]:
# 比较原始数据和不同特征缩放方法对梯度法的影响

# 创建模式列表
mode = ['None', 'standard', 'one']

# 创建列表存储结果
outcome = {}

# 循环对比三种模式
for each in mode:

    # 读取数据
    data = read_data(mode=each, header_insert=True)

    # 分离X与y
    x_ind = ['x_0', 'gender', 'length', 'diameter', 'height', 'weight', 'non-shell weight', 'organ weight', 'shell weight']
    X = np.array(data[x_ind])
    y = np.array(data['age'])

    # 使用基于梯度下降的标准线性回归获取十折验证结果
    Error = train_model(X, y, data, func='linear', alpha=0.4, iter=1000)

    # 记录结果
    outcome[each] = {'min-MSE':min(Error), 'avg-MSE':np.average(Error)}

# 打印结果
print(outcome)


linear 执行时间：0.4567 秒
linear 执行时间：0.5086 秒
linear 执行时间：0.4681 秒
linear 执行时间：0.4810 秒
linear 执行时间：0.4814 秒
linear 执行时间：0.4848 秒
linear 执行时间：0.5014 秒
linear 执行时间：0.4931 秒
linear 执行时间：0.5004 秒
linear 执行时间：0.4977 秒
linear 执行时间：0.5284 秒
linear 执行时间：0.5163 秒
linear 执行时间：0.5133 秒
linear 执行时间：0.5056 秒
linear 执行时间：0.5400 秒
linear 执行时间：0.5197 秒
linear 执行时间：0.5256 秒
linear 执行时间：0.5218 秒
linear 执行时间：0.5242 秒
linear 执行时间：0.5200 秒
linear 执行时间：0.5138 秒
linear 执行时间：0.5251 秒
linear 执行时间：0.5160 秒
linear 执行时间：0.5113 秒
linear 执行时间：0.5106 秒
linear 执行时间：0.4977 秒
linear 执行时间：0.5131 秒
linear 执行时间：0.5346 秒
linear 执行时间：0.4972 秒
linear 执行时间：0.5303 秒
{'None': {'min-MSE': 7.94185847679829e+22, 'avg-MSE': 2.986823736446092e+48}, 'standard': {'min-MSE': nan, 'avg-MSE': nan}, 'one': {'min-MSE': 4.007277931595724, 'avg-MSE': 5.128901460695728}}


In [3]:
# 数据均值归一化，分析不同学习率α和初值对梯度法的影响

# 读取数据
data = read_data(mode='one', header_insert=True)

# 分离X与y
# 分离X与y
x_ind = ['x_0', 'gender', 'length', 'diameter', 'height', 'weight', 'non-shell weight', 'organ weight', 'shell weight']
X = np.array(data[x_ind])
y = np.array(data['age'])

# 对比的alpha值列表
alpha = [0.001, 0.005, 0.01, 0.02, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5]

# 创建结果列表
outcome = []

for each in alpha:
    Error = Error = train_model(X, y, data, func='linear', alpha=each, iter=1000)

    # 学习率为each对应的结果
    des = {'min':min(Error), 'avg':np.average(Error)}

    # 添加到结果列表
    outcome.append([each, des])

# 展示结果
print(outcome)

linear 执行时间：0.5608 秒
linear 执行时间：0.5203 秒
linear 执行时间：0.5281 秒
linear 执行时间：0.4811 秒
linear 执行时间：0.4943 秒
linear 执行时间：0.4991 秒
linear 执行时间：0.5089 秒
linear 执行时间：0.5728 秒
linear 执行时间：0.4979 秒
linear 执行时间：0.5162 秒
linear 执行时间：0.5091 秒
linear 执行时间：0.5075 秒
linear 执行时间：0.5058 秒
linear 执行时间：0.5074 秒
linear 执行时间：0.5097 秒
linear 执行时间：0.5197 秒
linear 执行时间：0.5738 秒
linear 执行时间：0.5500 秒
linear 执行时间：0.5032 秒
linear 执行时间：0.5013 秒
linear 执行时间：0.5084 秒
linear 执行时间：0.5047 秒
linear 执行时间：0.5292 秒
linear 执行时间：0.5336 秒
linear 执行时间：0.5643 秒
linear 执行时间：0.5657 秒
linear 执行时间：0.5436 秒
linear 执行时间：0.5682 秒
linear 执行时间：0.5649 秒
linear 执行时间：0.5821 秒
linear 执行时间：0.5683 秒
linear 执行时间：0.5733 秒
linear 执行时间：0.5914 秒
linear 执行时间：0.5856 秒
linear 执行时间：0.5922 秒
linear 执行时间：0.5973 秒
linear 执行时间：0.5974 秒
linear 执行时间：0.5994 秒
linear 执行时间：0.5900 秒
linear 执行时间：0.5893 秒
linear 执行时间：0.5911 秒
linear 执行时间：0.5856 秒
linear 执行时间：0.5933 秒
linear 执行时间：0.5945 秒
linear 执行时间：0.5923 秒
linear 执行时间：0.5884 秒
linear 执行时间：0.6532 秒
linear 执行时间：0

### 2. 使用Lasso回归和岭回归进行预测

In [4]:
# 数据均值归一化，分析不同学习率α和初值对梯度法的影响

# 读取数据
data = read_data(mode='one', header_insert=True)

# 分离X与y
# 分离X与y
x_ind = ['x_0', 'gender', 'length', 'diameter', 'height', 'weight', 'non-shell weight', 'organ weight', 'shell weight']
X = np.array(data[x_ind])
y = np.array(data['age'])

# 使用不同的lambda值
lam = [0.1, 0.2, 0.5, 0.8, 1.0, 2.0]

# 创建lasso回归的结果列表
outcome_lasso = []

# 创建岭回归的结果列表
outcome_ridge = []

# 对lasso回归和岭回归运用十折验证
for each in lam:
    # 分别获得岭回归和lasso回归的误差
    error_lasso = train_model(X, y, data, func='lasso', alpha=0.05, iter=1000)
    error_ridge = train_model(X, y, data, func='ridge', alpha=0.05, iter=1000)
    
    # 分别记录结果
    des_lasso = {'min':min(error_lasso), 'avg':np.average(error_lasso)}
    outcome_lasso.append([each, des_lasso])

    des_ridge = {'min':min(error_ridge), 'avg':np.average(error_ridge)}
    outcome_ridge.append([each, des_ridge])

# 输出结果
print('lasso', outcome_lasso)
print('ridge', outcome_ridge)

lasso 执行时间：0.3258 秒
lasso 执行时间：0.3282 秒
lasso 执行时间：0.3172 秒
lasso 执行时间：0.3209 秒
lasso 执行时间：0.3075 秒
lasso 执行时间：0.3088 秒
lasso 执行时间：0.3112 秒
lasso 执行时间：0.3015 秒
lasso 执行时间：0.2972 秒
lasso 执行时间：0.3147 秒
ridge 执行时间：0.3169 秒
ridge 执行时间：0.3284 秒
ridge 执行时间：0.3095 秒
ridge 执行时间：0.3042 秒
ridge 执行时间：0.3200 秒
ridge 执行时间：0.3200 秒
ridge 执行时间：0.3170 秒
ridge 执行时间：0.3161 秒
ridge 执行时间：0.3160 秒
ridge 执行时间：0.3085 秒
lasso 执行时间：0.3164 秒
lasso 执行时间：0.3130 秒
lasso 执行时间：0.3224 秒
lasso 执行时间：0.3161 秒
lasso 执行时间：0.3205 秒
lasso 执行时间：0.3191 秒
lasso 执行时间：0.2938 秒
lasso 执行时间：0.3050 秒
lasso 执行时间：0.3200 秒
lasso 执行时间：0.3609 秒
ridge 执行时间：0.2728 秒
ridge 执行时间：0.2964 秒
ridge 执行时间：0.3163 秒
ridge 执行时间：0.3121 秒
ridge 执行时间：0.3136 秒
ridge 执行时间：0.3085 秒
ridge 执行时间：0.3097 秒
ridge 执行时间：0.3170 秒
ridge 执行时间：0.3130 秒
ridge 执行时间：0.3125 秒
lasso 执行时间：0.3155 秒
lasso 执行时间：0.3120 秒
lasso 执行时间：0.3052 秒
lasso 执行时间：0.3087 秒
lasso 执行时间：0.3050 秒
lasso 执行时间：0.3129 秒
lasso 执行时间：0.3115 秒
lasso 执行时间：0.3048 秒
lasso 执行时间：0.3081 秒
lasso 执行时间：0.3170 秒


### 3. 使用局部加权线性回归进行预测并分析k值对结果的影响

In [5]:
print(X)

[[1.         1.         0.51351351 ... 0.15030262 0.1323239  0.14798206]
 [1.         1.         0.37162162 ... 0.06624075 0.06319947 0.06826109]
 [1.         0.         0.61486486 ... 0.17182246 0.18564845 0.2077728 ]
 ...
 [1.         1.         0.70945946 ... 0.3527236  0.37788018 0.30543099]
 [1.         0.         0.74324324 ... 0.35642233 0.34298881 0.29347285]
 [1.         1.         0.85810811 ... 0.63517149 0.49506254 0.49177877]]
