## 回归问题（Regressions）
回归问题和分类问题都同属于监督学习范畴，唯一不同的是
* 回归问题的预测目标是在**无限的连续实数域**，比如预测房价、股票价格等等；
* 分类问题则是对有限范围的几个类别（离散数）进行预测。

当然两者的界限不一定泾渭分明，也可以适度转化。比如，有一个经典的对红酒质量的预测，大体分为10等级，怎样看待这个预测目标，都是可以的。预测的结果，可以在（0-10]区间连续（回归问题），也可以只预测10个等级的某个值（分类问题）。
这里我们举一个预测美国波士顿地区房价的问题，这是个经典的回归问题，我们一步步采用各种用于回归问题的训练模型，一步步尝试提升模型的回归性能。

In [1]:
# 首先读取房价数据
from sklearn.datasets import load_boston

boston = load_boston()

# 查验数据规模
print(boston.data.shape)

(506, 13)


In [3]:
boston.feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'],
      dtype='<U7')

In [4]:
print(boston.DESCR) # 查看数据描述

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

In [5]:
# 这里多一个步骤，查验数据是否正规化，一般都是没有的
import numpy as np

print(np.max(boston.target))
print(np.min(boston.target))
print(np.mean(boston.target))

50.0
5.0
22.5328063241


可以看到，数据并没有正规化

In [6]:
# 进行数据集分割
from sklearn.cross_validation import train_test_split

X_train,X_test,y_train,y_test = train_test_split(boston.data,boston.target,test_size = 0.25,random_state = 33)

In [11]:
# 进行正规化
# 正规化的目的在于避免原始特征值差异过大，导致训练得到的参数权重不一
from sklearn.preprocessing import StandardScaler

scalerX = StandardScaler().fit(X_train)
X_train = scalerX.transform(X_train)
X_test = scalerX.transform(X_test)

scalery = StandardScaler().fit(y_train.reshape(-1, 1))
y_train = scalery.transform(y_train.reshape(-1, 1))
y_test = scalery.transform(y_test.reshape(-1, 1))

In [15]:
# 先把评价模块写好，依然是默认5折交叉验证，只是这里的评价指标不再是精度，而是另一个函数R2，
# 大体上，这个得分多少代表有多大百分比的结果可以被训练器覆盖和解释
from sklearn.cross_validation import *

def train_and_evaluate(clf,X_train,y_train):
    cv = KFold(X_train.shape[0],5,shuffle = True,random_state = 33)
    scores = cross_val_score(clf,X_train,y_train,cv = cv)
    print('Average coefficient of determination using 5-fold cross validation:\r\n', np.mean(scores))

## 比较代表性的回归模型有三种

In [30]:
# 先尝试线性模型，SGD_Regressor
from sklearn import linear_model

# 这里有一个正则化的选项penalty，目前14维特征也许不会有太大影响，默认为12，这里不使用
clf_sgd = linear_model.SGDRegressor(loss = 'squared_loss',penalty = None,random_state = 42)
train_and_evaluate(clf_sgd,X_train,y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.710809853468




In [19]:
# 再换一个SGD_Regressor 的 penalty 参数为 12，结果貌似影响不大，因为特征太少，正则化意义不大
clf_sgd_l2 = linear_model.SGDRegressor(loss='squared_loss', penalty='l2', random_state=42)
train_and_evaluate(clf_sgd_l2, X_train, y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.71081206667




In [22]:
# 再看看SVM的regressor怎么样（都是默认参数）
from sklearn.svm import SVR
# 使用线性核没有什么提升，但是因为特征少，所以可以考虑升高维度
clf_svr = SVR(kernel = 'linear')
train_and_evaluate(clf_svr, X_train, y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.707838419194


In [23]:
# 升高维度，使用多边形的核函数
clf_svr_poly = SVR(kernel = 'poly')
# 升高纬度，效果明显，但是此招慎用，特征高的话，CPU还是受不了，其实到了现在，连我们自己都没办法直接解释这些特征的具体含义了
train_and_evaluate(clf_svr_poly, X_train, y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.779288545488


In [25]:
clf_svr_rbf = SVR(kernel='rbf')
# RBF (径向基核更是牛逼！)
train_and_evaluate(clf_svr_rbf, X_train, y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.833662221567


In [26]:
# 再来个更猛的! 极限回归森林，放大招了！！！
from sklearn import ensemble
clf_et = ensemble.ExtraTreesRegressor()
train_and_evaluate(clf_et, X_train, y_train.reshape(-1))

Average coefficient of determination using 5-fold cross validation:
 0.861944476816


In [29]:
# 最后看看在测试集上的表现
clf_et.fit(X_train,y_train.reshape(-1))
clf_et.score(X_test,y_test.reshape(-1))

0.77090101994977811

In [31]:
clf_svr_rbf.fit(X_train,y_train.reshape(-1))
clf_svr_rbf.score(X_test,y_test.reshape(-1))

0.75640689122739502

### 总结来看，我们可以通过这个例子得到机器学习不断进取的快感！一点点提高模型性能，并且，也能感觉到超参数的作用有时比更换模型的提升效果更好。而且这里也为后续的“特征选择”，“模型选择”等实用话题埋下了伏笔。