In [None]:
##############################################################################################################################################

                                                     # Reading the Data #
    
##############################################################################################################################################

In [3]:
import os
import pandas as pd # 导入pandas库，用pd作别名
HOUSING_PATH = os.path.join("datasets","housing") # 指定下载数据到的目录 datasets/housing/
def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path,"housing.csv")
    return pd.read_csv(csv_path) # 返回一个包含所有数据的 pandas 数据框架对象
housing = load_housing_data() # 返回一个包含所有数据的 pandas 数据框架对象

In [4]:
##############################################################################################################################################

                                                     # Create a Test set #
    
##############################################################################################################################################

In [5]:
# 分层抽样 根据收入中位数来进行分层抽样
import numpy as np
import pandas as pd
# 将 median_income 的数据按照bins来划分，并给每个区间中的数据打上label
housing["income_cat"] = pd.cut(housing["median_income"],bins=[0.,1.5,3,4.5,6.,np.inf],labels=[1,2,3,4,5])
# 现在层次已经分出来了，我们要做的就是在每一层选择一些样本出来
# sklearn 提供了 StratifiedShuffleSplit 函数来进行分层抽样
from sklearn.model_selection import StratifiedShuffleSplit
# n_splits 表示只分成一对 test/train 集，返回的还是一个 StratifiedShuffleSplit 对象
split_obj = StratifiedShuffleSplit(n_splits=1,test_size=0.2, random_state=42)
# split_obj.split(数据集X，参照列y) 将数据集按照参照列进行分层，本质上是利用了参照列的分布
for test_index, train_index in split_obj.split(housing,housing["income_cat"]):
    # 这个循环会执行 n_splits 那么多次，这里只执行一次
    strat_train_set = housing.loc[train_index] # loc作用于数据的label上，iloc作用于数据存储的indexs上
    strat_test_set = housing.loc[test_index]
# strat_train_set["income_cat"].value_counts() / len(strat_train_set) # value_counts得到这一列的分布
# 通过dataframe.columns来查看所有列
strat_train_set.columns
# 需要删除掉 income_cat 这个属性，因为这是人工加上去的
for set_ in (strat_train_set,strat_test_set):
    set_.drop("income_cat",axis=1,inplace=True) # axis指明这是按列删除，前面的“income_cat”表示该列的标识


In [6]:
##############################################################################################################################################

                                      # Prepare the Data for Machine Learning Algorithms (数据预处理)#
    
##############################################################################################################################################

In [7]:
# 首先分离标签数据和参考数据
housing = strat_train_set.drop("median_house_value",axis=1) # drop 操作会拷贝，所以本身不会变化
housing_labels = strat_train_set["median_house_value"].copy()
housing_num = housing.drop("ocean_proximity",axis=1) # 在参考数据中分离出类别数据和数值数据
####### 先做一个自定义的 Transfromer 后面会用到 ###############
from sklearn.base import BaseEstimator, TransformerMixin
rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6
class CombineAttributesAddr(BaseEstimator,TransformerMixin): # 括号里面表示继承的基类
    def __init__(self,add_bedrooms_per_room=True):
        self.add_bedrooms_per_room = add_bedrooms_per_room # add_bedrooms_per_room 是一个超参
    def fit(self,X,y = None):
        # 实现fit方法
        return self;
    def transform(self,X,y = None):
        # 实现transform方法
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household,bedrooms_per_room] # np.c_用于按列连接两个矩阵
        else:
            return np.c_[X, rooms_per_household, population_per_household]
###############################################################
#### 4. Transformation Pipelines
   # Pipeline的思想就是将上面所有对数据的操作连接起来
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
num_pipeline = Pipeline([
    ('imputer',SimpleImputer(strategy="median")),
    ('add_addr',CombineAttributesAddr()),
    ('std_scaler',StandardScaler())
])# Pipeline的参数是一个list，每个元素是一个tuple,指明名字和使用的estimator，最后一个tuple得是一个transformer
# 然后直接调用num_pipeline的fit_transform方法传入housing的数值数据就可以一步完成上面的空值填充，属性组合，标准化等操作了
# 但是上面的pipeline只是对于数值数据进行操作，还希望对housing数据中类别数据进行transform,
from sklearn.compose import ColumnTransformer
num_attr = list(housing_num) # 获取housing_num的所有列名
cate_attr = ["ocean_proximity"] # 类型一致
full_pipeline = ColumnTransformer([
    ("num",num_pipeline,num_attr),
    ("cate",OneHotEncoder(),cate_attr)
]) # ColumnTransformer的参数是一个list，每一个元素是一个tuple，tuple里面分别是名称，transformer,该transformer要transform的列名们

# 最后调用一下就OK
housing_prepared = full_pipeline.fit_transform(housing)


In [8]:
##############################################################################################################################################

                                                 # Select and Train a Model #
    
##############################################################################################################################################

In [9]:
### 1. Training and Evaluating on the Training Set
###  首先看下线性回归的效果
from sklearn.linear_model import LinearRegression
lin_gre = LinearRegression()
lin_gre.fit(housing_prepared,housing_labels) # 线性回归模型的fit方法用于拟合，参数是样本和标签
###  看看训练出来的模型的误差，使用均方根误差(实际上就是概率意义上的标准差)
from sklearn.metrics import mean_squared_error
housing_predictions = lin_gre.predict(housing_prepared)
housing_mse = mean_squared_error(housing_labels,housing_predictions)
housing_rmse = np.sqrt(housing_mse)

In [10]:
housing_rmse

66787.70814784677

In [11]:
### 66787这样的误差相对于原始数据的120000到265000的尺度来说是0.1，有点大了
### 这种就属于是underfitting, 我们可以换一个模型试试
### 下面我们换一个更为强大的模型----决策树模型
from sklearn.tree import DecisionTreeRegressor
deci_tree = DecisionTreeRegressor()
deci_tree.fit(housing_prepared,housing_labels)
housing_tree_predictions = deci_tree.predict(housing_prepared)
housing_tree_mse = mean_squared_error(housing_labels,housing_tree_predictions)
housing_tree_rmse = np.sqrt(housing_tree_mse)
housing_tree_rmse

0.0

In [12]:
### 看到这里误差为0 就明白极大可能是过拟合了，但我们还是不敢确定，所以要进行验证
### 但是验证的话我们不能动测试集中的数据，所以我们把训练集中的数据一部分用来训练，一部分用来验证(validation)

### 2. Better Evaluation Using Cross-Validation
  ### 在交叉验证前，一般是先将训练集数据分为k个部分，这个k称为 折(fold) ，在交叉验证中, 一般需要进行k次训练和验证，
  ### 每次从k个fold中选择一个fold作为验证集，其余的k-1个fold作为训练集，一次的训练和验证产生一个训练-验证分数(实际上就是一个误差)
  ### 然后再选择另外一个不同的fold作为验证集，以此类推。最后得到一个长度为k的训练-验证分数向量
  ### 交叉验证可以让我们看到所选择的模型的预测能力，还能够通过标准差来反映这种预测能力的准确性(它产生的误差范围)

  ### 使用sklearn.model_selection的cross_val_score可以完成交叉验证功能
from sklearn.model_selection import cross_val_score
# 第一个参数是分类器，第二三个参数分别是：数据特征和标签，第四个参数是计算分数的方法，cv是折数
scores = cross_val_score(deci_tree,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
tree_rmse_scores = np.sqrt(-scores)
def display_scores(scores):
    print("Scores:", scores)
    print("Mean:", scores.mean())
    print("Standard deviation:", scores.std())
display_scores(tree_rmse_scores)

Scores: [74879.43164092 81368.03511853 73001.08264174 73435.6217542
 72032.69365025 71588.7109206  76887.83841054 78661.57960908
 71823.13510265 79175.04984221]
Mean: 75285.31786907338
Standard deviation: 3333.6422431393994


In [13]:
### 可以看到 分数的均值甚至比线性回归模型还要拉胯，为了公平一些，我们还是看看线性回归模型在交叉验证下的表现
linea_scores = cross_val_score(lin_gre,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
linea_rmse_scores = np.sqrt(-linea_scores)
display_scores(linea_rmse_scores)

Scores: [66830.21497764 73595.46286068 67888.5957665  69274.18198153
 66475.99624101 66144.88036095 64702.02705501 65639.32837098
 67105.20129799 67421.10791841]
Mean: 67507.69968307031
Standard deviation: 2350.3018828733475


In [14]:
### 看吧看吧，看来线性回归模型还是要比决策树模型要好的
### 但是线性回归模型underfitting了不是，那我们还是再看看其他模型

### 接下来采用随机森林回归模型
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared,housing_labels)
forest_prediction = forest_reg.predict(housing_prepared)
forest_rmse = np.sqrt(mean_squared_error(housing_labels,forest_prediction))
forest_rmse

20035.380599451564

In [15]:
### 可以看到比线性回归模型好了很多了，那在验证集下(交叉验证)的表现如何呢？
forest_scores = cross_val_score(forest_reg,housing_prepared,housing_labels,scoring="neg_mean_squared_error",cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

Scores: [52833.08322075 55233.75274663 52902.27036074 51296.78623101
 50660.96400371 52579.21961832 53445.77661821 54557.04524026
 51952.41219146 59640.10331805]
Mean: 53510.14135491365
Standard deviation: 2424.5664197054184


In [16]:
### 可以看到均值已经好了很多了，但是在验证集下的结果比训练集下的结果更拉胯(得多)，说明overfitting了

### 现在整理一下思路，在线性模型上由于在训练集上的结果就很拉胯说明underfitting了
### 换了一个决策树模型，结果训练集上表现完美，但是验证集上表现比线性模型更拉胯，说明overfitting了
### 又换了一个随机森林模型，结果训练集上表现相对于线性模型要好一些了，而验证集上的该模型又比决策树模型好了一些，但是还是由于验证集比训练集烂太多而overfitting了

### 我们可以再试试其他的模型，文中提出在选择模型阶段我们一般选出2-5个表现比较好的模型就可以了

In [17]:
# 很多时候我们应该要保存我们选择出来的模型(训练好了的)
from sklearn.externals import joblib
joblib.dump(my_model, "my_model.pkl") ## 保存
.
# my_model_loaded = joblib.load("my_model.pkl") ## 读入

SyntaxError: invalid syntax (1901056836.py, line 4)

In [None]:
##############################################################################################################################################

                                                     # Fine-Tune Your Model #
    
##############################################################################################################################################

In [20]:
### 拥有了选择好的一些模型后，我们需要对这些模型进行微调(fine-tune)
##### 1. 一种进行微调的方法就是调整超参数，这里用到的是网格搜索(没错，就是基于笛卡尔积的那种网格)
from sklearn.model_selection import GridSearchCV
param_grid = [{"n_estimators":[3,10,30],"max_features":[2,4,6,8]},
              {"bootstrap":[False],"n_estimators":[3,10],"max_features":[2,3,4]}]
# 这里 param_grid 是要作为参数传入GridSearchCV中的
# 列表里面的每一个字典都是一组需要测试的超参: 
###### 'n_estimators'，'max_features'，'bootstrap'是超参们，它们的意义后面会介绍，这里它们的两个列表会做一个笛卡尔积的操作，即：
######  [3,2],[3,4],[3,6]，...它们作为超参组合被用于训练以及验证
######  第二个字典还增加了bootstrap为false的超参进去进行对比， 默认是True的
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg,param_grid,cv=5,scoring="neg_mean_squared_error",return_train_score=True)
# 你应该注意到了 几乎所有的模式都是先按照某些超参把这个模型建立起来，然后再让这个模型去fit数据
grid_search.fit(housing_prepared,housing_labels)
# 通过训练后可以通过grid_search的best_params_属性来得到找到的最佳超参
grid_search.best_params_

{'max_features': 4, 'n_estimators': 30}

In [21]:
# 也可通过grid_search的best_estimator_来看最佳的预测器的超参设置
grid_search.best_estimator_
# 更多用法可见 https://www.cnblogs.com/dalege/p/14175192.html

RandomForestRegressor(max_features=4, n_estimators=30)

In [None]:
###### 但是需要指出网格搜索对于庞大的超参数空间是十分耗时的
###### 所以此时可以选用 RandomSearchCV，通过设置迭代步数来对超参数的组合数进行限制而达到减小耗时

In [23]:
##### 2. 另一种对模型进行微调的方法是将表现得很好的一些模型进行组合
###### 进行如上操作首先需要分析表现得很好的模型
# 查看表现得很好的模型的特征参数
feature_importances = grid_search.best_estimator_.feature_importances_
feature_importances

array([0.0796786 , 0.06863641, 0.0380639 , 0.02671849, 0.0251539 ,
       0.02718335, 0.02206064, 0.27211934, 0.07449396, 0.09475054,
       0.09198812, 0.0200512 , 0.14499885, 0.00094227, 0.00575357,
       0.00740688])

In [30]:
extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
cat_encoder = full_pipeline.named_transformers_["cate"] # 现在当初起得名字就有作用了
cat_one_hot_attr = list(cat_encoder.categories_[0]) # categories_中包含了所有类特征的所有值，由于只有一个类特征，所以只需要取第一个就可以了
attrs = num_attr+extra_attribs+cat_one_hot_attr
sorted(zip(feature_importances,attrs),reverse=True) # zip(a,b)将a,b这两个可迭代对象中的元素一个个打包成一个元组，返回一个元组的列表

[(0.27211933755738393, 'median_income'),
 (0.1449988541688845, 'INLAND'),
 (0.09475053885835279, 'pop_per_hhold'),
 (0.0919881151196966, 'bedrooms_per_room'),
 (0.07967859615615107, 'longitude'),
 (0.07449395650866183, 'rooms_per_hhold'),
 (0.06863640546779907, 'latitude'),
 (0.038063896515509926, 'housing_median_age'),
 (0.02718334516160155, 'population'),
 (0.026718486033989207, 'total_rooms'),
 (0.025153902112110205, 'total_bedrooms'),
 (0.022060644504249712, 'households'),
 (0.02005120137117593, '<1H OCEAN'),
 (0.007406884646096861, 'NEAR OCEAN'),
 (0.005753565735625612, 'NEAR BAY'),
 (0.0009422700827112013, 'ISLAND')]

In [None]:
##############################################################################################################################################

                                                # Evaluate Your System on the Test Set #
    
##############################################################################################################################################

In [35]:
### 经过上面的训练，我们找出了当前环境下表现最好的模型，然后我们就需要对这个模型在测试集上进行验证
### 注意我们是在验证集上进行交叉验证选择了比较好的一些模型，然后对这些模型又进行了交叉验证来进行超参选择等的fine-tune后来到了这里
# 首先还是需要将测试集的特征和标签分开，然后把特征transform一下
X_test = strat_test_set.drop("median_house_value",axis=1)
Y_test = strat_test_set["median_house_value"].copy()
X_test_transformed = full_pipeline.transform(X_test) # 注意这里不能使用 fit_transform 因为测试集上你绝对不能fit
# 召唤出训练好的，调整好超参的模型
final_model = grid_search.best_estimator_
final_predictions = final_model.predict(X_test_transformed)
final_rmse = np.sqrt(mean_squared_error(Y_test,final_predictions))
final_rmse

54503.17006937851

In [37]:
### 如何判断这个预测的准确性呢？
### 我们考虑预测均方误差的范围
### 通过置信区间的来看看
from scipy import stats
confidence = 0.95 # 设置置信度
squared_errors = (final_predictions-Y_test)**2
np.sqrt(stats.t.interval(confidence,len(squared_errors)-1, loc=squared_errors.mean(),scale=stats.sem(squared_errors)))

array([53385.1304235 , 55598.73150432])

In [None]:
### 也就是说预测的均方误差有95%的可能性落在长度为其十分之一区间中，误差取得的区间比较小，说明预测还是比较集中的

In [None]:
##############################################################################################################################################

                                            # Launch, Monitor, and Maintain Your System #
    
##############################################################################################################################################