### ML 入门

In [1]:
# from https://www.kaggle.com/learn/intro-to-machine-learning
'''
This step of capturing patterns(模型) from data is called fitting(拟合) or training(训练) the model.
The data used to fit the model is called the training data.
'''
# -----Using Pandas to Get Familiar With Your Data
import pandas as pd
melbourne_data = pd.read_csv('./melbourne-housing-snapshot/melb_data.csv')
# 数据描述
'''
数据描述的解释：
count：展示没有丢失值（non-missing values）的记录行数
mean：平均值
std：标准差（standard deviation）
min, 25%, 50%, 75% 和 max：假设将每列按照从小到大排序。最小值是min，四分之一处的值是25%（25th percentile）...
'''
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [2]:
# -----Selecting Data for Modeling
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [3]:
# dropna 删除丢失的值（na，not available)
melbourne_data = melbourne_data.dropna(axis=0)

In [4]:
# 获取数据的子集
# 1.Dot notation（点号选择）,选择一列，保存在Series中
# 选择Price列作为预测目标（Prediction target）
y = melbourne_data.Price
y

1        1035000.0
2        1465000.0
4        1600000.0
6        1876000.0
7        1636000.0
           ...    
12205     601000.0
12206    1050000.0
12207     385000.0
12209     560000.0
12212    2450000.0
Name: Price, Length: 6196, dtype: float64

In [5]:
# 2.Selecting with a column list用列的集合选择
# 选择几列用预测来房价的数据，这些数据叫做Features（特征）
mebourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[mebourne_features]
X

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.80790,144.99340
2,3,2.0,134.0,-37.80930,144.99440
4,4,1.0,120.0,-37.80720,144.99410
6,3,2.0,245.0,-37.80240,144.99930
7,2,1.0,256.0,-37.80600,144.99540
...,...,...,...,...,...
12205,3,2.0,972.0,-37.51232,145.13282
12206,3,1.0,179.0,-37.86558,144.90474
12207,1,1.0,0.0,-37.85588,144.89936
12209,2,1.0,0.0,-37.85581,144.99025


In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
# 查看特征数据的前几行
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


In [8]:
# 使用describe、head这些指令可以直观地大略检查一下数据是否正常。实际上，可能这些还不够。
# 使用scikit-learn库来构建模型
'''
构建和使用模型的步骤：
1.Define：模型的类型？决策树？还是其它类型的模型？并且要指定模型类型的一些其它参数
2.Fit：从提供的数据获取patterns。这是modeling的核心。
3.Predict：预测
4.Evaluate：评估模型预测的精确性
'''

from sklearn.tree import DecisionTreeRegressor
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=1, splitter='best')

In [9]:
'''
在模型训练中，许多的机器学习模型都可以使用随机参数。指定一个random_state数字来确保每次运行的结果是相同的。
这是一个好习惯（This is considered a good parctice.）。
可以使用任意数字，这个数字不会影响模型的质量。
'''
# 使用模型进行预测
print("Making predictions for the folling 5 houses:")
print(X.head())
print("The predictions are:")
print(melbourne_model.predict(X.head()))

Making predictions for the folling 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are:
[1035000. 1465000. 1600000. 1876000. 1636000.]


In [13]:
# -----Model Validation 模型验证
# 测量模型的质量是反复地提升模型的关键（Measuring model quality is the key to iteratively improving your models.）
# 大多数情况下，模型质量的检测标准是预测的精确性。（In most applications, the relevant measure of model quality is predictvie accuracy.）
'''将模型预测的结果汇总为一个矩阵（metric）。
总结模型质量的矩阵有很多，这里从MAE（Mean Absolute Error，平均绝对误差）开始；
预测误差的定义：error=actual-predicted
使用MAE矩阵，可以获取每个误差的绝对值（absolute value）；然后，获取这些绝对误差的平均值。或者说，MAE就是预测偏移的平均值。
'''

from sklearn.metrics import mean_absolute_error
predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

1115.7467183128902

In [15]:
'''
由于模型是从训练数据得到的，所以模型对于训练数据来说可能是精确的。
因为模型的实际价值是基于新的数据进行预测，所以应该用构建模型时没有使用过的数据来检测模型的质量。
最直接的方法是将数据分为训练数据(trainning data)和测试数据（validation data，验证数据）
'''
# scikit-learn有一个函数train_test_split，它将数据分为两部分（每个部分都包含特征features和结果target）。
from sklearn.model_selection import train_test_split
# 分割是基于一个随机数字生成器的。支持指定一个random_state参数来确保每次分割的结果相同。
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)
melbourne_model_1 = DecisionTreeRegressor()
melbourne_model_1.fit(train_X, train_y)
val_predictions = melbourne_model_1.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

271000.9279104799


综上可见，模型的误差还是很大的，另外，切分数据进行模型训练和测试是有必要的。
最后，模型是需要改进的，不然，这么大误差是没有实际用处的。

# ----- underfitting and overfitting：欠拟合和过拟合
在scikit-learn的[文档](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)中，决策树模型有许多的选项。最重要的选项是树的深度；树的深度决定了在预测结果时需要切分的次数。
事实上，切分10次的决策树并不少见。随着树的深度增加，划分到每个树分支的样本逐渐减少。如果树只有一次切分，那么数据被分为两组，如果再次切分则会有四组数据；以此类推，切分10次时，可将样本分为1024组数据。切分越多次，每一个分支的样本越少。分支数据越少，使用模型对样本进行预测时，预测结果越接近样本中的目标值。但是，与此同时训练出的模型对新的数据（不在测试数据中）的预测结果将非常不可靠（因为每个预测结果都是基于少量样本进行的）。以上就是**过拟合（overfitting）**；与之相反，如果决策树的深度很浅，就不能精确的把样本进行区分。
极端一些来说，如果决策树只把样本划分为2或4个分组，每组中样本差别依然很大，那么模型对大多数输入（即使是训练数据）预测结果误差会很大。如果模型不能捕获数据中的重要差别和模式，即使对于训练数据表现也很差，这就叫做**欠拟合（underfitting）**。
When a model fails to capture important distinctions and patterns in the data,so it perform poorly even in training data, that is called underfitting.

In [16]:
# 决策树的max_leaf_nodes参数可以敏感的控制过拟合和欠拟合。
# 定义一个工具函数来帮助比较不同max_leaf_nodes的MAE结果
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [17]:
# 比较不同max_leaf_nodes的不同MAE值
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5 		 Mean Absolute Error:  385696
Max leaf nodes: 50 		 Mean Absolute Error:  279794
Max leaf nodes: 500 		 Mean Absolute Error:  261718
Max leaf nodes: 5000 		 Mean Absolute Error:  271996


从上面的比较可以看出，`max_leaf_nodes`为500时MAE比较小，训练出的模型相对精确。
使用最优的`max_leaf_nodes`来定义模型
`final_model = DecisionTreeRegressor(max_leaf_nodes=500, random_state=0)`
使用所有的训练数据来训练出最佳的模型
`final_model.fit(X, y)`

# -----Random forest（随机森林）
像决策树这种模型要面临复杂的过拟合和欠拟合决策。但是还有许多模型有获取更好表现的更好的方法，比如随机森林。
随机森林使用许多树，它通过平均每个组件树（component tree）的预测结果来进行预测。通常它比单一决策树有更好的精度，并且使用默认参数也表现良好。

In [18]:
from sklearn.ensemble import RandomForestRegressor
forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

218482.25517538196




虽然看似还有提升的空间，但是随机森林的mae相比与之前决策树得出的最佳mae已经好了很多。
可以通过调试随机森林模型的参数来提升性能，但是随机森林模型的一个最好的特征就是通常不需要调试也能运行良好。

有许多优化模型的方式，最佳方式是增加特征（features）。添加那些你感觉可能会影响预测结果的特征。某些特征会因为有非数值的数据类型（non-numberic data types）而导致错误。

从**中级机器学习(intermediate Machine Learning)**中可以看到如何处理特征的类型。