In [1]:
from sklearn import datasets,ensemble 
from sklearn.metrics import accuracy_score, precision_score,recall_score,f1_score
from sklearn.metrics import mean_squared_error, r2_score


In [8]:
### 1.8.1 随机森林分类
# 加载digits数据集，数据集简单，便于可视化决策树
X_digits, y_digits = datasets.load_digits(return_X_y=True)
#X_digits = X_digits / X_digits.max()

n_samples = len(X_digits)

#训练集和测试集划分
X_train = X_digits[: int(0.9 * n_samples)]  #取前90%的数据作为训练集，其余作为测试集
y_train = y_digits[: int(0.9 * n_samples)]
X_test = X_digits[int(0.9 * n_samples) :]
y_test = y_digits[int(0.9 * n_samples) :]

#创建模型，RandomForestClassifier分类器
clf = ensemble.RandomForestClassifier(n_estimators=500, max_depth=10) #n_estimators：弱分类器数量
                                                #max_depth树的最大深度，还有很多其他参数，此处使用默认值

#模型训练
clf.fit(X_train, y_train) #对于分类问题，可以通过简单的多数投票法来确定预测类别

#模型预测
y_pred = clf.predict(X_test)

##评价指标
# accuracy
print("accuracy_score: \n", accuracy_score(y_test,y_pred)) #不平衡类别分布的情况下可能会失效

# precision指标
print("precision_score: %.2f" % precision_score(y_test,y_pred,average='macro')) #多分类，需要加average参数

# recall_score指标
print("recall_score: %.2f" % recall_score(y_test,y_pred,average='macro'))

#f1指标
print("f1_score: %.2f" % f1_score(y_test,y_pred,average='macro'))


accuracy_score: 
 0.9388888888888889
precision_score: 0.95
recall_score: 0.94
f1_score: 0.94


In [13]:
### 1.8.2 随机森林回归
# 加载diabetes数据集
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# 特征数据划分训练集和测试集
diabetes_X_train = diabetes_X[:-20] #后20个样本作为测试集，其余作为训练集
diabetes_X_test = diabetes_X[-20:]

# 标签（类别）数据划分训练集和测试集
diabetes_y_train = diabetes_y[:-20] #后20个样本作为测试集，其余作为训练集
diabetes_y_test = diabetes_y[-20:]

#创建模型，RandomForestRegressor回归器
clf = ensemble.RandomForestRegressor(n_estimators=500, max_depth=3) #n_estimators：弱分类器数量
                                                #max_depth树的最大深度，还有很多其他参数，此处使用默认值
#模型训练
clf.fit(diabetes_X_train, diabetes_y_train)  #对于回归问题，预测值通常是这k个最近邻的目标值的平均值（或加权平均值）                            

#模型预测
y_pred = clf.predict(diabetes_X_test)      

# 模型评估MSE指标
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, y_pred))

# 模型评估R2指标
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, y_pred))


Mean squared error: 2270.99
Coefficient of determination: 0.53


In [None]:
### 总结
#随机森林里的树都是决策树，参数复杂，需要调试才会有好效果。
#随机森林里的样本抽样思想以及各决策树可以并行训练，使得随机森林训练较大数据集。