In [1]:
##################################################################
#           《Python人工智能编程实践（2024年度版）》开源代码
#-----------------------------------------------------------------
#            @章节号：5.5.5（并行加速训练）                   
#            @作者：范淼、徐晟桐 
#            @购书链接：暂无
#            @电子邮箱：fm12@tsinghua.org.cn             
#            @官方交流QQ群号：561500762                        
##################################################################

In [2]:
import pandas as pd


#使用pandas，读取fashion_mnist的训练和测试数据文件。
train_data = pd.read_csv('../datasets/fashion_mnist/fashion_mnist_train.csv')
test_data = pd.read_csv('../datasets/fashion_mnist/fashion_mnist_test.csv')

In [3]:
#从训练数据中，拆解出训练特征和类别标签。
X_train = train_data[train_data.columns[1:]]
y_train = train_data['label']

#从测试数据中，拆解出测试特征和类别标签。
X_test = test_data[train_data.columns[1:]]
y_test = test_data['label']

In [4]:
from sklearn.ensemble import RandomForestClassifier


#初始化随机森林分类器模型，默认单线程运行。
rfc = RandomForestClassifier(verbose=1, random_state=911120)

#使用训练数据，单线程训练随机森林分类器模型。
rfc.fit(X_train, y_train)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   55.1s finished


In [5]:
#使用训练好的分类模型，依据测试数据的特征，进行类别预测。
y_predict = rfc.predict(X_test)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.2s finished


In [6]:
from sklearn.metrics import accuracy_score


#评估分类器的准确率。
print('Scikit-learn的单线程随机森林分类器在fashion_mnist测试集上的准确率为：%.2f%%。' %(accuracy_score(y_test, y_predict) * 100))

Scikit-learn的单线程随机森林分类器在fashion_mnist测试集上的准确率为：88.46%。


In [7]:
from sklearn.ensemble import RandomForestClassifier


#初始化随机森林分类器模型，并设定为4个线程并发运行。
p_rfc = RandomForestClassifier(verbose=1, n_jobs=4, random_state=911120)

#使用训练数据，并行训练随机森林分类器模型。
p_rfc.fit(X_train, y_train)

[Parallel(n_jobs=4)]: Using backend ThreadingBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done  42 tasks      | elapsed:    6.6s
[Parallel(n_jobs=4)]: Done 100 out of 100 | elapsed:   15.0s finished


In [8]:
#使用训练好的分类模型，依据测试数据的特征，进行类别预测。
y_predict = p_rfc.predict(X_test)

[Parallel(n_jobs=4)]: Using backend ThreadingBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done  42 tasks      | elapsed:    0.0s
[Parallel(n_jobs=4)]: Done 100 out of 100 | elapsed:    0.1s finished


In [9]:
from sklearn.metrics import accuracy_score


#评估分类器的准确率。
print('Scikit-learn的多线程随机森林分类器在fashion_mnist测试集上的准确率为：%.2f%%。' %(accuracy_score(y_test, y_predict) * 100))

Scikit-learn的多线程随机森林分类器在fashion_mnist测试集上的准确率为：88.46%。
