In [1]:
##################################################################
#           《Python人工智能编程实践（2024年度版）》开源代码
#-----------------------------------------------------------------
#            @章节号：7.5.1（超参数寻优：留一验证）                                       
#            @作者：范淼、徐晟桐 
#            @购书链接：暂无
#            @电子邮箱：fm12@tsinghua.org.cn             
#            @官方交流QQ群号：561500762                        
##################################################################

In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as func


#创建SparkSession。
spark = SparkSession.builder.getOrCreate()

#读取文件并存储到DataFrame中。
df = spark.read.csv('./datasets/news/news_sentiment.csv', header=False)

#指定标签列，并对文本特征列的数据进行分词处理。
df = df.select(df._c0.alias('label'), func.split(df._c1, ' ').alias('words'))

#分割出训练和测试集。
(train_df, test_df) = df.randomSplit([0.8, 0.2], seed=911120)

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/08/31 17:23:14 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/08/31 17:23:19 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [3]:
from pyspark.ml.feature import CountVectorizer, StringIndexer, StandardScaler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline
from pyspark.ml.tuning import ParamGridBuilder, TrainValidationSplit
from pyspark.ml.evaluation import MulticlassClassificationEvaluator


#对标签数据进行数字化编码。
labelIndexer = StringIndexer(inputCol="label", outputCol="idx_label")

#对文本数据进行词频特征抽取。
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=500)

#对词频特征进行标准化转换。
scaler = StandardScaler(inputCol='features', outputCol='scaled_features')

#使用逻辑斯蒂回归分类器。
classifier = LogisticRegression(labelCol="idx_label", featuresCol="scaled_features")

#使用Pipeline，构建标签编码、特征抽取、特征转换，以及模型分类的执行流程。
pipeline = Pipeline(stages=[labelIndexer, cv, scaler, classifier])

#构建要尝试的超参数集合。
paramGrid = ParamGridBuilder()\
    .addGrid(classifier.regParam, [1.0, 0.1, 0.01])\
    .addGrid(classifier.fitIntercept, [False, True])\
    .addGrid(classifier.elasticNetParam, [0.0, 0.2, 0.5, 0.8, 1.0])\
    .build()

#构建评估器。
evaluator = MulticlassClassificationEvaluator(labelCol="idx_label", predictionCol="prediction", metricName="accuracy")

#采用留一验证的方式进行超参数寻优。
tvs = TrainValidationSplit(estimator=pipeline,
                           estimatorParamMaps=paramGrid,
                           evaluator=evaluator,
                           trainRatio=0.8)

model = tvs.fit(train_df)

predictions = model.transform(test_df)

23/08/31 17:23:25 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.blas.JNIBLAS


CodeCache: size=131072Kb used=41016Kb max_used=41018Kb free=90055Kb
 bounds [0x00000001040f8000, 0x0000000106948000, 0x000000010c0f8000]
 total_blobs=15205 nmethods=13998 adapters=1117
 compilation: disabled (not enough contiguous free space left)




In [4]:
accuracy = evaluator.evaluate(predictions)

#评估分类器的准确率。
print ('Spark-ML的逻辑斯蒂回归分类器经过留一验证优化后，在news_sentiment测试集上的准确率为：%.2f%%。' %(accuracy * 100))

Spark-ML的逻辑斯蒂回归分类器经过留一验证优化后，在news_sentiment测试集上的准确率为：73.83%。
