In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("house") \
    .config("spark.driver.memory", "2g") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate()

## 房价预测案例

在“房价预测”这个项目中，我们的预测标的（Label）是房价，而房价是连续的数值型字段，因此我们需要回归模型（Regression Model）来拟合数据。再者，在所有的模型中，线性模型是最简单的，因此，本着由浅入深的原则，在第一版的实现中，咱们不妨选定线性回归模型（Linear Regression），来拟合房价与房屋属性之间的线性关系

In [19]:
# 1. 数据探索
from pathlib import Path

root = Path("../data/house-prices-data")

train_path = root / 'train.csv'

trainDF = spark.read.option("mode", "dropMalformed").option("header", True).csv(str(train_path))

In [None]:
trainDF.printSchema()

In [7]:
# 2. 特征选择 提取用于训练的特征字段与预测目标（房价SalePrice）并将相关字段转换为int类型
selectedFields = trainDF.select(trainDF["LotArea"].cast("int"), trainDF["GrLivArea"].cast("int"),  \
                                 trainDF["TotalBsmtSF"].cast("int"), trainDF["GarageArea"].cast("int"), \
                                trainDF["SalePrice"].cast("int"))

# 将相关字段转换为int类型
selectedFields.printSchema()

root
 |-- LotArea: integer (nullable = true)
 |-- GrLivArea: integer (nullable = true)
 |-- TotalBsmtSF: integer (nullable = true)
 |-- GarageArea: integer (nullable = true)
 |-- SalePrice: integer (nullable = true)



In [9]:
# 3. 准备训练样本 把准备用于训练的多个特征字段，整合成一个特征向量（Feature Vectors）
from pyspark.ml.feature import VectorAssembler

# 待捏合的特征字段集合
features = ["LotArea", "GrLivArea", "TotalBsmtSF", "GarageArea"]

# 指定输入特征字段集合，与捏合后的特征向量字段名
assembler = VectorAssembler(inputCols=features, outputCol="features")

# 调用捏合器的transform函数，完成特征向量的捏合
featuresAdded = assembler.transform(selectedFields) \
    .drop("LotArea") \
    .drop("GrLivArea") \
    .drop("TotalBsmtSF") \
    .drop("GarageArea")

featuresAdded.printSchema()

root
 |-- SalePrice: integer (nullable = true)
 |-- features: vector (nullable = true)



In [10]:
# 将训练样本拆分为训练集和验证集，一份用于模型训练，剩下的部分用于初步验证模型效果
trainSet, testSet = featuresAdded.randomSplit([0.7, 0.3])

In [11]:
# 4. 模型训练
from pyspark.ml.regression import LinearRegression

# 构建线性回归模型，指定特征向量、预测标的与迭代次数
lr = LinearRegression(labelCol="SalePrice", featuresCol="features", maxIter=10)

# 使用训练集trainSet训练线性回归模型
lrModel = lr.fit(trainSet)

在线性回归模型的评估中，我们有很多的指标，用来量化模型的预测误差。其中最具代表性的要数 RMSE（Root Mean Squared Error），也就是均方根误差。我们可以通过在模型上调用 summary 函数，来获取模型在训练集上的评估指标，如下所示

In [12]:
# 5. 模型评估
trainingSummary = lrModel.summary
print("RMSE: {}".format(trainingSummary.rootMeanSquaredError))

RMSE: 47263.34181881005


房价的值在（34900，755000）之间，因此模型预测误差还是相当大的。这说明我们得到的模型，甚至没有很好地拟合训练数据，模型处在一个“欠拟合”的状态。面对这种欠拟合的情况，还需要进一步调试、优化这个模型

上面的示例完整的实现了一个spark训练机器学习模型的全过程，所谓机器学习（Machine Learning），它指的是这样一种计算过程。对于给定的训练数据（Training samples），选择一种先验的数据分布模型（Models），然后借助优化算法（Learning Algorithms）自动地持续调整模型参数（Model Weights / Parameters），从而让模型不断逼近训练数据的原始分布。

在 Spark MLlib 子框架下，需要掌握机器学习开发的基本流程和关键步骤如下：
![image.png](attachment:874a3fbb-e8ec-47c0-86ef-2118c54a2ac1.png)

## 1. 特征工程

在机器学习领域，有一条尽人皆知的“潜规则”：Garbage in，garbage out。它的意思是说，当我们喂给模型的数据是“垃圾”的时候，模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话，实际上，它指的是不完善的特征工程。特征工程不完善的成因有很多，比如数据质量参差不齐、特征字段区分度不高，还有特征选择不到位、不合理，等等。

必须要牢记一点：特征工程制约着模型效果，它决定了模型效果的上限，也就是“天花板”。而模型调优，仅仅是在不停地逼近这个“天花板”而已。因此，提升模型效果的第一步，就是要做好特征工程

spark mllib 提供了很多的特征处理函数，我们从特征工程的视角出发，把它们进行归类

![image.png](attachment:f8a225e8-89df-4e43-8d74-3b86bf606076.png)

从左到右，Spark MLlib 特征处理函数可以被分为如下几类，依次是：
* 预处理
* 特征选择
* 归一化
* 离散化
* Embedding
* 向量计算

nlp的特征工程比较特殊这里不做展开，可以进入[官方介绍](https://spark.apache.org/docs/latest/ml-features.html)查看相关文档

上一讲的“房价预测”项目中只用到了 4 个特征去建模，意味着我们做了一个很强的先验假设：房屋价格仅与这 4 个房屋属性有关。显然，这样的假设并不合理。爱荷华州房价数据提供了多达 79 个房屋属性，其中一部分是数值型字段，如记录各种尺寸、面积、大小、数量的房屋属性，另一部分是非数值型字段，比如房屋类型、街道类型、建筑日期、地基类型，等等。显然，房价是由这 79 个属性当中的多个属性共同决定的。机器学习的任务，就是先找出这些“决定性”因素（房屋属性），然后再用一个权重向量（模型参数）来量化不同因素对于房价的影响。
