- 除了大规模SQL分析和流处理，Spark还提供了对数据统计、机器学习和图分析的支持
- 本章涵盖的高级数据分析工具包括
    - 数据预处理（数据清洗和特征工程）
    - 监督学习
    - 推荐系统
    - 无监督学习
    - 图分析
    - 深度学习

<h4>常见任务</h4>

- 监督学习，包括分类和回归，根据数据项的各种特征预测每个数据项的标签
- 推荐系统，根据行为向用户推荐产品
- 无监督学习，聚类，异常检测，主题建模
- 图分析任务，发现社交网络中的模式

 <h4>监督学习</h4>
 
 - 训练过程一般是通过梯度下降来实现的
 - 训练算法从一个初始基本模型开始，在每次迭代期间会调整模型的各参数来逐渐提升模型准确度

<h4>推荐系统</h4>

- 研究用户对多种商品的偏好，基于用户之间的相似性来推荐给用户可能喜欢的商品
- Spark非常适合处理大数据推荐

<h4>无监督学习</h4>

- 异常检测，用户分类
- 主题建模，给定一组文件，分析其中所含的词组来看看是否有潜在关系

<h4>图分析</h4>

- 研究顶点和边的结构，顶点代表人与产品，边可能代表了购买行为

<h4>高级分析过程</h4>

1. 搜集与任务相关的数据
2. 清理和检查数据以更好地理解
3. 执行特征工程以使数据以适合的形式为算法使用（将数据转换为数值向量）
4. 使用该数据的一部分作为训练集训练一个或多个模型
5. 利用从未被用作训练的数据子集来实际客观地评价结果
6. 利用模型预测、检测异常、解决更通用的业务难题

<h4>数据采集</h4>

- Spark支持多种数据源，并能够积极处理各种大小的数据集

<h4>数据清理</h4>

- EDA，即探索性数据分析
- 采用交互式查询和可视化方法，更好地了解数据分布、相关性等细节

<h4>特征工程</h4>

- 转换数据以便于机器学习，正侧化数据、增加变量、操纵类别变量等

<h3>MLlib</h3>

- MLlib基于Spark，并属于Spark项目的一个软件包
- 它提供各种API接口用于收集和清理数据、特征工程和特征选择、训练和微调大型有监督和无监督机器学习模型
- MLlib实际上由两个利用不同核心数据结构的包组成
    - org.apache.spark.ml，包括使用DataFrame的接口，提供了用于构建机器学习流程的高层次接口，有助于标准化
    - org.apache.spark.mllib，包括Spark低级别的RDD API接口

<h4>为什么使用MLlib</h4>

- 为什么不用其他机器学习库，如Python的scikit-learn或各种执行类似任务的R软件包
- 因为这些基于单机的工具可能无法训练大数据，或者处理时间太长
- 利用Spark的可扩展能力
    - 利用Spark进行数据预处理和特征生成，以减少从大量数据中生成训练和测试集所需的时间
    - 输入数据或模型太难或不方便在单机上处理

<h4>高级MLlib概念</h4>

- 转换器（transformer）：将原始数据以某种方式进行转换的函数，比如创建新变量，对某一列归一化，或仅仅将一个Integer类型值变为Double类型
    - 转换器主要用于数据预处理和特征工程阶段
- 估计器（estimator）：估计器可以作为数据初始化的转换器，基于数据训练模型的算法
- 评估器（evaluator）：评估器根据某种效果评价指标（如ROC曲线）来评价给定模型的表现
- 流水线（pipeline）：把步骤指定为流水线中的阶段，类似于scikit-learn中的流水线

<h4>低级别的数据类型</h4>

- 除了构建流水线的结构类型外，MLlib中最常用的还有Vector

<h4>MLlib的执行</h4>

- 使用规模较小的合成数据进行演示

In [4]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("test ml").getOrCreate()

In [7]:
df = spark.read.json("./data/simple-ml/part-r-00000-f5c243b9-a015-4a3b-a4a8-eca00f80f04c.json")
df.orderBy("value2").show()

+-----+----+------+------------------+
|color| lab|value1|            value2|
+-----+----+------+------------------+
|green|good|     1|14.386294994851129|
|green| bad|    16|14.386294994851129|
| blue| bad|     8|14.386294994851129|
| blue| bad|     8|14.386294994851129|
| blue| bad|    12|14.386294994851129|
|green| bad|    16|14.386294994851129|
|green|good|    12|14.386294994851129|
|  red|good|    35|14.386294994851129|
|  red|good|    35|14.386294994851129|
|  red| bad|     2|14.386294994851129|
|  red| bad|    16|14.386294994851129|
|  red| bad|    16|14.386294994851129|
| blue| bad|     8|14.386294994851129|
|green|good|     1|14.386294994851129|
|green|good|    12|14.386294994851129|
| blue| bad|     8|14.386294994851129|
|  red|good|    35|14.386294994851129|
| blue| bad|    12|14.386294994851129|
|  red| bad|    16|14.386294994851129|
|green|good|    12|14.386294994851129|
+-----+----+------+------------------+
only showing top 20 rows



此数据集包含一下标签

- color：客服的健康评级
- lab：真正的客户健康状况
- value1，value2：两个数值型的行为度量

<h4>转换器执行特征工程</h4>

- 转换器帮助我们以某种方式操纵当前的列数据，以构建特征
- 当使用MLlib时，所有Spark机器学习算法的输入是由是由Double类型（表示标签）和Vector类型（表示特征）组成
- 当前数据不符合这个要求时，我们需要将其转为正确的格式
- 以下展示基本的RFormula操作符

- ~
    - 目标（标签）和项（特征）的分隔符号
- +
    - 连接项，“+0”表示删除截距该行的y截距将设置为0
- -
    - 删除项，“-1”表示删除截距该行的y截距将设置为0，与“+0”作用相同
- :
    - 交集（数值乘法，或类别二值化）
- .
    - 除了目标列的全部列

- 本例中，我们希望使用所有列（.符号），在value1和color列之间添加交互，在value2和color列之间添加交互
- RFormula代表了模型训练使用的格式，此后就可以将转换器应用到数据上

In [8]:
from pyspark.ml.feature import RFormula
supervised = RFormula(formula="lab ~ . + color: value1 + color: value2")

<h4>RFormula转换器转换数据</h4>

- RFormula调用fit函数检查数据，输出一个根据指定的公式转换数据的对象（称为RFormula Model）

In [11]:
fittedRF = supervised.fit(df)
preparedDF = fittedRF.transform(df)

In [22]:
preparedDF.show(5)

+-----+----+------+------------------+--------------------+-----+
|color| lab|value1|            value2|            features|label|
+-----+----+------+------------------+--------------------+-----+
|green|good|     1|14.386294994851129|(10,[1,2,3,5,8],[...|  1.0|
| blue| bad|     8|14.386294994851129|(10,[2,3,6,9],[8....|  0.0|
| blue| bad|    12|14.386294994851129|(10,[2,3,6,9],[12...|  0.0|
|green|good|    15| 38.97187133755819|(10,[1,2,3,5,8],[...|  1.0|
|green|good|    12|14.386294994851129|(10,[1,2,3,5,8],[...|  1.0|
+-----+----+------+------------------+--------------------+-----+
only showing top 5 rows



In [23]:
preparedDF.select("features").show(5 ,False)

+----------------------------------------------------------------------+
|features                                                              |
+----------------------------------------------------------------------+
|(10,[1,2,3,5,8],[1.0,1.0,14.386294994851129,1.0,14.386294994851129])  |
|(10,[2,3,6,9],[8.0,14.386294994851129,8.0,14.386294994851129])        |
|(10,[2,3,6,9],[12.0,14.386294994851129,12.0,14.386294994851129])      |
|(10,[1,2,3,5,8],[1.0,15.0,38.97187133755819,15.0,38.97187133755819])  |
|(10,[1,2,3,5,8],[1.0,12.0,14.386294994851129,12.0,14.386294994851129])|
+----------------------------------------------------------------------+
only showing top 5 rows



- 以上我不清楚他这个特征工程怎么做的，但Spark特征工程就是这么做的

In [51]:
train, test = preparedDF.randomSplit([0.7,0.3])

In [28]:
print(df.count())
print(train.count())
print(test.count())

110
73
37


<h4>估计器</h4>

- 数据现在被转换为正确的格式，创建了有用的特征
- 现在我们使用逻辑回归进行二元分类
- 首先构造模型，分别使用刚刚preparedDF的列名

In [29]:
from pyspark.ml.classification import LogisticRegression

In [30]:
lr = LogisticRegression(labelCol="label", featuresCol="features")

- 训练数据
- 以下代码启动一个Spark job来训练模型
- fit方法使用train获得模型参数，fittedLR就是带参数的模型

In [31]:
fittedLR = lr.fit(train)

- 以下可以transform训练数据集，将预测结果与真实值进行比较

In [35]:
fittedLR.transform(train).select("label", "prediction").show(2)

+-----+----------+
|label|prediction|
+-----+----------+
|  0.0|       0.0|
|  0.0|       0.0|
+-----+----------+
only showing top 2 rows



- 下一步是评估模型，并计算性能指标，如真正率（true positive rate），假负率（false negative rate）
- 超参数
    - 影响训练过程的配置参数，如模型结构和正则化，在训练开始之前就被设置

<h4>流水线化工作流</h4>

- 以下使用流水线把整个过程再来一遍

In [54]:
train, test = df.randomSplit([0.7,0.3])

- 首先创建流水线中的基本阶段，每个阶段代表转换器或估计器
- 接下来会有两个估计器，RFormula和LogisticRegression

In [37]:
from pyspark.ml.feature import RFormula

In [38]:
rForm = RFormula()
lr = LogisticRegression().setLabelCol("label").setFeaturesCol("features")

- 以上就是我们要用的两个估计器
- 本章节先不设置RFormula的值，只需在整个流水线阶段创建它们

In [39]:
from pyspark.ml import Pipeline
stages = [rForm, lr]
pipeline = Pipeline().setStages(stages)

<h4>训练与评估</h4>

- 我们现在设定好了逻辑流水线，下一步就是训练
- 我们在这节中，对刚定义好的rForm和lr指定不同参数训练

In [40]:
from pyspark.ml.tuning import ParamGridBuilder

In [43]:
params = ParamGridBuilder()\
    .addGrid(rForm.formula, ["lab ~ . + color:value1", "lab ~ . + color:value1+color:value2"])\
    .addGrid(lr.elasticNetParam, [0.0,0.5,1.0])\
    .addGrid(lr.regParam, [0.1, 2.0])\
    .build()

以上设置了三个超参数与默认值不同

- 两个不同版本的RFormula
- 对于ElasticNet参数有三个不同的选择
- 对于正则化参数有两种不同的选择
- 这里总共就有12种不同的参数组合

<h4>模型评估</h4>

- 在准备好流水线和参数后，接下来开始评估
- 这里采用BinaryClassificationEvaluator评估器，评估指标选用areaUnderROC

In [44]:
from pyspark.ml.evaluation import BinaryClassificationEvaluator

In [56]:
evaluator = BinaryClassificationEvaluator()\
    .setMetricName("areaUnderROC")\
    .setRawPredictionCol("prediction")\
    .setLabelCol("label")

- 接下来将之前做好的params，pipeline和evaluator合起来
- TrainValidationSplit可以将数据任意随机分成两个不同的组

In [57]:
from pyspark.ml.tuning import TrainValidationSplit

In [58]:
tvs = TrainValidationSplit()\
    .setTrainRatio(0.75)\
    .setEstimatorParamMaps(params)\
    .setEstimator(pipeline)\
    .setEvaluator(evaluator)

In [59]:
tvsFitted = tvs.fit(train)

In [61]:
evaluator.evaluate(tvsFitted.transform(test))

0.90625

<h4>持久化和应用模型</h4>

- 在训练好模型后，可以将其保存到磁盘上
- 也可以在另一个Spark程序中读取

In [64]:
tvsFitted

TrainValidationSplitModel_7cf484ba5765

tvsFitted.save(filepath)<br>
model = TrainValidationSplitModel.load(filepath)