/
1、Spark Streaming概述.md
74 lines (66 loc) · 5.92 KB
/
1、Spark Streaming概述.md
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
Spark Streaming概述
---
>首先,我们来看几个概念
### 1、离线和实时概念
数据处理的延迟
1)离线计算
  就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式。
2)实时计算
  输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。
### 2、批量和流式概念
  数据处理的方式
  **批**:处理离线数据,冷数据。单个处理数据量大,处理速度比流慢。
  **流**:在线,实时产生的数据。单次处理的数据量小,但处理速度更快。
  近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即**数据以大量、快速、时变的流形式持续到达**。实例:PM2.5检测、电子商务网站用户点击流。
  流数据具有如下特征:
    数据快速持续到达,潜在大小也许是无穷无尽的
    数据来源众多,格式复杂
    数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
    注重数据的整体价值,不过分关注个别数据
### 3、Spark Streaming是什么
  **Spark Streaming用于流式数据的处理**。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象算子如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。
<p align="center">
<img src="https://github.com/Dr11ft/BigDataGuide/blob/master/Pics/Spark%E6%96%87%E6%A1%A3Pics/Spark%20Streaming/1/%E5%9B%BE%E7%89%871.png"/>
<p align="center">
</p>
</p>
  在Spark Streaming中,处理数据的单位是一批而不是单条,而数据采集却是逐条进行的,因此Spark Streaming系统需要设置间隔使得数据汇总到一定的量后再一并操作,这个间隔就是批处理间隔。批处理间隔是Spark Streaming的核心概念和关键参数,它决定了Spark Streaming提交作业的频率和数据处理的延迟,同时也影响着数据处理的吞吐量和性能。
<p align="center">
<img src="https://github.com/Dr11ft/BigDataGuide/blob/master/Pics/Spark%E6%96%87%E6%A1%A3Pics/Spark%20Streaming/1/%E5%9B%BE%E7%89%872.png"/>
<p align="center">
</p>
</p>
  和Spark基于RDD的概念很相似,Spark Streaming使用了一个高**级抽象离散化流(discretized stream),叫作DStreams。DStreams是随时间推移而收到的数据的序列**。在内部,每个时间区间收到的数据都作为RDD存在,而DStreams是由这些RDD所组成的序列(因此得名“离散化”)。DStreams可以由来自数据源的输入数据流来创建, 也可以通过在其他的 DStreams上应用一些高阶操作来得到。
<p align="center">
<img src="https://github.com/Dr11ft/BigDataGuide/blob/master/Pics/Spark%E6%96%87%E6%A1%A3Pics/Spark%20Streaming/1/%E5%9B%BE%E7%89%873.png"/>
<p align="center">
</p>
</p>
### 4、Spark Streaming特点
**优点**
1)**易用**
  Spark Streaming支持Java、Python、Scala等编程语言,可以像编写批处理作业一样编写流式作业。
2)**容错性**
  Spark Streaming在没有额外代码和配置的情况下,可以恢复丢失的数据。对于实时计算来说,容错性至关重要。首先要明确一下Spak中RDD的容错机制,即每一个RDD都是个不可变的分布式可重算的数据集,它记录着确定性的操作继承关系(lineage),所以只要输入数据是可容错的,那么任意一个RDD的分区(Partition)出错或不可用,都可以使用原始输入数据经过转换操作重新计算得到。
3)**易整合性**
  Spark Streaming可以在Spark上运行,并且还允许重复使用相同的代码进行批处理。也就是说,实时处理可以与离线处理相结合,实现交互式的查询操作。
**缺点**
  Spark Streaming是一种“微量批处理”架构, 和其他基于“一次处理一条记录”架构的系统相比, 它的延迟会相对高一些。
### 5、Spark Streaming架构
#### 1)架构图
(1)Spark Streaming架构图
<p align="center">
<img src="https://github.com/Dr11ft/BigDataGuide/blob/master/Pics/Spark%E6%96%87%E6%A1%A3Pics/Spark%20Streaming/1/%E5%9B%BE%E7%89%874.png"/>
<p align="center">
</p>
</p>
(2)整体架构图
<p align="center">
<img src="https://github.com/Dr11ft/BigDataGuide/blob/master/Pics/Spark%E6%96%87%E6%A1%A3Pics/Spark%20Streaming/1/%E5%9B%BE%E7%89%875.png"/>
<p align="center">
</p>
</p>
#### 2)背压机制
  Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。
  为了更好的协调数据接收速率与资源处理能力,1.5版本开始Spark Streaming可以动态控制数据接收速率来适配集群数据处理能力。**背压机制(即Spark Streaming Backpressure): 根据JobScheduler反馈作业的执行信息来动态调整Receiver数据接收率**。
  通过属性“spark.streaming.backpressure.enabled”来控制是否启用backpressure机制,默认值false,即不启用。