Skip to content
Branch: master
Find file History
Permalink
Type Name Latest commit message Commit time
..
Failed to load latest commit information.
0.imgs 修正一个时间线的 typo Feb 1, 2016
1.imgs 修正 《1.1 DStream, DStreamGraph 详解.md》 未正确显示的图片 Mar 4, 2016
2.imgs 2.imgs 初次提交 Dec 5, 2015
3.imgs 修正《3.2》中缺失的图片 Nov 5, 2016
q&a.imgs Add 《Q&A 什么是 end-to-end exactly-once.md》 Oct 23, 2016
.gitignore 初始提交 Dec 3, 2015
0.1 Spark Streaming 实现思路与模块概述.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
1.1 DStream, DStreamGraph 详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
1.2 DStream 生成 RDD 实例详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
2.1 JobScheduler, Job, JobSet 详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
2.2 JobGenerator 详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
3.1 Receiver 分发详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
3.2 Receiver, ReceiverSupervisor, BlockGenerator, ReceivedBlockHandler 详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
3.3 ReceiverTraker, ReceivedBlockTracker 详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
4.1 Executor 端长时容错详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
4.2 Driver 端长时容错详解.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019
Q&A 什么是 end-to-end exactly-once.md Fix broken links Apr 6, 2017
img.png 初始提交 Dec 3, 2015
readme.md 「腾讯广点通」团队 升级为「腾讯广告」团队 Feb 6, 2019

readme.md

Spark Streaming 源码解析系列

「腾讯广告」技术团队(原腾讯广点通技术团队)荣誉出品

本系列内容适用范围:

* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)
* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)
* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0 ~ 2.2.3)

致谢

  • Github @wongxingjun 同学指出 3 处 typo,并提 Pull Request 修正(PR 已合并)
  • Github @endymecy 同学指出 2 处 typo,并提 Pull Request 修正(PR 已合并)
  • Github @Lemonjing 同学指出几处 typo,并提 Pull Request 修正(PR 已合并)
  • Github @xiaoguoqiang 同学指出 1 处 typo,并提 Pull Request 修正(PR 已合并)
  • Github 张瀚 (@AntikaSmith) 同学指出 1 处 问题(已修正)
  • Github Tao Meng (@mtunique) 同学指出 1 处 typo,并提 Pull Request 修正(PR 已合并)
  • Github @ouyangshourui 同学指出 1 处问题,并提 Pull Request 修正(PR 已合并)
  • Github @jacksu 同学指出 1 处问题,并提 Pull Request 修正(PR 已合并)
  • Github @klion26 同学指出 1 处 typo(已修正)
  • Github @397090770 同学指出 1 处配图笔误(已修正)
  • Github @ubtaojiang1982 同学指出 1 处 typo(已修正)
  • Github @marlin5555 同学指出 1 处配图遗漏信息(已修正)
  • Weibo @wyggggo 同学指出 1 处 typo(已修正)

Spark Streaming 史前史(1)

作为跑在商业硬件上的大数据处理框架,Apache Hadoop 在诞生后的几年内(2005~今)火的一塌糊涂,几乎成为了业界处理大数据的事实上的标准工具:

iamge

Spark Streaming 史前史(2)

不过大家逐渐发现还需要有单独针对流式数据(其特点是源数据实时性高,要求处理延迟低)的处理需求;于是自 2010 年起又流行起了很多通用流数据处理框架,这种与 Hadoop 等批处理框架配合使用的“批+实时”的双引擎架构又成为了当前事实上的标准:

iamge

ps: 前段时间跟一位前 Googler(很巧他是 MillWheel 的第一批用户)一起吃饭时,了解到 MillWheel 原来是 2010 年左右开发的,据说极其极其好用。

Spark Streaming 诞生

iamge

iamge

本系列文章,就来详解发布于 2013 年的 Spark Streaming。

知识共享

除非另有注明,本《Spark Streaming 源码解析系列》系列文章使用 CC BY-NC(署名-非商业性使用) 知识共享许可协议。

You can’t perform that action at this time.