为什么有这种框架？

批处理与流处理的发展史简介

Hadoop 与 MapReduce。谷歌让批处理在一个分布式系统中像 MapRduceresult = pairs.map((pair) => (morePairs)).reduce(somePairs => lessPairs)一样简单。
Apache Storm 与有向图拓扑结构。MapReduce 不能很好地表示迭代算法。因此，内森·马兹（Nathan Marz）将流处理抽象成一个由 spouts 和 bolts 组件构成的图结构。
Spark 内存计算。辛湜（Reynold Xin）指出 Spark 在处理相同数据的时候比 Hadoop 少使用十倍机器的同时速度却快三倍
基于 Millwheel 和 FlumeJava 的谷歌数据流（Google Dataflow）。谷歌使用窗口化API同时支持批处理与流处理。

若要用商业机器来满足以上的需求，有这些热门的分布式系统架构……

DAG Topology 用来迭代处理 -例如Spark 中的 GraphX， Apache Storm 中的 topologies， Flink 中的 DataStream API。
交付保证 (Delivery Guarantees)。如何确保节点与节点之间数据交付的可靠性？至少一次 / 至多一次 / 一次。
容错性。使用cold/warm/hot standby, checkpointing 或者 active-active 来实现容错。
无界数据集的窗口化API。例如 Apache 的流式窗口。Spark 的Window函数。Apache Beam 的窗口化。

架构	Storm	Storm-trident	Spark	Flink
模型	原生	微批量	微批量	原生
Guarentees	至少一次	一次	一次	一次
容错性	记录Ack	记录Ack	检查点	检查点
最大容错	高	中	中	低
延迟	非常低	高	高	低
吞吐量	低	中	高	高