#### 1. RDD basic
reduce把任务发送到不同机器上执行. 这些机器各自持有map结果的一部分, 并在这部分上进行local reduce, 最后将结果发送给driver programme机器

In [20]:
val lines = sc.textFile("data.txt")
val lineLengths = lines.map(s => s.length)  //懒计算
val totalLength = lineLengths.reduce((a, b) => a + b)  // action操作,触发计算
lineLengths.persist()

lines = data.txt MapPartitionsRDD[12] at textFile at <console>:30
lineLengths = MapPartitionsRDD[13] at map at <console>:31
totalLength = 7


MapPartitionsRDD[13] at map at <console>:31

#### 2. 闭包

In [24]:
var counter = 0
// Wrong: Don't do this!!
lineLengths.foreach(x => {counter += x})
println("Counter value: " + counter)

Counter value: 0


counter = 0


0

1. 如上操作不会正常执行:  
 1. spark将rdd操作打散成多个`task`, 每个task由`executor`执行.   
 2. 在任务被执行前, spark讲rdd的闭包序列化后发送给每个`executor`, (此处是foreach). 闭包中的变量, 都是复制到`executor`所在机器上的, 每个`executor`操作的也是本地机器上的变量, 而不是driver programme机器上的变量. 因此, 在上述程序输出sounter时, 仍然输出的是driver机器内存里的counter(等于0), 而不是`executor`计算rdd后的输出结果
 
2. Accumulator  
像如上这种, 需要在集群中享变量进行和操作的情况, 需要使用`Accumulator`  
下面, 我们定义一个long型的Accumulator

In [30]:
val accum = sc.longAccumulator("my long accumlater")
sc.parallelize(Array(1,2,4,8)).foreach(x=>accum.add(x))
accum.value

accum = LongAccumulator(id: 302, name: Some(my long accumlater), value: 15)


15

#### 3. Printing elements of an RDD
1. 闭包中的print只在`executor`上执行, 而不会显现在driver机器上.  
 例如: `rdd.foreach(println) or rdd.map(println)`  
2. `rdd.collect().foreach(println)`会导致driver机器内存溢出. 因为`collect()`会收集所有executor产生的数据  
3. 少量数据打印可使用`rdd.take(100).foreach(println)`

#### 4. Working with Key-Value Pairs