## RDD Persistence
- RDD로 캐시를 수행하는 예제

In [1]:
import org.apache.spark.storage.StorageLevel

val rdd = sc.makeRDD(1 to 10000)
rdd.setName("persistedRDD")
rdd.persist(StorageLevel.DISK_ONLY) // 이때까지 실제로 캐시가 이뤄지지는 않음
rdd.count // -> action 수행. 실제로 캐시가 이루어지는 부분
// 웹 UI 확인 (Storage 항목에서 캐시된 RDD 확인)
rdd.unpersist()
// 웹 UI 확인 (Storage 항목에서 삭제된 RDD 확인)

rdd = persistedRDD ParallelCollectionRDD[0] at makeRDD at <console>:29


persistedRDD ParallelCollectionRDD[0] at makeRDD at <console>:29

-----
-----
## Whole File-Based RDDs
- json같은 파일은 한줄 한줄이 의미있는 것이 아닌, 전체가 의미있는 데이터
- 이러한 데이터는 wholeTextFiles로 한번에 처리해야 함.

In [2]:
import scala.util.parsing.json.JSON

val myRDD = sc.wholeTextFiles("./*.json")

myRDD = ./*.json MapPartitionsRDD[2] at wholeTextFiles at <console>:30


./*.json MapPartitionsRDD[2] at wholeTextFiles at <console>:30

In [3]:
myRDD.collect()

Array((file:/home/jovyan/work/file2.json,"{
  "firstName":"Barney",
  "lastName":"Rubble",
  "userId":"234"
}
"), (file:/home/jovyan/work/file1.json,"{
  "firstName":"Fred",
  "lastName":"Flintstone",
  "userId":"123"
}
"))


[(file:/home/jovyan/work/file2.json,{
  "firstName":"Barney",
  "lastName":"Rubble",
  "userId":"234"
}
), (file:/home/jovyan/work/file1.json,{
  "firstName":"Fred",
  "lastName":"Flintstone",
  "userId":"123"
}
)]

In [4]:
myRDD.count()

2

In [16]:
// var myRDD2 = myRDD.map(pair => JSON.parseFull(pair._2)) 
var myRDD2 = myRDD.map(pair => JSON.parseFull(pair._2).get.asInstanceOf[Map[String,String]])
// get 함수 : return contained element if it exists
// asInstanceOf: 캐스팅 연산자

myRDD2 = MapPartitionsRDD[5] at map at <console>:32


MapPartitionsRDD[5] at map at <console>:32

In [17]:
myRDD2.take(2).foreach(x => println(x))

Map(firstName -> Barney, lastName -> Rubble, userId -> 234)
Map(firstName -> Fred, lastName -> Flintstone, userId -> 123)


In [18]:
myRDD2.take(2).foreach(x => println(x.getOrElse("firstName",null)))

Barney
Fred


-----
-----
## Pair RDDs

- (key, value) ... 으로 pair로 묶여있는 RDD들의 집합.
- Map-Reduce는 Spark에서 pair RDDs로 동작함.
-----
- Map phase : map, flatMap, filter, keyBy...
- Reduce phase : reduceByKey, sortByKey, mean...

--> 스파크의 대부분은 map-reduce 스타일의 api로 구성되어있음.

-----
-----
## Shared Variables
- Broadcast : 여러 worker들에게 같은 값의 변수를 전파하는 것.
- Accumulators : 작업 수행 중 발생하는 일 세기 등, 누적값을 지속적으로 사용해야 하는 경우에 사용한다. multi-workers가 single location을 저장소로 사용하는 셈.

In [19]:
// broadcast lab
val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar.value

broadcastVar = Broadcast(10)


[1, 2, 3]

In [20]:
// accum lab
val accum = sc.longAccumulator("My Accumulator")
sc.parallelize(Array(1, 2, 3, 4)).repartition(10).foreach(x => accum.add(x))  //한번이 아니라 여러 번 반복 한다면….
accum.value  //계속 누적….

accum = LongAccumulator(id: 225, name: Some(My Accumulator), value: 10)


10

In [21]:
sc.parallelize(Array(1, 2, 3, 4)).repartition(10).foreach(x => accum.add(x))  //한번이 아니라 여러 번 반복 한다면….
accum.value  //계속 누적….

20

In [22]:
sc.parallelize(Array(1, 2, 3, 4)).repartition(10).foreach(x => accum.add(x))  //한번이 아니라 여러 번 반복 한다면….
accum.value  //계속 누적….

30