# RDD Transform with Scala

## 2.1.2 SparkContext 생성 

In [1]:
import org.apache.spark.{SparkContext, SparkConf}

val conf = new SparkConf().setMaster("local[*]").setAppName("RDDCreateSample")
val sc = new SparkContext(conf)

Name: org.apache.spark.SparkException
Message: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running SparkContext was created at:
org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:901)
org.apache.toree.kernel.api.Kernel.createSparkContext(Kernel.scala:349)
org.apache.toree.kernel.api.Kernel.createSparkContext(Kernel.scala:368)
org.apache.toree.boot.layer.StandardComponentInitialization$class.initializeSparkContext(ComponentInitialization.scala:103)
org.apache.toree.Main$$anon$1.initializeSparkContext(Main.scala:35)
org.apache.toree.boot.layer.StandardComponentInitialization$class.initializeComponents(ComponentInitialization.scala:88)
org.apache.toree.Main$$anon$1.initializeComponents(Main.scala:35)
org.apache.toree.boot.KernelBootstrap.initialize(KernelBootstrap.scala:101)
org.apache.toree.Main$.delayedEndpoint$org$apache$toree$Main$1(Main.scala:40)
org.apache.

In [2]:
val rdd = sc.parallelize(List("a","b","c","d"))

In [3]:
rdd.collect

Array(a, b, c, d)

In [4]:
val rdd = sc.parallelize(1 to 10)
val result = rdd.collect
println(result.mkString(", "))

1, 2, 3, 4, 5, 6, 7, 8, 9, 10


#### 2.1.4.2 Count

In [5]:
val rdd = sc.parallelize(1 to 10)
val result = rdd.count
println(result)

10


### 2.1.5 Transformation

#### 2.1.5.1 Map

In [6]:
val rdd = sc.parallelize(1 to 10)
val result = rdd.map(_ + 1)
println(result.collect.mkString(", "))

2, 3, 4, 5, 6, 7, 8, 9, 10, 11


#### 2.1.5.2 flatMap

In [7]:
val fruits = List("apple, orange","grape, apple, mango", "blueberry,tomato, orange")
val rdd1 = sc.parallelize(fruits)
val rdd2 = rdd1.map(_.split(","))

In [8]:
println(rdd2.collect().map(_.mkString("{",",","}")).mkString("{",",","}"))

{{apple, orange},{grape, apple, mango},{blueberry,tomato, orange}}


In [9]:
val fruits = List("apple, orange","grape, apple, mango", "blueberry,tomato, orange")
val rdd1 = sc.parallelize(fruits)
val rdd2 = rdd1.flatMap(_.split(","))
print(rdd2.collect.mkString(", "))

apple,  orange, grape,  apple,  mango, blueberry, tomato,  orange

#### Apple 단어를 포함한 것들만 하고 싶다면 

In [10]:
val fruits = List("apple, orange","grape, apple, mango", "blueberry,tomato, orange")
val rdd1 = sc.parallelize(fruits)
val rdd2 = rdd1.flatMap(log => {
    if (log.contains("apple")){
 
    }else{
        None
    }

})

Name: Unknown Error
Message: <console>:25: error: type mismatch;
 found   : Unit
 required: TraversableOnce[?]
           if (log.contains("apple")){
                                     ^
StackTrace: 

#### 2.1.5.3 mapPartitions
 - map(), flatMap()의 경우 각 요소를 하나씩 처리 
 - mapPartitions는 Parition별로 처리 

In [11]:
val rdd1 = sc.parallelize(1 to 10, 3)
val rdd2 = rdd1.mapPartitions(numbers => {
  print("DB 연결") // Jupyter notebook은 나오지 않는다. 
  numbers.map{number => number + 1}
})

println(rdd2.collect.mkString(","))

2,3,4,5,6,7,8,9,10,11


#### 2.1.5.4 mapPartitionsWIthIndex
 - 인자로 받은 함수를 파티션 단위로 적용하고 그 결과값으로 구성된 새로운 RDD를 Return.
 - 해당 파티션의 인덱스 정보도 함께 전달. 

In [13]:
val rdd1 = sc.parallelize(1 to 10, 3)
val rdd2 = rdd1.mapPartitionsWithIndex((idx, numbers) => {
    numbers.flatMap{
        case number if idx == 1 => Option(number + 1)
        case _                   => None
    }
})

In [16]:
println(rdd2.collect.mkString(", ")) // 첫번쨰 파티션에서만 데이터 추출.

5, 6, 7


#### 2.1.5.5 mapValues 
 - Input : Pair RDD
 - RDD 요소가 Key, Value 값의 쌍을 이루고있을 경우 페어 RDD 용어를 사용. 
 - 키를 기준으로 해서 작은 그룹들을 만들고 해당 그룹들에 속한 값을 대상으로 합계나 평균을 구하는 등의 연산을 수행하는 경우가 많다. 이럴때 많이 사용한다. 
 - Key에 해당하는 부분은 그대로 두고 값에만 map() 연산을 적용한 것과 같다.

In [17]:
val rdd = sc.parallelize(List("a","b","c")).map((_,1))
val result = rdd.mapValues(_+1)
println(result.collect.mkString("\t"))

(a,2)	(b,2)	(c,2)


#### 2.1.5.6 flatMapValues 
 - Input : Pair RDD
 - 페어 RDD에 사용하며 map 대신에 flatMap() 함수를 사용한다. 

In [22]:
Seq((1,"a,b"),(2, "a,c"),(1, "d,e"))

List((1,a,b), (2,a,c), (1,d,e))

In [20]:
val rdd = sc.parallelize(Seq((1,"a,b"),(2, "a,c"),(1, "d,e")))
val result = rdd.flatMapValues(_.split(",")).collect.mkString(",")
println(result)

(1,a),(1,b),(2,a),(2,c),(1,d),(1,e)


### [그룹과 관련된 연산]

#### 2.1.5.7 zip
 - zip() 연산은 두 개의 서로 다른 RDD를 각요소의 인덱스에 따라 하나의 (Key, Value) 쌍으로 묶어줍니다. 

In [23]:
val rdd1 = sc.parallelize(List("a","b","c"))
val rdd2 = sc.parallelize(List(1,2,3))
val result = rdd1.zip(rdd2)
println(result.collect.mkString(","))

(a,1),(b,2),(c,3)


#### 2.1.5.8 zipPartitions 
 - zip 연산을 Partition 별로 적용하고 특정 함수를 적용하여 그 결과로 구성된 새로운 RDD를 생성. 
 - zip : Parition 수, Elements 수 동일
 - zipPartition : Paritions 수 만 동일해도 상관없다.

In [24]:
val rdd1 = sc.parallelize(List("a","b","c"), 3)
val rdd2 = sc.parallelize(List(1,2,3), 3)
val result = rdd1.zipPartitions(rdd2){
    (it1, it2) => for{
        v1 <- it1;
        v2 <- it2
    } yield v1 + v2
} // (a, 1), (b, 2), (c, 3) 묶인 RDD를 각 값을 + (String합) 하는 Method 적용.

println(result.collect.mkString(", "))

a1, b2, c3


#### 2.1.5.9 Groupby

In [25]:
val rdd = sc.parallelize(1 to 10)
val result = rdd.groupBy{
    case i: Int if (i % 2 == 0) => "even"
    case _                      => "odd"
}
result.collect.foreach(
    v=> println(s"${v._1}, [${v._2.mkString(",")}]")
)

even, [2,4,6,8,10]
odd, [1,3,5,7,9]


#### 2.1.5.10 groupByKey
 - Input : Pair RDD
 - groupBy() 메서드가 요소의 키를 생성하는 작업과 그룹으로 분류하는 작업을 동시 수행
 - groupByKey()의 경우 이미 페어 RDD를 사용하여 키를 가진 요소들로 그룹을 만들고 새로운 RDD를 생성.

In [26]:
val rdd = sc.parallelize(List("a","b","c","b","c")).map((_,1))
val result = rdd.groupByKey
result.collect.foreach{
    v => println(s"${v._1}, [${v._2.mkString(",")}]")
}

a, [1]
b, [1,1]
c, [1,1]


#### 2.1.5.11 cogroup
 - Input : Pair RDD
 - 여러 RDD에서 같은 키를 갖는 값 요소를 찾아서 키와 그 키에 속하는 요소의 시퀀스로 구성된 튜플 생성 => RDD

In [31]:
val rdd1 = sc.parallelize(List(("k1","v1"),("k2","v2"),("k1","v3")))
val rdd2 = sc.parallelize(List(("k1","v4")))
val result = rdd1.cogroup(rdd2)
result.collect.foreach{
    case (k, (v_1, v_2)) => {
        println(s"($k, [${v_1.mkString(",")}], [${v_2.mkString(",")}])")
    }
}

(k1, [v1,v3], [v4])
(k2, [v2], [])


In [32]:
result.collect()

Array((k1,(CompactBuffer(v1, v3),CompactBuffer(v4))), (k2,(CompactBuffer(v2),CompactBuffer())))

### [집합과 관련된 연산들]

#### 2.1.5.12 distinct
 - 중복제거 

In [33]:
val rdd = sc.parallelize(List(1,2,3,1,2,3,1,2,3))
val result = rdd.distinct()
println(result.collect.mkString(","))

1,2,3


#### 2.1.5.13 cartesian
 - 카테시안곲을 구하고 그결과를 RDD로 출력 

In [34]:
val rdd1 = sc.parallelize(List(1,2,3))
val rdd2 = sc.parallelize(List("a", "b", "c"))
val result = rdd1.cartesian(rdd2)
print(result.collect.mkString(", "))

(1,a), (1,b), (1,c), (2,a), (2,b), (2,c), (3,a), (3,b), (3,c)

#### 2.1.5.14 Subtrack 
 - 차집합. 

In [35]:
val rdd1 = sc.parallelize(List("a", "b", "c", "d", "e"))
val rdd2 = sc.parallelize(List("a", "b", "c"))
val result = rdd1.subtract(rdd2)
println(result.collect.mkString(", "))

d, e


#### 2.1.5.15 Union 
 - 합집합

In [36]:
val result = rdd1.union(rdd2)
println(result.collect.mkString(", "))

a, b, c, d, e, a, b, c


#### 2.1.5.16 Intersection
 - 교집합

In [37]:
val result = rdd1.intersection(rdd2)
println(result.collect.mkString(", "))

a, b, c


#### 2.1.5.17 Join 
 - Input : Pair RDD
 - 서로 같은 키를 가지고 있는 요소를 모아 그룹을 생성, 이후 새로운 RDD 생성

In [38]:
val rdd1 = sc.parallelize(List("a", "b", "c", "d", "e")).map((_,1))
val rdd2 = sc.parallelize(List("b", "c")).map((_,2))
val result = rdd1.join(rdd2)
println(result.collect.mkString("\n"))

(b,(1,2))
(c,(1,2))
