# Chapter 2-2 RDD(Action)
 - RDD 메서드 중에서 기 결과값이 정수나 리스트, 맵 등 RDD가 아닌 형태로 출력되는 모든 것을 칭해서 Action이라고 한다. 

## [출력과 관련된 연산]
## 2.1.6.1 first
 - first 연산 : 첫번째 요소를 하나를 돌려준다. 

In [1]:
rdd = sc.parallelize(range(10,15))
result = rdd.first()
print(result)

10


## 2.1.6.2 take
 - take()는 첫번째로부터 순서대로 n개 되돌려준다. 
 - 배열 또는 리스트와 같은 컬렉션 타입으로 반환하기 때문에 지나치게 큰 N값을 지정하게 되면 메모리 부족이 일어난다. 

In [2]:
rdd = sc.parallelize(range(10,15))
result = rdd.take(3)
print(result)

[10, 11, 12]


## 2.1.6.3 takeSample
 - 지정된 크기의 샘플을 추출하는 메서드, RDD가 아니라 컬렉션형태로 출력된다는 점에서 sample()과는 다르다. 

In [3]:
rdd = sc.parallelize(range(1,101))
result = rdd.takeSample(False,20)
print(result)
print("length of List : {0}".format(len(result)))
result1 = rdd.takeSample(True,20) # True , Replacement True
print(result1)
print("length of List : {0}".format(len(result1)))

[22, 82, 60, 29, 28, 52, 83, 6, 55, 64, 81, 97, 91, 33, 62, 63, 85, 90, 26, 31]
length of List : 20
[55, 5, 72, 49, 81, 8, 87, 35, 35, 94, 73, 70, 56, 40, 38, 41, 83, 69, 39, 92]
length of List : 20


## 2.1.6.4 collect, count
 - RDD의 모든 요소를 배열 혹은 리스트 같은 하나의 컬렉션에 담아서 Return
 - Count 는 모든 요소의 개수를 돌려주는 메소드 

In [4]:
rdd = sc.parallelize(range(1,11))
print(rdd.collect())
print(rdd.count())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
10


## 2.1.6.5 countByValue
 - RDD에 속한 각 값들이 나타나는 횟수를 구해서 맵 형태로 돌려주는 메서드

In [7]:
rdd = sc.parallelize([1,1,2,3,3,4,4,4])
result = rdd.countByValue()
print(type(result))
for k,v in result.items():
    print(k,v)

<class 'collections.defaultdict'>
1 2
2 1
3 2
4 3


## 2.1.6.6 reduce
 - RDD에 포함된 임의의 값 두개를 하나로 합치는 함수를 이용해 RDD에 포함된 모든 요소를 하나의 값으로 병합하고 그 결과값을 반환.
 - 1,3,4,5 라는 숫자가 있다면 1+3 => 4 + 4 => 8 + 5 => 13 이러한 방식으로 수행.
 - 교환 결합법칙이 성립하는 문제에만 사용해야한다.(파티션이 나눠져 있다면) => 다른 결과가 나올 수 있다.

In [9]:
rdd = sc.parallelize(range(1,11),3) # 3개의 파티션으로 만듬.
result = rdd.reduce(lambda v1, v2 : v1 + v2)
print(result)

55


## 2.1.6.7 fold
 - reduce 와 같은 역할을 하는 메서드이다. 하지만 차이점은 reduce 는 rdd에 포함된 요소만 이용해 병합을 수행하는데 반해, fold() 연산은 병학 연산의 초깃값을 지정해 줄 수 있다는 점이다. 
 - 예) 1~10 숫자를 fold(0) 을하게 되면 0 + 1 으로 부터 시작한다. 
 - 각 연산을 할때마다 앞의 값을 더한다. 

In [14]:
rdd = sc.parallelize(range(1,11),3)
result = rdd.fold(0, lambda v1, v2: v1 + v2)
print(result)

55


In [19]:
rdd = sc.parallelize(range(1,5),3)
result = rdd.fold(2, lambda v1, v2: v1 + v2)
print(result)

18


In [17]:
rdd = sc.parallelize(["A","A","B"],3)
result = rdd.fold("@", lambda v1, v2: v1 + v2)
print(result)

@@A@A@B


## 2.1.6.8 aggregate 
 - reduce 나 fold 메서드의 경우 모두 입력과 출력이 같은 타입이어야했다. 하지만 aggregate 의 경우 달라도 상관없다.

In [22]:
class Record:

    def __init__(self, amount, number=1):
        self.amount = amount
        self.number = number
        
    def addAmt(self, amount):
        return Record(self.amount + amount, self.number + 1)
    
    def __add__(self, other):
        amount = self.amount + other.amount
        number = self.number + other.number 
        return Record(amount, number)
        
    def __str__(self):
        return "avg:" + str(self.amount / self.number)

    def __repr__(self):
        return 'Record(%r, %r)' % (self.amount, self.number)

In [23]:
# Aggregate
def seqOp(r, v):
    return r.addAmt(v)


# Aggregate
def combOp(r1, r2):
    return r1 + r2

In [30]:
rdd = sc.parallelize([100, 80, 75, 90, 95])
#result = rdd.aggregate(Record(0, 0), seqOp, combOp)
#print(result)

## 2.1.6.9 sum

In [31]:
rdd = sc.parallelize(range(1,11))
result = rdd.sum()
print(result)

55


## 2.1.7.10 foreach, foreachPartition
 - foreach()는 모든 요소에 특정함수를 적용하는 메서드.
 - foreachPartition은 위와 다르게 파티션별로 적용한다는 것이다. 

In [32]:
def sideEffect(values):
    print("Partition Side Effect!!")
    for v in values:
        print("Value Side Effect : %s " % v) 

In [33]:
rdd = sc.parallelize(range(1,11),3)
result = rdd.foreach(lambda v: print("Value Side effect : %s" % v)) # 각 요소마다 Value Side effect가 출력.
result2 = rdd.foreachPartition(sideEffect) # Partition 마다 한번씩 출력한다. 이전 transform과 같다.

## 2.1.7.11 toDebugString
 - 디버깅을 위한 메서드.
 - RDD의 파티션 개수나 의존성 정보등 세부정보를 알고 싶을때 사용. 

In [37]:
rdd = sc.parallelize(range(1,101),3).map(lambda v:v*2).map(lambda v:v+1).coalesce(2)

In [42]:
print(rdd.toDebugString())

b'(2) CoalescedRDD[65] at coalesce at NativeMethodAccessorImpl.java:0 []\n |  PythonRDD[64] at RDD at PythonRDD.scala:48 []\n |  ParallelCollectionRDD[63] at parallelize at PythonRDD.scala:475 []'
