# RDD 고급 개념
- 이 장에서 다룰 핵심 주제
  - 집계와 키-값 형태의 RDD
  - 사용자 정의 파티셔닝
  - RDD 조인

In [None]:
myCollection = "Spark The Definitive Guide: Big Data Processing Made Simple".split(' ')
words = spark.sparkContext.parallelize(myCollection, 2)

## 키-값 형태의 기초(키-값 형태의 RDD)
- 메서드 이름에 ByKey가 있다면 PairRDD 타입(키-값 타입)만 사용 가능
  - RDD에 맵 연산을 수행해서 키-값 구조로 만들 수 있음

In [None]:
#(키, 값)
words.map(lambda word: (word.lower(), 1)).collect()

### keyBy
- 현재 값으로 부터 키를 생성하는 함수

In [None]:
#단어의 첫번째 문자를 키로 만들어 RDD 생성
keyword = words.keyBy(lambda word: word.lower()[0])
keyword.collect()

### 값 매핑하기
- mapValues
- flatMapValues

In [None]:
#위에서 생성한 키에 값 매핑
keyword.mapValues(lambda word: word.upper()).collect()

In [None]:
#flatMap함수는 단어의 각 문자를 값으로 하도록 함
keyword.flatMapValues(lambda word: word.upper()).collect()

### 키와 값 추출하기

In [None]:
keyword.keys().collect()

In [None]:
keyword.values().collect()

### lookup
- 특정 키에 관한 결과 찾음

In [None]:
#키가 s인 값
keyword.lookup('s')

### sampleByKey
- 근사치나 정확도를 이용해 키를 기반으로 RDD샘플 생성
- 특정 키를 부분 샘플링할 수 있음
- 해당 메서드는 RDD를 한 번만 처리하면서 간단한 무작위 샘플링을 사용함

In [None]:
import random

distinctChars = words.flatMap(lambda word: list(word.lower())).distinct().collect()

In [None]:
distinctChars

In [None]:
sampleMap = dict(map(lambda c: (c, random.random()), distinctChars))

In [None]:
sampleMap

In [None]:
words.map(lambda word: (word.lower()[0], word)).sampleByKey(True, sampleMap, 6).collect()

## 집계

In [None]:
chars= words.flatMap(lambda word: word.lower())
KVcharacters = chars.map(lambda letter: (letter, 1))

In [None]:
chars.take(5)

In [None]:
KVcharacters.take(5)

In [None]:
def maxFunc(left, right):
  return max(left, right)

def addFunc(left, right):
  return left+right

In [None]:
nums = sc.parallelize(range(1,31),5)

### countByKey
- 각 키의 아이템 수를 구하고 로컬 맵으로 결과를 수집

In [None]:
KVcharacters.countByKey()

### 집계 연산 구현 방식 이해하기
- 키-값 형태의 PairRDD를 생성하는 몇 가지 방법이 있음
  - groupBy
  - reduce
- 이때 구현 방식은 Job의 안정성을 위해 매우 중요함

#### groupByKey
- 각 키에 대한 <strong>값의 크기가 일정</strong>하고 익스큐터에 <strong>할당된 메모리에서 처리 가능할 정도</strong>의 크기라면 해당 메서드 사용
  - 모든 익스큐터에서 함수를 적용하기 전에 <strong>해당 키와 관련된 모든 값을 메모리로 읽어 들임</strong>
  - 따라서 만약 심각하게 치우쳐진 키가 있다면 일부 파티션이 엄청난 양의 값을 가질 수 있음(out of memory)

In [None]:
from functools import reduce
#각 키에 1의 값을 매핑했었음
KVcharacters.groupByKey().map(lambda row: (row[0],reduce(addFunc, row[1]))).collect()

#### reduceByKey
- 작업 부하를 줄이려는 경우 적합
- <strong>각 파티션에서 리듀스 작업</strong>을 수행하기 때문에 안정적이고 <strong>모든 값을 메모리에 유지하지 않아도 됨</strong>
- 또한 최종 리듀스 과정을 제외한 <strong>모든 작업은 개별 워커에서 처리</strong>하므로 연산 중 셔플 발생 X

In [None]:
KVcharacters.reduceByKey(addFunc).collect()

### 기타 집계 메서드

#### aggregate
- 파티션 기준 집계

In [None]:
nums.aggregate(0, maxFunc, addFunc)#시작값, 파티션 내에 수행될 함수, 모든 파티션에 걸쳐 수행될 함수

#### treeAggregate
- 위 aggregate는 드라이버에서 최종 집계를 수행하므로 익스큐터 결과가 너무 크면 out of memory
- 그래서 <strong>익스큐터끼리 트리를 형성해서 집계 처리의 일부 하위 과정을 push down</strong> 방식으로 수행하는 것이 해당 함수
- 이렇게 집계 처리를 <strong>여러 단계</strong>로 구성해서 드라이버의 메모리를 모두 소비하는 현상을 막음

In [None]:
nums.treeAggregate(0, maxFunc, addFunc, depth=3)

#### aggregateByKey
- 파티션 대신 키를 기준으로 집계

In [None]:
KVcharacters.aggregateByKey(0, addFunc, maxFunc).collect()

#### combineByKey
- 키를 기준으로 연산을 수행하며 파라미터로 사용된 함수에 따라 값을 병합함
- 그런다음 여러 결괏값을 병합해 결과 반환
- 사용자 정의 파티셔너를 사용해 출력 파티션 수를 지정할 수도 있음

In [None]:
def valToCombiner(v):
  return [v]

def mergeValuesFunc(v, valToAppend):
  v.append(valToAppend)
  return v

def mergeCombinerFunc(v1, v2):
  return v1+v2

outputPartitions=6

In [None]:
KVcharacters.combineByKey(valToCombiner, mergeValuesFunc, mergeCombinerFunc,outputPartitions).collect()

#### foldByKey
- 결합 함수와 항등원(어떤 원소와 연산을 취해도 자기 자신이 되게 하는 원소)인 제로값을 이용해 각 키의 값을 병합

In [None]:
KVcharacters.foldByKey(0,addFunc).collect()

## cogroup
- 키-값 형태의 RDD를 키를 기준으로 그룹화 가능
  - 스칼라를 사용하는 경우 최대 3개까지
  - 파이썬을 사용하는 경우 최대 2개까지

In [None]:
import random
distinctChars = words.flatMap(lambda word: word.lower()).distinct()
charRDD = distinctChars.map(lambda c: (c, random.random()))
charRDD2 = distinctChars.map(lambda c: (c, random.random()))

charRDD.cogroup(charRDD2).take(5)

## 조인

### 내부 조인

In [None]:
keyedChars = distinctChars.map(lambda c:(c, random.random()))
outputPartitions =10

# KVcharacters.join(keyedChars).count()
KVcharacters.join(keyedChars, outputPartitions).count()

In [None]:
KVcharacters.join(keyedChars, outputPartitions).take(5)

### zip
- 두 개의 RDD를 연결

In [None]:
numRange= sc.parallelize(range(9), 2)
words.zip(numRange).collect()

## 파티션 제어하기
- RDD를 사용하면 <strong>데이터가 클러스터 전체에 물리적으로 정확히 분산되는 방식</strong>을 정의할 수 있다.
- 이러한 기능을 가진 메서드 중 일부는 구조적 API와 기본적으로 동일
- 다른 점은, <strong>파티션 함수를 파라미터로</strong> 사용할 수 있다는 사실
  - 파티션 함수: 보통 사용자 지정 Partitioner를 의미

### coalesce
- 파티션을 재분배할 때 발생하는 데이터 <strong>셔플을 방지하기 위해 동일한 워크에 존재하는 파티션을 합치는 메서드</strong>

In [None]:
#파티션 수 지정 -> 1
words.coalesce(1).getNumPartitions()

### repartition
- 똑같이 파티션 수를 늘리거나 줄일 수 있음
- 하지만 <strong>노드 간 셔플</strong>이 발생

In [None]:
words.repartition(10).getNumPartitions()

### repartitionAndSortWithinPartitions
- 파티션 재분배 가능
- 재분배된 결과 파티션의 정렬 방식을 지정할 수 있음

### 사용자 정의 파티셔닝
- RDD를 사용하는 가장 큰 이유 중 하나이므로 가장 중요

- 사용자 정의 파티셔너는 <strong>저수준 API의 세부적인 구현 방식</strong>
  - job이 성공적으로 동작되는지 여부에 상당한 영향을 미침

- <strong>사용자 정의 파티셔닝의 유일한 목표: 데이터의 치우침 같은 문제를 피하는 것</strong>
  - 즉, 클러스터 전체에 걸쳐 <strong>데이터를 균등하게 분배</strong>하는 것

- 심각하게 치우친 키를 다뤄야 한다면 고급 파티셔닝 기능을 사용
  - 병렬성을 개선하고 실행 과정에서 out of memory error를 방지할 수 있도록 키를 최대한 분할해야함

In [None]:
path= "/FileStore/tables/retail-data/all/"
df= spark.read.option('header', 'true').option('inferSchema', 'true').csv(path)

In [None]:
df.printSchema()

In [None]:
rdd = df.coalesce(10).rdd

In [None]:
def partitionFunc(key):
  if key in [17850, 12583]:
    return 0
  return random.randint(1,2)

### case: 두 고객의 데이터가 너무 많아서 다른 고객의 정보와 두 고객의 정보를 분리하려함(두 그룹 생성)
- 두 고객의 아이디: 17850, 12583

In [None]:
#row[6]: customerid 값임
keyedRDD = rdd.keyBy(lambda row: row[6])

In [None]:
keyedRDD.take(1)

In [None]:
keyedRDD.partitionBy(3, partitionFunc).map(lambda x: x[0])\
.glom().map(lambda x: len(set(x))).take(5)

## 사용자 정의 직렬화
- 스파크는 Kryo 라이브러리를 사용해서 객체를 빠르게 직렬화 할 수 있음
  - 이는 자바 직렬화보다 약 10배 이상 성능이 좋음