# 14장. 분산형 공유변수
- 어큐뮬레이터
- 브로드캐스트 변수

In [8]:
my_collection = "Spark The Definition Guide : Big Data Processing Made Simple".split(" ")
words = spark.sparkContext.parallelize(my_collection, 2)

## 14.1 브로드캐스트 변수
- 기존 : 공유를 위해 클로저 함수 내부에서 참조하여 사용 > 워커노드에서 태스크당 한번씩 역직렬화가 진행 > 성능저하
- 브로드캐스트 변수 사용 : 클러스터의 모든 머신에 캐시하는 불변성 공유 변수
<br><br>즉 직렬화와 역직렬화에 대한 부하를 줄일 수 있다

In [9]:
# 이 구조체(딕셔너리)를 브로드캐스트
# 보통 작은 테이블을 브로드캐스트 한다!!!
supplementalData = {"Spark":1000, "Definitive":200, "Big":-300, "Simple":100}
suppBroadcast = spark.sparkContext.broadcast(supplementalData)

- value 메서드를 통해 브로드캐스트 변수를 참조할 수 있다

In [10]:
suppBroadcast.value

{'Big': -300, 'Definitive': 200, 'Simple': 100, 'Spark': 1000}

#### 브로드캐스트 변수의 활용 예시

In [11]:
words.map(lambda word : (word, suppBroadcast.value.get(word, 0)))\
    .sortBy(lambda wordPair : wordPair[1])\
    .collect()

[('Big', -300),
 ('The', 0),
 ('Definition', 0),
 ('Guide', 0),
 (':', 0),
 ('Data', 0),
 ('Processing', 0),
 ('Made', 0),
 ('Simple', 100),
 ('Spark', 1000)]

## 14.2 어큐뮬레이터
- 트랜스포메이션 내부의 다양한 값을 갱신하는 데 사용
- 내고장성을 유지 : 하나에 에러가 발생해도 다른 클러스터에 영향 없음
- 결합성과 가환성을 가진 연산을 통해서만 더할 수 있는 변수!
- 각 테스크에서 어큐뮬레이터를 한번만 갱신 >> 액션을 처리하는 과정에서만 갱신. 즉, 트랜스포메이션에서 어큐뮬레이션을 실행해도 액션이 실행되기 전까지는 갱신안됨

In [12]:
flights = spark.read\
.parquet("file:///home/ubuntu/ybigta/Dataset_spark/data/flight-data/parquet/2010-summary.parquet")

- spark.sparkContext 로 어큐뮬레이터 생성

In [24]:
accChina = spark.sparkContext.accumulator(0)

In [25]:
def accChinaFunc(flight_row):
    destination = flight_row["DEST_COUNTRY_NAME"]
    origin = flight_row["ORIGIN_COUNTRY_NAME"]
    
    if destination == "China":
        accChina.add(flight_row["count"])
    if origin == "China":
        accChina.add(flight_row["count"])

In [26]:
flights.foreach(lambda flight_row : accChinaFunc(flight_row))

### 사용자 정의 Accumulator
- Scala : AccumulatorV2 클래스를 상속받아 완성
- Python : AccumulatorParam 을 상속 받아 생성 가능