In [2]:
sc

In [1]:
#분산형 공유 변수 -> 브로드캐스트 변소, 어큐뮬레이터
#어큐뮬레이터: 모든 태스크의 데이터를 공유 결과에 추가할 수 있음
#브로드캐스트 변수: 모든 워커 노드에 큰 값을 저장, 재전송 없이 많은 스파크 액션에서 재사용

In [3]:
#브로드캐스트 변소
#변하지 않는 값을 클로저 함수의 변수로 캡슐화하지 않고 클러스터에서 효율적으로 공유하는 방법을 제공
my_collection = "Spark The Definitive Guide : Big Data Processing Made Simple"\
  .split(" ")
words = spark.sparkContext.parallelize(my_collection, 2)

In [5]:
#sql의 오른쪽 조인
supplementalData = {"Spark":1000, "Definitive":200,
                    "Big":-300, "Simple":100}

In [6]:
#이 구조체를 스파크에 브로드캐스트
#값은 불변성, 액션 실행할 때 클러스터의 모든 노드에 지연 처리 방식으로 복제
suppBroadcast = spark.sparkContext.broadcast(supplementalData)

In [7]:
#값 참조
suppBroadcast.value

{'Spark': 1000, 'Definitive': 200, 'Big': -300, 'Simple': 100}

In [8]:
#키-값 쌍 데이터 생성
words.map(lambda word: (word, suppBroadcast.value.get(word, 0)))\
  .sortBy(lambda wordPair: wordPair[1])\
  .collect()

[('Big', -300),
 ('The', 0),
 ('Guide', 0),
 (':', 0),
 ('Data', 0),
 ('Processing', 0),
 ('Made', 0),
 ('Simple', 100),
 ('Definitive', 200),
 ('Spark', 1000)]

In [9]:
#어큐뮬레이터
#트랜스포메이션 내부의 다양한 값을 갱신하는 데 사용
#내고장성 보장, 효율적인 방식으로 드라이버에 값을 전달
#액션을 처리하는 과정에서만 갱신
#지연 연산 모델에 영향을 주지 않음
#이름은 선택적으로 지정 가능

In [10]:
flights = spark.read\
  .parquet("file:///home/ubuntu/Spark-The-Definitive-Guide/data/flight-data/parquet/2010-summary.parquet")

In [11]:
#이름이 지정되지 않은 어큐뮬레이터 생성
accChina = spark.sparkContext.accumulator(0)

In [12]:
#어큐뮬레이터에 값을 더하는 방법을 정의
def accChinaFunc(flight_row):
  destination = flight_row["DEST_COUNTRY_NAME"]
  origin = flight_row["ORIGIN_COUNTRY_NAME"]
  if destination == "China":
    accChina.add(flight_row["count"])
  if origin == "China":
    accChina.add(flight_row["count"])

In [13]:
#foreach 이용하여 데이터셋의 전체 로우 처리
flights.foreach(lambda flight_row: accChinaFunc(flight_row))

In [14]:
accChina.value # 953

953

In [15]:
#사용자 정의 어큐뮬레이터