### Spark 설정하기

In [18]:
# [+] SparkConf, SparkContext 임포트
import findspark
findspark.init()

from pyspark import SparkConf, SparkContext

In [19]:
"""
    [+] SparkConf 객체 생성 및 설정
    - setMaster(), 마스터 노드 위치: "local"
    - 앱이름: "transformations_actions"
"""

conf = SparkConf().setMaster("local").setAppName("transformations_actions")

In [24]:
# [+] SparkContext 객체 생성
sc = SparkContext(conf = conf)

In [25]:
# Spark 전체 설정 값 확인
sc.getConf().getAll()

[('spark.master', 'local'),
 ('spark.driver.extraJavaOptions',
  '-XX:+IgnoreUnrecognizedVMOptions --add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.lang.invoke=ALL-UNNAMED --add-opens=java.base/java.lang.reflect=ALL-UNNAMED --add-opens=java.base/java.io=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED --add-opens=java.base/java.nio=ALL-UNNAMED --add-opens=java.base/java.util=ALL-UNNAMED --add-opens=java.base/java.util.concurrent=ALL-UNNAMED --add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED --add-opens=java.base/sun.nio.ch=ALL-UNNAMED --add-opens=java.base/sun.nio.cs=ALL-UNNAMED --add-opens=java.base/sun.security.action=ALL-UNNAMED --add-opens=java.base/sun.util.calendar=ALL-UNNAMED --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED'),
 ('spark.app.startTime', '1680178054101'),
 ('spark.app.submitTime', '1680176507059'),
 ('spark.executor.id', 'driver'),
 ('spark.app.name', 'transformations_actions'),
 ('spark.rdd.compress', 'True'),
 ('

In [26]:
# SpackContext 객체 하나 더 생성하기(과연?)
sc = SparkContext(conf = conf)

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=transformations_actions, master=local) created by __init__ at C:\Users\midst\AppData\Local\Temp\ipykernel_7112\3504930459.py:2 

In [27]:
# SparkContext는 프로그램 내에서 하나의 객체만 생성할 수 있다. (= Singleton 패턴)
# SparkContext 객체 해제하기
sc.stop()

In [28]:
# 다시 생성하기
sc = SparkContext(conf = conf)

### 기본 Actions 함수 사용하기

In [29]:
"""
    [+] List로부터 RDD 객체 생성
    - SparkContext.parallelize()
    - 리스트 값: 
    "짜장면", "마라탕", "짬뽕", 
    "떡볶이", "쌀국수", "짬뽕", 
    "짜장면", "짜장면", "짜장면", 
    "라면", "우동", "라면"
"""
lst = ["짜장면", "마라탕", "짬뽕", 
    "떡볶이", "쌀국수", "짬뽕", 
    "짜장면", "짜장면", "짜장면", 
    "라면", "우동", "라면"]
       
# [+] lst로부터 RDD 객체 생성하기
foods = sc.parallelize(lst)

In [30]:
# [+] foods RDD 내용 출력
foods.collect()

['짜장면', '마라탕', '짬뽕', '떡볶이', '쌀국수', '짬뽕', '짜장면', '짜장면', '짜장면', '라면', '우동', '라면']

In [32]:
# [+] foods RDD 원소 값 별로 카운팅
foods.countByValue()

defaultdict(int,
            {'짜장면': 4,
             '마라탕': 1,
             '짬뽕': 2,
             '떡볶이': 1,
             '쌀국수': 1,
             '라면': 2,
             '우동': 1})

In [33]:
# take(n): 처음 n개의 원소를 출력
foods.take(5)

['짜장면', '마라탕', '짬뽕', '떡볶이', '쌀국수']

In [34]:
# first(): 첫 번째 값을 출력
foods.first()

'짜장면'

In [35]:
# count(): 원소 갯수 출력(중복된 원소 포함)
foods.count()

12

In [37]:
# distinct(): unique한 원소로 구성된 RDD를 생성하는 Transformation  (중복 제거)
unique_foods = foods.distinct()

In [38]:
unique_foods.collect()

['짜장면', '마라탕', '짬뽕', '떡볶이', '쌀국수', '라면', '우동']

### 기본 Transformations 함수 사용하기

In [None]:
# Transformations 은 지연 실행된다.
sc.parallelize([1, 2, 3]).map(lambda x: x + 2)

In [None]:
# Actions 를 만나면 즉시 실행된다.
sc.parallelize([1, 2, 3]).map(lambda x: x + 2).collect()

In [None]:
sc.parallelize([1, 2, 3]).map(lambda x: x * 2).collect()

In [40]:
movies = [
    "그린 북",
    "매트릭스",
    "토이 스토리",
    "캐스트 어웨이",
    "포드 V 페라리",
    "보헤미안 랩소디",
    "빽 투 더 퓨처",
    "반지의 제왕",
    "죽은 시인의 사회"
]

In [42]:
# [+] 리스트(movies) -> RDD 객체(moviesRDD) 생성
moviesRDD = sc.parallelize(movies)

In [43]:
moviesRDD.collect()

['그린 북',
 '매트릭스',
 '토이 스토리',
 '캐스트 어웨이',
 '포드 V 페라리',
 '보헤미안 랩소디',
 '빽 투 더 퓨처',
 '반지의 제왕',
 '죽은 시인의 사회']

In [51]:
# map을 이용한 Tokenizing
moviesRDD.map(lambda x: x.split(" ")).collect()

[['그린', '북'],
 ['매트릭스'],
 ['토이', '스토리'],
 ['캐스트', '어웨이'],
 ['포드', 'V', '페라리'],
 ['보헤미안', '랩소디'],
 ['빽', '투', '더', '퓨처'],
 ['반지의', '제왕'],
 ['죽은', '시인의', '사회']]

In [49]:
# flatMap을 이용한 Tokenizing
flatMovies = moviesRDD.flatMap(lambda x: x.split(" "))

In [50]:
flatMovies.collect()

['그린',
 '북',
 '매트릭스',
 '토이',
 '스토리',
 '캐스트',
 '어웨이',
 '포드',
 'V',
 '페라리',
 '보헤미안',
 '랩소디',
 '빽',
 '투',
 '더',
 '퓨처',
 '반지의',
 '제왕',
 '죽은',
 '시인의',
 '사회']

In [54]:
"""
    [+] flatMovies 에서 '매트릭스'를 제외
    - filter(lambda ...)
    - 저장할 객체: filteredMovies
"""

filteredMovies = flatMovies.filter(lambda x: x != "매트릭스")

In [55]:
filteredMovies.collect()

['그린',
 '북',
 '토이',
 '스토리',
 '캐스트',
 '어웨이',
 '포드',
 'V',
 '페라리',
 '보헤미안',
 '랩소디',
 '빽',
 '투',
 '더',
 '퓨처',
 '반지의',
 '제왕',
 '죽은',
 '시인의',
 '사회']

In [57]:
"""
    집합 관련 transformations 연산
"""

num1 = sc.parallelize([1, 2, 3, 4])
num2 = sc.parallelize([4, 5, 6, 7, 8, 9, 10])

In [60]:
# 교집합(intersection) 구하기
num1.intersection(num2).collect()

[4]

In [61]:
# 합집합(union) 구하기
num1.union(num2).collect()

[1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10]

In [63]:
# 차집합(subtract) 구하기
num1.subtract(num2).collect()

[2, 1, 3]

In [68]:
"""
    sample(withReplacement, fraction): 원소를 랜덤 샘플링하여 새로운 RDD를 생성하는 narrow transformation
    - withReplacement, bool[optional]: 중복 샘플링 허용 여부
    - fraction, float[optional]: 샘플링 확률[0~1], 확률이므로 정확한 사이즈가 보장되지 않음
    - seed: 결과 재현(reproducibility)을 위한 설정 값
"""

# 합집합 생성
numUnion = num1.union(num2)

# 샘플링: 중복 허용, 50%
numUnion.sample(True, 0.5).collect()

[1, 2, 2, 5, 5, 9]

In [70]:
# seed 파라미터를 설정하면 동일한 결과를 반복적으로 얻을 수 있다.
numUnion.sample(True, 0.5, seed = 1).collect()

[2, 3, 4, 6, 8, 8, 8, 8, 9, 9]

In [78]:
"""
    groupBy(): 특정 기준(함수로 정의)으로 그룹핑을 수행하는 wide transformation
"""

names = sc.parallelize(["김민수", "최은선", "문선빈", "김민종",
                       "박은빈", "이병헌", "손흥민", "박찬호",
                       "구자욱", "차은우", "배용준", "배다혜",
                       "차지연", "김정은", "권은비", "권나라",
                       "나영석", "강호동", "임나연", "최수영"])

In [101]:
#  원소의 첫 번째 값을 기준으로 그룹핑
namesGroup = names.groupBy(lambda x: x[0])

In [102]:
namesGroup.collect()

[('김', <pyspark.resultiterable.ResultIterable at 0x2c8769c9400>),
 ('최', <pyspark.resultiterable.ResultIterable at 0x2c8768e7280>),
 ('문', <pyspark.resultiterable.ResultIterable at 0x2c87683c0a0>),
 ('박', <pyspark.resultiterable.ResultIterable at 0x2c876832790>),
 ('이', <pyspark.resultiterable.ResultIterable at 0x2c876832400>),
 ('손', <pyspark.resultiterable.ResultIterable at 0x2c876832e50>),
 ('구', <pyspark.resultiterable.ResultIterable at 0x2c8768322e0>),
 ('차', <pyspark.resultiterable.ResultIterable at 0x2c876832130>),
 ('배', <pyspark.resultiterable.ResultIterable at 0x2c876832880>),
 ('권', <pyspark.resultiterable.ResultIterable at 0x2c876832070>),
 ('나', <pyspark.resultiterable.ResultIterable at 0x2c876832760>),
 ('강', <pyspark.resultiterable.ResultIterable at 0x2c876832a90>),
 ('임', <pyspark.resultiterable.ResultIterable at 0x2c876832520>)]

In [103]:
# collect() 결과를 리스트 객체(res)에 저장
res = namesGroup.collect()

In [104]:
type(res)

list

In [105]:
res

[('김', <pyspark.resultiterable.ResultIterable at 0x2c87683c400>),
 ('최', <pyspark.resultiterable.ResultIterable at 0x2c87683cf10>),
 ('문', <pyspark.resultiterable.ResultIterable at 0x2c87683c8e0>),
 ('박', <pyspark.resultiterable.ResultIterable at 0x2c87683c7c0>),
 ('이', <pyspark.resultiterable.ResultIterable at 0x2c87683caf0>),
 ('손', <pyspark.resultiterable.ResultIterable at 0x2c87683cd90>),
 ('구', <pyspark.resultiterable.ResultIterable at 0x2c87683cfa0>),
 ('차', <pyspark.resultiterable.ResultIterable at 0x2c8766fc640>),
 ('배', <pyspark.resultiterable.ResultIterable at 0x2c8766fcbe0>),
 ('권', <pyspark.resultiterable.ResultIterable at 0x2c8766fceb0>),
 ('나', <pyspark.resultiterable.ResultIterable at 0x2c8766fcdc0>),
 ('강', <pyspark.resultiterable.ResultIterable at 0x2c8766fcdf0>),
 ('임', <pyspark.resultiterable.ResultIterable at 0x2c8768e7040>)]

In [106]:
# ResultIterable 객체는 list로 쉽게 변환 가능하다.
list(res)

[('김', <pyspark.resultiterable.ResultIterable at 0x2c87683c400>),
 ('최', <pyspark.resultiterable.ResultIterable at 0x2c87683cf10>),
 ('문', <pyspark.resultiterable.ResultIterable at 0x2c87683c8e0>),
 ('박', <pyspark.resultiterable.ResultIterable at 0x2c87683c7c0>),
 ('이', <pyspark.resultiterable.ResultIterable at 0x2c87683caf0>),
 ('손', <pyspark.resultiterable.ResultIterable at 0x2c87683cd90>),
 ('구', <pyspark.resultiterable.ResultIterable at 0x2c87683cfa0>),
 ('차', <pyspark.resultiterable.ResultIterable at 0x2c8766fc640>),
 ('배', <pyspark.resultiterable.ResultIterable at 0x2c8766fcbe0>),
 ('권', <pyspark.resultiterable.ResultIterable at 0x2c8766fceb0>),
 ('나', <pyspark.resultiterable.ResultIterable at 0x2c8766fcdc0>),
 ('강', <pyspark.resultiterable.ResultIterable at 0x2c8766fcdf0>),
 ('임', <pyspark.resultiterable.ResultIterable at 0x2c8768e7040>)]

In [107]:
list(res[7][1])

['차은우', '차지연']

In [108]:
# for 문을 이용하여 구조적으로 결과를 출력
for (k, v) in res:
    print(k, list(v))
    

김 ['김민수', '김민종', '김정은']
최 ['최은선', '최수영']
문 ['문선빈']
박 ['박은빈', '박찬호']
이 ['이병헌']
손 ['손흥민']
구 ['구자욱']
차 ['차은우', '차지연']
배 ['배용준', '배다혜']
권 ['권은비', '권나라']
나 ['나영석']
강 ['강호동']
임 ['임나연']


In [109]:
# groupBy()는 모드 연산과 같이 수학 연산에도 사용될 수 있다.
nums = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [112]:
# 홀수/짝수로 그룹핑
numsGroup = nums.groupBy(lambda x: x % 2)

In [120]:
numsGroup

[(1, <pyspark.resultiterable.ResultIterable at 0x2c876972220>),
 (0, <pyspark.resultiterable.ResultIterable at 0x2c8769cefa0>)]

In [117]:
# [+] '1' 그룹에 해당되는 원소 리스트 출력하기
list(numsGroup[0][1])

[1, 3, 5, 7, 9]

In [118]:
# [+] '0' 그룹에 해당되는 원소 리스트 출력하기
list(numsGroup[1][1])

[2, 4, 6, 8, 10]