In [6]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .master('local') \
        .appName('Action') \
        .config('spark.ui.port', '4050') \
        .getOrCreate()

sc = spark.sparkContext

# Spark Operations
### Transpormations (define a new RDD)
-  map, filter, flatMap, reduceByKey, groupByKey, sortByKey, union, join etc...
###  Actions (return a result to driver program)
-  collect (실습할 때 가장많이 사용할 것)
-  reduce (결과값을 바로 프린트해볼 수 있음. transpormation의 reduceByKey와 헷갈리지 않도록 주의)
-  count, save, lookupKey etc...

In [7]:
data = sc.parallelize(range(1, 11), 1)

## reduce(func)
매개변수로 들어가는 함수를 사용해 RDD를 단일객체가 될 때 까지 줄인다

In [10]:
data_reduce = data.reduce(lambda x, y: x + y)
data_reduce

55

## collect()
데이터 셋의 전체를 리스트로 반환

In [12]:
data.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

## count()
RDD의 element 개수를 샌다

In [13]:
data.count()

10

## first()
데이터셋에서 처음 1개의 element를 리턴

In [14]:
data.first()

1

## take(n)
데이터셋에서 처음 n개의 elements를 리스트로 반환

In [15]:
data.take(7)

[1, 2, 3, 4, 5, 6, 7]

## takeSample(withReplacement, num, seed=None)
- RDD에서 랜덤한 샘플을 뽑아 드라이버로 반환
- 매개변수
  - withReplacement : True -> 복원추출, False -> 비복원추출
  - num : sample 크기
  - seed : seed 값

In [16]:
data.takeSample(False, 3)

[9, 10, 7]

## takeOrdered()
- RDD에서 작은 순서대로 지정한 개수를 리턴
- 작은 데이터를 다룰때만 빠르고 큰 데이터에서는 `sort()`를 권장

In [18]:
data2 = sc.parallelize(range(10, 0, -1), 1)
print(data2.take(3))
print(data2.takeOrdered(3))

[10, 9, 8]
[1, 2, 3]


## saveAsTextFile(path)
- 데이터셋 파티션 하나당 하나의 파일로 저장
- 매개변수
  - path : 저장될 디렉토리이름
  - local filesystem, HDFS 등의 파일 시스템에 저장 가능 ex) `hdfs:...`
- 각각의 element를 하나의 line로 저장

In [22]:
data.saveAsTextFile('save_test')
data_reread = sc.textFile('save_test')
data_reread.collect()

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

## countByKey()
- key-value 쌍으로 이루어진 RDD에서 작동하며, key를 기준으로 개수를 센다
- 각 key의 count를 갖는 dictionary를 리턴

In [23]:
data = sc.parallelize([('a', 1), ('b', 2), ('c', 3), ('a', 4)])
data.countByKey()

defaultdict(int, {'a': 2, 'b': 1, 'c': 1})

In [24]:
sc.stop()