In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Spark 데이터 종류

- RDD : Low-level API에 해당 하는 데이터, 스파크에서 동작하는 모든 데이터는 결국 RDD형태로 연산된다  
- DataFrame : 열과 행으로 이루어진 테이블 형태의 데이터
- DataSet : 한가지 타입의 값만 저장할 수 있는 DataFrame. PySpark에서는 사용하지 않음

## RDD 

### Resillient Distributed Data

Resillient : 회복력 있는  
Distributed : 분산  
Data : 데이터  
 * Resilient : 장애가 발생할 경우 자동으로 데이터를 복구
 * Distributed : 데이터를 읽고 쓸 때 데이터를 파티셔닝 하여 병렬로 읽고 쓴다. 직렬로 모두 읽을 때 보다 속도가 빠르다
 
 
### RDD의 특징

 - Read Only : 변경불가능 객체
 - Lazy Evaluation : 늦은 수행


### RDD 파티셔닝

- 커다란 RDD를 처음 부터 끝까지 직렬로 읽고 쓰면 시간이 오래 걸린다.
- RDD를 작은 부분(Partition) 으로 쪼개 각 Patition 을 병렬로 읽고 써 실행속도를 향상시킬 수 있다.
- Patition을 나눠줄때는 스파크 클러스터 환경의 cpu core 숫자에 맞춰주는 것이 속도 측면에서 유리하다.


![rdd_partitioning](./img/rdd-partitioning.png)

#### * cpu 코어가 3개일때 파티셔닝 예시

![partioning](./img/partioning-optimizer.jpg)

## RDD - 생성

https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

In [4]:
data = [1, 2, 3, 4, 5]

# parallelize(rdd로 만들 데이터, 파티셔닝 수)
distData = sc.parallelize(data,5)

# rdd 확인
# collect() : rdd에 있는 데이터를 list로 반환하는 함수
distData.collect()

# 파티셔닝 개수 확인
distData.getNumPartitions()

2022-09-05 10:57:54,590 INFO spark.SparkContext: Starting job: collect at /tmp/ipykernel_1767/603107683.py:8
2022-09-05 10:57:54,592 INFO scheduler.DAGScheduler: Got job 2 (collect at /tmp/ipykernel_1767/603107683.py:8) with 5 output partitions
2022-09-05 10:57:54,592 INFO scheduler.DAGScheduler: Final stage: ResultStage 2 (collect at /tmp/ipykernel_1767/603107683.py:8)
2022-09-05 10:57:54,592 INFO scheduler.DAGScheduler: Parents of final stage: List()
2022-09-05 10:57:54,592 INFO scheduler.DAGScheduler: Missing parents: List()
2022-09-05 10:57:54,593 INFO scheduler.DAGScheduler: Submitting ResultStage 2 (ParallelCollectionRDD[2] at readRDDFromFile at PythonRDD.scala:274), which has no missing parents
2022-09-05 10:57:54,596 INFO memory.MemoryStore: Block broadcast_2 stored as values in memory (estimated size 2.9 KiB, free 434.4 MiB)
2022-09-05 10:57:54,605 INFO memory.MemoryStore: Block broadcast_2_piece0 stored as bytes in memory (estimated size 1759.0 B, free 434.4 MiB)
2022-09-05 1

[1, 2, 3, 4, 5]

5

2022-09-05 11:09:24,210 INFO storage.BlockManagerInfo: Removed broadcast_2_piece0 on localhost:39971 in memory (size: 1759.0 B, free: 434.4 MiB)
2022-09-05 11:09:24,216 INFO storage.BlockManagerInfo: Removed broadcast_2_piece0 on localhost:40071 in memory (size: 1759.0 B, free: 434.4 MiB)
2022-09-05 11:09:24,217 INFO storage.BlockManagerInfo: Removed broadcast_2_piece0 on localhost:43931 in memory (size: 1759.0 B, free: 434.4 MiB)
2022-09-05 11:09:24,228 INFO storage.BlockManagerInfo: Removed broadcast_1_piece0 on localhost:39971 in memory (size: 1758.0 B, free: 434.4 MiB)
2022-09-05 11:09:24,231 INFO storage.BlockManagerInfo: Removed broadcast_1_piece0 on localhost:40071 in memory (size: 1758.0 B, free: 434.4 MiB)
2022-09-05 11:09:24,232 INFO storage.BlockManagerInfo: Removed broadcast_1_piece0 on localhost:43931 in memory (size: 1758.0 B, free: 434.4 MiB)


[1, 3, 5, 7, 9]

3

5

                                                                                      

['하명도 스파크 50',
 '홍길동 스파크 80',
 '임꺽정 스파크 60',
 '임요환 텐서플로우 100',
 '홍진호 텐서플로우 22',
 '홍진호 텐서플로우 22',
 '이윤열 텐서플로우 90']

22



                                                                                      

7