# 스파크 간단히 살펴보기

## 스파크의 기본 아키텍처
- 보통 한 대의 컴퓨터는 대규모 정보를 연산할 만한 자원이나 성능을 가지지 못함
  - 연산을 할 수 있다고 해도 완료하는데 너무 많은 시간이 걸림

- 컴퓨터 클러스터는 <strong>여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용</strong>할 수 있게 만듦

- 이 <strong>클러스터에서 작업을 조율</strong>할 수 있는 프레임워크가 필요 <strong>-> 스파크</strong>가 그런 역할을 하는 프레임워크

- 스파크가 연산에 사용할 클러스터는 <strong>클러스터 매니저</strong>에서 관리함
  - Standalone
  - 하둡 YARN
  - Mesos

- 작업 처리 과정
  1. 사용자는 클러스터 매니저에 스파크 애플리케이션을 제출(submit)함
  2. 이를 제출받은 클러스터 매니저는 애플리케이션 실행에 필요한 자원을 할당
  3. 할당받은 자원으로 작업 처리
  
<img src="https://t1.daumcdn.net/cfile/tistory/991779375DEA85D00B"/>

## 스파크 애플리케이션

<img src="https://t1.daumcdn.net/cfile/tistory/99916B495DEA927C01"/>

- 스파크 애플리케이션은 <strong>드라이버 프로세스</strong>와 다수의 <strong>익스큐터 프로세스</strong>로 구성
  - 드라이버 프로세스는 클러스터 노드 중 하나에서 실행되며, main()함수 실행
    - 스파크 언어 API를 통해 다양한 언어로 실행 가능
  - 익스큐터 프로세스는 스파크 코드를 실행

- 드라이버 프로세스의 역할
  - 스파크 애플리케이션의 심장 같은 존재로, 애플리케이션 수명 주기 동안 관련 정보를 모두 유지함
  - 사용자 프로그램이나 입력에 대한 응답
  - 전반적인 익스큐터 프로세스의 작업과 관련된 분석, 배포, 스케줄링
  
- 익스큐터 드라이버의 역할
  - 드라이버 프로세스가 할당한 작업을 수행
    - 즉, 할당한 코드를 실행하고, 
    - 진행 상황을 다시 드라이버 노드에 보고

## 스파크의 다양한 언어 API
- 스파크의 언어 API를 이용하면 다양한 프로그래밍 언어로 스파크 코드를 실행할 수 있다.
  - 스파크는 스칼라로 개발
  - 스파크 언어 API를 통해 클러스터 머신에서 실행되는 스파크 코드로 변환
  
- 스파크는 사용자를 대신해 <strong>파이썬이나 R로 작성한 코드를 익스큐터의 JVM에서 실행할 수 있는 코드로 변환함</strong>

## SparkSession
- 스파크 애플리케이션은 <strong>SparkSession이라 불리는 드라이버 프로세스로 제어</strong>한다.
- SparkSession 인스턴스는 사용자가 정의한 처리 명령을 클러스터에서 실행한다.
- 하나의 SparkSession은 하나의 스파크 애플리케이션에 대응한다.

In [0]:
#spark 변수로 SparkSession 사용 가능
spark

In [0]:
myRange = spark.range(1000).toDF('number')

In [0]:
display(myRange)

number
0
1
2
3
4
5
6
7
8
9


----------
- 위에서 생성한 DataFrame은 한 개의 column과 1000개의 row로 구성
- 각 row에는 0~999까지의 값이 할당<br>
  - 이 숫자들은 <strong>분산 컬렉션</strong>을 나타냄
  - 숫자 범위의 각 부분이 서로 다른 익스큐터에 할당됨
  - 이게 스파크의 DataFrame

## DataFrame

- 가장 대표적인 구조적 API
- 테이블의 데이터를 <strong>row와 column</strong>으로 단순하게 표현
- <strong>스키마</strong>: column과 column의 타입을 정의한 목록
- 수천 대의 컴퓨터에 분산되어 있음
  - 단일 컴퓨터에 저장하기엔 데이터가 너무 크거나 계산이 너무 오래 걸릴 수 있기에

### 파티션
- 스파크는 <strong>모든 익스큐터가 병렬로 작업을 수행</strong>할 수 있도록 파티션이라 불리는 청크 단위로 <strong>데이터를 분할</strong>함
- 파티션: 클러스터의 물리적 머신에 존재하는 로우의 집합
  - 만약 파티션이 하나라면 스파크에 수천 개의 익스큐터가 있더라도 병렬성은 1
  - 그리고 수백 개의 파티션이 있더라도 익스큐터가 하나라면 병렬성은 1
- DataFrame의 파티션은 실행 중에 데이터가 컴퓨터 클러스터에서 물리적으로 분산되는 방식
- DataFrame을 사용하면 파티션을 수동 혹은 개별적으로 처리할 필요가 없다.
  - 물리적 파티션에 데이터 변환용 함수를 지정하면 스파크가 실제 처리 방법을 결정한다.