# Dataset
- Dataset은 구조적 API의 기본 데이터 타입
  - DataFrame은 Row 타입의 Dataset

- Dataset은 자바 가상 머신을 사용하는 언어인 <strong>스칼라와 자바</strong>에선만 사용 가능

- 도메인별 특정 객체를 효과적으로 지원하기 위해서는 <strong>인코더(encoder)</strong>의 개념이 필요
  - 스칼라에서는 <strong>스키마가 정의된 케이스 클래스 객체</strong>를 사용해 Dataset 정의
  - 자바에서는 <strong>자바빈객체</strong>를 사용해 Dataset 정의

- 인코더: 도메인별 특정 객체를 스파크의 내부 데이터 타입으로 매핑하는 시스템
  - Dataset API 사용 시 스파크는 데이터셋에 접근할 때마다 <strong>사용자 정의 데이터 타입</strong>으로 변환
    - 이 변환 작업은 느림
    - 하지만 더 많은 유연성 제공

## Dataset을 사용할 시기
- Dataset을 사용해야 하는 두 가지 이유
  - DataFrame 기능만으로는 수행할 연산을 표현할 수 없는 경우
  - 성능 저하를 감수하더라도 타입 안정성(type-safe)을 가진 데이터 타입을 사용하고 싶은 경우

- 단일 노드의 워크로드와 스파크 워크로드에서 전체 로우에 대한 다양한 트랜스포메이션을 사용하려면 Dataset이 적합
  - 케이스 클래스로 구현된 데이터 타입을 사용해 모든 데이터와 트랜스포메이션을 정의하면 재사용 가능

## Dataset 생성
- Dataset을 생성하는 것은 수동 작업이므로 정의할 스키마를 미리 알아야함

### 자바: Encoders
- 데이터 타입 클래스를 정의하고 DataFrame에 지정해 인코딩

In [0]:
import org.apache.spark.sql.Encoders;

public class Flight implements Serializable{
  String DEST_COUNTRY_NAME;
  String ORIGIN_COUNTRY_NAME;
  Long DEST_COUNTRY_NAME;
}

In [0]:
Dataset<Flight> flights = spark.read.parquet('/FileStore/tables/2010_summary.parquet/').as(Encoders.bean(Flight.class))

### 스칼라: 케이스 클래스
- 스칼라에서 Dataset을 생성하려면 스칼라 case class 구문을 사용해 데이터 타입을 정의해야함

- 케이스 클래스는 다음과 같은 특징을 가진 정규 클래스임
  - 불변성
    - 객체들이 언제 어디서 변경되었는지 추적할 필요 없음
    
  - 패턴 매칭으로 분해 가능
    - 로직 분기를 단순화해 버그를 줄이고 가독성을 좋게 만듦
    
  - 참조값 대신 클래스 구조를 기반으로 비교
    - 값으로 비교하면 인스턴스를 마치 원시 데이터 타입의 값처럼 비교함
    - 따라서 클래스 인스턴스가 값으로 비교되는지, 참조로 비교되는지 더는 불확실하지 않게됨
    
  - 사용하기 쉽고 다루기 편함

In [0]:
#레코드를 표현할 case class 정의(Flight 데이터 타입의 Dataset)
case class Flight(DEST_COUNTRY_NAME:String, ORIGIN_COUNTRY_NAME: String, count: BigInt)

In [0]:
#데이터를 읽어야 DataFrame이 반환
val flightsDF = spark.read.parquet('/FileStore/tables/2010_summary.parquet/')

#as 메서드로 Flight 데이터 타입으로 변환
val flights = flightsDF.as[Flight]