# 스파크 애플리케이션에서 스파크 SQL 사용하기
SQL 쿼리를 실행하기 위해선 spark라고 선언된 SparkSession 인스턴스에서 spark.sql('SELECT * FROM myTableName')과 같은 sql() 함수를 사용한다.

## 기본 쿼리 예제
스키마를 사용하여 제공된 데이터를 데이터 프레임으로 읽고, 데이터 프레임을 임시 뷰로 등록하여 SQL로 쿼리할 수 있다.

In [1]:
from pyspark.sql import SparkSession
spark = (SparkSession
         .builder
         .appName('SparkSQLExampleApp')
         .getOrCreate())

23/09/07 14:25:22 WARN Utils: Your hostname, minseok-VirtualBox resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
23/09/07 14:25:22 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/07 14:25:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [5]:
# 데이터 세트 경로
csv_file = 'departuredelays.csv'

# 읽고 임시뷰를 생성
# 더 큰 파일의 경우 스키마를 지정해주도록 하자
'''스키마를 지정하고 싶다면
schema = "'date' STRING, 'delay' INT, 'distance' INT, 'origin' STRING, 'destination' STRING"
책에 나온대로 정확히 적었는데 에러발생
컬럼명에 따옴표를 제거하고 실행하면 에러가 발생하지 않았음
schema = "date STRING, delay INT, distance INT, origin STRING, destination STRING"
'''
# df = (spark.read.csv(csv_file, schema=schema))
df = (spark.read.format('csv')
      .option('inferSchema', 'true')
      .option('header', 'true')
      .load(csv_file))
df.createOrReplaceTempView('us_delay_flights_tbl')

                                                                                

임시뷰를 사용할 수 있고, 스파크 SQL을 사용하여 SQL쿼리를 실행할 수 있다. <br>
스파크 SQL은 ANSI:2003과 호환되는 SQL 인터페이스를 제공한다.

미국 항공편 운항 지연 데이터세트
- date 칼럼은 02-19 09:25 AM으로 매핑되는 02190925와 같은 문자열을 포함하고 있다.
- delay 칼럼은 계획된 도착시간과 실제 도착시간의 차이를 분으로 제공한다. 조기 도착의 경우 음수로 표기된다
- distance(비행거리) 칼럼은 마일 단위로 출발지와 도착지의 거리를 제공한다.
- origin(출발지) 칼럼은 출발지의 IATA 공항 코드가 포함된다.
- destination(도착지) 칼럼은 도착지의 IATA 공항 코드가 포함된다.

먼저 비행거리가 1,000마일 이상인 모든 항공편?

In [8]:
spark.sql("""SELECT distance, origin, destination
FROM us_delay_flights_tbl WHERE distance > 1000
ORDER BY distance DESC""").show(10)

                                                                                

+--------+------+-----------+
|distance|origin|destination|
+--------+------+-----------+
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
|    4330|   HNL|        JFK|
+--------+------+-----------+
only showing top 10 rows



가장 긴 비행은 호놀룰루(NHL)와 뉴욕(JFK)이었다. <br>
다음으로 샌프란시스코(SFO)와 시카고(ORD) 간 2시간 이상 지연이 있었던 모든 항공편을 찾아보자

In [10]:
spark.sql("""SELECT date, delay, origin, destination
FROM us_delay_flights_tbl 
WHERE delay > 120 AND ORIGIN = 'SFO' AND DESTINATION = 'ORD'
ORDER BY delay DESC""").show(10)



+-------+-----+------+-----------+
|   date|delay|origin|destination|
+-------+-----+------+-----------+
|2190925| 1638|   SFO|        ORD|
|1031755|  396|   SFO|        ORD|
|1022330|  326|   SFO|        ORD|
|1051205|  320|   SFO|        ORD|
|1190925|  297|   SFO|        ORD|
|2171115|  296|   SFO|        ORD|
|1071040|  279|   SFO|        ORD|
|1051550|  274|   SFO|        ORD|
|3120730|  266|   SFO|        ORD|
|1261104|  258|   SFO|        ORD|
+-------+-----+------+-----------+
only showing top 10 rows



                                                                                

이 두 도시간에 서로 다른 날짜에도 상당히 많은 지연 항공편이 있었던 것으로 보인다. <br>
연습으로 date 칼럼을 읽을 수 있는 포맷으로 변경하고, 가장 흔하게 지연이 발생한 날짜나 달을 찾아보라. 항공 지연이 겨울 또는 휴일과 관련된 것인가?

In [67]:
from pyspark.sql.functions import *
# df.withColumn('date', to_timestamp(col('date'), format = 'MddHHmm')).show()

# 오류 발생

In [48]:
df_adj = df.withColumn('date', concat(expr('0'), expr('date')))

In [57]:
df_adj_tmst = df_adj.withColumn('date', to_timestamp(col('date'), format = 'MMddHHmm'))
# format에 '월'을 MM으로 읽어야 했다.
# 따라서 0을 'date'컬럼에 맨 앞에 추가했음
# 책에 나온 데이터에는 0이 있었는데 다운받은 데이터에는 없네..

In [59]:
df_adj_mth = df_adj_tmst.withColumn('monthdate', month(col('date')))

In [60]:
df_adj_mth.createOrReplaceTempView('us_delay_flights_adj_tbl')

In [64]:
spark.sql("""SELECT date, COUNT(*) AS COUNT
FROM us_delay_flights_adj_tbl
WHERE delay > 0
GROUP BY date
ORDER BY COUNT DESC""").show(10)



+-------------------+-----+
|               date|COUNT|
+-------------------+-----+
|1970-01-06 06:00:00|  109|
|1970-01-04 06:00:00|  109|
|1970-01-06 07:00:00|  105|
|1970-01-04 07:00:00|  101|
|1970-01-02 07:00:00|   94|
|1970-01-08 07:00:00|   93|
|1970-01-05 06:00:00|   93|
|1970-01-02 06:00:00|   93|
|1970-01-07 07:00:00|   89|
|1970-03-04 06:00:00|   84|
+-------------------+-----+
only showing top 10 rows



                                                                                

In [65]:
spark.sql("""SELECT monthdate, COUNT(*) AS COUNT
FROM us_delay_flights_adj_tbl
WHERE delay > 0
GROUP BY monthdate
ORDER BY COUNT DESC""").show(10)



+---------+------+
|monthdate| COUNT|
+---------+------+
|        1|208606|
|        3|201046|
|        2|182075|
+---------+------+



                                                                                

SQL의 CASE 절을 사용하는 좀 더 복잡한 쿼리를 시도해보자.

In [66]:
spark.sql("""SELECT delay, origin, destination,
            CASE
                WHEN delay > 360 THEN 'Very Long Delays'
                WHEN delay >= 120 AND delay <= 360 THEN 'Long Delays'
                WHEN delay >= 60 AND delay <= 120 THEN 'Short Delays'
                WHEN delay >= 0 AND delay <= 60 THEN 'Tolerable Delays'
                WHEN delay = 0 THEN 'No Delays'
                ELSE 'Early'
            END AS Flight_Delays
            FROM us_delay_flights_tbl
            ORDER BY origin, delay DESC""").show(10)



+-----+------+-----------+-------------+
|delay|origin|destination|Flight_Delays|
+-----+------+-----------+-------------+
|  333|   ABE|        ATL|  Long Delays|
|  305|   ABE|        ATL|  Long Delays|
|  275|   ABE|        ATL|  Long Delays|
|  257|   ABE|        ATL|  Long Delays|
|  247|   ABE|        DTW|  Long Delays|
|  247|   ABE|        ATL|  Long Delays|
|  219|   ABE|        ORD|  Long Delays|
|  211|   ABE|        ATL|  Long Delays|
|  197|   ABE|        DTW|  Long Delays|
|  192|   ABE|        ORD|  Long Delays|
+-----+------+-----------+-------------+
only showing top 10 rows



                                                                                

spark.sql 인터페이스를 사용하면 3장에서 알아본 것과 같은 일반적인 데이터 분석 작업을 수행할 수 있다.

# SQL 테이블과 뷰
스파크는 각 테이블과 해당 데이터에 관련된 정보인 스키마, 설명, 테이블명, 데이터베이스명, 칼럼명, 파티션, 실제 데이터의 물리적 위치 등의 메타데이터를 가지고 있다.(다른 데이터를 정의하고 기술하는 데이터)

## 관리형 테이블과 비관리형 테이블
스파크는 관리형(managed)과 비관리형(unmanaged)이라는 두 가지 유형의 테이블을 만들 수 있다.

- 관리형 테이블의 경우 스파크는 메타데이터와 파일 저장소의 데이터를 모두 관리한다. 때문에 DROP TABLE <테이블명>과 같은 SQL명령은 메타데이터와 실제 데이터를 모두 삭제한다.
- 비관리형 테이블의 경우에는 오직 메타데이터만 관리하고 카산드라와 같은 외부 데이터 소스에서 테이블을 직접 관리한다.

## SQL 데이터베이스와 테이블 생성하기
테이블은 데이터베이스 안에 존재한다. 기본적으로 스파크는 default 데이터베이스 안에 테이블을 생성한다.

In [3]:
# 데이터베이스 생성
spark.sql('CREATE DATABASE learn_spark_db')
# 스파크에게 해당 데이터베이스를 사용하겠다고 알려주기
spark.sql('USE learn_spark_db')

DataFrame[]

이 시점부터는 애플리케이션에 실행되는 어떠한 명령어든 learn_spark_db 데이터베이스 안에서 생성되고 상주하게 된다.

### 관리형 테이블 생성하기

In [5]:
# spark.sql('CREATE TABLE managed_us_delay_flights_tbl (date STRING, delay INT, distance INT, \
# origin STRING, destination STRING)')

# 에러발생
# Hive support is required to CREATE Hive TABLE (AS SELECT).;
# 'CreateTable `spark_catalog`.`learn_spark_db`.`managed_us_delay_flights_tbl`, 
# org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, ErrorIfExists

In [1]:
from pyspark.sql import SparkSession

spark = (SparkSession
  .builder
  .appName("Hive External Table")
  .enableHiveSupport() # 에러 해결
  .getOrCreate())

23/09/07 14:27:57 WARN Utils: Your hostname, minseok-VirtualBox resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
23/09/07 14:27:57 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/07 14:27:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
# 데이터베이스 새로 생성
spark.sql('CREATE DATABASE learn_spark_hive_solve_db')
# 스파크에게 해당 데이터베이스를 사용하겠다고 알려주기
spark.sql('USE learn_spark_hive_solve_db')

23/09/07 14:28:57 WARN ObjectStore: Failed to get database learn_spark_hive_solve_db, returning NoSuchObjectException
23/09/07 14:28:57 WARN ObjectStore: Failed to get database learn_spark_hive_solve_db, returning NoSuchObjectException
23/09/07 14:28:57 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
23/09/07 14:28:57 WARN ObjectStore: Failed to get database learn_spark_hive_solve_db, returning NoSuchObjectException


DataFrame[]

CREATE TABLE로 생성

In [4]:
spark.sql('CREATE TABLE managed_us_delay_flights_tbl (date STRING, delay INT, distance INT, \
origin STRING, destination STRING)')

23/09/07 14:29:11 WARN ResolveSessionCatalog: A Hive serde table will be created as there is no table provider specified. You can set spark.sql.legacy.createHiveTableByDefault to false so that native data source table will be created instead.
23/09/07 14:29:11 WARN SessionState: METASTORE_FILTER_HOOK will be ignored, since hive.security.authorization.manager is set to instance of HiveAuthorizerFactory.
23/09/07 14:29:12 WARN HiveConf: HiveConf of name hive.internal.ss.authz.settings.applied.marker does not exist
23/09/07 14:29:12 WARN HiveConf: HiveConf of name hive.stats.jdbc.timeout does not exist
23/09/07 14:29:12 WARN HiveConf: HiveConf of name hive.stats.retries.wait does not exist
23/09/07 14:29:12 WARN HiveMetaStore: Location: file:/home/minseok/spark-3.4.1-bin-hadoop3/python/Learning_Spark/Chapter4/spark-warehouse/learn_spark_hive_solve_db.db/managed_us_delay_flights_tbl specified for non-external table:managed_us_delay_flights_tbl


DataFrame[]

또한 데이터 프레임 API를 아래와 같이 사용하여 같은 명령을 수행할 수 있다.

In [7]:
# 미국 항공편 지연 csv 파일 경로
csv_file = 'departuredelays.csv'
# 앞에서 정의한 스키마
schema = "date STRING, delay INT, distance INT, origin STRING, destination STRING"
flights_df = spark.read.csv(csv_file, schema = schema)
flights_df.write.saveAsTable('managed_us_delay_flights_tbl_2')

# 위 cell과 테이블이름이 같으면 에러난다.

                                                                                

### 비관리형 테이블 생성하기
스파크 애플리케이션에서 접근 가능한 파일 저장소에 있는 파케이, csv, 및 JSON 파일 포맷의 데이터 소스로부터 비관리형 테이블을 생성할 수 있다.

CREATE TABLE로 생성

In [8]:
spark.sql("""
CREATE TABLE unmanaged_us_delay_flights_tbl (
    date STRING,
    delay INT,
    distance INT,
    origin STRING, 
    destination STRING
)
USING csv OPTIONS (PATH 'depardeparturedelays.csv')
""")

23/09/07 14:45:30 WARN HadoopFSUtils: The directory file:/home/minseok/spark-3.4.1-bin-hadoop3/python/Learning_Spark/Chapter4/depardeparturedelays.csv was not found. Was it deleted very recently?
23/09/07 14:45:30 WARN HiveExternalCatalog: Couldn't find corresponding Hive SerDe for data source provider csv. Persisting data source table `spark_catalog`.`learn_spark_hive_solve_db`.`unmanaged_us_delay_flights_tbl` into Hive metastore in Spark SQL specific format, which is NOT compatible with Hive.


DataFrame[]

데이터 프레임 API에서는 다음과 같은 명령어를 사용한다.

In [9]:
(flights_df
 .write
 .option('path', '/tmp/data/us_flights_delay')
 .saveAsTable("unmanaged_us_delay_flights_tbl_2"))

                                                                                

## 뷰 생성하기
뷰를 생성한 후에는 테이블처럼 쿼리할 수 있다. 뷰는 테이블과 달리 실제로 데이터를 소유하지 않기 때문에 스파크 애플리케이션이 종료되면 테이블은 유지되지만 뷰는 사라진다. <br>
미국 비행 지연 데이터에서 뉴욕(JFK) 및 샌프란시스코(SFO)가 출발지인 공항이 있는 하위 데이터세트에 대해서만 작업하려는 경우 다음 쿼리는 해당 테이블의 일부로 전역 임시 뷰 및 일반 임시 뷰를 생성한다. <br>
임시 뷰는 스파크 애플리케이션 내의 단일 SparkSession에 연결된다. 반면에 전역 임시 뷰는 스파크 애플리케이션 내의 여러 SparkSession에서 볼 수 있다.

In [None]:
'''SQL 쿼리
CREATE OR REPLACE GLOBAL TEMP VIEW us_origin_airport_SFO_global_tmp_view AS
    SELECT date, delay, origin, destination FROM us_delay_flights_tbl
    WHERE origin = 'SFO';

CREATE OR REPLACE TEMP VIEW us_origin_airport_JFK_tmp_view AS
    SELECT date, delay, origin, destination FROM us_delay_flights_tbl
    WHERE origin = 'JFK';
'''

다음과 같은 데이터 프레임 API를 통해 같은 결과를 도출할 수 있다.

In [15]:
df_sfo = spark.sql("SELECT date, delay, origin, destination \
FROM us_delay_flights_tbl WHERE origin = 'SFO'")
    
df_jfk = spark.sql("SELECT date, delay, origin, destination \
FROM us_delay_flights_tbl WHERE origin = 'JFK'")

# 임시 뷰와 전역 임시 뷰 생성
df_sfo.createOrReplaceGlobalTempView('us_origin_airport_SFO_global_tmp_view')
df_jfk.createOrReplaceTempView('us_origin_airport_JFK_tmp_view')

스파크는 global_temp라는 전역 임시 데이터베이스에 전역 임시 뷰를 생성하므로 해당 뷰에 액세스할 때는 global_temp.`<view_name>` 접두사를 사용해야 한다.

In [13]:
'''SQL 쿼리
SELECT * FROM global_temp.us_origin_airport_SFO_global_tmp_view
'''

반면에 일반 임시 뷰는 global_temp 접두사 없이 접근할 수 있다.

In [None]:
'''SQL 쿼리
SELECT * FROM us_origin_airport_JFK_tmp_view
'''

In [16]:
spark.read.table('us_origin_airport_JFK_tmp_view')
# 또는
# spark.sql('SELECT * us_origin_airport_JFK_tmp_view')

DataFrame[date: int, delay: int, origin: string, destination: string]

또한 테이블처럼 뷰도 드롭할 수 있다.

In [None]:
'''SQL 쿼리
DROP VIEW IF EXISTS us_origin_airport_SFO_global_tmp_view;
DROP VIEW IF EXISTS us_origin_airport_JFK_tmp_view;
'''

In [17]:
spark.catalog.dropGlobalTempView('us_origin_airport_SFO_global_tmp_view')
spark.catalog.dropTempView('us_origin_airport_JFK_tmp_view')

True

## 메타데이터 보기
메타데이터는 스파크 SQL의 상위 추상화 모듈인 카탈로그에 저장된다.<br>
다음과 같은 함수를 통해 저장된 모든 메타데이터에 엑세스할 수 있다.

In [18]:
spark.catalog.listDatabases()

[Database(name='default', catalog='spark_catalog', description='Default Hive database', locationUri='file:/home/minseok/spark-3.4.1-bin-hadoop3/python/Learning_Spark/Chapter4/spark-warehouse'),
 Database(name='learn_spark_db', catalog='spark_catalog', description='', locationUri='file:/home/minseok/spark-3.4.1-bin-hadoop3/python/Learning_Spark/Chapter4/spark-warehouse/learn_spark_db.db'),
 Database(name='learn_spark_hive_solve_db', catalog='spark_catalog', description='', locationUri='file:/home/minseok/spark-3.4.1-bin-hadoop3/python/Learning_Spark/Chapter4/spark-warehouse/learn_spark_hive_solve_db.db')]

In [19]:
spark.catalog.listTables()

[Table(name='managed_us_delay_flights_tbl', catalog='spark_catalog', namespace=['learn_spark_hive_solve_db'], description=None, tableType='MANAGED', isTemporary=False),
 Table(name='managed_us_delay_flights_tbl_2', catalog='spark_catalog', namespace=['learn_spark_hive_solve_db'], description=None, tableType='MANAGED', isTemporary=False),
 Table(name='unmanaged_us_delay_flights_tbl', catalog='spark_catalog', namespace=['learn_spark_hive_solve_db'], description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='unmanaged_us_delay_flights_tbl_2', catalog='spark_catalog', namespace=['learn_spark_hive_solve_db'], description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='us_delay_flights_tbl', catalog=None, namespace=[], description=None, tableType='TEMPORARY', isTemporary=True),
 Table(name='us_origin_airport_JFK_global_tmp_view', catalog=None, namespace=[], description=None, tableType='TEMPORARY', isTemporary=True)]

In [20]:
spark.catalog.listColumns('us_delay_flights_tbl')

[Column(name='date', description=None, dataType='int', nullable=True, isPartition=False, isBucket=False),
 Column(name='delay', description=None, dataType='int', nullable=True, isPartition=False, isBucket=False),
 Column(name='distance', description=None, dataType='int', nullable=True, isPartition=False, isBucket=False),
 Column(name='origin', description=None, dataType='string', nullable=True, isPartition=False, isBucket=False),
 Column(name='destination', description=None, dataType='string', nullable=True, isPartition=False, isBucket=False)]

### 테이블을 데이터 프레임으로 읽기
SQL을 사용하여 테이블을 쿼리하고 반환된 결과를 데이터 프레임에 저장할 수 있다.

In [22]:
us_flights_df = spark.sql('SELECT * FROM us_delay_flights_tbl')
us_flights_df

DataFrame[date: int, delay: int, distance: int, origin: string, destination: string]

In [23]:
us_flights_df2 = spark.table('us_delay_flights_tbl')
us_flights_df2

DataFrame[date: int, delay: int, distance: int, origin: string, destination: string]

# 데이터 프레임 및 SQL 테이블을 위한 데이터 소스

## DataFrameReader
데이터 소스에서 데이터 프레임으로 데이터를 읽기 위한 핵심 구조 <br>
정의된 형식과 권장되는 사용 패턴이 있다.
> DataFrameReader.format(args).option('key', 'value').schema(args).load()

오직 SparkSession 인스턴스를 통해서만 DataFrameReader에 엑세스할 수 있다. <br>
인스턴스 핸들을 얻기 위해서는 다음을 사용해라
>SparkSession.read (정적 데이터 소스에서 DataFrame으로 읽기 위해 DataFrameReader에 대한 핸들을 반환)<br>
>또는 <br>
>SparkSession.readStream (스트리밍 소스에서 읽을 인스턴스를 반환 -> 정형화 스트리밍 파트)

DataFrameReader 함수,인수 및 옵션
|함수|인수|설명|
|-|-|-|
|format()|'parquet','csv','txt','json','jdbc','orc','avro' 등|이 함수를 지정하지 않으면 기본값은 파케이 또는 spark.sql.sources.default에 지정된 항목으로 설정된다.|
|option()|('mode','PERMISSIVE / FAILFAST / DROPMALFORMED') ('inferSchema', 'true / false') ('path','path_file_data_source')|일련의 키/값 쌍 및 옵션이다. 기본 모드는 PERMISSIVE이다. 'inferSchema' 및 'mode' 옵션은 JSON 및 CSV파일 형식에만 적용된다.|
|schema()|DDL 문자열 또는 StructType|JSON 및 CSV 형식의 경우 option() 함수에서 스키마를 유추하도록 지정할 수 있다.('inferSchema')|
|load()|'/path/to/data/source'|데이터 소스의 경로이다. option('path','...')에 지정된 경우 비워둘 수 있다.|

## DataFrmaeWriter
DataFrameWriter는 DataFrameReader와 달리 SparkSession이 아닌 저장하려는 데이터 프레임에서 인스턴스에 액세스가 가능하다. 권장되는 사용 형식은 다음과 같다
> DataFrameWriter.format(args) <br>
> .option(args) <br>
> .bucketBy(args) <br>
> .partitionBy(args) <br>
> .save(path)
>
> DataFrameWriter.format(args).option(args).sortBy(args).saveAsTable(table)

인스턴스 핸들을 얻기 위해서는 다음을 사용해라
> DataFrame.write
> 또는
> DataFrame.writeStream

DataFrameWriter 함수,인수 및 옵션
|함수|인수|설명|
|-|-|-|
|format()|'parquet','csv','txt','json','jdbc','orc','avro' 등|이 함수를 지정하지 않으면 기본값은 파케이 또는 spark.sql.sources.default에 지정된 항목으로 설정된다.|
|option()|('mode','append / overwrite / ignore / error or errorifexists') ('mode', 'SaveMode.Overwrite / SaveMode.Append, SaveMode.Ignore, SaveMode.ErrorIfExists') ('path','path_to_write_to')|일련의 키/값 쌍 및 옵션이다. 기본 모드 옵션은 error 또는 errorifexists와 SaveMode이다. ErrorIfExists는 데이터가 이미 있는 경우 런타임에서 예외를 발생시킨다.|
|bucketBy()|(numBuckets, col, col..., coln)|버킷 개수 및 버킷 기준 칼럼 이름이다. 파일 시스템에서 하이브의 버킷팅 체계를 사용한다.|
|save()|'/path/to/data/source'|데이터 소스의 경로이다. option('path','...')에 지정된 경우 비워둘 수 있다.|
|saveAsTable()|'table_name'|저장할 테이블이다.|

## 파케이
일반적으로 정적 파케이 데이터 소스에서 읽을 때는 스키마가 필요하지 않다. 파케이 메타데이터는 보통 스키마를 포함하므로 스파크에서 스키마를 파악할 수 있다. 그러나 스트리밍 데이터 소스의 경우에는 스키마를 제공해야 한다.

### 파케이 파일을 데이터 프레임으로 읽기

In [26]:
file = """../Chapter3/파케이저장연습/"""
df = spark.read.format('parquet').load(file)
# 파일이 위치한 폴더를 경로로 지정해야 하네
df

DataFrame[CalNumber: int, UnitID: string, IncidentNumber: int, CallType: string, CallDate: string, WatchDate: string, CallFinalDisposition: string, AvailableDtTm: string, Address: string, City: string, Zipcode: int, Battalion: string, StationArea: string, Box: string, OriginalPriority: string, Priority: string, FinalPriority: int, ALSUnit: boolean, CallTypeGroup: string, NumAlarms: int, UnitType: string, UnitSequenceCallDispatch: int, FirePreventionDistrict: string, SupervisorDistrict: string, Neighborhood: string, Location: string, RowID: string, Delay: float]

### 파케이 파일을 Spark SQL 테이블로 읽기
파케이 파일을 데이터 프레임으로 읽을 뿐만 아니라 스파크 SQL 비관리형 테이블 또는 뷰를 직접 만들 수도 있다.

In [28]:
"""SQL 예제
CREATE OR REPLACE TEMPORARY VIEW us_delay_flights_tbl
    USING parquet
    OPTIONS (
        path "../Chapter3/파케이저장연습/" ) """

In [29]:
spark.sql('SELECT * FROM us_delay_flights_tbl').show()

+-------+-----+--------+------+-----------+
|   date|delay|distance|origin|destination|
+-------+-----+--------+------+-----------+
|1011245|    6|     602|   ABE|        ATL|
|1020600|   -8|     369|   ABE|        DTW|
|1021245|   -2|     602|   ABE|        ATL|
|1020605|   -4|     602|   ABE|        ATL|
|1031245|   -4|     602|   ABE|        ATL|
|1030605|    0|     602|   ABE|        ATL|
|1041243|   10|     602|   ABE|        ATL|
|1040605|   28|     602|   ABE|        ATL|
|1051245|   88|     602|   ABE|        ATL|
|1050605|    9|     602|   ABE|        ATL|
|1061215|   -6|     602|   ABE|        ATL|
|1061725|   69|     602|   ABE|        ATL|
|1061230|    0|     369|   ABE|        DTW|
|1060625|   -3|     602|   ABE|        ATL|
|1070600|    0|     369|   ABE|        DTW|
|1071725|    0|     602|   ABE|        ATL|
|1071230|    0|     369|   ABE|        DTW|
|1070625|    0|     602|   ABE|        ATL|
|1071219|    0|     569|   ABE|        ORD|
|1080600|    0|     369|   ABE| 

### 데이터 프레임을 파케이 파일로 쓰기

In [30]:
(df.write.format('parquet')
 .mode('overwrite')
 .option('compression', 'snappy')
 .save('/tmp/data/parquet/df_parquet'))

23/09/07 16:43:20 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
                                                                                

이렇게 하면 지정된 경로에 압축된 파케이 파일 집합이 생성된다. 압축 방ㅅ익으로 snappy를 사용했으므로 snappy 압축 파일이 생성될 것이다.

### 스파크 SQL 테이블에 데이터 프레임 쓰기

In [32]:
(df.write
 .mode('overwrite')
 .saveAsTable('us_delay_flights_tbl'))
# 'us_delay_flights_tbl'이라는 관리형 테이블이 생성

                                                                                

### JSON, CSV, 에이브로, ORC, 이미지, 이진 파일
파케이와 비슷하다.