# 10장. 스파크SQL

- SQL 구조적 질의 언어 : 데이터에 대한 관계형 연산을 표현하기 위한 도메인 특화 언어

#### 빅데이터와 SQL : 아파치 하이브
- 스파크가 등장하기 전에는 하이브가 빅데이터SQL 접근계층에서 사실상 표준
- 하둡을 다양한 산업군으로 진출시키는데 큰 역할을 함

#### 빅데이터와 SQL : 스파크SQL
- ANSI-SQL과 HiveQL을 모두 지원
- 쓰리프트서버(JDBC ODBC :관계형데이터베이스 표준 접속 프로토콜)나 SQL인터페이스에 접속해 스파크 연산 능력활용 가능
    - 통합API 덕분에 데이터를 DataFrame으로 변환
    - 스파크 MLlib이 제공하는 대규모 머신러닝 알고리즘 수행
    - 결과를 다른 데이터소스에 저장

##### 스파크와 하이브의 관계
- 스파크SQL은 조회할 파일 수를 최소화하기 위해 하이브 메타스토어를 사용

## 10.1 스파크SQL 쿼리 실행 방법
#### 스파크SQL CLI
- ./bin/spark-sql  : CLI형태의 SQL이 실행됨
-  CLI는 쓰리프트서버와 통신 불가능
    
#### 스파크 프로그래밍 SQL인터페이스 
- SparkSession의 sql 메서드를 활용
- 다른 트랜스포메이션과 마찬가지로 지연 처리됨

In [1]:
spark.read.json("file:///home/ubuntu/ybigta/Dataset_spark/data/flight-data/json/2015-summary.json")\
        .createOrReplaceTempView("some_sql_view")
spark.sql("""
SELECT DEST_COUNTRY_NAME, sum(count) FROM some_sql_view GROUP BY DEST_COUNTRY_NAME
""").where("DEST_COUNTRY_NAME like 'S%'").where("`sum(count)` > 10")\
.show()

+--------------------+----------+
|   DEST_COUNTRY_NAME|sum(count)|
+--------------------+----------+
|             Senegal|        40|
|              Sweden|       118|
|               Spain|       420|
|    Saint Barthelemy|        39|
|Saint Kitts and N...|       139|
|         South Korea|      1048|
|        Sint Maarten|       325|
|        Saudi Arabia|        83|
|         Switzerland|       294|
|         Saint Lucia|       123|
|               Samoa|        25|
|        South Africa|        36|
+--------------------+----------+



#### 스파크SQL 쓰리프트 JDBC / ODBC 서버
- 하이브1.2.1 버전의 beeline스크립트 혹은 스파크로 테스트해볼 수 있다.
    - JDBC / ODBC 서버 시작
        - 기본적으로 localhost:10000 주소를 사용함
        - ./sbin/start-thriftserver.sh
    - 접속
        - ./bin/beeline
        - beeline> !connect jdbc:hive2://localhost:10000

## 10.2 카탈로그
- 테이블에 저장된 데이터에 대한 메타데이터, 데이터베이스, 테이블, 함수, 뷰에 관한 정보를 추상화

## 10.3 테이블
#### 관리형테이블과 외부테이블
- 관리형테이블
    - 테이블의 데이터와 테이블에 대한 데이터(메타데이터) 모두 추적하는 테이블
    - saveAsTable 메서드로 관리형 테이블 생성 가능 > 하이브의 기본 웨어하우스 경로(/user/hive/warehouse)에 저장

- 외부테이블 
    - 테이블의 메타데이터를 관리, 테이블의 데이터는 스파크에서 관리하지 않음
    - 디스크에 저장된 파일을 이용해 테이블을 정의하면 외부테이블을 작성하는것!!

#### 테이블의 생성
- 다양한 데이터소스를 활용해 테이블을 생성할 수 있다.
- comment도 달수 있다.
- USING을 이용하지 않으면 스파크는 기본적으로 하이브SerDe 설정을 사용하는데 이는 매우 느림...

In [8]:
spark.sql("""
CREATE TABLE IF NOT EXISTS flights (DEST_COUNTRY_NAME STRING COMMENT 'we can set comment of column', ORIGIN_COUNTRY_NAME STRING, count LONG)
USING JSON OPTIONS (path 'file:///home/ubuntu/ybigta/Dataset_spark/data/flight-data/json/2015-summary.json')
""")

DataFrame[]

- SELECT 쿼리를 이용해 테이블을 생성할 수 있다.

In [9]:
# USING을 이용해 포맷을 지정하지 않아 하이브 호환 테이블을 만듬
spark.sql("""CREATE TABLE IF NOT EXISTS flights_from_select USING parquet AS SELECT * FROM flights""")

DataFrame[]

- 파티셔닝된 데이터셋을 저장해 데이터 레이아웃을 제어할 수 있다.

In [10]:
spark.sql("""
CREATE TABLE partitioned_flights USING parquet PARTITIONED BY (DEST_COUNTRY_NAME) AS 
SELECT DEST_COUNTRY_NAME, ORIGIN_COUNTRY_NAME, count FROM flights LIMIT 5""")

++
||
++
++



#### 외부테이블 생성하기
- 스파크는 외부테이블의 메타데이터를 관리
- CREATE EXTERNAL TABLE

In [11]:
spark.sql("""
CREATE EXTERNAL TABLE hive_flights (DEST_COUNTRY_NAME STRING COMMENT 'we can set comment of column', ORIGIN_COUNTRY_NAME STRING, count LONG)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION 'file:///home/ubuntu/ybigta/Dataset_spark/data/flight-data-hive/'""")

++
||
++
++



- SELECT 쿼리를 이용해 외부테이블 생성

In [12]:
spark.sql("""
CREATE EXTERNAL TABLE hive_flights_2 ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION 'file:///home/ubuntu/ybigta/Dataset_spark/data/flight-data-hive/' AS SELECT * FROM flights""")

++
||
++
++



#### 테이블에 데이터 삽입하기
- 표준 SQL문법을 따름 
- INSERT 문법

In [14]:
# flights_from_select 테이블에 flights테이블의 20개의 데이터를 삽입
spark.sql("""
INSERT INTO flights_from_select SELECT DEST_COUNTRY_NAME, ORIGIN_COUNTRY_NAME, count FROM flights LIMIT 20""")

DataFrame[]

- 특정 파티션에만 저장할 경우 파티션 명세를 추가하면됨
- 쓰기연산은 파티셔닝 스키마에 맞게 데이터를 저장
- PARTITION (조건) 구문 사용

In [15]:
spark.sql("""
INSERT INTO partitioned_flights
PARTITION (DEST_COUNTRY_NAME='UNITED STATES') 
SELECT count, ORIGIN_COUNTRY_NAME FROM flights 
WHERE DEST_COUNTRY_NAME='UNITED STATES' LIMIT 12""")

DataFrame[]

#### 테이블의 메타데이터 확인하기
- DESCRIBE 구문은 메타데이터 정보를 반환

In [20]:
spark.sql("""
DESCRIBE TABLE flights""").show()

+-------------------+---------+-------+
|           col_name|data_type|comment|
+-------------------+---------+-------+
|  DEST_COUNTRY_NAME|   string|   null|
|ORIGIN_COUNTRY_NAME|   string|   null|
|              count|   bigint|   null|
+-------------------+---------+-------+



- SHOW PARTITIONS 로 파티셔닝 스키마 정보를 볼수 있음

In [23]:
spark.sql("""
SHOW PARTITIONS partitioned_flights""").show(3, False)

+-------------------------------+
|partition                      |
+-------------------------------+
|DEST_COUNTRY_NAME=Egypt        |
|DEST_COUNTRY_NAME=United States|
+-------------------------------+



#### 테이블 메타데이터 갱신하기
- 가장 최신의 데이터셋을 읽고 있다는 것을 보장할 수 있는 중요한 작업!!!
- REFRESH TABLE 구문으로 캐싱된 모든 항목을 갱신

In [24]:
spark.sql("""
REFRESH TABLE partitioned_flights""")

DataFrame[]

- 카탈로그에서 관리하는 테이블의 파티션 정보를 새로 고치는 REPAIR TABLE
- 새로운 파티션 정보를 수집하는데 초점

In [25]:
spark.sql("""
MSCK REPAIR TABLE partitioned_flights""")

DataFrame[]

#### 테이블 제거하기
- 테이블은 DELETE가 아니라 DROP 가능

In [28]:
spark.sql("""
DROP TABLE IF EXISTS flights_csv""")

DataFrame[]

- 외부테이블을 제거하면 데이터 삭제는 이뤄지지 않지만 더이상 검색 불가능

#### 테이블 캐싱하기

In [29]:
#캐싱
spark.sql("""
CACHE TABLE flights""")
# 캐싱제거
spark.sql("""
UNCACHE TABLE flights""")

DataFrame[]

## 10.4 뷰 VIEW
- 뷰는 단순 쿼리 실행 계획
- 쿼리로직을 체계화, 재사용하기 편하게 만들 수 있음
- 뷰는 실질적으로 트랜스포메이션이며 스파크는 쿼리가 실행될 때만 뷰에 정의된 트랜스포메이션을 수행
- 뷰는 테이블처럼 쓸수 있음
    - 전역 뷰
    - 세션별 뷰

#### 뷰 생성하기
- 데이터를 저장하는 것이 아니라 쿼리시점에 트랜스포메이션(filter, select, groupby rollup)을 수행
- CREATE VIEW

In [30]:
spark.sql("""
CREATE VIEW just_usa_view AS SELECT * FROM flights WHERE dest_country_name = 'United States'""")

DataFrame[]

- 임시 뷰: 테이블과 달리 데이터베이스에 등록되지 않고 현재 세션에서만 사용할 수 있음
- CREATE TEMP VIEW

In [31]:
spark.sql("""
CREATE TEMP VIEW just_usa_view AS SELECT * FROM flights WHERE dest_country_name = 'United States'""")

DataFrame[]

- 전역적 임시 뷰 : 데이터베이스에 상관없이 사용할 수 있어 전체 스파크 애플리케이션에서 볼 수 있다.
- CREATE GLOBAL TEMP VIEW

In [35]:
# spark.sql("""
# CREATE GLOBAL TEMP VIEW just_usa_view AS
# SELECT * FROM flights WHERE dest_country_name = 'United States'""")

spark.sql("""
SHOW TABLES""").show()

+--------+-------------------+-----------+
|database|          tableName|isTemporary|
+--------+-------------------+-----------+
| default|            flights|      false|
| default|flights_from_select|      false|
| default|       hive_flights|      false|
| default|     hive_flights_2|      false|
| default|      just_usa_view|      false|
| default|partitioned_flights|      false|
|        |      just_usa_view|       true|
|        |      some_sql_view|       true|
+--------+-------------------+-----------+



- 뷰 덮어 쓰기!
- CREATE OR REPLACE TEMP VIEW

In [36]:
spark.sql("""
CREATE OR REPLACE TEMP VIEW just_usa_view AS
SELECT * FROM flights WHERE dest_country_name = 'United States'""")

DataFrame[]

- EXPLAIN 구문으로 물리적 실행계획을 확인 할 수 있다.
- 파이썬, 스칼라에서도 explain 속성으로 실행계획을 볼 수 있따.

In [39]:
spark.sql("""
EXPLAIN SELECT * FROM just_usa_view""").show(1, False)

+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|plan                                                                                                                                                                                                                                                                                                                                                                                            

#### 뷰 제거하기
- 테이블과 제거 방식 동일 DROP!

In [42]:
spark.sql("""
DROP VIEW IF EXISTS just_usa_view""")

spark.sql("""
SHOW TABLES""").show()

+--------+-------------------+-----------+
|database|          tableName|isTemporary|
+--------+-------------------+-----------+
| default|            flights|      false|
| default|flights_from_select|      false|
| default|       hive_flights|      false|
| default|     hive_flights_2|      false|
| default|partitioned_flights|      false|
|        |      some_sql_view|       true|
+--------+-------------------+-----------+



## 10.5 데이터베이스
- 데이터베이스 : 여러테이블을 조직화하기 위한 도구 (지정하지 않으면 스파크는 default 데이터베이스 사용)

In [44]:
spark.sql("""
SHOW DATABASES""").show(1, False)

+------------+
|databaseName|
+------------+
|default     |
+------------+



#### 데이터베이스 생성하기

In [45]:
spark.sql("""
CREATE DATABASE seungsu_db""")

DataFrame[]

#### 사용할 데이터베이스 설정하기
- 지정한 데이터베이스를 참조하기에 다른 데이터베이스를 참조하면 쿼리가 실패

In [54]:
spark.sql("""
USE seungsu_db""")

# 사용중 데이터베이스 확인 구문
spark.sql("""
SELECT current_database()""").show(1, False)

spark.sql("""
USE default""")

+------------------+
|current_database()|
+------------------+
|seungsu_db        |
+------------------+



DataFrame[]

- 올바른 접두사를 붙이면 명확한 테이블 지정이 가능

In [48]:
spark.sql("""
SELECT * FROM default.flights""").show()

+--------------------+-------------------+-----+
|   DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+--------------------+-------------------+-----+
|       United States|            Romania|   15|
|       United States|            Croatia|    1|
|       United States|            Ireland|  344|
|               Egypt|      United States|   15|
|       United States|              India|   62|
|       United States|          Singapore|    1|
|       United States|            Grenada|   62|
|          Costa Rica|      United States|  588|
|             Senegal|      United States|   40|
|             Moldova|      United States|    1|
|       United States|       Sint Maarten|  325|
|       United States|   Marshall Islands|   39|
|              Guyana|      United States|   64|
|               Malta|      United States|    1|
|            Anguilla|      United States|   41|
|             Bolivia|      United States|   30|
|       United States|           Paraguay|    6|
|             Algeri

#### 데이터베이스 제거하기
- 테이블과 뷰 제거와 동일 DROP!!!

In [57]:
spark.sql("""
DROP DATABASE IF EXISTS seungsu_db""")

spark.sql("""SHOW DATABASES""").show()

+------------+
|databaseName|
+------------+
|     default|
+------------+



## 10.6 SELECT 구문
- 기존의 ANSI_SQL문법을 따름

## 10.7 고급주제 

#### 복합데이터 타입!
- 복합데이터 타입은 표준 SQL에는 없지만 매우 강력한 기능! 스파크에서는 사용할 수 있다구~

##### 구조체
- 구조체를 만들기 위해서는 ()로 묶으면 됨

In [66]:
# 생성
spark.sql("""
CREATE VIEW IF NOT EXISTS nested_data AS 
SELECT (DEST_COUNTRY_NAME, ORIGIN_COUNTRY_NAME) as country, count FROM flights""")

# 조회        띠용~!!~!~!~!~!
spark.sql("""
SELECT * FROM nested_data""").show(5, False)
spark.sql("""
SELECT country.DEST_COUNTRY_NAME, country.ORIGIN_COUNTRY_NAME, count FROM nested_data""").show(5, False)
spark.sql("""
SELECT country.*, count FROM nested_data""").show(5, False)

+------------------------+-----+
|country                 |count|
+------------------------+-----+
|[United States, Romania]|15   |
|[United States, Croatia]|1    |
|[United States, Ireland]|344  |
|[Egypt, United States]  |15   |
|[United States, India]  |62   |
+------------------------+-----+
only showing top 5 rows

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|United States    |Romania            |15   |
|United States    |Croatia            |1    |
|United States    |Ireland            |344  |
|Egypt            |United States      |15   |
|United States    |India              |62   |
+-----------------+-------------------+-----+
only showing top 5 rows

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|United States    |Romania            |15   |
|United States    |Croatia            |1    |
|United S

##### 리스트
- collect_list , collect_set >> 집계함수!

In [82]:
# 생성
spark.sql("""
SELECT DEST_COUNTRY_NAME as new_name, collect_list(count) as flight_counts, 
    collect_set(ORIGIN_COUNTRY_NAME) as origin_set
    FROM flights GROUP BY DEST_COUNTRY_NAME""").show(5)

spark.sql("""
SELECT DEST_COUNTRY_NAME, ARRAY(1,2,3) FROM flights""").show(5)

spark.sql("""
SELECT DEST_COUNTRY_NAME as new_name, collect_list(count)[0] FROM flights GROUP BY DEST_COUNTRY_NAME""").show(5)

+--------+-------------+---------------+
|new_name|flight_counts|     origin_set|
+--------+-------------+---------------+
|Anguilla|         [41]|[United States]|
|Paraguay|         [60]|[United States]|
|  Russia|        [176]|[United States]|
| Senegal|         [40]|[United States]|
|  Sweden|        [118]|[United States]|
+--------+-------------+---------------+
only showing top 5 rows

+-----------------+--------------+
|DEST_COUNTRY_NAME|array(1, 2, 3)|
+-----------------+--------------+
|    United States|     [1, 2, 3]|
|    United States|     [1, 2, 3]|
|    United States|     [1, 2, 3]|
|            Egypt|     [1, 2, 3]|
|    United States|     [1, 2, 3]|
+-----------------+--------------+
only showing top 5 rows

+--------+----------------------+
|new_name|collect_list(count)[0]|
+--------+----------------------+
|Anguilla|                    41|
|Paraguay|                    60|
|  Russia|                   176|
| Senegal|                    40|
|  Sweden|                  

- explode 함수는 collect계열과 반대로 작용

In [84]:
spark.sql("""
CREATE OR REPLACE TEMP VIEW flights_add AS SELECT DEST_COUNTRY_NAME, collect_list(count) as collected_counts
FROM flights GROUP BY DEST_COUNTRY_NAME""")

spark.sql("""
SELECT collected_counts, DEST_COUNTRY_NAME FROM flights_add""").show(5)

spark.sql("""
SELECT explode(collected_counts), DEST_COUNTRY_NAME FROM flights_add""").show(5)

+----------------+-----------------+
|collected_counts|DEST_COUNTRY_NAME|
+----------------+-----------------+
|            [41]|         Anguilla|
|            [60]|         Paraguay|
|           [176]|           Russia|
|            [40]|          Senegal|
|           [118]|           Sweden|
+----------------+-----------------+
only showing top 5 rows

+---+-----------------+
|col|DEST_COUNTRY_NAME|
+---+-----------------+
| 41|         Anguilla|
| 60|         Paraguay|
|176|           Russia|
| 40|          Senegal|
|118|           Sweden|
+---+-----------------+
only showing top 5 rows



#### 함수
- 함수목록 확인 : SHOW FUNCTIONS

In [87]:
spark.sql("""SHOW FUNCTIONS""").show(5)

spark.sql("""SHOW SYSTEM FUNCTIONS""").show(5)

spark.sql("""SHOW USER FUNCTIONS""").show(5)

spark.sql("""SHOW FUNCTIONS 's*'""").show(5)

+--------+
|function|
+--------+
|       !|
|       %|
|       &|
|       *|
|       +|
+--------+
only showing top 5 rows

+--------+
|function|
+--------+
|       !|
|       %|
|       &|
|       *|
|       +|
+--------+
only showing top 5 rows

+--------+
|function|
+--------+
+--------+

+---------+
| function|
+---------+
|   second|
|sentences|
|      sha|
|     sha1|
|     sha2|
+---------+
only showing top 5 rows



- 사용자 정의 함수
    - 하이브의 CREATE TEMPORARY FUNCTION 구문으로 등록가능
    - pyspark 의 udf 활용
    - 6.10장 참고!!!!

#### 서브쿼리
- 비상호연관 서브쿼리 : 정보를 보완하기 위해 쿼리의 외부범위에 있는 일부 정보 사용가능
- 상호연관 서브쿼리 : 외부범위의 정보를 사용 불가
- 조건절 서브쿼리 : 값에 따라 필터링 가능

- 비상호연관 조건절 서브쿼리

In [90]:
spark.sql("""SELECT dest_country_name FROM flights GROUP BY dest_country_name ORDER BY sum(count) DESC LIMIT 5""").show()

spark.sql("""SELECT * FROM flights
WHERE origin_country_name IN (SELECT dest_country_name FROM flights 
GROUP BY dest_country_name ORDER BY sum(count) DESC LIMIT 5)""").show(5)

+-----------------+
|dest_country_name|
+-----------------+
|    United States|
|           Canada|
|           Mexico|
|   United Kingdom|
|            Japan|
+-----------------+

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|            Egypt|      United States|   15|
|       Costa Rica|      United States|  588|
|          Senegal|      United States|   40|
|          Moldova|      United States|    1|
|           Guyana|      United States|   64|
+-----------------+-------------------+-----+
only showing top 5 rows



- 상호연관 조건절 서브쿼리 예시

In [91]:
# 왕복 비행기가 있는지
spark.sql("""
SELECT * FROM flights f1 
WHERE EXISTS (SELECT 1 FROM flights f2 WHERE f1.dest_country_name = f2.origin_country_name)
AND EXISTS (SELECT 1 FROM flights f2 WHERE f2.dest_country_name = f1.origin_country_name)""").show(5, False)

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|United States    |Romania            |15   |
|United States    |Croatia            |1    |
|United States    |Ireland            |344  |
|Egypt            |United States      |15   |
|United States    |India              |62   |
+-----------------+-------------------+-----+
only showing top 5 rows



- 비상호연관 스칼라 쿼리

In [93]:
# 하나의 컬럼을 추가하고 싶을때
spark.sql("""
SELECT *, (SELECT max(count) FROM flights) AS maximum FROM flights""").show(5, False)

+-----------------+-------------------+-----+-------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|maximum|
+-----------------+-------------------+-----+-------+
|United States    |Romania            |15   |370002 |
|United States    |Croatia            |1    |370002 |
|United States    |Ireland            |344  |370002 |
|Egypt            |United States      |15   |370002 |
|United States    |India              |62   |370002 |
+-----------------+-------------------+-----+-------+
only showing top 5 rows

