# PySpark의 Hive 연결 예제

### 1. findspark를 통해 pyspark 등 라이브러리 추가

In [3]:
import findspark
findspark.init("/usr/local/lib/spark-3.3.2-bin-hadoop3")

### 2. SparkConf를 통해 configuration 추가하고, SparkContext 생성

In [None]:
from pyspark import SparkContext, SparkConf

sconf = SparkConf()
sconf.setAppName("Jupyter_Notebook") \
        .setSparkHome("/usr/local/lib/spark-3.3.2-bin-hadoop3") \
        .setMaster("yarn") \
        .setExecutorEnv("client") \
sc = SparkContext(conf=sconf)

### 3. Hadoop을 통해 Hive 설정을 받아오고 HiveContext를 자동으로 생성하는 enableHiveSupprot() 메소드 호출
이를 위해선 HADOOP_CONF_DIR 변수가 설정 되어있어야 하고, 필요한 경우 Hive warehouse 경로인 spark.sql.warehouse.dir, Hive metastore 주소인 hive.metastore.uris 설정이 되어있어야 한다.

In [24]:
from pyspark.sql import SparkSession

hc = SparkSession.builder.appName("PySpark_Hive_Session").enableHiveSupport().getOrCreate()

### 4. HQL문을 전달하여 데이터 추출

In [26]:
trade_df = hc.sql("SELECT * FROM real_estate.trade;")

count_grouped_date_df = trade_df.groupBy("deal_date").count()
count_grouped_date_df.show()

+---------+-----+
|deal_date|count|
+---------+-----+
| 20130108|  173|
| 20130109|  173|
| 20130110|  215|
| 20130112|  206|
| 20130111|  196|
| 20130107|  167|
| 20130105|  200|
| 20130104|  100|
| 20130113|   56|
| 20130101|   27|
| 20130106|   32|
| 20130103|  126|
| 20130102|  107|
+---------+-----+



### 5. Hive 세션과 SparkContext 종료

In [None]:
hs.stop()
sc.stop()