# 스파크를 이용한 기본 지표 생성 예제
> 기본 지표를 생성하는 데에 있어, 정해진 틀을 그대로 따라하기 보다, 가장 직관적인 방법을 지속적으로 개선하는 과정을 설명하기 위한 예제입니다. 
첫 번째 예제인 만큼 지표의 복잡도를 줄이기 위해 해당 서비스를 오픈 일자는 2020/10/25 이며, 지표를 집계하는 시점은 2020/10/26 일 입니다

* 원본 데이터를 그대로 읽는 방법
* dataframe api 를 이용하는 방법
* spark.sql 을 이용하는 방법
* 기본 지표 (DAU, PU)를 추출하는 예제 실습
* 날짜에 대한 필터를 넣는 방법
* 날짜에 대한 필터를 데이터 소스에 적용하는 방법
* 기본 지표 (ARPU, ARPPU)를 추출하는 예제 실습
* 스칼라 값을 가져와서 다음 질의문에 적용하는 방법
* 누적 금액을 구할 때에 단순한 방법
* 서비스 오픈 일자의 디멘젼 테이블을 생성하는 방법
* 널 값에 대한 처리하는 방법
* 생성된 데이터 프레임을 저장하는 방법
* 전 일자 데이터를 가져오는 방법
* 요약 지표를 생성할 때에 단순한 방법
* 팩트 테이블을 활용하는 방법

In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

spark = SparkSession \
    .builder \
    .appName("Data Engineer Basic Day3") \
    .config("spark.dataengineer.basic.day3", "tutorial-1") \
    .getOrCreate()

In [20]:
spark.read.option("inferSchema", "true").option("header", "true").json("access/20201026") \
.withColumn("gmt_time", expr("from_unixtime(a_time, 'yyyy-MM-dd HH:mm:ss')")) \
.withColumn("localtime", expr("from_utc_timestamp(from_unixtime(a_time), 'Asis/Seoul')")) \
.show()

# from_utc_timestamp(from_unixtime(epoch_time), tz_name) as local_time

+------+------+----------+--------------------+-----+-------------------+-------------------+
|  a_id| a_tag|    a_time|         a_timestamp|a_uid|           gmt_time|          localtime|
+------+------+----------+--------------------+-----+-------------------+-------------------+
|logout|access|1603647200|2020-10-26 02:33:...|    1|2020-10-25 17:33:20|2020-10-25 17:33:20|
|logout|access|1603650200|2020-10-26 03:23:...|    2|2020-10-25 18:23:20|2020-10-25 18:23:20|
|logout|access|1603659200|2020-10-26 05:53:...|    3|2020-10-25 20:53:20|2020-10-25 20:53:20|
|logout|access|1603664200|2020-10-26 07:16:...|    4|2020-10-25 22:16:40|2020-10-25 22:16:40|
|logout|access|1603669500|2020-10-26 08:45:...|    5|2020-10-25 23:45:00|2020-10-25 23:45:00|
| login|access|1603645200|2020-10-26 02:00:...|    1|2020-10-25 17:00:00|2020-10-25 17:00:00|
| login|access|1603649200|2020-10-26 03:06:...|    2|2020-10-25 18:06:40|2020-10-25 18:06:40|
| login|access|1603653200|2020-10-26 04:13:...|    2|2020-10

In [22]:
# spark.conf.unset("spark.sql.session.timeZone")
spark.conf.get("spark.sql.session.timeZone") # 'Etc/UTC' => 이게 원인이었네 ... 초기 값의 TimeZone 설정이 제대로 안 되어 있었음.;ㅁ;
spark.conf.set("spark.sql.session.timeZone", "Asia/Seoul")
spark.conf.get("spark.sql.session.timeZone")

'Asia/Seoul'

In [23]:
spark.read.option("inferSchema", "true").option("header", "true").json("access/20201026") \
.withColumn("gmt_time", expr("from_unixtime(a_time, 'yyyy-MM-dd HH:mm:ss')")) \
.withColumn("localtime", expr("from_utc_timestamp(from_unixtime(a_time), 'Asis/Seoul')")) \
.show()

+------+------+----------+--------------------+-----+-------------------+-------------------+
|  a_id| a_tag|    a_time|         a_timestamp|a_uid|           gmt_time|          localtime|
+------+------+----------+--------------------+-----+-------------------+-------------------+
|logout|access|1603647200|2020-10-26 02:33:...|    1|2020-10-26 02:33:20|2020-10-26 02:33:20|
|logout|access|1603650200|2020-10-26 03:23:...|    2|2020-10-26 03:23:20|2020-10-26 03:23:20|
|logout|access|1603659200|2020-10-26 05:53:...|    3|2020-10-26 05:53:20|2020-10-26 05:53:20|
|logout|access|1603664200|2020-10-26 07:16:...|    4|2020-10-26 07:16:40|2020-10-26 07:16:40|
|logout|access|1603669500|2020-10-26 08:45:...|    5|2020-10-26 08:45:00|2020-10-26 08:45:00|
| login|access|1603645200|2020-10-26 02:00:...|    1|2020-10-26 02:00:00|2020-10-26 02:00:00|
| login|access|1603649200|2020-10-26 03:06:...|    2|2020-10-26 03:06:40|2020-10-26 03:06:40|
| login|access|1603653200|2020-10-26 04:13:...|    2|2020-10

In [7]:
sc = spark.sparkContext
spark.read.option("inferSchema", "true").option("header", "true").parquet("user/20201025").createOrReplaceTempView("user")

pWhere=""
spark.read.option("inferSchema", "true").option("header", "true").parquet("purchase/20201025").withColumn("p_time", expr("from_unixtime(p_time)")).createOrReplaceTempView("purchase")

aWhere=""
spark.read.option("inferSchema", "true").option("header", "true").json("access/20201026").withColumn("a_time", expr("from_unixtime(a_time)")).createOrReplaceTempView("access")

In [8]:
spark.sql("desc user").show()
spark.sql("desc purchase").show()
spark.sql("desc access").show()

+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|    u_id|      int|   null|
|  u_name|   string|   null|
|u_gender|   string|   null|
|u_signup|      int|   null|
+--------+---------+-------+

+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|  p_time|   string|   null|
|   p_uid|      int|   null|
|    p_id|      int|   null|
|  p_name|   string|   null|
| p_amoun|      int|   null|
+--------+---------+-------+

+-----------+---------+-------+
|   col_name|data_type|comment|
+-----------+---------+-------+
|       a_id|   string|   null|
|      a_tag|   string|   null|
|     a_time|   string|   null|
|a_timestamp|   string|   null|
|      a_uid|   string|   null|
+-----------+---------+-------+



### 과제 1. 주어진 데이터를 이용하여 2020/10/25 기준의 DAU, PU 를 구하시오
* DAU : Daily Active User, 일 별 접속자 수
  - log_access 를 통해 unique 한 a_uid 값을 구합니다
* PU : Purchase User, 일 별 구매자 수
  - tbl_purchase 를 통해 unique 한 p_uid 값을 구합니다

> 값을 구하기 전에 Spark API 대신 Spark SQL 을 이용하기 위해 [createOrReplaceTempView](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=createorreplace#pyspark.sql.DataFrame.createOrReplaceTempView) 를 생성합니다

In [9]:
# DAU - access
spark.sql("select a_time as a_time, a_uid from access").show()
dau = spark.sql("select count(distinct a_uid) as DAU from access where a_time >= '2020-10-25 00:00:00' and a_time < '2020-10-26 00:00:00'")
dau.show()

+-------------------+-----+
|             a_time|a_uid|
+-------------------+-----+
|2020-10-25 17:33:20|    1|
|2020-10-25 18:23:20|    2|
|2020-10-25 20:53:20|    3|
|2020-10-25 22:16:40|    4|
|2020-10-25 23:45:00|    5|
|2020-10-25 17:00:00|    1|
|2020-10-25 18:06:40|    2|
|2020-10-25 19:13:20|    2|
|2020-10-25 20:20:00|    3|
|2020-10-25 21:10:00|    4|
|2020-10-25 22:21:40|    4|
|2020-10-25 22:55:00|    5|
|2020-10-26 00:01:40|    6|
|2020-10-26 00:51:40|    7|
|2020-10-26 01:08:20|    8|
|2020-10-26 01:25:00|    9|
+-------------------+-----+

+---+
|DAU|
+---+
|  5|
+---+



In [10]:
# PU - purchase
spark.sql("select p_time, p_uid from purchase").show()
pu = spark.sql("select count(distinct p_uid) as PU from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'")
pu.show()

+-------------------+-----+
|             p_time|p_uid|
+-------------------+-----+
|2020-10-25 18:45:50|    1|
|2020-10-26 06:45:55|    1|
|2020-10-26 00:51:40|    2|
|2020-10-25 18:55:55|    3|
|2020-10-26 01:08:20|    4|
|2020-10-25 22:45:55|    5|
|2020-10-25 22:49:15|    5|
+-------------------+-----+

+---+
| PU|
+---+
|  3|
+---+



In [11]:
v_dau = dau.collect()[0]["DAU"]
v_pu = pu.collect()[0]["PU"]

### 과제 2. 주어진 데이터를 이용하여 2020/10/25 기준의 ARPU, ARPPU 를 구하시오
* ARPU : Average Revenue Per User, 유저 당 평균 수익
  - 해당 일자의 전체 수익 (Total Purchase Amount) / 해당 일에 접속한 유저 수 (DAU)
* ARPPU : Average Revenue Per Purchase User, 구매 유저 당 평균 수익
  - 해당 일자의 전체 수익 (Total Purchase Amount) / 해당 일에 접속한 구매 유저 수 (PU)

In [12]:
# ARPU - total purchase amount, dau

query="select sum(p_amount) / {} from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'".format(v_dau)
print(query)

total_purchase_amount = spark.sql("select sum(p_amount) as total_purchase_amount from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'")
total_purchase_amount.show()

spark.sql("select sum(p_amount) / 5 from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'").show()

spark.sql("select sum(p_amount) / {} as ARPU from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'".format(v_dau)).show()

select sum(p_amount) / 5 from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00'


AnalysisException: "cannot resolve '`p_amount`' given input columns: [purchase.p_name, purchase.p_uid, purchase.p_time, purchase.p_id, purchase.p_amoun]; line 1 pos 11;\n'Project ['sum('p_amount) AS total_purchase_amount#233]\n+- Filter ((p_time#106 >= 2020-10-25 00:00:00) && (p_time#106 < 2020-10-26 00:00:00))\n   +- SubqueryAlias `purchase`\n      +- Project [from_unixtime(cast(p_time#96 as bigint), yyyy-MM-dd HH:mm:ss, Some(Etc/UTC)) AS p_time#106, p_uid#97, p_id#98, p_name#99, p_amoun#100]\n         +- Relation[p_time#96,p_uid#97,p_id#98,p_name#99,p_amoun#100] parquet\n"

In [116]:
# ARPPU - total purchase amount, pu
v_amt = total_purchase_amount.collect()[0]["total_purchase_amount"]
print("| ARPPU | {} |".format(v_amt / v_pu))

| ARPPU | 3000000.0 |


### 과제 3. 주어진 데이터를 이용하여 2020/10/26 현재의 "누적 매출 금액" 과 "누적 접속 유저수"를 구하시오
* 누적 매출 금액 : 10/25 (오픈) ~ 현재
  - 전체 로그를 읽어서 매출 금액의 합을 구한다
  - 유저별 매출 정보를 누적하여 저장해두고 재활용한다
* 누적 접속 유저수 : 10/25 (오픈) ~ 현재
  - 전체 로그를 읽어서 접속자의 유일한 수를 구한다
  - 유저별 접속 정보를 누적하여 저장해두고 재활용한다

In [120]:
# 누적 매출 금액
spark.sql("select sum(p_amount) from purchase ").show()

# 누적 접속 유저수
spark.sql("select count(distinct a_uid) from access").show()

+-------------+
|sum(p_amount)|
+-------------+
|     16700000|
+-------------+

+---------------------+
|count(DISTINCT a_uid)|
+---------------------+
|                    9|
+---------------------+



### 과제 4. 유저별 정보를 누적시키기 위한 디멘젼 테이블을 설계하고 생성합니다

#### User Dimension 테이블 설계
| 컬럼 명 | 컬럼 타입 | 컬럼 설명 |
| :- | :-: | :- |
| d_uid | int | 유저 아이디 |
| d_name | string | 고객 이름 |
| d_pamount | int | 누적 구매 금액 |
| d_pcount | int | 누적 구매 횟수 |
| d_acount | int | 누적 접속 횟수 |

In [24]:
# 오픈 첫 날의 경우 예외적으로 별도의 프로그램을 작성합니다
# 
# 1. 가장 큰 레코드 수를 가진 정보가 접속정보이므로 해당 일자의 이용자 별 접속 횟수를 추출합니다
# 단, login 횟수를 접속 횟수로 가정합니다 - logout 만 있는 경우는 login 유실 혹은 전일자의 로그이므로 이러한 경우는 제외합니다
spark.sql("describe access").show()
spark.sql("select * from access where a_id = 'login' and a_time >= '2020-10-25 00:00:00' and a_time < '2020-10-26 00:00:00'").show()
uids = spark.sql("select a_uid, count(a_uid) as acount from access where a_id = 'login' and a_time >= '2020-10-25 00:00:00' and a_time < '2020-10-26 00:00:00' group by a_uid")
uids.show()

+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|  a_time|   string|   null|
|   a_uid|      int|   null|
|    a_id|   string|   null|
+--------+---------+-------+

+-------------------+-----+-----+
|             a_time|a_uid| a_id|
+-------------------+-----+-----+
|2020-10-25 17:00:00|    1|login|
|2020-10-25 18:06:40|    2|login|
|2020-10-25 19:13:20|    2|login|
|2020-10-25 20:20:00|    3|login|
|2020-10-25 21:10:00|    4|login|
|2020-10-25 22:21:40|    4|login|
|2020-10-25 22:55:00|    5|login|
+-------------------+-----+-----+

+-----+------+
|a_uid|acount|
+-----+------+
|    1|     1|
|    3|     1|
|    5|     1|
|    4|     2|
|    2|     2|
+-----+------+



In [26]:
# 2. 해당 일자의 이용자 별 총 매출 금액과, 구매 횟수를 추출합니다
spark.sql("describe purchase").show()
amts = spark.sql("select p_uid, sum(p_amount) as pamount, count(p_uid) as pcount from purchase where p_time >= '2020-10-25 00:00:00' and p_time < '2020-10-26 00:00:00' group by p_uid")
amts.show()

+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|  p_time|   string|   null|
|   p_uid|      int|   null|
|    p_id|      int|   null|
|  p_name|   string|   null|
|p_amount|      int|   null|
+--------+---------+-------+

+-----+-------+------+
|p_uid|pamount|pcount|
+-----+-------+------+
|    1|2000000|     1|
|    3|1000000|     1|
|    5|6000000|     2|
+-----+-------+------+



In [49]:
# 3. 이용자 접속횟수 + 총구매금액 + 구매횟수 (uids + amts)
uids.printSchema()
amts.printSchema()

dim1 = uids.join(amts, uids["a_uid"] == amts["p_uid"], how="left").sort(uids["a_uid"].asc())
dim2 = dim1.withColumnRenamed("a_uid", "d_uid") \
.withColumnRenamed("acount", "d_acount") \
.drop("p_uid") \
.withColumnRenamed("pamount", "d_pamount") \
.withColumnRenamed("pcount", "d_pcount")
dim2.show()

root
 |-- a_uid: integer (nullable = true)
 |-- acount: long (nullable = false)

root
 |-- p_uid: integer (nullable = true)
 |-- pamount: long (nullable = true)
 |-- pcount: long (nullable = false)

+-----+--------+---------+--------+
|d_uid|d_acount|d_pamount|d_pcount|
+-----+--------+---------+--------+
|    1|       1|  2000000|       1|
|    2|       2|     null|    null|
|    3|       1|  1000000|       1|
|    4|       2|     null|    null|
|    5|       1|  6000000|       2|
+-----+--------+---------+--------+



In [56]:
# 4. 이용자 정보를 덧붙입니다
user = spark.sql("select * from user")
user.show()

dim3 = dim2.join(user, dim2["d_uid"] == user["u_id"], "left")
dim4 = dim3.withColumnRenamed("u_name", "d_name") \
.withColumnRenamed("u_gender", "d_gender")

dim5 = dim4.select("d_uid", "d_name", "d_gender", "d_acount", "d_pamount", "d_pcount")
dimension = dim5.na.fill({"d_pamount":0, "d_pcount":0})
dimension.show()

+----+----------+--------+--------+
|u_id|    u_name|u_gender|u_signup|
+----+----------+--------+--------+
|   1|    정휘센|      남|19580808|
|   2|  김싸이언|      남|19590201|
|   3|    박트롬|      여|19951030|
|   4|    청소기|      남|19770329|
|   5|유코드제로|      여|20021029|
|   6|  윤디오스|      남|20040101|
|   7|  임모바일|      남|20040807|
|   8|  조노트북|      여|20161201|
|   9|  최컴퓨터|      남|20201124|
+----+----------+--------+--------+

+-----+----------+--------+--------+---------+--------+
|d_uid|    d_name|d_gender|d_acount|d_pamount|d_pcount|
+-----+----------+--------+--------+---------+--------+
|    1|    정휘센|      남|       1|  2000000|       1|
|    2|  김싸이언|      남|       2|        0|       0|
|    3|    박트롬|      여|       1|  1000000|       1|
|    4|    청소기|      남|       2|        0|       0|
|    5|유코드제로|      여|       1|  6000000|       2|
+-----+----------+--------+--------+---------+--------+



In [57]:
# 4. 다음날 해당 데이터를 사용하도록 하기 위해 일자별 경로에 저장합니다
# - ./users/dt=20201025/
target="./users/dt=20201025"
dimension.write.mode("overwrite").parquet(target)

### 과제 5. 전일자 디멘젼 정보를 이용하여 누적된 접속, 매출 지표를 생성합니다


In [58]:
# 이전 일자 기준의 고객의 상태를 유지하여 활용합니다
yesterday = spark.read.parquet(target)
yesterday.sort(yesterday["d_uid"].asc()).show()

+-----+----------+--------+--------+---------+--------+
|d_uid|    d_name|d_gender|d_acount|d_pamount|d_pcount|
+-----+----------+--------+--------+---------+--------+
|    1|    정휘센|      남|       1|  2000000|       1|
|    2|  김싸이언|      남|       2|        0|       0|
|    3|    박트롬|      여|       1|  1000000|       1|
|    4|    청소기|      남|       2|        0|       0|
|    5|유코드제로|      여|       1|  6000000|       2|
+-----+----------+--------+--------+---------+--------+



In [143]:
# 5. 다음 날 동일한 지표를 생성하되 이전 일자의 정보에 누적한 지표를 생성합니다
# 기존 테이블의 고객과 오늘 신규 고객을 모두 포함한 전체 데이터집합을 생성합니다
yesterday.show()

# 새로운 모수를 추가해야 하므로 전체 모수에 해당하는 uid 만을 추출합니다
uid = yesterday.select("d_uid").join(accs.select("a_uid"), yesterday.d_uid == accs.a_uid, "full_outer") \
.withColumn("uid", when(yesterday.d_uid.isNull(), accs.a_uid).otherwise(yesterday.d_uid)) \
.select("uid")
uid.show()

# uid 기준으로 이름, 성별을 조인합니다
user.show()
dim1 = uid.join(user, uid.uid == user.u_id).select(uid.uid, user.u_name, user.u_gender)
dim1.show()

# 어제 디멘젼을 기준으로 누적접속, 누적구매금액, 누적구매횟수 등을 조인합니다
print("dim2")
dim2 = dim1.join(yesterday, dim1.uid == yesterday.d_uid, "left") \
.select(dim1.uid, dim1.u_name, dim1.u_gender, yesterday.d_acount, yesterday.d_pamount, yesterday.d_pcount) \
.na.fill({"d_acount":0, "d_pamount":0, "d_pcount":0})

dim2.show()

# 6. 오늘 생성된 접속수치, 매출 및 매출 횟수를 더합니다 
accs = spark.sql("select a_uid, count(a_uid) as acount from access where a_id = 'login' and a_time >= '2020-10-26 00:00:00' and a_time < '2020-10-27 00:00:00' group by a_uid")
accs.show()

print("dim3")
dim3 = dim2.join(accs, dim2.uid == accs.a_uid, "left") \
.withColumn("total_amount", dim2.d_acount + when(accs.acount.isNull(), 0).otherwise(accs.acount)) \
.select("uid", "u_name", "u_gender", "total_amount", "d_pamount", "d_pcount") \
.withColumnRenamed("total_amount", "d_acount")

dim3.show()

# 오늘 발생한 매출을 더합니다
dim3.show()

amts = spark.sql("select p_uid, sum(p_amount) as pamount, count(p_uid) as pcount from purchase where p_time >= '2020-10-26 00:00:00' and p_time < '2020-10-27 00:00:00' group by p_uid")
amts.show()

print("dim4")
dim4 = dim3.join(amts, dim3.uid == amts.p_uid, "left") \
.withColumn("total_pamount", dim3.d_pamount + when(amts.pamount.isNull(), 0).otherwise(amts.pamount)) \
.withColumn("total_pcount", dim3.d_acount + when(amts.pcount.isNull(), 0).otherwise(amts.pcount)) \
.drop("d_pamount", "d_pcount") \
.withColumnRenamed("uid", "d_uid") \
.withColumnRenamed("u_name", "d_name") \
.withColumnRenamed("u_gender", "d_gender") \
.withColumnRenamed("total_pamount", "d_pamount") \
.withColumnRenamed("total_pcount", "d_pcount") \
.select("d_uid", "d_name", "d_gender", "d_acount", "d_pamount", "d_pcount")

dimension = dim4.sort(dim4.d_uid.asc()).coalesce(1)
dimension.show()

+-----+----------+--------+--------+---------+--------+
|d_uid|    d_name|d_gender|d_acount|d_pamount|d_pcount|
+-----+----------+--------+--------+---------+--------+
|    5|유코드제로|      여|       1|  6000000|       2|
|    2|  김싸이언|      남|       2|        0|       0|
|    1|    정휘센|      남|       1|  2000000|       1|
|    3|    박트롬|      여|       1|  1000000|       1|
|    4|    청소기|      남|       2|        0|       0|
+-----+----------+--------+--------+---------+--------+

+---+
|uid|
+---+
|  1|
|  6|
|  3|
|  5|
|  9|
|  4|
|  8|
|  7|
|  2|
+---+

+----+----------+--------+--------+
|u_id|    u_name|u_gender|u_signup|
+----+----------+--------+--------+
|   1|    정휘센|      남|19580808|
|   2|  김싸이언|      남|19590201|
|   3|    박트롬|      여|19951030|
|   4|    청소기|      남|19770329|
|   5|유코드제로|      여|20021029|
|   6|  윤디오스|      남|20040101|
|   7|  임모바일|      남|20040807|
|   8|  조노트북|      여|20161201|
|   9|  최컴퓨터|      남|20201124|
+----+----------+--------+--------+

+---+--------

In [144]:
# 7. 생성된 디멘젼을 20201026 경로에 저장합니다
target="./users/dt=20201026"
dimension.write.mode("overwrite").parquet(target)

### 과제 6. inner, left_outer, right_outer, full_outer 조인 실습 예제를 작성하시오


In [146]:
valuesA = [('A',1),('B',2),('C',3),('D',4)]
A = spark.createDataFrame(valuesA,['a_id','a_value'])
 
valuesB = [('C',10),('D',20),('E',30),('F',40)]
B = spark.createDataFrame(valuesB,['b_id','b_value'])

A.join(B, A.a_id == B.b_id, "inner").sort(A.a_id.asc()).show() # C, D
# A.join(B, A.a_id == B.b_id, "left").sort(A.a_id.asc()).show() # A, B, C, D
# A.join(B, A.a_id == B.b_id, "right").sort(B.b_id.asc()).show() # C, D, E, F
A.join(B, A.a_id == B.b_id, "left_outer").sort(A.a_id.asc()).show() # A, B, C, D
A.join(B, A.a_id == B.b_id, "right_outer").sort(B.b_id.asc()).show() # C, D, E, F
A.join(B, A.a_id == B.b_id, "full_outer").sort(A.a_id.asc_nulls_last(), B.b_id.asc_nulls_last()).show() # A, B, C, D, E, F

+----+-------+----+-------+
|a_id|a_value|b_id|b_value|
+----+-------+----+-------+
|   C|      3|   C|     10|
|   D|      4|   D|     20|
+----+-------+----+-------+

+----+-------+----+-------+
|a_id|a_value|b_id|b_value|
+----+-------+----+-------+
|   A|      1|null|   null|
|   B|      2|null|   null|
|   C|      3|   C|     10|
|   D|      4|   D|     20|
+----+-------+----+-------+

+----+-------+----+-------+
|a_id|a_value|b_id|b_value|
+----+-------+----+-------+
|   C|      3|   C|     10|
|   D|      4|   D|     20|
|null|   null|   E|     30|
|null|   null|   F|     40|
+----+-------+----+-------+

+----+-------+----+-------+
|a_id|a_value|b_id|b_value|
+----+-------+----+-------+
|   A|      1|null|   null|
|   B|      2|null|   null|
|   C|      3|   C|     10|
|   D|      4|   D|     20|
|null|   null|   E|     30|
|null|   null|   F|     40|
+----+-------+----+-------+



In [83]:
# full outer 조인 시에 결과 생성
A.join(B, A.a_id == B.b_id, "full_outer").withColumn("id", expr("case when a_id is null then b_id else a_id end")).select("id").sort("id").show()
# F.when(df.age > 4, 1).when(df.age < 3, -1).otherwise(0)

+---+
| id|
+---+
|  A|
|  B|
|  C|
|  D|
|  E|
|  F|
+---+



In [84]:
A.join(B, A.a_id == B.b_id, "full_outer").show()

+----+-------+----+-------+
|a_id|a_value|b_id|b_value|
+----+-------+----+-------+
|null|   null|   F|     40|
|null|   null|   E|     30|
|   B|      2|null|   null|
|   D|      4|   D|     20|
|   C|      3|   C|     10|
|   A|      1|null|   null|
+----+-------+----+-------+



In [88]:
A.join(B, A.a_id == B.b_id, "full_outer").withColumn("id", when(A.a_id.isNull(), B.b_id).otherwise(A.a_id)).select("id").sort("id").show()

+---+
| id|
+---+
|  A|
|  B|
|  C|
|  D|
|  E|
|  F|
+---+



### 과제 7. 전일자 디멘젼 정보와 오늘자 로그를 이용하여 팩트 데이터를 생성합니다.


### 과제 8. 팩트 데이터를 이용하여 2020/10/25 기준 성별 매출금액 지표를 추출합니다
