In [1]:
import json
import datetime as dt
import pandas as pd
from pyspark.sql.functions import col, monotonically_increasing_id, row_number
from pyspark.sql.window import Window
from pyspark.sql.types import *

In [2]:
JDBC = {
    'url':'jdbc:oracle:thin:@realestate_high?TNS_ADMIN=/home/big/study/db/Wallet_REALESTATE'
    ,'props':{
        'user':'dw_realestate',
        'password':'123qwe!@#QWE'
    }   
}

In [3]:
from enum import Enum

# 데이터웨어하우스 ENUM
class DataWarehouse(Enum):
    URL='jdbc:oracle:thin:@realestate_high?TNS_ADMIN=/home/big/study/db/Wallet_REALESTATE'
    PROPS={
        'user':'dw_realestate',
        'password':'123qwe!@#QWE'
    }

In [4]:
def cal_std_day(befor_day):   
    x = dt.datetime.now() - dt.timedelta(befor_day)
    year = x.year
    month = x.month if x.month >= 10 else '0'+ str(x.month)
    day = x.day if x.day >= 10 else '0'+ str(x.day)  
    return str(year) +str(month) +str(day)

In [5]:
# 데이터웨어하우스, 데이터마트에 저장하기 위한 함수
def save_data(config, dataframe, table_name):
    dataframe.write.jdbc(url=config.URL.value,
                        table=table_name,
                        mode='append',
                        properties=config.PROPS.value)

# 데이터웨어하우스, 데이터마트에 덮어쓰기 위한 함수
def overwrite_data(config, dataframe, table_name):
    dataframe.write.jdbc(url=config.URL.value,
                        table=table_name,
                        mode='overwrite',
                        properties=config.PROPS.value)

# 데이터웨어하우스, 데이터마트에서 데이터 가져오기 위한 함수
def find_data(config, table_name):
    return spark.read.jdbc(url=config.URL.value,
                                        table=table_name,
                                        properties=config.PROPS.value)

In [8]:
df_loc = find_data(DataWarehouse, 'LOC')
loc_code = df_loc.select(['SIDO','LOC_CODE']).filter(df_loc.SIGUNGU.isNull()).collect()
df_loc_code = spark.createDataFrame(loc_code)
df_loc_code.show()

[Stage 6:>                                                          (0 + 1) / 1]

+--------------+--------+
|          SIDO|LOC_CODE|
+--------------+--------+
|    부산광역시|   26000|
|    대구광역시|   27000|
|    인천광역시|   28000|
|    광주광역시|   29000|
|    대전광역시|   30000|
|    울산광역시|   31000|
|세종특별자치시|   36110|
|        경기도|   41000|
|        강원도|   42000|
|      충청북도|   43000|
|      충청남도|   44000|
|      전라북도|   45000|
|      전라남도|   46000|
|      경상북도|   47000|
|      경상남도|   48000|
|    서울특별시|   11000|
|제주특별자치도|   50000|
+--------------+--------+



                                                                                

In [9]:
file_name = '/realestate_data/address/address_data_'+cal_std_day(11)+'.json'
tmp = spark.read.json(file_name, encoding='UTF-8')
tmp2 = tmp.select('result').first()
df = spark.createDataFrame(tmp2)
tmp3 = df.select('items').first()
tmp4 = spark.createDataFrame(tmp3).first()
df2 = spark.createDataFrame(tmp4['item'])
df2.show()

                                                                                

+--------------+--------------------+--------------+----------+---+
|adminRegn1Name|adminRegn1NamePerson|adminRegn2Name|   resDate|tot|
+--------------+--------------------+--------------+----------+---+
|    서울특별시|          서울특별시|              |2022-09-23|380|
|    서울특별시|          부산광역시|              |2022-09-23|  9|
|    서울특별시|          대구광역시|              |2022-09-23|  3|
|    서울특별시|          인천광역시|              |2022-09-23| 24|
|    서울특별시|          광주광역시|              |2022-09-23|  5|
|    서울특별시|          울산광역시|              |2022-09-23|  1|
|    서울특별시|      세종특별자치시|              |2022-09-23|  2|
|    서울특별시|              경기도|              |2022-09-23|102|
|    서울특별시|              강원도|              |2022-09-23|  4|
|    서울특별시|            충청남도|              |2022-09-23| 12|
|    서울특별시|            전라북도|              |2022-09-23|  3|
|    서울특별시|            전라남도|              |2022-09-23|  1|
|    서울특별시|            경상남도|              |2022-09-23|  9|
|    서울특별시|      제주특별자치도|           

OA_IDX

RES_DATE

RES_REGN_CODE

BUYER_REGN_CODE

TOT

In [13]:
df_addr = df2.select(df2.adminRegn1Name.alias('SIDO'),df2.resDate.alias('RES_DATE'),df2.adminRegn1NamePerson.alias('SIDO2'),df2.tot.alias('TOT'))
df_addr.show()

+----------+----------+--------------+---+
|      SIDO|  RES_DATE|         SIDO2|TOT|
+----------+----------+--------------+---+
|서울특별시|2022-09-23|    서울특별시|380|
|서울특별시|2022-09-23|    부산광역시|  9|
|서울특별시|2022-09-23|    대구광역시|  3|
|서울특별시|2022-09-23|    인천광역시| 24|
|서울특별시|2022-09-23|    광주광역시|  5|
|서울특별시|2022-09-23|    울산광역시|  1|
|서울특별시|2022-09-23|세종특별자치시|  2|
|서울특별시|2022-09-23|        경기도|102|
|서울특별시|2022-09-23|        강원도|  4|
|서울특별시|2022-09-23|      충청남도| 12|
|서울특별시|2022-09-23|      전라북도|  3|
|서울특별시|2022-09-23|      전라남도|  1|
|서울특별시|2022-09-23|      경상남도|  9|
|서울특별시|2022-09-23|제주특별자치도|  2|
|부산광역시|2022-09-23|    서울특별시|  4|
|부산광역시|2022-09-23|    부산광역시|248|
|부산광역시|2022-09-23|    대구광역시|  6|
|부산광역시|2022-09-23|        경기도| 10|
|부산광역시|2022-09-23|      충청남도|  6|
|부산광역시|2022-09-23|      전라북도|  2|
+----------+----------+--------------+---+
only showing top 20 rows



In [29]:
own_addr = df_addr.join(df_loc_code, on='SIDO').drop(col('SIDO'))
own_addr = own_addr.select(col('LOC_CODE').alias('RES_REGN_CODE'),col('SIDO2').alias('SIDO'),col('TOT').cast('int'),col('RES_DATE').cast(DateType()) )
own_addr = own_addr.join(df_loc_code, on='SIDO').drop(col('SIDO'))
own_addr = own_addr.select(col('LOC_CODE').alias('BUYER_REGN_CODE'),col('TOT'),col('RES_REGN_CODE'),col('RES_DATE'))
own_addr = own_addr.withColumn('OA_IDX', row_number().over(Window.orderBy(monotonically_increasing_id())))
own_addr.show()

[Stage 107:>                                                        (0 + 1) / 1]

+---------------+---+-------------+----------+------+
|BUYER_REGN_CODE|TOT|RES_REGN_CODE|  RES_DATE|OA_IDX|
+---------------+---+-------------+----------+------+
|          29000|  1|        43000|2022-09-23|     1|
|          29000|  3|        44000|2022-09-23|     2|
|          29000|  1|        45000|2022-09-23|     3|
|          29000| 61|        46000|2022-09-23|     4|
|          29000|  2|        28000|2022-09-23|     5|
|          29000|  1|        36110|2022-09-23|     6|
|          29000|  5|        11000|2022-09-23|     7|
|          29000| 83|        29000|2022-09-23|     8|
|          29000|  3|        47000|2022-09-23|     9|
|          29000|  2|        48000|2022-09-23|    10|
|          29000|  3|        41000|2022-09-23|    11|
|          29000|  2|        42000|2022-09-23|    12|
|          30000|  5|        43000|2022-09-23|    13|
|          30000| 38|        44000|2022-09-23|    14|
|          30000|  4|        45000|2022-09-23|    15|
|          30000|  6|       

                                                                                

In [30]:
own_addr.printSchema()

root
 |-- BUYER_REGN_CODE: string (nullable = true)
 |-- TOT: integer (nullable = true)
 |-- RES_REGN_CODE: string (nullable = true)
 |-- RES_DATE: date (nullable = true)
 |-- OA_IDX: integer (nullable = false)



In [31]:
own_addr.write.jdbc(url=JDBC['url'], table='OWN_ADDR', mode='append', properties=JDBC['props'])

                                                                                