In [266]:
import json
import datetime as dt
import pandas as pd
from pyspark.sql.functions import col, monotonically_increasing_id, row_number
from pyspark.sql.window import Window
from pyspark.sql.types import *

In [270]:
JDBC = {
    'url':'jdbc:oracle:thin:@realestate_high?TNS_ADMIN=/home/big/study/db/Wallet_REALESTATE'
    ,'props':{
        'user':'dw_realestate',
        'password':'123qwe!@#QWE'
    }   
}

In [219]:
from enum import Enum

# 데이터웨어하우스 ENUM
class DataWarehouse(Enum):
    URL='jdbc:oracle:thin:@realestate_high?TNS_ADMIN=/home/big/study/db/Wallet_REALESTATE'
    PROPS={
        'user':'dw_realestate',
        'password':'123qwe!@#QWE'
    }

In [220]:
def cal_std_day(befor_day):   
    x = dt.datetime.now() - dt.timedelta(befor_day)
    year = x.year
    month = x.month if x.month >= 10 else '0'+ str(x.month)
    day = x.day if x.day >= 10 else '0'+ str(x.day)  
    return str(year) +str(month) +str(day)

In [221]:
# 데이터웨어하우스, 데이터마트에 저장하기 위한 함수
def save_data(config, dataframe, table_name):
    dataframe.write.jdbc(url=config.URL.value,
                        table=table_name,
                        mode='append',
                        properties=config.PROPS.value)

# 데이터웨어하우스, 데이터마트에 덮어쓰기 위한 함수
def overwrite_data(config, dataframe, table_name):
    dataframe.write.jdbc(url=config.URL.value,
                        table=table_name,
                        mode='overwrite',
                        properties=config.PROPS.value)

# 데이터웨어하우스, 데이터마트에서 데이터 가져오기 위한 함수
def find_data(config, table_name):
    return spark.read.jdbc(url=config.URL.value,
                                        table=table_name,
                                        properties=config.PROPS.value)

In [222]:
df_loc = find_data(DataWarehouse, 'LOC')
df_loc.show()

[Stage 244:>                                                        (0 + 1) / 1]

+--------+---------+------------+----------+--------+
|LOC_CODE|SIDO_CODE|SIGUNGU_CODE|      SIDO| SIGUNGU|
+--------+---------+------------+----------+--------+
|   27170|       27|         170|대구광역시|    서구|
|   27200|       27|         200|대구광역시|    남구|
|   30200|       30|         200|대전광역시|  유성구|
|   27140|       27|         140|대구광역시|    동구|
|   26000|       26|         000|부산광역시|    null|
|   26110|       26|         110|부산광역시|    중구|
|   26140|       26|         140|부산광역시|    서구|
|   26170|       26|         170|부산광역시|    동구|
|   26200|       26|         200|부산광역시|  영도구|
|   26230|       26|         230|부산광역시|부산진구|
|   26260|       26|         260|부산광역시|  동래구|
|   26290|       26|         290|부산광역시|    남구|
|   26320|       26|         320|부산광역시|    북구|
|   26350|       26|         350|부산광역시|해운대구|
|   26380|       26|         380|부산광역시|  사하구|
|   26410|       26|         410|부산광역시|  금정구|
|   26440|       26|         440|부산광역시|  강서구|
|   26470|       26|         470|부산광역시|  연제구|
|

                                                                                

In [223]:
loc_code = df_loc.select(['SIDO','LOC_CODE']).filter(df_loc.SIGUNGU.isNull()).collect()
df_loc_code = spark.createDataFrame(loc_code)
df_loc_code.show()

                                                                                

+--------------+--------+
|          SIDO|LOC_CODE|
+--------------+--------+
|    부산광역시|   26000|
|    대구광역시|   27000|
|    인천광역시|   28000|
|    광주광역시|   29000|
|    대전광역시|   30000|
|    울산광역시|   31000|
|세종특별자치시|   36110|
|        경기도|   41000|
|        강원도|   42000|
|      충청북도|   43000|
|      충청남도|   44000|
|      전라북도|   45000|
|      전라남도|   46000|
|      경상북도|   47000|
|      경상남도|   48000|
|    서울특별시|   11000|
|제주특별자치도|   50000|
+--------------+--------+



In [225]:
file_name = '/realestate_data/gender_age/gender_age_data_'+cal_std_day(10)+'.json'
tmp = spark.read.json(file_name, encoding='UTF-8')
tmp.show()

[Stage 249:>                                                        (0 + 1) / 1]

+---------------------+
|               result|
+---------------------+
|{{APIINFO-0001, 정...|
+---------------------+



                                                                                

In [226]:
tmp.printSchema()

root
 |-- result: struct (nullable = true)
 |    |-- head: struct (nullable = true)
 |    |    |-- returnCode: string (nullable = true)
 |    |    |-- returnMessage: string (nullable = true)
 |    |    |-- totalCount: string (nullable = true)
 |    |-- items: struct (nullable = true)
 |    |    |-- item: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- adminRegn1Name: string (nullable = true)
 |    |    |    |    |-- adminRegn2Name: string (nullable = true)
 |    |    |    |    |-- bdata_age: string (nullable = true)
 |    |    |    |    |-- resDate: string (nullable = true)
 |    |    |    |    |-- sex: string (nullable = true)
 |    |    |    |    |-- tot: string (nullable = true)



In [231]:
tmp2 = tmp.select('result').first()
df = spark.createDataFrame(tmp2)
df.show()

                                                                                

+----------------------+--------------------------+
|                  head|                     items|
+----------------------+--------------------------+
|{APIINFO-0001, 정상...|{[{서울특별시, , 19세~2...|
+----------------------+--------------------------+



[Stage 266:>                                                        (0 + 1) / 1]                                                                                

In [256]:
tmp3 = df.select('items').first()
tmp4 = spark.createDataFrame(tmp3).first()
df2 = spark.createDataFrame(tmp4['item'])
df2.show()

+--------------+--------------+----------------+----------+----+---+
|adminRegn1Name|adminRegn2Name|       bdata_age|   resDate| sex|tot|
+--------------+--------------+----------------+----------+----+---+
|    서울특별시|              |       19세~29세|2022-09-23|여자| 20|
|    서울특별시|              |       30세~39세|2022-09-23|여자| 56|
|    서울특별시|              |       40세~49세|2022-09-23|여자| 65|
|    서울특별시|              |       50세~59세|2022-09-23|여자| 50|
|    서울특별시|              |       60세~69세|2022-09-23|여자| 27|
|    서울특별시|              |       70세 이상|2022-09-23|여자| 15|
|    서울특별시|              |0~18세(미성년자)|2022-09-23|남자|  1|
|    서울특별시|              |       19세~29세|2022-09-23|남자| 17|
|    서울특별시|              |       30세~39세|2022-09-23|남자| 66|
|    서울특별시|              |       40세~49세|2022-09-23|남자| 62|
|    서울특별시|              |       50세~59세|2022-09-23|남자| 44|
|    서울특별시|              |       60세~69세|2022-09-23|남자| 25|
|    서울특별시|              |       70세 이상|2022-09-23|남자| 17|
|    부산광역시|       

OSA_IDX   NUMBER

RES_DATE  DATE 등기이전일자

RES_REGN_CODE 결과지역코드

BUYER_SEX 매수자 성별

BUYER_AGES 매수자 나이대

TOT 결과건수

In [229]:
df_sex_age = df2.select(df2.adminRegn1Name.alias('SIDO'),df2.resDate.alias('RES_DATE'),df2.sex.alias('BUYER_SEX'),df2.bdata_age.alias('BUYER_AGES'),df2.tot.alias('TOT'))
df_sex_age.show()

+----------+----------+---------+----------------+---+
|      SIDO|  RES_DATE|BUYER_SEX|      BUYER_AGES|TOT|
+----------+----------+---------+----------------+---+
|서울특별시|2022-09-23|     여자|       19세~29세| 20|
|서울특별시|2022-09-23|     여자|       30세~39세| 56|
|서울특별시|2022-09-23|     여자|       40세~49세| 65|
|서울특별시|2022-09-23|     여자|       50세~59세| 50|
|서울특별시|2022-09-23|     여자|       60세~69세| 27|
|서울특별시|2022-09-23|     여자|       70세 이상| 15|
|서울특별시|2022-09-23|     남자|0~18세(미성년자)|  1|
|서울특별시|2022-09-23|     남자|       19세~29세| 17|
|서울특별시|2022-09-23|     남자|       30세~39세| 66|
|서울특별시|2022-09-23|     남자|       40세~49세| 62|
|서울특별시|2022-09-23|     남자|       50세~59세| 44|
|서울특별시|2022-09-23|     남자|       60세~69세| 25|
|서울특별시|2022-09-23|     남자|       70세 이상| 17|
|부산광역시|2022-09-23|     여자|       19세~29세|  9|
|부산광역시|2022-09-23|     여자|       30세~39세| 33|
|부산광역시|2022-09-23|     여자|       40세~49세| 38|
|부산광역시|2022-09-23|     여자|       50세~59세| 32|
|부산광역시|2022-09-23|     여자|       60세~69세| 31|
|부산광역시|2022-

In [273]:
own_sex_age = df_sex_age.join(df_loc_code, on='SIDO')
own_sex_age = own_sex_age.select(col('LOC_CODE').alias('RES_REGN_CODE'),col('TOT').cast('int'),col('BUYER_AGES'),col('BUYER_SEX'),col('RES_DATE').cast(DateType()))
own_sex_age = own_sex_age.withColumn('OSA_IDX', row_number().over(Window.orderBy(monotonically_increasing_id())))
own_sex_age.show()

[Stage 333:>                                                        (0 + 1) / 1]

+-------------+---+----------------+---------+----------+-------+
|RES_REGN_CODE|TOT|      BUYER_AGES|BUYER_SEX|  RES_DATE|OSA_IDX|
+-------------+---+----------------+---------+----------+-------+
|        42000|  7|       19세~29세|     여자|2022-09-23|      1|
|        42000| 24|       30세~39세|     여자|2022-09-23|      2|
|        42000| 30|       40세~49세|     여자|2022-09-23|      3|
|        42000| 50|       50세~59세|     여자|2022-09-23|      4|
|        42000| 56|       60세~69세|     여자|2022-09-23|      5|
|        42000| 18|       70세 이상|     여자|2022-09-23|      6|
|        42000|  4|0~18세(미성년자)|     남자|2022-09-23|      7|
|        42000|  7|       19세~29세|     남자|2022-09-23|      8|
|        42000| 27|       30세~39세|     남자|2022-09-23|      9|
|        42000| 30|       40세~49세|     남자|2022-09-23|     10|
|        42000| 59|       50세~59세|     남자|2022-09-23|     11|
|        42000| 45|       60세~69세|     남자|2022-09-23|     12|
|        42000| 11|       70세 이상|     남자|2022-09-23|     13|
|

                                                                                

In [274]:
own_sex_age.printSchema()

root
 |-- RES_REGN_CODE: string (nullable = true)
 |-- TOT: integer (nullable = true)
 |-- BUYER_AGES: string (nullable = true)
 |-- BUYER_SEX: string (nullable = true)
 |-- RES_DATE: date (nullable = true)
 |-- OSA_IDX: integer (nullable = false)



In [275]:
own_sex_age.write.jdbc(url=JDBC['url'], table='OWN_SEX_AGE', mode='append', properties=JDBC['props'])

                                                                                