# 판다스 UDF를 이용한 전세데이터 전처리

In [1]:
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.appName('preprocessing').getOrCreate()

23/09/09 22:28:13 WARN Utils: Your hostname, minseok-VirtualBox resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
23/09/09 22:28:13 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/09 22:28:15 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
df = spark.read.csv('18_19_20_강남구전세실거래가_구분_u.csv', inferSchema=True, header=True)

                                                                                

In [4]:
df.printSchema()

root
 |-- 시군구: string (nullable = true)
 |-- 번지: string (nullable = true)
 |-- 도로조건: string (nullable = true)
 |-- 계약면적(㎡): double (nullable = true)
 |-- 전월세구분: string (nullable = true)
 |-- 계약년월: integer (nullable = true)
 |-- 계약일: integer (nullable = true)
 |-- 보증금(만원): string (nullable = true)
 |-- 월세(만원): string (nullable = true)
 |-- 건축년도: double (nullable = true)
 |-- 도로명: string (nullable = true)
 |-- 계약기간: string (nullable = true)
 |-- 계약구분: string (nullable = true)
 |-- 갱신요구권 사용: string (nullable = true)
 |-- 종전계약 보증금 (만원): string (nullable = true)
 |-- 종전계약 월세 (만원): string (nullable = true)
 |-- 구분: string (nullable = true)
 |-- 본번: double (nullable = true)
 |-- 부번: double (nullable = true)
 |-- 단지명: string (nullable = true)
 |-- 전용면적(㎡): double (nullable = true)
 |-- 층: double (nullable = true)
 |-- 건물명: string (nullable = true)



In [5]:
df.show(10, True)

+------------------------+----+--------+------------+----------+--------+------+------------+----------+--------+----------+--------+--------+---------------+----------------------+--------------------+----------+----+----+------+------------+----+------+
|                  시군구|번지|도로조건|계약면적(㎡)|전월세구분|계약년월|계약일|보증금(만원)|월세(만원)|건축년도|    도로명|계약기간|계약구분|갱신요구권 사용|종전계약 보증금 (만원)|종전계약 월세 (만원)|      구분|본번|부번|단지명|전용면적(㎡)|  층|건물명|
+------------------------+----+--------+------------+----------+--------+------+------------+----------+--------+----------+--------+--------+---------------+----------------------+--------------------+----------+----+----+------+------------+----+------+
|서울특별시 강남구 개포동|1***|  8m미만|        10.0|      월세|  201804|    25|         500|        40|  1998.0|개포로20길|       -|       -|              -|                  null|                null|단독다가구|null|null|  null|        null|null|  null|
|서울특별시 강남구 개포동|1***|       -|       14.85|      월세|  201804|    12|       2,000|        47| 

# 전세 데이터만 골라내기

In [6]:
from pyspark.sql.functions import col

In [7]:
df_2 = df.where(col('전월세구분') == '전세')

In [8]:
# 검증
df_2.select('전월세구분').distinct().show()



+----------+
|전월세구분|
+----------+
|      전세|
+----------+



                                                                                

# 도로명 주소 만들기
PandasUDF를 사용해본다.

In [9]:
import pandas as pd
from pyspark.sql.functions import pandas_udf

In [10]:
@pandas_udf('string')
def new_address(a:pd.Series, b:pd.Series) -> pd.Series:
    return a.str[:10] + b

df_2.withColumn('도로명주소', new_address('시군구', '도로명')).select('도로명주소').show()



+----------------------------+
|                  도로명주소|
+----------------------------+
|서울특별시 강남구 개포로22길|
| 서울특별시 강남구 논현로4길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로2길|
|서울특별시 강남구 개포로32길|
|서울특별시 강남구 개포로25길|
|서울특별시 강남구 개포로25길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
|                        null|
|서울특별시 강남구 논현로12길|
|서울특별시 강남구 논현로18길|
|서울특별시 강남구 개포로25길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로8길|
+----------------------------+
only showing top 20 rows



                                                                                

In [11]:
df_3 = df_2.withColumn('도로명주소', new_address('시군구', '도로명'))

null값은 삭제한다

In [12]:
df_4 = df_3.na.drop(subset=['도로명주소'])
df_4.select('도로명주소').show()



+----------------------------+
|                  도로명주소|
+----------------------------+
|서울특별시 강남구 개포로22길|
| 서울특별시 강남구 논현로4길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로6길|
| 서울특별시 강남구 논현로2길|
|서울특별시 강남구 개포로32길|
|서울특별시 강남구 개포로25길|
|서울특별시 강남구 개포로25길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로6길|
|서울특별시 강남구 논현로12길|
|서울특별시 강남구 논현로18길|
|서울특별시 강남구 개포로25길|
| 서울특별시 강남구 논현로8길|
| 서울특별시 강남구 논현로8길|
|서울특별시 강남구 개포로25길|
+----------------------------+
only showing top 20 rows



                                                                                

# 행정구역 만들기

In [13]:
@pandas_udf('string')
def admin_district(a:pd.Series) -> pd.Series:
    return a.str[10:]

df_4.withColumn('행정구역', admin_district('시군구')).select('행정구역').show()



+--------+
|행정구역|
+--------+
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
|  개포동|
+--------+
only showing top 20 rows



                                                                                

In [14]:
df_5 = df_4.withColumn('행정구역', admin_district('시군구'))

# 건물 나이 구하기

In [15]:
df_5.withColumn('건물나이', 2023 - col('건축년도')).select('건물나이').show()

[Stage 9:>                                                          (0 + 1) / 1]

+--------+
|건물나이|
+--------+
|    33.0|
|    34.0|
|    27.0|
|     6.0|
|    28.0|
|    23.0|
|    28.0|
|    28.0|
|    30.0|
|    28.0|
|    27.0|
|    27.0|
|    32.0|
|    29.0|
|    26.0|
|    34.0|
|    27.0|
|    31.0|
|    26.0|
|    27.0|
+--------+
only showing top 20 rows



                                                                                

In [16]:
df_6 = df_5.withColumn('건물나이', 2023 - col('건축년도'))

# 건축년월일 컬럼 만들기

In [17]:
from pyspark.sql.functions import to_date, concat

In [18]:
df_6.withColumn('건축년월일', concat(col('계약년월'),col('계약일'))).select('건축년월일').show()

[Stage 10:>                                                         (0 + 1) / 1]

+----------+
|건축년월일|
+----------+
|   2018064|
|  20180810|
|  20180618|
|  20181227|
|  20181228|
|   2018029|
|   2018119|
|   2018119|
|  20180316|
|  20180619|
|   2018127|
|   2018119|
|  20180529|
|  20180424|
|  20180512|
|  20180523|
|   2018072|
|   2018016|
|  20181114|
|  20180716|
+----------+
only showing top 20 rows



                                                                                

8자리여야 맞는데 7자리인 레코드가 보인다. 계약일을 확인해본다.

In [19]:
df_6.select('계약일').show()

# 결과가 왜 이럴까 처음에 데이터를 로드할 때 inferSchema=True 때문일까..

[Stage 11:>                                                         (0 + 1) / 1]

+------+
|계약일|
+------+
|     4|
|    10|
|    18|
|    27|
|    28|
|     9|
|     9|
|     9|
|    16|
|    19|
|     7|
|     9|
|    29|
|    24|
|    12|
|    23|
|     2|
|     6|
|    14|
|    16|
+------+
only showing top 20 rows



                                                                                

In [21]:
df_6.printSchema()
# 다시 보니 계약년월, 계약일 모두 integer구나..

root
 |-- 시군구: string (nullable = true)
 |-- 번지: string (nullable = true)
 |-- 도로조건: string (nullable = true)
 |-- 계약면적(㎡): double (nullable = true)
 |-- 전월세구분: string (nullable = true)
 |-- 계약년월: integer (nullable = true)
 |-- 계약일: integer (nullable = true)
 |-- 보증금(만원): string (nullable = true)
 |-- 월세(만원): string (nullable = true)
 |-- 건축년도: double (nullable = true)
 |-- 도로명: string (nullable = true)
 |-- 계약기간: string (nullable = true)
 |-- 계약구분: string (nullable = true)
 |-- 갱신요구권 사용: string (nullable = true)
 |-- 종전계약 보증금 (만원): string (nullable = true)
 |-- 종전계약 월세 (만원): string (nullable = true)
 |-- 구분: string (nullable = true)
 |-- 본번: double (nullable = true)
 |-- 부번: double (nullable = true)
 |-- 단지명: string (nullable = true)
 |-- 전용면적(㎡): double (nullable = true)
 |-- 층: double (nullable = true)
 |-- 건물명: string (nullable = true)
 |-- 도로명주소: string (nullable = true)
 |-- 행정구역: string (nullable = true)
 |-- 건물나이: double (nullable = true)



In [25]:
df_6.withColumn('계약년월일', col('계약년월')*100 + col('계약일')).select('계약년월일').show()

[Stage 13:>                                                         (0 + 1) / 1]

+----------+
|계약년월일|
+----------+
|  20180604|
|  20180810|
|  20180618|
|  20181227|
|  20181228|
|  20180209|
|  20181109|
|  20181109|
|  20180316|
|  20180619|
|  20181207|
|  20181109|
|  20180529|
|  20180424|
|  20180512|
|  20180523|
|  20180702|
|  20180106|
|  20181114|
|  20180716|
+----------+
only showing top 20 rows



                                                                                

In [26]:
df_7 = df_6.withColumn('계약년월일', col('계약년월')*100 + col('계약일'))

In [48]:
df_7.withColumn('계약년월일', to_date(col('계약년월일'), format='yyyyMMdd')).select('계약년월일').show()
# integer를 date로 바꾸는것도 가능하구나

[Stage 22:>                                                         (0 + 1) / 1]

+----------+
|계약년월일|
+----------+
|2018-06-04|
|2018-08-10|
|2018-06-18|
|2018-12-27|
|2018-12-28|
|2018-02-09|
|2018-11-09|
|2018-11-09|
|2018-03-16|
|2018-06-19|
|2018-12-07|
|2018-11-09|
|2018-05-29|
|2018-04-24|
|2018-05-12|
|2018-05-23|
|2018-07-02|
|2018-01-06|
|2018-11-14|
|2018-07-16|
+----------+
only showing top 20 rows



                                                                                

In [49]:
df_8 = df_7.withColumn('계약년월일', to_date(col('계약년월일'), format='yyyyMMdd'))

# 보증금 전처리

In [55]:
@pandas_udf('long')
def price_preprocessing(a:pd.Series) -> pd.Series:
    return pd.to_numeric(a.str.replace(',', ''))

df_8.withColumn('보증금', price_preprocessing('보증금(만원)')).select('보증금').show()



+------+
|보증금|
+------+
|  6000|
|  7000|
|  9000|
| 12000|
|  8000|
|  5000|
|  4000|
|  4000|
|  7000|
|  4500|
| 14000|
| 10000|
|  7500|
|  5800|
|  6500|
|  2000|
|  6500|
|  9000|
|  8000|
| 12000|
+------+
only showing top 20 rows



                                                                                

In [56]:
df_9 = df_8.withColumn('보증금', price_preprocessing('보증금(만원)'))

# PandasUDF 전처리에 유용하다!