# 라이브러리

In [5]:
import psycopg2
import pandas as pd
import numpy as np
import json
import datetime
import re

import joblib
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from kmodes.kprototypes import KPrototypes

# 데이터 불러오기

In [6]:
def call_df(table_name):
    with open('config.json', 'r') as f:
        config = json.load(f)
        
    conn = psycopg2.connect(user = config['USER'],
                              password = config['PASSWORD'],
                              host = config['HOST'],
                              port = config['PORT'],
                              database = config['DATABASE'])
    
    sql = f'SELECT * FROM {table_name}'
    df = pd.read_sql_query(sql, conn)
    conn.close()
    return df

In [7]:
district = call_df('crawling_db.district_table')
apartment = call_df('crawling_db.apartment_table').drop(columns='table_id')
price = call_df('crawling_db.price_table')

# 데이터 전처리

## 변수 생성

### 단위 면적당 최고가(원/$m^2$)
- 단위 면적당 최고가 변수를 클러스터링에 사용합니다. 집단 내 가격의 분산을 줄여주기 위한 변수입니다.

In [4]:
# area(면적) 변수 전처리
price['area'] = price['area'].apply(lambda x: int(re.split('\D',x)[0]))

# unit_price(단위 가격) 변수 생성
price['unit_price'] = round(price['amount']/price['area'])

# 아파트 ID별 최고가 변수 추출 
max_price = price.groupby('apartment_id')['unit_price'].max()

## 데이터 병합

In [5]:
df = (apartment.
      merge(district, how='left', on='district_id').
      merge(school, how='left', on='apartment_id').
      merge(subway, how='left', on='apartment_id').
      merge(max_price, how='left', on='apartment_id'))

## 숫자형 자료

In [6]:
df['school_students'] = pd.to_numeric(df['school_students'])

In [1]:
apartment

NameError: name 'apartment' is not defined

- 네이버에서 근처에 학교가 없을 경우, 학교가 없다고 인식하여 결측치가 발생합니다. 이를 0으로 대체하겠습니다.
- 거래 기록이 아예 없는 데이터는 단위 가격이 존재하지 않습니다. 이를 0으로 대체하겠습니다.

In [8]:
df['school_students'] = df['school_students'].fillna(0)
df['unit_price'] = df['unit_price'].fillna(0)

### 정규화
- MinMaxScaler로 정규화합니다.

In [9]:
def minmax_scaler_save(data, variable):
    scaler = MinMaxScaler()
    scaler.fit(data[variable].values.reshape(-1,1))
    joblib.dump(scaler, f'./model/{variable}_scaler.pkl')

def scaling(data, variable):
    scaler = joblib.load(f'./model/{variable}_scaler.pkl')
    output = scaler.transform(data[variable].values.reshape(-1,1))
    return output

def inverse_scaling(data, variable):
    scaler = joblib.load(f'./model/{variable}_scaler.pkl')
    output = scaler.inverse_transform(data[variable].values.reshape(-1,1))
    return output 

In [10]:
numericals = [
    'school_students',
    'st_dist',
    'apartment_parking',
    'unit_price'
    ]

for variable in numericals:
    minmax_scaler_save(df, variable)
    df[variable] = scaling(df, variable)

## 범주형 자료

In [11]:
labels = [
    'school_name',
    'apartment_addr_town',
    'st_name'
    ]

categoricals = [
    'district_id',
    'apartment_build_year',
    'school_name',
    'apartment_addr_town',
    'st_name'
    ]

In [12]:
def label_encoder_save(data, var_name):
    encoder = LabelEncoder()
    encoder.fit(data[var_name])
    joblib.dump(encoder, f'./model/{var_name}_encoder.pkl')

def label_encoding(data, variable):
    encoder = joblib.load(f'./model/{variable}_encoder.pkl')
    output = encoder.transform(data[variable])
    return output

def label_decoding(data, variable):
    encoder = joblib.load(f'./model/{variable}_encoder.pkl')
    output = encoder.inverse_transform(data[variable])
    return output

In [13]:
for variable in labels:
    label_encoder_save(df, variable)
    df[variable] = label_encoding(df, variable)

# Modeling

## K-Prototypes Clustering
- 클러스터링 모델에 사용할 변수는 다음과 같습니다.

|Variable|Description|
|---|------|
|district_id|지역별 고유 ID|
|apartment_build_year|아파트의 시공 연도|
|school_name|아파트 주변에 있는 초등학교의 이름|
|st_name|아파트 주변에 있는 지하철 역의 이름|
|school_students|아파트 주변에 있는 초등학교의 학생 수|
|st_dist|아파트 주변에 있는 지하철 역과의 거리|
|apartment_parking|아파트의 주차 면적|
|unit_price|역대 면적 단위 가격의 최고가|

In [14]:
train = df[categoricals + numericals].copy()
print(train.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8016 entries, 0 to 8015
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   district_id           8016 non-null   int64  
 1   apartment_build_year  8016 non-null   int64  
 2   school_name           8016 non-null   int32  
 3   apartment_addr_town   8016 non-null   int32  
 4   st_name               8016 non-null   int32  
 5   school_students       8016 non-null   float64
 6   st_dist               8016 non-null   float64
 7   apartment_parking     8016 non-null   float64
 8   unit_price            8016 non-null   float64
dtypes: float64(4), int32(3), int64(2)
memory usage: 532.3 KB
None


In [15]:
k = 20
kproto = KPrototypes(n_clusters=k, verbose=0, init='Cao', random_state=0, n_jobs=-1)
train['cluster'] = kproto.fit_predict(train, categorical=list(range(len(categoricals))))

## Saving as Pickle

In [16]:
train['apartment_id'] = df['apartment_id']
output = train[['apartment_id','cluster']].sort_values('apartment_id').reset_index(drop=True)
output.to_pickle('./data/clustered_apartment.pkl')