In [1]:
import math
import pandas as pd
pd.set_option('display.max_columns',None)

In [2]:
# haversine 공식 함수
def haversine_distance(lat1, lon1, lat2, lon2):
  # 위도와 경도를 라디안으로 변환
  lat1, lon1, lat2, lon2 = map(math.radians, [lat1, lon1, lat2, lon2])

  # Haversine 공식 계산
  dlon = lon2 - lon1
  dlat = lat2 - lat1
  a = math.sin(dlat/2)**2 + math.cos(lat1) * math.cos(lat2) * math.sin(dlon/2)**2
  c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
  # 지구 반지름
  radius = 6371
  # 두 지점 간의 거리 계산
  distance = radius * c

  return distance

# 아파트와 병원 간의 거리 계산 후 데이터프레임에 추가하는 함수
def calculate_distances(apartRow, medicalDf):
    distances = []
    for _, medicalRow in medicalDf.iterrows():
        distance = haversine_distance(apartRow['위도'], apartRow['경도'], medicalRow['위도'], medicalRow['경도'])
        distances.append(distance)
    return pd.Series(distances, index=medicalDf['이름'])

In [3]:
def upload_location_data():
    elementary = pd.read_csv('../preprocessed/교육시설/초등학교.csv')
    middle = pd.read_csv('../preprocessed/교육시설/중학교.csv')
    high = pd.read_csv('../preprocessed/교육시설/고등학교.csv')
    kinder = pd.read_csv('../preprocessed/교육시설/유치원.csv')
    daycare = pd.read_csv('../preprocessed/교육시설/어린이집.csv')
    academy = pd.read_csv('../preprocessed/교육시설/학원.csv')

    bus = pd.read_csv('../preprocessed/교통시설/버스정류장.csv')
    subway = pd.read_csv('../preprocessed/교통시설/역.csv')
    
    mart = pd.read_csv('../preprocessed/상업시설/마트.csv')

    public = pd.read_csv('../preprocessed/의료시설/보건병원.csv')
    nursing = pd.read_csv('../preprocessed/의료시설/요양병원.csv')
    hospital = pd.read_csv('../preprocessed/의료시설/일반병원.csv')
    general = pd.read_csv('../preprocessed/의료시설/종합병원.csv')
    clinic = pd.read_csv('../preprocessed/의료시설/의원.csv')
    oriental = pd.read_csv('../preprocessed/의료시설/한의원.csv')
    dentistry = pd.read_csv('../preprocessed/의료시설/치과.csv')
    pharmacy = pd.read_csv('../preprocessed/의료시설/약국.csv')

    park = pd.read_csv('../preprocessed/편의시설/공원.csv')
    library = pd.read_csv('../preprocessed/편의시설/도서관.csv')
    cafe = pd.read_csv('../preprocessed/편의시설/카페.csv')
    convenience = pd.read_csv('../preprocessed/편의시설/편의점.csv')

    return (elementary, middle, high, kinder, daycare, academy, bus, subway, mart, public, nursing, hospital, general, clinic, oriental, dentistry, pharmacy, park, library, cafe, convenience)



In [4]:
def get_distance(apart):
  # 1개의 아파트와 n개의 입지시설 데이터를 매칭시키고 거리를 구함.
  # 구해진 거리 중 최소의 값만 추출할 것.
  # 의료시설
  pharmacy_dt = apart.apply(lambda row: calculate_distances(row, pharmacy), axis=1)
  pharmacy_minDt = pharmacy_dt.apply(lambda row : row.min(), axis = 1)

  clinic_dt = apart.apply(lambda row: calculate_distances(row, clinic), axis=1)
  clinic_minDt = clinic_dt.apply(lambda row : row.min(), axis = 1)

  hospital_dt = apart.apply(lambda row: calculate_distances(row, hospital), axis=1)
  hospital_minDt = hospital_dt.apply(lambda row : row.min(), axis = 1)

  general_dt = apart.apply(lambda row: calculate_distances(row, general), axis=1)
  general_minDt = general_dt.apply(lambda row : row.min(), axis = 1)
  
  nursing_dt = apart.apply(lambda row: calculate_distances(row, nursing), axis=1)
  nursing_minDt = nursing_dt.apply(lambda row : row.min(), axis = 1)
  
  public_dt = apart.apply(lambda row: calculate_distances(row, public), axis=1)
  public_minDt = public_dt.apply(lambda row : row.min(), axis = 1)

  dentistry_dt = apart.apply(lambda row: calculate_distances(row, dentistry), axis=1)
  dentistry_minDt = dentistry_dt.apply(lambda row : row.min(), axis = 1)

  oriental_dt = apart.apply(lambda row: calculate_distances(row, oriental), axis=1)
  oriental_minDt = oriental_dt.apply(lambda row : row.min(), axis = 1)


  # 상업시설
  mart_dt = apart.apply(lambda row: calculate_distances(row, mart), axis=1)
  mart_minDt = mart_dt.apply(lambda row : row.min(), axis = 1)


  # 편의시설
  park_dt = apart.apply(lambda row: calculate_distances(row, park), axis=1)
  park_minDt = park_dt.apply(lambda row : row.min(), axis = 1)

  library_dt = apart.apply(lambda row: calculate_distances(row, library), axis=1)
  library_minDt = library_dt.apply(lambda row : row.min(), axis = 1)

  cafe_dt = apart.apply(lambda row: calculate_distances(row, cafe), axis=1)
  cafe_minDt = cafe_dt.apply(lambda row : row.min(), axis = 1)

  convenience_dt = apart.apply(lambda row: calculate_distances(row, convenience), axis=1)
  convenience_minDt = convenience_dt.apply(lambda row : row.min(), axis = 1)


  # 교육시설
  kinder_dt = apart.apply(lambda row: calculate_distances(row, kinder), axis=1)
  kinder_minDt = kinder_dt.apply(lambda row : row.min(), axis = 1)

  elementary_dt = apart.apply(lambda row: calculate_distances(row, elementary), axis=1)
  elementary_minDt = elementary_dt.apply(lambda row : row.min(), axis = 1)

  middle_dt = apart.apply(lambda row: calculate_distances(row, middle), axis=1)
  middle_minDt = middle_dt.apply(lambda row : row.min(), axis = 1)

  high_dt = apart.apply(lambda row: calculate_distances(row, high), axis=1)
  high_minDt = high_dt.apply(lambda row : row.min(), axis = 1)

  academy_dt = apart.apply(lambda row: calculate_distances(row, academy), axis=1)
  academy_minDt = academy_dt.apply(lambda row : row.min(), axis = 1)

  daycare_dt = apart.apply(lambda row: calculate_distances(row, daycare), axis=1)
  daycare_minDt = daycare_dt.apply(lambda row : row.min(), axis = 1)


  # 교통시설
  subway_dt = apart.apply(lambda row: calculate_distances(row, subway), axis=1)
  subway_minDt = subway_dt.apply(lambda row : row.min(), axis = 1)

  bus_dt = apart.apply(lambda row: calculate_distances(row, bus), axis=1)
  bus_minDt = bus_dt.apply(lambda row : row.min(), axis = 1)


  # 모든 아파트로부터 입지 간 최소 거리 데이터 하나로 합침
  location = pd.concat(
    [pharmacy_minDt, clinic_minDt, hospital_minDt, general_minDt, nursing_minDt, public_minDt, oriental_minDt, dentistry_minDt, mart_minDt, park_minDt, library_minDt, cafe_minDt, convenience_minDt, daycare_minDt ,kinder_minDt, elementary_minDt, middle_minDt, high_minDt, academy_minDt, subway_minDt, bus_minDt],
    axis=1,
    keys=['약국', '의원', '일반병원', '종합병원', '요양병원', '보건병원', '한방병원', '치과', '대형상권', '공원', '도서관', '카페', '편의점', '유치원', '어린이집', '초등학교', '중학교', '고등학교', '학원', '지하철', '버스정류장']
    )

  return location

In [5]:
import sys
sys.path.append("..")  # 상위 디렉토리를 sys.path에 추가

import requests
import pandas as pd
from mySetting import Client_ID, Client_Secret

# 네이버 API 키
client_id = Client_ID  # 클라이언트 ID
client_secret = Client_Secret  # 클라이언트 Secret

def get_coordinates(address):
    url = 'https://naveropenapi.apigw.ntruss.com/map-geocode/v2/geocode'
    headers = {
        'X-NCP-APIGW-API-KEY-ID': client_id,
        'X-NCP-APIGW-API-KEY': client_secret,
    }
    params = {
        'query': address,
    }
    response = requests.get(url, headers=headers, params=params)
    data = response.json()
    
    if data['addresses']:
        x = data['addresses'][0]['x']
        y = data['addresses'][0]['y']
        return (x, y)
    else:
        return (None, None)

In [6]:
apart_name = '삼성아파트'
print("아파트 이름 : ", apart_name)

apart_address = '경기도 평택시 평남로 281'
print("아파트 주소 : ", apart_address)

apart_floor = 11
print("아파트 층 수 : ", apart_floor)

apart_area = 84.87
print("아파트 전용면적 : ", apart_area)

apart_year = 1993
print("아파트 건축년월 : ", apart_year)

apart_price = 25000
print("아파트 매매가 : ", apart_price)

아파트 이름 :  삼성아파트
아파트 주소 :  경기도 평택시 평남로 281
아파트 층 수 :  11
아파트 전용면적 :  84.87
아파트 건축년월 :  1993
아파트 매매가 :  25000


In [41]:
apart_name = '평택지제역동문굿모닝힐맘시티3단지'
print("아파트 이름 : ", apart_name)

apart_address = '경기도 평택시 신촌5로 20'
print("아파트 주소 : ", apart_address)

apart_floor = 10
print("아파트 층 수 : ", apart_floor)

apart_area = 59.97
print("아파트 전용면적 : ", apart_area)

apart_year = 2021
print("아파트 건축년월 : ", apart_year)

apart_price = 32000
print("아파트 매매가 : ", apart_price)

아파트 이름 :  평택지제역동문굿모닝힐맘시티3단지
아파트 주소 :  경기도 평택시 신촌5로 20
아파트 층 수 :  10
아파트 전용면적 :  59.97
아파트 건축년월 :  2021
아파트 매매가 :  32000


In [42]:
apart = {
    "단지명" : [apart_name],
    "주소" : [apart_address],
    "층" : [apart_floor],
    "전용면적(㎡)" : [apart_area],
    "건축년도" : [apart_year],
    "매매가" : [apart_price]
}

apart_df = pd.DataFrame(apart)

In [43]:
apart_df = apart_df.astype({
    "단지명": "object",            # 문자열 타입
    "주소": "object",              # 문자열 타입
    "층": "int",                   # 정수형
    "전용면적(㎡)": "float",       # 부동소수점
    "건축년도": "int",             # 정수형
    "매매가": "float"              # 부동소수점
})

print(apart_df.dtypes)  #

단지명         object
주소          object
층            int64
전용면적(㎡)    float64
건축년도         int64
매매가        float64
dtype: object


In [44]:
apart_df

Unnamed: 0,단지명,주소,층,전용면적(㎡),건축년도,매매가
0,평택지제역동문굿모닝힐맘시티3단지,경기도 평택시 신촌5로 20,10,59.97,2021,32000.0


In [45]:
apart_df['위도'] = pd.NA
apart_df['경도'] = pd.NA

for i, address in enumerate(apart_df['주소']):
    lng, lat = get_coordinates(address)
    apart_df.at[i, '위도'] = lat
    apart_df.at[i, '경도'] = lng

In [46]:
apart_df['위도'] = apart_df['위도'].astype(float)
apart_df['경도'] = apart_df['경도'].astype(float)

In [47]:
elementary, middle, high, kinder, daycare, academy, bus, subway, mart, public, nursing, hospital, general, clinic, oriental, dentistry, pharmacy, park, library, cafe, convenience = upload_location_data()

location = get_distance(apart_df)

data = pd.concat([apart_df, location], axis=1)

In [48]:
x = data.drop(columns=['단지명','주소','매매가'])

In [49]:
from joblib import load

# 모델 불러오기
model_xgb = load('modelling/best_xgb_model.joblib')
model_cat = load('modelling/best_cat_model.joblib')
model_rf = load('modelling/best_rf_model.joblib')
scaler = load('modelling/scaler.joblib')

x = scaler.transform(x)

# 예측
pred_xgb = model_xgb.predict(x)
pred_cat = model_cat.predict(x)
pred_rf = model_rf.predict(x)

In [50]:
print('---------------------')
print('XGBoost')
print()
print('예측 매매값:', pred_xgb)
print('예측 오차:', pred_xgb - data['매매가'][0])
print('---------------------')
print('Catboost')
print()
print('예측 매매값:', pred_cat)
print('예측 오차:', pred_cat - data['매매가'][0])
print('---------------------')
print('랜덤포레스트')
print()
print('예측 매매값:', pred_rf)
print('예측 오차:', pred_rf  - data['매매가'][0])
print('---------------------')

---------------------
XGBoost

예측 매매값: [30743.342]
예측 오차: [-1256.6582]
---------------------
Catboost

예측 매매값: [34219.59880934]
예측 오차: [2219.59880934]
---------------------
랜덤포레스트

예측 매매값: [32078.84321002]
예측 오차: [78.84321002]
---------------------
