In [None]:
import math
import pandas as pd
from google.colab import drive

# 드라이브 마운트
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
### 함수 정의 구간

# 데이터 업로드 _utf
def upload_data_utf(file_name):
  rtn = pd.read_csv(file_name, encoding = 'utf-8')
  rtn = pd.DataFrame(rtn)

  return rtn

# 데이터 업로드 _cp949
def upload_data_cp(file_name):
  rtn = pd.read_csv(file_name, encoding = 'cp949')
  rtn = pd.DataFrame(rtn)

  return rtn

# 데이터 업로드 euc-kr
def upload_data_euc(file_name):
  rtn = pd.read_csv(file_name, encoding = 'euc-kr')
  rtn = pd.DataFrame(rtn)

  return rtn

# haversine 공식 함수
def haversine_distance(lat1, lon1, lat2, lon2):
  # 위도와 경도를 라디안으로 변환
  lat1, lon1, lat2, lon2 = map(math.radians, [lat1, lon1, lat2, lon2])

  # Haversine 공식 계산
  dlon = lon2 - lon1
  dlat = lat2 - lat1
  a = math.sin(dlat/2)**2 + math.cos(lat1) * math.cos(lat2) * math.sin(dlon/2)**2
  c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
  # 지구 반지름
  radius = 6371
  # 두 지점 간의 거리 계산
  distance = radius * c

  return distance

# 아파트와 병원 간의 거리 계산 후 데이터프레임에 추가하는 함수
def calculate_distances(apartRow, medicalDf):
    distances = []
    for _, medicalRow in medicalDf.iterrows():
        distance = haversine_distance(apartRow['위도'], apartRow['경도'], medicalRow['위도'], medicalRow['경도'])
        distances.append(distance)
    return pd.Series(distances, index=medicalDf['이름'])


# 입력 지역에 따라 입지 정보 데이터 업로드 다르게
def upload_location_data(location):
  if location == "안양":
    # 의료시설 데이터
    pharmacyDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/의료시설/약국데이터.csv')
    print("약국 데이터 업로드")
    clinicDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/의료시설/의원데이터.csv')
    print("의원 데이터 업로드")
    hospitalDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/의료시설/병원데이터.csv')
    print("병원 데이터 업로드")
    generalHDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/의료시설/종합병원데이터.csv')
    print("종합병원 데이터 업로드")

    # 상업시설 데이터
    commerceDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/상업시설/상업시설데이터.csv')
    print("상업시설 데이터 업로드")

    # 편의시설 데이터
    parkDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/편의시설/공원데이터.csv')
    print("공원 데이터 업로드")
    libraryDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/편의시설/도서관데이터.csv')
    print("도서관 데이터 업로드")

    # 교육시설 데이터
    kinderDf=  upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교육시설/유치원데이터.csv')
    print("유치원 데이터 업로드")
    lowSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교육시설/초등학교데이터.csv')
    print("초등학교 데이터 업로드")
    middleSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교육시설/중학교데이터.csv')
    print("중학교 데이터 업로드")
    highSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교육시설/고등학교데이터.csv')
    print("고등학교 데이터 업로드")
    academyDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교육시설/학원데이터.csv')
    print("학원 데이터 업로드")

    # 교통시설 데이터
    subwayDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/교통시설/역사데이터.csv')
    print("지하철 데이터 업로드")

  elif location == "수원":
    pharmacyDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/의료시설/약국데이터.csv')
    print("약국 데이터 업로드")
    clinicDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/의료시설/의원데이터.csv')
    print("의원 데이터 업로드")
    hospitalDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/의료시설/병원데이터.csv')
    print("병원 데이터 업로드")
    generalHDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/의료시설/종합병원데이터.csv')
    print("종합병원 데이터 업로드")

    # 상업시설 데이터
    commerceDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/상업시설/상업시설데이터.csv')
    print("상업시설 데이터 업로드")

    # 편의시설 데이터
    parkDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/편의시설/공원데이터.csv')
    print("공원 데이터 업로드")
    libraryDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/편의시설/도서관데이터.csv')
    print("도서관 데이터 업로드")

    # 교육시설 데이터
    kinderDf=  upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교육시설/유치원데이터.csv')
    print("유치원 데이터 업로드")
    lowSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교육시설/초등학교데이터.csv')
    print("초등학교 데이터 업로드")
    middleSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교육시설/중학교데이터.csv')
    print("중학교 데이터 업로드")
    highSchoolDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교육시설/고등학교데이터.csv')
    print("고등학교 데이터 업로드")
    academyDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교육시설/학원데이터.csv')
    print("학원 데이터 업로드")

    # 교통시설 데이터
    subwayDf = upload_data_utf('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/교통시설/역사데이터.csv')
    print("지하철 데이터 업로드")

  return (pharmacyDf, clinicDf, hospitalDf, generalHDf, commerceDf, parkDf, libraryDf, kinderDf, lowSchoolDf, middleSchoolDf, highSchoolDf, academyDf, subwayDf)


def get_distance(ApartDF):
  # 1개의 아파트와 n개의 입지시설 데이터를 매칭시키고 거리를 구함.
  # 구해진 거리 중 최소의 값만 추출할 것.
  # 의료시설
  pharmacy_dt = ApartDF.apply(lambda row: calculate_distances(row, pharmacyDf), axis=1)
  pharmacy_minDt = pharmacy_dt.apply(lambda row : row.min(), axis = 1)

  clinic_dt = ApartDF.apply(lambda row: calculate_distances(row, clinicDf), axis=1)
  clinic_minDt = clinic_dt.apply(lambda row : row.min(), axis = 1)

  hospital_dt = ApartDF.apply(lambda row: calculate_distances(row, hospitalDf), axis=1)
  hospital_minDt = hospital_dt.apply(lambda row : row.min(), axis = 1)

  generalH_dt = ApartDF.apply(lambda row: calculate_distances(row, generalHDf), axis=1)
  generalH_minDt = generalH_dt.apply(lambda row : row.min(), axis = 1)

  # 상업시설
  commerce_dt = ApartDF.apply(lambda row: calculate_distances(row, commerceDf), axis=1)
  commerce_minDt = commerce_dt.apply(lambda row : row.min(), axis = 1)

  # 편의시설
  park_dt = ApartDF.apply(lambda row: calculate_distances(row, parkDf), axis=1)
  park_minDt = park_dt.apply(lambda row : row.min(), axis = 1)

  library_dt = ApartDF.apply(lambda row: calculate_distances(row, libraryDf), axis=1)
  library_minDt = library_dt.apply(lambda row : row.min(), axis = 1)

  # 교육시설
  kinder_dt = ApartDF.apply(lambda row: calculate_distances(row, kinderDf), axis=1)
  kinder_minDt = kinder_dt.apply(lambda row : row.min(), axis = 1)

  lowSchool_dt = ApartDF.apply(lambda row: calculate_distances(row, lowSchoolDf), axis=1)
  lowSchool_minDt = lowSchool_dt.apply(lambda row : row.min(), axis = 1)

  middleSchool_dt = ApartDF.apply(lambda row: calculate_distances(row, middleSchoolDf), axis=1)
  middleSchool_minDt = middleSchool_dt.apply(lambda row : row.min(), axis = 1)

  highSchool_dt = ApartDF.apply(lambda row: calculate_distances(row, highSchoolDf), axis=1)
  highSchool_minDt = highSchool_dt.apply(lambda row : row.min(), axis = 1)

  academy_dt = ApartDF.apply(lambda row: calculate_distances(row, academyDf), axis=1)
  academy_minDt = academy_dt.apply(lambda row : row.min(), axis = 1)

  # 교통시설
  subway_dt = ApartDF.apply(lambda row: calculate_distances(row, subwayDf), axis=1)
  subway_minDt = subway_dt.apply(lambda row : row.min(), axis = 1)

  # 모든 아파트로부터 입지 간 최소 거리 데이터 하나로 합침
  LocationDF = pd.concat(
    [pharmacy_minDt, clinic_minDt, hospital_minDt, generalH_minDt, commerce_minDt, park_minDt, library_minDt, kinder_minDt, lowSchool_minDt, middleSchool_minDt, highSchool_minDt, academy_minDt, subway_minDt],
    axis=1,
    keys=['약국', '의원', '병원', '대병원', '대형상권', '공원', '도서관', '유치원', '초등학교', '중학교', '고등학교', '학원', '지하철']
    )

  return LocationDF

In [None]:
# 안양 입지 데이터 업로드
pharmacyDf, clinicDf, hospitalDf, generalHDf, commerceDf, parkDf, libraryDf, kinderDf, lowSchoolDf, middleSchoolDf, highSchoolDf, academyDf, subwayDf = upload_location_data("안양")

MananDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/만안구2206_2309.csv')
DonganDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/AnyangData/동안구2206_2309.csv')

# 만안구 아파트 실거래가, 동안구 아파트 실거래가 통합
ApartDF = pd.concat([MananDF, DonganDF], axis=0, ignore_index=True)

안양시 데이터 업로드


In [None]:
# ex) 수원 데이터 업로드
pharmacyDf, clinicDf, hospitalDf, generalHDf, commerceDf, parkDf, libraryDf, kinderDf, lowSchoolDf, middleSchoolDf, highSchoolDf, academyDf, subwayDf = upload_location_data("수원")

GwonsunDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/권선구2206_2309.csv')
YeongtongDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/영통구2206_2309.csv')
JanganDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/장안구2206_2309.csv')
PaldalDF = upload_data_cp('/content/drive/MyDrive/Colab Notebooks/헤도닉_집값예측/SuwonData/팔달구2206_2309.csv')

ApartDF = pd.concat([GwonsunDF, YeongtongDF, JanganDF, PaldalDF], axis=0, ignore_index=True)

약국 데이터 업로드
의원 데이터 업로드
병원 데이터 업로드
종합병원 데이터 업로드
상업시설 데이터 업로드
공원 데이터 업로드
도서관 데이터 업로드
유치원 데이터 업로드
초등학교 데이터 업로드
중학교 데이터 업로드
고등학교 데이터 업로드
학원 데이터 업로드
지하철 데이터 업로드


In [None]:
LocationDF = get_distance(ApartDF)

In [None]:
x_data = pd.concat([ApartDF, LocationDF], axis = 1)

In [None]:
x_data.to_csv('XDATA.csv', index=False, encoding='utf-8-sig')