# 임포트 모듈

In [8]:
import folium
from haversine import haversine, Unit
from geopy.geocoders import Nominatim

import numpy as np
import pandas as pd
import os
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import re

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

# 크롤링 드라이버

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
import time

def set_chrome_driver():
    chrome_options = webdriver.ChromeOptions()
#     chrome_options.add_argument('headless') 이 코드를 사용하면 일일이 드라이버를 다운받을 필요가 없음
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), 
                              options=chrome_options)
    return driver

# 수도권 지하철역 좌표

In [7]:
stay = pd.read_csv('data/서울교통공사_1-8호선 지하철역 위경도 좌표정보_20220621.csv', encoding='cp949')
stay.index = stay['역명']
del stay['역명'] # del을 이용해서 하나씩 삭제
del stay['데이터기준일자']
stay

Unnamed: 0_level_0,연번,호선,역번호,경도,위도
역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,1,1,150,126.972533,37.553150
시청,2,1,151,126.975407,37.563590
종각,3,1,152,126.983116,37.570203
종로3가,4,1,153,126.992095,37.570429
종로5가,5,1,154,127.001900,37.570971
...,...,...,...,...,...
남한산성입구,272,8,2823,127.159845,37.451568
단대오거리,273,8,2824,127.156735,37.445057
신흥,274,8,2825,127.147590,37.440952
수진,275,8,2826,127.140936,37.437575


# 수도권 아파트 좌표

In [9]:
apt = pd.read_csv('data/서울특별시_광진구_아파트정보_20210208.csv', encoding='cp949')
apt.drop(['관리사무소연락처', '관리사무소팩스', '데이터기준일자'], axis=1, inplace=True) # drop으로 한번에 삭제
apt['아파트소재지'] = apt['아파트소재지'].str.replace(r'\([^)]*\)', '', regex=True) # 괄호 안의 문자열을 괄호와 함께 삭제
apt

Unnamed: 0,구분,단지명,아파트소재지,동수,세대수,층수
0,아파트,삼민,서울특별시 광진구 긴고랑로15길 32,1,36,6
1,아파트,중곡2차,서울특별시 광진구 긴고랑로1길 55,3,120,5
2,아파트,중곡1차,서울특별시 광진구 동일로72길 17,3,150,5
3,아파트,중곡성원,서울특별시 광진구 동일로 459,1,91,24
4,아파트,광덕,서울특별시 광진구 동일로76가길 17,1,55,12
...,...,...,...,...,...,...
90,아파트,더샵스타시티,서울특별시 광진구 아차산로 262,4,1177,58
91,아파트,이튼타워리버3차,서울특별시 광진구 능동로 18,3,260,25
92,아파트,래미안구의파크스위트,서울특별시 광진구 광나루로 545,12,854,23
93,아파트,테라팰리스건대1차,서울특별시 광진구 아차산로25길 60,1,54,7


In [6]:
address = apt['아파트소재지']
address

0     서울특별시 광진구 긴고랑로15길 32
1      서울특별시 광진구 긴고랑로1길 55
2      서울특별시 광진구 동일로72길 17
3        서울특별시 광진구 동일로 459
4     서울특별시 광진구 동일로76가길 17
              ...         
90      서울특별시 광진구 아차산로 262
91        서울특별시 광진구 능동로 18
92      서울특별시 광진구 광나루로 545
93    서울특별시 광진구 아차산로25길 60
94    서울특별시 광진구 아차산로25길 60
Name: 아파트소재지, Length: 95, dtype: object

In [10]:
geo_local = Nominatim(user_agent='South Korea') # 지역선택

def geocoding(address): 
    geo = geo_local.geocode(address)
    x_y = [geo.latitude, geo.longitude]
    return x_y

latitude = []
longitude = []
exception_addr = []

for i in address:
    try:
        latitude.append(geocoding(i)[0])
        longitude.append(geocoding(i)[1])
    except:
        exception_addr.append(i) # 위경도를 잡지 못한경우 exception에 따로 저장, 여기서는 4개 데이터가 빠지게 됨
# 시간이 좀 걸림, 약 1분 30초정도 소요됨

# 위경도 데이터 셋

In [14]:
stay_df = pd.DataFrame({'위도':stay['위도'].values,'경도':stay['경도'].values})
address_df = pd.DataFrame({'위도':latitude,'경도':longitude})
stay_df, address_df

(            위도          경도
 0    37.553150  126.972533
 1    37.563590  126.975407
 2    37.570203  126.983116
 3    37.570429  126.992095
 4    37.570971  127.001900
 ..         ...         ...
 271  37.451568  127.159845
 272  37.445057  127.156735
 273  37.440952  127.147590
 274  37.437575  127.140936
 275  37.433888  127.129921
 
 [276 rows x 2 columns],
            위도          경도
 0   37.562648  127.083326
 1   37.565546  127.079528
 2   37.537857  127.062466
 3   37.569339  127.080247
 4   37.558587  127.087151
 ..        ...         ...
 86  37.543648  127.102958
 87  37.537842  127.068701
 88  37.543935  127.092727
 89  37.542256  127.066902
 90  37.542256  127.066902
 
 [91 rows x 2 columns])

# 거리계산 예시

In [12]:
start = (float(stay_df['위도'][0]), float(stay_df['경도'][0])) # 서울역
goal = (float(address_df['위도'][0]), float(address_df['경도'][0])) # 삼민아파트

print(start, goal)

haversine(start, goal, unit='m') # 미터단위, 숫자가 너무 크게 나오는 관계로 이후에는 킬로미터단위로 사용

(37.55315, 126.972533) (37.562648, 127.0833258)


9823.162527738179

# 거리계산->결과저장

In [15]:
result = []

for i in range(len(stay_df)):
    st_name = stay.index[i] # 역의 이름을 저장
    start = (float(stay_df['위도'][i]), float(stay_df['경도'][i])) # 역의 좌표를 저장
    for j in range(len(address_df)):
        apt_name = apt['단지명'][j] # 아파트 이름을 저장
        goal = (float(address_df['위도'][j]), float(address_df['경도'][j])) # 아파트 좌표를 저장
        print(start, goal) # 각 좌표들을 출력
        geoly = haversine(start, goal) # 좌표간 거리를 저장, 킬로미터단위로
        print(f'{geoly:.2f}km') # 좌표간 거리를 출력, 소숫점 두자리까지
        print('--------------------------') # 구분선
        r_start = np.round(start, 2) # 역 좌표를 소숫점 두번째 자리까지
        r_goal = np.round(goal, 2) # 아파트 좌표를 소숫점 두번째 자리까지
        r_geoly = np.round(geoly, 2) # 좌표간 거리를 소숫점 두번째 자리까지
        result.append([st_name, r_start, apt_name, r_goal, r_geoly]) # 상기 저장된 내용을 리스트에 저장

(37.55315, 126.972533) (37.562648, 127.0833258)
9.82km
--------------------------
(37.55315, 126.972533) (37.5655463, 127.0795285)
9.53km
--------------------------
(37.55315, 126.972533) (37.5378567, 127.0624661)
8.11km
--------------------------
(37.55315, 126.972533) (37.5693387, 127.0802473)
9.66km
--------------------------
(37.55315, 126.972533) (37.5585867, 127.0871514)
10.12km
--------------------------
(37.55315, 126.972533) (37.5410325, 127.086969)
10.18km
--------------------------
(37.55315, 126.972533) (37.5538674, 127.09686)
10.96km
--------------------------
(37.55315, 126.972533) (37.54795875, 127.09334624735006)
10.67km
--------------------------
(37.55315, 126.972533) (37.5554561, 127.0845439)
9.88km
--------------------------
(37.55315, 126.972533) (37.5372439, 127.0931747)
10.78km
--------------------------
(37.55315, 126.972533) (37.5372439, 127.0931747)
10.78km
--------------------------
(37.55315, 126.972533) (37.53781, 127.09669)
11.08km
------------------------

In [16]:
result_df = pd.DataFrame(result, columns=['역 이름', '역 좌표', '아파트 이름', '아파트 좌표', '역까지의 거리']) # 리스트를 데이터프레임화 하고 컬럼명을 붙임
result_df.to_csv('data/광진구 아파트 정리됨.csv', encoding='cp949') # csv로 저장

# 전처리 완료된 데이터 끌어오기

In [17]:
df = pd.read_csv('data/광진구 아파트 정리됨.csv', index_col='Unnamed: 0', encoding='cp949')
df

Unnamed: 0,역 이름,역 좌표,아파트 이름,아파트 좌표,역까지의 거리
0,서울,[ 37.55 126.97],삼민,[ 37.56 127.08],9.82
1,서울,[ 37.55 126.97],중곡2차,[ 37.57 127.08],9.53
2,서울,[ 37.55 126.97],중곡1차,[ 37.54 127.06],8.11
3,서울,[ 37.55 126.97],중곡성원,[ 37.57 127.08],9.66
4,서울,[ 37.55 126.97],광덕,[ 37.56 127.09],10.12
...,...,...,...,...,...
25111,모란,[ 37.43 127.13],구의아크로리버,[ 37.54 127.1 ],12.43
25112,모란,[ 37.43 127.13],강변sk뷰,[ 37.54 127.07],12.76
25113,모란,[ 37.43 127.13],래미안프리미어팰리스,[ 37.54 127.09],12.67
25114,모란,[ 37.43 127.13],광진트라팰리스,[ 37.54 127.07],13.27


# 역까지 거리가 1km이하인 아파트 단지 찾기->결과저장

In [18]:
ilkilo = []

for i in range(len(stay_df)):
    st_name = stay.index[i] 
    start = (float(stay_df['위도'][i]), float(stay_df['경도'][i]))
    for j in range(len(address_df)):
        apt_name = apt['단지명'][j]
        goal = (float(address_df['위도'][j]), float(address_df['경도'][j]))
        geoly = haversine(start, goal)
        r_start = np.round(start, 2)
        r_goal = np.round(goal, 2)
        r_geoly = np.round(geoly, 2)
        # 여기까지는 위 코드와 같음
        if r_geoly <=1:
            ilkilo.append([st_name, r_start, apt_name, r_goal, r_geoly])
        else:
            pass

In [19]:
ilkilo_df = pd.DataFrame(ilkilo, columns=['역 이름', '역 좌표', '아파트 이름', '아파트 좌표', '역까지의 거리'])
ilkilo_df.to_csv('data/역세권인가.csv', encoding='cp949')

# 역 이름을 검색해서 주변 1km내의 아파트 찾기

In [20]:
def search(x):
    return ilkilo_df[ilkilo_df['역 이름']==x]

In [33]:
search('아차산') # 군자역 근처 아파트

Unnamed: 0,역 이름,역 좌표,아파트 이름,아파트 좌표,역까지의 거리
86,아차산,"[37.55, 127.09]",광덕,"[37.56, 127.09]",0.76
87,아차산,"[37.55, 127.09]",구의동새한,"[37.55, 127.1]",0.67
88,아차산,"[37.55, 127.09]",아차산한라(한라녹턴),"[37.55, 127.09]",0.56
89,아차산,"[37.55, 127.09]",아차산 휴먼시아,"[37.56, 127.08]",0.59
90,아차산,"[37.55, 127.09]",광장현대파크빌,"[37.54, 127.09]",0.94
91,아차산,"[37.55, 127.09]",광장동금호,"[37.56, 127.08]",0.59
92,아차산,"[37.55, 127.09]",신동아파밀리에,"[37.54, 127.09]",0.94
93,아차산,"[37.55, 127.09]",래미안프리미어팰리스,"[37.54, 127.09]",0.94


In [23]:
search('서울') # 조건에 맞는 데이터가 없을경우 이런식으로 출력

Unnamed: 0,역 이름,역 좌표,아파트 이름,아파트 좌표,역까지의 거리


# 아파트 이름으로 네이버부동산 시세정보 크롤링

In [26]:
def search2(x):
    driver = set_chrome_driver()
    naver ='https://land.naver.com/'
    driver.get(naver)
    time.sleep(2)
    driver.find_element(By.ID, 'queryInputHeader').send_keys(x)
    driver.find_element(By.CSS_SELECTOR, 
                    '#header > div.gnb_wrap > div > div.item_area.NE\=a\:STA > div > fieldset > a.search_button.type_inside.NPI\=a\:search').click()
    time.sleep(2)
    try:
        driver.find_element(By.CSS_SELECTOR, 
                        '#ct > div.map_wrap > div.search_panel > div.list_contents > div > div > div:nth-child(1) > div > a').click()
    except:
        pass
    time.sleep(2)
    info = driver.find_element(By.XPATH, '//*[@id="summaryInfo"]')
    print(info.text)

In [34]:
search2('래미안프리미어팰리스') # 잘 돌아갈 경우 드라이버는 종료되고 결과가 나옴. 아닐경우 드라이버가 남고 에러 발생. 대부분 에러


아파트래미안프리미어팰리스(주상복합)
세대수
264세대
동수
총 2동
사용승인일
2017.10
면적
86.31㎡ ~ 139.79㎡
최근 매매 실거래가
16억 5,000
2022.05.16, 27층, 116㎡
매매가15억~17억
전세가11억
단지정보
시세/실거래가
동호수/공시가격


### 문제점1. 데이터가 정확하지 않은 듯함 ex.아차산 휴먼시아는 아차산 포레인이라는 이름으로 바뀐듯
### 문제점2. 크롤링시 무조건 첫번째 검색결과를 잡도록 했지만 원하는 결과가 첫번째에 있으리란 보장이 없음.