In [1]:
# deprecate 관련 경고는 무시하도록 설정
import warnings
warnings.filterwarnings('ignore')

## 참고 자료 : WGS84 위경도 좌표 기반 데이터 집계 및 시각화하기
https://wooiljeong.github.io/python/count_by_wgs84/

In [2]:
import time
import pandas as pd
import folium
from geopy.distance import great_circle
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 구글맵 API 키    // 무료사용기간 종료
#import googlemaps as gmaps
#gmap =gmaps.Client(key='AIzaSyCeyNE6sXaQiH-E059pVdlLXQdDGLFTNkk')

In [3]:
class CountByWGS84:    # WGS84 위경도 좌표 기반 데이터 집계
    def __init__(self, df, lat, lon, dist=1, zoom=10):
        self.df = df
        self.lat = lat
        self.lon = lon
        self.dist = dist
        self.zoom = zoom

    def filter_by_rectangle(self):   # 사각 범위 내 데이터 필터링
        lat_min = self.lat - 0.01 * self.dist
        lat_max = self.lat + 0.01 * self.dist
        lon_min = self.lon - 0.015 * self.dist
        lon_max = self.lon + 0.015 * self.dist

        self.points = [[lat_min, lon_min], [lat_max, lon_max]]
        print(self.points)
        result = self.df.loc[
            (self.df['lat'] > lat_min) & (self.df['lat'] < lat_max) &
            (self.df['lon'] > lon_min) & (self.df['lon'] < lon_max) ]
        result.index = range(len(result))
        return result

    def filter_by_radius(self):   # 반경 범위 내 데이터 필터링
        tmp = self.filter_by_rectangle()
        center = (self.lat, self.lon)
        
        result = pd.DataFrame()
        for index, row in tmp.iterrows():
            point = (row['lat'], row['lon'])
            d = great_circle(center, point).kilometers
            if d <= self.dist:
                result = pd.concat([result, tmp.iloc[index, :].to_frame().T])
        result.index = range(len(result))
        return result
    
    def plot_by_radius(self, df):
        """
        반경 범위 내 데이터 시각화
        """
        m = folium.Map(location=[self.lat, self.lon], zoom_start=self.zoom)
        
        folium.Marker(location=[self.lat, self.lon],   # 직장 마커
                      tooltip=startPoint, 
                      icon=folium.Icon(color='blue', icon='star', icon_color='white')
                     ).add_to(m)
        
        for idx, row in df.iterrows():
            lat_ = row['lat']
            lon_ = row['lon']

            folium.Marker(location=[lat_, lon_],   # 아파트 마커
                          icon=folium.Icon(color='red', icon='home', icon_color='white', prefix='fa'), 
                          tooltip=row['아파트명']).add_to(m)

        folium.Circle(radius=dist * 1000,
                      location=[lat, lon],
                      color="#ff7800",
                      fill_color='#ffff00',
                      fill_opacity=0.2
                      ).add_to(m)

        return m

## 직장에서 반경 내에 있는 아파트 선별하기

In [4]:
apts = pd.read_csv("서울_아파트.csv")
apts.head()

Unnamed: 0,아파트명,주소,lat,lon
0,우리유앤미,서울특별시 동작구 서달로 83,37.500668,126.959639
1,송파파인타운13단지,서울특별시 송파구 송파대로8길 10,37.476897,127.129179
2,오금현대백조(임대),서울특별시 송파구 양재대로72길 20,37.508906,127.128775
3,개봉건영,서울특별시 구로구 고척로21나길 85-6,37.501162,126.840675
4,월계동원베네스트,서울특별시 노원구 월계로53길 21,37.631732,127.05822


## ▼ 직장주소를 입력하세요.

In [5]:
startPoint = "서울특별시 영등포구 대림동 시흥대로 657"
dist = 5                               # km ( 5km : 대중교통 40분 정도 소요 )

In [6]:
"""
# 출발지의 위도 경도 추출
sp = gmap.geocode(startPoint, language='ko')
lat = sp[0]['geometry']['location']['lat']
lon = sp[0]['geometry']['location']['lng']
lat, lon
"""

"\n# 출발지의 위도 경도 추출\nsp = gmap.geocode(startPoint, language='ko')\nlat = sp[0]['geometry']['location']['lat']\nlon = sp[0]['geometry']['location']['lng']\nlat, lon\n"

In [7]:
# 카카오 Api를 활용한 geocode로 위도/경도 찾기
import requests
import json

def getLatLng(addr):
    url = 'https://dapi.kakao.com/v2/local/search/address.json?query=' + addr
    headers = {"Authorization": "KakaoAK cadcab337397205d9b04bf306e2d6acc"}   # header에 넣는 API KEY값 : KakaoAK + REST API키
    result = json.loads(str(requests.get(url, headers=headers).text))

    try:
        match_first = result['documents'][0]['address']
        lon = float(match_first['x'])
        lat = float(match_first['y'])
        return lat, lon

    except IndexError:  # match값이 없을 때
        return 0,0
    except TypeError:  # match값이 2개 이상일 때
        return 2,2

lat, lon = getLatLng(startPoint)
lat, lon

(37.4906897932713, 126.90716733115)

In [8]:
CBW = CountByWGS84(apts, lat, lon, dist)
apts = CBW.filter_by_radius()         # 반경 범위 내 데이터 필터링

print(f"""
직장 주소 : {startPoint}
기준 거리 : {dist} km
반경 범위 내 필터링 결과: {len(apts)} 건
""")
apts.head()

[[37.440689793271304, 126.83216733115], [37.5406897932713, 126.98216733115001]]

직장 주소 : 서울특별시 영등포구 대림동 시흥대로 657
기준 거리 : 5 km
반경 범위 내 필터링 결과: 434 건



Unnamed: 0,아파트명,주소,lat,lon
0,우리유앤미,서울특별시 동작구 서달로 83,37.500668,126.959639
1,여의도초원,서울특별시 영등포구 국회대로76가길 11,37.530964,126.923193
2,독산진도2차,서울특별시 금천구 두산로 36,37.470023,126.892217
3,독산계룡,서울특별시 금천구 범안로15길 7,37.467153,126.892794
4,신도림우성5차,서울특별시 구로구 신도림로21길 21,37.512723,126.883792


## 찾아낸 아파트들의 반경 1km 내 시설 개수 파악하기

In [9]:
dist = 1          # 반경(km) : 1km 도보 10~15분

In [10]:
parks = pd.read_csv("서울_공원_좌표.csv")
subways = pd.read_csv("전국_전철역_좌표.csv")
stores = pd.read_csv("서울_점포_좌표.csv")
police = pd.read_csv("서울_경찰서_좌표.csv")
hospitals = pd.read_csv("전국_병원_좌표.csv")

In [11]:
def countRadius(df, colName):
    for i in range(len(apts)):
        apt = apts.iloc[i, :]
        lat = apt.loc['lat']
        lon = apt.loc['lon']

        cbw = CountByWGS84(df, lat, lon, dist)          # 반경 집계 인스턴스 생성
        result_radius = cbw.filter_by_radius()          # 반경 범위 내 데이터 필터링

        apts.loc[i, colName] = len(result_radius)

In [12]:
df = [parks, subways, stores, police, hospitals]
colName = ['공원', '전철역', '점포', '경찰서', '병원']

In [None]:
for i in range(len(df)):
    countRadius(df[i], colName[i])

countRadius(parks, '공원')
countRadius(subways, '전철역')
countRadius(stores, '점포')
countRadius(police, '경찰서')
countRadius(hospitals, '병원')

In [14]:
apts.head()

Unnamed: 0,아파트명,주소,lat,lon,공원,전철역,점포,경찰서,병원
0,우리유앤미,서울특별시 동작구 서달로 83,37.500668,126.959639,0.0,1.0,1.0,0.0,1.0
1,여의도초원,서울특별시 영등포구 국회대로76가길 11,37.530964,126.923193,1.0,1.0,2.0,1.0,0.0
2,독산진도2차,서울특별시 금천구 두산로 36,37.470023,126.892217,0.0,1.0,8.0,2.0,3.0
3,독산계룡,서울특별시 금천구 범안로15길 7,37.467153,126.892794,0.0,1.0,7.0,2.0,3.0
4,신도림우성5차,서울특별시 구로구 신도림로21길 21,37.512723,126.883792,0.0,3.0,5.0,0.0,0.0


## 아파트 주변 시설 개수에 따라 점수 부여하기

In [15]:
df = apts
df.describe()

Unnamed: 0,공원,전철역,점포,경찰서,병원
count,434.0,434.0,434.0,434.0,434.0
mean,0.534562,2.198157,4.774194,1.292627,2.596774
std,0.722425,1.346416,2.934178,0.888516,1.631415
min,0.0,0.0,0.0,0.0,0.0
25%,0.0,1.0,3.0,1.0,1.0
50%,0.0,2.0,4.0,1.0,2.0
75%,1.0,3.0,7.0,2.0,4.0
max,3.0,6.0,15.0,5.0,8.0


In [16]:
lebels = list(range(1,21,1))

df["s1"] = pd.cut(df["공원"], 20, labels=lebels)
df["s2"] = pd.cut(df["전철역"], 20, labels=lebels)
df["s3"] = pd.cut(df["점포"], 20, labels=lebels)
df["s4"] = pd.cut(df["경찰서"], 20, labels=lebels)
df["s5"] = pd.cut(df["병원"], 20, labels=lebels)

df["s1"] = pd.to_numeric(df["s1"])
df["s2"] = pd.to_numeric(df["s2"])
df["s3"] = pd.to_numeric(df["s3"])
df["s4"] = pd.to_numeric(df["s4"])
df["s5"] = pd.to_numeric(df["s5"])

df["score"] = df['s1'] + df['s2'] + df['s3'] + df['s4'] + df['s5']
topApts = df.sort_values(by=['score'], axis=0, ascending=False).head(10)

topApts.head(3)

Unnamed: 0,아파트명,주소,lat,lon,공원,전철역,점포,경찰서,병원,s1,s2,s3,s4,s5,score
23,당산신동아파밀리에,서울특별시 영등포구 영신로33길 3,37.519805,126.900396,1.0,5.0,9.0,3.0,7.0,7,17,12,12,18,66
21,구로금호어울림,서울특별시 구로구 공원로 26,37.500058,126.891987,0.0,6.0,7.0,3.0,6.0,1,20,10,12,15,58
130,당산한양,서울특별시 영등포구 영신로 193,37.525463,126.899751,0.0,4.0,12.0,2.0,7.0,1,14,16,8,18,57


In [17]:
topApts = topApts.iloc[:, [0,1,2,3,4,5,6,7,8,14]]
topApts = topApts.reset_index(drop=True)
topApts

Unnamed: 0,아파트명,주소,lat,lon,공원,전철역,점포,경찰서,병원,score
0,당산신동아파밀리에,서울특별시 영등포구 영신로33길 3,37.519805,126.900396,1.0,5.0,9.0,3.0,7.0,66
1,구로금호어울림,서울특별시 구로구 공원로 26,37.500058,126.891987,0.0,6.0,7.0,3.0,6.0,58
2,당산한양,서울특별시 영등포구 영신로 193,37.525463,126.899751,0.0,4.0,12.0,2.0,7.0,57
3,순영웰라이빌아파트,서울특별시 영등포구 영등포로62길 42,37.516573,126.912953,2.0,4.0,6.0,2.0,5.0,57
4,금호어울림,서울특별시 영등포구 문래로 137,37.519108,126.897049,0.0,5.0,9.0,3.0,6.0,57
5,당산2가현대,서울특별시 영등포구 당산로 95,37.52351,126.894895,0.0,5.0,13.0,1.0,6.0,55
6,구로대성스카이렉스,서울특별시 구로구 공원로 27,37.499444,126.890954,0.0,4.0,7.0,3.0,7.0,55
7,포레나영등포센트럴,서울특별시 영등포구 국회대로50길 20,37.523206,126.905671,2.0,4.0,6.0,1.0,6.0,55
8,당산진로,서울특별시 영등포구 당산로 68,37.520654,126.89636,0.0,4.0,11.0,2.0,6.0,53
9,당산SHVILLE,서울특별시 영등포구 영신로 183,37.524215,126.901534,1.0,4.0,7.0,1.0,7.0,53


## 직장과의 대중교통 소요시간 알아내기 

In [18]:
url = 'https://www.google.co.kr/maps/dir/'      # 구글맵 길찾기를 크롬 webdriver로 실행

path = '/home/hadoop/chromedriver'
options = Options()
options.add_argument('--headless')
chrome = webdriver.Chrome(executable_path=path, options=options)
chrome.get(url)
chrome.implicitly_wait(2)
time.sleep(2)
#print(chrome.page_source)

In [19]:
# 대중교통 버튼 클릭
chrome.find_element(By.XPATH, '//*[@id="omnibox-directions"]/div/div[2]/div/div/div[1]/div[3]/button/img').click()
time.sleep(3)
# 출발지 입력
chrome.find_element(By.XPATH, '//*[@id="sb_ifc50"]/input').send_keys(startPoint)
time.sleep(1)

In [20]:
for i in range(len(topApts)):
    chrome.find_element(By.XPATH, '//*[@id="sb_ifc51"]/input').send_keys(topApts.주소[i])   # 목적지에 아파트주소 입력
    time.sleep(1)

    try:       # 엔터키 누르기
        chrome.find_element(By.XPATH, '//*[@id="sb_ifc51"]/input').send_keys(Keys.RETURN)   
    except:    # 오류나면 길찾기버튼(돋보기) 클릭하기
        chrome.find_element(By.XPATH, '//*[@id="directions-searchbox-1"]/button[1]').click()
    time.sleep(2)
    
    try:       # 소요시간 가져오기
        myTime = chrome.find_element(By.XPATH, '//*[@id="section-directions-trip-0"]/div/div[2]/div[1]/div').text
    except:    # 오류나면 비워두기
        myTime = ''

    print(i, '/', topApts.아파트명[i], ' / 소요시간 :', myTime)
    topApts.loc[i, '소요시간'] = myTime
    chrome.find_element(By.XPATH, '//*[@id="sb_ifc51"]/input').clear()    # 목적지란 비우기
    time.sleep(2)

chrome.close()

0 / 당산신동아파밀리에  / 소요시간 : 19분
1 / 구로금호어울림  / 소요시간 : 16분
2 / 당산한양  / 소요시간 : 25분
3 / 순영웰라이빌아파트  / 소요시간 : 15분
4 / 금호어울림  / 소요시간 : 22분
5 / 당산2가현대  / 소요시간 : 20분
6 / 구로대성스카이렉스  / 소요시간 : 16분
7 / 포레나영등포센트럴  / 소요시간 : 21분
8 / 당산진로  / 소요시간 : 19분
9 / 당산SHVILLE  / 소요시간 : 23분


In [21]:
topApts

Unnamed: 0,아파트명,주소,lat,lon,공원,전철역,점포,경찰서,병원,score,소요시간
0,당산신동아파밀리에,서울특별시 영등포구 영신로33길 3,37.519805,126.900396,1.0,5.0,9.0,3.0,7.0,66,19분
1,구로금호어울림,서울특별시 구로구 공원로 26,37.500058,126.891987,0.0,6.0,7.0,3.0,6.0,58,16분
2,당산한양,서울특별시 영등포구 영신로 193,37.525463,126.899751,0.0,4.0,12.0,2.0,7.0,57,25분
3,순영웰라이빌아파트,서울특별시 영등포구 영등포로62길 42,37.516573,126.912953,2.0,4.0,6.0,2.0,5.0,57,15분
4,금호어울림,서울특별시 영등포구 문래로 137,37.519108,126.897049,0.0,5.0,9.0,3.0,6.0,57,22분
5,당산2가현대,서울특별시 영등포구 당산로 95,37.52351,126.894895,0.0,5.0,13.0,1.0,6.0,55,20분
6,구로대성스카이렉스,서울특별시 구로구 공원로 27,37.499444,126.890954,0.0,4.0,7.0,3.0,7.0,55,16분
7,포레나영등포센트럴,서울특별시 영등포구 국회대로50길 20,37.523206,126.905671,2.0,4.0,6.0,1.0,6.0,55,21분
8,당산진로,서울특별시 영등포구 당산로 68,37.520654,126.89636,0.0,4.0,11.0,2.0,6.0,53,19분
9,당산SHVILLE,서울특별시 영등포구 영신로 183,37.524215,126.901534,1.0,4.0,7.0,1.0,7.0,53,23분


## 상위 10개 아파트 시각화

In [22]:
dist = 5
zoom = 12.3
CBW = CountByWGS84(topApts, lat, lon, dist, zoom)
CBW.plot_by_radius(topApts)

In [23]:
topApts.to_csv('아파트Top10.csv', index=False)