In [2]:
# 크롤링 작업을 위한 라이브러리 임포트
from bs4 import BeautifulSoup as bs
from selenium import webdriver
import requests
import pandas as pd
import json
import time   # 코드 진행 지연을 위한 time 임포트
from selenium.webdriver.common.by import By   # 2022년 7월 이후 selenium 업데이트로 인한 xpath 추적 임포트
from selenium.webdriver.common.keys import Keys

#########################################################
####################  API  입력  부분  ####################
#########################################################

##### 카카오 주소를 좌표(위도, 경도)로 변환 api
## 개인 api key를 할당 받아 적용
api_key = '054a38bc8bc9ee2f8fadaaad44e27f97'
def addr_to_lat_lon(addr):
    url = f'https://dapi.kakao.com/v2/local/search/address.json?query={addr}'
    headers = {"Authorization": "KakaoAK " + api_key}
    result = json.loads(str(requests.get(url, headers=headers).text))
    
#    print(num, result['documents'][0]['address'])
    match_first = result['documents'][0]['address']
    return float(match_first['x']), float(match_first['y'])


##### 카카오맵 minimap으로 생성
## No module named 'folium' 라는 에러가 뜬다면
## anaconda cmd 창에서 "pip install folium" 으로 설치
import folium
from folium.plugins import MiniMap

def make_map(df, region):
    # 해당 지역 시/도청 좌표 Search
    yp = addr_to_lat_lon(region)[0]
    xp = addr_to_lat_lon(region)[1]
    
    # 지도 생성하기
    m = folium.Map(location=[xp,yp],   # 뽑은 좌표
                   zoom_start=12)
    # 미니맵 추가하기
    minimap = MiniMap() 
    m.add_child(minimap)

    # 마커 추가하기
    for i in range(len(df)):
        folium.Marker(location=[df['위도'][i],df['경도'][i]],
                  popup=df['점수'][i],
                  tooltip=[df['식당명'][i], "\n점수", df['점수'][i]]
                  ).add_to(m)
    return m

In [3]:
#########################################################
####################  크롤링  입력 부분  ####################
#########################################################
region = str(input("검색을 원하는 지역의 \'시, 도\'를 입력해 주세요 : "))
page  = int(input("검색 범위(페이지)를 입력해주세요. : "))
starpoint = float(input("최소점수를 입력해 주세요(4.5 만점) : "))

driver = webdriver.Chrome("chromedriver")
time.sleep(1)
driver.get('https://map.kakao.com/')
time.sleep(2)
driver.find_element(By.XPATH, '//*[@id="search.keyword.query"]').send_keys('%s 식당\n' % region)
time.sleep(2)
driver.find_element(By.XPATH, '//*[@id="info.search.place.sort"]/li[1]/a').send_keys(Keys.ENTER)
time.sleep(2)

n_list = []     # 식당 이름 리스트
s_list = []     # 식당 점수 리스트
a_list = []     # 식당 주소 리스트
px_list = []    # 경도 리스트
py_list = []    # 위도 리스트
ka_list = {}    # 점수로 정리된 식당 리스트
ka_dict = {}


#########################################################
####################  DataFrame 입력  ####################
#########################################################
## 페이지 5보다 작을 때
if page < 5:
    for j in range(1,page+1):
        source = driver.page_source
        parsed_source = bs(source, 'html.parser')

        names_div_list = parsed_source.find_all("li",class_ = 'PlaceItem clickArea')        # 가게명
        names_span_list = parsed_source.find_all('span', class_ = 'screen_out')
        span_names = names_span_list[1:31:2]
        for i in range(len(span_names)):
            names = span_names[i].text
            n_list.append(names)


        div_scores = parsed_source.find_all('em', class_ = "num")                           # 점수
        del div_scores[-1]
        for i in range(len(div_scores)):
            scores = div_scores[i].text
            s_list.append(scores)


        div_address = parsed_source.find_all('div', class_ = "addr")                        # 주소
        for i in range(len(div_address)):
            address = div_address[i].text.replace('\n','').split('(지번)')[0]
            try:
                px_list.append(addr_to_lat_lon(address)[0])
                py_list.append(addr_to_lat_lon(address)[1])
            except:
                pass
            a_list.append(address)
            
        driver.find_element(By.XPATH,'//*[@id="info.search.page.no%s"]' % (j+1)).send_keys(Keys.ENTER)        # 페이지 넘기기
        time.sleep(2)
        

## 각 묶음 페이지의 1쪽 해당
for j in range(page//5):
    source = driver.page_source
    parsed_source = bs(source, 'html.parser')

    names_div_list = parsed_source.find_all("li",class_ = 'PlaceItem clickArea')              
    names_span_list = parsed_source.find_all('span', class_ = 'screen_out')
    span_names = names_span_list[1:31:2]
    for i in range(len(span_names)):
        names = span_names[i].text
        n_list.append(names)

    
    div_scores = parsed_source.find_all('em', class_ = "num")
    del div_scores[-1]
    for i in range(len(div_scores)):
        scores = div_scores[i].text
        s_list.append(scores)
    
    
    div_address = parsed_source.find_all('div', class_ = "addr")
    for i in range(len(div_address)):
        address = div_address[i].text.replace('\n','').split('(지번)')[0]
        try:
            px_list.append(addr_to_lat_lon(address)[0])
            py_list.append(addr_to_lat_lon(address)[1])
        except:
            pass
        a_list.append(address)
    time.sleep(2)
    
## 각 묶음 페이지의 2, 3, 4, 5쪽 해당
    for i in range(2,7):
        time.sleep(1)
        if i == 6:
            if page%5 == 0:
                continue
            driver.find_element(By.XPATH,'//*[@id="info.search.page.next"]').send_keys(Keys.ENTER)
            time.sleep(2)
        else:
            driver.find_element(By.XPATH,'//*[@id="info.search.page.no%s"]' % i).send_keys(Keys.ENTER)
            time.sleep(2)

        source = driver.page_source
        parsed_source = bs(source, 'html.parser')

        names_div_list = parsed_source.find_all("li",class_ = 'PlaceItem clickArea')
        names_span_list = parsed_source.find_all('span', class_ = 'screen_out')
        span_names = names_span_list[1:31:2]
        for i in range(len(span_names)):
            names = span_names[i].text
            n_list.append(names)


        div_scores = parsed_source.find_all('em', class_ = "num")
        del div_scores[-1]
        for i in range(len(div_scores)):
            scores = div_scores[i].text
            s_list.append(scores)


        div_address = parsed_source.find_all('div', class_ = "addr")
        for i in range(len(div_address)):
            address = div_address[i].text.replace('\n','').split('(지번)')[0]
            try:
                px_list.append(addr_to_lat_lon(address)[0])
                py_list.append(addr_to_lat_lon(address)[1])
            except:
                pass
            a_list.append(address)

        time.sleep(2)

## 입력한 페이지가 속한 묶음 페이지에 해당
if page > 5:
    for k in range(2,page%5+1):

        driver.find_element(By.XPATH,'//*[@id="info.search.page.no%s"]' % k).send_keys(Keys.ENTER)
        time.sleep(2)

        source = driver.page_source
        parsed_source = bs(source, 'html.parser')

        names_div_list = parsed_source.find_all("li",class_ = 'PlaceItem clickArea')
        names_span_list = parsed_source.find_all('span', class_ = 'screen_out')
        span_names = names_span_list[1:31:2]
        for i in range(len(span_names)):
            names = span_names[i].text
            n_list.append(names)


        div_scores = parsed_source.find_all('em', class_ = "num")
        del div_scores[-1]
        for i in range(len(div_scores)):
            scores = div_scores[i].text
            s_list.append(scores)


        div_address = parsed_source.find_all('div', class_ = "addr")
        for i in range(len(div_address)):
            address = div_address[i].text.replace('\n','').split('(지번)')[0]
            try:
                px_list.append(addr_to_lat_lon(address)[0])
                py_list.append(addr_to_lat_lon(address)[1])
            except:
                pass
            a_list.append(address)

        time.sleep(2)
     
## 데이터 딕셔너리 형태로 적재
#for i in range(len(n_list)):
#    ka_dict[i] = (n_list[i], s_list[i], a_list[i])

chk_num = 0
for i in range(len(div_address)):
    try:
        if float(s_list[i]) >= starpoint:
            print(i, chk_num, n_list[i], s_list[i], starpoint)
            ### DataFrame ####### 가게 이름 ######### 식당 점수 ########## 주소 ############ 위도 ############# 경도 ########
            ka_list[chk_num] = (n_list[chk_num], s_list[chk_num], a_list[chk_num], py_list[chk_num], px_list[chk_num])
            chk_num += 1
    except:
        print(f"{n_list[i]} 식당 정보 Error")
        
df = pd.DataFrame(ka_list).T
#df.columns=['식당명', '점수', '주소', '위도', '경도']
print(f"조회된 식당 갯수 : {len(ka_list)}개")
make_map(df, region)

검색을 원하는 지역의 '시, 도'를 입력해 주세요 : 전주
검색 범위(페이지)를 입력해주세요. : 3
최소점수를 입력해 주세요(4.5 만점) : 3
1 0 삼백집 전주본점 3.4 3.0
2 1 고궁 전주본점 3.1 3.0
4 2 전주현대옥 남부시장점 4.3 3.0
5 3 전주왱이콩나물국밥전문점 3.7 3.0
6 4 호남각 4.1 3.0
7 5 PNB풍년제과 전주 본점 3.8 3.0
9 6 한국관 본점 3.3 3.0
10 7 진미집 본점 3.3 3.0
11 8 가족회관 3.6 3.0
12 9 조점례남문피순대 3.3 3.0
13 10 전일갑오 4.3 3.0
14 11 다문 3.1 3.0
조회된 식당 갯수 : 12개


KeyError: '위도'

In [8]:
for i in range(6, 15):
    try:
        print(n_list[i], s_list[i], a_list[i], py_list[i], px_list[i])
    except:
        print(f"{i}번째 error")

보나리베카페 4.1 경기 남양주시 불암산로39번길 9-2 1,2층 37.6470256557071 127.106854717664
어로프슬라이스피스 3.1 경기 용인시 처인구 백령로 47 37.2627549696841 127.191007800435
오랑주리 3.0 경기 양주시 백석읍 기산로 423-19 37.778575269163 126.935301982394
장어의꿈 3.5 경기 남양주시 순화궁로 492-6 1층 37.6695343069849 127.118665705104
반구정나루터집 3.4 경기 파주시 문산읍 반구정로85번길 13 37.8684147965013 126.751784188971
리버레인 4.2 경기 가평군 청평면 북한강로 2141 37.7071556137471 127.397223378563
테라로사 서종점 3.7 경기 양평군 서종면 북한강로 992 37.624776811907 127.355331734893
카페아를 2.9 경기 의정부시 동일로 204 37.7071002335123 127.05832503989
파크프리베 2.9 경기 의정부시 동일로192번길 28-27 37.7062313364754 127.060990898967
