In [122]:
import pandas as pd
import numpy as np
import folium
import requests

from bs4 import BeautifulSoup

# pip install tqdm : progressBar 구현
from tqdm.notebook import tqdm 
from selenium import webdriver

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service

# jupyter nbconvert --to script coffeeStore.ipynb

In [208]:
chrome_options = webdriver.ChromeOptions() # 크롬 브라우저 옵션
drive_path = 'chromedriver.exe' # 다운로드 받은 드라이버 파일
myservice = Service(drive_path) # 드라이버 제어를 위한 서비스 객체
driver = webdriver.Chrome(service=myservice, options=chrome_options) # 드라이버 객체
print(type(driver)) # 객체가 잘 생성되었는 지 확인

wait_time = 10 # 최대 대기 시간
driver.implicitly_wait(wait_time)

<class 'selenium.webdriver.chrome.webdriver.WebDriver'>


In [209]:
driver.maximize_window() # 윈도우 창 최대화

In [210]:
starbucks_url = 'https://www.starbucks.co.kr/store/store_map.do?disp=locale'
driver.get(starbucks_url) # 해당 페이지로 이동하기

In [211]:
# 스타벅스) '서울' 링크 클릭
starbucks_seoul_selector = '#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(4) > div.loca_step1 > div.loca_step1_cont > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_selector))).click()

In [212]:
# 스타벅스) '서울'-'전체' 클릭
starbucks_seoul_all = '#mCSB_2_container > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_all))).click()

In [128]:
# 스타벅스 html 코드를 파싱하여 html 파일에 기록합니다.
html = driver.page_source # 해당 페이지의 소스 코드 반환
filename = 'starbucks.html'
htmlfile = open(filename, 'w', encoding='UTF-8')
print(html, file=htmlfile)
htmlfile.close()
print(filename + '파일 생성됨')

starbucks.html파일 생성됨


In [129]:
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
# 파싱된 결과를 Beautiful Soup 객체로 생성합니다.
soup = BeautifulSoup(html, 'html.parser')
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [130]:
# 매장 정보들을 담고 있는 컨테이너 박스를 찾습니다.
# 컨테이너는 div 태그이고, id가 mCSB_3_container입니다.
## 이 방식이 정답이라고 할 수는 없는게 말이야.. 다른 방식으로도 접근하면 된단 말이야..
container = soup.find('div', id='mCSB_3_container')
storeAll = container.find_all('li')
print('storeAll : %d' % len(storeAll))

storeAll : 615


In [131]:
starbucksData = []

for store in storeAll:
    # print(store)
    brand = '스타벅스'
    name = store.find('strong').text.strip()
    address = store.find('p').text.replace('1522-3232','')  
    imsi = address.split(' ')
    gu = imsi[1]
    latitude = store['data-lat'] # 위도
    longitude = store['data-long'] # 경도
    
    starbucksData.append([brand, name, address, gu, latitude, longitude])
    
print(len(starbucksData))

615


In [132]:
sbDataFrame = pd.DataFrame(starbucksData)
sbDataFrame.columns = ['브랜드', '상호', '주소', '군구', '위도', '경도']
sbDataFrame.head(3) # 반대 메소드 tail
# sbDataFrame.info()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도
0,스타벅스,역삼아레나빌딩,서울특별시 강남구 언주로 425 (역삼동),강남구,37.501087,127.043069
1,스타벅스,논현역사거리,서울특별시 강남구 강남대로 538 (논현동),강남구,37.510178,127.022223
2,스타벅스,신사역성일빌딩,서울특별시 강남구 강남대로 584 (논현동),강남구,37.5139309,127.0206057


In [213]:
print('위도 누락 데이터 개수 : %d' % sbDataFrame['위도'].isnull().sum())
print('경도 누락 데이터 개수 : %d' % sbDataFrame['경도'].isnull().sum())

위도 누락 데이터 개수 : 0
경도 누락 데이터 개수 : 0


In [214]:
guList = list(sbDataFrame['군구'].unique())
print('서울시 구 목록 개수 : %d' % len(guList))
print(guList)
print(type(guList))

서울시 구 목록 개수 : 25
['강남구', '강북구', '강서구', '관악구', '광진구', '금천구', '노원구', '도봉구', '동작구', '마포구', '서대문구', '서초구', '성북구', '송파구', '양천구', '영등포구', '은평구', '종로구', '중구', '강동구', '구로구', '동대문구', '성동구', '용산구', '중랑구']
<class 'list'>


In [215]:
#이디야 매장
ediya_url = 'https://ediya.com/contents/find_store.html'
driver.get(ediya_url)

In [216]:
ediya_address_selector = '#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_address_selector))).click()

In [217]:
# 누락된 위도와 경도 정보는 kakao api 를 이용하여 넣도록 합니다.
# https://developers.kakao.com/
# kakao에 로그인하여 API 키 발급 받기 

In [218]:
url_header = 'https://dapi.kakao.com/v2/local/search/address.json?query='
api_key = '2564f354229d1e09c0267b3121b62e86'
header = {'Authorization': 'KakaoAK ' + api_key}

In [219]:
# 주소를 입력 받아서 위도와 경도를 반환해주는 함수 구현하기
def getGeoCoder(address):
    result = ""
    url = url_header + address
    response = requests.get(url, headers=header)
    # print(response) # 성공시 <Response [200]>으로 리턴 됨
    # print(response.json())
    if response.status_code == 200:
        try:
            result_address = response.json()["documents"][0]["address"]
            result = result_address["y"], result_address["x"]
        except Exception as err:
            return None
    else:
        result = "ERROR[" + str(response.status_code) + "]"

    return result
# end def

In [220]:
# 한 개의 매장에 대한 테스트를 진행합니다.
geoInfo = getGeoCoder('서울 중랑구 망우로 460 (망우동)') # 잘 동작하는 주소
# geoInfo = getGeoCoder('서울 노원구 한글비석로 409 (상계동) 1~2층') # NoneType이 리턴되는 주소
geoInfo

('37.6001065609187', '127.103136691889')

In [221]:
ediyaData = []

for gu in tqdm(guList):
    ediya_search_keyword_css = '#keyword'
    
    # 이디야 주소 검색어 초기화
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_keyword_css))).clear()
    
    # 이디야 주소 검색어 입력
    # f"서울 {gu}" : f-string 기법, 서울 중구, 서울 마포구 등등
    WebDriverWait(driver, 10).until(EC.presence_of_element_located
                                    ((By.CSS_SELECTOR, ediya_search_keyword_css))).send_keys(f"서울 {gu}")

    # 이디야 주소 검색 버튼 클릭
    ediya_search_button_css = '#keyword_div > form > button'
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_button_css))).click()

    html = driver.page_source # 각 구별 매장 정보를 담고 있는 html 소스

    # 개별 구에 대한 결과를 파일로 저장해 봅니다.
    # filename = open(f'서울 {gu}.html', 'w', encoding='UTF-8')
    # print(html, file=filename)
    # filename.close()
    # print(f'서울 {gu}.html 파일 생성')

    soup = BeautifulSoup(html, 'html.parser')
    ul_tag = soup.find('ul', id='placesList')

    oneGuEdiyaList = ul_tag.find_all('li')
    for store in oneGuEdiyaList:
        print(store)
        brand = '이디야'
        name = store.find('dt').text.strip()
        address = store.find('dd').text.strip()
        imsi = address.split(' ')
        sido = imsi[0]
        gu = imsi[1]
        # print('[' + gu + ']')
        # 위도/경도 정보가 들어 있는 문자열
        geoInfoString = store.find('a')['onclick']
        geoInfoImsi = geoInfoString # 중간에 변형이 이루어 지므로 임시 복사
        
        # 넘파이의 nan으로 무의미한 데이터 만들기
        latitude = np.nan  # 위도
        longitude = np.nan # 경도
        latLong = ['0', '0']
    
        if geoInfoString.startswith("panLatTo"): 
            # 올바른 위도/경도가 아님
            try:
                if geoInfoString.index(r"panLatTo('0','0'") == 0: 
                    geoInfo = getGeoCoder(address) 
                    if geoInfo != None:
                        latitude = geoInfo[0] # 위도
                        longitude = geoInfo[1] # 경도
                    else:
                        print(address)                
            except ValueError as err:
                # 올바른 위도/경도입니다.
                latLong = geoInfoString.replace(r"panLatTo('", '').replace(r"');fnMove();", '')
                latLong = latLong.split("','")
        
                latitude = latLong[1] 
                longitude = latLong[0]                
            # end try

        else: # 'panAddTo'으로 시작하는 경우
            geoInfo = getGeoCoder(address) 
            if geoInfo != None:
                latitude = geoInfo[0] # 위도
                longitude = geoInfo[1] # 경도
            else:
                print(address)
        # end if

        # 올바른 위도 경도 형식이 아니면
        if latLong[1] == '0' or latLong[0] == '0':            
            # 카카오 지도 api 이용하여 위도와 경도를 취득합니다.
            geoInfo = getGeoCoder(address) 
            if geoInfo != None:
                latitude = geoInfo[0] # 위도
                longitude = geoInfo[1] # 경도
            else:
                print(address)
        # end if
        
        ediyaData.append([brand, name, address, gu, latitude, longitude, geoInfoImsi]) 
        # break
    # print('-'*100)
    
# end for

print('이디야 매장 개수 : %d' % len(ediyaData))

  0%|          | 0/25 [00:00<?, ?it/s]

<li class="item"><a href="#c" onclick="panLatTo('0','0','0');fnMove();"><div class="store_thum"><img src="../images/customer/store_thum.gif"/></div><dl><dt>강남YMCA점</dt> <dd>서울 강남구 논현동</dd></dl></a></li>
<li class="item"><a href="#c" onclick="panLatTo('127.0401601992311','37.51654171724045','1');fnMove();"><div class="store_thum"><img src="../images/customer/store_thum.gif"/></div><dl><dt>강남구청역아이티웨딩점</dt> <dd>서울 강남구 학동로 338 (논현동, 강남파라곤)</dd></dl></a></li>
<li class="item"><a href="#c" onclick="panLatTo('127.02810578707652','37.51408005446769','2');fnMove();"><div class="store_thum"><img src="../images/customer/store_thum.gif"/></div><dl><dt>강남논현학동점</dt> <dd>서울 강남구 논현로131길 28 (논현동)</dd></dl></a></li>
<li class="item"><a href="#c" onclick="panLatTo('127.05242928262568','37.50133876179308','3');fnMove();"><div class="store_thum"><img src="../images/customer/store_thum.gif"/></div><dl><dt>강남대치점</dt> <dd>서울 강남구 역삼로 415 (대치동, 성진빌딩)</dd></dl></a></li>
<li class="item"><a href="#c" onclick="pan

In [197]:
ediyaDataFrame = pd.DataFrame(ediyaData)
ediyaDataFrame.columns = ['브랜드', '상호', '주소', '군구', '위도', '경도', 'geoInfoImsi']
ediyaDataFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도,geoInfoImsi
0,이디야,금란망우점,서울 중랑구 망우로 460 (망우동),중랑구,37.6001065609187,127.103136691889,"panLatTo('0','0','0');fnMove();"
1,이디야,동원사거리점,"서울 중랑구 겸재로 240 (면목동, 행복오피스텔)",중랑구,37.5896269575279,127.094182772191,"panLatTo('127.094182772191','37.5896269575279'..."
2,이디야,망우동점,서울 중랑구 망우로 416 (망우동),중랑구,37.5991657770242,127.098351137589,"panLatTo('0','0','2');fnMove();"
3,이디야,망우중앙점,"서울 중랑구 용마산로115길 109 (망우동, 한일써너스빌리젠시2단지)",중랑구,37.5974674047065,127.09415879594556,"panLatTo('127.09415879594557','37.597467404706..."
4,이디야,망우코레일점,"서울 중랑구 망우로55길 11-10 (상봉동, 망우역)",중랑구,37.5992876153903,127.092756577852,"panLatTo('127.092756577852','37.5992876153903'..."


In [198]:
print('위도 누락 데이터 개수 : %d' % ediyaDataFrame['위도'].isnull().sum())
print('경도 누락 데이터 개수 : %d' % ediyaDataFrame['경도'].isnull().sum())

위도 누락 데이터 개수 : 4
경도 누락 데이터 개수 : 4


In [200]:
print('스타벅스 매장 개수 : %d' % len(sbDataFrame))
print('이디야 매장 개수 : %d' % len(ediyaDataFrame))

스타벅스 매장 개수 : 615
이디야 매장 개수 : 573


In [203]:
# 임시 컬럼을 제거하고, 2 매장의 데이터 프레임을 합칩니다.
ediyaDataFrame = ediyaDataFrame.drop('geoInfoImsi', axis=1)
coffeeFrame = pd.concat([sbDataFrame, ediyaDataFrame])
print('전체 매장 개수 : %d' % len(coffeeFrame))

KeyError: "['geoInfoImsi'] not found in axis"

In [204]:
filename = 'coffeeList.csv'
#coffeeFrame.to_csv(filename, encoding='CP949', index=False) # 액셀에서 한글 안깨지고 보려면
coffeeFrame.to_csv(filename, encoding='UTF-8', index=False) # 일반적인 방법
print(filename + ' 파일 저장됨')

coffeeList.csv 파일 저장됨


In [None]:
# 내일 할일
# 시도 컬럼 추가하기, 데이터 표준화(전처리)
# 포리움으로 지도 그리기
# 위경도 공란 데이터는 Google Maps Geocoding에서 수동 처리 