In [50]:
import numpy as np
import pandas as pd
import requests
import folium

from tqdm.notebook import tqdm #진행바를 보여주는 역할을 한다.
from bs4 import BeautifulSoup

from selenium import webdriver  # Selenium WebDriver 모듈 가져오기
from selenium.webdriver.chrome.service import Service  # Chrome WebDriver 서비스 관리 클래스 가져오기
from selenium.webdriver.common.by import By  # 요소 선택을 위한 By 클래스 (id, class, xpath 등 사용)
from selenium.webdriver.support.ui import WebDriverWait  # 명시적 대기를 위한 WebDriverWait 클래스
from selenium.webdriver.support import expected_conditions as EC  # 명시적 대기 조건을 정의하는 EC 클래스

In [51]:
chrome_options = webdriver.ChromeOptions()  # Chrome 브라우저 옵션 설정 객체 생성
drive_path = 'chromedriver.exe'  # Chrome 드라이버 실행 파일 경로 지정
myservice = Service(drive_path)  # Chrome 드라이버 서비스를 실행할 Service 객체 생성
driver = webdriver.Chrome(service=myservice, options=chrome_options)  # Chrome 웹드라이버 객체 생성
print(type(driver))  # 생성된 드라이버 객체의 타입 출력

wait_time = 10  # 암시적 대기 시간(초) 설정
driver.implicitly_wait(wait_time)  # 웹 요소가 로드될 때까지 최대 10초 동안 대기

<class 'selenium.webdriver.chrome.webdriver.WebDriver'>


In [200]:
driver.maximize_window()  # 브라우저 창을 최대화

In [52]:
# 스타벅스 매장 찾기
starbucks_url = 'https://www.starbucks.co.kr/store/store_map.do?disp=locale'
driver.get(starbucks_url) #해당 페이지로 이동하시오.

In [53]:
# 스타벅스 '서울' 링크 클릭
starbucks_seoul_selector = '#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(4) > div.loca_step1 > div.loca_step1_cont > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_selector))).click()
# 최대 5초 동안 starbucks_seoul_selector에 해당하는 요소가 HTML에 나타날 때까지 기다린다.
# 요소가 나타나면 .click()을 실행하여 '서울' 링크를 클릭한다.

In [54]:
# 스타벅스 '서울'-'전체' 링크 클릭
starbucks_seoul_all = '#mCSB_2_container > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_all))).click()

In [55]:
# 스타벅스 HTML 코드를 파싱하여 html 파일에 기록합니다.
html = driver.page_source
filename = 'starbucks.html'
htmlFile = open(filename, mode='wt', encoding='UTF-8')
print(html, file=htmlFile)
print(filename + '파일 생성됨')
htmlFile.close()

starbucks.html파일 생성됨


In [56]:
# 파싱된 결과를 BeautifulSoup 객체로 생성합니다.
soup = BeautifulSoup(html, 'html.parser')
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [57]:
container = soup.find('div', id = 'mCSB_3_container')
storeAll = container.find_all('li')
print(f'모든 매장 개수 : {len(storeAll)}')

모든 매장 개수 : 633


In [58]:
starbucksData = [] # 스타벅스 매장 목록을 저장할 리스트

for store in storeAll:
    brand = '스타벅스'
    name = store.find('strong').text.strip() #상호
    address = store.find('p').text.strip().replace('1522-3232','') #.text는 BeautifulSoup에서 HTML 태그 내부의 순수한 텍스트(문자열)만 가져오는 속성
    imsi = address.split(' ')
    # sido = imsi[0]
    gungu = imsi[1]
    latitude = store['data-lat']
    longitude = store['data-long']
    
    starbucksData.append([brand, name, address, gungu, latitude, longitude])
# end for

print(len(starbucksData))
# print(starbucksData)

633


In [59]:
sbDataFrame = pd.DataFrame(starbucksData)
sbDataFrame.columns = ['브랜드', '상호', '주소', '군구', '위도', '경도']
sbDataFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도
0,스타벅스,역삼아레나빌딩,서울특별시 강남구 언주로 425 (역삼동),강남구,37.501087,127.043069
1,스타벅스,논현역사거리,서울특별시 강남구 강남대로 538 (논현동),강남구,37.510178,127.022223
2,스타벅스,신사역성일빌딩,서울특별시 강남구 강남대로 584 (논현동),강남구,37.5139309,127.0206057
3,스타벅스,국기원사거리,서울특별시 강남구 테헤란로 125 (역삼동),강남구,37.499517,127.031495
4,스타벅스,대치재경빌딩,서울특별시 강남구 남부순환로 2947 (대치동),강남구,37.494668,127.062583


In [60]:
#위도와 경도가 없는 경우를 체크
print('위도 누락 데이터 개수 : %d' %sbDataFrame['위도'].isnull().sum()) #True는 1, False는 0
print('위도 누락 데이터 개수 : %d' %sbDataFrame['경도'].isnull().sum())

위도 누락 데이터 개수 : 0
위도 누락 데이터 개수 : 0


In [61]:
guList = list(sbDataFrame['군구'].unique())
print('서울시 구 목록 개수 : %d' % len(guList))
print(guList)

서울시 구 목록 개수 : 25
['강남구', '강북구', '강서구', '관악구', '광진구', '금천구', '노원구', '도봉구', '동작구', '마포구', '서대문구', '서초구', '성북구', '송파구', '양천구', '영등포구', '은평구', '종로구', '중구', '강동구', '구로구', '동대문구', '성동구', '용산구', '중랑구']


In [62]:
#이디야 커피
ediya_url = 'https://www.ediya.com/contents/find_store.html'
driver.get(ediya_url)

In [63]:
#이디야에서 '주소' 클릭
ediya_address_selector = '#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_address_selector))).click()

In [64]:
# 카카오 API 사용하기
url_header = 'https://dapi.kakao.com/v2/local/search/address.json?query='
api_key = '4f4c13640ddfce406af127ebf800e250'
header = {'Authorization': 'KakaoAK ' + api_key}

In [65]:
# 주소를 입력 받아서 위도와 경도를 반환해주는 함수 구현.
def getGeoCoder(address):
    result=''
    url = url_header + address
    response = requests.get(url, headers=header)

    # print(response)
    # print(response.json())
    
    if response.status_code == 200:
        try:
            result_address = response.json()["documents"][0]["address"]
            result = result_address["y"], result_address["x"]
        except Exception as err:
            print(err)
            return None
    else:
        result = "ERROR[" + str(response.status_code) + "]"
        
    return result
#end def getGeoCoder(address)

In [66]:
# 매장 주소 테스트
# geoInfo = getGeoCoder('서울 중랑구 망우로 460 (망우동)')
geoInfo = getGeoCoder('서울 노원구 한글비석로 409 (상계동) 1~2층') # NoneType이 리턴되는 주소
geoInfo

list index out of range


In [76]:
setense = 'hello world'
setense.index('l')
setense.index('hello')

0

In [None]:
import time


ediya_search_keyword_css = '#keyword' #이디야 주소 검색 입력란
ediya_search_button_css = '#keyword_div > form > button' #이디야 주소 검색(돋보기) 버튼
ediyaData = [] #이디야 매장 정보
for gu in tqdm(guList):    
    
    #설정한 시간(10초) 내에 요소가 나타나지 않으면 TimeoutException 오류가 발생
    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_keyword_css))).clear()

    # 주소 검색란에 '구이름' 입력하기(예시 : 서울 강남구)
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_keyword_css))).send_keys(f'서울 {gu}')

    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_button_css))).click()

    html = driver.page_source #현재 웹페이지의 HTML 소스를 가져오는 코드
    
    # if gu in guList: #강남구만 저장해 보기.
    #     filename = open(f'서울 {gu}.html', mode='wt', encoding='UTF-8')
    #     print(html, file=filename) #현재 웹페이지의 HTML 소스(html)를 파일로 저장하는 코드
    #     filename.close()
    #     #open(f'서울 {gu}.html', mode='wt', encoding='UTF-8')
    #     #➡ 이 코드만으로는 단순히 "파일을 생성"하고 "쓰기(Write) 모드"로 열기만 함.
    #     #➡ 하지만 파일에 아무것도 쓰지 않으면, 빈 파일이 생성됨.
    #     #따라서 파일에 데이터를 저장하려면 print(html, file=filename)을 추가해야 함.
        
    #     print(f'서울 {gu}.html 파일 저장됨')

    soup = BeautifulSoup(html, 'html.parser') #parser : html문서가 맞는지 파싱한 후 sopu에 대입.
    ul_tag = soup.find('ul', id='placesList')

    oneGuEdiyaList = ul_tag.find_all('li')

    for store in oneGuEdiyaList:
        brand='이디야'
        name = store.find('dt').text.strip()
        address = store.find('dd').text.strip()
        imsi = address.split(' ')
        # sido = imsi[0]
        gungu = imsi[1]

        #위도와 경도 정보가 들어 있는 문자열
        geoInfoString = store.find('a')['onclick']
        # print(geoInfoString)

        #중간에 값이 변경이 되므로 원본 데이터를 백업 해둠
        geoInfoImsi = geoInfoString 

        # 넘파이의 nan으로 무의미한 데이터 만들기
        latitude = np.nan
        longitude = np.nan
        latLong = ['0','0']

        if geoInfoString.startswith('panLatTo'):
            try:
                if geoInfoString.index("panLatTo('0','0'") == 0:
                    #올바른 위경도 형식이 아니므로, address를 사용하여 kakao API에게 물어 보기
                    getInfo = getGeoCoder(address)

                    if getInfo != None:
                        latitude = getInfo[0] #위도
                        longitude = getInfo[1] #경도
                    else:
                        print(address)
            except Exception as err:
                #올바른 위도와 경도 정보 입니다.
                latLong = geoInfoString.replace("panLatTo('", "").replace(");fnMove();","")
                latLong = latLong.split("','")
                
                latitude = latLong[0] #위도
                longitude = latLong[1] #경도
                pass
            #end try
        else: #'panAddTo'으로 시작하는 경우
            getInfo = getGeoCoder(address)
            if getInfo != None:
                latitude = getInfo[0] #위도
                longitude = getInfo[1] #경도
            else:
                print(address)
            #end if
                # 올바른 위도 경도 형식이 아니면
            if latLong[1] == '0' or latLong[0] == '0':            
                # 카카오 지도 api 이용하여 위도와 경도를 취득합니다.
                geoInfo = getGeoCoder(address) 
                if geoInfo != None:
                    latitude = geoInfo[0] # 위도
                    longitude = geoInfo[1] # 경도
                else:
                    print(address)
            # end if
        ediyaData.append([brand,name,address,gungu,latitude,longitude]) #이렇게 리스트로 묶어서 한 번에 추가해야 2D리스트가 되어 데이터프레임으로 생성 가능.
        
    #end inner for
#end for

print('이디야 매장 개수 : %d' % len(ediyaData))
print(ediyaData)

In [146]:
ediyaFrame = pd.DataFrame(ediyaData)
ediyaFrame.columns = ['브랜드', '상호', '주소', '군구', '위도', '경도']
ediyaFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도
0,이디야,금란망우점,서울 중랑구 망우로 460 (망우동),중랑구,37.6001065609187,127.103136691889
1,이디야,동원사거리점,"서울 중랑구 겸재로 240 (면목동, 행복오피스텔)",중랑구,127.094182772191,37.5896269575279
2,이디야,망우중앙점,"서울 중랑구 용마산로115길 109 (망우동, 한일써너스빌리젠시2단지)",중랑구,127.09415879594556,37.5974674047065
3,이디야,망우코레일점,"서울 중랑구 망우로55길 11-10 (상봉동, 망우역)",중랑구,127.092756577852,37.5992876153903
4,이디야,먹골역점,서울 중랑구 동일로157길 13 (묵동),중랑구,127.076897926489,37.6097411262067


In [147]:
print('위도 누락 데이터 개수 : %d' %ediyaFrame['위도'].isnull().sum()) #True는 1, False는 0
print('위도 누락 데이터 개수 : %d' %ediyaFrame['경도'].isnull().sum())

위도 누락 데이터 개수 : 3
위도 누락 데이터 개수 : 3
