In [11]:
import numpy as np
import pandas as pd 
import requests
import folium

from tqdm.notebook import tqdm
from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [12]:
chrome_options = webdriver.ChromeOptions() 
drive_path = 'chromedriver.exe'
myservice = Service(drive_path)
driver = webdriver.Chrome(service=myservice, options=chrome_options) # 드라이버 객체
print(type(driver))

wait_time = 10
driver.implicitly_wait(wait_time)

<class 'selenium.webdriver.chrome.webdriver.WebDriver'>


In [13]:
driver.maximize_window()

In [14]:
# 스타벅스) 매장 찾기
starbucks_url = 'https://www.starbucks.co.kr/store/store_map.do?disp=locale'
driver.get(starbucks_url) # 해당 페이지로 이동하시오.

In [15]:
# 스타벅스 '서울' 링크 클릭
starbucks_seoul_selector = '#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(4) > div.loca_step1 > div.loca_step1_cont > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_selector))).click()

In [16]:
# 스타벅스 '서울'-'전체' 링크 클릭
starbucks_seoul_all = '#mCSB_2_container > ul > li:nth-child(1) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, starbucks_seoul_all))).click()

In [17]:
# 스타벅스 HTML 코드를 파싱하여 html 파일에 기록합니다.
html = driver.page_source
filename = 'starbucks.html'
htmlFile = open(filename, mode='wt', encoding='UTF-8')
print(html, file=htmlFile)
htmlFile.close()
print(filename + ' 파일 생성됨')

starbucks.html 파일 생성됨


In [18]:
# 파싱된 결과를 BeautifulSoup 객체로 생성합니다.
soup = BeautifulSoup(html, 'html.parser')
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [19]:
container = soup.find('div', id='mCSB_3_container')
storeAll = container.find_all('li')
print(f'모든 매장 개수 : {len(storeAll)}')

모든 매장 개수 : 633


In [20]:
starbucksData = []  # 스타벅스 매장 목록을 저장할 리스트

for store in storeAll :
    brand = '스타벅스'
    name = store.find('strong').text.strip()
    address = store.find('p').text.strip().replace('1522-3232', '')
    imsi = address.split(' ')
    # sido = imsi[0]
    gungu = imsi[1]
    latitude = store['data-lat']
    longitude = store['data-long']
    
    starbucksData.append([brand, name, address, gungu, latitude, longitude])
# end for    

print(len(starbucksData))
# print(starbucksData)

633


In [21]:
sbDataFrame = pd.DataFrame(starbucksData)
sbDataFrame.columns = ['브랜드', '상호', '주소', '군구', '위도', '경도']
sbDataFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도
0,스타벅스,역삼아레나빌딩,서울특별시 강남구 언주로 425 (역삼동),강남구,37.501087,127.043069
1,스타벅스,논현역사거리,서울특별시 강남구 강남대로 538 (논현동),강남구,37.510178,127.022223
2,스타벅스,신사역성일빌딩,서울특별시 강남구 강남대로 584 (논현동),강남구,37.5139309,127.0206057
3,스타벅스,국기원사거리,서울특별시 강남구 테헤란로 125 (역삼동),강남구,37.499517,127.031495
4,스타벅스,대치재경빌딩,서울특별시 강남구 남부순환로 2947 (대치동),강남구,37.494668,127.062583


In [22]:
print('위도 누락 데이터 개수 : %d' % sbDataFrame['위도'].isnull().sum())
print('경도 누락 데이터 개수 : %d' % sbDataFrame['경도'].isnull().sum())

위도 누락 데이터 개수 : 0
경도 누락 데이터 개수 : 0


In [23]:
guList = list(sbDataFrame['군구'].unique())
print('서울시 구 목록 개수 : %d' % len(guList))
print(guList)

서울시 구 목록 개수 : 25
['강남구', '강북구', '강서구', '관악구', '광진구', '금천구', '노원구', '도봉구', '동작구', '마포구', '서대문구', '서초구', '성북구', '송파구', '양천구', '영등포구', '은평구', '종로구', '중구', '강동구', '구로구', '동대문구', '성동구', '용산구', '중랑구']


In [24]:
# 이디야 커피
ediya_url = 'https://www.ediya.com/contents/find_store.html'
driver.get(ediya_url)

In [25]:
# 이디야에서 '주소' 클릭
ediya_address_selector = '#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a'
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_address_selector))).click()

In [26]:
# 카카오 API 사용하기
url_header = 'https://dapi.kakao.com/v2/local/search/address.json?query='
api_key = 'd2fb0b46a449c5e9e636a0078db80cc7'
header = {'Authorization': 'KakaoAK ' + api_key}

In [27]:
# 주소를 입력 받아서 위도와 경도를 반환해주는 함수 구현
def getGeoCoder(address):
    result = ''
    url = url_header + address
    response = requests.get(url, headers=header)

    # print(response)
    # print(response.json())
    
    if response.status_code == 200:
        try:
            result_address = response.json()["documents"][0]["address"]
            result = result_address["y"], result_address["x"]
        except Exception as err:
            print(err)
            return None
    else:
        result = "ERROR[" + str(response.status_code) + "]"       

    return result 
# end def getGeoCoder(address) 

In [28]:
'''
list index out of range
서울 노원구 한글비석로 409 (상계동) 1~2층
list index out of range
서울 노원구 한글비석로 409 (상계동) 1~2층
list index out of range
서울 동작구 사당로16가길 96 (사당동) 1,2층
list index out of range
서울 동작구 사당로16가길 96 (사당동) 1,2층
list index out of range
서울 영등포구 영등포로35길 19 (영등포동6가)
list index out of range
서울 영등포구 영등포로 35길 19 (영등포동)
이디야 매장 개수 : 514
'''
# 매장 주소 테스트
# geoInfo = getGeoCoder('서울 중랑구 망우로 460 (망우동)')
geoInfo = getGeoCoder('서울 영등포구 영등포로35길 19') # NoneType이 리턴되는 주소
# geoInfo = getGeoCoder('서울특별시 관악구 신림로 313 (신림동)')
# geoInfo = getGeoCoder('서울 영등포구 영등포로35길 19 (영등포동6가)')
# geoInfo = getGeoCoder('서울시 강북구 삼양로 547')
geoInfo

list index out of range


In [29]:
setense = 'hello world'
setense.index('l')
setense.index('hello')

0

In [30]:
ediyaData = [] # 이디야 매장 정보

ediya_search_keyword_css = '#keyword' # 이디아 주소 검색 입력란
ediya_search_button_css = '#keyword_div > form > button' # 이디야 주소 검색(돋보기) 버튼

for gu in tqdm(guList):
    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_keyword_css))).clear()
    # print(gu)
    # 주소 검색란에 '구이름' 입력하기(예시 : 서울 강남구)
    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_keyword_css))).send_keys(f'서울 {gu}')
    
    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CSS_SELECTOR, ediya_search_button_css))).click()

    html = driver.page_source

    # if gu == '강남구': # 강남구만 저장해 보기
        # filename = open(f'서울 {gu}.html', mode='wt', encoding='UTF-8')
        # print(html, file=filename)
        # filename.close()
        # print(f'서울 {gu}.html 파일 저장됨')
    # # end if    

    soup = BeautifulSoup(html, 'html.parser')
    ul_tag = soup.find('ul', id='placesList')

    oneGuEdiyaList = ul_tag.find_all('li')

    for store in oneGuEdiyaList:
        brand = '이디야'
        name = store.find('dt').text.strip()
        address = store.find('dd').text.strip()
        imsi = address.split(' ')
        # sido = imsi[0]
        gungu = imsi[1]

        # 위도와 경도 정보가 들어 있는 문자열
        geoInfoString = store.find('a')['onclick']
        # print(geoInfoString)

        # if name == '개화산점':
        #     print('위도 경도 확인')
        #     print(geoInfoString)
        # # end if   
        
        # 중간에 값이 변경이 되므로 원본 데이터를 백업 해둠
        geoInfoImsi = geoInfoString 

        # 넘파이의 nan으로 무의미한 데이터 만들기
        latitude = np.nan
        longitude = np.nan
        latLong = ['0', '0']

        if geoInfoString.startswith('panLatTo') :
            try:
                if geoInfoString.index("panLatTo('0','0'") == 0 :
                    # 올바른 위도/경도 형식이 아니므로, address를 사용하여 kakao API에게 물어 보기 
                    geoInfo = getGeoCoder(address)

                    if geoInfo != None:
                        latitude = geoInfo[0]  # 위도 
                        longitude =geoInfo[1]  # 경도
                    else :
                        print(f'part a : {address}')
            except Exception as err:
                # 올바른 위도와 경도 정보 입니다.
                latLong = geoInfoString.replace("panLatTo('", "").replace(");fnMove();", "")
                latLong = latLong.split("','")

                # 주의) '경도'가 먼저 나오고 '위도'가 뒤쪽에 나옴
                latitude = latLong[1]  # 위도 
                longitude = latLong[0]  # 경도
            # end try
            
        else : # 'panAddTo'으로 시작하는 경우
            geoInfo = getGeoCoder(address)

            if geoInfo != None:
                latitude = geoInfo[0]  # 위도 
                longitude =geoInfo[1]  # 경도
            else :
                print(f'part b : {address}')
        # end if

        # 올바른 위도 경도 형식이 아니면
        if latLong[1] == '0' or latLong[0] == '0':            
            # 카카오 지도 api 이용하여 위도와 경도를 취득합니다.
            geoInfo = getGeoCoder(address) 
            if geoInfo != None:
                latitude = geoInfo[0] # 위도
                longitude = geoInfo[1] # 경도
            else:
                print(f'part c : {address}')
        # end if        

        ediyaData.append([brand, name, address, gungu, latitude, longitude])
    # end inneer for        
# end outer for    

print('이디야 매장 개수 : %d' % len(ediyaData))

  0%|          | 0/25 [00:00<?, ?it/s]

list index out of range
part b : 서울 노원구 한글비석로 409 (상계동) 1~2층
list index out of range
part c : 서울 노원구 한글비석로 409 (상계동) 1~2층
list index out of range
part a : 서울 동작구 사당로16가길 96 (사당동) 1,2층
list index out of range
part c : 서울 동작구 사당로16가길 96 (사당동) 1,2층
list index out of range
part b : 서울 영등포구 영등포로35길 19 (영등포동6가)
list index out of range
part c : 서울 영등포구 영등포로35길 19 (영등포동6가)
이디야 매장 개수 : 525


In [31]:
ediyaFrame = pd.DataFrame(ediyaData)
ediyaFrame.columns = ['브랜드', '상호', '주소', '군구', '위2도', '경도']
ediyaFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도
0,이디야,강남YMCA점,서울 강남구 논현동,강남구,37.5126451506882,127.030154778539
1,이디야,강남구청역아이티웨딩점,"서울 강남구 학동로 338 (논현동, 강남파라곤)",강남구,37.51654171724045,127.0401601992311
2,이디야,강남논현학동점,서울 강남구 논현로131길 28 (논현동),강남구,37.51408005446769,127.02810578707653
3,이디야,강남대치점,"서울 강남구 역삼로 415 (대치동, 성진빌딩)",강남구,37.50133876179308,127.05242928262568
4,이디야,강남도산점,서울 강남구 도산대로37길 20 (신사동),강남구,37.5222784215718,127.031487626912


In [None]:
print('위도 누락 데이터 개수 : %d' % ediyaFrame['위도'].isnull().sum())
print('경도 누락 데이터 개수 : %d' % ediyaFrame['경도'].isnull().sum())

In [None]:
ediyaFrame.info()

In [69]:
# 이디야 매장 csv 파일로 저장
filename = 'ediyaFile.csv'
# ediyaFrame.to_csv(filename, encoding='CP949', index=False)
ediyaFrame.to_csv(filename, encoding='UTF-8', index=False)
print(filename + ' 파일 저장됨')

ediyaFile.csv 파일 저장됨


In [120]:
'''
<img alt="테라스" src="https://www.hollys.co.kr/websrc/images/store/img_store_s02.gif" style="margin-right:1px"/>
<img alt="흡연시설" src="https://www.hollys.co.kr/websrc/images/store/img_store_s04.gif" style="margin-right:1px"/>
<img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>
<img src="https://www.hollys.co.kr/websrc/images/store/img_store_s06.gif" style="margin-right:1px" alt="24시간">
<img src="https://www.hollys.co.kr/websrc/images/store/img_store_s01.gif" style="margin-right:1px" alt="DT 매장">
'''

'\n<img alt="테라스" src="https://www.hollys.co.kr/websrc/images/store/img_store_s02.gif" style="margin-right:1px"/>\n<img alt="흡연시설" src="https://www.hollys.co.kr/websrc/images/store/img_store_s04.gif" style="margin-right:1px"/>\n<img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>\n<img src="https://www.hollys.co.kr/websrc/images/store/img_store_s06.gif" style="margin-right:1px" alt="24시간">\n<img src="https://www.hollys.co.kr/websrc/images/store/img_store_s01.gif" style="margin-right:1px" alt="DT 매장">\n'

In [3]:
hollys_base_url = 'https://www.hollys.co.kr/store/korea/korStore2.do'

In [4]:
# 위도와 경도 추출에 문제가 있는 주소 정보들
incorrect_address = []

# 서비스 목록을 전역 변수 : 타입은 list
global_service_list = []

In [9]:
# 페이지  번호를 추적하여 매장의 정보를 읽어 들이는 함수
def get_store_data(page_no):
    # 요청할 때 전송할 파라미터 정보
    # 페이지 번호와 '서울' 지역만 조회 예정
    parameters = {
        'pageNo': page_no,
        'sido': '서울',
        'gugun': '', 
        'store': ''        
    }    
    
    # url에 데이터 요청 보내기
    response = requests.get(hollys_base_url, params=parameters)

    if response.status_code == 200 :        
        # print(response.text)
        pass
    else :
        print(f'페이지 {page_no} 로딩에 실패하였습니다.')
        return [] 
    # end if

    soup = BeautifulSoup(response.text, 'html.parser') # HTML 문서 파싱
    # table 태그의 'class' 속성이 'tb_store'인 요소를 찾습니다.
    store_table = soup.find('table', {'class': 'tb_store'})
    
    all_store = store_table.find_all('tr')[1:] # 상단 table header는 제외하기  

    if len(all_store) == 0 : # 매장 정보가 없으면 ...
        return None

    stores = [] # 현재 페이지에서 반환될 모든 매장 정보        

    for one_store in all_store :
        td_tags = one_store.find_all('td')

        if len(td_tags) <= 1 : # 더 이상 매장 정보가 없으면 무시
            continue
        # end if
        
        brand = '할리스'
        # region = td_tags[0].text.strip()
        name = td_tags[1].text.strip()
        address = td_tags[3].text.strip().replace(' .', '') # 주소 끝트러미에 "공백." 치환
        imsi = address.split(' ')
        # sido = imsi[0]
        gungu = imsi[1]

        # 매장 서비스 목록 : 가능한 서비스들을 <img> 태그로 만들었습니다.
        # 기본 값으로 모든 매장에서는 서비스 되는 게 없습니다.
        service_dict = {'테라스':'no', '흡연시설':'no', '주차':'no', '24시간':'no', 'DT 매장':'no'}
        
        store_service = td_tags[4] # .text.strip() 
        # print('-' * 30)
        # print(store_service)

        service_img = store_service.find_all('img')
        # print('-' * 30)
        # print(f'img 태그 개수 : {len(service_img)}')

        for image in service_img:
            alt_tag = image.get('alt', '')
            service_dict[alt_tag] = 'yes'

        # print(name)
        # print(service_dict)

        # 사전을 정렬(숫자, 알파벳, 한글 순)하여 각, key들의 값 정보를 추출합니다.      
        service_list = sorted(service_dict.keys())
        service_data = [service_dict[key] for key in service_list]
        # print(service_data) # stores list에 추가되어야 합니다.

        global global_service_list # 나는 전역 변수입니다.
        global_service_list = service_list
        
        phone_number = td_tags[5].text.strip() # 전화 번호
        if phone_number == '.': # 전화 번호에 점만 들어 있는 경우
            phone_number = None

        # 위도와 경도에 대한 정보가 없습니다.
        # 그래서, 주소 정보와 kakao API를 이용하여 구해야 합니다.
        geoInfo  = getGeoCoder(address)
        # print('geoInfo')
        # print(geoInfo)

        if geoInfo != None :
            latitude = geoInfo[0]
            longitude = geoInfo[1]
            
        else : # 위도와 경도 변환이 잘 안되는 주소들
            # print(address)
            incorrect_address.append(address)
            latitude = None
            longitude = None
        # end if   
        
        # list에 + 기호를 사용하면, 요소들을 합쳐줍니다.
        stores.append([brand, name, address, gungu, latitude, longitude, phone_number] + service_data)
    # end for  

    return stores
# end def get_store_data(page_no)    

In [10]:
hollysData = [] # 매장 정보를 저장할 리스트
page_no = 1 # 페이지 번호를 +1씩 증가하면서 크롤링

while True :
    print(f'현재 {page_no} 페이지를 크롤링 중입니다.')
    stores = get_store_data(page_no)

    if not stores :
    # if page_no == 5 :
        break # 더 이상 매장 정보가 없으므로 빠져 나가기

    hollysData.extend(stores)
    page_no += 1    
# end while True    

현재 1 페이지를 크롤링 중입니다.


NameError: name 'url_header' is not defined

In [211]:
# 크롤링한 데이터를 DataFrame으로 변환
hollysFrame = pd.DataFrame(hollysData)
print(f'총 {len(hollysFrame)} 개의 매장 정보가 수집되었습니다.')

총 132 개의 매장 정보가 수집되었습니다.


In [213]:
column_list = ['브랜드', '상호', '주소', '군구', '위도', '경도', '전화 번호'] + global_service_list
hollysFrame.columns = column_list
hollysFrame.head()

Unnamed: 0,브랜드,상호,주소,군구,위도,경도,전화 번호,24시간,DT 매장,주차,테라스,흡연시설
0,할리스,서서울공원점2,서울특별시 양천구 남부순환로58길 37 신월동 205-36,양천구,37.5291587223783,126.831707115465,070-4277-6756,no,no,yes,yes,no
1,할리스,경희대 청운관점,서울 동대문구 경희대로 26 청운관 지하1층,동대문구,37.5939491407769,127.054890960564,,no,no,no,no,no
2,할리스,덕성여대점,서울시 강북구 삼양로 547 1~3층,강북구,,,02-6093-0011,no,no,yes,yes,no
3,할리스,메리츠봉래타워점,서울시 중구 칠패로 28 메리츠강북타워 1층,중구,37.5592510458885,126.97211628887,02-753-8835,no,no,no,no,no
4,할리스,길동포유르센티점,서울특별시 강동구 진황도로 104 1층 101~102호(길동 458),강동구,37.535331138953,127.137825166105,02-487-9997,no,no,no,no,no


In [None]:
# 크롤링 이후 생성된 데이터 프레임에 대한 보정 작업

In [None]:
# 변환에 문제가 있었던 주소들
incorrect_address

In [None]:
# 주소 각각에 대하여 콤마를 스페이스로 치환하고, 공백 2칸도 1칸으로 치환합니다.
# split() 메소드를 사용한 후, 0번째 3번째 까지 챙겨 옵니다.
correction_address = [addr.replace(',', ' ').replace('  ', ' ').split(' ')[0:4] for addr in incorrect_address]
correction_address

In [None]:
# split() 함수로 나누어진 주소를 취합하여 보정된 주소로 변환합니다.
correction_address = [' '.join(addr) for addr in correction_address]
correction_address

In [None]:
# 보정된 주소 이름으로 getGeoCoder 함수를 호출하여 위도와 경도를 추출해 냅니다.
correction_geoInfo = [getGeoCoder(addr) for addr in correction_address]
correction_geoInfo

In [None]:
# 주소 정보와 위도 및 경도를 묶어서 하나의 tuple로 만든 목록들을 list에 저장합니다.
corretion_data = [(incorrect_address[idx], correction_geoInfo[idx][0], correction_geoInfo[idx][1]) 
                  for idx in range(len(incorrect_address))]
corretion_data

In [214]:
# 반복문으로 각 행에 대한 보정 작업
# onerow는 (주소, 위도, 경도) 정보를 담고 있는 tuple입니다.
for onerow in corretion_data:
    hollysFrame.loc[hollysFrame['주소'] == onerow[0], ['위도', '경도']] = [onerow[1], onerow[2]]

In [215]:
filename = 'hollys_stores.csv'
hollysFrame.to_csv(filename, encoding='UTF-8', index=False)
print(f'{filename} 파일이 저장되었습니다.')

hollys_stores.csv 파일이 저장되었습니다.


In [None]:
# 이미 만들어 둔 '할리스' 매장 정보를 읽어 들이기
hollys = pd.read_csv('hollys_stores.csv')
hollys