# Selenium을 활용한 스타벅스 매장 위치 정보 얻기

## 0. 참고

- [문과의 파이썬 - 셀레니움](https://brunch.co.kr/@jk-lab/18)

## 1. 셀레니움 설치

- 관리자모드 cmd 
- pip install selenium

## 2. 웹 드라이버 설치

- https://sites.google.com/a/chromium.org/chromedriver/downloads
- OS 및 크롬 버전에 맞는 드라이버 설치
- 크롬 버전 확인은 우상단 `'''` → 도움말 → Chrome 정보에 들어가면 버전확인 및 자동으로 최신버전으로 업데이트 해줌. 
- 드라이버 설치 위치가 중요 → 웹 드라이버 실행 경로

## 3. 셀레니움을 통한 브라우저 제어

In [46]:
from selenium import webdriver
import bs4
import pandas as pd 

chromedriver_dir = r'D:\limworkspace\Reference\Python\chromedriver_win32\chromedriver.exe'
driver = webdriver.Chrome(chromedriver_dir)  # 드라이버 실행

In [14]:
driver.get('https://www.istarbucks.co.kr/store/store_map.do')  # 해당 url 페이지로 이동 

## 4. 버튼 찾아 누르기

In [16]:
loca = driver.find_element_by_class_name('loca_search')  # '지역 검색'의 element에 해당하는 `loca_search`위치 선택
loca.click()  # 클릭 

In [17]:
sido = driver.find_element_by_class_name('sido_arae_box')  # element
li = sido.find_elements_by_tag_name('li')  # elements : 다수의 element
li[0].click() # 첫번째 li : 서울 

In [19]:
gugun = driver.find_element_by_class_name('gugun_arae_box')
gu_li = gugun.find_element_by_tag_name('li')  # 전체 : 첫번째 li 
gu_li.click()

## 5. 동적으로 변한 브라우저에서 현재 페이지의 소스 정보 가져오기

In [20]:
source = driver.page_source  # 현재 조정하고 있는 웹 드라이버에서 현재 Html 코드 정보를 가져옴

- html vs lxml 차이는 [여기](https://brownbears.tistory.com/414)를 참고

In [25]:
import bs4

source = driver.page_source  # 페이지 소스 저장
bs = bs4.BeautifulSoup(source, 'lxml')   # beautifulsoup로 페이지 소스 파싱
info = bs.find('ul', class_ = 'quickSearchResultBoxSidoGugun')   # 매장 위치 정보가 담겨있는 class 찾기, tag는 ul
li_list = info.find_all('li')  # info 하위의 li 태그 전체 정보 가져오기

In [76]:
li_list[:3]

[<li class="quickResultLstCon" data-code="3762" data-hlytag="null" data-index="0" data-lat="37.501087" data-long="127.043069" data-name="역삼아레나빌딩" data-storecd="1509" style="background:#fff"> <strong>역삼아레나빌딩  <img alt="" class="setStoreFavBtn mCS_img_loaded" data-my_siren_order_store_yn="N" data-name="역삼아레나빌딩" data-store="1509" data-yn="N" src="//image.istarbucks.co.kr/common/img/store/icon_fav_off.png"/></strong> <p class="result_details">서울특별시 강남구 언주로 425 (역삼동)<br/>02-568-3762</p> <i class="pin_general">리저브 매장 2번</i></li>,
 <li class="quickResultLstCon" data-code="3672" data-hlytag="null" data-index="1" data-lat="37.510178" data-long="127.022223" data-name="논현역사거리" data-storecd="1434" style="background:#fff"> <strong>논현역사거리  <img alt="" class="setStoreFavBtn mCS_img_loaded" data-my_siren_order_store_yn="N" data-name="논현역사거리" data-store="1434" data-yn="N" src="//image.istarbucks.co.kr/common/img/store/icon_fav_off.png"/></strong> <p class="result_details">서울특별시 강남구 강남대로 538 (논현동)<br/>0

In [43]:
sido = []
gugun = []
for adrs in li_list:
    sido.append(adrs.find('p').text.split()[0])  # 주소를 공백기준으로 나눈 것의 첫번째 요소들 
    gugun.append(adrs.find('p').text.split()[1]) # 주소를 공백기준으로 나눈 것의 두번째 요소들

In [54]:
starbucks = pd.DataFrame({'시도' : sido, '구군' : gugun, '매장수' : 1})  # 데이터프레임으로 생성 
starbucks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 497 entries, 0 to 496
Data columns (total 3 columns):
시도     497 non-null object
구군     497 non-null object
매장수    497 non-null int64
dtypes: int64(1), object(2)
memory usage: 11.7+ KB


In [60]:
starbucks['시도'].unique()

array(['서울특별시', '서울시', '서울'], dtype=object)

In [63]:
sido_before = ['서울','서울시']  # 서울, 서울시를
sido_after = ['서울특별시', '서울특별시']  # 서울특별시로 변경하기 위한 데이터

In [64]:
starbucks['시도'] = starbucks['시도'].replace(sido_before, sido_after)  # 서울특별시로 통일 

In [72]:
starbucks = starbucks.pivot_table('매장수', ['시도', '구군'], aggfunc='sum').reset_index()  # pivot_table(value, [index1, index2, ...])

In [73]:
starbucks

Unnamed: 0,시도,구군,매장수
0,서울특별시,강남구,76
1,서울특별시,강동구,13
2,서울특별시,강북구,5
3,서울특별시,강서구,14
4,서울특별시,관악구,10
5,서울특별시,광진구,14
6,서울특별시,구로구,10
7,서울특별시,금천구,10
8,서울특별시,노원구,12
9,서울특별시,도봉구,2
