### Selenium WebDriver
>  
- BeautifulSopu 패키지만을 사용하여 크롤링을 할 경우, 모든 웹페이지의 데이터들을 가져오는 것은 아니다.
- 예를들어, 비동기적으로 뒤늦게 웹페이지의 정보를 업데이트하는 경우와 로그인이나 특정권한을 요구하는 웹페이지의 경우가 그럴것이다.
- 이때 필요로 하는 패키지가 바로 셀레늄(Selenium)이며, 별도의 webdriver라는 API를 통해 운영체제에 설치된 브라우저를 제어할 수 있다.
- 즉, 셀레늄을 사용하면 웹페이지상에서 눈에 보이는 모든 데이터를 가져올 수 있다.
- 참조 : http://www.seleniumhq.org/projects/webdriver/
- 용도 : 해킹, TEST, 크롤링

In [1]:
from bs4 import BeautifulSoup
from selenium import webdriver
from IPython.display import Image

In [11]:
# 웹드라이브로 크롬브라우즈 띄운다.
driver_path = './chromedriver.exe'
driver = webdriver.Chrome(executable_path = driver_path)

In [12]:
# 네이버영화, 리뷰페이지로 이동
url_page = 'http://movie.naver.com/movie/bi/mi/review.nhn?code=163533'
driver.get(url_page)

In [13]:
html = driver.page_source
soup = BeautifulSoup(html, "lxml")
# soup

In [14]:
review_cnt = soup.find("span",class_ = "cnt")
review_cnt

<span class="cnt">총<em>555</em>건</span>

In [16]:
review_cnt2 = review_cnt.find("em").get_text()
review_cnt2

'555'

In [17]:
review_cnt_total = int(review_cnt2.replace(',', ''))
review_cnt_total

555

In [18]:
last_page = review_cnt_total//10 + 1
last_page

56

In [19]:
"네이버영화 1987의 리뷰수는 총 {}건이며, 마지막 페이지는 {} 입니다.".format(review_cnt_total, last_page)

'네이버영화 1987의 리뷰수는 총 555건이며, 마지막 페이지는 56 입니다.'

### 스타벅스 크롤링

In [20]:
from selenium import webdriver as wd
from bs4 import BeautifulSoup as bs

from selenium.webdriver.common.by import By

# 명시적 대기를 위해
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import numpy as np
import pandas as pd
import time
import sys

In [21]:
# 사전에 필요한 정보를 로드 => DB 혹은 Shell, Batch File에서 인자로 받아서 셋팅
main_url = 'http://www.istarbucks.co.kr/store/index.do'
keyword  = '서울'

In [22]:
# 매장 정보
store_list = []

### WebDriver 로드
>  
- 셀레니움이 하는 일은 사림이 하는일과 최대한 유사하게 동작하도록 작업
- 차후 -> 옵션 부여하여 (프록시, 에이전트 조작, 이미지를 배제)
- 크롤링을 오래 돌리면 => 임시파일들이 쌓인다!!
- 1주일정도 돌리다보면 느껴진다. Temp에 막 쌓이므로 -> Temp 파일 삭제

In [23]:
driver = wd.Chrome(executable_path = './chromedriver.exe')

In [34]:
# 사이트 접속 (get) : 셀레니움이 하는 일은 사림이 하는일과 최대한 유사하게 동작하도록 작업
time.sleep(2)
driver.get(main_url)

# driver.find_element_by_css_selector('').click()

In [36]:
# 매장찾기 버튼을 클릭, Copy selector , #container : id가 container일 때
# https://saucelabs.com/resources/articles/selenium-tips-css-selectors
# css_selecter에 대해서 더 찾고 싶을 때
time.sleep(1)
driver.find_element_by_css_selector('div #container > section.store_bn1_section > article > div.store_bn1_btn >  a').click()

In [None]:
# 퀵검색에서 키워드 입력
# driver.find_element_by_id('quickSearchText').send_keys(keyword)
# driver.find_element_by_css_selector('#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(2) > div.quick_search_input > div > a').click()