## Selenium & Headless Chrome를 활용한 크롤링 이해 및 실습
 - 브라우저를 제어해서 크롤링을 하는 방법

### 1. Selenium 
   - Selenium: 웹을 테스트하기 위한 프레임워크
   - 공식 홈페이지(http://www.seleniumhq.org/)
   - Selenium with Python : http://selenium-python.readthedocs.io/index.html
   

<div class="alert alert-block alert-success">
<strong><font color="blue" size="4em">사전준비 (Selenium 설치)</font></strong><br>
 1. Selenium 인스톨: pip install selenium<br>
 2. 웹드라이버 인스톨: 웹 테스트 자동화를 위해 제공되는 툴(각 browser및 os 별로 존재)<br>
 - selenium - 테스트 코드를 사용하여 브라우져에서의 액션을 테스트할 수 있게 해주는 툴<br>
 - Firefox, chromedriver 등 각 브라우져마다 웹드라이버 다운로드 가능<br>
     + https://sites.google.com/a/chromium.org/chromedriver/  (Chrome 브라우저용)<br>
     + https://github.com/mozilla/geckodriver/releases  (Firefox 브라우저용)<br>
 <br>
 확인: 설치 디렉토리를 알아두어야 함
</div>

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 드라이버 생성
# chromedriver 설치된 경로를 정확히 기재해야 함
# chromedriver = 'C:/dev_python/Webdriver/chromedriver.exe' # 윈도우 
chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver)

# 크롤링할 사이트 호출
driver.get("http://www.python.org")

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "Python" in driver.title
time.sleep(5)

# <input id="id-search-field" name="q" 검색창 name으로 검색하기
# 태그 name으로 특정한 태그를 찾을 수 있음
elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
# elem.clear()

# 키 이벤트 전송가능함
# 태그가 input 태그이므로 입력창에 키이벤트가 전달되면, 입력값이 자동으로 작성됨
elem.send_keys("pycon")

# 태그가 input 태그이므로 엔터 입력시 form action이 진행됨
elem.send_keys(Keys.RETURN)

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "No results found." not in driver.page_source

# 명시적으로 일정시간을 기다릴 수 있음 (10초 기다림)
time.sleep(10)

# 크롬 브라우저 닫기 가능함
driver.quit()

### 2. PhantomJS (참고, 2021년 현재는 더이상 유지보수를 지원하지 않음)
 - WebTesting을 위해 나온 화면이 존재하지 않는 브라우저
 - 터미널환경에서 동작하는 크롤러의 경우 PhantomJS 브라우저 사용 권장
 
> 크롬에서 PhantomJS 의 기능을 직접 지원해줌에 따라, PhantomJS 는 더이상 관련 기능을 유지보수하는 것이 의미가 없다라고 생각하여, 이제는 PhantomJS 를 지원하지 않겠다고 하였으므로, 이제부터는 Selenium 또는 다음에 나오는 Headless Chrome 을 쓰시면 됩니다

<div class="alert alert-block alert-success">
<strong><font color="blue" size="4em">사전준비 (PhantomJS 설치)</font></strong><br>
 1. 윈도우: PhantomJS 다운로드 후 절적한 디렉토리에 압축을 품 (http://phantomjs.org/download.html)<br>
 2. 맥: brew install phantomjs 또는 윈도우에서 사용한 웹사이트를 활용<br>
 3. 리눅스: suto apt-get install phantomjs (한글폰트가 없다면, 추가로 sudo apt-get install -y fonts-nanum* )<br>
 <br>
 확인: 설치 디렉토리를 알아둬야 함
</div>

 <strong><font color="blue" size="4em">확인 사항</font></strong>
 <br><br>
 
 <font color="red">
 다음 코드부터는 Selenium을 사용할지, PhantomJS를 사용할지를 정해서<br>
 드라이버를 생성하는 코드를 자신의 로컬 환경에 맞게 넣어주신 후에<br>
 실행을 하셔야 합니다.
 </font>
 

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# 드라이버 생성 방법1 (selenium)
# chromedriver = 'C:/dev_python/Webdriver/chromedriver.exe' # 윈도우 
# chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
# driver = webdriver.Chrome(chromedriver)

# 드라이버 생성 방법2 (phantomJS)
# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥

driver.get("http://www.python.org")

print (driver.current_url)
print (driver.title)

elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
elem.clear()

# 키 이벤트 전송
elem.send_keys("python")

# 엔터 입력
elem.send_keys(Keys.RETURN)

# 스크린샷도 찍을 수 있습니다.
driver.set_window_size(1400, 1000)
elem.screenshot("pycon_event.png")
assert "No results found." not in driver.page_source

driver.quit()



https://www.python.org/
Welcome to Python.org


## 3. Headless Chrome
- Chrome 브라우저는 크롬 59 버전 이상부터 지원하며, PhantomJS 와 동일하게, 브라우저를 띄우지 않고, 크롤링을 할 수 있는 프로그램

> 크롬에서 본 기능을 직접 지원해줌에 따라, PhantomJS 는 더이상 관련 기능을 유지보수하는 것이 의미가 없다라고 생각하여, 이제는 PhantomJS 를 지원하지 않겠다고 하였으므로, 이제부터는 Selenium 또는 Headless Chrome 을 쓰시면 됩니다

In [None]:
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
options.add_argument("User-Agent:  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
options.add_argument("lang=ko_KR")
chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver, chrome_options=options)
driver.get('http://v.media.daum.net/v/20170202185812986')

body = driver.find_element_by_id('harmonyContainer')
print (body.text)
    
driver.quit()

### User Agent 확인 - Headless Chrome

In [None]:
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
options.add_argument("User-Agent:  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
options.add_argument("lang=ko_KR")
chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver, chrome_options=options)
driver.get('https://intoli.com/blog/making-chrome-headless-undetectable/chrome-headless-test.html')

user_agent = driver.find_element_by_css_selector('#user-agent').text

print('User-Agent: ', user_agent)

driver.quit()


### User Agent 확인 - Selenium 

In [None]:
from selenium import webdriver

chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver)
driver.get('https://intoli.com/blog/making-chrome-headless-undetectable/chrome-headless-test.html')

user_agent = driver.find_element_by_css_selector('#user-agent').text

print('User-Agent: ', user_agent)

driver.quit()
