# 10장. 자바스크립트 스크레이핑

자바스크립트는 사용자 추적을 위한 정보 수집, 폼을 새로 고치지 않은 상태에서의 정보 전송, 멀티미디어 파일 등에 쓰임

함수를 마시 변수처럼 다루는 개념은 사용자의 행동이나 콜백을 처리할 때 대단히 유용한 언어

### 제이쿼리
- 제이쿼리는 자바스크립트가 실행된 다음에 동적으로 HTML 컨텐츠를 생성할 수 있음

### 구글 애널리틱스
- 가장 널리 쓰이는 자바스크립트 라이브러리인 동시에, 가장 널리 쓰이는 사용자 추적 도구

### 구글 지도
- 구글 지도에서 위치를 표시하기 위해 가장 많이 쓰는 방법은 마커!
- 구글의 리버스 지오코딩 API를 사용하면 분석하기 쉬운 주소로 변환할 수 있음

## Ajax와 동적 HTML
- Ajax : 페이지를 새로 고치지 않고 폼을 전송하거나 서버에서 정보를 가져옴. 
- 특정 작업을 하기 위해 사용하는 기술의 묶음
- DHTML(Dynamic HTML) : 클라이언트 쪽 스크립트가 페이지의 HTML 요소 바뀜에 따라 바뀌는 HTML이나 CSS

이 경우 해결책은 2가지

1. 자바스크립트를 분석해 컨텐츠를 직접 스크랩

2. 자바스크립트 자체를 실행할 수 있는 파이썬 패키지를 사용해 웹사이트를 브라우저에 보이는 그대로 스크랩


## 셀레니움

- 팬텀JS : 인터페이스가 없는 브라우저

- pip install selenium@2.51.0  
- http://phantomjs.org 에서 다운받은 후, bin 설정(Anaconda3/Scripts 아래에 팬텀js 바이너리 파일을 넣으면 매번 위치를 지정안해도 됨)

- driver.find_elements_by_css_selector("#content") 
Selenium에서 BeautifulSoup로 파싱하는 것도 가능!
- pageSource = driver.page_source // 현 시점의 DOM을 문자열로 반환
- bs0bj = BeautifulSoup(pageSource)
- print(bs0bj.find(id="content").get_text())

In [7]:
from selenium import webdriver
import time

driver = webdriver.PhantomJS(executable_path='C:/Users/Byeon/Anaconda3/selenium/webdriver/phantomjs-2.1.1-windows/bin/phantomjs')
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
time.sleep(5)
print(driver.find_element_by_id("content").text)
driver.close()

Here is some important text you want to retrieve!
A button to click!


In [10]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.PhantomJS()
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
try:
    element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "loadedButton")))
finally:
    print(driver.find_element_by_id("content").text)
    driver.close()

Here is some important text you want to retrieve!
A button to click!


- WebDriverWait와 expected_conditions를 사용하면 묵시적 대기 기능을 사용할 수 있음
- 우리가 기다릴 DOM의 상태는 expected_conditions(예상 조건)으로 정의!

자주 쓰이는 예상 조건
1. 알림(Alert) 박스 팝업 
2. 요소가 선택(selected) 상태로 바뀜 
3. 타이틀이 바뀌거나 어떤 텍스트가 페이지 또는 특정 요소안에 표시
4. 보이지 않던 요소가 DOM상에 보이게 되거나 어떤 요소가 사라지는 경우

어떤 요소를 지켜볼지 지정해야 함! 지켜볼 요소는 위치 지정자로 정함. By 객체를 사용

### 리다이렉트 처리

In [11]:
from selenium import webdriver
import time
from selenium.webdriver.remote.webelement import WebElement
from selenium.common.exceptions import StaleElementReferenceException

def waitForLoad(driver):
    elem = driver.find_element_by_tag_name("html")
    count = 0
    while True:
        count += 1
        if count > 20:
            print("Timing out after 10 seconds and returning")
            return
        time.sleep(.5)
        try:
            elem == driver.find_element_by_tag_name("html")
        except StaleElementReferenceException:
            return

driver = webdriver.PhantomJS()
driver.get("http://pythonscraping.com/pages/javascript/redirectDemo1.html")
waitForLoad(driver)
print(driver.page_source)

Timing out after 10 seconds and returning
<html><head>
<title>The Destination Page!</title>

</head>
<body>
This is the page you are looking for!

</body></html>
