# 8. Selenium과 PhantomJS를 활용한 크롤링 이해 및 실습

- 브라우저를 제어해서 크롤링을 하는 방법

<br>

## 8.1 Selenium

- 웹을 테스트하기 위한 프레임워크
- 테스트 코드를 사용하여 브라우저에서의 액션을 테스트할 수 있게 해주는 툴

### 8.1.1 Selenium 설치

In [1]:
!pip install selenium

Collecting selenium
  Downloading https://files.pythonhosted.org/packages/80/d6/4294f0b4bce4de0abf13e17190289f9d0613b0a44e5dd6a7f5ca98459853/selenium-3.141.0-py2.py3-none-any.whl (904kB)
Installing collected packages: selenium
Successfully installed selenium-3.141.0


<br>

- Colab에서 Selenium을 사용하기 위해서는 다음 작업이 필요하다.

In [None]:
!apt-get update

In [None]:
!apt install chromium-chromedriver

In [None]:
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

In [None]:
import sys
sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver')

In [None]:
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',options=options)
wd.get("https://www.webite-url.com")

<br>

### 8.1.2 웹드라이버 설치

- 웹드라이버
  - 웹 테스트 자동화를 위해 제공되는 툴
  - 각 browser 및 os 별로 존재
- Firefox, chromedriver 등 각 브라우저마다 웹드라이브 다운로드 가능
  - Chrome 브라우저용 : [https://sites.google.com/a/chromium.org/chromedriver/](https://sites.google.com/a/chromium.org/chromedriver/)
  - Firefox 브라우저용 : [https://github.com/mozilla/geckodriver/releases](https://github.com/mozilla/geckodriver/releases)
- 웹드라이버가 설치된 위치를 알고 있어야 한다.

<br>

### 8.1.3 Selenium 사용

In [3]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 드라이버 생성
# chromedriver 설치된 경로를 정확히 기재해야 한다.
chromedriver = "E:/shkim/pythonRepository/Crawling/webdriver/chromedriver_win32/chromedriver.exe" # Local
#chromedriver = "chromedriver" # Google Colab

# Colab 전용 옵션
#options = webdriver.ChromeOptions()
#options.add_argument('--headless')
#options.add_argument('--no-sandbox')
#options.add_argument('--disable-dev-shm-usage')

#driver = webdriver.Chrome(chromedriver, options=options)
driver = webdriver.Chrome(chromedriver)

# 크롤링할 사이트 호출
driver.get("http://www.python.org")

# Selenium은 웹테스트를 위한 프레임워크이다.
# 다음과 같은 방식으로 웹 테스트를 자동으로 진행함 (참고)
assert "Python" in driver.title

# <input id="id-search-field" name="q"/>
# 검색창 name으로 검색하기
# 태그 name으로 특정한 태그를 찾을 수 있음
elem = driver.find_element_by_name("q")

# input 텍스트 초기화
elem.clear()

# 키 이벤트 전송
# 태그가 input 태그이므로 입력창에 키 이벤트가 전달되면, 입력값이 자동으로 작성됨
elem.send_keys("pycon")

# 태그가 input 태그이므로 엔터 입력 시 form action이 진행됨
elem.send_keys(Keys.RETURN)

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "No results found." not in driver.page_source

# 명시적으로 일정 시간을 기다릴 수 있음
# 10초 기다림
time.sleep(10)

# 크롬 브라우저 닫기
driver.quit()

<br>

## 8.2 PhantomJS

- WebTesting을 위해 나온 화면이 존재하지 않는 브라우저
- 터미널환경에서 동작하는 크롤러의 경우 PhantomJS 브라우저 사용 권장

<br>

### 8.2.1 PhantomJS 설치

#### 8.2.1.1 윈도우

- 아래 링크에서 PhantomJS 다운로드 후 적절한 디렉토리에 압축을 푼다.
- [http://phantomjs.org/download.html](http://phantomjs.org/download.html)

<br>

#### 8.2.1.2 맥

```bash
brew install phantomjs
```

<br>

#### 8.2.1.3 리눅스

1) 기본 설치

```bash
sudo apt-get install phantomjs
```

2) 한글 폰트 추가 설치

```bash
sudo apt-get install -y fonts-nanum*
```

<br>

### 8.2.2 PhantomJS 사용

In [5]:
import warnings
warnings.filterwarnings('ignore')

In [7]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# 드라이브 생성
phantomjsDriver = "E:/shkim/pythonRepository/Crawling/phantomjs/phantomjs-2.1.1-windows/bin/phantomjs.exe"

driver = webdriver.PhantomJS(phantomjsDriver)

driver.get("http://www.python.org")

print(driver.current_url)
print(driver.title)

elem = driver.find_element_by_name("q")

# input 텍스트 초기화
elem.clear()

# 키 이벤트 전송
elem.send_keys("pycon")

# 엔터 입력
elem.send_keys(Keys.RETURN)

# 스크린샷 캡쳐
driver.set_window_size(1400, 1000)
elem.screenshot("pycon_event.png")
assert "No results found." not in driver.page_source

driver.quit()

https://www.python.org/
Welcome to Python.org


<br>

## 8.3 태그 검색 주요 함수

- Selenium 과 PhantomJS에서 공통으로 사용 가능

<br>

### 8.3.1 `find_element_by_tag_name()`

- 최초 발견한 태그만 가져오기

In [8]:
from selenium import webdriver

phantomjsDriver = "E:/shkim/pythonRepository/Crawling/phantomjs/phantomjs-2.1.1-windows/bin/phantomjs.exe"
driver = webdriver.PhantomJS(phantomjsDriver)

driver.get('http://v.media.daum.net/v/20170202185812986')

# 최초 발견한 태그만 검색
title = driver.find_element_by_tag_name("h3")
print(title.text)

driver.quit()

'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩


<br>

### 8.3.2 `find_elements_by_tag_name()`

- 모든 태그 리스트로 가져오기

In [9]:
from selenium import webdriver

phantomjsDriver = "E:/shkim/pythonRepository/Crawling/phantomjs/phantomjs-2.1.1-windows/bin/phantomjs.exe"
driver = webdriver.PhantomJS(phantomjsDriver)

driver.get('http://v.media.daum.net/v/20170202185812986')

# 모든 태그 검색
h3s = driver.find_elements_by_tag_name("h3")

for h3 in h3s:
    print(h3.text)

driver.quit()

'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩
많이본 뉴스
포토&TV
이 시각 추천뉴스
실시간 주요이슈


<br>

### 8.3.3 `find_element_by_id()`

- 최초 발견한 아이디를 가진 태그만 가져오기

In [10]:
from selenium import webdriver

phantomjsDriver = "E:/shkim/pythonRepository/Crawling/phantomjs/phantomjs-2.1.1-windows/bin/phantomjs.exe"
driver = webdriver.PhantomJS(phantomjsDriver)

driver.get('http://v.media.daum.net/v/20170202185812986')

# 해당 ID를 갖는 태그 검색
body = driver.find_element_by_id("harmonyContainer")
print(body.text)

driver.quit()

지난달 24일 출시된 모바일게임 '포켓몬고'가 출시 1주일여만에 우리나라 거리 풍경을 크게 바꿔놨다. 번화가나 공원 등 거리 곳곳에서 손에 스마트폰을 들고 '포켓몬'을 사냥하는 모습을 손쉽게 찾아볼 수 있게 된 것이다.다른 국가에 비해 반년 가량 늦게 출시됐음에도 불구, 이용자 수가 700만명에 육박한 것으로 알려졌다. 우리나라 국민 10명 중 1명은 지난 1주일 사이에 한번은 포켓몬고 게임을 해봤다는 얘기다.

지역경제 활성화에도 도움이 되고 있다. 포켓몬이 자주 출몰하는 지역으로 입소문을 탄 지역 편의점 매출이 급증하는 현상도 나타났다. 지난해 여름, 강원도 속초가 '포켓몬고' 특수를 톡톡히 누린 것과 비슷한 현상이 전국 곳곳에서 나타나고 있는 것이다.

■우리 국민 10명 중 1명은 '포켓몬고' 게이머

애플리케이션(앱) 분석업체 와이즈앱은 2일 전국 2만3000명의 안드로이드 스마트폰 사용자 표본조사를 바탕으로 추정한 지난 1주일간 '포켓몬고' 이용자는 698만명이라고 발표했다. 특히 10대와 20대 이용자들이 '포켓몬고'에 열광하고 있는 것으로 나타났다. 전체 이용자의 65% 이상이 10대와 20대다.

이 게임 개발사인 나이언틱랩스가 설 연휴 직전에 출시한 전략도 제대로 맞아 떨어졌다. 지난 설 연휴, 고향에서 가족과 친지들이 모여 '포켓몬고'를 즐기는 모습이 곳곳에서 눈에 띄였다. 고속도로 휴게소 등에서도 포켓몬고 이용자들도 많았다.

전국 번화가와 공원 등 게임 내 주요 장소인 '포켓스톱'으로 지정된 곳이 많은 지역은 '포켓몬고' 게이머들로 붐볐다. 서울 노원역, 이수역, 강남역, 잠실역 등 번화가와 부산 시민공원, 대전 오월드, 제천 의림지 등 전국 주요 장소로 '포켓몬'을 찾는 이들이 몰려들었다.

지역 명소를 찾는 이들도 부쩍 늘었다. 주로 교회나 절, 조형물 등이 '포켓스톱'으로 지정돼 있기 때문에 평소에는 그냥 지나쳤던 명소를 다시 한번 돌아보게 되는 계기가 됐다는 게이머들도 많다.

업계 관계자는 "포켓스톱은 포켓몬고를 즐기기 위해 반

<br>

### 8.3.4 `find_element_by_name()`

- 최초 발견한 태그 안에 `name` 값이 같은 태그 가져오기

<br>

### 8.3.5 `find_elements_by_name()`

- 태그 안에 `name`값이 같은 태그 모두 리스트로 가져오기