## selenium

 - 웹페이지 테스트 자동화용 모듈
 - 개발/테스트용 드라이버(웹브라우저)를 사용하여 실제 사용자가 사용하는 것처럼 동작
 - [크롬 드라이버 다운로드](https://chromedriver.chromium.org/downloads)

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

from bs4 import BeautifulSoup

import time

#### selenium 예제
 - python.org 로 이동하여 자동으로 검색해보기
 


In [2]:
chrome_driver = './chromedriver/chromedriver.exe'
driver = webdriver.Chrome(chrome_driver)

driver.get('https://www.python.org/')

search = driver.find_element_by_id('id-search-field')

search.clear()
search.send_keys("lambda")
search.send_keys(Keys.RETURN)

time.sleep(5)

driver.close()

#### selenium을 이용한 다음뉴스 웹사이트 크롤링

In [3]:
chrome_driver = './chromedriver/chromedriver.exe'
driver = webdriver.Chrome(chrome_driver)

url = 'https://news.v.daum.net/v/20190728165812603'
driver.get(url)

src = driver.page_source

soup = BeautifulSoup(src)
comment_area = soup.select_one('span.alex-count-area')  # 댓글 수

driver.close()

comment_area.get_text()

'43'

#### selenium을 활용하여 특정 element의 로딩 대기
 - WebDriverWait 객체를 이용하여 해당 element가 로딩 되는 것을 대기
 - 실제로 해당 기능을 활용하여 거의 모든 사이트의 크롤링이 가능
 - WebDriverWait(driver, 시간(초)).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'CSS_RULE')))
 

In [4]:
chrome_driver = './chromedriver/chromedriver.exe'
driver = webdriver.Chrome(chrome_driver)

# chromedriver로 해당 페이지를 물리적으로 open
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=081&aid=0003018031'
driver.get(url)

# 해당 element가 로딩 될때까지 대기
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'span.u_cbox_count')))

src = driver.page_source
soup = BeautifulSoup(src)

comment_area = soup.select_one('.u_cbox_count')
print(comment_area.get_text())

driver.close()

21


In [5]:
import requests

def crawl_comment(news_id):
    headers = {
        'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTU5MDE2MzM1OCwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiOGVhNjJhNTUtNzAzNi00MWQ3LTk0ODYtNzZlMmU5YjQ5NzI4IiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.SYeFcQrZg77ApY-l4Sd7wbnqjHGQMu7LHbV0KZyamxY',
        'Origin': 'https://news.v.daum.net',
        'Referer': 'https://news.v.daum.net/v/20190728165812603',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
    }
    url_template = 'https://comment.daum.net/apis/v1/posts/@{}/comments?parentId=0&offset={}&limit=10&sort=RECOMMEND&isInitial=false'

    offset = 0
    comments = []
    while True:
        url = url_template.format(news_id, offset)
        resp = requests.get(url, headers=headers)
        result = resp.json()
        if not result:
            break
            
        comments.extend(result)
        offset += 10
    return comments
    
comment_list = crawl_comment('20190728165812603')
print(len(comment_list), '\n')
print(comment_list[0])

35 

{'id': 394002136, 'userId': 3015947, 'postId': 133493400, 'forumId': -99, 'parentId': 0, 'type': 'COMMENT', 'status': 'S', 'flags': 0, 'content': '실제 아이언맨이라고 불리는 얼론 머스크 잘 알고 있습니다. 항상 발전하는 모습 보고있고 언젠가 우리도 그의 기술을 사용하며 편의를 즐기는 날이 올것 갔습니다. 우주에서도 많은 계획이 있다고 들었습니다. 화이팅', 'createdAt': '2019-07-29T16:06:10+0900', 'updatedAt': '2019-07-29T16:06:10+0900', 'childCount': 0, 'likeCount': 2, 'dislikeCount': 0, 'recommendCount': 2, 'autoCovered': False, 'user': {'id': 3015947, 'status': 'S', 'type': 'USER', 'flags': 0, 'icon': 'https://t1.daumcdn.net/profile/klq2XglmGLU0', 'url': '', 'username': 'DAUM:9wdBs', 'roles': 'ROLE_USER,ROLE_DAUM,ROLE_IDENTIFIED', 'providerId': 'DAUM', 'providerUserId': '9wdBs', 'displayName': '진성표', 'description': '', 'commentCount': 62}}
