In [1]:
import re
import requests
from bs4 import BeautifulSoup

### HTTP
- 1XX(정보): 요청을 받았으며 프로세스를 계속한다.
- 2XX(성공): 요청을 성공적으로 받았으며 인식했고 수용하였다.
- 3XX(리다이렉션): 요청 완료를 위해 추가 작업조치가 필요하다.
- 4XX(클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다.
- 5XX(서버 오류): 서버가 명백히 유효한 요청에 대한 충족을 실패했다.

In [14]:
url = 'https://comment.daum.net/apis/v1/ui/single/main/@20190728165812603'

headers = { "authorization": "Bearer ...." }

res = requests.get(url, headers=headers)
res.json()['post']['commentCount']

42

In [None]:
# 세션을 저장하여 이후까지 이용해야 할때 다음과 같이 session을 생성해줍니다.
s = requests.Session()

# s.post()

### Selenim
- 웹페이지 테스트 자동화용 모듈
- 개발/테스트용 드라이버(웹브라우저)를 사용하여 실제 사용자가 사용하는 것처럼 동작
- 실습전 확인사항
    - selenium 모듈 설치
    - [크롬 드라이버 다운로드](https://chromedriver.chromium.org/downloads) - 이때버전은 내 컴퓨터의 크롬버전과 같아야합니다.

In [2]:
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [8]:
# 간단한 예제
chrome_driver = '/Users/webchemist/chromedriver'
driver = webdriver.Chrome(chrome_driver)
driver.get("https://www.python.org")

search = driver.find_element_by_id("id-search-field")

search.clear()
time.sleep(3)

search.send_keys("lambda")
time.sleep(3)

search.send_keys(Keys.RETURN)
time.sleep(3)

driver.close()

### Selenium을 이용한 다음뉴스 웹사이트 크롤링

In [18]:
chrome_driver = '/Users/webchemist/chromedriver'
driver = webdriver.Chrome(chrome_driver)

url = 'https://news.v.daum.net/v/20190728165812603'
driver.get(url)

src = driver.page_source
soup = BeautifulSoup(src)

driver.close()

comment = soup.select_one('span.alex-count-area')
comment.get_text()

'0'

### Selenium 필요한 데이터가 로딩 된 후 크롤링 하기
- WebDriverWait 객체를 이용하여 해당 element가 로딩 되는 것을 대기
- 실제로 해당 기능을 활용하여 거의 모든 사이트의 크롤링 가능
- WebDriverWat(driver, 시간(초)).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'CSS_RULE')))

In [21]:
chrome_driver = '/Users/webchemist/chromedriver'
driver = webdriver.Chrome(chrome_driver)

url = 'https://news.v.daum.net/v/20190728165812603'
driver.get(url)

# 최대 10초간 기다리며, 해당 css가 로딩 완료가 되면 넘어간다!
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'em.num_count')))

src = driver.page_source
soup = BeautifulSoup(src)

driver.close()

comment = soup.select_one('em.num_count')
comment.get_text()


'42'