# 기초 패키지 로드

In [1]:
from bs4 import BeautifulSoup
from selenium import webdriver
import time

# 대상 URL 확보

In [None]:
url = "http://v.media.daum.net/v/20161120134647462"
print(url) # 클릭하여 기사를 확인해 보자

# 크롬 드라이버 불러오기

- 원래 코드에서는 Chromedriver를 사용했지만, 사용자에 따라서 Firefox, Edge, Chrome 선택이 가능하다
- 드라이버는 Selenium의 공식 Github페이지의 링크를 사용하면 편리하게 찾을 수 있다(https://github.com/SeleniumHQ/selenium)
- Driver를 실행하면서, 어떤 위치에 실행 파일이 있는지 알려줘야 한다 (Path를 따로 설정하는 것을 추천)

In [None]:
path = './edgedriver_mac64_m1/msedgedriver' # 드라이버 파일이 있는 경로 설정 (사용자 환경에 따라 다름)

In [None]:
driver = webdriver.Edge(path) # Edge 사용한다면
#driver = webdriver.Chrome(path) # Chrome 사용한다면
#driver = webdriver.Firefox(path) # Firefox 사용한다면

- 왜 드라이버가 종료되지 않을까?
    - 종료 버튼을 누르지 않았으므로
    - 만약 이상태로 계속 드라이버를 실행하면 계속 새 창이 뜨기 때문에 종료를 해 주자

In [None]:
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행
driver.quit() # 종료

# 실행 환경 테스팅

In [None]:
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행

driver.get(url) # 드라이버를 띄운 상태에서 URL에 접근
time.sleep(3) # 전체 페이지 나올 때 까지 대기
html = driver.page_source # 일단 펼쳐진 내용을 다 저장해 놓자

driver.quit() # 종료

In [None]:
soup = BeautifulSoup(html,'html.parser')
soup.prettify()[:300] # 헤더 부분만 확인해 보자

# 동작 세부설정

- 제대로 정보를 받아오는 것이 확인됐다. 
- 이제 구체적인 위치를 설정하고, 명령을 내려보자
    - 그 전에, 객체를 선택하기 위해서 필요한 부가 함수/옵션을 불러온 후 작업을 시작하자
    - By는 여러가지 옵션을 통해 우리가 원하는 파트를 검색하는데 사용된다


In [None]:
from selenium.webdriver.common.by import By

## 1차 테스트 - ON/OFF 클릭여부 확인

In [None]:
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행
driver.get(url) # 드라이버를 띄운 상태에서 URL에 접근
time.sleep(3) # 전체 페이지 나올 때 까지 대기

driver.find_element(By.XPATH , '//*[@id="alex-area"]/div/div/div/div[1]/button').click() # XPATH로 찾아서 -> click(!)
time.sleep(3) # 전체 페이지 나올 때 까지 대기 (선택사항)

driver.quit()

## 2차 테스트 - 댓글 더 보기 버튼이 작동하는지 확인하기

In [None]:
# 페이지 접근, 댓글펴기
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행
driver.get(url) # 드라이버를 띄운 상태에서 URL에 접근
time.sleep(3) # 전체 페이지 나올 때 까지 대기
driver.find_element(By.XPATH , '//*[@id="alex-area"]/div/div/div/div[1]/button').click() # XPATH로 찾아서 -> click(!)

# 댓글 더 보기
found_element = True
while found_element: # 특정 조건 내에서 드라이버는 작업을 반복한다 
    try:
        element = driver.find_element(By.XPATH, '//*[@id="alex-area"]/div/div/div/div[4]/div[2]/button') # 그 조건은 xpath 경로에 (더보기) 버튼이 존재할 때이다
        element.click() # 있다면 클릭하고
        time.sleep(3) # 3초를 기다려라
    except Exception:
        found_element = False # 없으면 Loop는 종료된다

time.sleep(3)
driver.quit()

## 3차 테스트 - 크롤링 데이터 저장/처리

In [None]:
# 페이지 접근, 댓글펴기
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행
driver.get(url) # 드라이버를 띄운 상태에서 URL에 접근
time.sleep(3) # 전체 페이지 나올 때 까지 대기
driver.find_element(By.XPATH , '//*[@id="alex-area"]/div/div/div/div[1]/button').click() # XPATH로 찾아서 -> click(!)

# 댓글 더 보기
found_element = True
while found_element: # 특정 조건 내에서 드라이버는 작업을 반복한다 
    try:
        element = driver.find_element(By.XPATH, '//*[@id="alex-area"]/div/div/div/div[4]/div[2]/button') # 그 조건은 xpath 경로에 (더보기) 버튼이 존재할 때이다
        element.click() # 있다면 클릭하고
        time.sleep(3) # 3초를 기다려라
    except Exception:
        found_element = False # 없으면 Loop는 종료된다

# 데이터 저장
html = driver.page_source # 모든 댓글이 다 표시된 상태에서 페이지를 html에 넣어주고
driver.quit() # 드라이버를 종료한다 (중요!)

# 출력
soup = BeautifulSoup(html, "html.parser") # BS4 객체로 만든다
comments = soup.find_all("ul", class_="list_comment") # 이제 코멘트 파트를 모두 가져와서

print(comments) # 출력한다(!)

## 4차 테스트 : 세부 설정 마무리

In [None]:
len(comments)

In [None]:
comments[0].text.split("댓글 작성자")

In [None]:
for text in soup.find_all('p',class_="desc_txt font_size_"):
    print(text.text.strip())

In [None]:
for text in soup.find_all('p',class_="desc_txt font_size_"):
    print(text.text.strip().replace("\n",". "))

# 코드 통합 / 최종테스트

In [None]:
# 패키지 로드
from bs4 import BeautifulSoup
from selenium import webdriver
import time

# 대상 설정
url = "http://v.media.daum.net/v/20161120134647462"

# 드라이버 세팅
path = './edgedriver_mac64_m1/msedgedriver' # 드라이버 파일이 있는 경로 설정

# 셀렉터 추가 로드
from selenium.webdriver.common.by import By

# 페이지 접근, 댓글펴기
driver = webdriver.Edge(path) # 경로에 있는 드라이버 찾아서 실행
driver.get(url) # 드라이버를 띄운 상태에서 URL에 접근
time.sleep(3) # 전체 페이지 나올 때 까지 대기
driver.find_element(By.XPATH , '//*[@id="alex-area"]/div/div/div/div[1]/button').click() # XPATH로 찾아서 -> click(!)

# 댓글 더 보기
found_element = True
while found_element: # 특정 조건 내에서 드라이버는 작업을 반복한다 
    try:
        element = driver.find_element(By.XPATH, '//*[@id="alex-area"]/div/div/div/div[4]/div[2]/button') # 그 조건은 xpath 경로에 (더보기) 버튼이 존재할 때이다
        element.click() # 있다면 클릭하고
        time.sleep(3) # 3초를 기다려라
    except Exception:
        found_element = False # 없으면 Loop는 종료된다

# 데이터 저장
html = driver.page_source # 모든 댓글이 다 표시된 상태에서 페이지를 html에 넣어주고
driver.quit() # 드라이버를 종료한다 (중요!)

# 출력
soup = BeautifulSoup(html, "html.parser") # BS4 객체로 만든다
comments = soup.find_all("ul", class_="list_comment") # 이제 코멘트 파트를 모두 가져와서 볼 수 있다
#print(comments)

# (만약) 댓글만 보고 싶다면 이렇게 해 보자
for text in soup.find_all('p',class_="desc_txt font_size_"):
    print(text.text.strip().replace("\n",". "))