# Selenium을 이용하여 유튜브 채널의 특정 댓글 추출하기
- 2021.03.14 : 댓글(comment) 크롤링 구현
- 2021.03.15 : 답글(reply) 크롤링 구현
- 2021.03.16 : 답글 크롤링 디버그 + 댓글/답글 '자세히 보기' 클릭 구현

### 필요한 라이브러리 불러오기

In [1]:
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains

### 설정값

In [2]:
# 목표 채널의 '동영상' 카테고리 url
channel = "https://www.youtube.com/channel/UCwkGvF7xKz2E0Lv-fZ9wv2g/videos"

# 콘텐츠 로딩 대기 시간
long_waiting = 3.0
short_waiting = 1.0

### 원하는 유튜브 채널의 '동영상' 카테고리에서 모든 영상 url 크롤링

In [3]:
driver = webdriver.Chrome('chromedriver.exe')
driver.get(channel)
href = []
# 현재 화면의 높이를 구한다.
last_height = driver.execute_script("return document.documentElement.scrollHeight")
while True:
    # 스크롤을 맨 아래까지 내린다.
    driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")

    # 콘텐츠 로딩 시간을 기다린다.
    time.sleep(short_waiting)

    # 현재 높이와 이전 높이값을 비교한다(더 스크롤할 지를 검사)
    new_height = driver.execute_script("return document.documentElement.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

videos = driver.find_elements_by_id('video-title')

# 테스트 목적으로 5개의 영상만 크롤링.
num = 5
for video in videos:
    href += [video.get_attribute('href')]
    if len(href) >= num:
        break

### 각 영상에 접근하여 원하는 키워드를 포함한 댓글 크롤링

In [None]:
i = 0
# 채널의 각 영상에 접근한다.
for url in href:
    driver.get(url)
    print(f"<Access the video of {i}>")
    time.sleep(long_waiting)
    
    # 댓글창이 화면에 보일 때까지 적당히 스크롤(버퍼링 오작동 방지)
    driver.execute_script("window.scrollTo(0, 500);")
    time.sleep(long_waiting)
    
    # 모든 댓글을 크롤링 할 수 있도록 무한 스크롤
    last_height = driver.execute_script("return document.documentElement.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
        time.sleep(long_waiting)
        new_height = driver.execute_script("return document.documentElement.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height
    
    # 각 영상의 원하는 댓글을 추출한다.
    comments_area = driver.find_elements_by_css_selector('#contents > ytd-comment-thread-renderer')
    find = False
    for comment_area in comments_area:
        # 각 댓글이 '자세히 보기' 버튼을 가지고 있으면 클릭.
        try:
            comment_area.find_element_by_css_selector('#more > span').click()
        except:
            pass
        comment = comment_area.find_element_by_css_selector('#comment').text
        
        # 특정 키워드를 포함하는 댓글을 크롤링(키워드 지정)
        if "?" in comment:
            find = True
            # 댓글 출력
            print(f"Comment block : \n{comment}")
            actions = ActionChains(driver)
            actions.move_to_element(comment_area).perform()
            time.sleep(short_waiting)
            reply_area = comment_area.find_element_by_css_selector('#replies')
            # 답글이 있는 댓글인지를 검사
            try:
                button = reply_area.find_element_by_css_selector('#button > yt-icon')
                # '답글 보기' 버튼을 클릭
                button.click()
                time.sleep(long_waiting)
            except:
                continue
            # '자세히 보기' 버튼이 있는 답글을 모두 클릭
            try:
                long_texts = reply_area.find_elements_by_css_selector('#more > span')
                for long_text in long_texts:
                    long_text.click()
                    time.sleep(short_waiting)
            except:
                pass
            # 모든 답글 크롤링
            replies = reply_area.find_elements_by_css_selector('#content-text')
            for reply in replies:
                print(f"  └ {reply.text}")
    # 댓글을 한 개 이상 찾았을 경우 해당 영상의 url 출력
    if find:
        print(f"url : {url}")
    i+=1

driver.close()