# 1. 유튜브 영상 크롤링
## 1-1. 셀레니움

In [None]:
# 필요한 모듈 import
from googleapiclient.discovery import build
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from selenium.webdriver.common.keys import Keys

import pandas as pd
import time
import re

### 키워드별 크롤링

#### 검색 키워드 리스트 (하나씩 모두 크롤링)
- 전기차 리뷰
- 전기차 후기
- 전기차 장단점
- 전기차 사용기
- 전기차 시승기
- 전기차 운행기
- 전기차 주행기


- 전기자동차 리뷰
- 전기자동차 후기
- 전기자동차 장단점
- 전기자동차 사용기
- 전기자동차 시승기
- 전기자동차 운행기
- 전기자동차 주행기

In [None]:
# 크롬드라이버 경로 설정
driver = webdriver.Chrome('.\chromedriver.exe')

In [None]:
keyword = '전기차+시승기' # 유튜브 검색 키워드

In [None]:
url = 'https://www.youtube.com/results?search_query={}'.format(keyword)
driver.get(url)

body = driver.find_element_by_tag_name('body') # body를 스크롤할 예정
num_of_pagedowns = 300 # 총 페이지를 내리는 수

while num_of_pagedowns:
    body.send_keys(Keys.PAGE_DOWN)
    time.sleep(1.5) # 스크롤을 내린 후 페이지가 로드되는 시간
    num_of_pagedowns -= 1
    
soup = bs(driver.page_source, 'html.parser') # html 태그를 보기 쉽게 바꾸어 저장
driver.close()

In [None]:
# 유튜브 채널명 추출하는 함수 정의
def get_channel(channel_name):
    index1 = channel_name.find('게시자')
    index2 = channel_name.find('분 전')
    index3 = channel_name.find('시간 전')
    index4 = channel_name.find('일 전')
    index5 = channel_name.find('주 전')
    index6 = channel_name.find('개월 전')
    index7 = channel_name.find('년 전')
    if index2 != -1:
        channel_list.append(channel_name[index1+5:index2-2])
    elif index3 != -1:
        channel_list.append(channel_name[index1+5:index3-2])
    elif index4 != -1:
        channel_list.append(channel_name[index1+5:index4-2])
    elif index5 != -1:
        channel_list.append(channel_name[index1+5:index5-2])
    elif index6 != -1:
        channel_list.append(channel_name[index1+5:index6-2])
    else:
        channel_list.append(channel_name[index1+5:index7-2])
        
    return 

In [None]:
# 동영상 정보 중 필요한 정보들을 리스트에 추가함
# 제목, 조회수, 채널명, url

# 필요 정보가 들어있는 부분만 추출
name = soup.select('a#video-title')
video_url = soup.select('a#video-title')
view = soup.select('a#video-title')
channel = soup.select('a#video-title')

# 정보를 담을 빈 리스트 생성
name_list = []
url_list = []
view_list = []
channel_list = []

for i in range(len(name)):
    name_list.append(name[i].text.strip())
    view_list.append(view[i].get('aria-label').split()[-1])
    channel_name = channel[i].get('aria-label')
    get_channel(channel_name)
for i in video_url:
    url_list.append('{}{}'.format('https://www.youtube.com',i.get('href')))

In [None]:
# url에서 video_id 추출
video_id = []

for url in url_list:
    # url의 (v=) 다음에 오는 11개 문자열 compile
    pat = re.compile("(v=)([a-zA-Z0-9-_]{11})")

    # v= 문자열을 검색할땐 포함하지만 search할 땐 그룹으로 제외
    video_id.append(pat.search(url).group(2))

In [None]:
# 동영상 정보를 데이터프레임으로 저장
youtubeDic = {
    '제목': name_list,
    'videoID': video_id,
    '조회수': view_list,
    '채널명': channel_list
}

youtubeDf = pd.DataFrame(youtubeDic).reset_index(drop=True)

### 추출된 영상리스트 정제

In [None]:
# 추출된 youtube_df에서 중복된 videoID가 있는지 확인
sum(youtubeDf.videoID.value_counts()>1)

In [None]:
# 중복된 비디오 삭제
youtubeDf.drop_duplicates('videoID',inplace = True)

# 중복된 videoID 없음
sum(youtubeDf.videoID.value_counts()>1)

In [None]:
# 채널명이 'YouTube 영화 1시간 '인 경우 조회수가 분으로 뜨는 문제가 발생하여 해당 행 삭제
youtubeDf = youtubeDf.drop(youtubeDf[youtubeDf['채널명']=='YouTube 영화 1시간 '].index, axis=0).reset_index(drop=True)

In [None]:
# 조회수 컬럼에서 '회'와 콤마(,) 제거 & 없음은 0으로 변환
youtubeDf['조회수'] = youtubeDf['조회수'].apply(lambda x: re.sub('없음','0', re.sub('회|,', '', x))).astype(int).copy()

# 조회수순으로 정렬

youtubeDf = youtubeDf.sort_values('조회수', ascending=False).reset_index(drop=True)

### 데이터프레임 저장

In [None]:
# 키워드별로 엑셀파일로 저장
youtubeDf.to_excel('유튜브_전기차시승기.xlsx', index=False)

## 1-2. API

In [None]:
# 필요한 모듈 import
from apiclient.discovery import build
import pandas as pd

### 크롤링

In [None]:
# 유튜브 영상 크롤링하는 함수 정의

DEVELOPER_KEY = "********" 
YOUTUBE_API_SERVICE_NAME = "youtube"
YOUTUBE_API_VERSION = "v3"

def youtube_search(keyword):
    youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=DEVELOPER_KEY)
    
    search_response = youtube.search().list(q=keyword, part="id,snippet", maxResults=50).execute()
    
    videos = []
    
    # 검색 결과가 있다면 영상의 제목, ID, 날짜, 설명을 저장함
    while search_response:
        for search_result in  search_response.get("items", []):
            if search_result["id"]["kind"] == "youtube#video":
                videos.append([search_result["snippet"]["title"], search_result["id"]["videoId"], 
                               search_result["snippet"]["publishedAt"], search_result["snippet"]["description"]])
        
        if 'nextPageToken' in search_response:
            search_response = youtube.search().list(q=keyword, part="id,snippet", maxResults=50, pageToken=search_response['nextPageToken']).execute()
        else:
            break
            
    return pd.DataFrame(videos, columns = ['제목', 'videoID', '업로드날짜', '설명'])

In [None]:
# 6가지 키워드에 대해 진행
전기차후기 = youtube_search('전기차+후기')
전기차리뷰 = youtube_search('전기차+리뷰')
전기차장단점 = youtube_search('전기차+장단점')
전기차사용기 = youtube_search('전기차+사용기')
전기차시승기 = youtube_search('전기차+시승기')
전기차운행기 = youtube_search('전기차+운행기')
전기차주행기 = youtube_search('전기차+주행기')

### 데이터프레임 저장

In [None]:
# 저장
전기차Df = pd.concat([전기차후기, 전기차리뷰, 전기차장단점, 전기차사용기, 전기차시승기, 전기차운행기, 전기차주행기])
전기차Df.to_excel('유튜브_전기차API.xlsx', index=None)

# 2. 영상으로부터 유튜브 댓글 추출

In [None]:
# 필요한 모듈 import
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from apiclient.discovery import build

import pandas as pd
import time
import re
from tqdm import tqdm

### 크롤링한 영상리스트를 하나의 데이터프레임으로 통합

In [None]:
# 셀레니움으로 크롤링한 영상파일 불러오기
v1 = pd.read_excel('datasets/유튜브_전기차후기.xlsx')
v2 = pd.read_excel('datasets/유튜브_전기차리뷰.xlsx')
v3 = pd.read_excel('datasets/유튜브_전기차장단점.xlsx')
v4 = pd.read_excel('datasets/유튜브_전기차사용기.xlsx')
v5 = pd.read_excel('datasets/유튜브_전기차시승기.xlsx')
v6 = pd.read_excel('datasets/유튜브_전기차운행기.xlsx')
v7 = pd.read_excel('datasets/유튜브_전기차주행기.xlsx')

v8 = pd.read_excel('datasets/유튜브_전기자동차후기.xlsx')
v9 = pd.read_excel('datasets/유튜브_전기자동차리뷰.xlsx')
v10 = pd.read_excel('datasets/유튜브_전기자동차장단점.xlsx')
v11 = pd.read_excel('datasets/유튜브_전기자동차사용기.xlsx')
v12 = pd.read_excel('datasets/유튜브_전기자동차시승기.xlsx')
v13 = pd.read_excel('datasets/유튜브_전기자동차운행기.xlsx')
v14 = pd.read_excel('datasets/유튜브_전기자동차주행기.xlsx')

# API로 크롤링한 영상파일 불러오기
v15 = pd.read_excel('datasets/유튜브_전기차API.xlsx')

# 모두 한 파일로 합친 후 제목과 videoID 열만 추출하여 저장
youtubeDf = pd.concat([v1, v2, v3, v4, v5, v6, v7, v8, 
                       v9, v10, v11, v12, v13, v14, v15]).drop(['조회수', '채널명', '설명', '업로드날짜'], axis=1)
youtubeDf

In [None]:
# 추출된 youtube_df에서 중복된 videoID가 있는지 확인
sum(youtubeDf.videoID.value_counts()>1)

In [None]:
# 중복된 비디오 삭제
youtubeDf.drop_duplicates('videoID',inplace = True)

# 중복된 videoID 없음
sum(youtubeDf.videoID.value_counts()>1)

### 특정 키워드가 포함된 제목만 추출
키워드 검색을 통해 모든 영상들을 수집했기 때문에 관련없는 영상들을 제거하기 위해서 키워드로 필터링 

In [None]:
## 포함단어와 제외단어 설정
## 포함단어: 원래 의도했던 키워드, 전기차 모델명
## 제외단어: 전기차의 성능과 관련없는 주제 키워드, 하이브리드나 전기차가 아닌 모델명
포함단어 = '시승|운행기|주행|전기차|전기자동차|EV|모델|아이오닉|트위지|타이칸|포터|G80|e2008|i3|EQS|코나|EQC|EQA|트론|I-PACE|니로|다니고|e-tron|e-208|e208|리프'
제외단어 = '머니게임|하이브리드|스타리아|투싼|넥쏘|스포티지|CN7|cn7|카이엔|스쿠터|농기계|자전거|중고|에어팟|갤럭시|주식|주가|관련주|유료광고'

# 특정 키워드가 포함된 제목만 추출
youtubeDf = youtubeDf[youtubeDf['제목'].str.contains(포함단어) &
                      ~youtubeDf['제목'].str.contains(제외단어)]

youtubeDf.reset_index(drop=True, inplace=True)
youtubeDf

In [None]:
# 시간을 나타내는 문자열을 datetime형으로 변환
import datetime

def utc_change(time):
    time = datetime.datetime.strptime(time,"%Y-%m-%dT%H:%M:%SZ")
    return time

In [None]:
# 댓글 추출하는 함수 정의 (답글포함)
def give_me_comment(developerKey, videoid) :
    comments = list()
    api_obj = build('youtube', 'v3', developerKey= developerKey)
    try :
        response = api_obj.commentThreads().list(part='snippet,replies', videoId=videoid, maxResults=100).execute()
    except:
        return []

    while response:
        for item in response['items']:
            comment = item['snippet']['topLevelComment']['snippet']
            comments.append([comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount'], videoid])
 
            if item['snippet']['totalReplyCount'] > 0:
                try:                
                    for reply_item in item['replies']['comments']:
                        reply = reply_item['snippet']
                        comments.append([reply['textDisplay'], reply['authorDisplayName'], reply['publishedAt'], reply['likeCount'], videoid])

                except KeyError: # 예외처리
                    print('KeyError')

        if 'nextPageToken' in response:
            response = api_obj.commentThreads().list(part='snippet,replies', videoId=videoid, pageToken=response['nextPageToken'], maxResults=100).execute()
        else:
            break
            
    return comments # 해당 영상의 댓글들이 저장된 리스트를 반환 (리스트의 리스트 형태)

#### 영상의 수가 많으므로 나누어 추출

In [None]:
## ~2000번째 영상까지 추출
comment_list = []

for v_id in tqdm(youtubeDf['videoID'][:2000]):
    comment_list += give_me_comment('********', v_id)
    
comment_df = pd.DataFrame(comment_list, columns = ['comment','user name','Time','Thumbs UP','videoID'])

In [None]:
# 2001번째 영상부터 끝까지 추출
comment_list2 = []

for v_id in tqdm(youtubeDf['videoID'][2000:]):
    comment_list2 += give_me_comment('********', v_id)
    
comment_df2 = pd.DataFrame(comment_list2, columns = ['comment','user name','Time','Thumbs UP','videoID'])

In [None]:
# 두 데이터프레임 병합
comment_df = pd.concat([comment_df, comment_df2])
comment_df

In [None]:
# 총 댓글 수
len(comment_df)

### 시간 변수 변경 & 시간순 정렬

In [None]:
comment_df['Time'] = comment_df['Time'].apply(lambda x: utc_change(x))
comment_df.sort_values(by = 'Time',ascending = False,inplace = True)

In [None]:
# 2016.01.01이후 댓글만 추출
comment_df = comment_df[comment_df.Time >= datetime.datetime(2016,1,1)].reset_index(drop=True)

In [None]:
# 2016년 이후 댓글수
len(comment_df)

In [None]:
# 특정 키워드가 포함된 댓글만 추출
# a: 자동차 관련 단어
# b: 자동차의 평가와 관련한 단어
# c: 기타 단어

a = '전기|제품'
b = '연비|디자인|가격|성능|승차감|속도|충전|주행|옵션|네비|가속|수리|좌석|품질|마감|실내|륜|배터리|제동|모터'
c = '환경'

word_list = a+'|'+b+'|'+c

In [None]:
comment_df_clean = comment_df[comment_df.comment.str.contains(word_list).fillna(False)].reset_index(drop=True)
comment_df_clean

In [None]:
# 총 유의미한 댓글 수
len(comment_df_clean)

### 최종파일 저장

In [None]:
final_data = comment_df_clean[['user name', 'Time', 'comment']]
final_data.columns = ['name', 'date', 'comment']
final_data.to_excel('최종유튜브댓글.xlsx', index=None)