# 유튜브 트렌드 심층 분석

## 라이브러리 선언

In [1]:
import requests
from bs4 import BeautifulSoup
import time
import urllib.request
from selenium.webdriver import Chrome
import re
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import datetime as dt
import os

## Chrome drive path 지정

In [2]:
path = "C:/tool/chromedriver.exe"
delay = 3
browser = Chrome(path)
browser.implicitly_wait(delay)

## 유튜브 접속

In [3]:
start_url = "https://www.youtube.com/feed/trending"
browser.get(start_url)
# browser.maximize_window()

## 데이터 담을 리스트 선언

In [4]:
import pandas as pd

# 리스트 형식 : [ 제목, 채널, 조회수, 시간,  부제목, 링크 ]

In [5]:
grid = browser.find_element_by_id("grid-container")
videos = grid.find_elements_by_css_selector(".ytd-expanded-shelf-contents-renderer")

trends =[]
for v in videos:
    # 제목 저장
    title = v.find_element_by_css_selector("#video-title").text
    
    # 디테일 정보 크롤링
    details = v.find_element_by_css_selector(".ytd-video-meta-block").text
    details = details.splitlines()
    
    
    # 채널명 저장
    channel = details[0]
    
    # 조회수 저장
    str_match = [s for s in details[1:] if "조회수 " in s]
    views = str_match[0].split(" ")[1]
    
    # 시간 저장
    str_match = [s for s in details[1:] if "전" in s]
    date = str_match[0]
    
    # 부제목 저장
    sub_title = v.find_element_by_css_selector("#description-text").text
    
    #링크 저장
    link = v.find_element_by_css_selector("#video-title").get_attribute("href")
    
    video=[title,channel,views,date,sub_title,link]
    trends.append(video)


In [6]:
trends = pd.DataFrame(trends,columns=['제목','채널','조회수','시간','부제목','링크'])
trends

Unnamed: 0,제목,채널,조회수,시간,부제목,링크
0,[스파이더맨: 노 웨이 홈] 티저 예고편,sonypictureskr,326만회,2일 전,모두가 기다려온 이야기 [스파이더맨: 노 웨이 홈] 티저 예고편 대공개! #스파이더...,https://www.youtube.com/watch?v=W7edvITC9g4
1,[MV] Lee Chan Won(이찬원) _ Convenience store(편의점),1theK (원더케이),28만회,1일 전,[MV] Lee Chan Won(이찬원) _ Convenience store(편의점...,https://www.youtube.com/watch?v=6cGXYDT3eQE
2,비록 초기 불량에 걸렸지만... 만족도가 엄청 높은 삼성 갤럭시 Z 플립3 언빡싱&...,ITSub잇섭,156만회,1일 전,도착했습니다! 사전예약으로 구입한 갤럭시 Z 플립3. 현재 엄청난 인기로 사전예약에...,https://www.youtube.com/watch?v=3UhCbbsC4hw
3,[스우파/1회 풀캠] 라치카 피넛 vs 프라우드먼 립제이 @약자 지목 배틀 Full...,Mnet Official,55만회,1일 전,[스우파/1회 풀캠] 라치카 피넛 vs 프라우드먼 립제이 @약자 지목 배틀 Full...,https://www.youtube.com/watch?v=6W34DqY_myk
4,왕좌의 게임 검으로 오이베기,사나고 Sanago,44만회,1일 전,"🌊국내 최대 콘텐츠 라이브러리 웨이브(wavve)🌊 왕좌의 게임 전 시즌, 체르노빌...",https://www.youtube.com/watch?v=D7XSXVwkzF8
5,[스우파/1회 풀캠] 라치카 가비 vs 훅 아이키 @약자 지목 배틀 Full Cam...,Mnet Official,55만회,1일 전,[스우파/1회 풀캠] 라치카 가비 vs 훅 아이키 @약자 지목 배틀 Full Cam...,https://www.youtube.com/watch?v=mgygPCdm7aE
6,[모아봤습👀] 사상 최초👏 양궁 완전체 6인이 집사부일체에 떴다! 금빛 입담🥇으로 ...,SBS Entertainment,97만회,3일 전,양궁 완전체 6인 X 집사부일체 모아봤습 #집사부일체 #양궁 #모아봤습 ▶ Homp...,https://www.youtube.com/watch?v=O8gvMT20UAk
7,유러피안 드림을 찾아서 - 아프간 난민 7000Km 지옥의 여정 (KBS_2014....,세계는지금,56만회,2일 전,아프가니스탄의 수도 카불에서는 탈레반 반군의 말이 곧 법이다. 아프가니스탄의 두 청...,https://www.youtube.com/watch?v=rFXmX7_mPHg
8,real 손톱으로 찍어봄... 갤럭시Z플립3 꼼꼼 장단점 & 하루사용기!,주연 ZUYONI,39만회,1일 전,#갤럭시Z플립3 #플립3 오래 기다리셨습니다!! 00:00 인트로+오프닝 01:06...,https://www.youtube.com/watch?v=POj-XdOciqI
9,"[슉끌립] 롹의 진수로 또 뒤집어 버린, 윌리K 팀의 'Oops! I Did It ...",JTBC Music,52만회,2일 전,"롹의 진수로 또 뒤집어 버린, 윌리K 팀의 'Oops! I Did It Again'...",https://www.youtube.com/watch?v=o1Vbq-YkVUU


## 트렌드 심층 분석

In [7]:
from konlpy.tag import Okt

#한글 댓글에 대한 단어 처리
okt = Okt()

### 댓글 크롤링 및 워딩 함수 선언 

In [8]:
def comment_croll(link,driver):
    driver= Chrome(path)
    driver.implicitly_wait(delay)
    driver.get(link)
    driver.implicitly_wait(3)
    time.sleep(1.5)
    driver.execute_script("window.scrollTo(0, 800)")
    time.sleep(3)
    
    
    # 댓글 페이지 추가 노출 코드
    last_height = driver.execute_script("return document.documentElement.scrollHeight")

    while True:
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
        time.sleep(1.5)

        new_height = driver.execute_script("return document.documentElement.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    time.sleep(1.5)
    
    
    # 팝업창 제거
    try:
        driver.find_element_by_css_selector("#dismiss-button > a").click()
    except:
        pass
    
    
    # 댓글 크롤링
    html_source = driver.page_source
    soup = BeautifulSoup(html_source, 'html.parser')

    id_list = soup.select("div#header-author > h3 > #author-text > span")
    comment_list = soup.select("yt-formatted-string#content-text")

    id_final = []
    comment_final = []

    for i in range(len(comment_list)):
        temp_id = id_list[i].text
        temp_id = temp_id.replace('\n', '')
        temp_id = temp_id.replace('\t', '')
        temp_id = temp_id.replace('    ', '')
        id_final.append(temp_id)

        temp_comment = comment_list[i].text
        temp_comment = temp_comment.replace('\n', '')
        temp_comment = temp_comment.replace('\t', '')
        temp_comment = temp_comment.replace('    ', '')
        comment_final.append(temp_comment)
        
        
    # 데이터 정제
    keyword_list = []
    word = ""
    for i in range(len(comment_list)):
        words = okt.nouns(comment_final[i])
        word += " ".join(words)
        word += " "
    
    
    
    # 정제된 데이터 빈도수 분석
    wordList = word.split()
    wordLists = []
    wordCount = {} 
    wordCounts = []
     # word -> count 기준 정렬한 dictionary
    for word in wordList:
        # Get 명령어를 통해, Dictionary에 Key가 없으면 0리턴
        wordCount[word] = wordCount.get(word, 0) + 1 

    keys = sorted(wordCount.items(),key=(lambda x:x[1]),reverse=True)

    for word in keys:
        wordLists.append(word[0])  
        wordCounts.append(word[1])
        
    
    pd2_data = {"키워드" : wordLists, "빈도수" : wordCounts}
    youtube_pd2 = pd.DataFrame(pd2_data)
    
    return youtube_pd2
    

### 심층분석 직렬 처리 

In [9]:
youtube_pds = []

for i in range(0,50):
    print(i,"번째 DataFrame 추가 작업 : start")
    browser= Chrome(path)
    browser.implicitly_wait(delay)
    youtube_pds.append(comment_croll(trends['링크'][i],browser))
    print(i,"번째 DataFrame 추가 작업 : done")



0 번째 DataFrame 추가 작업 : start


KeyboardInterrupt: 

## 심층 분석 멀티 프로세싱 처리

In [None]:
import multiprocessing
import parmap
import numpy as np
import crolling

num_cores = multiprocessing.cpu_count() # 12

data = trends['링크']


splited_data =  np.array_split(data, num_cores)
splited_data = [x.tolist() for x in splited_data]

result = parmap.map(crolling.comment_croll , splited_data, pm_pbar=True, pm_processes=num_cores)

  0%|                                                                                            | 0/4 [00:00<?, ?it/s]

### 병렬 처리 결과 병합

In [68]:
trend = []

for re in result:
    for r in re:
        trend.append(r)
print(trend[0])

     키워드  빈도수
0    손흥민   35
1     케인   29
2     선수   25
3     경기   17
4      골   14
..   ...  ...
574  드간거    1
575   가지    1
576  취취취    1
577   가오    1
578    랍    1

[579 rows x 2 columns]


### 결과 저장

In [73]:
i=0
writer = pd.ExcelWriter('trend_cnt.xlsx', engine='xlsxwriter')
for t in trend:
    t.to_excel(writer, sheet_name='trend'+str(i))
    i=i+1
writer.save()

## 전체 결과 트렌드 분석

In [None]:
wordCount = {} 
for t in trend:
    for word in t:
        wordCount[word['키워드']] = wordCount.get(word['키워드'], 0) + int(word['빈도수'])
pd.Data