# 설계

### 1. 비디오 링크 가져오기

1. 입력 인자

유튜버 아이디 입력 (youtuber_id=ytnnews24) + 시작 날짜와 종료 날짜 입력 (start_date=2020-07-01, end_date=2020-08-01)

2. 데이터 불러오는 방법

youtubeAPI 이용하여 그 날짜에 해당하는 동영상 video_url들을 추출

3. 결과

columns = (크롤링한 시간, 영상 게시 일자, 영상 길이 (초), 유튜버, 영상 제목, 영상 url)인 dataframe

### 2. 비디오 링크에 접속하여 영상 정보 가져오기

1. 입력 인자

video_url

2. 데이터 불러오는 방법

pytube

자동 생성 스크립트의 품질이 별로니까 다음과 같이 가져와보자. 만약 둘 다 있으면 상황 보고 편한걸로 가져오기.

방법 1. 영상 설명에 기사 전문이 있다 => 정규표현식을 이용하여 필요한 정보만 깔끔하게 걸러내기

방법 2. 영상 설명에 기사 전문이 없고 원문 링크만 있다 => 정규표현식으로 원문 링크 가져와서 거기 접속하여 기사 전문 깔끔하게 만들어 가져오기

영상 설명에 내용이 없거나 원문 보기 링크가 없으면 가져오기 X

영상의 길이가 너무 길면 위의 조건이 충족되지 않을 수 있으니 가져오기 X

3. 결과

columns = (크롤링한 시간, 영상 게시 일자, 영상 길이 (초), 유튜버, 영상 제목, 영상 url, 썸네일, 조회수, 좋아요 싫어요 수나 비율, raw한 자동 생성 스크립트, 깔끔한 기사 전문 텍스트)인 dataframe


### 뉴스 유튜브 채널 자료 제공 현황

### 이렇게 8개의 채널만 가져와도 충분하지 않을까...하는데 혹시 어떻게 생각하시는지??

ytn : 영상 설명에 내용 O, 원문 보기 링크 O, 링크 : https://www.youtube.com/user/ytnnews24/

채널 id : UChlgI3UHCOnwUGzWzbJ3H5w

kbs : 영상 설명에 내용 O, 원문 보기 링크 X, 링크 : https://www.youtube.com/user/NewsKBS

채널 id : UCcQTRi69dsVYHN3exePtZ1A

mbc : 영상 설명에 내용 X, 원문 보기 링크 O, 링크 : https://www.youtube.com/user/MBCnews

채널 id : UCF4Wxdo3inmxP-Y59wXDsFw

sbs : 영상 설명에 내용 X, 원문 보기 링크 O, 링크 : https://www.youtube.com/user/sbsnews8

채널 id : UCkinYTS9IHqOEwR1Sze2JTw

연합뉴스 : 영상 설명에 내용 O, 원문 보기 링크 X, 링크 : https://www.youtube.com/channel/UCTHCOPwqNfZ0uiKOvFyhGwg

채널 id : UCTHCOPwqNfZ0uiKOvFyhGwg

jtbc : 영상 설명에 내용 X, 원문 보기 링크 O, 링크 : https://www.youtube.com/user/JTBC10news

채널 id : UCsU-I-vHLiaMfV_ceaYz5rQ

채널A : 영상 설명에 내용 O, 원문 보기 링크 X, 링크 : https://www.youtube.com/user/tvchanews

채널 id : UCfq4V1DAuaojnr2ryvWNysw

MBN : 영상 설명에 내용 O, 원문 보기 링크 X, 링크 : https://www.youtube.com/user/mbn

채널 id : UCG9aFJTZ-lMCHAiO1KJsirg

In [1]:
from apiclient.discovery import build
import re
import datetime
import pandas as pd
import time

In [2]:
def get_channel_video_id(channel_id, api_key, start_time, end_time):
    '''유튜버의 영상 중 해당 기간 내에 업로드 된 영상들을 가져오는 함수
    
    channel_id : 유튜버의 채널 id
    
    api_key : YoutubeAPI에서 발급받은 api key
    
    start_time : 영상을 가져올 시작 시간 ex. '2020-08-01 00:00:00'
    
    end_time : 영상을 가져올 종료 시간 ex. '2020-08-04 00:00:00'
    '''
    # youtube resource에 접근하기 위한 객체 생성
    youtube = build('youtube', 'v3', developerKey=api_key)
    
    # 해당 채널에서 '업로드 된 동영상' 재생 목록의 id 값을 가져오기
    channel_res = youtube.channels().list(id=channel_id,
                                          part='contentDetails').execute()
    playlist_id = channel_res['items'][0]['contentDetails']['relatedPlaylists']['uploads']
    
    # 자료 저장과 종료 조건 체크를 위한 객체 생성
    videos = []
    video_info_list = []
    base_url = 'https://www.youtube.com/watch?v='
    next_page_token = None
    
    # 데이터 수집
    while True:
        # 재생 목록에 대해 영상 list를 추출, 가장 최신의 동영상부터 순차적으로 가져옴
        video_res = youtube.playlistItems().list(playlistId=playlist_id,
                                                 part='contentDetails',
                                                 maxResults=50, 
                                                 pageToken=next_page_token).execute()
        # 저장 조건 체크 및 자료 저장
        for item in video_res['items']:
            temp_date = re.sub('Z', '',re.sub('T', ' ', item['contentDetails']['videoPublishedAt']))
            
            if temp_date >= start_time and temp_date <= end_time:
                videos.append(item)
                
                published_time = temp_date
                video_id = item['contentDetails']['videoId']
                video_url = base_url + item['contentDetails']['videoId']
                video_info_list.append([published_time, video_id, video_url])
        
        # 종료 조건을 위한 값 생성 및 조건 체크
        next_page_token = video_res.get('nextPageToken')
        criteria_date = re.sub('Z', '',
                               re.sub('T', ' ',
                                      video_res['items'][0]['contentDetails']['videoPublishedAt']))
        
        # 종료 조건 1 : 새로 수집 된 영상의 업로드 시간이 시작 시간보다 앞설 때 종료
        if criteria_date < start_time:
            break
            
        # 종료 조건 2 : 더 이상 수집할 데이터가 없을 때 종료    
        if next_page_token is None:
            break
    
    video_info_df = pd.DataFrame(video_info_list, columns=['published_time', 'video_id', 'video_url'])
    
    return video_info_df

In [3]:
def transform_duration(time):
    '''유튜브 동영상 duration이 지저분해서 깔끔하게 바꾸는 함수
    
    time : video duration ex. 'PT3H14M16S'
    '''
    time_list = re.split(r'H|M|S', re.sub(r'PT', '', time))
    
    if len(time_list) == 4:
        time_as_second = 3600*int(time_list[0]) + 60*int(time_list[1]) + int(time_list[2])
    elif len(time_list) == 3:
        time_as_second = 60*int(time_list[0]) + int(time_list[1])
    elif len(time_list) == 2:
        time_as_second = int(time_list[0])
    
    return time_as_second

In [4]:
def get_video_info(get_channel_video_id_return, api_key):
    '''get_channel_video_id의 결과 DataFrame을 넣으면 그 동영상에 대한 부가 정보 가져오는 함수
    
    get_channel_video_id_return : get_channel_video_id의 return DataFrame
    
    api_key : YoutubeAPI에서 발급받은 api key
    '''
    # youtube resource에 접근하기 위한 객체 생성
    youtube = build('youtube', 'v3', developerKey=api_key)
    
    # 자료 저장을 위한 객체 생성
    video_ids = get_channel_video_id_return['video_id']
    video_info_list = []
    
    # 데이터 수집
    for video_id in video_ids:
        # crawling time
        crawling_time = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        
        # 정보 검색
        res_content = youtube.videos().list(id=video_id, part='contentDetails').execute()
        res_stats = youtube.videos().list(id=video_id, part='statistics').execute()
        res_snippet = youtube.videos().list(id=video_id, part='snippet').execute()
        
        duration = transform_duration(res_content['items'][0]['contentDetails']['duration'])
        
        view_count = int(res_stats['items'][0]['statistics']['viewCount'])
        comment_count = int(res_stats['items'][0]['statistics']['commentCount'])
        like_count = int(res_stats['items'][0]['statistics']['likeCount'])
        dislike_count = int(res_stats['items'][0]['statistics']['dislikeCount'])
        
        channel_title = res_snippet['items'][0]['snippet']['channelTitle']
        title = res_snippet['items'][0]['snippet']['title']
        description = res_snippet['items'][0]['snippet']['description']
        thumbnail_url = res_snippet['items'][0]['snippet']['thumbnails']['standard']['url']
        
        # 자료 저장 : 나중에 자료 불러올 때 영상 길이 15분 이하인 것만 가져와야 될 것 같아요!
        video_info_list.append([crawling_time, channel_title, title, thumbnail_url, duration,
                                view_count, comment_count, like_count, dislike_count,
                                description])
        
    video_info_df = pd.DataFrame(video_info_list,
                                 columns=['crawling_time', 'channel_title', 'title', 'thumbnail_url', 'duration',
                                          'view_count', 'comment_count', 'like_count', 'dislike_count',
                                          'description'])
    
    concatenated_df = pd.concat([get_channel_video_id_return, video_info_df], axis=1)
        
    return concatenated_df

In [5]:
my_api_key = 'AIzaSyAGPpzlcDacxNGCoffrH3eK7sOWOEIMUtg'

In [6]:
start = time.time()

video_id_ytn_0803_0804 = get_channel_video_id(channel_id='UChlgI3UHCOnwUGzWzbJ3H5w',
                                              api_key=my_api_key,
                                              start_time='2020-08-03 00:00:00',
                                              end_time='2020-08-05 00:00:00')

HttpError: <HttpError 403 when requesting https://www.googleapis.com/youtube/v3/channels?id=UChlgI3UHCOnwUGzWzbJ3H5w&part=contentDetails&key=AIzaSyAGPpzlcDacxNGCoffrH3eK7sOWOEIMUtg&alt=json returned "The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.">

In [None]:
ytn_0803_0804 = get_video_info(get_channel_video_id_return=video_id_ytn_0803_0804,
                               api_key=my_api_key)

print('걸린 시간 : {}분 {}초'.format((time.time() - start) // 60, (time.time() - start) % 60))

In [None]:
ytn_0803_0804.shape

In [None]:
ytn_0803_0804.head()

In [None]:
ytn_0803_0804.tail()

youtube api 일일 할당량(10000)이 오버돼서 안가져와지는데 코드는 문제 없어요.

['published_time', 'video_id', 'video_url'] + ['crawling_time', 'channel_title', 'title', 'thumbnail_url', 'duration', 'view_count', 'comment_count', 'like_count', 'dislike_count','description']

으로 열이 구성된 데이터 프레임이 결과입니다.

차라리 video_id만 youtube api로 가져오고 나머지 정보는 pytube로 가져오든가 해야 리소스 신경안쓰고 편하게 할 수 있을 것 같네요.