In [13]:
import pandas as pd
import requests
import datetime

import env

In [14]:
search_base_url = 'https://www.googleapis.com/youtube/v3/search'
videos_base_url = 'https://www.googleapis.com/youtube/v3/videos'

search_params = {
  'key': env.token,
  'part': 'snippet',
  'order': 'viewCount',
  'regionCode': 'KR',
  'type': 'video',
  'maxResults': 20,
  'fields': 'items(id/videoId, snippet(publishedAt,title))'
}
videos_params = {
  'key': env.token,
  'part': 'statistics',
  'fields': 'items/statistics'
}

search_keywords = ['넷플릭스', '명장면', '리뷰', '해석', '의미']
columns = ['영상 id', '영화 제목', '검색 키워드', '영상 제목', '조회수', '좋아요수', '댓글 수', '생성된 날짜']

tokenLimit = len(env.token)-1

In [15]:
movieInfo = pd.read_excel('test-data-netflix.xlsx').loc[:,['movie_name', 'release']]
movieInfo.columns = ['영화명', '개봉일']
movieInfo = movieInfo.astype({'개봉일': 'str'})
movieNames = list(movieInfo.loc[:, '영화명'])
movieInfo

Unnamed: 0,영화명,개봉일
0,오징어 게임,2021-09-17
1,킹덤,2019-01-25
2,보건교사 안은영,2020-09-25
3,옥자,2017-05-19
4,승리호,2021-02-05


In [16]:
startIndex = 0
endIndex = len(movieNames)

def get_video_list():
    columns = ['영상 id', '영화 제목', '검색 키워드', '영상 제목', '조회수', '좋아요수', '댓글 수', '생성된 날짜']
    video_list = pd.DataFrame(columns=columns)
    tokenNum = 0

    for movieName in movieNames[startIndex:endIndex]:
        print(movieName, len(video_list))
        for keyword in search_keywords:
            # parameter 설정
            publishedAfter = list(movieInfo[movieInfo['영화명'] == movieName].loc[:, '개봉일'])[0]
            year, month, day = publishedAfter.split('-')
            publishedBefore = (datetime.datetime(int(year), int(month), int(day)) + datetime.timedelta(days=30)).strftime('%Y-%m-%d')
            q = ' '.join([movieName, keyword])

            search_params['q'] = q
            search_params['publishedAfter'] = publishedAfter+'T00:00:00Z'
            search_params['publishedBefore'] = publishedBefore+'T00:00:00Z'

            res_search = requests.get(search_base_url, search_params).json()

            # 네트워크 오류 발생 시
            while 'error' in res_search.keys():
                print('[ERROR] search requests ', res_search)
                tokenNum += 1
                if tokenNum > tokenLimit: 
                    print('[Error] token 오늘 할당량 끝났다~~', movieName, keyword)
                    return video_list

                print('[HTTPError] token 교체')
                search_params['key'] = env.token[tokenNum]
                res_search = requests.get(search_base_url, search_params).json()

            # 응답 데이터 가공
            if 'items' in res_search.keys():
                for item in res_search['items']:
                    result_video_ids = list(video_list.loc[video_list['영화 제목'] == movieName,'영상 id'])

                    if item['id']['videoId'] not in result_video_ids:
                        videos_params['id'] = item['id']['videoId']
                        res_videos = requests.get(videos_base_url, videos_params).json()

                        # 네트워크 오류 발생 시
                        while 'error' in res_videos.keys():
                            print('[ERROR] video requests ', res_videos)
                            tokenNum += 1
                            if tokenNum > tokenLimit: 
                                print('[Error] token 오늘 할당량 끝났다~~', movieName)
                                return video_list

                            print('[HTTPError] token 교체')
                            videos_params['key'] = env.token[tokenNum]
                            res_videos = requests.get(videos_base_url, videos_params).json()

                        if 'items' in res_videos.keys():
                            try:
                                video_statistics = res_videos['items'][0]['statistics']
                                item_data = [[
                                    item['id']['videoId'], 
                                    movieName, 
                                    q, 
                                    item['snippet']['title'], 
                                    int(video_statistics['viewCount']) if 'viewCount' in video_statistics else 0,
                                    int(video_statistics['likeCount']) if 'likeCount' in video_statistics else 0,
                                    int(video_statistics['commentCount']) if 'commentCount' in video_statistics else 0,
                                    item['snippet']['publishedAt'], 
                                ]]
                                video_list = video_list.append(pd.DataFrame(item_data, columns=columns),ignore_index=True)
                            except Exception as e:
                                print('[ERROR] ', e, movieName, res_videos)
                                return video_list


    return video_list

In [17]:
video_list = get_video_list()

오징어 게임 0
킹덤 50
보건교사 안은영 86
옥자 129
승리호 151


In [18]:
result = video_list.set_index('영상 id')

In [19]:
result.to_csv('./videoList/movieVideoList_netflix.csv', encoding='utf-8-sig')

In [20]:
top = lambda x: x.sort_values(by='조회수', ascending=False)[:10]
filtered_result = result.groupby('영화 제목').apply(top)
filtered_result

Unnamed: 0_level_0,Unnamed: 1_level_0,영화 제목,검색 키워드,영상 제목,조회수,좋아요수,댓글 수,생성된 날짜
영화 제목,영상 id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
보건교사 안은영,v5xMK2SvVls,보건교사 안은영,보건교사 안은영 넷플릭스,보건교사 안은영 [총몇명 특별편],2204338,37603,2881,2020-09-30T09:00:13Z
보건교사 안은영,FrZpeDf7TVk,보건교사 안은영,보건교사 안은영 넷플릭스,[보건교사 안은영 OST] 도망가자,2066608,27704,2305,2020-09-26T10:57:09Z
보건교사 안은영,-XM_XXlQxTw,보건교사 안은영,보건교사 안은영 넷플릭스,넷플릭스는 사드세요.....제발,1840685,34897,4476,2020-09-30T11:15:13Z
보건교사 안은영,oa2GIfnVbB8,보건교사 안은영,보건교사 안은영 넷플릭스,이상하기로 소문난 OST [보건교사 안은영] | The Weirdest OST ever,1524504,29253,2159,2020-09-29T10:15:04Z
보건교사 안은영,YehiRW7-QeQ,보건교사 안은영,보건교사 안은영 넷플릭스,[#뭅텔러] 버르장머리 없는 원어민 교사 참교육(?) 시키는 보건교사 | 보건교사 ...,1376217,8647,711,2020-09-30T12:00:09Z
보건교사 안은영,CLhdLXqAgEE,보건교사 안은영,보건교사 안은영 넷플릭스,"[광고]보건교사 안은영 수제북 ASMR｜정유미, 남주혁 주연 _ 넷플릭스 #엉뚱#유...",1176575,28306,1748,2020-09-28T12:02:04Z
보건교사 안은영,71MtlkCaM08,보건교사 안은영,보건교사 안은영 넷플릭스,[#뭅뭅픽] 보건교사 안은영 속 형형색색 젤리 모음.zip | 보건교사 안은영,1102975,11148,934,2020-10-01T05:00:01Z
보건교사 안은영,GExtZBvcP1Q,보건교사 안은영,보건교사 안은영 넷플릭스,"학교에 1200톤 초대형 두선생이 나타났을 때, 상상도 못했던 퇴치법",983833,12286,2001,2020-09-26T05:15:00Z
보건교사 안은영,9uCsGDHGXk8,보건교사 안은영,보건교사 안은영 넷플릭스,한국 고등학교에 나타난 초대형 괴수,964675,7647,940,2020-09-26T03:00:15Z
보건교사 안은영,vN31iyva_4s,보건교사 안은영,보건교사 안은영 넷플릭스,📺🌈🧪🧬🦠🐛Mysterious Jelly Monster world❣🩺👩🏻‍⚕️🔫 ☠...,923995,56861,1746,2020-09-25T12:00:09Z


In [21]:
filtered_result.to_csv('./filteredVideoList/movieVideoList_netflix.csv', encoding='utf-8-sig')