# 유튜브 API를 통해 데이터 수집

In [None]:
# 필요한 유투브 패키지 설치 
%pip install --upgrade google-api-python-client
%pip install --upgrade google-auth-oauthlib google-auth-httplib2
%pip install oauth2client

In [104]:
# 시스템 관련 모듈
import os
import sys
import time

# 유튜브 API 연결 모듈
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.tools import argparser

# 데이터 분석 모듈
import numpy as np
import pandas as pd

In [315]:
# 내 API 키와 Youtube API 버전 셋팅
DEVELOPER_KEY='AIzaSyBAHBXw4EbaZmRXh0sEtf7A6JtuItVjXtE' 
YOUTUBE_API_SERVICE_NAME='youtube'
YOUTUBE_API_VERSION='v3'

youtube=build(YOUTUBE_API_SERVICE_NAME,YOUTUBE_API_VERSION,developerKey=DEVELOPER_KEY)

# 채널 검색

In [430]:
# 앞 서 선정한 음악 채널의 이름을 하드코딩한다
search_response = youtube.search().list(
    q = "탑현월드", # q에 원하는 채널 이름과 관련된 키워드 검색
    part='snippet',
    maxResults=50).execute()
    
# search_response
# 검색결과에는 API 요청에 지정된 검색 매개변수와 일치하는 YouTube 동영상, 채널 또는 재생목록의 정보 출력

In [431]:
# 채널 ID만 따로 분류
channel_id = search_response['items'][0]['snippet']['channelId']
channel_id

'UCc31zhnmSwJB8czlaXlFSSg'

# 채널에 대한 총 조회수 / 영상 수 / 구독자 수

In [432]:
channel_total = youtube.channels().list(
    id = channel_id, # 앞서 채널 ID 값
    part='id,snippet,statistics',
    maxResults=50).execute()
#channel_total    

In [433]:
titles = channel_total['items'][0]['snippet']['title']
viewCount = channel_total['items'][0]['statistics']['viewCount']
subscriberCount = channel_total['items'][0]['statistics']['subscriberCount']
videoCount = channel_total['items'][0]['statistics']['videoCount']
    
channel_df = pd.DataFrame([titles,viewCount,subscriberCount,videoCount]).T
channel_df.columns=['channelTitle','ViewCount','SubscriberCount','VideoCount']
channel_df.to_csv(f"{titles}_채널총계.csv", index=False, encoding="utf-8-sig")

# 재생목록 

In [380]:
# 채널관리자가 올려놓은 재생목록을 가져온다
playlists = youtube.playlists().list(
    channelId = channel_id, # 앞서 채널 ID 입력
    part='snippet',
    maxResults=50).execute()
#playlists

In [381]:
# 전체 플레이리스트 리스트 불러오기
ids=[]
titles=[]

for i in playlists['items']:
    titles.append(i['snippet']['title'])
    ids.append(i['id'])
    
playlist_df = pd.DataFrame([titles,ids]).T
playlist_df.columns=['playlists_Titles','playLists_id']
playlist_df

Unnamed: 0,playlists_Titles,playLists_id
0,ᖰ('ㅅ')ᖳ (함께한 노래),PLW284Tji4jm7he8ZKvAUj6Ts2m1HS57TZ
1,(๑˃̶͈̀∇˂̶͈́)و⁾⁾˚* (신나는 노래),PLW284Tji4jm50BvnkDZ9_fOb-f1EO5cwT
2,(•̥̥̥⌓•̥̥̥) (울적한 노래),PLW284Tji4jm6CE2dC_jJ1RA9wwydKtUuz
3,❤ه❤ (달달한 노래),PLW284Tji4jm6pXG4dKqA2MyuH6DDmVf-u


In [399]:
# 원하는 플레이리스트를 ID 인덱스로 선정
playlist_id = playlist_df['playLists_id'][3]
playlist_id

'PLW284Tji4jm6pXG4dKqA2MyuH6DDmVf-u'

# 재생목록 항목별 영상리스트 추출

In [400]:
# 해당 플레이리스트 영상 목록안에 영상들 리스트로 가져오기
playlist_videos = youtube.playlistItems().list(
    playlistId=playlist_id,
    part='snippet',
    maxResults=50).execute()

nextPageToken = playlist_videos.get('nextPageToken')

# 한 번에 최대 50개 항목만 조회 가능하므로 아래 코드를 통해 다시 시행
# 참고 : https://dorudoru.tistory.com/2343
while('nextPageToken' in playlist_videos):
    nextPage = youtube.playlistItems().list(
        playlistId=playlist_id,
        part='snippet',
        maxResults = 50,
        pageToken = nextPageToken
    ).execute()
    playlist_videos['items'] = playlist_videos['items'] + nextPage['items']

    if 'nextPageToken' not in nextPage:
        playlist_videos.pop('nextPageToken',None)
    else:
        nextPageToken = nextPage['nextPageToken']

video_names=[]
video_ids=[]
video_date=[]

for v in playlist_videos['items']:
    video_names.append(v['snippet']['title'])
    video_ids.append(v['snippet']['resourceId']['videoId'])
    video_date.append(v['snippet']['publishedAt'])

In [401]:
vdf = pd.DataFrame([video_ids,video_names,video_date]).T
vdf.columns=['video_ids','video_names','video_date']
print(vdf.shape)
vdf.tail()

(12, 3)


Unnamed: 0,video_ids,video_names,video_date
7,Bxu7-kdyQq8,10cm - 애상(Sorrow) Cover By 까까들(Cookies),2022-07-07T04:07:54Z
8,FHiq-FDEeTg,조정석(Jo Jung Suk) - 아로하(Aloha) Cover By 까까들(Coo...,2022-07-07T03:56:42Z
9,05x_jvCjDyQ,버스커 버스커(Busker Busker) - 정류장(Bus Stop) Cover B...,2022-07-07T04:05:12Z
10,_oicsgxMgIc,버스커 버스커(Busker Busker) - 여수 밤바다(Yeosu Night Se...,2022-07-07T04:08:45Z
11,aPuUwlcHpbk,에디킴(Eddy Kim) - 너 사용법(The Manual) Cover By 까까들...,2022-07-07T03:56:17Z


In [402]:
# 각 영상의 video_ids를 이용하여 속성 추출
channelTitle =[]
category_id=[]
views=[]
likes=[]
comments=[]
title=[]
publishedAt=[]
tags=[]

for u in range(len(vdf)):
    request = youtube.videos().list(
    part='id,snippet,contentDetails,statistics',
    id = vdf['video_ids'][u])
    
    response = request.execute()
    
    # 예외처리
    if response['items']==[]:
        channelTitle.append(0)
        ids.append(0)
        category_id.append(0)
        views.append(0)
        likes.append(0)
        comments.append(0)
        tags.append(0)
        publishedAt.append(0)
        
    else :
        channelTitle.append(response['items'][0]['snippet']['channelTitle'])
        title.append(response['items'][0]['snippet']['title'])
        category_id.append(response['items'][0]['snippet']['categoryId'])
        views.append(response['items'][0]['statistics']['viewCount'])
        likes.append(response['items'][0]['statistics']['likeCount'])
        # 댓글 사용 중지 부분이 있어 예외 처리를 해야 됨
        if 'commentCount' in response['items'][0]['statistics']:
            comments.append(response['items'][0]['statistics']['commentCount'])
        else:
            comments.append(0)
        # 채널에 따라 태그가 없는 경우도 있음
        if 'tags' in response['items'][0]['snippet']:
            tags.append(response['items'][0]['snippet']['tags'])
        else:
            tags.append(0)
        publishedAt.append(response['items'][0]['snippet']['publishedAt']).split()


In [525]:
response['items'][0]['snippet']['publishedAt'].split('T')

['2022-02-20', '16:38:42Z']

In [403]:
video_df = pd.DataFrame([channelTitle,title,category_id,views,likes,comments,tags,publishedAt]).T
video_df.columns=['channelTitle','title','category_id','views','likes','comments','tags','publishedAt']
print(video_df.shape)
video_df.tail()

(12, 8)


Unnamed: 0,channelTitle,title,category_id,views,likes,comments,tags,publishedAt
7,까까들(Cookies),10cm - 애상(Sorrow) Cover By 까까들(Cookies),10,83,5,0,"[까까들, Cookies, 음악, 노래, Music, Song, 커버, 커버노래, ...",2022-05-23T09:00:03Z
8,까까들(Cookies),조정석(Jo Jung Suk) - 아로하(Aloha) Cover By 까까들(Coo...,10,54,4,0,"[까까들, Cookies, 음악, 노래, Music, Song, 커버, 커버노래, ...",2022-03-28T09:00:07Z
9,까까들(Cookies),버스커 버스커(Busker Busker) - 정류장(Bus Stop) Cover B...,10,71,4,0,"[까까들, Cookies, 음악, 노래, Music, Song, 커버, 커버노래, ...",2022-03-21T09:00:01Z
10,까까들(Cookies),버스커 버스커(Busker Busker) - 여수 밤바다(Yeosu Night Se...,10,61,5,0,"[까까들, Cookies, 음악, 노래, Music, Song, 커버, 커버노래, ...",2022-03-07T09:00:45Z
11,까까들(Cookies),에디킴(Eddy Kim) - 너 사용법(The Manual) Cover By 까까들...,10,124,6,0,"[너사용법, 음악, 노래, 커버, 에디킴, Cover, Music, Song]",2022-02-20T16:38:42Z


In [404]:
# csv형태로 저장
channel_name = response['items'][0]['snippet']['channelTitle'] 
video_df.to_csv(f"{channel_name}.csv", index=False, encoding="utf-8-sig")

# 데이터 합치기

In [445]:
# 각 채널 통계 데이터 합치기

import glob

# 경로 설정
files = glob.glob('C:/Users/USER/Desktop/python_project/youtube_project_rookies/channel_total/*.csv')

tmp = list()
for file in files:
        tmp.append( pd.read_csv(file) )

channel_total_df = pd.concat(tmp,ignore_index=True)
channel_total_df

Unnamed: 0,channelTitle,ViewCount,SubscriberCount,VideoCount
0,까까들(Cookies),6799,70,47
1,마라는대로 MaRa Music,11379922,48900,122
2,버블디아,455898128,1610000,1300
3,성시경 SUNG SI KYUNG,421890250,1200000,351
4,셀프노트 스튜디오,67159462,139000,350
5,임한별,83520663,278000,153
6,탑현월드 Tophyun World,92766553,286000,281


In [454]:
# 각 채널의 플레이리스트에서 영상 통계 데이터 합치기

import glob

# 경로 설정
files = glob.glob('C:/Users/USER/Desktop/python_project/youtube_project_rookies/channel_video/*.csv')

tmp = list()
for file in files:
        tmp.append(pd.read_csv(file))

channel_video_df = pd.concat(tmp,ignore_index=True).drop_duplicates(subset='title',keep='first')
channel_video_df.shape

(760, 8)

In [487]:
df1 = pd.read_csv('channel_video/성시경 SUNG SI KYUNG.csv')
df2 = pd.read_csv('channel_video/마라는대로 MaRa Music.csv')
df3 = pd.read_csv('channel_video/임한별.csv')
df_test = pd.concat([df1,df2,df3],ignore_index=True).drop_duplicates(subset='title',keep='first')
print(df_test.shape)
df_test.tail()

(185, 8)


Unnamed: 0,channelTitle,title,category_id,views,likes,comments,tags,publishedAt
205,임한별,또 다시 사랑 (임창정) - 임한별,10,1383339,6264,910,"['또다시사랑', '라이브', '임창정', '임한별']",2015-10-06T16:51:24Z
206,임한별,귀로 (나얼) - 임한별,10,207392,1629,68,"['임한별', '귀로', '나얼', '라이브', '연습']",2015-09-06T12:33:10Z
207,임한별,Thinking Out Loud (Ed Sheeran) - 임한별,10,200519,1888,142,"['임한별', 'LIVE', 'Ed Sheeran (Musical Artist)',...",2015-09-01T13:02:38Z
208,임한별,같은 시간 속의 너 (나얼) - 임한별,10,2412034,9572,1630,"['임한별', '같은시간속의너', '나얼', 'You In The Same Time...",2015-08-08T05:09:36Z
209,임한별,야생화 (박효신) - 임한별,10,897832,5414,741,"['야생화', '박효신', '임한별', '라이브', '커버']",2015-07-13T14:28:00Z


In [485]:
# Selenium으로 수집한 싫어요 데이터 불러오기
import glob

# 경로 설정
files = glob.glob('C:/Users/USER/Desktop/python_project/youtube_project_rookies/channel_dislike/*.csv')

tmp = list()
for file in files:
        tmp.append(pd.read_csv(file))

channel_dislike_df = pd.concat(tmp,ignore_index=True).drop_duplicates(subset='title',keep='first')
channel_dislike_df.drop(['hashtag'],axis=1,inplace=True)
print(channel_dislike_df.shape)
channel_dislike_df

(185, 2)


Unnamed: 0,title,dislikes
0,조정석 - 아로하 (슬기로운 의사생활) cover by 마라탕,3
1,IU(아이유) - Into the I-LAND (Acoustic) cover by ...,2
2,(신용재 커버콘테스트) 신용재 - 별이온다 cover by 마라탕 (Lyrics/Eng),0
3,스탠딩 에그 - 오래된노래 cover by 마라탕,6
4,백현 (Baek Hyun) - 나의 시간은 (Every second) cover b...,0
...,...,...
205,"""X잘한다!!"" 욕 나와버린 작업실 라이브! [비가 오는 밤이면 - 임한별 w.이국주]",1
206,[작업실 커버] 이별한 이유가 너무 아파 - 임한별,6
207,다시 만나는 날에 (황민현) - 임한별,2
208,[임한별] 사랑하면 안 되는 사람 (커튼콜 OST Part.6),6


# 데이터 분석

In [531]:
df_whole = pd.merge(df_test,channel_dislike_df, on='title', how='inner')
df_whole

Unnamed: 0,channelTitle,title,category_id,views,likes,comments,tags,publishedAt,dislikes
0,성시경 SUNG SI KYUNG,"성시경 with friends '자,오늘은' Teaser l 12월 30일 금요일 ...",22,88878,4554,533,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-12-15T05:00:02Z,209
1,성시경 SUNG SI KYUNG,[성시경 노래] 44. 잊혀지는 것들에 대하여 l Sung...,10,253160,11532,1684,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-11-30T09:00:09Z,278
2,성시경 SUNG SI KYUNG,"[성시경 콘서트] '자, 오늘은' 비하인드",22,170594,6186,538,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-09-15T09:00:13Z,133
3,성시경 SUNG SI KYUNG,[성시경 노래] 43. 넌 감동이었어 l Sung Si Kyung Music,10,1080535,19554,1977,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-08-06T09:00:11Z,197
4,성시경 SUNG SI KYUNG,[성시경 노래] 31~40 모아듣기 l Sung Si Kyung ...,10,394834,6893,590,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-08-17T09:00:21Z,20
...,...,...,...,...,...,...,...,...,...
172,임한별,또 다시 사랑 (임창정) - 임한별,10,1383339,6264,910,"['또다시사랑', '라이브', '임창정', '임한별']",2015-10-06T16:51:24Z,231
173,임한별,귀로 (나얼) - 임한별,10,207392,1629,68,"['임한별', '귀로', '나얼', '라이브', '연습']",2015-09-06T12:33:10Z,47
174,임한별,Thinking Out Loud (Ed Sheeran) - 임한별,10,200519,1888,142,"['임한별', 'LIVE', 'Ed Sheeran (Musical Artist)',...",2015-09-01T13:02:38Z,24
175,임한별,같은 시간 속의 너 (나얼) - 임한별,10,2412034,9572,1630,"['임한별', '같은시간속의너', '나얼', 'You In The Same Time...",2015-08-08T05:09:36Z,332


In [548]:
df_whole.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 177 entries, 0 to 176
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype              
---  ------        --------------  -----              
 0   channelTitle  177 non-null    object             
 1   title         177 non-null    object             
 2   category_id   177 non-null    int64              
 3   views         177 non-null    int64              
 4   likes         177 non-null    int64              
 5   comments      177 non-null    int64              
 6   tags          177 non-null    object             
 7   publishedAt   177 non-null    datetime64[ns, UTC]
 8   dislikes      177 non-null    object             
 9   year          177 non-null    int64              
dtypes: datetime64[ns, UTC](1), int64(5), object(4)
memory usage: 19.3+ KB


In [549]:
# 기초 통계량을 통해 기본적인 정보를 분석 할 수 있다
df_whole.describe()

Unnamed: 0,category_id,views,likes,comments,year
count,177.0,177.0,177.0,177.0,177.0
mean,10.474576,641477.7,7667.451977,878.864407,2020.497175
std,2.345372,1073253.0,10913.423425,1126.70473,1.907295
min,10.0,2674.0,55.0,22.0,2015.0
25%,10.0,22211.0,303.0,116.0,2020.0
50%,10.0,233559.0,3678.0,533.0,2021.0
75%,10.0,652099.0,11532.0,1287.0,2022.0
max,22.0,6922814.0,76845.0,6497.0,2023.0


# 변수 처리

In [551]:
 # type을 object에서 datetime으로 변경
df_whole["publishedAt"] = pd.to_datetime(df_whole["publishedAt"])
df_whole   

# 연도 / 월 / 일 파생변수 추출
df_whole["year"] = df_whole["publishedAt"].dt.year
df_whole["month"] = df_whole["publishedAt"].dt.month
df_whole["day"] = df_whole["publishedAt"].dt.day
df_whole.head(2)

Unnamed: 0,channelTitle,title,category_id,views,likes,comments,tags,publishedAt,dislikes,year,month,day
0,성시경 SUNG SI KYUNG,"성시경 with friends '자,오늘은' Teaser l 12월 30일 금요일 ...",22,88878,4554,533,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-12-15 05:00:02+00:00,209,2022,12,15
1,성시경 SUNG SI KYUNG,[성시경 노래] 44. 잊혀지는 것들에 대하여 l Sung...,10,253160,11532,1684,"['성시경', '성시경유튜브', 'SUNGSIKYUNG', 'SSK', 'ソンシギョ...",2022-11-30 09:00:09+00:00,278,2022,11,30


In [547]:
# 연도별, 채널이름 기준 합계 그룹화
df_all_group = df_whole.groupby(["year", "channelTitle"]).sum()
df_all_group

  df_all_group = df_whole.groupby(["year", "channelTitle"]).sum()


Unnamed: 0_level_0,Unnamed: 1_level_0,category_id,views,likes,comments
year,channelTitle,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,임한별,60,5215901,25837,3547
2016,임한별,60,16327147,81383,12999
2017,임한별,70,16774790,105482,13747
2018,임한별,100,12530096,94997,13307
2019,임한별,30,5581336,39788,4001
2020,마라는대로 MaRa Music,210,509874,5150,2129
2020,성시경 SUNG SI KYUNG,10,182862,8289,1287
2020,임한별,90,4924736,47227,4881
2021,마라는대로 MaRa Music,270,4548236,37667,10210
2021,성시경 SUNG SI KYUNG,138,7042751,150056,16140


In [None]:
# 시각화 라이브러리 가져오기
from matplotlib import pyplot as plt
import matplotlib
import seaborn as sns

# 유투브 댓글 수집 (보류)

In [12]:
comments = []

response = youtube.commentThreads().list(
    part='snippet,replies', 
    videoId='video_id', 
    maxResults=50).execute()

while response:
    for item in response['items']:
        comment = item['snippet']['topLevelComment']['snippet']
        comments.append([comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
 
        if item['snippet']['totalReplyCount'] > 0:
            for reply_item in item['replies']['comments']:
                reply = reply_item['snippet']
                comments.append([reply['textDisplay'], reply['authorDisplayName'], reply['publishedAt'], reply['likeCount']])
 
    if 'nextPageToken' in response:
        response = youtube.commentThreads().list(part='snippet,replies', 
                                                videoId='video_id', 
                                                pageToken=response['nextPageToken'], 
                                                maxResults=50).execute()
    else:
        break
comments

[['성시경그형그아 다나카 이나르 기억이가 사라져쏘🌹', '나몰라패밀리 핫쇼', '2023-01-12T09:33:04Z', 2375],
 ['너무 너무 소둥그하무니다🙆\u200d♀️', '민트', '2023-01-12T15:38:36Z', 0],
 ['산소임 ㅋㅋㅋ 양자역학ㅋㅋㅋㅋㅋㅋ', '마음의창', '2023-01-12T15:11:02Z', 0],
 ['미차 최고의 조합', 'Soo Jang', '2023-01-12T15:05:38Z', 0],
 ['田中大好き〜🌹', 'luck vvf', '2023-01-12T14:55:25Z', 0],
 ['댓글마저 기엽다 ㅋㅋㅋㅋㅋㅋ🌹', '꿀땅콩', '2023-01-12T14:46:08Z', 0],
 ['시경님과 다나카상의 만남은 너무르 재밋그있으요그~~ㅋㅋㅋㅋ', 'SY', '2023-01-12T15:41:00Z', 0],
 ['시경그니무 목소리가 술을 무르무니다.다나카에게  퐁당그 빠지겠스무니다.🧡', '민트', '2023-01-12T15:40:42Z', 0],
 ['다나카😁❤💚', 'ffland', '2023-01-12T15:40:35Z', 0],
 ['불편ㅜㅜ', '강ᅢᄂ호', '2023-01-12T15:38:59Z', 0],
 ['다나카상 내가루 선태그한기루가 제일 멋이쓰므니다', '김도율', '2023-01-12T15:37:41Z', 0],
 ['성그시그경상이랑 수르리라니 쓰고이데쓰네!!^^ 얏빠리 독그도와 칸코크진데쓰네!! 이토 히로부미 빠가데쓰',
  'sys you',
  '2023-01-12T15:35:10Z',
  0],
 ['정말 보고 싶었던 두분입니다 최고최고', '솜이', '2023-01-12T15:35:08Z', 0],
 ['쩐다…. 다나카 진짜 린정!!!!!!', '연어크림치즈베이글', '2023-01-12T15:35:03Z', 0],
 ['ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ<a href="https://www.youtube.com/watch?