# YouTubeチャンネルのサブスク関係をネットワーク可視化してみる

## セットアップ

In [7]:
from apiclient.discovery import build # $ pip install google-api-python-client

# API KEYをセット
YOUTUBE_API_KEY = '【上で取得したAPI KEYをここに入力する】'

# YouTubeDataAPIv3インスタンス生成
youtube = build(
    'youtube',
    'v3',
    developerKey = YOUTUBE_API_KEY
)

## サブスクリプションの取得

- YouTube公式リファレンスを「英語で」開くと、サンプルコードを確認できる。日本語で開くとサンプルコードのリンクが出ないので注意。
    - https://developers.google.com/youtube/v3/docs/subscriptions/list
    - QuickStartが参考になる: https://developers.google.com/youtube/v3/quickstart/python#step_2_set_up_and_run_the_sample

### 簡単に動作確認

In [None]:
# サブスクリプション
request = youtube.subscriptions().list(
    part="snippet,contentDetails",       # 取得対象の要素
    channelId="UCqmWJJolqAgjIdLqK3zD1QQ",# 取得対象のチャンネルID eg:予備校のノリで学ぶ「大学の数学・物理」
    maxResults=50                        # 取得件数 最大50件
)
response = request.execute()
response

In [32]:
# 取得結果をDataFrameで確認
import pandas as pd
df = pd.DataFrame(
    map(
        lambda item: {
            'fromChannelId': item['snippet']['channelId'],
            'toChannelId': item['snippet']['resourceId']['channelId'],
            'toPublishedAt': item['snippet']['publishedAt'],
            'toTitle': item['snippet']['title'],
            'toDescription': item['snippet']['description'],
        },
        response['items']
    )
)
df

Unnamed: 0,fromChannelId,toChannelId,toPublishedAt,toTitle,toDescription
0,UCqmWJJolqAgjIdLqK3zD1QQ,UCHi5HD9w9B-gI6Lbx43Rs7A,2020-02-03T11:25:43.878873Z,川口春奈オフィシャル はーちゃんねる,川口春奈が日々のあれやこれやをフワっと配信いたします\nどうぞお気軽にご覧いただけるとうれし...
1,UCqmWJJolqAgjIdLqK3zD1QQ,UCpp9XVh5Q7ODRE-pl3FCQmA,2020-02-22T13:56:19.273931Z,日常かこちん,これからがんばりますので、応援していただけると嬉しいです😊💓\n編集は姉さんに少しずつ教わっ...
2,UCqmWJJolqAgjIdLqK3zD1QQ,UCbqtn4vldMg5HjKims7MWfw,2020-09-22T15:52:09.886065Z,KAI Channel / 朝倉海,メインチャンネルです。\nぜひ楽しんで行ってください。\n\n#朝倉海
3,UCqmWJJolqAgjIdLqK3zD1QQ,UC5ry_Nn-9q-aCO0irGxRRsA,2018-07-30T09:30:11.597983Z,kinokoさん,初めまして。関西生まれ東京暮らしのファッション系YouTuberのkinoko（きのこ）です...
4,UCqmWJJolqAgjIdLqK3zD1QQ,UCNvcNd31bA-XERO6LGy4blw,2018-10-01T05:41:26.873161Z,さらば青春の光Official Youtube Channel,さらば青春の光のユーチューブチャンネルです。
5,UCqmWJJolqAgjIdLqK3zD1QQ,UC34LwS_QwS9KiGESFdW1b0g,2019-04-27T16:29:48.076836Z,たすく,YouTuberのモノマネをするYouTuberのたすくです！\n僕が好きなYouTuber...
6,UCqmWJJolqAgjIdLqK3zD1QQ,UCiJs55TAqhMfj-H-BA5RwxA,2018-06-03T16:57:09.302838Z,宇宙物理たんbotのアストロフィジカルトーク,皆様、ご機嫌は麗しくて～？ わたくしは「バーチャルサイエンスアウトリーチャー」の宇宙物理たん...
7,UCqmWJJolqAgjIdLqK3zD1QQ,UC_U7pKOVK-0hGr7bDmy2mng,2019-06-04T22:24:06.807511Z,Morite2 English Channel,TOEIC満点90回以上、著書50冊以上の英語講師Morite2(もりてつ)のチャンネル\n...
8,UCqmWJJolqAgjIdLqK3zD1QQ,UCNwP0ghb6J-xRSTqM3sXVXA,2020-02-18T01:17:32.366224Z,WHITEBOX,＜　W H I T E B O X　＞\n全国各地に散らばるメンバーがインターネットを用いて...
9,UCqmWJJolqAgjIdLqK3zD1QQ,UC7a-9oGxX5pF-DvRaiY88qg,2020-10-07T08:26:46.971224Z,ゴマキとオウキ,こんにちは、後藤真希です☆\nYouTubeチャンネル立ち上げさせていただきました！\n動画...


### 50チャンネル以上サブスクリプションしている場合対応

In [37]:
# 50チャンネル以上サブスクリプションしている場合向けに、ページネーションして取得する
def get_subscriptions(channelId, max_pages=10, maxResults=50):
    
    # リクエストの設定
    request = youtube.subscriptions().list(
        part="snippet,contentDetails", # 取得対象の要素
        channelId=channelId,           # 取得対象のチャンネルID
        maxResults=maxResults          # 取得件数 最大50件
    )

    i = 0
    while request and i < max_pages:
        # リクエスト実行
        response = request.execute()
        
        # サブスク対象のチャンネルIDを取得
        subscribe_channnel_ids = [item['snippet']['resourceId']['channelId'] for item in response['items']]
        
        # 返却対象が無い場合は空配列を返却
        if len(subscribe_channnel_ids) == 0:
            print('request end!!')
            return []

        # 一旦チャンネルID配列を返却
        yield subscribe_channnel_ids

        # 次回向けにセット
        request = youtube.subscriptions().list_next(request, response)
        i += 1

In [None]:
# 特定チャンネルIDで試しに取得してみる
target_channelId = 'UCqmWJJolqAgjIdLqK3zD1QQ'
subscribe_channel_total_ids = []
page_counter = 0
for items_per_page in get_subscriptions(target_channelId, max_pages=100, maxResults=50):
    print('page:', page_counter)
    page_counter += 1
    subscribe_channel_total_ids += items_per_page
subscribe_channel_total_ids

## チャンネル情報の取得

### 簡単に動作確認

In [None]:
target_channelIds = ','.join(subscribe_channel_total_ids[:50])
request = youtube.channels().list(
    part="snippet,contentDetails,statistics", # 取得対象の要素
    id=target_channelIds,                     # 取得対象のチャンネルID文字列（,区切り）
    maxResults=50                             # 取得件数 最大50件
)
response = request.execute()
response

In [46]:
# DataFrameで確認
pd.DataFrame(
    map(
        lambda item: {
            'channelId':             item['id'],
            'title':                 item['snippet']['title'],
            'description':           item['snippet']['description'],
            'publishedAt':           item['snippet']['publishedAt'],
            'viewCount':             item['statistics']['viewCount'],
            'subscriberCount':       item['statistics']['subscriberCount'],
            'hiddenSubscriberCount': item['statistics']['hiddenSubscriberCount'],
            'videoCount':            item['statistics']['videoCount']
        }
        , response['items'])
)

Unnamed: 0,channelId,title,description,publishedAt,viewCount,subscriberCount,hiddenSubscriberCount,videoCount
0,UC5JNi_lAgJPIMKuCw679QuA,スナガワの実況,,2019-03-11T11:19:50Z,8462895,47700,False,231
1,UCxIPzBJ59q3Bv9pNmCYIC_g,日常でんがん,おはえりすめんてんはなおの友達のでんがんです。\nメインははなおでんがんチャンネルでの出演で...,2015-02-01T06:24:54Z,14387356,204000,False,49
2,UC7a-9oGxX5pF-DvRaiY88qg,ゴマキとオウキ,こんにちは、後藤真希です☆\nYouTubeチャンネル立ち上げさせていただきました！\n動画...,2020-04-11T01:10:15.177344Z,4377320,49900,False,46
3,UCCkJHopuyowBoLLj263VpJA,松浦晴輝,パーソナルトレーナーです。\n\n・20〜30代の\n・運動する時間がなかなか取れない\n・...,2014-06-11T10:20:47Z,5179,64,False,37
4,UCWVO0OICQ1Q-8JBr_3hGKPw,ミニマリストしぶ,,2017-07-16T11:14:39Z,24870922,81100,False,414
5,UCBF7RSsYL2di2jc-RqXIBcA,小玉ひかり,ハタチ\nピアノ弾き語りシンガーソングライター\n\n歌にのせて伝えたい言葉がある\n共有し...,2015-10-15T15:27:06Z,5094098,45600,False,107
6,UCem4eaCUWu-Wzp8ZuLQeFwg,ポケットウィズ,３人組のYouTuber！皆と仲良くなれる動画作りを頑張ります！！！チャンネル登録して貰えた...,2012-09-20T15:22:06Z,211262575,564000,False,208
7,UCuWdyc0Mp7zRZd6KSPguCsA,ララチューン【ラランド公式】,ラランドの公式YouTubeチャンネル✨\n\nネタ動画や、ニシダの怠惰記録など様々な企画を...,2015-09-11T16:44:49Z,8291761,88500,False,58
8,UCOF2nUSKF2Mz_vZHlxjxRTg,ふわっとmikuruチャンネル,,2019-06-09T02:45:00Z,63464651,310000,False,258
9,UCnf0vxeJnEdTHVc4AXMUIlA,動画集客チャンネル,「動画を作り方！」「YouTubeをもっと楽しみたい！」「ビジネスに活用した！」「YouTu...,2015-08-21T01:14:42Z,7012260,66400,False,258


## プログラミングに関する動画について基礎分析

### データ読み込み

- 別ノートブック youtube_basic_analysis.ipynb で取得したCSVファイルを読み込む

In [49]:
df_pg = pd.read_csv('./output/プログラミング_動画リスト.csv')
df_pg = df_pg.drop('Unnamed: 0', axis=1) # CSV保存するときにインデックス除去忘れのため対処...
df_pg

Unnamed: 0,id,url,publishedAt,channelId,title,timestamp,viewCount,likeCount,dislikeCount,favoriteCount,commentCount
0,7VH-N-dsq3Y,http://youtube.com/watch?v=7VH-N-dsq3Y,2019-12-19 10:00:00,UCb9h8EpBlGHv9Z896fu4yeQ,【初心者向け】プログラミング学習の始め方【３ヶ月で達成できる】,2020-12-30 18:28:38,1032943.0,30898.0,657.0,0,1044.0
1,dD_KwXU9meA,http://youtube.com/watch?v=dD_KwXU9meA,2019-05-06 14:16:15,UCF2Kl5aL-_vcwaNhUf7YqbA,プログラミング講座 第１回【プログラミングとは】Akichon/あきちょん,2020-12-30 18:28:38,344589.0,5293.0,137.0,0,254.0
2,nhJaRJzotTk,http://youtube.com/watch?v=nhJaRJzotTk,2016-01-25 12:36:01,UCXjTiSGclQLVVU83GVrRM4w,堀江流！？プログラミング初心者におすすめの勉強方法,2020-12-30 18:28:38,328508.0,2512.0,163.0,0,170.0
3,DYX5yNk3HyM,http://youtube.com/watch?v=DYX5yNk3HyM,2019-03-20 22:00:02,UC67Wr_9pA4I0glIxDt_Cpyw,第3回 学長オススメのプログラミング勉強法【稼ぐ 実践編】,2020-12-30 18:28:38,237388.0,4270.0,69.0,0,75.0
4,xNvRpFcdcas,http://youtube.com/watch?v=xNvRpFcdcas,2020-10-20 10:18:34,UCb9h8EpBlGHv9Z896fu4yeQ,会社を辞めてプログラミング独学は、ありなのか【結論：なしです】,2020-12-30 18:28:38,75167.0,1684.0,68.0,0,122.0
...,...,...,...,...,...,...,...,...,...,...,...
573,q2Q0jElpGhs,http://youtube.com/watch?v=q2Q0jElpGhs,2020-12-26 16:33:13,UClRPOSBS_N4cnLPLjNvOJdw,世界最強のWebサービスを作ります【プログラミング放送】,2020-12-30 18:28:49,46.0,1.0,0.0,0,0.0
574,nVmj1JzCX7k,http://youtube.com/watch?v=nVmj1JzCX7k,2020-12-27 10:38:10,UC6QBR9a2qS_Fp5uorIY26pw,プログラミングアプリの　Springin' というアプリを紹介！,2020-12-30 18:28:49,10.0,2.0,0.0,0,0.0
575,Wm8a1XzaNaE,http://youtube.com/watch?v=Wm8a1XzaNaE,2013-07-20 08:55:40,UCagC_BMaqYHikGIC6q-Ossg,パリの恋人（字幕版）,2020-12-30 18:28:49,,14.0,1.0,0,0.0
576,MRNu3fMts6g,http://youtube.com/watch?v=MRNu3fMts6g,2018-10-17 06:28:38,UCIjmSHkRzKlD-jQte0i8G8g,カンフー・トラベラー 南拳（字幕版）,2020-12-30 18:28:49,,,,0,


In [57]:
# プログラミングに関する動画のチャンネルIDをユニークに取得
pg_channelIds = df_pg.channelId.unique().tolist()
display(
    'チャンネル数:' + str(len(pg_channelIds)),
    pg_channelIds[:5]
)

'チャンネル数:275'

['UCb9h8EpBlGHv9Z896fu4yeQ',
 'UCF2Kl5aL-_vcwaNhUf7YqbA',
 'UCXjTiSGclQLVVU83GVrRM4w',
 'UC67Wr_9pA4I0glIxDt_Cpyw',
 'UC8IWoNfegB72Q2nT9GJy2zQ']

### 各チャンネルについて、サブスクしているチャンネルを取得

In [None]:
from_to_channelId_dict = {}
counter = 1
for pg_channelId in pg_channelIds:
    print(str(counter) + ':' + pg_channelId + ':', end=' ')
    
    # 特定チャンネルIDで試しに取得してみる
    target_channelId = pg_channelId
    subscribe_channel_total_ids = []
    page_counter = 0
    try:
        for items_per_page in get_subscriptions(target_channelId, max_pages=100, maxResults=50):
            print('p'+str(page_counter), end=' ')
            page_counter += 1
            subscribe_channel_total_ids += items_per_page
        subscribe_channel_total_ids
    except Exception as e:
        print('Error at get_subscriptions.', end=':')
        print(e.with_traceback, end='')
    
    # from_to_channelId_dictに格納
    # - fromChannelId: [toChannelId1, toChannelId2,...]
    from_to_channelId_dict[target_channelId] = subscribe_channel_total_ids
    
    counter += 1
    print('') #改行

In [None]:
# 結果確認
from_to_channelId_dict

### Gephi向けエッジCSV書き出し

- fromChannelId/Source->toChannelId/Target形式にしてCSVに書き出す

In [78]:
# DataFrameでfrom -> to形式化
from_to_channelId_list = []
for fromChannelId,toChannelIds in from_to_channelId_dict.items():
    for toChannelId in toChannelIds:
        from_to_channelId_list.append({
            'Source': fromChannelId,
            'Target': toChannelId
        })
        
df_pg_edges = pd.DataFrame(from_to_channelId_list)
df_pg_edges.to_csv('./output/プログラミング_チャンネル_edges_all.csv')
df_pg_edges

Unnamed: 0,Source,Target
0,UCF2Kl5aL-_vcwaNhUf7YqbA,UCUP80c-0l24KTb6BqSklDfQ
1,UCF2Kl5aL-_vcwaNhUf7YqbA,UC_KdsprQrFTu--hmbX5acBA
2,UCF2Kl5aL-_vcwaNhUf7YqbA,UC2NbbLhV_oaqemc5ZpGd9GQ
3,UCF2Kl5aL-_vcwaNhUf7YqbA,UCtcDXHE0vePdhv_j69WyiOg
4,UCF2Kl5aL-_vcwaNhUf7YqbA,UCmGDDIY4Q3x7mh8kgRShXRQ
...,...,...
3248,UChBlKznuXjBpcxwnETiRoqA,UCz2F2Jph6Ba8CGVdvnq_QSw
3249,UChBlKznuXjBpcxwnETiRoqA,UCk15XJWZbDwQqWoFcmIpT1A
3250,UChBlKznuXjBpcxwnETiRoqA,UCUK2fqaQMbYXENYBv0dYMfw
3251,UChBlKznuXjBpcxwnETiRoqA,UCbXmN23DIAS2r77p9Ebn0PA


In [161]:
# 非常にスパースなので入力次数が2以上のチャンネルに絞り込み # 【大事な絞り込み条件！】
df_pg_edges_2 = df_pg_edges.groupby('Target').filter(lambda x: len(x)>=2)
df_pg_edges_2.to_csv('./output/プログラミング_チャンネル_edges_degree2.csv', index=False)
df_pg_edges_2.reset_index(inplace=True, drop=True)
df_pg_edges_2

Unnamed: 0,Source,Target
0,UCF2Kl5aL-_vcwaNhUf7YqbA,UCmGDDIY4Q3x7mh8kgRShXRQ
1,UCF2Kl5aL-_vcwaNhUf7YqbA,UCphTq6mefx_15CjD35qgXgA
2,UCF2Kl5aL-_vcwaNhUf7YqbA,UCj3K2Xy0nQr3Jdc0nd-8zQw
3,UCXjTiSGclQLVVU83GVrRM4w,UCoG2iDwh5Vw61kZx0kWL0WA
4,UCXjTiSGclQLVVU83GVrRM4w,UCFo4kqllbcQ4nV83WCyraiw
...,...,...
301,UCWpEgWXDh68RWWMfGlWK4FA,UCti6dG0zSAetLGGYcgNML4Q
302,UCWpEgWXDh68RWWMfGlWK4FA,UCaG7jufgiw4p5mphPPVbqhw
303,UCLy6cdUrtev5dlobuYSJSaw,UCb9h8EpBlGHv9Z896fu4yeQ
304,UCLy6cdUrtev5dlobuYSJSaw,UCph76YzMKEXbVem2zqCM3BA


### 各チャンネル詳細情報を取得

In [142]:
# チャンネルIDのユニーク値を取得
df_pg_edges2_channelIds = list(set(df_pg_edges_2.Target) | set(df_pg_edges_2.Source)) #いったん集合にしてその和集合とってリストに戻している
len(df_pg_edges2_channelIds)

149

In [150]:
maxResults = 50
i = 0
response_items = []
while True:
    print('page:' + str(i+1))

    # 取得対象のチャンネルIDを絞り込み
    target_channelIds = ','.join(df_pg_edges2_channelIds[(i * maxResults):((i+1) * maxResults)])
    if len(target_channelIds) == 0:
        break
    
    # API取得
    request = youtube.channels().list(
        part="snippet,contentDetails,statistics", # 取得対象の要素
        id=target_channelIds,                     # 取得対象のチャンネルID文字列（,区切り）
        maxResults=maxResults                     # 取得件数 最大50件
    )
    response = request.execute()
    
    # 格納
    response_items += response['items']
    i += 1

page:1
page:2
page:3
page:4


### Gephi向けノードCSV書き出し

In [160]:
# DataFrameで確認
df_pg_nodes2 = pd.DataFrame(
    map(
        lambda item: {
            'Id':                    item['id'],
            'Label':                 item['snippet']['title'],
            'description':           item['snippet']['description'],
            'publishedAt':           item['snippet']['publishedAt'],
            'viewCount':             item['statistics']['viewCount'],
            'subscriberCount':       item['statistics']['subscriberCount'] if 'subscriberCount' in item['statistics'] else 0,
            'hiddenSubscriberCount': item['statistics']['hiddenSubscriberCount'],
            'videoCount':            item['statistics']['videoCount']
        }
        , response_items)
)
df_pg_nodes2.to_csv('./output/プログラミング_チャンネル_nodes_degree2.csv', index=False)
df_pg_nodes2

Unnamed: 0,Id,Label,description,publishedAt,viewCount,subscriberCount,hiddenSubscriberCount,videoCount
0,UCkRfArvrzheW2E7b6SVT7vQ,YouTube Creators,Welcome to the YouTube Creators channel! If yo...,2013-05-06T21:25:34Z,175664049,3080000,False,428
1,UCHkxn-9n6Z3yQzg5fZgc0tA,遊楽舎ちゃんねる,店長がゲーム業界のあれこれを語ります！\n\nまた二次コンテンツと共に歩んだおっさんが、そう...,2018-06-07T11:15:07Z,107001713,516000,False,796
2,UCF2Kl5aL-_vcwaNhUf7YqbA,Akichonプログラミング講座,■2020/9/15 ★宣伝★\n2020年9月14日よりオンラインサロンを開設しました。\...,2018-11-14T17:05:34Z,1476963,40500,False,132
3,UC7I3QTra4_kC4TSu8f7rHkA,マコなり社長,明日から仕事・人生に役立つ話を出来る限り、分かりやすく短く配信していきます！\n\nこれから...,2018-11-21T07:52:49Z,131880663,897000,False,289
4,UC3-1iYGHfR43q_b974vUNYg,フェルミ研究所 FermiLab,こちらは面白くてためになる漫画動画チャンネルです。\n\nフェルミ研究所では協力してくださる...,2016-03-04T12:01:39Z,1218920633,2150000,False,698
...,...,...,...,...,...,...,...,...
144,UC2yc-ssgmE9zX4A0xyjl-oQ,勝村工務店,新米YouTuberの勝村工務店です。\nYouTube始めたてで右も左もわからない福井の人...,2011-08-25T12:12:02Z,1543827,116000,False,15
145,UC-6zNODaTIaIhpKW3c34eWA,ほむほむ研究室ch,こんにちは、ほむほむです。\nただのプログラマ系Vtuberです。\n言語は主に、C 言語 ...,2014-03-22T14:08:44Z,115384,1030,False,315
146,UCsgQtIeFObrixeJIYBCi5VQ,Kota / もりしーのパソコン動画,岐阜県出身・カナダ在住のフリーランスITエンジニアです。フロントエンド、バックエンド、iPh...,2016-04-16T14:41:36Z,1096812,7990,False,189
147,UCutJqz56653xV2wwSvut_hQ,東海オンエア,どうも、東海オンエアです。\nぜひチャンネル登録お願いします！\n\nサブチャンネル【東海オ...,2013-10-13T03:25:55Z,7426600338,5650000,False,1797


### Gephiで可視化

![](./output/プログラミング_チャンネル_degree2.svg)

## （全く同様に）機械学習に関する動画について基礎分析

### データ読み込み

- 別ノートブック youtube_basic_analysis.ipynb で取得したCSVファイルを読み込む

In [162]:
df_ml = pd.read_csv('./output/機械学習_動画リスト.csv')
df_ml = df_ml.drop('Unnamed: 0', axis=1) # CSV保存するときにインデックス除去忘れのため対処...
df_ml

Unnamed: 0,id,url,publishedAt,channelId,title,timestamp,viewCount,likeCount,dislikeCount,favoriteCount,commentCount
0,s5_Pk3CjhNA,http://youtube.com/watch?v=s5_Pk3CjhNA,2020-04-15 16:16:08,UCqmWJJolqAgjIdLqK3zD1QQ,【機械学習】深層学習(ディープラーニング)とは何か,2020-12-30 15:34:37,89765.0,1961.0,50.0,0,252.0
1,o7O2m_gcwAI,http://youtube.com/watch?v=o7O2m_gcwAI,2019-11-04 13:00:38,UCGlgXjYVoHLD86TQQ799WIw,機械学習とは？｜4分でわかりやすく解説します,2020-12-30 15:34:37,3365.0,55.0,1.0,0,7.0
2,PARsDyRJMWE,http://youtube.com/watch?v=PARsDyRJMWE,2017-06-30 01:36:31,UCxl3AizmA_6YC4lpeycP8kA,Google のデータサイエンティストが語る現場で使える機械学習入門,2020-12-30 15:34:37,84307.0,1396.0,29.0,0,13.0
3,RWjddryhuZA,http://youtube.com/watch?v=RWjddryhuZA,2019-09-21 05:52:21,UCOFe34WM8JwOKnk7IJrVHLg,AI（機械学習）を１年やった感想,2020-12-30 15:34:37,29394.0,268.0,29.0,0,18.0
4,U8uqieKYtY4,http://youtube.com/watch?v=U8uqieKYtY4,2020-03-31 14:36:20,UCqmWJJolqAgjIdLqK3zD1QQ,【機械学習】教師あり学習と教師なし学習の違い,2020-12-30 15:34:37,76555.0,1590.0,30.0,0,210.0
...,...,...,...,...,...,...,...,...,...,...,...
591,IqT_VqzKkk8,http://youtube.com/watch?v=IqT_VqzKkk8,2017-08-13 15:00:00,UCdJ60DaO-kjq2159ncmXZ4w,グッド･フォーチュン (字幕版),2020-12-30 15:34:49,,1.0,1.0,0,0.0
592,BjG9yfys-Qk,http://youtube.com/watch?v=BjG9yfys-Qk,2020-12-20 12:45:12,UCM_SOvCsD6-mvXYrAc0Rj_g,第5章　推測統計とは　統計解析 - Python・R・エクセルを使った講義で最速マスター,2020-12-30 15:34:49,8.0,0.0,0.0,0,0.0
593,kISg9W7Uri4,http://youtube.com/watch?v=kISg9W7Uri4,2020-12-27 02:23:27,UCXuVk5ADSS6ISY9IuvVo9Ng,株初心者用 NYDow＆日経平均株価先物 長期予想見通しチャート 2021/04/09wee...,2020-12-30 15:34:49,2.0,0.0,0.0,0,0.0
594,18CmoaS4_WM,http://youtube.com/watch?v=18CmoaS4_WM,2020-12-29 10:54:52,UCCSEdWRtgTTY3uebeqRYNRA,【 日経平均2.66％急上昇 】大型株への（機械的な）ローテーションでダウ急上昇・日本株全面高,2020-12-30 15:34:49,12.0,0.0,0.0,0,0.0


In [163]:
# プログラミングに関する動画のチャンネルIDをユニークに取得
ml_channelIds = df_ml.channelId.unique().tolist()
display(
    'チャンネル数:' + str(len(ml_channelIds)),
    ml_channelIds[:5]
)

'チャンネル数:283'

['UCqmWJJolqAgjIdLqK3zD1QQ',
 'UCGlgXjYVoHLD86TQQ799WIw',
 'UCxl3AizmA_6YC4lpeycP8kA',
 'UCOFe34WM8JwOKnk7IJrVHLg',
 'UC0J7Yk_O3g1-x-xD7xxAE8Q']

### 各チャンネルについて、サブスクしているチャンネルを取得

In [None]:
from_to_channelId_dict = {}
counter = 1
for ml_channelId in ml_channelIds:
    print(str(counter) + ':' + ml_channelId + ':', end=' ')
    
    # 特定チャンネルIDで試しに取得してみる
    target_channelId = ml_channelId
    subscribe_channel_total_ids = []
    page_counter = 0
    try:
        for items_per_page in get_subscriptions(target_channelId, max_pages=100, maxResults=50):
            print('p'+str(page_counter), end=' ')
            page_counter += 1
            subscribe_channel_total_ids += items_per_page
        subscribe_channel_total_ids
    except Exception as e:
        print('Error at get_subscriptions.', end=':')
        print(e.with_traceback, end='')
    
    # from_to_channelId_dictに格納
    # - fromChannelId: [toChannelId1, toChannelId2,...]
    from_to_channelId_dict[target_channelId] = subscribe_channel_total_ids
    
    counter += 1
    print('') #改行

In [None]:
# 結果確認
from_to_channelId_dict

### Gephi向けエッジCSV書き出し

- fromChannelId/Source->toChannelId/Target形式にしてCSVに書き出す

In [166]:
# DataFrameでfrom -> to形式化
from_to_channelId_list = []
for fromChannelId,toChannelIds in from_to_channelId_dict.items():
    for toChannelId in toChannelIds:
        from_to_channelId_list.append({
            'Source': fromChannelId,
            'Target': toChannelId
        })
        
df_ml_edges = pd.DataFrame(from_to_channelId_list)
df_ml_edges.to_csv('./output/機械学習_チャンネル_edges_all.csv')
df_ml_edges

Unnamed: 0,Source,Target
0,UCqmWJJolqAgjIdLqK3zD1QQ,UCHi5HD9w9B-gI6Lbx43Rs7A
1,UCqmWJJolqAgjIdLqK3zD1QQ,UCpp9XVh5Q7ODRE-pl3FCQmA
2,UCqmWJJolqAgjIdLqK3zD1QQ,UCbqtn4vldMg5HjKims7MWfw
3,UCqmWJJolqAgjIdLqK3zD1QQ,UC5ry_Nn-9q-aCO0irGxRRsA
4,UCqmWJJolqAgjIdLqK3zD1QQ,UCNvcNd31bA-XERO6LGy4blw
...,...,...
2654,UCXuVk5ADSS6ISY9IuvVo9Ng,UCJhjE7wbdYAae1G25m0tHAA
2655,UCXuVk5ADSS6ISY9IuvVo9Ng,UC_oqvg0ImPoE2Zv2WLydckg
2656,UCXuVk5ADSS6ISY9IuvVo9Ng,UCrrfJ_8kX6YyXE7F3pDJzEw
2657,UCXuVk5ADSS6ISY9IuvVo9Ng,UC88KSXMWdkv50V1Wm8CAYWg


In [167]:
# 非常にスパースなので入力次数が2以上のチャンネルに絞り込み # 【大事な絞り込み条件！】
df_ml_edges_2 = df_ml_edges.groupby('Target').filter(lambda x: len(x)>=2)
df_ml_edges_2.to_csv('./output/機械学習_チャンネル_edges_degree2.csv', index=False)
df_ml_edges_2.reset_index(inplace=True, drop=True)
df_ml_edges_2

Unnamed: 0,Source,Target
0,UCqmWJJolqAgjIdLqK3zD1QQ,UCFo4kqllbcQ4nV83WCyraiw
1,UCqmWJJolqAgjIdLqK3zD1QQ,UCrGPz6YlvFnNRx_TlheGjpw
2,UCqmWJJolqAgjIdLqK3zD1QQ,UCem4eaCUWu-Wzp8ZuLQeFwg
3,UCqmWJJolqAgjIdLqK3zD1QQ,UCMFDhI-zeWRzLMCdxFnlw9A
4,UCqmWJJolqAgjIdLqK3zD1QQ,UCMsuwHzQPFMDtHaoR7_HDxg
...,...,...
234,UCyo3pur2ysQlftsNj5w2Ccg,UC7I3QTra4_kC4TSu8f7rHkA
235,UCyo3pur2ysQlftsNj5w2Ccg,UCg4nOl7_gtStrLwF0_xoV0A
236,UCyo3pur2ysQlftsNj5w2Ccg,UCYuVuLCtgrkQ6znA_ShdvXA
237,UCXuVk5ADSS6ISY9IuvVo9Ng,UCQINXHZqCU5i06HzxRkujfg


### 各チャンネル詳細情報を取得

In [168]:
# チャンネルIDのユニーク値を取得
df_ml_edges2_channelIds = list(set(df_ml_edges_2.Target) | set(df_ml_edges_2.Source)) #いったん集合にしてその和集合とってリストに戻している
len(df_ml_edges2_channelIds)

127

In [169]:
maxResults = 50
i = 0
response_items = []
while True:
    print('page:' + str(i+1))

    # 取得対象のチャンネルIDを絞り込み
    target_channelIds = ','.join(df_ml_edges2_channelIds[(i * maxResults):((i+1) * maxResults)])
    if len(target_channelIds) == 0:
        break
    
    # API取得
    request = youtube.channels().list(
        part="snippet,contentDetails,statistics", # 取得対象の要素
        id=target_channelIds,                     # 取得対象のチャンネルID文字列（,区切り）
        maxResults=maxResults                     # 取得件数 最大50件
    )
    response = request.execute()
    
    # 格納
    response_items += response['items']
    i += 1

page:1
page:2
page:3
page:4


### Gephi向けノードCSV書き出し

In [170]:
# DataFrameで確認
df_ml_nodes2 = pd.DataFrame(
    map(
        lambda item: {
            'Id':                    item['id'],
            'Label':                 item['snippet']['title'],
            'description':           item['snippet']['description'],
            'publishedAt':           item['snippet']['publishedAt'],
            'viewCount':             item['statistics']['viewCount'],
            'subscriberCount':       item['statistics']['subscriberCount'] if 'subscriberCount' in item['statistics'] else 0,
            'hiddenSubscriberCount': item['statistics']['hiddenSubscriberCount'],
            'videoCount':            item['statistics']['videoCount']
        }
        , response_items)
)
df_ml_nodes2.to_csv('./output/機械学習_チャンネル_nodes_degree2.csv', index=False)
df_ml_nodes2

Unnamed: 0,Id,Label,description,publishedAt,viewCount,subscriberCount,hiddenSubscriberCount,videoCount
0,UCTMRxtyHoE3LPcrl-kT4AQQ,Google Cloud,Welcome to Google Cloud. Our goal is to help y...,2018-01-30T21:48:35Z,21810719,92300,False,818
1,UCVHFbqXqoYvEWM1Ddxl0QDg,Android Developers,Welcome to the official Android Developers You...,2007-11-09T18:05:25Z,154035426,929000,False,1341
2,UCGe9HT1iqay4dNvTVC3694Q,buddaeye,,2009-04-29T01:38:10Z,3676,13,False,3
3,UCl8E6NsjN979gbMBdztF48g,タケシ弁護士【岡野武志】,高卒成り上がり弁護士です。\n\n15年前に高卒で司法試験に合格し、未経験で弁護士事務所を開...,2019-06-05T05:39:37Z,13298235,81300,False,395
4,UC6tAXy7UFO_QG0LeD_OKQBQ,Google Developers Japan,Google Developers Japan のチャンネルでは、イベント情報、ベストプラク...,2015-11-19T01:41:45Z,76104,2380,False,215
...,...,...,...,...,...,...,...,...
122,UCOMR2-UBjo3JIrlwcIoljcQ,Deep Insider,＠IT ／ Deep Insiderフォーラムの公式YouTubeチャンネルです。\nhtt...,2017-07-31T08:07:16Z,6211,129,False,34
123,UC8pMBOI9vXf6fIM670vdIPw,ほんだのばいく,,2018-09-03T09:43:10Z,61874106,2200000,False,14
124,UCCMrgX54FdZ1tKfkHBcb5tQ,早稲田大学体験webサイト,「早稲田大学体験webサイト」は、早稲田大学を目指す高校生・受験生のための情報サイト。365...,2014-09-21T21:48:53Z,3493645,6790,False,422
125,UCWuqzdbBcHGAwaXFVHgoZAQ,あしや,皆さん、こんにちはあしやです\nロシア出身で日本に住んでます！\n昔から日本に興味があって、...,2012-05-30T08:19:07Z,78164493,234000,False,957


### Gephiで可視化

![](./output/機械学習_チャンネル_degree2.svg)

## YouTubeチャンネルをキーワード検索し、これを対象に前と同様に基礎分析

### 簡単に動作確認

In [171]:
# APIでチャンネル取得
request = youtube.search().list(
    part="id,snippet",      # 取得対象の要素
    maxResults=5,           # 取得件数 最大50件
    order='viewCount',
    type='channel',
    relevanceLanguage='ja',
    regionCode='JP',         # 2021/01/01現在 APIのバグで適切に機能していない: https://issuetracker.google.com/issues/71758550
#    q='|'.join(['Hikakin', 'susuru']) # 特定キーワードで検索
)
response = request.execute()
response

{'kind': 'youtube#searchListResponse',
 'etag': 'mAfnrXsUR19U6_EcIYlE-xkvBNY',
 'nextPageToken': 'CAUQAA',
 'regionCode': 'JP',
 'pageInfo': {'totalResults': 1000000, 'resultsPerPage': 5},
 'items': [{'kind': 'youtube#searchResult',
   'etag': 'yXBRthH5L1t22ChJy48APX_EVYU',
   'id': {'kind': 'youtube#channel', 'channelId': 'UCx1nAvtVDIsaGmCMSe8ofsQ'},
   'snippet': {'publishedAt': '2016-03-31T08:04:13Z',
    'channelId': 'UCx1nAvtVDIsaGmCMSe8ofsQ',
    'title': 'jun channel',
    'description': '楽しめ 広報大使になったから、BlueStacksも使ってます https://www.bluestacks.com/ja/index.html#gref.',
    'thumbnails': {'default': {'url': 'https://yt3.ggpht.com/ytc/AAUvwngJkniED47L7KME5_gzHhHLiZIZLIaxJQhTCrxzWA=s88-c-k-c0xffffffff-no-rj-mo'},
     'medium': {'url': 'https://yt3.ggpht.com/ytc/AAUvwngJkniED47L7KME5_gzHhHLiZIZLIaxJQhTCrxzWA=s240-c-k-c0xffffffff-no-rj-mo'},
     'high': {'url': 'https://yt3.ggpht.com/ytc/AAUvwngJkniED47L7KME5_gzHhHLiZIZLIaxJQhTCrxzWA=s800-c-k-c0xffffffff-no-rj-mo'}},
    'channelTit

In [172]:
# サムネイルをDataFrameに埋め込んで表示
from IPython.display import Image, HTML
def path_to_image_html(path):
    return '<img src="'+ path + '"/>'

df = pd.DataFrame(
    map(
        lambda item: {
            'thumbnail': item['snippet']['thumbnails']['medium']['url'],
            'title': item['snippet']['title'],
            'description': item['snippet']['description'],
            'publisheTime': item['snippet']['publishTime'],
            'channelId': item['snippet']['channelId'],
        }
        , response['items']
    )
)

HTML(df.to_html(escape=False ,formatters=dict(thumbnail=path_to_image_html)))

Unnamed: 0,thumbnail,title,description,publisheTime,channelId
0,,jun channel,楽しめ 広報大使になったから、BlueStacksも使ってます https://www.bluestacks.com/ja/index.html#gref.,2016-03-31T08:04:13Z,UCx1nAvtVDIsaGmCMSe8ofsQ
1,,Sports,sport : an activity involving physical exertion and skill in which an individual or team competes against another or others for entertainment.,2013-12-15T20:39:04Z,UCEgdi0XIXXZ-qJOFPf4JSKw
2,,明鏡火拍,明镜火拍属明镜电视家族成员，主打评论、访谈等原创资讯类内容；综合直播、连线、现场等不同形式；明镜力求打造多元、真实、独立的媒体平台。,2014-12-03T19:04:39Z,UCdKyM0XmuvQrD0o5TNhUtkQ
3,,WWE,"WWE on YouTube is your number one spot to catch WWE original shows and exclusives! Watch videos from all of your favorite WWE Superstars, backstage ...",2007-05-11T01:20:02Z,UCJ5v_MCY6GNUBTO8-D3XoAg
4,,YouTube,"YouTube's Official Channel helps you discover what's new & trending globally. Watch must-see videos, from music to culture to Internet phenomena.",1970-01-01T00:00:00Z,UCBR8-60-B28hp2BmDPdntcQ


In [174]:
# メモ）あいうえお…の検索q生成
'|'.join([chr(i) for i in range(12353, 12436)] + [chr(i) for i in range(12449, 12532+1)])

'ぁ|あ|ぃ|い|ぅ|う|ぇ|え|ぉ|お|か|が|き|ぎ|く|ぐ|け|げ|こ|ご|さ|ざ|し|じ|す|ず|せ|ぜ|そ|ぞ|た|だ|ち|ぢ|っ|つ|づ|て|で|と|ど|な|に|ぬ|ね|の|は|ば|ぱ|ひ|び|ぴ|ふ|ぶ|ぷ|へ|べ|ぺ|ほ|ぼ|ぽ|ま|み|む|め|も|ゃ|や|ゅ|ゆ|ょ|よ|ら|り|る|れ|ろ|ゎ|わ|ゐ|ゑ|を|ん|ァ|ア|ィ|イ|ゥ|ウ|ェ|エ|ォ|オ|カ|ガ|キ|ギ|ク|グ|ケ|ゲ|コ|ゴ|サ|ザ|シ|ジ|ス|ズ|セ|ゼ|ソ|ゾ|タ|ダ|チ|ヂ|ッ|ツ|ヅ|テ|デ|ト|ド|ナ|ニ|ヌ|ネ|ノ|ハ|バ|パ|ヒ|ビ|ピ|フ|ブ|プ|ヘ|ベ|ペ|ホ|ボ|ポ|マ|ミ|ム|メ|モ|ャ|ヤ|ュ|ユ|ョ|ヨ|ラ|リ|ル|レ|ロ|ヮ|ワ|ヰ|ヱ|ヲ|ン|ヴ'

### キーワードにマッチするチャンネルを取得して、そのチャンネルのサブスク関係をGephi向けCSVに書き出し

In [204]:
# 50チャンネル以上のチャンネルを、ページネーションして取得する
def get_channels(q='プログラミング', max_pages=10, maxResults=50):
    
    # リクエストの設定
    request = youtube.search().list(
        part="id,snippet",         # 取得対象の要素
        maxResults=maxResults,     # 取得件数 最大50件
        order='viewCount',         # 再生回数が多い順に取得
        type='channel',            # 取得種別はチャンネル
        regionCode='JP',           # 日本： API自体のバグでうまく機能していない
        q=q                        # キーワード検索
    )

    i = 0
    while request and i < max_pages:
        print('page:' + str(i+1), end=' ')
        
        # リクエスト実行
        response = request.execute()
        
        # サブスク対象のチャンネルIDを取得
        channel_list = list(map(
            lambda item: {
                'thumbnail': item['snippet']['thumbnails']['medium']['url'],
                'title': item['snippet']['title'],
                'description': item['snippet']['description'],
                'publisheTime': item['snippet']['publishTime'],
                'channelId': item['snippet']['channelId'],
            }
            , response['items']
        ))
        print('#items:' + str(len(channel_list)))
        
        # 返却対象が無い場合は空配列を返却
        if len(channel_list) == 0:
            print('request end!!', end=' ')
            print(response)
            return []

        # 一旦チャンネルID配列を返却
        yield channel_list

        # 次回向けにセット
        request = youtube.search().list_next(request, response)
        i += 1

        
# チャンネルIDからサブスクチャンネルIDを取得してGephi向けノードCSV,エッジCSVを書き出し
def get_subscript_channelIds(channelIds, q, in_degree_min=2, maxResults=50):
    
    # channelIdsのチャンネルIDそれぞれについて、サブスクしているチャンネルIDを取得
    from_to_channelId_dict = {}
    counter = 1
    for channelId in channelIds:
        print(str(counter) + ':' + channelId + ':', end=' ')

        # 特定チャンネルIDで試しに取得してみる
        target_channelId = channelId
        subscribe_channel_total_ids = []
        page_counter = 0
        try:
            for items_per_page in get_subscriptions(target_channelId, max_pages=100, maxResults=maxResults):
                print('p'+str(page_counter), end=' ')
                page_counter += 1
                subscribe_channel_total_ids += items_per_page
            subscribe_channel_total_ids
        except Exception as e:
            print('Error at get_subscriptions.', end=':')
            print(e.with_traceback, end='')

        # from_to_channelId_dictに格納
        # - fromChannelId: [toChannelId1, toChannelId2,...]
        from_to_channelId_dict[target_channelId] = subscribe_channel_total_ids

        counter += 1
        print('') #改行

    # DataFrameでfrom(チャンネルID) -> to(チャンネルID)形式化
    from_to_channelId_list = []
    for fromChannelId,toChannelIds in from_to_channelId_dict.items():
        for toChannelId in toChannelIds:
            from_to_channelId_list.append({
                'Source': fromChannelId,
                'Target': toChannelId
            })
    df_edges = pd.DataFrame(from_to_channelId_list)
    
    # Gephiエッジ形式CSVで書き出し
    print('write: ./output/%s_チャンネル_edges_all.csv' % q)
    df_edges.to_csv('./output/%s_チャンネル_edges_all.csv' % q)
    
    # 非常にスパースなので入力次数が2以上のチャンネルに絞り込み # 【大事な絞り込み条件！】
    df_edges_min = df_edges.groupby('Target').filter(lambda x: len(x)>=in_degree_min)
    df_edges_min.reset_index(inplace=True, drop=True)
    
    # Gephiエッジ形式CSVで書き出し
    print('write: ./output/%s_チャンネル_edges_degree%d.csv' % (q, in_degree_min))
    df_edges_min.to_csv('./output/%s_チャンネル_edges_degree%d.csv' % (q, in_degree_min), index=False)
    
    # チャンネルIDのユニーク値を取得
    df_edges_min_channelIds = list(set(df_edges_min.Target) | set(df_edges_min.Source)) #いったん集合にしてその和集合とってリストに戻している
    print('unique channelIds: %d' % len(df_edges_min_channelIds))
    
    # チャンネル詳細情報をAPI取得
    i = 0
    response_items = []
    while True:
        print('page:' + str(i+1))

        # 取得対象のチャンネルIDを絞り込み
        target_channelIds = ','.join(df_edges_min_channelIds[(i * maxResults):((i+1) * maxResults)])
        if len(target_channelIds) == 0:
            break

        # API取得
        request = youtube.channels().list(
            part="snippet,contentDetails,statistics", # 取得対象の要素
            id=target_channelIds,                     # 取得対象のチャンネルID文字列（,区切り）
            maxResults=maxResults                     # 取得件数 最大50件
        )
        response = request.execute()

        # 格納
        response_items += response['items']
        i += 1
        
    # DataFrame化
    df_ml_nodes_min = pd.DataFrame(
        map(
            lambda item: {
                'Id':                    item['id'],
                'Label':                 item['snippet']['title'],
                'description':           item['snippet']['description'],
                'publishedAt':           item['snippet']['publishedAt'],
                'viewCount':             item['statistics']['viewCount'],
                'subscriberCount':       item['statistics']['subscriberCount'] if 'subscriberCount' in item['statistics'] else 0,
                'hiddenSubscriberCount': item['statistics']['hiddenSubscriberCount'],
                'videoCount':            item['statistics']['videoCount']
            }
            , response_items)
    )
    
    # Gephiノード形式CSVで書き出し
    print('write: ./output/%s_チャンネル_nodes_degree%d.csv' % (q, in_degree_min))
    df_ml_nodes_min.to_csv('./output/%s_チャンネル_nodes_degree%d.csv' % (q, in_degree_min), index=False)

# キーワード検索にヒットするチャンネルについて、そのサブスク関係をGephi向けCSV形式で書き出し
def mk_channel_gephi_csv(q='プログラミング', in_degree_min=2):
    # APIでデータ取得
    channel_list_all = []
    for channel_list in get_channels(q=q, max_pages=100):
        channel_list_all += channel_list
    df_channels = pd.DataFrame(channel_list_all)

    # プログラミングに関する動画のチャンネルIDをユニークに取得
    channelIds = df_channels.channelId.unique().tolist()

    # チャンネルIDからサブスクチャンネルIDを取得してGephi向けノードCSV,エッジCSVを書き出し
    get_subscript_channelIds(channelIds, q=q, in_degree_min=in_degree_min, maxResults=50)

### 例）ゲーム

In [None]:
# Gephi向けCSV書き出し
mk_channel_gephi_csv(q='ゲーム')

Gephi可視化結果
![ゲーム](output/ゲーム_チャンネル_gephi.svg)

### 例）ニュース

In [None]:
# Gephi向けCSV書き出し
mk_channel_gephi_csv(q='ニュース')

Gephi可視化結果  
![ニュース](output/ニュース_チャンネル_gephi.svg)

### 例）グルメ・料理

In [None]:
# Gephi向けCSV書き出し
mk_channel_gephi_csv(q='グルメ|料理')

Gephi可視化結果  
![グルメ・料理](output/グルメ|料理_チャンネル_gephi.svg)

### 例）アニメ

In [None]:
# Gephi向けCSV書き出し
mk_channel_gephi_csv(q='アニメ')

Gephi可視化結果  
![アニメ](output/アニメ_チャンネル_gephi.svg)