### Collect data from youtube API
#### tutorial: https://www.youtube.com/watch?v=th5_9woFJmk, official tutorial: https://developers.google.com/youtube/v3/docs?hl=ja, google-api-python-client package: https://github.com/googleapis/google-api-python-client, build() method documentation: https://googleapis.github.io/google-api-python-client/docs/epy/googleapiclient.discovery-module.html#build, instance methods: https://googleapis.github.io/google-api-python-client/docs/dyn/youtube_v3.html, Google Cloud Console: https://console.cloud.google.com/marketplace

In [31]:
from googleapiclient.discovery import build
import requests
import json
from youtube_transcript_api import YouTubeTranscriptApi
import pandas as pd
import json

#### Topic-ids finder via knowledge graph API (keyword search)

In [4]:
def search_topicids(query):
    url = "https://kgsearch.googleapis.com/v1/entities:search"
    api_key = 'API key'    
    params = {
        'query': query,
        'limit': 1,
        'indent': True,
        'key': api_key,
    }
    
    response = requests.get(url, params=params)
    data = response.json()
    if 'itemListElement' in data and len(data['itemListElement']) > 0:
        kg_data = data['itemListElement'][0]['result'].get('@id', None)
        if kg_data:
            kg_data = kg_data.replace('kg:', '')
    else:
        kg_data = None
    
    return kg_data

### Get more than 50 results at once (You Tube Data API)

In [6]:
# Define function to search for videos using YouTube API
def search_videos(page_token=None):
    api_key = 'API_KEY'  # Your API key
    youtube = build('youtube', 'v3', developerKey=api_key)
    
    # Set search parameters
    params = {
        'type': 'video',
        'part': 'snippet',
        'maxResults': 50, 
        'regionCode': 'JP',
        'relevanceLanguage': 'ja',
        'order': 'relevance',
        'publishedAfter': '2015-07-01T00:00:00Z',
        'publishedBefore': '2023-07-01T00:00:00Z',
        'q': '"MMT 現代貨幣理論"',
        'pageToken': page_token
    }
    request = youtube.search().list(**params)
    return request.execute()

    # Fetch search results and paginate through them
    results = []
    next_page_token = None
    for _ in range(100):
        response = search_videos(next_page_token)
        results.extend(response['items'])
        next_page_token = response.get('nextPageToken')

        if next_page_token is None:
            break  # Stop if no next page exists

    # Save search results to a JSON file
    with open('search_results.json', 'w') as f:
        json.dump(results, f)

    # Load the saved results from the JSON file
    with open('search_results.json', 'r') as f:
        results = json.load(f)

    # Collect data for each column
    data = []
    for video in results:
        # Extract video details
        video_id = video['id'].get('videoId', None)
        title = video['snippet'].get('title', None)
        description = video['snippet'].get('description', None)
        publish_time = video['snippet'].get('publishedAt', None)
        channel_title = video['snippet'].get('channelTitle', None)
        channel_id = video['snippet'].get('channelId', None)
        etag = video.get('etag', None)
        url = f"https://www.youtube.com/watch?v={video_id}" if video_id else None

        data.append({
            'videoId': video_id,
            'title': title,
            'description': description,
            'publishTime': publish_time,
            'channelTitle': channel_title,
            'channelId': channel_id,
            'etag': etag,
            'url': url
        })

    df = pd.DataFrame(data)

    # Initialize columns to store video details
    df['duration'] = None  # Duration
    df['viewCount'] = None  # View count
    df['likeCount'] = None  # Like count
    df['dislikeCount'] = None  # Dislike count
    df['favoriteCount'] = None  # Favorite count
    df['commentCount'] = None  # Comment count
    df['topicCategory'] = None  # Topic category
    df['topicId'] = None  # Topic ID
    df['videoCategory'] = None  # Video category
    df['videoCategoryId'] = None  # Video category ID

    # Build YouTube API client
    api_key = 'API_KEY'  # Your API key
    youtube = build('youtube', 'v3', developerKey=api_key)

    # Populate the DataFrame with video details
    for index, row in df.iterrows():
        video_id = row['videoId']
        video_response = youtube.videos().list(
            part='contentDetails, statistics, topicDetails, snippet',
            id=video_id
        ).execute()

        # Retrieve the playback duration and add it to the column
        try:
            duration = video_response['items'][0]['contentDetails']['duration']
            df.at[index, 'duration'] = duration
        except KeyError:
            pass

        # Retrieve the view count and add it to the column
        try:
            view_count = video_response['items'][0]['statistics'].get('viewCount', None)
            df.at[index, 'viewCount'] = view_count
        except KeyError:
            pass

        # Retrieve the like count and add it to the column
        try:
            like_count = video_response['items'][0]['statistics'].get('likeCount', None)
            df.at[index, 'likeCount'] = like_count
        except KeyError:
            pass

        # Retrieve the dislike count and add it to the column
        try:
            dislike_count = video_response['items'][0]['statistics'].get('dislikeCount', None)
            df.at[index, 'dislikeCount'] = dislike_count
        except KeyError:
            pass

        # Retrieve the favorite count and add it to the column
        try:
            favorite_count = video_response['items'][0]['statistics'].get('favoriteCount', None)
            df.at[index, 'favoriteCount'] = favorite_count
        except KeyError:
            pass

        # Retrieve the comment count and add it to the column
        try:
            comment_count = video_response['items'][0]['statistics'].get('commentCount', None)
            df.at[index, 'commentCount'] = comment_count
        except KeyError:
            pass

        # Retrieve the topic category and add it to the column
        try:
            topic_categories = video_response['items'][0]['topicDetails'].get('topicCategories', [None])
            topic_categories = [tc.replace('https://en.wikipedia.org/wiki/', '') for tc in topic_categories]
            df.at[index, 'topicCategories'] = topic_categories
        except KeyError:
            pass

        # Retrieve the topic ID and add it to the column
        try:
            topic_ids = [search_topicids(tc) for tc in topic_categories]
            df.at[index, 'topicIds'] = topic_ids
        except KeyError:
            pass

        # Retrieve the video category ID and add it to the column
        try:
            video_category_id = video_response['items'][0]['snippet'].get('categoryId', None)
            df.at[index, 'videoCategoryId'] = video_category_id
        except KeyError:
            pass

        video_category_dict = {
            #... [unchanged dictionary]
        }

        # Retrieve the video category from the corresponding dictionary
        try:
            video_category = video_category_dict.get(video_category_id, None)
            df.at[index, 'videoCategory'] = video_category
        except KeyError:
            pass
    # df = df.replace(r'^\s*$', None, regex=True)
    # df.to_csv('MMT_youtube.csv', index=True)

    # Display the DataFrame
    df

Unnamed: 0,videoId,title,description,publishTime,channelTitle,channelId,etag,url,duration,viewCount,likeCount,dislikeCount,favoriteCount,commentCount,topicCategory,topicId,videoCategory,videoCategoryId,topicCategories,topicIds
0,zOe0Go08i90,【5分で】東大生が教える現代貨幣理論(MMT)入門 前編,MMT後編→https://youtu.be/Oqnko9Y6Wnw ○○○なんと、本を書き...,2020-10-24T02:47:18Z,ムギタロー/Mugitaro,UCRocMQPx01MbsoyEHbuGm8A,mKP4_7-UdW9DBKIcDrF-rQkCSdI,https://www.youtube.com/watch?v=zOe0Go08i90,PT4M45S,260441,5804,,0,980,,,Education,27,Society,/m/098wr
1,G0KvTvEEQeI,第17回　国債は無限に出せる？新経済理論ＭＭＴは実は○○○だった,髙橋洋一が素朴な疑問に答えるチャンネル 新しい経済理論ＭＭＴに付いて解説！その正体が明らかに...,2020-10-24T10:30:01Z,髙橋洋一チャンネル,UCECfnRv8lSbn90zCAJWC7cg,hafqJwjNHrNfbIv7YQlXHo1ezto,https://www.youtube.com/watch?v=G0KvTvEEQeI,PT9M27S,633070,14178,,0,3401,,,News & Politics,25,[Society],[/m/098wr]
2,a4Dhe2jDfq0,MMT現代貨幣理論入門を20分でざっくりわかりやすく解説する,MMT現代貨幣理論入門 →https://amzn.to/35iunsI 今までの貨幣観を一...,2020-04-30T10:00:01Z,タコペッティがひたすら意識の低い話をしていくチャンネル,UCzvqDHzqzEv4JNSSoRZXFiA,3Z8LLrmLYURvoKKvFFSkpr2jIKA,https://www.youtube.com/watch?v=a4Dhe2jDfq0,PT21M18S,36824,559,,0,142,,,People & Blogs,22,,[/m/098wr]
3,K4UHZSPq9h8,【東京ホンマもん教室】間違いだらけの“ＭＭＴ批判”～現代貨幣理論による『正しい』インフレ対策...,【東京ホンマもん教室オフィシャルＨＰ】 https://s.mxtv.jp/variety/...,2023-01-28T02:00:14Z,TOKYO MX,UC4dQUfQeA-Jy2T_C-Jdf5rw,Cm_GTPf9yHrWfS9TWhfS43wYpz4,https://www.youtube.com/watch?v=K4UHZSPq9h8,PT55M10S,257713,4242,,0,672,,,News & Politics,25,"[Politics, Society, Television_program]","[/m/05qt0, /m/098wr, None]"
4,OLE3QMH_EEQ,【5分で解説！】MMT(現代貨幣理論)とは【経済学】,今回の動画ではMMT(現代貨幣理論)について解説しました。,2020-08-06T14:52:25Z,【そら豆塾】- 未来をつくる人になる-,UCmdNRygc3a0bt2xhIJZ420w,gBiTI7I8hcQySN7CbGwkZoPGjJs,https://www.youtube.com/watch?v=OLE3QMH_EEQ,PT5M39S,11920,136,,0,56,,,Education,27,,"[/m/05qt0, /m/098wr, None]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,Jq_0U72WnjA,【1/2 気持ちいいくらいの完全論破】評論家・中野剛志氏が財政破綻論を完全に論破／立憲・小...,中野剛志著『奇跡の経済教室【大論争編】』 https://amzn.to/3GAc7Q4 ・...,2023-01-02T07:02:54Z,金子吉友の「あつまれニュースの森」,UCQO3qJmwQEkpeRdK0Xna0cQ,gjPCK8i9q2TaJBqzLdXmstzKoRQ,https://www.youtube.com/watch?v=Jq_0U72WnjA,PT34M21S,23348,1289,,0,167,,,Entertainment,24,[Society],[/m/098wr]
496,vZoXHOU2DGY,相変わらず「国の借金デマ」を地上波で垂れ流す池上彰,,2020-08-22T10:58:30Z,nagayon,UCQigRbHs_lA9xo_xfIE4Zhw,oMNSmJ_VN119BZ2nz_galo0i364,https://www.youtube.com/watch?v=vZoXHOU2DGY,PT4M6S,51107,347,,0,408,,,News & Politics,25,"[Politics, Society, Television_program]","[/m/05qt0, /m/098wr, None]"
497,C12Mllv1nbQ,経済成長ってなに？【政府支出が増えると経済成長する？】,今、ネットで話題になっているのが「政府支出が増えると経済成長する」というもの。 本当にそうな...,2020-11-14T01:37:57Z,ゆっくり経済史ちゃんねる,UCBiqcUwwL2lck8bBR789ApQ,1PvwK1E2NypNQX5Rm4e6BJItD1s,https://www.youtube.com/watch?v=C12Mllv1nbQ,PT10M55S,8503,202,,0,284,,,Science & Technology,28,,"[/m/05qt0, /m/098wr, None]"
498,WQD0ATGMxe8,第31回京都賞記念講演会　基礎科学部門受賞者：ミシェル・マイヨール博士,2015年11月11日開催のミシェル・マイヨール博士による記念講演「太陽系外惑星 —人類古来...,2015-11-11T12:36:23Z,京都賞,UCylVKTa1tMuxnRoVg8a0CqQ,dZmYYOGZhZ6LTVuE7tXA2WZ8viA,https://www.youtube.com/watch?v=WQD0ATGMxe8,PT49M37S,605,5,,0,0,,,,29,[Society],[/m/098wr]


In [23]:
# sort by "publish Time"
df['publishTime'] = pd.to_datetime(df['publishTime'])
df = df.sort_values(by='publishTime')
# remove timezone
df['publishTime'] = pd.to_datetime(df['publishTime']).dt.tz_localize(None)
df

Unnamed: 0,videoId,title,description,publishTime,channelTitle,channelId,etag,url,duration,viewCount,likeCount,dislikeCount,favoriteCount,commentCount,topicCategory,topicId,videoCategory,videoCategoryId,topicCategories,topicIds
498,WQD0ATGMxe8,第31回京都賞記念講演会　基礎科学部門受賞者：ミシェル・マイヨール博士,2015年11月11日開催のミシェル・マイヨール博士による記念講演「太陽系外惑星 —人類古来...,2015-11-11 12:36:23,京都賞,UCylVKTa1tMuxnRoVg8a0CqQ,dZmYYOGZhZ6LTVuE7tXA2WZ8viA,https://www.youtube.com/watch?v=WQD0ATGMxe8,PT49M37S,605,5,,0,0,,,,29,[Society],[/m/098wr]
217,N7NN1zHKIrM,三橋貴明「“国の借金”というウソ！」 政府の負債・日本国債所有者 [モーニングCROSS],2016年8月12日(金) モーニングCROSS - ひとこと言いたい！オピニオンCROSS...,2016-08-19 15:38:23,CUT CROSS,UCT20Cat6TLg5JrRArVSP_6g,6nq4YaM6mHoIya1nDXbVBjhmDEA,https://www.youtube.com/watch?v=N7NN1zHKIrM,PT5M31S,1908693,26328,,0,3889,,,News & Politics,25,"[Politics, Society]","[/m/05qt0, /m/098wr]"
409,Zc9-Y5jiIO4,「貨幣と租税」日本の未来を考える勉強会 講師：評論家 中野剛志氏 平成29年4月27日,「貨幣と租税」日本の未来を考える勉強会 講師：評論家 中野剛志氏 平成29年4月27日 関連...,2017-05-02 17:25:37,超人大陸,UCy3Cr0DkrDY1QviMDlxcDZA,UhRXbk43OmJD7qoza2L6TKHH0XU,https://www.youtube.com/watch?v=Zc9-Y5jiIO4,PT49M54S,95230,,,0,121,,,News & Politics,25,[Society],[/m/098wr]
399,Zc9-Y5jiIO4,「貨幣と租税」日本の未来を考える勉強会 講師：評論家 中野剛志氏 平成29年4月27日,「貨幣と租税」日本の未来を考える勉強会 講師：評論家 中野剛志氏 平成29年4月27日 関連...,2017-05-02 17:25:37,超人大陸,UCy3Cr0DkrDY1QviMDlxcDZA,UhRXbk43OmJD7qoza2L6TKHH0XU,https://www.youtube.com/watch?v=Zc9-Y5jiIO4,PT49M54S,95230,,,0,121,,,News & Politics,25,[Society],[/m/098wr]
488,ctTUfLqJf74,【関西医科専門学校】MMT股関節屈曲,「MMT股関節屈曲」の解説です。,2018-01-29 00:26:36,関西医科専門学校,UCl7tXh4atUeSctig6nw8HcA,UEKLs4NtU1lr1BA62t99wSYhqqw,https://www.youtube.com/watch?v=ctTUfLqJf74,PT4M17S,62924,,,0,,,,Education,27,"[Health, Lifestyle_(sociology)]","[/m/0kt51, None]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
423,zvc9iN1nqs4,【未公開動画】セルフイメージを変える７つの方法を、ついに公開。97%の人がやってる潜在意識の...,この動画の「続き」を見たい方は、必ずメルマガ登録をしておいてください ☆ 神王リョウ・公式メ...,2023-05-29 09:23:45,神王ＴＶ,UCbGpIw5LmPNu4nSWqlaiu7g,mK88WzqoY8NQlcRDlMDcUFsrNEw,https://www.youtube.com/watch?v=zvc9iN1nqs4,PT15M6S,19351,521,,0,,,,Howto & Style,26,"[Health, Lifestyle_(sociology)]","[/m/0kt51, None]"
395,8Rsl2s5649Y,少子化とデフレの真の原因!!地方分権は間違いだった！身を切る改革は地方を衰退させる！（西田昌...,少子化とデフレの真の原因!!地方分権は間違いだった！ 身を切る改革は地方を衰退させる！ （西...,2023-06-07 10:39:19,西田昌司チャンネル,UC6Ze6VcAXK9_iBYyOSbtc5A,RRk_a-D3PHYsjc8DifPFO1DXXHg,https://www.youtube.com/watch?v=8Rsl2s5649Y,PT15M38S,9020,606,,0,154,,,News & Politics,25,[Society],[/m/098wr]
234,VTdSyxHYv5A,【激論】成田悠輔のMMT批判！コレを知らないなら経済学者を名乗るな！竹中平蔵と成田の意外な共...,成田悠輔は経済について本当に無知ですよね。彼が経済について議論するところをみたことないのです...,2023-06-11 09:00:07,保守思想チャンネル,UCGETvvxe9Fhu5PxIP7_DC7Q,6cSUOMj4166vBzJ3AUTczIBYW5g,https://www.youtube.com/watch?v=VTdSyxHYv5A,PT9M7S,4431,265,,0,84,,,News & Politics,25,,"[/m/05qt0, /m/098wr]"
147,5shl4izUbrs,【新説】日本の1200兆円の借金はなぜ大丈夫なんですか？ #経済解説 #1分でわかる経済ニ...,,2023-06-25 11:19:06,【1分でわかる経済ニュース】吉村ケイシ,UC9IvIrsy1rjh6pzxIt7PI3g,byzloz1SUAG4ltFoUjcFt0xfax8,https://www.youtube.com/watch?v=5shl4izUbrs,PT1M,217,3,,0,0,,,Education,27,[Lifestyle_(sociology)],[None]


In [25]:
# found that videos related to "MMT" is published the most in 2019 in Japan
yearly_counts = df.groupby(df['publishTime'].dt.to_period("Y")).size()
yearly_counts

publishTime
2015      1
2016      1
2017      2
2018     18
2019    102
2020    134
2021    112
2022     79
2023     51
Freq: A-DEC, dtype: int64

In [27]:
pip install pandas openpyxl

Collecting matplotlib
  Downloading matplotlib-3.7.2-cp310-cp310-win_amd64.whl (7.5 MB)
     ---------------------------------------- 7.5/7.5 MB 14.5 MB/s eta 0:00:00
Collecting contourpy>=1.0.1
  Downloading contourpy-1.1.0-cp310-cp310-win_amd64.whl (470 kB)
     ------------------------------------- 470.4/470.4 kB 14.8 MB/s eta 0:00:00
Collecting fonttools>=4.22.0
  Downloading fonttools-4.42.0-cp310-cp310-win_amd64.whl (2.1 MB)
     ---------------------------------------- 2.1/2.1 MB 16.8 MB/s eta 0:00:00
Collecting pillow>=6.2.0
  Downloading Pillow-10.0.0-cp310-cp310-win_amd64.whl (2.5 MB)
     ---------------------------------------- 2.5/2.5 MB 13.3 MB/s eta 0:00:00
Collecting kiwisolver>=1.0.1
  Using cached kiwisolver-1.4.4-cp310-cp310-win_amd64.whl (55 kB)
Collecting pyparsing<3.1,>=2.3.1
  Using cached pyparsing-3.0.9-py3-none-any.whl (98 kB)
Collecting cycler>=0.10
  Using cached cycler-0.11.0-py3-none-any.whl (6.4 kB)
Installing collected packages: pyparsing, pillow, kiwiso


[notice] A new release of pip available: 22.2.2 -> 23.2.1
[notice] To update, run: C:\Users\ukoda\MMT_youtube\Scripts\python.exe -m pip install --upgrade pip


In [30]:
# keep df as excel file
df.to_excel('MMT-youtube.xlsx', index=False, engine='openpyxl')

### Fetch transcription of a video

In [16]:
video_id = 'eFtzuZS6ldo'  # put the id of the video you want to get the transcription

# Get subtitles via API
transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)

# Setup language
transcript = transcript_list.find_generated_transcript(['ja'])

# display all subtitles
for line in transcript.fetch():
    print(line['text'])

ちょっと編集部の方からいただいたテーマ
の
案にとりあえずは
従って進めてみるますけれども最初にその
全くそのあのこの財政の議論について
あんまりどんな議論がされてるかっていう
のをご存じない方もおられるかもしれない
のでじゃあちょっと最初に
緊縮財政論あるいは財政健全化論がその何
を誤解をしているのか例えば
過去最大の
ウェブサイトでこれが例えば
矢野論文矢野さんは相手今の状況日本の
状況を例えればタイタニック号が氷山に
向かって
突進してるようなものだと書いていている
んですけどもこれは
基本的なわかりやすく言うと何を誤解しと
いうふうに言うと一番直感的にわかり
やすいですかねまあやはりまずその
政府の債務が
積み上がると
まずいとでこれはなんで多くの人がそうだ
なと思ってしまうかというとおそらくその
家系とか企業っていう経済主体と国という
経済主体を多分ごっちゃにしちゃってるん
だと思っていてでこれごっちゃにする理由
はすごいよくわかるんですよそうですね
なぜかというと僕ら普通個人として生きて
ますし普段家系じゃないですか多くの方が
どっかで働いて給料もらったりするわけな
のでまあその企業サイドの目線を持ってる
方もいれば個人の目線を持つこれは普通だ
と思うんですよねで国目線って普通持た
ないと思うんですよ普通の人生送ってたら
別に政治家の人なんて限られてるわけです
しそう考えると多分その無意識のうちに
備わってるのって個人と企業の目線である
とでその目線から見ると
借金は悪ですよねと
でもいいけど
返さないってことはありえませんよねって
いうロジックはすごくわかりやすいって
いうか確か現実社会においてはそうですよ
ねとそこに対して国の借金という表現を
使って当てはめていけば確かに国の借金が
膨れ上がるって事はとてもなんか怖いこと
のように思えますし
返さないと
孫とか子供が大変なので苦しいけど
税金取られてもしょうがないよねっていう
ロジックは非常によくできていて確かに
そのなんか国と個人
企業の目線を同じにしてしまうと言ってる
ことってすごく正しく聞こえちゃうんで
国家運営国家財政と
企業とかかけて違うでしょっていうところ
まず分けてないなっていうのが一つとあと
やっぱりその
必ず何かをする時には
財源として税収がないといけないという
発想ですよねでこれ何