In [7]:
!pip install google-auth google-api-python-client
!pip install networkx
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
     -------------------------------------- 250.0/250.0 kB 1.9 MB/s eta 0:00:00
Collecting et-xmlfile
  Using cached et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2


In [15]:
import os
import json
import requests
import numpy as np
import pandas as pd
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
import networkx as nx
import matplotlib.pyplot as plt

# 設定ファイルのパス
config_file = 'config.json'

# 設定ファイルの読み込み
with open(config_file) as f:
    config = json.load(f)

# APIキーの取得
api_key = config['api_key']

# YouTube Data APIの設定
youtube = build('youtube', 'v3', developerKey=api_key)

In [3]:
# ビデオからチャンネルIDを取得
def get_channel_id(video_id):
    # 動画の詳細情報を取得
    video_response = youtube.videos().list(
        part='snippet',
        id=video_id
    ).execute()

    # 動画の詳細情報からチャンネルIDを取得
    channel_id = video_response['items'][0]['snippet']['channelId']

    return channel_id

In [12]:
# チャンネルのすべての動画のIDを取得
def get_video_id(channel_id):
    # チャンネル情報を取得
    channel_response = youtube.channels().list(
        part='snippet',
        id=channel_id
    ).execute()
    channel_name =     channel_response['items'][0]['snippet']['customUrl']

    # チャンネルの動画を取得
    videos = []
    next_page_token = None

    while True:
        # チャンネルのプレイリストを取得
        channel_response = youtube.channels().list(
            part='contentDetails',
            id=channel_id
        ).execute()

        # プレイリストのIDを取得
        uploads_playlist_id = channel_response['items'][0]['contentDetails']['relatedPlaylists']['uploads']

        # プレイリストの動画を取得
        playlist_items_response = youtube.playlistItems().list(
            part='snippet',
            playlistId=uploads_playlist_id,
            maxResults=50,
            pageToken=next_page_token
        ).execute()

        videos.extend(playlist_items_response['items'])

        next_page_token = playlist_items_response.get('nextPageToken')

        if not next_page_token:
            break

    # 結果をエクセルファイルで保存
    df_videos = pd.DataFrame(videos)
    df_videos.to_excel(f'data/videos/{channel_name}_videos.xlsx')
    # 結果をJSONファイルで保存
    df_videos.to_json(f'data/videos/{channel_name}_videos.json', orient='records')


    # 取得した動画のIDを格納するリスト
    video_ids = []

    # 取得した動画のIDをリストに追加
    for video in videos:
        video_id = video['snippet']['resourceId']['videoId']
        video_ids.append(video_id)
    
    return video_ids, channel_name

# チャンネルのすべての動画からすべてのコメントを取得
def get_comments(video_ids, channel_name):
    # コメントを取得
    comments = []

    for video_id in video_ids:
        next_page_token = None

        while True:
            try:
                # 動画のコメントスレッドを取得
                comment_response = youtube.commentThreads().list(
                    part='snippet',
                    videoId=video_id,
                    maxResults=100,
                    pageToken=next_page_token
                ).execute()

                comments.extend(comment_response['items'])

                next_page_token = comment_response.get('nextPageToken')

                if not next_page_token:
                    break
            # コメントが無効になっている場合にエラーをはかないようにするため
            except HttpError as e:
                error = json.loads(e.content)
                if error['error']['errors'][0]['reason'] == 'commentsDisabled':
                    # コメントが無効になっている場合はスキップして次の動画に進む
                    break
                else:
                    # その他のエラーは処理を停止してエラーメッセージを表示
                    raise Exception(f"An error occurred: {error}")

    # 結果をエクセルファイルで保存
    df_comments = pd.DataFrame(comments)
    df_comments.to_excel(f'data/comments/{channel_name}_comments.xlsx')
    # 結果をJSONファイルで保存
    df_comments.to_json(f'data/comments/{channel_name}_comments.json', orient='records')

    return comments

In [13]:
# チャンネルのID
# channel_id = "UCXjTiSGclQLVVU83GVrRM4w"
video_id = "WPSB7guVd4A"
channel_id = get_channel_id(video_id) 
video_ids, channel_name = get_video_id(channel_id)
comments = get_comments(video_ids, channel_name)

In [None]:
# データフレームに格納されているテキストデータを辞書型に変換
def txt_to_dict(df):
    for i in range(len(df)):
        for j in range(len(df[i])):
            text = df[i][j]
            text = text.replace("\"","---").replace("'", "\"").replace("---","'").replace("True", "\"True\"")
            dic = json.loads(text)
            df.at[j, i] = dic
    return df

In [None]:
df = pd.read_excel('data/mentalistdaigo_comment.xlsx')
