In [2]:
from googleapiclient.discovery import build
import pandas as pd
from tqdm import tqdm
import time
from datetime import datetime

# 📅 日付を取得（例：'20240605'）
today = datetime.now().strftime("%Y%m%d")
# 🔑 APIキーとチャンネル設定
API_KEY = "AIzaSyApavwxqaBLkNyK65iHdgmUf9eX5CsYrmI"
CHANNEL_ID = "UCusnpkgavQhPV_8e_zEh_jw"
youtube = build("youtube", "v3", developerKey=API_KEY)

# ✅ プレイリスト経由で動画IDを完全取得
def get_all_video_ids_from_uploads(channel_id, max_results=1500):
    playlist_id = f"UU{channel_id[2:]}"
    video_ids = []
    next_page_token = None
    print("🎬 プレイリストから動画ID取得中...")
    while len(video_ids) < max_results:
        req = youtube.playlistItems().list(
            part="contentDetails",
            playlistId=playlist_id,
            maxResults=50,
            pageToken=next_page_token
        )
        res = req.execute()
        for item in res["items"]:
            video_ids.append(item["contentDetails"]["videoId"])
        next_page_token = res.get("nextPageToken")
        if not next_page_token:
            break
        time.sleep(0.1)
    return video_ids

# ✅ 動画詳細取得
def get_video_details(video_ids):
    all_data = []
    print("📦 動画情報取得中...")
    for i in tqdm(range(0, len(video_ids), 50)):
        batch = video_ids[i:i+50]
        res = youtube.videos().list(
            part="snippet,statistics,contentDetails",
            id=",".join(batch)
        ).execute()
        for item in res["items"]:
            snippet = item.get("snippet", {})
            stats = item.get("statistics", {})
            content = item.get("contentDetails", {})
            all_data.append({
                "videoId": item["id"],
                "title": snippet.get("title"),
                "description": snippet.get("description"),
                "publishedAt": snippet.get("publishedAt"),
                "categoryId": snippet.get("categoryId"),
                "tags": snippet.get("tags", []),
                "thumbnail": snippet.get("thumbnails", {}).get("high", {}).get("url"),
                "viewCount": int(stats.get("viewCount", 0)),
                "likeCount": int(stats.get("likeCount", 0)) if "likeCount" in stats else None,
                "commentCount": int(stats.get("commentCount", 0)) if "commentCount" in stats else None,
                "duration": content.get("duration")
            })
        time.sleep(0.1)
    return pd.DataFrame(all_data)

# ✅ データ取得
video_ids = get_all_video_ids_from_uploads(CHANNEL_ID)
new_df = get_video_details(video_ids)

# ✅ 新ファイル保存（自動で日付付け）
new_filename = f"youtube_dataset_{today}.xlsx"
new_df.to_excel(new_filename, index=False)
print(f"✅ 新データ保存完了！ → {new_filename} （動画数: {len(new_df)}）")

# ✅ 旧データと比較（固定名ファイルを参照）
old_df = pd.read_excel("youtube_dataset.xlsx")

# videoIdをキーに比較
old_df = old_df.set_index("videoId")
new_df = new_df.set_index("videoId")

# 共通動画の再生数差分
common_ids = old_df.index.intersection(new_df.index)
view_diff = new_df.loc[common_ids]["viewCount"] - old_df.loc[common_ids]["viewCount"]
view_diff_df = pd.DataFrame({
    "title": new_df.loc[common_ids]["title"],
    "old_view": old_df.loc[common_ids]["viewCount"],
    "new_view": new_df.loc[common_ids]["viewCount"],
    "diff": view_diff
}).sort_values(by="diff", ascending=False)

# 新しく追加された動画
new_videos = new_df.index.difference(old_df.index)
added_df = new_df.loc[new_videos]

# 旧データにあって今回ない動画（取りこぼしの可能性）
missing_df = old_df.loc[old_df.index.difference(new_df.index)]

# ✅ 出力（ファイル名に日付を含める）
view_diff_df.to_excel(f"view_diff_{today}.xlsx")
added_df.to_excel(f"new_videos_added_{today}.xlsx")
missing_df.to_excel(f"missing_old_videos_{today}.xlsx")

# ✅ 結果表示
print("📊 共通動画:", len(common_ids))
print("🆕 新しく追加された動画:", len(added_df))
print("⚠️ 旧データにあって今回見つからなかった動画:", len(missing_df))

ModuleNotFoundError: No module named 'googleapiclient'

In [7]:
!pip install openpyxl



Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   ---------------------------------------- 2/2 [o

In [1]:
from googleapiclient.discovery import build
import pandas as pd
from tqdm import tqdm
import time
from datetime import datetime

# 📅 日付（例：20240605）
today = datetime.now().strftime("%Y%m%d")

# 🔑 APIキーとチャンネル設定
API_KEY = "AIzaSyApavwxqaBLkNyK65iHdgmUf9eX5CsYrmI"
CHANNEL_ID = "UCusnpkgavQhPV_8e_zEh_jw"
youtube = build("youtube", "v3", developerKey=API_KEY)

# ✅ プレイリスト経由で動画ID取得
def get_all_video_ids_from_uploads(channel_id, max_results=1500):
    playlist_id = f"UU{channel_id[2:]}"
    video_ids = []
    next_page_token = None
    print("🎬 プレイリストから動画ID取得中...")
    while len(video_ids) < max_results:
        req = youtube.playlistItems().list(
            part="contentDetails",
            playlistId=playlist_id,
            maxResults=50,
            pageToken=next_page_token
        )
        res = req.execute()
        for item in res["items"]:
            video_ids.append(item["contentDetails"]["videoId"])
        next_page_token = res.get("nextPageToken")
        if not next_page_token:
            break
        time.sleep(0.1)
    return video_ids

# ✅ 動画詳細取得
def get_video_details(video_ids):
    all_data = []
    print("📦 動画情報取得中...")
    for i in tqdm(range(0, len(video_ids), 50)):
        batch = video_ids[i:i+50]
        res = youtube.videos().list(
            part="snippet,statistics,contentDetails",
            id=",".join(batch)
        ).execute()
        for item in res["items"]:
            snippet = item.get("snippet", {})
            stats = item.get("statistics", {})
            content = item.get("contentDetails", {})
            all_data.append({
                "videoId": item["id"],
                "title": snippet.get("title"),
                "description": snippet.get("description"),
                "publishedAt": snippet.get("publishedAt"),
                "categoryId": snippet.get("categoryId"),
                "tags": snippet.get("tags", []),
                "thumbnail": snippet.get("thumbnails", {}).get("high", {}).get("url"),
                "viewCount": int(stats.get("viewCount", 0)),
                "likeCount": int(stats.get("likeCount", 0)) if "likeCount" in stats else None,
                "commentCount": int(stats.get("commentCount", 0)) if "commentCount" in stats else None,
                "duration": content.get("duration")
            })
        time.sleep(0.1)
    return pd.DataFrame(all_data)

# ✅ 新データ取得
video_ids = get_all_video_ids_from_uploads(CHANNEL_ID)
new_df = get_video_details(video_ids)

# ✅ 重複排除して保存
new_df = new_df.drop_duplicates(subset="videoId")
new_filename = f"youtube_dataset_{today}.xlsx"
new_df.to_excel(new_filename, index=False)
print(f"✅ 新データ保存完了！ → {new_filename}（動画数: {len(new_df)}）")

# ✅ 旧データ読み込みと整形
old_df = pd.read_excel("youtube_dataset.xlsx")
old_df = old_df.drop_duplicates(subset="videoId")

# ✅ インデックス化
old_df = old_df.set_index("videoId")
new_df = new_df.set_index("videoId")

# ✅ 再生数差分（共通動画）
common_ids = old_df.index.intersection(new_df.index)
view_diff_df = pd.DataFrame({
    "title": new_df.loc[common_ids, "title"],
    "old_view": old_df.loc[common_ids, "viewCount"],
    "new_view": new_df.loc[common_ids, "viewCount"],
    "diff": new_df.loc[common_ids, "viewCount"] - old_df.loc[common_ids, "viewCount"]
}).sort_values(by="diff", ascending=False)

# ✅ 追加・消失動画
added_df = new_df.loc[new_df.index.difference(old_df.index)]
missing_df = old_df.loc[old_df.index.difference(new_df.index)]

# ✅ ファイル出力（全て日付付き）
view_diff_df.to_excel(f"view_diff_{today}.xlsx")
added_df.to_excel(f"new_videos_added_{today}.xlsx")
missing_df.to_excel(f"missing_old_videos_{today}.xlsx")

# ✅ サマリ出力
print("📊 共通動画:", len(common_ids))
print("🆕 新規動画:", len(added_df))
print("⚠️ 消失動画:", len(missing_df))


🎬 プレイリストから動画ID取得中...
📦 動画情報取得中...


100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:10<00:00,  2.30it/s]


✅ 新データ保存完了！ → youtube_dataset_20250829.xlsx（動画数: 1201）
📊 共通動画: 500
🆕 新規動画: 701
⚠️ 消失動画: 1


In [5]:
import pandas as pd

# Excelファイル読み込み（ファイル名は自分の保存名に合わせて変更）
new_videos_df = pd.read_excel("new_videos_added_20250605.xlsx")

# 必要な列だけ抽出 & 公開日時で並べ替え
added_summary = new_videos_df[["videoId", "title", "publishedAt", "viewCount"]].sort_values(by="publishedAt", ascending=False)

# 表示
print("📺 新規追加された動画一覧（新しい順）")
print(added_summary.to_string(index=False))


📺 新規追加された動画一覧（新しい順）
    videoId                                                                                                title          publishedAt  viewCount
9NJQoYCkaCI                                                       【ヒカル結婚/レペゼンフォックス解散ライブ/新みそきん実食忖度なしレビュー】本音で話します。 2025-06-03T13:07:01Z     239817
jLTs7w7Yt10                                                                  某大物グループYouTuberが解散してしまうかもしれない件について。 2025-06-01T12:01:49Z     247578
5HUFAjqxqzg                                                                      ヒカルとまえっさんが喧嘩した件について。僕達が判決を下します。 2025-05-29T12:02:03Z     267039
VlFSFbtMaIE                                                                    総面積8万k㎡超えの北海道なら完売必至の新みそきん余裕で買える説。 2025-05-27T12:02:00Z     258586
Hv-4rj6ne18                                               【コムドットやまと3冊目の書籍タイトルを当てよう/アマリザブレイキングダウン出場か？】本日は企画2本てです。 2025-05-24T12:01:43Z     261148
GPDdhRHPkaI                                 【ステパンジュン休止していた理由/あやなんセカパとのカップルch始動/みそきん新作発売/元カリスマブラザーズみの結婚】お待たせしまし